このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210806となっている論文です。

PDF登録状況(公開日: 20210806)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) クラス不均衡パターン分類問題に対するSMOTified-GAN [全文訳有]

SMOTified-GAN for class imbalanced pattern classification problems ( http://arxiv.org/abs/2108.03235v1 )

ライセンス: CC BY 4.0
Anuraganand Sharma, Prabhat Kumar Singh, Rohitash Chandra(参考訳) データセット内のクラス不均衡は、大多数のトレーニングデータセットに対して、高いtrue positive rate (tpr) でも低true negative rate (tnr) の予測が不十分な分類器の主要な問題である。 一般に、マイノリティクラス(es)のオーバーサンプリングの前処理技術は、この不足を克服するために用いられる。 我々の焦点は、クラス不均衡問題に対処するために、GAN(Generative Adversarial Network)とSMOTE(Synthetic Minority Over-Sampling Technique)のハイブリッド化を利用することである。 本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。 SMOTEが生成したマイノリティクラスの初期データは、より高品質なサンプルを生成するGANによってさらに強化される。 我々はSMOTified-GANと命名し、サンプル自体をランダムに生成するのではなく、SMOTEが生成したマイノリティデータを事前サンプリングした。 実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。 その性能は、f1-score測定でテストされた次の最良のアルゴリズムから最大9\%向上する。 その時間複雑性は、逐次アルゴリズムに対しておよそ$O(N^2d^2T)$である。

Class imbalance in a dataset is a major problem for classifiers that results in poor prediction with a high true positive rate (TPR) but a low true negative rate (TNR) for a majority positive training dataset. Generally, the pre-processing technique of oversampling of minority class(es) are used to overcome this deficiency. Our focus is on using the hybridization of Generative Adversarial Network (GAN) and Synthetic Minority Over-Sampling Technique (SMOTE) to address class imbalanced problems. We propose a novel two-phase oversampling approach that has the synergy of SMOTE and GAN. The initial data of minority class(es) generated by SMOTE is further enhanced by GAN that produces better quality samples. We named it SMOTified-GAN as GAN works on pre-sampled minority data produced by SMOTE rather than randomly generating the samples itself. The experimental results prove the sample quality of minority class(es) has been improved in a variety of tested benchmark datasets. Its performance is improved by up to 9\% from the next best algorithm tested on F1-score measurements. Its time complexity is also reasonable which is around $O(N^2d^2T)$ for a sequential algorithm.
翻訳日:2021-08-12 07:02:26 公開日:2021-08-06
# (参考訳) 第四次ハーディフィルタによるロバストレーン検出 [全文訳有]

A Robust Lane Detection Associated with Quaternion Hardy Filter ( http://arxiv.org/abs/2108.04356v1 )

ライセンス: CC0 1.0
Wenshan Bi, Dong Cheng, Kit Ian Kou(参考訳) 本稿では,四元数ハーディフィルタに基づくロバストなカラーエッジ特徴抽出法を提案する。 Quaternion Hardyフィルタは新たなエッジ検出理論である。 ポアソンと共役ポアソンは、様々な種類のノイズを処理するためにカーネルを平滑化する。 The Quaternion Hardy filter, Jin's color gradient operator and Hough transform, the color-edge feature detection algorithm is proposed and applied to the lane marking detection。 提案アルゴリズムの有効性を示す実験を行った。 結果は複雑な環境レーンマーキングに関して正確かつ堅牢である。

In this article, a robust color-edge feature extraction method based on the Quaternion Hardy filter is proposed. The Quaternion Hardy filter is an emerging edge detection theory. It is along with the Poisson and conjugate Poisson smoothing kernels to handle various types of noise. Combining with the Quaternion Hardy filter, Jin's color gradient operator and Hough transform, the color-edge feature detection algorithm is proposed and applied to the lane marking detection. Experiments are presented to demonstrate the validity of the proposed algorithm. The results are accurate and robust with respect to the complex environment lane markings.
翻訳日:2021-08-12 06:45:08 公開日:2021-08-06
# (参考訳) igibson 2.0: 日常生活タスクのロボット学習のためのオブジェクト中心シミュレーション [全文訳有]

IGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks ( http://arxiv.org/abs/2108.03272v1 )

ライセンス: CC BY 4.0
Chengshu Li, Fei Xia, Roberto Mart\'in-Mart\'in, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, Silvio Savarese(参考訳) 近年,ロボット学習手法の開発と訓練にシミュレーション環境を用いることで,AIの具体化に関する最近の研究が進められている。 しかし、シミュレーションの使用は、ロボットシミュレーターがシミュレートできるもの(モーションと物理的接触)だけを必要とするタスクに注意を向けている。 提案するiGibson 2.0は,3つの重要なイノベーションを通じて,より多様な家庭用タスクのシミュレーションを支援する,オープンソースのシミュレーション環境である。 まず、iGibson 2.0は、温度、湿性レベル、清潔度レベル、および幅広いタスクをカバーするために必要なトグルおよびスライス状態を含むオブジェクト状態をサポートする。 第2に、iGibson 2.0は述語論理関数のセットを実装し、シミュレータ状態をCookedやSoakedのような論理状態にマッピングする。 さらに、論理状態が与えられた場合、iGibson 2.0はそれを満たす有効な物理状態をサンプリングすることができる。 この機能は、ユーザから最小限の労力で、潜在的に無限のタスクインスタンスを生成することができる。 サンプリング機構により、シーンは意味的に意味のある場所にある小さなオブジェクトでより密集している。 第3に、iGibson 2.0にはバーチャルリアリティ(VR)インターフェースがあり、人間をシーンに浸してデモを収集する。 その結果,人間による新しいタスクのデモを収集し,模倣学習に利用することができる。 igibson 2.0の新たな能力を評価して,新しいタスクのロボット学習を可能にし,具体化aiにおける新たな研究を支援する新たなシミュレータの可能性を示すことを期待する。 iGibson 2.0とその新しいデータセットはhttp://svl.stanford. edu/igibson/で公開される。

Recent research in embodied AI has been boosted by the use of simulation environments to develop and train robot learning approaches. However, the use of simulation has skewed the attention to tasks that only require what robotics simulators can simulate: motion and physical contact. We present iGibson 2.0, an open-source simulation environment that supports the simulation of a more diverse set of household tasks through three key innovations. First, iGibson 2.0 supports object states, including temperature, wetness level, cleanliness level, and toggled and sliced states, necessary to cover a wider range of tasks. Second, iGibson 2.0 implements a set of predicate logic functions that map the simulator states to logic states like Cooked or Soaked. Additionally, given a logic state, iGibson 2.0 can sample valid physical states that satisfy it. This functionality can generate potentially infinite instances of tasks with minimal effort from the users. The sampling mechanism allows our scenes to be more densely populated with small objects in semantically meaningful locations. Third, iGibson 2.0 includes a virtual reality (VR) interface to immerse humans in its scenes to collect demonstrations. As a result, we can collect demonstrations from humans on these new types of tasks, and use them for imitation learning. We evaluate the new capabilities of iGibson 2.0 to enable robot learning of novel tasks, in the hope of demonstrating the potential of this new simulator to support new research in embodied AI. iGibson 2.0 and its new dataset will be publicly available at http://svl.stanford. edu/igibson/.
翻訳日:2021-08-12 05:28:43 公開日:2021-08-06
# (参考訳) インスタンスセグメンテーションに向けたセマンティックセグメンテーションと物体検出:乳癌の同定 [全文訳有]

Semantic Segmentation and Object Detection Towards Instance Segmentation: Breast Tumor Identification ( http://arxiv.org/abs/2108.03287v1 )

ライセンス: CC BY 4.0
Mohamed Mejri and Aymen Mejri and Oumayma Mejri and Chiraz Fekih(参考訳) 乳癌は女性の死亡率を上昇させる要因の1つである。 この地質学的疾患の診断に最も広く用いられる方法、すなわち 乳がんは超音波スキャンです。 超音波検査で捉えた腫瘍の滑らかさや質感などの重要な特徴は、乳腺腫瘍(良性腫瘍)の異常をコードしている。 しかし、超音波検査はしばしばノイズが多く、乳房の無関係な部分が含まれ、最終的には腫瘍の分節に偏っている可能性がある。 本稿では,腫瘍の領域(すなわち,腫瘍の境界ボックス)を抽出し,その分類(悪性または良性)に基づいて1つのセグメンテーションエンコーダ・デコーダ構造にフィードフォワードする。 プロセス全体は、セグメンテーションセグメンタとオブジェクト検出器からインスタンスベースのセグメンタを構築することを目的としている。

Breast cancer is one of the factors that cause the increase of mortality of women. The most widely used method for diagnosing this geological disease i.e. breast cancer is the ultrasound scan. Several key features such as the smoothness and the texture of the tumor captured through ultrasound scans encode the abnormality of the breast tumors (malignant from benign). However, ultrasound scans are often noisy and include irrelevant parts of the breast that may bias the segmentation of eventual tumors. In this paper, we are going to extract the region of interest ( i.e, bounding boxes of the tumors) and feed-forward them to one semantic segmentation encoder-decoder structure based on its classification (i.e, malignant or benign). the whole process aims to build an instance-based segmenter from a semantic segmenter and an object detector.
翻訳日:2021-08-12 05:03:51 公開日:2021-08-06
# (参考訳) 協調型ap探索とスケジューリング:コンテキストバンディットによるアプローチ [全文訳有]

Joint AP Probing and Scheduling: A Contextual Bandit Approach ( http://arxiv.org/abs/2108.03297v1 )

ライセンス: CC BY 4.0
Tianyi Xu, Ding Zhang, Parth H. Pathak, Zizhan Zheng(参考訳) 我々は、モバイルクライアントと協調して機能する未知のデータレートを持つAPについて検討する。 各リンクのデータレートは i.i.d. である。 事前性が不明な分布からサンプリングする。 不確実性のある従来のリンクスケジューリング問題とは対照的に、各タイムステップにおいて、どのリンクを使用するかを決定する前にリンクのサブセットを探索できると仮定する。 本稿では,この問題を探索問題(CBwP)としてモデル化し,効率的なアルゴリズムを提案する。 我々はBernoulliデータレートとリンクするアルゴリズムの後悔をさらに証明する。 我々のCBwPモデルは、古典的な文脈的バンディットモデルの新たな拡張であり、共同探索と不確実性の下でのプレーを含む、シーケンシャルな意思決定問題に応用できる可能性がある。

We consider a set of APs with unknown data rates that cooperatively serve a mobile client. The data rate of each link is i.i.d. sampled from a distribution that is unknown a priori. In contrast to traditional link scheduling problems under uncertainty, we assume that in each time step, the device can probe a subset of links before deciding which one to use. We model this problem as a contextual bandit problem with probing (CBwP) and present an efficient algorithm. We further establish the regret of our algorithm for links with Bernoulli data rates. Our CBwP model is a novel extension of the classic contextual bandit model and can potentially be applied to a large class of sequential decision-making problems that involve joint probing and play under uncertainty.
翻訳日:2021-08-12 04:54:18 公開日:2021-08-06
# (参考訳) 不完全3次元境界ボックスを用いた医用画像分割 [全文訳有]

Medical image segmentation with imperfect 3D bounding boxes ( http://arxiv.org/abs/2108.03300v1 )

ライセンス: CC BY 4.0
Ekaterina Redekop, Alexey Chernyavskiy(参考訳) 高品質な医用画像分割アルゴリズムの開発は、ピクセルレベルのラベルを持つ大規模データセットの可用性に依存する。 このようなデータセットを集めること、特に3Dボリュームの場合の課題は、入手しやすい他のタイプのラベルから学習できるアプローチを開発することにある。 バウンディングボックス。 我々は,3次元の医療画像に対応する3次元境界ボックスを,スライス当たりの2次元境界ボックスのシリーズと見なす。 2dバウンディングボックスを弱いラベルとして使用する現在の弱い教師付きアプローチは医用画像セグメンテーションに適用できるが、バウンディングボックスのタイト性に関する仮定が破られる場合、その成功は限定的である。 本稿では,ピクセルレベルアノテーションの小さなセットで学習し,より大きなバウンディングボックスアノテーションのタイト性を改善する新しいバウンディングボックス補正フレームワークを提案する。 本手法の有効性は,提案する境界ボックス補正アルゴリズムを使わずに既知の弱教師付きセグメンテーション手法を評価することで実証された。 解法により密着性が向上すると, 弱教師付きセグメント化の結果は, 完全教師付きセグメントよりもはるかに近いものとなる。

The development of high quality medical image segmentation algorithms depends on the availability of large datasets with pixel-level labels. The challenges of collecting such datasets, especially in case of 3D volumes, motivate to develop approaches that can learn from other types of labels that are cheap to obtain, e.g. bounding boxes. We focus on 3D medical images with their corresponding 3D bounding boxes which are considered as series of per-slice non-tight 2D bounding boxes. While current weakly-supervised approaches that use 2D bounding boxes as weak labels can be applied to medical image segmentation, we show that their success is limited in cases when the assumption about the tightness of the bounding boxes breaks. We propose a new bounding box correction framework which is trained on a small set of pixel-level annotations to improve the tightness of a larger set of non-tight bounding box annotations. The effectiveness of our solution is demonstrated by evaluating a known weakly-supervised segmentation approach with and without the proposed bounding box correction algorithm. When the tightness is improved by our solution, the results of the weakly-supervised segmentation become much closer to those of the fully-supervised one.
翻訳日:2021-08-12 04:34:49 公開日:2021-08-06
# (参考訳) 深層学習と伝達学習による攻撃言語とヘイトスピーチ検出 [全文訳有]

Offensive Language and Hate Speech Detection with Deep Learning and Transfer Learning ( http://arxiv.org/abs/2108.03305v1 )

ライセンス: CC BY 4.0
Bencheng Wei, Jason Li, Ajay Gupta, Hafiza Umair, Atsu Vovor, Natalie Durzynski(参考訳) 近年,様々な文化や教育的背景を持つ人々によるインターネット利用の急増により,有害なオンラインスピーチが重要な問題となっている。 テキストメッセージがヘイトスピーチや攻撃的言語に属するかどうかを区別することは、有害なテキストコンテンツの自動検出において重要な課題である。 本稿では,ツイートを自動的に3つのクラスに分類する手法を提案する。 公開ツイートデータセットを使用して、まず空の埋め込みからBI-LSTMモデルを構築する実験を行い、トレーニング済みのGlove埋め込みと同じニューラルネットワークアーキテクチャを試しました。 次に,既存の事前学習型言語モデルBERT (Bidirectional Encoder Representations from Transformers), DistilBert (Distilled Version of BERT), GPT-2 (Generative Pre-Training) を用いたヘイトスピーチ検出のための伝達学習手法を提案する。 我々は,ニューラルネットワークアーキテクチャ,学習速度,正規化手法などを考慮した,最良のモデル(BI-LSTM)のハイパーパラメータチューニング分析を行う。 モデルのチューニングとパラメータの最適な組み合わせによって、テストデータで評価することで、92%以上の精度を達成しました。 また、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールも作成します。 このモデルは、ユーザーとTwitterの間の中間モジュールとして機能する。

Toxic online speech has become a crucial problem nowadays due to an exponential increase in the use of internet by people from different cultures and educational backgrounds. Differentiating if a text message belongs to hate speech and offensive language is a key challenge in automatic detection of toxic text content. In this paper, we propose an approach to automatically classify tweets into three classes: Hate, offensive and Neither. Using public tweet data set, we first perform experiments to build BI-LSTM models from empty embedding and then we also try the same neural network architecture with pre-trained Glove embedding. Next, we introduce a transfer learning approach for hate speech detection using an existing pre-trained language model BERT (Bidirectional Encoder Representations from Transformers), DistilBert (Distilled version of BERT) and GPT-2 (Generative Pre-Training). We perform hyper parameters tuning analysis of our best model (BI-LSTM) considering different neural network architectures, learn-ratings and normalization methods etc. After tuning the model and with the best combination of parameters, we achieve over 92 percent accuracy upon evaluating it on test data. We also create a class module which contains main functionality including text classification, sentiment checking and text data augmentation. This model could serve as an intermediate module between user and Twitter.
翻訳日:2021-08-12 04:27:17 公開日:2021-08-06
# (参考訳) BEHAVIOR:バーチャル・インタラクティブ・エコロジー環境における日々の家庭活動のベンチマーク

BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments ( http://arxiv.org/abs/2108.03332v1 )

ライセンス: CC BY 4.0
Sanjana Srivastava, Chengshu Li, Michael Lingelbach, Roberto Mart\'in-Mart\'in, Fei Xia, Kent Vainio, Zheng Lian, Cem Gokmen, Shyamal Buch, C. Karen Liu, Silvio Savarese, Hyowon Gweon, Jiajun Wu, Li Fei-Fei(参考訳) 本研究は,身体化されたaiのシミュレーションを対象とし,クリーニングやメンテナンス,食品準備など,日常生活の雑用を対象とする行動分析手法を提案する。 これらの活動は現実的で多様で複雑であり、エージェントが現実世界で直面する課題を再現することを目的としている。 このようなベンチマークの構築は、定義(時間、場所、人によって異なる)、シミュレータでのインスタンス化、評価の3つの基本的な問題を引き起こす。 BEHAVIORはこれらに3つのイノベーションで対処する。 まず,アクティビティの初期および目標条件を表現し,任意のアクティビティに対して多様なインスタンスを生成するための,オブジェクト中心の述語論理に基づく記述言語を提案する。 第2に、BEHAVIORをサポートする環境において必要となるシミュレータ非依存の特徴を特定し、その実現を1つのシミュレータで示す。 第3に、タスクの進捗と効率、絶対的かつ人間デモに対する相対的な測定値のセットを導入する。 われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。 我々の実験は、最先端のAIソリューションでさえ、我々のベンチマークのアクティビティによって課される現実主義、多様性、複雑さのレベルに苦しむことを示した。 我々はBEHAVIORを Behavior.stanford.ed u で公開し、新しい組込みAIソリューションの開発を容易にし、校正する。

We introduce BEHAVIOR, a benchmark for embodied AI with 100 activities in simulation, spanning a range of everyday household chores such as cleaning, maintenance, and food preparation. These activities are designed to be realistic, diverse, and complex, aiming to reproduce the challenges that agents must face in the real world. Building such a benchmark poses three fundamental difficulties for each activity: definition (it can differ by time, place, or person), instantiation in a simulator, and evaluation. BEHAVIOR addresses these with three innovations. First, we propose an object-centric, predicate logic-based description language for expressing an activity's initial and goal conditions, enabling generation of diverse instances for any activity. Second, we identify the simulator-agnostic features required by an underlying environment to support BEHAVIOR, and demonstrate its realization in one such simulator. Third, we introduce a set of metrics to measure task progress and efficiency, absolute and relative to human demonstrators. We include 500 human demonstrations in virtual reality (VR) to serve as the human ground truth. Our experiments demonstrate that even state of the art embodied AI solutions struggle with the level of realism, diversity, and complexity imposed by the activities in our benchmark. We make BEHAVIOR publicly available at behavior.stanford.ed u to facilitate and calibrate the development of new embodied AI solutions.
翻訳日:2021-08-12 04:25:47 公開日:2021-08-06
# (参考訳) 交叉型固有値を用いたグラフ次元の推定

Estimating Graph Dimension with Cross-validated Eigenvalues ( http://arxiv.org/abs/2108.03336v1 )

ライセンス: CC BY 4.0
Fan Chen, Sebastien Roch, Karl Rohe, Shuqi Yu(参考訳) 応用多変量統計学において、潜在次元数やクラスタ数の推定は基本的かつ反復的な問題である。 一般的な診断は、データマトリックスの最大の固有値を示すscreeプロットであり、ユーザは、減少する固有値の"ギャップ"や"肘"を検索するが、残念ながら、これらのパターンはサンプル固有値のバイアスの下に隠れる可能性がある。 なぜなら、多くの状況では、$k$の集団次元/固有ベクトルのサブセットを検出するのに十分な信号しか存在しないからである。 この状況では、$k$ の正しい選択は検出可能な次元の数であると主張することができる。 我々はこれらの問題をクロスバリデード固有値で緩和する。 パラメトリックな仮定なしに、ランダムグラフモデルの大きなクラスの下で、各サンプル固有ベクトルに対してp値を提供する。 これは、このサンプル固有ベクトルが真の潜在次元に直交する(すなわち非相関)という零仮説をテストする。 このアプローチは、ある次元が統計的に検出できない問題に自然に適応する。 すべての$k$次元を推定できるシナリオでは、我々の手順が一貫して$k$を推定することを証明する。 シミュレーションとデータ例において、提案する推定器は、計算と統計のパフォーマンスの両方において、代替手法と好適に比較される。

In applied multivariate statistics, estimating the number of latent dimensions or the number of clusters is a fundamental and recurring problem. One common diagnostic is the scree plot, which shows the largest eigenvalues of the data matrix; the user searches for a "gap" or "elbow" in the decreasing eigenvalues; unfortunately, these patterns can hide beneath the bias of the sample eigenvalues. This methodological problem is conceptually difficult because, in many situations, there is only enough signal to detect a subset of the $k$ population dimensions/eigenvect ors. In this situation, one could argue that the correct choice of $k$ is the number of detectable dimensions. We alleviate these problems with cross-validated eigenvalues. Under a large class of random graph models, without any parametric assumptions, we provide a p-value for each sample eigenvector. It tests the null hypothesis that this sample eigenvector is orthogonal to (i.e., uncorrelated with) the true latent dimensions. This approach naturally adapts to problems where some dimensions are not statistically detectable. In scenarios where all $k$ dimensions can be estimated, we prove that our procedure consistently estimates $k$. In simulations and a data example, the proposed estimator compares favorably to alternative approaches in both computational and statistical performance.
翻訳日:2021-08-12 04:23:17 公開日:2021-08-06
# 1次元時系列振動データを用いた深部ニューラルネットワークのアンサンブル強化

Ensemble Augmentation for Deep Neural Networks Using 1-D Time Series Vibration Data ( http://arxiv.org/abs/2108.03288v1 )

ライセンス: Link先を確認
Atik Faysal, Ngui Wai Keng, M. H. Lim(参考訳) 時系列データは、データ駆動技術で使用される生データ表現の基本的なタイプの1つである。 機械状態監視では、時系列振動データはディープニューラルネットワークのデータマイニングで過剰に使用される。 一般に、振動データはディープニューラルネットワーク(dnn)を使用して画像に変換され、スカルグラムは画像表現の最も効果的な形態である。 しかし、dnn分類器は最適な性能に達するために膨大なラベル付きトレーニングサンプルを必要とする。 したがって、トレーニングサンプルの欠如を補うために、分類器に多くの種類のデータ拡張技術が適用される。 しかしながら、スカルグラムはグラフィカルな意味を変えるか、物理的な意味を変えるサンプルにノイズが多すぎるため、既存の拡張技法が苦しむグラフィカルな表現である。 本研究では,この制限を克服するために,アンサンブル拡張というデータ拡張手法を提案する。 この拡張法は、原サンプルのアンサンブルに付加された白色雑音のパワーを用いて実状サンプルを生成する。 信号をアンサンブルで平均化すると、元の信号の特徴を含む新しい信号が得られる。 アンサンブル拡張のためのパラメータは、シミュレーション信号を用いて検証される。 提案手法は,inception-v3,mobile net-v2,resnet50の3モデルを用いた10種類の振動データを用いて評価した。 増量サンプルは、トレーニングサンプルと同数の偽サンプルを生成する第1インクリメントと、第2インクリメントでは、徐々に増量される2つのインクリメントで生成される。 提案手法から得られる出力は, 増大しない, 深部畳み込み生成逆数ネットワーク(DCGAN)による増大, 幾何的変換に基づく増大などと比較される。

Time-series data are one of the fundamental types of raw data representation used in data-driven techniques. In machine condition monitoring, time-series vibration data are overly used in data mining for deep neural networks. Typically, vibration data is converted into images for classification using Deep Neural Networks (DNNs), and scalograms are the most effective form of image representation. However, the DNN classifiers require huge labeled training samples to reach their optimum performance. So, many forms of data augmentation techniques are applied to the classifiers to compensate for the lack of training samples. However, the scalograms are graphical representations where the existing augmentation techniques suffer because they either change the graphical meaning or have too much noise in the samples that change the physical meaning. In this study, a data augmentation technique named ensemble augmentation is proposed to overcome this limitation. This augmentation method uses the power of white noise added in ensembles to the original samples to generate real-like samples. After averaging the signal with ensembles, a new signal is obtained that contains the characteristics of the original signal. The parameters for the ensemble augmentation are validated using a simulated signal. The proposed method is evaluated using 10 class bearing vibration data using three state-of-the-art Transfer Learning (TL) models, namely, Inception-V3, MobileNet-V2, and ResNet50. Augmented samples are generated in two increments: the first increment generates the same number of fake samples as the training samples, and in the second increment, the number of samples is increased gradually. The outputs from the proposed method are compared with no augmentation, augmentations using deep convolution generative adversarial network (DCGAN), and several geometric transformation-based augmentations...
翻訳日:2021-08-10 15:48:42 公開日:2021-08-06
# ロボットマニピュレーションのためのオフライン人間デモから学ぶこと

What Matters in Learning from Offline Human Demonstrations for Robot Manipulation ( http://arxiv.org/abs/2108.03298v1 )

ライセンス: Link先を確認
Ajay Mandlekar, Danfei Xu, Josiah Wong, Soroush Nasiriany, Chen Wang, Rohun Kulkarni, Li Fei-Fei, Silvio Savarese, Yuke Zhu, Roberto Mart\'in-Mart\'in(参考訳) 人間のデモを模倣することは、様々な操作能力を備えたロボットを支援できる有望なアプローチである。 模倣学習やバッチ(オフライン)強化学習における最近の進歩は、オープンソースの人間データセットや再現可能な学習方法の欠如によって、この分野の状態の評価が困難になっている。 本稿では,ロボット操作のための6つのオフライン学習アルゴリズムについて,複雑さの異なる5つの実世界のマルチステージ操作タスクと,品質の異なるデータセットについて,詳細な研究を行う。 本研究は、オフラインの人的データから学習する際の最も重要な課題を分析した。 本研究は,異なるアルゴリズム設計選択に対する感受性,実演の質への依存性,学習と評価の異なる目的による停止基準に基づく変動性などの一連の教訓を導出した。 また、現在の強化学習手法の範囲を超えて、挑戦的かつ多段階的なタスクに関する熟練したポリシーを学ぶ能力や、生の知覚信号しか利用できない自然な実世界の操作シナリオに容易にスケールできる能力など、人間のデータセットから学ぶ機会も強調する。 当社はデータセットとすべてのアルゴリズム実装をオープンソース化し、将来の研究と人間のデモンストレーションデータからの学習における公平な比較を促進しました。 コードベース、データセット、トレーニングされたモデルなど、https://arise-initia tive.github.io/robom imic-web/

Imitating human demonstrations is a promising approach to endow robots with various manipulation capabilities. While recent advances have been made in imitation learning and batch (offline) reinforcement learning, a lack of open-source human datasets and reproducible learning methods make assessing the state of the field difficult. In this paper, we conduct an extensive study of six offline learning algorithms for robot manipulation on five simulated and three real-world multi-stage manipulation tasks of varying complexity, and with datasets of varying quality. Our study analyzes the most critical challenges when learning from offline human data for manipulation. Based on the study, we derive a series of lessons including the sensitivity to different algorithmic design choices, the dependence on the quality of the demonstrations, and the variability based on the stopping criteria due to the different objectives in training and evaluation. We also highlight opportunities for learning from human datasets, such as the ability to learn proficient policies on challenging, multi-stage tasks beyond the scope of current reinforcement learning methods, and the ability to easily scale to natural, real-world manipulation scenarios where only raw sensory signals are available. We have open-sourced our datasets and all algorithm implementations to facilitate future research and fair comparisons in learning from human demonstration data. Codebase, datasets, trained models, and more available at https://arise-initia tive.github.io/robom imic-web/
翻訳日:2021-08-10 15:43:19 公開日:2021-08-06
# Facebook AI WMT21ニュース翻訳タスクの提出

Facebook AI WMT21 News Translation Task Submission ( http://arxiv.org/abs/2108.03265v1 )

ライセンス: Link先を確認
Chau Tran, Shruti Bhosale, James Cross, Philipp Koehn, Sergey Edunov, Angela Fan(参考訳) ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。 我々は、チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語方向に参加している。 これらすべての方向をカバーするシステムを開発するために,多言語モデルに焦点をあてる。 wmt、大規模データマイニング、ドメイン内バックトランスレーションといった、利用可能なすべてのソースからのデータを使用して、高品質なバイリンガルおよび多言語ベースラインを作成します。 次に,8言語すべてで高品質な表現に十分な能力を持つような多言語モデルサイズをスケールするための戦略を検討する。 最終提出は密集した多言語翻訳モデルの集合であり、その後、ドメイン内のニュースデータとノイズチャネルの再分類を行った。 前年度の受賞者と比較して,多言語システムは全言語方向の翻訳品質が向上し,平均2.0 bleuが向上した。 WMT2021タスクでは,自動評価に基づいて10方向にランク付けする。

We describe Facebook's multilingual model submission to the WMT2021 shared task on news translation. We participate in 14 language directions: English to and from Czech, German, Hausa, Icelandic, Japanese, Russian, and Chinese. To develop systems covering all these directions, we focus on multilingual models. We utilize data from all available sources --- WMT, large-scale data mining, and in-domain backtranslation --- to create high quality bilingual and multilingual baselines. Subsequently, we investigate strategies for scaling multilingual model size, such that one system has sufficient capacity for high quality representations of all eight languages. Our final submission is an ensemble of dense and sparse Mixture-of-Expert multilingual translation models, followed by finetuning on in-domain news data and noisy channel reranking. Compared to previous year's winning submissions, our multilingual system improved the translation quality on all language directions, with an average improvement of 2.0 BLEU. In the WMT2021 task, our system ranks first in 10 directions based on automatic evaluation.
翻訳日:2021-08-10 15:38:56 公開日:2021-08-06
# ゼロショット言語モデリングに向けて

Towards Zero-shot Language Modeling ( http://arxiv.org/abs/2108.03334v1 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Ivan Vuli\'c, Ryan Cotterell, Roi Reichart, and Anna Korhonen(参考訳) 人間の言語を学ぶために帰納的にバイアスがかかるニューラルモデルを構築することができるか? この課題に動機づけられた我々は,文字レベル言語モデリングのタスクにおいて,保留言語に迅速に適応するために,神経重みよりも情報的優先を構築することを目的としている。 この分布をラプラス近似を用いてタイポロジー的に多様な訓練言語のサンプルから推測する。 このような先行モデルの使用は、ゼロショット設定と少数ショット設定の両方において、非インフォーマルな事前(いわゆる「微調整」)を持つベースラインモデルよりも優れている。 これは、前者は普遍的な音韻学の知識に埋もれていることを示している。 さらに,保留言語の遠隔監視として,追加的な言語固有のサイド情報を活用する。 具体的には,タイポロジーデータベースの特徴に言語モデルを適用し,それを隠れ状態に結合するか,ハイパーネットで重みを生成する。 これらの機能は、数ショット設定では有益に見えるが、ゼロショット設定では役に立たない。 デジタルテキストの汎性は世界の言語の大部分に影響を与えるため、これらの発見が言語技術の応用範囲を広げる助けになることを期待している。

Can we construct a neural model that is inductively biased towards learning human languages? Motivated by this question, we aim at constructing an informative prior over neural weights, in order to adapt quickly to held-out languages in the task of character-level language modeling. We infer this distribution from a sample of typologically diverse training languages via Laplace approximation. The use of such a prior outperforms baseline models with an uninformative prior (so-called "fine-tuning") in both zero-shot and few-shot settings. This shows that the prior is imbued with universal phonological knowledge. Moreover, we harness additional language-specific side information as distant supervision for held-out languages. Specifically, we condition language models on features from typological databases, by concatenating them to hidden states or generating weights with hyper-networks. These features appear beneficial in the few-shot setting, but not in the zero-shot setting. Since the paucity of digital texts affects the majority of the world's languages, we hope that these findings will help broaden the scope of applications for language technology.
翻訳日:2021-08-10 15:38:40 公開日:2021-08-06
# コード解析に対するスマートで防御的なヒューマンマシンアプローチ

A Smart and Defensive Human-Machine Approach to Code Analysis ( http://arxiv.org/abs/2108.03294v1 )

ライセンス: Link先を確認
Fitzroy D. Nembhard, Marco M. Carvalho(参考訳) 静的解析は、貧弱または脆弱なプログラムコードを検出して修正する最も一般的なアプローチの1つである。 これは、エラー、開発標準違反、その他の問題を特定するためのコードリスト、テスト結果、または他のドキュメントの検査を含み、システムとソフトウェアが可能な限り安全になるようにこれらのエラーを修正する究極のゴールである。 静的解析ツールが多数存在するため、企業やプログラマがプログラムコードを分析するツールを選択するのが難しくなっている。 セキュリティリスクを軽減するために、サイバーディフェンダーがコード解析を活用できるように、コード解析を改善する方法を見つけることが不可欠である。 本研究では,仮想アシスタントを用いてプログラマと協力し,安全上重要なシステムをデータ漏洩やその他の攻撃から保護するために,ソフトウェアが可能な限り安全であることを保証する手法を提案する。 pro-posdメソッドは、さまざまなメトリクスを使用して、プログラマがプロジェクトに最も適切なコード解析ツールを選択し、分析プロセスを通じてそれらをガイドするレコメンダシステムを採用している。 このシステムは、推奨プラクティスの採用に関するユーザの行動をさらに追跡する。

Static analysis remains one of the most popular approaches for detecting and correcting poor or vulnerable program code. It involves the examination of code listings, test results, or other documentation to identify errors, violations of development standards, or other problems, with the ultimate goal of fixing these errors so that systems and software are as secure as possible. There exists a plethora of static analysis tools, which makes it challenging for businesses and programmers to select a tool to analyze their program code. It is imperative to find ways to improve code analysis so that it can be employed by cyber defenders to mitigate security risks. In this research, we propose a method that employs the use of virtual assistants to work with programmers to ensure that software are as safe as possible in order to protect safety-critical systems from data breaches and other attacks. The pro- posed method employs a recommender system that uses various metrics to help programmers select the most appropriate code analysis tool for their project and guides them through the analysis process. The system further tracks the user's behavior regarding the adoption of the recommended practices.
翻訳日:2021-08-10 15:37:40 公開日:2021-08-06
# semantic tracklets:ビジュアルマルチエージェント強化学習のためのオブジェクト中心表現

Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.03319v1 )

ライセンス: Link先を確認
Iou-Jen Liu, Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing(参考訳) 複雑な現実のタスク、例えば自律的な艦隊制御の解決には、強化学習を通じて視覚的な入力から戦略を学ぶ複数のエージェントからなる協調チームが必要となる。 しかし、既存のマルチエージェント強化学習(MARL)アルゴリズムの多くは、エージェントが視覚入力を操作する環境にスケールしない。 この問題に対処するため、アルゴリズムによって、最近の研究は非定常性と探索に焦点を当てている。 対照的に,不整合表現によるスケーラビリティの実現についても検討する。 この目的のために、我々は、対象中心の中間表現を明示的に構築し、環境の状態を特徴付け、それを「意味トラックレット」と呼ぶ。 本研究では,視覚マルチエージェント粒子環境 (vmpe) および挑戦的な視覚マルチエージェントgfootball環境において,'semantic tracklets'を評価する。 セマンティックトラックレット」はVMPEのベースラインを一貫して上回り、GFootballのベースラインよりも+2.4高いスコア差が得られる。 特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。

Solving complex real-world tasks, e.g., autonomous fleet control, often involves a coordinated team of multiple agents which learn strategies from visual inputs via reinforcement learning. Many existing multi-agent reinforcement learning (MARL) algorithms however don't scale to environments where agents operate on visual inputs. To address this issue, algorithmically, recent works have focused on non-stationarity and exploration. In contrast, we study whether scalability can also be achieved via a disentangled representation. For this, we explicitly construct an object-centric intermediate representation to characterize the states of an environment, which we refer to as `semantic tracklets.' We evaluate `semantic tracklets' on the visual multi-agent particle environment (VMPE) and on the challenging visual multi-agent GFootball environment. `Semantic tracklets' consistently outperform baselines on VMPE, and achieve a +2.4 higher score difference than baselines on GFootball. Notably, this method is the first to successfully learn a strategy for five players in the GFootball environment using only visual data.
翻訳日:2021-08-10 15:37:25 公開日:2021-08-06
# 話す権利:オーディオ・ビジュアル・トランスフォーマーのアプローチ

The Right to Talk: An Audio-Visual Transformer Approach ( http://arxiv.org/abs/2108.03256v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, The De Vu, Hoang Anh Pham, Bhiksha Raj, Ngan Le, Khoa Luu(参考訳) ターンテイクは会話の規制の構造化において重要な役割を担ってきた。 主話者(適切に話し方を取っている)と割り込み者(主話者の発声を中断または反応している)を識別する作業は依然として難しい課題である。 以前の手法では部分的にこの問題に対処したものの、まだいくつかの制限が残っている。 第一に、音声と視覚の特徴の直接の関連は、異なるモダリティのために抽出される相関を制限する可能性がある。 第二に、時間セグメント間の関係は、局所化、分離、会話コンテキストの一貫性を維持するのに有効ではない。 最後に、通常追跡を含む話者間の相互作用と、新しい話者への移行に関する予測的決定は通常無視される。 そこで本研究では,マルチスピーカー対話ビデオの音声・映像チャネルにおける主話者の局所化と強調化の問題に対して,新たな音声・視覚トランスフォーマーを導入する。 提案手法は,視覚信号と音声信号の両方で表される様々な種類の相関関係を利用する。 トランスフォーマ構造における自己保持機構を用いて,空間空間間の時間的音声・視覚的関係を予測し,最適化する。 さらに、主話者検出のために新たに収集したデータセットも導入する。 我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。

Turn-taking has played an essential role in structuring the regulation of a conversation. The task of identifying the main speaker (who is properly taking his/her turn of speaking) and the interrupters (who are interrupting or reacting to the main speaker's utterances) remains a challenging task. Although some prior methods have partially addressed this task, there still remain some limitations. Firstly, a direct association of Audio and Visual features may limit the correlations to be extracted due to different modalities. Secondly, the relationship across temporal segments helping to maintain the consistency of localization, separation, and conversation contexts is not effectively exploited. Finally, the interactions between speakers that usually contain the tracking and anticipatory decisions about the transition to a new speaker are usually ignored. Therefore, this work introduces a new Audio-Visual Transformer approach to the problem of localization and highlighting the main speaker in both audio and visual channels of a multi-speaker conversation video in the wild. The proposed method exploits different types of correlations presented in both visual and audio signals. The temporal audio-visual relationships across spatial-temporal space are anticipated and optimized via the self-attention mechanism in a Transformerstructure . Moreover, a newly collected dataset is introduced for the main speaker detection. To the best of our knowledge, it is one of the first studies that is able to automatically localize and highlight the main speaker in both visual and audio channels in multi-speaker conversation videos.
翻訳日:2021-08-10 15:33:58 公開日:2021-08-06
# (単に)リファインメントのスポンジが登録エラーの解消に役立ちます

(Just) A Spoonful of Refinements Helps the Registration Error Go Down ( http://arxiv.org/abs/2108.03257v1 )

ライセンス: Link先を確認
S\'ergio Agostinho, Aljo\v{s}a O\v{s}ep, Alessio Del Bue, Laura Leal-Taix\'e(参考訳) データ駆動型3dポイントクラウド登録に取り組む。 与えられた点対応により、標準カブシュアルゴリズムは最適な回転推定を提供する。 これにより、SVD操作を区別することで、エンドツーエンドで登録モデルをトレーニングすることができる。 しかし, カブシュが提供した初期回転推定値から, モデル学習時の点対応学習を, 元の最適化問題を拡張して改善できることを示す。 特に、回転行列の制御制約を線形化し、結果として得られる方程式の線形系を解く。 次に、初期推定値を更新して、反復的に新しい解を生成する。 実験により,既存の学習ベース登録手法に微分可能な層を接続することにより,対応マッチング品質が向上することを示す。 これにより、対応ベースのデータ駆動登録方式では、回転誤差が7%減少する。

We tackle data-driven 3D point cloud registration. Given point correspondences, the standard Kabsch algorithm provides an optimal rotation estimate. This allows to train registration models in an end-to-end manner by differentiating the SVD operation. However, given the initial rotation estimate supplied by Kabsch, we show we can improve point correspondence learning during model training by extending the original optimization problem. In particular, we linearize the governing constraints of the rotation matrix and solve the resulting linear system of equations. We then iteratively produce new solutions by updating the initial estimate. Our experiments show that, by plugging our differentiable layer to existing learning-based registration methods, we improve the correspondence matching quality. This yields up to a 7% decrease in rotation error for correspondence-based data-driven registration methods.
翻訳日:2021-08-10 15:33:36 公開日:2021-08-06
# bimal: bijective maximum likelihood approach to domain adaptation in semantic scene segmentation

BiMaL: Bijective Maximum Likelihood Approach to Domain Adaptation in Semantic Scene Segmentation ( http://arxiv.org/abs/2108.03267v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, Ngan Le, Son Lam Phung, Chase Rainwater, Khoa Luu(参考訳) セマンティックセグメンテーションはピクセルレベルのラベルを予測することを目的としている。 様々なコンピュータビジョンアプリケーションで一般的なタスクとなっている。 完全教師付きセグメンテーション手法は大規模ビジョンデータセットでは高い精度を実現しているが、新しいテスト環境や新しいドメインをうまく一般化することはできない。 本研究では、まず、教師なしの方法で新しい対象領域における学習モデルの効率を測定するために、新しいUn-aligned Domain Scoreを導入する。 次に, 画素独立性を仮定することなく, 対数エントロピー最小化の一般化形式であるBiMaL(Bijective Maximum Likelihood)の損失を新たに提示する。 提案したBiMaLを2つの領域で評価した。 提案したBiMaLアプローチは、"SyNTHIA to Cityscapes"、"GTA5 to Cityscapes"、"SyNTHIA to Vistas"といった経験的実験において、SOTA法よりも一貫して優れている。

Semantic segmentation aims to predict pixel-level labels. It has become a popular task in various computer vision applications. While fully supervised segmentation methods have achieved high accuracy on large-scale vision datasets, they are unable to generalize on a new test environment or a new domain well. In this work, we first introduce a new Un-aligned Domain Score to measure the efficiency of a learned model on a new target domain in unsupervised manner. Then, we present the new Bijective Maximum Likelihood(BiMaL) loss that is a generalized form of the Adversarial Entropy Minimization without any assumption about pixel independence. We have evaluated the proposed BiMaL on two domains. The proposed BiMaL approach consistently outperforms the SOTA methods on empirical experiments on "SYNTHIA to Cityscapes", "GTA5 to Cityscapes", and "SYNTHIA to Vistas".
翻訳日:2021-08-10 15:33:25 公開日:2021-08-06
# 特徴教師付き動作モダリティ転送

Feature-Supervised Action Modality Transfer ( http://arxiv.org/abs/2108.03329v1 )

ライセンス: Link先を確認
Fida Mohammad Thoker, Cees G. M. Snoek(参考訳) 本稿では,RGBや深度マップ,あるいは3D-スケルトンシーケンスなどのビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定例のみが利用できる場合に行う。 rgbおよび派生光フローでは、多くの大規模ラベル付きデータセットが利用可能である。 ラベル付きサンプルが限られているRGBデータセットから新しいアクションを認識または検出する場合、これらは事実上事前トレーニング選択となっている。 残念ながら、他のモダリティのための大規模ラベル付きアクションデータセットは、事前トレーニングでは利用できない。 本稿では,大規模ラベル付きRGBデータから学習することで,RGB以外の動画モダリティの限られた例から行動を認識することを目的とする。 そこで本研究では,RGB学習者ネットワークから行動表現知識を抽出し,非RGB学習者ネットワークに適応させる2段階の学習プロセスを提案する。 (ii)次に、対象モダリティのラベル付き例を用いて転送モデルを微調整する。 知識伝達には,教師から学生ネットワークへ特徴レベルの表現を伝達するための2つのモダリティ(RGBとターゲットモダリティ)のラベル付けされていないペアに依存した特徴スーパービジョン戦略を導入する。 2つのRGBソースデータセットと2つのRGBターゲットデータセットによるアブレーションと一般化は、光学フロー教師が異なるターゲットドメインで評価された場合や、異なるタスクで評価されたとしても、深度マップと3D骨格の両方でRGBよりも優れたアクション転送機能を提供することを示す。 代替のクロスモーダル・アクション・トランスファー法と比較すると、特にラベル付き非RGBの学習例が乏しい場合、優れた性能向上を示す。

This paper strives for action recognition and detection in video modalities like RGB, depth maps or 3D-skeleton sequences when only limited modality-specific labeled examples are available. For the RGB, and derived optical-flow, modality many large-scale labeled datasets have been made available. They have become the de facto pre-training choice when recognizing or detecting new actions from RGB datasets that have limited amounts of labeled examples available. Unfortunately, large-scale labeled action datasets for other modalities are unavailable for pre-training. In this paper, our goal is to recognize actions from limited examples in non-RGB video modalities, by learning from large-scale labeled RGB data. To this end, we propose a two-step training process: (i) we extract action representation knowledge from an RGB-trained teacher network and adapt it to a non-RGB student network. (ii) we then fine-tune the transfer model with available labeled examples of the target modality. For the knowledge transfer we introduce feature-supervision strategies, which rely on unlabeled pairs of two modalities (the RGB and the target modality) to transfer feature level representations from the teacher to the student network. Ablations and generalizations with two RGB source datasets and two non-RGB target datasets demonstrate that an optical-flow teacher provides better action transfer features than RGB for both depth maps and 3D-skeletons, even when evaluated on a different target domain, or for a different task. Compared to alternative cross-modal action transfer methods we show a good improvement in performance especially when labeled non-RGB examples to learn from are scarce
翻訳日:2021-08-10 15:33:07 公開日:2021-08-06
# Google Earth画像の深層学習による半自動サンプルラベリングによる地球規模の森林マッピングの改善

Improving Global Forest Mapping by Semi-automatic Sample Labeling with Deep Learning on Google Earth Images ( http://arxiv.org/abs/2108.04173v1 )

ライセンス: Link先を確認
Qian Shi, Xiaolei Qin, Lingyu Sun, Zitao Shen, Xiaoping Liu, Xiaocong Xu, Jiaxin Tian, Rong Liu, Andrea Marinoni(参考訳) 世界の森林被覆は、特定の生態系のサービスの提供に欠かせない。 google earth engine cloud platformの登場により、ファインレゾリューションのグローバル土地被覆マッピングタスクは、何年もではなく数日で完了することができる。 世界の森林被覆(GFC)生産量はここ数十年で着実に増加している。 しかし,これらの製品間の差異が大きいため,ユーザが適切な製品を選択することは困難であり,gfc製品の精度はグローバルスケールでは確認されていない。 ユーザとプロデューサのためのガイドラインを提供するには,グローバルレベルでの検証サンプルの作成が急務である。 しかし、このラベル付け作業は時間と労力の消費であり、地球規模の土地被覆地図作成の進展の主な障害となっている。 本研究では,森林,低木,草原,不耕起地など395280点の散在試料を含む,最大規模の森林試料セット(fss)を構築するための,労働効率の高い半自動的枠組みを提案する。 一方,ユーザに対してガイドラインを提供するため,既存の30m gfc製品の局所的およびグローバル的マッピング精度を包括的に検証し,それらの合意を解析・マッピングした。 さらに, 生産者を対象に, 地球規模の森林分類を改善するための最適サンプリング戦略を提案した。 さらに、globeforest2020と呼ばれる新しいグローバル森林カバーが作成され、以前の最先端のアキュラティ(gong et al.、2017年)を不確定格子で2.77%、特定の格子で1.11%改善した。

Global forest cover is critical to the provision of certain ecosystem services. With the advent of the google earth engine cloud platform, fine resolution global land cover mapping task could be accomplished in a matter of days instead of years. The amount of global forest cover (GFC) products has been steadily increasing in the last decades. However, it's hard for users to select suitable one due to great differences between these products, and the accuracy of these GFC products has not been verified on global scale. To provide guidelines for users and producers, it is urgent to produce a validation sample set at the global level. However, this labeling task is time and labor consuming, which has been the main obstacle to the progress of global land cover mapping. In this research, a labor-efficient semi-automatic framework is introduced to build a biggest ever Forest Sample Set (FSS) contained 395280 scattered samples categorized as forest, shrubland, grassland, impervious surface, etc. On the other hand, to provide guidelines for the users, we comprehensively validated the local and global mapping accuracy of all existing 30m GFC products, and analyzed and mapped the agreement of them. Moreover, to provide guidelines for the producers, optimal sampling strategy was proposed to improve the global forest classification. Furthermore, a new global forest cover named GlobeForest2020 has been generated, which proved to improve the previous highest state-of-the-art accuracies (obtained by Gong et al., 2017) by 2.77% in uncertain grids and by 1.11% in certain grids.
翻訳日:2021-08-10 15:15:39 公開日:2021-08-06
# smooth symbolic regression: transform of symbolic regression to a real-valued optimization problem

Smooth Symbolic Regression: Transformation of Symbolic Regression into a Real-valued Optimization Problem ( http://arxiv.org/abs/2108.03274v1 )

ライセンス: Link先を確認
Erik Pitzer, Gabriel Kronberger(参考訳) シンボリック回帰の典型的な方法は解候補の急激な変化をもたらす。 そこで本研究では,典型的な解析手法では有意義な結果が得られない状況から,典型的かつ非常にスムーズな実数値問題に比較可能な状況へと,象徴的回帰を最適化問題から転換する試みを行った。 頑丈さは最適化の性能を妨げないかもしれないが、分析の可能性を制限する。 本稿では,変換のさまざまな側面を考察し,シンボル回帰問題から実数値最適化問題を生成するための簡単な手順を提案する。

The typical methods for symbolic regression produce rather abrupt changes in solution candidates. In this work, we have tried to transform symbolic regression from an optimization problem, with a landscape that is so rugged that typical analysis methods do not produce meaningful results, to one that can be compared to typical and very smooth real-valued problems. While the ruggedness might not interfere with the performance of optimization, it restricts the possibilities of analysis. Here, we have explored different aspects of a transformation and propose a simple procedure to create real-valued optimization problems from symbolic regression problems.
翻訳日:2021-08-10 15:14:23 公開日:2021-08-06
# バングラデシュにおける作物選択と収量予測のためのディープニューラルネットワークアプローチ

A Deep Neural Network Approach for Crop Selection and Yield Prediction in Bangladesh ( http://arxiv.org/abs/2108.03320v1 )

ライセンス: Link先を確認
Tanhim Islam, Tanjir Alam Chisty, Amitabha Chakrabarty(参考訳) 農業は生活の主要な源である人類にとって必須の材料である。 バングラデシュの農業は主に、経済に直接影響を及ぼす古い方法で行われている。 さらに、農業機関は、作物の選択と収量予測の適切なソリューションを提供しないマニュアルデータに取り組んでいる。 本稿では,最小コストと労力で作物の選択と収量予測の最良の方法を示す。 ニューラルネットワークはモデリングや予測にロバストなツールだと考えられている。 このアルゴリズムは、より良い出力と予測と、サポートベクターマシン、ロジスティック回帰、ランダムフォレストアルゴリズムを目的とし、精度と誤差率を比較する。 さらに、これらのアルゴリズムはすべて、0.3百万を超えるデータセットに対して、どれだけうまく機能したかを確認するためだけに使われる。 我々は, 最大および最低気温, 平均降雨量, 湿度, 気候, 土地の種類, 化学肥料の種類, 土壌の種類, 土壌構造, 土壌組成, 土壌水分, 土壌水分, 土壌反応, 土壌テクスチャなど46のパラメータを収集し, 予測プロセスに適用した。 本稿では,農業作物の選択と収量予測にディープニューラルネットワークを用いることを提案する。

Agriculture is the essential ingredients to mankind which is a major source of livelihood. Agriculture work in Bangladesh is mostly done in old ways which directly affects our economy. In addition, institutions of agriculture are working with manual data which cannot provide a proper solution for crop selection and yield prediction. This paper shows the best way of crop selection and yield prediction in minimum cost and effort. Artificial Neural Network is considered robust tools for modeling and prediction. This algorithm aims to get better output and prediction, as well as, support vector machine, Logistic Regression, and random forest algorithm is also considered in this study for comparing the accuracy and error rate. Moreover, all of these algorithms used here are just to see how well they performed for a dataset which is over 0.3 million. We have collected 46 parameters such as maximum and minimum temperature, average rainfall, humidity, climate, weather, and types of land, types of chemical fertilizer, types of soil, soil structure, soil composition, soil moisture, soil consistency, soil reaction and soil texture for applying into this prediction process. In this paper, we have suggested using the deep neural network for agricultural crop selection and yield prediction.
翻訳日:2021-08-10 15:14:10 公開日:2021-08-06
# 可変相互作用ネットワークを用いたコンセプトドリフト検出

Concept Drift Detection with Variable Interaction Networks ( http://arxiv.org/abs/2108.03273v1 )

ライセンス: Link先を確認
Jan Zenisek, Gabriel Kronberger, Josef Wolfartsberger, Norbert Wild, Michael Affenzeller(参考訳) 今日の生産産業のシームレスなセンサーベースのモニタリングに向けた開発は、予測メンテナンスのような概念への道を開く。 この方法では、将来の生産ラインにおける植物や製品の状態は、あらゆる種類の破壊を予測し、積極的に予防行動を起こす目的とともに継続的に分析される。 このような野心的な予測は、機械学習アルゴリズムをサポートすることで一般的に行われる。 本研究では,これらのアルゴリズムを用いて,生産プラントなどの複雑なシステムのモデル化を行う。 この貢献の中核は、特定された相互作用の変化を検出するために設計されたスライディングウィンドウベースのアルゴリズムである。 本アルゴリズムの詳細な記述に加えて, 安定および漂流系の挙動を模擬した合成力学系の実験結果も提示する。

The current development of today's production industry towards seamless sensor-based monitoring is paving the way for concepts such as Predictive Maintenance. By this means, the condition of plants and products in future production lines will be continuously analyzed with the objective to predict any kind of breakdown and trigger preventing actions proactively. Such ambitious predictions are commonly performed with support of machine learning algorithms. In this work, we utilize these algorithms to model complex systems, such as production plants, by focusing on their variable interactions. The core of this contribution is a sliding window based algorithm, designed to detect changes of the identified interactions, which might indicate beginning malfunctions in the context of a monitored production plant. Besides a detailed description of the algorithm, we present results from experiments with a synthetic dynamical system, simulating stable and drifting system behavior.
翻訳日:2021-08-10 15:04:27 公開日:2021-08-06
# 未知の誘引子のモデルフリー推論:貯水池計算を用いた単一ノイズ軌道からの位相空間特徴の再構成

Model-free inference of unseen attractors: Reconstructing phase space features from a single noisy trajectory using reservoir computing ( http://arxiv.org/abs/2108.04074v1 )

ライセンス: Link先を確認
Andr\'e R\"ohm and Daniel J. Gauthier and Ingo Fischer(参考訳) 貯水池コンピュータはカオス時系列予測のための強力なツールである。 それらは位相空間の流れを近似するよう訓練することができ、したがって将来の値を高い精度で予測し、またモデルを必要とすることなくカオス的アトラクタの一般特性を再構築することができる。 本研究では, 複雑な系のダイナミクスを学習する能力が, 共存するアトラクタを持つ系にも拡張できることを示し, よく知られているロレンツカオス系の4次元拡張を示す。 適切に訓練された貯水池コンピュータは、トレーニング中に接近したことのない誘引器の存在を予測でき、したがって見当たらないものとしてラベル付けされる。 本研究では,1つの雑音軌跡のみを訓練し,アトラクタ推定を行う例を示す。

Reservoir computers are powerful tools for chaotic time series prediction. They can be trained to approximate phase space flows and can thus both predict future values to a high accuracy, as well as reconstruct the general properties of a chaotic attractor without requiring a model. In this work, we show that the ability to learn the dynamics of a complex system can be extended to systems with co-existing attractors, here a 4-dimensional extension of the well-known Lorenz chaotic system. We demonstrate that a reservoir computer can infer entirely unexplored parts of the phase space: a properly trained reservoir computer can predict the existence of attractors that were never approached during training and therefore are labelled as unseen. We provide examples where attractor inference is achieved after training solely on a single noisy trajectory.
翻訳日:2021-08-10 15:01:43 公開日:2021-08-06
# ニューラルクロスドメイン探索のための蒸留変圧器

Distilling Transformers for Neural Cross-Domain Search ( http://arxiv.org/abs/2108.03322v1 )

ライセンス: Link先を確認
Colin B. Clement, Chen Wu, Dawn Drain, Neel Sundaresan(参考訳) 事前学習されたトランスフォーマーは、最近自然言語タスクの領域でトップスポットを獲得し、ソフトウェアエンジニアリングタスクのソリューションの先駆者となった。 情報検索でさえ変圧器の魅力には影響しないが、その大きさとコストは一般的に展開の障壁である。 生産用のトランスフォーマーアーキテクチャの合理化、キャッシュ、修正には多くの作業があったが、ここでは新しい方向性を探る: 大きなトレーニング済みの翻訳モデルを軽量なバイエンコーダに蒸留し、効率よくキャッシュし、クエリすることができる。 我々は、シーケンス・ツー・シーケンス・モデルが概念的には理想である、という確率論的観点から論じる。 我々は,データ拡張スキームとして,新しい蒸留目標を導出する。 自然言語ソースコード検索をクロスドメイン検索のケーススタディとして用い,近年の自然言語コード検索ベンチマークであるCodeSearchNetチャレンジの現在のリーダを大きく改善することで,このアイデアの有効性を実証する。

Pre-trained transformers have recently clinched top spots in the gamut of natural language tasks and pioneered solutions to software engineering tasks. Even information retrieval has not been immune to the charm of the transformer, though their large size and cost is generally a barrier to deployment. While there has been much work in streamlining, caching, and modifying transformer architectures for production, here we explore a new direction: distilling a large pre-trained translation model into a lightweight bi-encoder which can be efficiently cached and queried. We argue from a probabilistic perspective that sequence-to-sequence models are a conceptually ideal---albeit highly impractical---retrie ver. We derive a new distillation objective, implementing it as a data augmentation scheme. Using natural language source code search as a case study for cross-domain search, we demonstrate the validity of this idea by significantly improving upon the current leader of the CodeSearchNet challenge, a recent natural language code search benchmark.
翻訳日:2021-08-10 14:58:48 公開日:2021-08-06
# (参考訳) インテリジェント反射型D2D通信のための深部強化学習 [全文訳有]

Deep Reinforcement Learning for Intelligent Reflecting Surface-assisted D2D Communications ( http://arxiv.org/abs/2108.02892v1 )

ライセンス: CC BY 4.0
Khoi Khac Nguyen, Antonino Masaracchia, Cheng Yin, Long D. Nguyen, Octavia A. Dobre, and Trung Q. Duong(参考訳) 本稿では,知的反射面(IRS)をサポートしたデバイス間通信(D2D)において,ネットワークの総和レートの最適化問題を解決するための深層強化学習(DRL)手法を提案する。 IRSは干渉を緩和し、D2D送信機と関連するD2D受信機の間の信号を強化する。 我々の目的は、D2D送信機における送信電力とIRSにおける位相シフト行列を共同で最適化し、ネットワーク総和率を最大化することである。 マルコフ決定過程を定式化し、最大化ゲームを解決するための近似ポリシー最適化を提案する。 シミュレーションの結果は達成可能な速度と処理時間で印象的な性能を示した。

In this paper, we propose a deep reinforcement learning (DRL) approach for solving the optimisation problem of the network's sum-rate in device-to-device (D2D) communications supported by an intelligent reflecting surface (IRS). The IRS is deployed to mitigate the interference and enhance the signal between the D2D transmitter and the associated D2D receiver. Our objective is to jointly optimise the transmit power at the D2D transmitter and the phase shift matrix at the IRS to maximise the network sum-rate. We formulate a Markov decision process and then propose the proximal policy optimisation for solving the maximisation game. Simulation results show impressive performance in terms of the achievable rate and processing time.
翻訳日:2021-08-09 23:06:13 公開日:2021-08-06
# (参考訳) 光、カメラ、アクション! OCR文書のNLP精度向上のためのフレームワーク [全文訳有]

Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents ( http://arxiv.org/abs/2108.02899v1 )

ライセンス: CC BY-SA 4.0
Amit Gupte, Alexey Romanov, Sahitya Mantravadi, Dalitso Banda, Jianjie Liu, Raza Khan, Lakshmanan Ramu Meenal, Benjamin Han, Soundar Srinivasan(参考訳) 社会のデジタルトランスフォーメーションには文書のデジタル化が不可欠だが、その過程における重要なステップである光学文字認識(OCR)はまだ完璧ではない。 商用のOCRシステムでさえ、スキャンした文書の忠実度に応じて疑わしい出力を生成することができる。 本稿では,NER(Named Entity Recognition)を例として,下流のNLPタスクにおけるOCRエラーの軽減に有効なフレームワークを提案する。 まず, 文書合成パイプラインを構築し, nerラベルを用いた現実的な, 劣化したデータを生成することで, モデル学習のためのデータ不足問題に対処する。 劣化レベルでのNER精度低下を計測し、劣化データに基づいてトレーニングされたテキスト復元モデルが、ドメイン外データセットを含むOCRエラーによるNER精度ギャップを著しく短縮することを示す。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。

Document digitization is essential for the digital transformation of our societies, yet a crucial step in the process, Optical Character Recognition (OCR), is still not perfect. Even commercial OCR systems can produce questionable output depending on the fidelity of the scanned documents. In this paper, we demonstrate an effective framework for mitigating OCR errors for any downstream NLP task, using Named Entity Recognition (NER) as an example. We first address the data scarcity problem for model training by constructing a document synthesis pipeline, generating realistic but degraded data with NER labels. We measure the NER accuracy drop at various degradation levels and show that a text restoration model, trained on the degraded data, significantly closes the NER accuracy gaps caused by OCR errors, including on an out-of-domain dataset. For the benefit of the community, we have made the document synthesis pipeline available as an open-source project.
翻訳日:2021-08-09 22:56:39 公開日:2021-08-06
# (参考訳) LadRa-Net: 文セマンティックマッチングのための局所認識動的再読み取り注意ネット [全文訳有]

LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence Semantic Matching ( http://arxiv.org/abs/2108.02915v1 )

ライセンス: CC BY 4.0
Kun Zhang, Guangyi Lv, Le Wu, Enhong Chen, Qi Liu, Meng Wang(参考訳) 文の意味マッチングには、自然言語推論(NLI)やパラフレーズ識別(PI)など、さまざまな自然言語タスクで広く使われている2つの文間の意味的関係を決定するエージェントが必要である。 この領域では、特に注意に基づく手法や事前訓練された言語モデルに基づく手法が近年進歩している。 しかし、これらの手法のほとんどは静的な方法で文のすべての重要な部分に焦点を当て、単語がクエリにとってどれほど重要であるかのみを強調し、注意機構の能力を抑制する。 そこで本研究では,この問題を克服し,注意機構の性能を高めるために,各ステップの1つの小領域に注意を向け,より優れた文表現のための重要な部分を再読み込むことのできる,新しい動的再読出注意を提案する。 この特徴に基づいて,文意味マッチングのための動的再読ネットワーク(DRr-Net)を開発した。 さらに、動的再読上げ注意における1つの小さな領域の選択は文の意味論では不十分であり、入力エンコーダとして事前学習された言語モデルを採用すると、不完全で脆弱な表現の問題が生じる。 この目的のために、DRrNetをローカルに認識する動的再読注意網(LadRa-Net)に拡張し、文の局所構造を用いて、事前学習された言語モデルにおけるByte-Pair Encoding(BPE)の欠点を緩和し、動的再読注意力を高める。 2つの一般的な文意味マッチングタスクに関する大規模な実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。 一方、LadRa-Netは、文の局所構造を考慮することで、より良いパフォーマンスを実現することができる。 また,我々の実験におけるいくつかの発見が,心理学的研究のいくつかの発見と一致していることは極めて興味深い。

Sentence semantic matching requires an agent to determine the semantic relation between two sentences, which is widely used in various natural language tasks, such as Natural Language Inference (NLI), Paraphrase Identification (PI), and so on. Much recent progress has been made in this area, especially attention-based methods and pre-trained language model based methods. However, most of these methods focus on all the important parts in sentences in a static way and only emphasize how important the words are to the query, inhibiting the ability of attention mechanism. In order to overcome this problem and boost the performance of attention mechanism, we propose a novel dynamic re-read attention, which can pay close attention to one small region of sentences at each step and re-read the important parts for better sentence representations. Based on this attention variation, we develop a novel Dynamic Re-read Network (DRr-Net) for sentence semantic matching. Moreover, selecting one small region in dynamic re-read attention seems insufficient for sentence semantics, and employing pre-trained language models as input encoders will introduce incomplete and fragile representation problems. To this end, we extend DRrNet to Locally-Aware Dynamic Re-read Attention Net (LadRa-Net), in which local structure of sentences is employed to alleviate the shortcoming of Byte-Pair Encoding (BPE) in pre-trained language models and boost the performance of dynamic reread attention. Extensive experiments on two popular sentence semantic matching tasks demonstrate that DRr-Net can significantly improve the performance of sentence semantic matching. Meanwhile, LadRa-Net is able to achieve better performance by considering the local structures of sentences. In addition, it is exceedingly interesting that some discoveries in our experiments are consistent with some findings of psychological research.
翻訳日:2021-08-09 22:42:31 公開日:2021-08-06
# (参考訳) 認知的注意ネットワークを用いた解釈可能な視覚理解 [全文訳有]

Interpretable Visual Understanding with Cognitive Attention Network ( http://arxiv.org/abs/2108.02924v1 )

ライセンス: CC0 1.0
Xuejiao Tang, Wenbin Zhang, Yi Yu, Kea Turner, Tyler Derr, Mengyu Wang and Eirini Ntoutsi(参考訳) 認識レベルの画像理解は飛躍的な進歩を遂げているが、信頼性の高い視覚シーン理解には認識レベルでの総合的な画像理解が必要であるだけでなく、多元情報の活用を求める認知レベルも必要となる。 本稿では,視覚コモンセンス推論のための新しい認知的注意ネットワーク(can)を提案する。 具体的には,まず画像とテキストから情報を融合するイメージテキスト融合モジュールを導入する。 第二に、画像、クエリ、レスポンスのコモンセンスを符号化する新しい推論モジュールが設計されている。 大規模visual commonsense reasoning(vcr)ベンチマークデータセットに関する広範な実験により,本手法の有効性が示された。 実装はhttps://github.com/t anjatang/CANで公開されている。

While image understanding on recognition-level has achieved remarkable advancements, reliable visual scene understanding requires comprehensive image understanding on recognition-level but also cognition-level, which calls for exploiting the multi-source information as well as learning different levels of understanding and extensive commonsense knowledge. In this paper, we propose a novel Cognitive Attention Network (CAN) for visual commonsense reasoning to achieve interpretable visual understanding. Specifically, we first introduce an image-text fusion module to fuse information from images and text collectively. Second, a novel inference module is designed to encode commonsense among image, query and response. Extensive experiments on large-scale Visual Commonsense Reasoning (VCR) benchmark dataset demonstrate the effectiveness of our approach. The implementation is publicly available at https://github.com/t anjatang/CAN
翻訳日:2021-08-09 22:11:56 公開日:2021-08-06
# (参考訳) 偽物か? 南アフリカのニュースサイトにおけるニュース偽情報検出 [全文訳有]

Is it Fake? News Disinformation Detection on South African News Websites ( http://arxiv.org/abs/2108.02941v1 )

ライセンス: CC BY 4.0
Harm de Wet, Vukosi Marivate(参考訳) 偽ニュースによる偽ニュースは、我々の社会で進行中の問題であり、ソーシャルメディアで簡単に拡散している。 大量のデータをフィルタリングする最もコストと時間効率のよい方法は、人間と技術的な介入を組み合わせてそれを識別することだ。 技術的観点からは、自然言語処理(NLP)は偽ニュースの検出に広く用いられている。 ソーシャルメディア企業は、偽ニュースを識別し、ユーザーに警告するためにNLP技術を使っているが、偽ニュースはまだ発見されていない可能性がある。 これは特に(アメリカ合衆国以外で)より局所的な状況において問題となっている。 偽ニュース検出システムをどのように調整し、南アフリカのようなローカルな状況でよりうまく機能させるか。 本研究では南アフリカのウェブサイトで偽ニュースを検出する。 南アフリカの偽ニュースのデータセットをキュレートし、検出モデルをトレーニングします。 これは、広く利用可能なフェイクニュースデータセット(主に米国ウェブサイトから)を使用することとは対照的です。 また、それらを組み合わせることでデータセットをより多様にし、解釈可能な機械学習を用いて各国のフェイクニュース間での書き込みの振る舞いの違いを観察する。

Disinformation through fake news is an ongoing problem in our society and has become easily spread through social media. The most cost and time effective way to filter these large amounts of data is to use a combination of human and technical interventions to identify it. From a technical perspective, Natural Language Processing (NLP) is widely used in detecting fake news. Social media companies use NLP techniques to identify the fake news and warn their users, but fake news may still slip through undetected. It is especially a problem in more localised contexts (outside the United States of America). How do we adjust fake news detection systems to work better for local contexts such as in South Africa. In this work we investigate fake news detection on South African websites. We curate a dataset of South African fake news and then train detection models. We contrast this with using widely available fake news datasets (from mostly USA website). We also explore making the datasets more diverse by combining them and observe the differences in behaviour in writing between nations' fake news using interpretable machine learning.
翻訳日:2021-08-09 22:00:19 公開日:2021-08-06
# (参考訳) 疑似属性による偏見表現の教師なし学習 [全文訳有]

Unsupervised Learning of Debiased Representations with Pseudo-Attributes ( http://arxiv.org/abs/2108.02943v1 )

ライセンス: CC BY 4.0
Seonguk Seo, Joon-Young Lee, Bohyung Han(参考訳) データセットバイアスは機械学習における重要な課題であり、モデルが意図しない決定ルールをスパイラルな相関で捉えると、その負の影響が増す。 既存の作品は人間の監督を使ってこの問題を扱うことが多いが、適切なアノテーションが利用できることは現実的ではなく非現実的である。 この課題をよりよく解決するため,我々は教師なしの方法で,単純かつ効果的なデバイアス手法を提案する。 具体的には,特徴埋め込み空間上でクラスタリングを行い,明示的な属性の監督なしにもクラスタリング結果を利用して疑似属性を識別する。 次に,不偏表現を学習するための新しいクラスタベース再重み付け方式を採用することにより,マイノリティグループによる損失の最小化を防止し,最悪の一般化に望ましい。 大規模な実験は、複数の標準ベンチマークに対する我々のアプローチの卓越した性能を実証している。

Dataset bias is a critical challenge in machine learning, and its negative impact is aggravated when models capture unintended decision rules with spurious correlations. Although existing works often handle this issue using human supervision, the availability of the proper annotations is impractical and even unrealistic. To better tackle this challenge, we propose a simple but effective debiasing technique in an unsupervised manner. Specifically, we perform clustering on the feature embedding space and identify pseudoattributes by taking advantage of the clustering results even without an explicit attribute supervision. Then, we employ a novel cluster-based reweighting scheme for learning debiased representation; this prevents minority groups from being discounted for minimizing the overall loss, which is desirable for worst-case generalization. The extensive experiments demonstrate the outstanding performance of our approach on multiple standard benchmarks, which is even as competitive as the supervised counterpart.
翻訳日:2021-08-09 21:45:49 公開日:2021-08-06
# (参考訳) 補助クラスに基づく複数選択学習 [全文訳有]

Auxiliary Class Based Multiple Choice Learning ( http://arxiv.org/abs/2108.02949v1 )

ライセンス: CC BY 4.0
Sihwan Kim, Dae Yon Jung, Taejang Park(参考訳) アンサンブル学習の利点は、単一の入力で多くの個々のモデルから異なる出力、すなわちベースモデルの多様性を持つことにある。 各モデルがデータセット全体の異なるサブセットに特化されている場合、高い品質の多様性が達成できる。 さらに、各モデルがどのサブセットであるかを明示的に知ると、多様性を改善する機会が増える。 本稿では,マルチチョイス学習(mcl)の枠組みの下で各モデルを最終的に特殊化するための,補助クラスベースマルチチョイス学習(amcl)と呼ばれる高度なアンサンブル手法を提案する。 AMCLの進展は,(1)ラベルを通してより明確な情報を提供する補助クラスの概念,2)入力とモデル間の関連性を決定するためのメモリベースの割り当て,3)特徴融合モジュールを一般化した特徴として,フレームワークを異なる方向から制御する3つの新しい技術に起因している。 MCL法の全変種と比較して,本手法の性能を実証するため,画像分類と分割タスクについて広範な実験を行った。 全体として、AMCLのパフォーマンスは、アンサンブルのメンバーとしてさまざまなネットワークでトレーニングされた公開データセットのほとんどで、他のすべてのものを上回る。

The merit of ensemble learning lies in having different outputs from many individual models on a single input, i.e., the diversity of the base models. The high quality of diversity can be achieved when each model is specialized to different subsets of the whole dataset. Moreover, when each model explicitly knows to which subsets it is specialized, more opportunities arise to improve diversity. In this paper, we propose an advanced ensemble method, called Auxiliary class based Multiple Choice Learning (AMCL), to ultimately specialize each model under the framework of multiple choice learning (MCL). The advancement of AMCL is originated from three novel techniques which control the framework from different directions: 1) the concept of auxiliary class to provide more distinct information through the labels, 2) the strategy, named memory-based assignment, to determine the association between the inputs and the models, and 3) the feature fusion module to achieve generalized features. To demonstrate the performance of our method compared to all variants of MCL methods, we conduct extensive experiments on the image classification and segmentation tasks. Overall, the performance of AMCL exceeds all others in most of the public datasets trained with various networks as members of the ensembles.
翻訳日:2021-08-09 21:32:40 公開日:2021-08-06
# (参考訳) 非スムース凸最適化による深度データからの滑らかなメッシュ推定 [全文訳有]

Smooth Mesh Estimation from Depth Data using Non-Smooth Convex Optimization ( http://arxiv.org/abs/2108.02957v1 )

ライセンス: CC BY 4.0
Antoni Rosinol, Luca Carlone(参考訳) メッシュは、軽量ながらシーンのトポロジをエンコードするため、一般的に3dマップとして使用される。 残念ながら、3Dメッシュは、結合性と離散性のために、直接扱うのが数学的に難しい。 したがって、ほとんどの手法はボリュームや他の表現を用いて深度データを融合した後、シーンの3Dメッシュを生成する。 それでも、容積融合は速度とメモリの両面で計算的に高価である。 本稿では,これらの中間表現を跳躍し,視覚オドメトリーで三角測量した深度マップとスパースランドマークから直接3次元メッシュを構築する。 この目的のために、原始双対法を用いて解く非滑らか凸最適化問題を定式化する。 提案手法は,リアルタイム動作時の直接メッシュ再構成の最先端を大幅に改善する,滑らかで正確な3dメッシュを生成する。

Meshes are commonly used as 3D maps since they encode the topology of the scene while being lightweight. Unfortunately, 3D meshes are mathematically difficult to handle directly because of their combinatorial and discrete nature. Therefore, most approaches generate 3D meshes of a scene after fusing depth data using volumetric or other representations. Nevertheless, volumetric fusion remains computationally expensive both in terms of speed and memory. In this paper, we leapfrog these intermediate representations and build a 3D mesh directly from a depth map and the sparse landmarks triangulated with visual odometry. To this end, we formulate a non-smooth convex optimization problem that we solve using a primal-dual method. Our approach generates a smooth and accurate 3D mesh that substantially improves the state-of-the-art on direct mesh reconstruction while running in real-time.
翻訳日:2021-08-09 21:29:17 公開日:2021-08-06
# (参考訳) 半教師付き群衆カウントにおける空間ラベリング冗長性低減 [全文訳有]

Reducing Spatial Labeling Redundancy for Semi-supervised Crowd Counting ( http://arxiv.org/abs/2108.02970v1 )

ライセンス: CC BY 4.0
Yongtuo Liu, Sucheng Ren, Liangyu Chai, Hanjie Wu, Jing Qin, Dan Xu, Shengfeng He(参考訳) ラベリングは、群衆画像中の各個人に注釈を付けるため、群衆を数えるのに一役買う。 近年,ラベル付けの取り組みを減らそうとする半監督群集カウント法が提案されている。 限られたラベル付け予算が与えられた場合、彼らは通常、いくつかの群衆画像を選択し、それぞれの個人を密にラベル付けする。 有望な結果にもかかわらず、各群集画像中の濃密なラベル付き個体はよく似ているが、巨大なラベルなし群集画像は、完全に多様な個人を含む可能性があるため、None-or-Allラベル付け戦略は最適ではない。 そこで本研究では,従来の手法のラベリングチェーンを分割し,半教師付き群衆数における空間ラベリング冗長性を低減する最初の試みを提案する。 まず,各群集画像中のすべての領域にアノテートするのではなく,代表領域のみにアノテートすることを提案する。 垂直方向と水平方向の両方から領域代表性を解析し,ガウス混合モデルのクラスター中心として定式化する。 さらに,各群集画像中の各個体間の類似性を利用して,従来手法で用いた誤り発生ラベルの伝搬ではなく,特徴伝播による特徴伝達を直接監督する。 このようにして、個々の類似性に起因する元の空間ラベリング冗長性を、ラベルなし領域の効果的な監督信号に転送することができる。 広範に使用されているベンチマーク実験により,提案手法は従来のベストアプローチよりも大きなマージンで優れていることが示された。

Labeling is onerous for crowd counting as it should annotate each individual in crowd images. Recently, several methods have been proposed for semi-supervised crowd counting to reduce the labeling efforts. Given a limited labeling budget, they typically select a few crowd images and densely label all individuals in each of them. Despite the promising results, we argue the None-or-All labeling strategy is suboptimal as the densely labeled individuals in each crowd image usually appear similar while the massive unlabeled crowd images may contain entirely diverse individuals. To this end, we propose to break the labeling chain of previous methods and make the first attempt to reduce spatial labeling redundancy for semi-supervised crowd counting. First, instead of annotating all the regions in each crowd image, we propose to annotate the representative ones only. We analyze the region representativeness from both vertical and horizontal directions, and formulate them as cluster centers of Gaussian Mixture Models. Additionally, to leverage the rich unlabeled regions, we exploit the similarities among individuals in each crowd image to directly supervise the unlabeled regions via feature propagation instead of the error-prone label propagation employed in the previous methods. In this way, we can transfer the original spatial labeling redundancy caused by individual similarities to effective supervision signals on the unlabeled regions. Extensive experiments on the widely-used benchmarks demonstrate that our method can outperform previous best approaches by a large margin.
翻訳日:2021-08-09 21:10:55 公開日:2021-08-06
# (参考訳) 点由来セグメンテーションによるきめ細かいドメイン適応群カウント [全文訳有]

Fine-grained Domain Adaptive Crowd Counting via Point-derived Segmentation ( http://arxiv.org/abs/2108.02980v1 )

ライセンス: CC BY 4.0
Yongtuo Liu, Dan Xu, Sucheng Ren, Hanjie Wu, Hongmin Cai, Shengfeng He(参考訳) 各群集画像全体に対する既存領域適応手法により,群集と背景における領域の相違を同時に低減する。 しかし,これらの手法は群集や背景が全く異なる特徴を持ち,背景が異なる群集シーンで劇的に変化するため,準最適であると主張する(図参照)。 これにより、群衆は全体的方法で背景とともにドメイン間でうまく整合しない。 そこで本研究では,群衆画像から群衆と背景を切り離し,群衆カウントのための細粒度ドメイン適応法を設計することを提案する。 領域ベースの細粒度アノテーション(セグメントやバウンディングボックスなど)を持つ他のタスクとは異なり、群衆のカウントは人間の頭部の1点のみに注釈を付け、細粒度適応メソッドの実装を妨げる。 そこで本研究では,複数インスタンス学習の文脈において,ポイントレベル群数アノテーションから群集セグメンテーションを学ぶための,新規かつ効果的なスキーマを提案する。 さらに、得られたセグメントを活用して、群集カウントのための細粒度ドメイン適応フレームワークを提案する。これは、2つの新しい適応モジュール、すなわち、CRT(Crowd Region Transfer)とCDA(Crowd Density Alignment)から構成される。 具体的には、CRTモジュールは、背景の乱れを超えた領域間での群衆の移動を誘導するために設計されており、CDAモジュールはターゲット領域の群集密度分布の制限に重点を置いている。 複数のクロスドメイン設定(Synthetic $\rightarrow$ Real, Fixed $\rightarrow$ Fickle, Normal $\rightarrow$ BadWeather)に対する大規模な実験は、最先端の手法と比較して提案手法の優位性を実証している。

Existing domain adaptation methods for crowd counting view each crowd image as a whole and reduce domain discrepancies on crowds and backgrounds simultaneously. However, we argue that these methods are suboptimal, as crowds and backgrounds have quite different characteristics and backgrounds may vary dramatically in different crowd scenes (see Fig.~\ref{teaser}). This makes crowds not well aligned across domains together with backgrounds in a holistic manner. To this end, we propose to untangle crowds and backgrounds from crowd images and design fine-grained domain adaption methods for crowd counting. Different from other tasks which possess region-based fine-grained annotations (e.g., segments or bounding boxes), crowd counting only annotates one point on each human head, which impedes the implementation of fine-grained adaptation methods. To tackle this issue, we propose a novel and effective schema to learn crowd segmentation from point-level crowd counting annotations in the context of Multiple Instance Learning. We further leverage the derived segments to propose a crowd-aware fine-grained domain adaptation framework for crowd counting, which consists of two novel adaptation modules, i.e., Crowd Region Transfer (CRT) and Crowd Density Alignment (CDA). Specifically, the CRT module is designed to guide crowd features transfer across domains beyond background distractions, and the CDA module dedicates to constraining the target-domain crowd density distributions. Extensive experiments on multiple cross-domain settings (i.e., Synthetic $\rightarrow$ Real, Fixed $\rightarrow$ Fickle, Normal $\rightarrow$ BadWeather) demonstrate the superiority of the proposed method compared with state-of-the-art methods.
翻訳日:2021-08-09 20:53:25 公開日:2021-08-06
# (参考訳) QR分解と$L_{2,1}$ノルム最小化に基づく高速かつ高精度な低ランクテンソル補完法 [全文訳有]

Fast and Accurate Low-Rank Tensor Completion Methods Based on QR Decomposition and $L_{2,1}$ Norm Minimization ( http://arxiv.org/abs/2108.03002v1 )

ライセンス: CC BY 4.0
HongBing Zhang, XinYi Liu, HongTao Fan, YaJing Li, Yinlin Ye(参考訳) 最近では、行列完全問題に対するカタール・リヤル(QR)分解(CSVD-QR)法に基づく近似SVDが提示されており、その計算複雑性は$O(r^2(m+n))$であり、主に$r$が$\min\{m,n\}$よりはるかに小さいためである。 特に興味深いのは、核ノルムをこの分解に基づいて提案された$L_{2,1}$ノルムに置き換えた後に、核ノルムの上界として、その分解における中間行列$D$が対角行列に近いとき、その分解は核ノルムに収束し、$D$行列が対角行列と等しいとき、完全に等しい。 我々の知る限りでは、テンソル完全問題の解法を一般化して適用する文献は存在しない。 このことから着想を得た本論文では, テンソル完全問題に対する$L_{2,1}$ノルムとCSVD-QR法に基づくテンソル最小化モデルのクラスを提案する。

More recently, an Approximate SVD Based on Qatar Riyal (QR) Decomposition (CSVD-QR) method for matrix complete problem is presented, whose computational complexity is $O(r^2(m+n))$, which is mainly due to that $r$ is far less than $\min\{m,n\}$, where $r$ represents the largest number of singular values of matrix $X$. What is particularly interesting is that after replacing the nuclear norm with the $L_{2,1}$ norm proposed based on this decomposition, as the upper bound of the nuclear norm, when the intermediate matrix $D$ in its decomposition is close to the diagonal matrix, it will converge to the nuclear norm, and is exactly equal, when the $D$ matrix is equal to the diagonal matrix, to the nuclear norm, which ingeniously avoids the calculation of the singular value of the matrix. To the best of our knowledge, there is no literature to generalize and apply it to solve tensor complete problems. Inspired by this, in this paper we propose a class of tensor minimization model based on $L_{2,1}$ norm and CSVD-QR method for the tensor complete problem, which is convex and therefore has a global minimum solution.
翻訳日:2021-08-09 20:35:42 公開日:2021-08-06
# (参考訳) 視覚的分析による銀行信用格付けプロセスの検査 [全文訳有]

Inspecting the Process of Bank Credit Rating via Visual Analytics ( http://arxiv.org/abs/2108.03011v1 )

ライセンス: CC BY 4.0
Qiangqiang Liu, Quan Li, Zhihua Zhu, Tangzhi Ye and Xiaojuan Ma(参考訳) 銀行信用格付けは、公開および内部情報に基づいて銀行を異なるレベルに分類し、金融リスク管理において重要なインプットとなる。 しかし、ドメインの専門家は、異なる銀行信用格付け方式を探求し比較するという曖昧な考えを持っている。 主観的・定量的分析と適切な指標重み決定の難しさの緩やかな関係は、銀行信用格付けの理解を曖昧にしている。 さらに、既存のモデルは、すべての銀行に統一された指標重みを適用すれば、銀行のタイプを考慮できない。 我々は、さまざまな銀行信用格付け手法を調査・比較する専門家を支援するため、RatingVisを提案する。 ドメイン知識を取り入れることで、銀行の指標重み付けをインタラクティブに推論し、分析ループで銀行の種類を検討する。 本研究では,RatingVisの有効性を検証するために,実世界の銀行データを用いてケーススタディを行う。 専門家からのフィードバックは、私たちのアプローチは、異なる評価体系をより理解するのに役立ちます。

Bank credit rating classifies banks into different levels based on publicly disclosed and internal information, serving as an important input in financial risk management. However, domain experts have a vague idea of exploring and comparing different bank credit rating schemes. A loose connection between subjective and quantitative analysis and difficulties in determining appropriate indicator weights obscure understanding of bank credit ratings. Furthermore, existing models fail to consider bank types by just applying a unified indicator weight set to all banks. We propose RatingVis to assist experts in exploring and comparing different bank credit rating schemes. It supports interactively inferring indicator weights for banks by involving domain knowledge and considers bank types in the analysis loop. We conduct a case study with real-world bank data to verify the efficacy of RatingVis. Expert feedback suggests that our approach helps them better understand different rating schemes.
翻訳日:2021-08-09 20:10:36 公開日:2021-08-06
# (参考訳) 手の衛生段階の特徴検出 [全文訳有]

Feature Detection for Hand Hygiene Stages ( http://arxiv.org/abs/2108.03015v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi, Jane Courtney, Damon Berry, Graham Gavin(参考訳) 手洗いの過程は複雑な手の動きを伴う。 世界保健機関(WHO)のガイドラインでは、手を洗うための主要なステップが6つある。 本稿では,強固な手洗いデータセットを作成するためのアルミニウム製リグ構造の詳細な説明について述べる。 画像処理とコンピュータビジョンアルゴリズムによる手ポーズ抽出と,ハリス検出器,シトマシ,SIFTなどの特徴検出による予備的な結果が示された。 手の衛生ポーズ-手のひらから手のひらまでを全ての実験を実行するための入力画像として捉えた。 今後の研究は、手の動きのビデオ記録の処理と、手衛生段階の分類のためのディープラーニングソリューションの適用に焦点を当てる。

The process of hand washing involves complex hand movements. There are six principal sequential steps for washing hands as per the World Health Organisation (WHO) guidelines. In this work, a detailed description of an aluminium rig construction for creating a robust hand-washing dataset is discussed. The preliminary results with the help of image processing and computer vision algorithms for hand pose extraction and feature detection such as Harris detector, Shi-Tomasi and SIFT are demonstrated. The hand hygiene pose- Rub hands palm to palm was captured as an input image for running all the experiments. The future work will focus upon processing the video recordings of hand movements captured and applying deep-learning solutions for the classification of hand-hygiene stages.
翻訳日:2021-08-09 20:00:29 公開日:2021-08-06
# (参考訳) 確率的完全性制約を持つ非基底帰納論理プログラミング [全文訳有]

Non-ground Abductive Logic Programming with Probabilistic Integrity Constraints ( http://arxiv.org/abs/2108.03033v1 )

ライセンス: CC BY 4.0
Elena Bellodi, Marco Gavanelli, Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi(参考訳) アプリケーションフィールドの数が増えるにつれて、不確実な情報が考慮されている。 一方、誘拐は仮説的推論と不完全知識を扱う強力なツールであることが証明されている。 確率論的論理モデルは不確実な情報を扱うのに適したフレームワークであり、過去10年間に多くの確率論的論理言語が提案されてきた。 帰納論理プログラミング(ALP)の領域では、様々な証明手順が定義されている。 本稿では,変数の確率的推論に対処し,よりリッチな論理言語を考える。 特に、整合性制約「a la IFF」に富んだALPプログラムを、確率値でアノテートしたものと考える。 まず,全帰納的言語とその意味論を分布意味論に基づいて提示する。 次に,前述したものを拡張して得られた証明手順を導入し,その健全性と完全性を証明する。

Uncertain information is being taken into account in an increasing number of application fields. In the meantime, abduction has been proved a powerful tool for handling hypothetical reasoning and incomplete knowledge. Probabilistic logical models are a suitable framework to handle uncertain information, and in the last decade many probabilistic logical languages have been proposed, as well as inference and learning systems for them. In the realm of Abductive Logic Programming (ALP), a variety of proof procedures have been defined as well. In this paper, we consider a richer logic language, coping with probabilistic abduction with variables. In particular, we consider an ALP program enriched with integrity constraints `a la IFF, possibly annotated with a probability value. We first present the overall abductive language, and its semantics according to the Distribution Semantics. We then introduce a proof procedure, obtained by extending one previously presented, and prove its soundness and completeness.
翻訳日:2021-08-09 19:56:23 公開日:2021-08-06
# (参考訳) ハイブリッドASPシステムのセマンティクスを目指して [全文訳有]

Towards a Semantics for Hybrid ASP systems ( http://arxiv.org/abs/2108.03061v1 )

ライセンス: CC0 1.0
Pedro Cabalar and Jorge Fandinno and Torsten Schaub and Philipp Wanko(参考訳) 過去数十年にわたり、aspの開発は、高度に高性能なシステムによる表現力のあるモデリング言語をもたらした。 同時に、結果のコンストラクトと推論をキャプチャするセマンティックアンダーピンニングを提供するのがますます難しくなっています。 これは、現実世界のアプリケーションを扱うためにしばしば必要となるハイブリッドasp言語とシステムに関してさらに厳しいものである。 この課題に対処し、ASP.NETと統合する上での正式な詳細化を可能にする抽象的および構造化理論の概念を導入します。 次に、この概念を用いて、Clingoの理論推論フレームワークのセマンティックキャラクタリゼーションを正確に評価し、制約付きHere-and-thereの論理と対応性を確立する。 これにより、ClingCON、ClingOM[DL]、ClingO[LP]といった既存のClingOのハイブリダイゼーションの形式的性質を詳細化できるフォーマルなフレームワークが提供されます。

Over the last decades the development of ASP has brought about an expressive modeling language powered by highly performant systems. At the same time, it gets more and more difficult to provide semantic underpinnings capturing the resulting constructs and inferences. This is even more severe when it comes to hybrid ASP languages and systems that are often needed to handle real-world applications. We address this challenge and introduce the concept of abstract and structured theories that allow us to formally elaborate upon their integration with ASP. We then use this concept to make precise the semantic characterization of CLINGO's theory-reasoning framework and establish its correspondence to the logic of Here-and-there with constraints. This provides us with a formal framework in which we can elaborate formal properties of existing hybridizations of CLINGO such as CLINGCON, CLINGOM[DL], and CLINGO[LP].
翻訳日:2021-08-09 19:37:23 公開日:2021-08-06
# (参考訳) ビデオにおける表情の時空間的コントラスト学習 [全文訳有]

Spatiotemporal Contrastive Learning of Facial Expressions in Videos ( http://arxiv.org/abs/2108.03064v1 )

ライセンス: CC BY-SA 4.0
Shuvendu Roy, Ali Etemad(参考訳) ビデオにおける表情認識(FER)のための自己教師付きコントラスト学習手法を提案する。 本稿では,コントラスト学習に使用される標準的な空間拡張に加えて,新しい時間的サンプリングに基づく増補法を提案する。 提案手法は,(1)純ランダムサンプリング,(2)一様サンプリング,(3)逐次サンプリングの3つの手法のうちの1つからランダムに抽出する。 これに続いて、最大3つの標準空間拡張が組み合わされる。 次に、FERのために深いR(2+1)Dネットワークを使用し、拡張に基づいて自己教師付きで訓練し、その後微調整する。 Oulu-CASIAデータセットで実験を行い、FERの他の研究と比較する。 以上の結果から,本手法は89.4%の精度を実現し,他の手法を上回って新たな最先端の手法を考案した。 さらなる実験と分析により、提案する時間的増補と既存の空間的増補の有意な寄与が確認された。

We propose a self-supervised contrastive learning approach for facial expression recognition (FER) in videos. We propose a novel temporal sampling-based augmentation scheme to be utilized in addition to standard spatial augmentations used for contrastive learning. Our proposed temporal augmentation scheme randomly picks from one of three temporal sampling techniques: (1) pure random sampling, (2) uniform sampling, and (3) sequential sampling. This is followed by a combination of up to three standard spatial augmentations. We then use a deep R(2+1)D network for FER, which we train in a self-supervised fashion based on the augmentations and subsequently fine-tune. Experiments are performed on the Oulu-CASIA dataset and the performance is compared to other works in FER. The results indicate that our method achieves an accuracy of 89.4%, setting a new state-of-the-art by outperforming other works. Additional experiments and analysis confirm the considerable contribution of the proposed temporal augmentation versus the existing spatial ones.
翻訳日:2021-08-09 18:56:11 公開日:2021-08-06
# (参考訳) 地域別twitterコールアウトからの偽情報洞察の導出 [全文訳有]

Deriving Disinformation Insights from Geolocalized Twitter Callouts ( http://arxiv.org/abs/2108.03067v1 )

ライセンス: CC BY-SA 4.0
David Tuxworth, Dimosthenis Antypas, Luis Espinosa-Anke, Jose Camacho-Collados, Alun Preece, David Rogers(参考訳) 本稿では,複数の言語にまたがる地理空間分類と埋め込み型言語モデリングの組み合わせを応用して,偽情報に関連するソーシャルメディアデータから洞察を得る2段階の手法を示す。 特に分析は、英語、フランス語、スペイン語の3つのヨーロッパの言語について、twitterと偽情報を中心に行われた。 まず、TwitterデータはBERTを使用してヨーロッパと非ヨーロッパに分類される。 第二に、Word2vecは分類されたテキストに適用され、3つのターゲット言語に対するデータのユーロ中心、非ユーロ中心、およびグローバル表現をもたらす。 この比較分析は, 分類法の有効性だけでなく, 地理的, 時間的, 言語的差異を浮き彫りにした。 i)新しい言語非依存のトランスフォーマーベースの位置情報法 (ii) 語彙特異性と単語埋め込みを利用してユーザー生成コンテンツに疑問を呈する分析的アプローチ (iii) 英語、フランス語、スペイン語における3600万の偽情報関連ツイートのデータセット。

This paper demonstrates a two-stage method for deriving insights from social media data relating to disinformation by applying a combination of geospatial classification and embedding-based language modelling across multiple languages. In particular, the analysis in centered on Twitter and disinformation for three European languages: English, French and Spanish. Firstly, Twitter data is classified into European and non-European sets using BERT. Secondly, Word2vec is applied to the classified texts resulting in Eurocentric, non-Eurocentric and global representations of the data for the three target languages. This comparative analysis demonstrates not only the efficacy of the classification method but also highlights geographic, temporal and linguistic differences in the disinformation-relat ed media. Thus, the contributions of the work are threefold: (i) a novel language-independent transformer-based geolocation method; (ii) an analytical approach that exploits lexical specificity and word embeddings to interrogate user-generated content; and (iii) a dataset of 36 million disinformation related tweets in English, French and Spanish.
翻訳日:2021-08-09 18:39:23 公開日:2021-08-06
# (参考訳) SWSR: オンライン性行為検出のための中国のデータセットとレキシコン

SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection ( http://arxiv.org/abs/2108.03070v1 )

ライセンス: CC BY 4.0
Aiqi Jiang, Xiaohan Yang, Yang Liu, Arkaitz Zubiaga(参考訳) オンライン性差別は、インターネットの健全な発展に影響を及ぼし、社会に悪影響を及ぼす可能性があるため、ソーシャルメディアプラットフォームにおける関心が高まっている。 セクシズム検出領域の研究は増えているが、この研究のほとんどは英語を言語として、twitterをプラットフォームとして焦点を当てている。 本研究の目的は,sina weiboの中国語を考慮し,この研究の範囲を広げることである。 中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、虐待的およびジェンダー関連の用語で作られた大きな中国のレキシコンSexHateLexを提案する。 我々は,データ収集とアノテーションのプロセスを導入し,その品質を検証するためにデータセットの特徴を探索的に分析し,中国語で性差別がどのように現れるかを示す。 swsrデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリーおよび(iii)ターゲットタイプを含む、異なるレベルの粒度のラベルを提供する。 最先端機械学習モデルを用いた3つの性差別分類タスクについて実験を行った。 以上の結果から,中国語における性差別検出のベンチマークや,中国語nlpのさらなる研究を必要とするオープン課題を強調するエラー分析を行った。 SWSRデータセットとSexHateLex lexiconが公開されている。

Online sexism has become an increasing concern in social media platforms as it has affected the healthy development of the Internet and can have negative effects in society. While research in the sexism detection domain is growing, most of this research focuses on English as the language and on Twitter as the platform. Our objective here is to broaden the scope of this research by considering the Chinese language on Sina Weibo. We propose the first Chinese sexism dataset -- Sina Weibo Sexism Review (SWSR) dataset --, as well as a large Chinese lexicon SexHateLex made of abusive and gender-related terms. We introduce our data collection and annotation process, and provide an exploratory analysis of the dataset characteristics to validate its quality and to show how sexism is manifested in Chinese. The SWSR dataset provides labels at different levels of granularity including (i) sexism or non-sexism, (ii) sexism category and (iii) target type, which can be exploited, among others, for building computational methods to identify and investigate finer-grained gender-related abusive language. We conduct experiments for the three sexism classification tasks making use of state-of-the-art machine learning models. Our results show competitive performance, providing a benchmark for sexism detection in the Chinese language, as well as an error analysis highlighting open challenges needing more research in Chinese NLP. The SWSR dataset and SexHateLex lexicon are publicly available.
翻訳日:2021-08-09 18:24:07 公開日:2021-08-06
# (参考訳) ユーラーk-平均と超越 [全文訳有]

Rectified Euler k-means and Beyond ( http://arxiv.org/abs/2108.03081v1 )

ライセンス: CC BY 4.0
Yunxia Lin, Songcan chen(参考訳) オイラー k-平均 (Euler k-means, EulerK) は、まずデータを等次元空間の単位超球面に、ロバストなオイラー核を誘導する複素写像によってマッピングし、次に人気のある$k$-means を用いる。 したがって、大規模データセットに対する単純さやスケーラビリティといったk-meansの特質を享受するだけでなく、EulerKはノイズや外れ値にも頑丈である。 しかし、オイラーKによって捕獲された中心体は単位超球面から逸脱し、したがって厳密な分布感覚で、実際は外れ値である。 この奇妙な現象は、いくつかのジェネリックカーネルクラスタリング手法でも起こります。 直感的には、このような外れたセントロイドを使うのはあまり合理的ではないが、ほとんど参加しない。 偏差をなくすために,データ構造をよりよく特徴付けるために,地図上に存在する実遠心域を取得しながら,オイラーKの利点を保ちながら,REK1とREK2の2つの定形オイラーk平均法を提案する。 具体的には、REK1は中心体に制約を課すことでオイラーKを修正し、REK2は各中心体を元の空間における前像から写像された像とみなし、これらの前像をオイラー核誘導空間で最適化する。 提案したREKは方法論的に拡張して,そのようなカテゴリの問題を解決することができる。 最後に、実験はREK1とREK2の有効性を検証する。

Euler k-means (EulerK) first maps data onto the unit hyper-sphere surface of equi-dimensional space via a complex mapping which induces the robust Euler kernel and next employs the popular $k$-means. Consequently, besides enjoying the virtues of k-means such as simplicity and scalability to large data sets, EulerK is also robust to noises and outliers. Although so, the centroids captured by EulerK deviate from the unit hyper-sphere surface and thus in strict distributional sense, actually are outliers. This weird phenomenon also occurs in some generic kernel clustering methods. Intuitively, using such outlier-like centroids should not be quite reasonable but it is still seldom attended. To eliminate the deviation, we propose two Rectified Euler k-means methods, i.e., REK1 and REK2, which retain the merits of EulerK while acquire real centroids residing on the mapped space to better characterize the data structures. Specifically, REK1 rectifies EulerK by imposing the constraint on the centroids while REK2 views each centroid as the mapped image from a pre-image in the original space and optimizes these pre-images in Euler kernel induced space. Undoubtedly, our proposed REKs can methodologically be extended to solve problems of such a category. Finally, the experiments validate the effectiveness of REK1 and REK2.
翻訳日:2021-08-09 18:22:41 公開日:2021-08-06
# (参考訳) 多言語社会イベント検出のための知識蒸留 [全文訳有]

Transferring Knowledge Distillation for Multilingual Social Event Detection ( http://arxiv.org/abs/2108.03084v1 )

ライセンス: CC BY 4.0
Jiaqian Ren and Hao Peng and Lei Jiang and Jia Wu and Yongxin Tong and Lihong Wang and Xu Bai and Bo Wang and Qiang Yang(参考訳) 最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。 しかし、ほとんどの研究は、豊富なトレーニングサンプルを持つ言語における単言語データに向けられている。 これは、より一般的な多言語設定と、比較的未熟な話し言葉を残している。 本稿では,多言語データストリームにおけるイベント検出のための言語間埋め込みを組み込んだgnnを提案する。 最初のエクスプロイトは、GNNを多言語データで動作させることである。 このために、ノードレベルとセマンティックレベルの両方で異なる言語でメッセージを整列する構築戦略を概説する。 メッセージ間の関係は、同一だが異なる言語で参照されるエンティティをマージすることによって確立される。 非英語のメッセージ表現は、言語間埋め込みによって英語意味空間に変換される。 得られたメッセージグラフは、GNNモデルによって一様に符号化される。 より少ない言語を検出する必要がある特別な場合、CLKDと呼ばれる新しい言語間知識蒸留フレームワークは、英語の類似スレッドから学んだ事前知識を活用して、注釈付きデータの曖昧さを補う。 合成データと実世界のデータセットの両方の実験により、このフレームワークは多言語データとトレーニングサンプルが不足している言語の両方で検出に非常に効果的であることが示されている。

Recently published graph neural networks (GNNs) show promising performance at social event detection tasks. However, most studies are oriented toward monolingual data in languages with abundant training samples. This has left the more common multilingual settings and lesser-spoken languages relatively unexplored. Thus, we present a GNN that incorporates cross-lingual word embeddings for detecting events in multilingual data streams. The first exploit is to make the GNN work with multilingual data. For this, we outline a construction strategy that aligns messages in different languages at both the node and semantic levels. Relationships between messages are established by merging entities that are the same but are referred to in different languages. Non-English message representations are converted into English semantic space via the cross-lingual word embeddings. The resulting message graph is then uniformly encoded by a GNN model. In special cases where a lesser-spoken language needs to be detected, a novel cross-lingual knowledge distillation framework, called CLKD, exploits prior knowledge learned from similar threads in English to make up for the paucity of annotated data. Experiments on both synthetic and real-world datasets show the framework to be highly effective at detection in both multilingual data and in languages where training samples are scarce.
翻訳日:2021-08-09 18:01:35 公開日:2021-08-06
# (参考訳) ソーシャルメディアにおけるヘイトスピーチ検出のための言語間カプセルネットワーク [全文訳有]

Cross-lingual Capsule Network for Hate Speech Detection in Social Media ( http://arxiv.org/abs/2108.03089v1 )

ライセンス: CC BY 4.0
Aiqi Jiang, Arkaitz Zubiaga(参考訳) ほとんどのヘイトスピーチ検出研究は単一の言語(一般的には英語)に焦点を当てており、他の言語への一般化性を制限する。 本稿では,言語間ヘイトスピーチ検出タスクについて検討し,ヘイトスピーチの資源を言語から他の言語に適応させることで課題に取り組む。 本稿では,ヘイトスピーチ(CCNL-Ex)のための言語間カプセルネットワーク学習モデルを提案する。 我々のモデルは、AMI@Evalita2018とAMI@Ibereval2018のベンチマークデータセット上での最先端のパフォーマンスを達成する。

Most hate speech detection research focuses on a single language, generally English, which limits their generalisability to other languages. In this paper we investigate the cross-lingual hate speech detection task, tackling the problem by adapting the hate speech resources from one language to another. We propose a cross-lingual capsule network learning model coupled with extra domain-specific lexical semantics for hate speech (CCNL-Ex). Our model achieves state-of-the-art performance on benchmark datasets from AMI@Evalita2018 and AMI@Ibereval2018 involving three languages: English, Spanish and Italian, outperforming state-of-the-art baselines on all six language pairs.
翻訳日:2021-08-09 17:34:18 公開日:2021-08-06
# (参考訳) 確率線形リカレントニューラルネットワークによる経路分類 [全文訳有]

Path classification by stochastic linear recurrent neural networks ( http://arxiv.org/abs/2108.03090v1 )

ライセンス: CC BY 4.0
Wiebke Bartolomaeus, Youness Boutaib, Sandra Nestler, Holger Rauhut(参考訳) 本稿では, 統計学習理論をモデルとした生体ニューラルネットワークを, 識別活性化機能付き連続時間確率的リカレントニューラルネットワーク (RNN) として, 簡易な設定で機能する方法について検討する。 純粋に確率的(ロバスト)な理論では、高い確率を持つ一般化誤差境界を与え、経験的リスク最小化がクラス内で最良の仮説であることを示す。 トレーニングや分類作業に利用されるユニークな情報として,RNNが供給される経路の部分的なシグネチャを保持することを示す。 これらのRNNは訓練が容易で堅牢であり、これらの観測を合成データと実データの両方で数値実験で裏付ける。 また、精度と堅牢性のトレードオフ現象も示しています。

We investigate the functioning of a classifying biological neural network from the perspective of statistical learning theory, modelled, in a simplified setting, as a continuous-time stochastic recurrent neural network (RNN) with identity activation function. In the purely stochastic (robust) regime, we give a generalisation error bound that holds with high probability, thus showing that the empirical risk minimiser is the best-in-class hypothesis. We show that RNNs retain a partial signature of the paths they are fed as the unique information exploited for training and classification tasks. We argue that these RNNs are easy to train and robust and back these observations with numerical experiments on both synthetic and real data. We also exhibit a trade-off phenomenon between accuracy and robustness.
翻訳日:2021-08-09 17:21:41 公開日:2021-08-06
# (参考訳) ペアワイズアフィニティによる1次元非パラメトリック潜在空間モデルの局在

Localization in 1D non-parametric latent space models from pairwise affinities ( http://arxiv.org/abs/2108.03098v1 )

ライセンス: CC BY 4.0
Christophe Giraud and Yann Issartel and Nicolas Verzelen(参考訳) 対の親和性から一次元トーラスにおける潜伏位置を推定する問題を考察する。 一対のアイテム間の観測された親和性は、トーラス上の2つのアイテムの潜在位置$x^*_{i},x^*_{j}$の関数$f(x^*_{i},x^*_{j})$のノイズ観測としてモデル化される。 アフィニティ関数 $f$ は未知であり、$x$ と $y$ の間の距離が小さいと$f(x,y)$ が大きいことを保証するいくつかの形状制約を満たすと仮定される。 この非パラメトリックモデリングは、データに適合する優れた柔軟性を提供します。 我々は、高い確率で$\sqrt{\log(n)/n}$の順序の最大誤差で、潜在位置を確実にローカライズする推定手順を導入する。 この速度はミニマックス最適であることが証明されている。 この手順の計算効率の良い変種は、より制限的な仮定の下でも解析される。 我々の一般的な結果は、統計セレーションの問題によりインスタンス化することができ、順序付けにおける最大誤差に対する新たな境界が導かれる。

We consider the problem of estimating latent positions in a one-dimensional torus from pairwise affinities. The observed affinity between a pair of items is modeled as a noisy observation of a function $f(x^*_{i},x^*_{j})$ of the latent positions $x^*_{i},x^*_{j}$ of the two items on the torus. The affinity function $f$ is unknown, and it is only assumed to fulfill some shape constraints ensuring that $f(x,y)$ is large when the distance between $x$ and $y$ is small, and vice-versa. This non-parametric modeling offers a good flexibility to fit data. We introduce an estimation procedure that provably localizes all the latent positions with a maximum error of the order of $\sqrt{\log(n)/n}$, with high-probability. This rate is proven to be minimax optimal. A computationally efficient variant of the procedure is also analyzed under some more restrictive assumptions. Our general results can be instantiated to the problem of statistical seriation, leading to new bounds for the maximum error in the ordering.
翻訳日:2021-08-09 16:46:52 公開日:2021-08-06
# (参考訳) TS4Net:オブジェクトの回転検出のための2段階サンプル選択戦略 [全文訳有]

TS4Net: Two-Stage Sample Selective Strategy for Rotating Object Detection ( http://arxiv.org/abs/2108.03116v1 )

ライセンス: CC BY 4.0
Kai Feng, Weixing Li, Jun Han, Feng Pan, Dongdong Zheng(参考訳) 回転物体検出は、空中写真、リモートセンシング画像、UAV等に広く応用されている。 現在、回転する物体検出データセットのほとんどはリモートセンシングの分野に焦点を当てており、これらの画像は通常高高度のシーンで撮影される。 しかし、低高度で撮影された画像データセット、例えばドローンベースのデータセットも考慮すべきである。 そこで我々は、回転物体検出とUAV応用の研究開発を促進するために、UAV-RODという低高度ドローンベースのデータセットを提案する。 UAV-RODは1577枚の画像と30,090個の車種からなる。 特に、UAV-RODは、回転物体検出、車両の向き認識、物体カウントタスクに利用できる。 水平方向の物体検出と比較すると、回転検出の回帰段階は難しい問題である。 本稿では、アンカーリファインメントモジュール(ARM)と2段階サンプル選択戦略(TS4)を含む回転物体検出器TS4Netを提案する。 ARMは、予め設定された水平アンカーを、2段のアンカーの改良により高品質なローテーションアンカーに変換することができる。 TS4モジュールは、異なる段階の回帰タスクに適応する正と負のサンプルを割り当てるために、異なる制約されたサンプル選択戦略を利用する。 アームとts4の利点により、ts4netは1つのプリセットされた水平アンカーのみで回転物体検出に優れた性能を達成できる。 uav-rodデータセットと3つのリモートセンシングデータセットに関する広範囲な実験結果から,本手法が最先端手法と競合する性能を実現することを証明した。

Rotating object detection has wide applications in aerial photographs, remote sensing images, UAVs, etc. At present, most of the rotating object detection datasets focus on the field of remote sensing, and these images are usually shot in high-altitude scenes. However, image datasets captured at low-altitude areas also should be concerned, such as drone-based datasets. So we present a low-altitude dronebased dataset, named UAV-ROD, aiming to promote the research and development in rotating object detection and UAV applications. The UAV-ROD consists of 1577 images and 30,090 instances of car category annotated by oriented bounding boxes. In particular, The UAV-ROD can be utilized for the rotating object detection, vehicle orientation recognition and object counting tasks. Compared with horizontal object detection, the regression stage of the rotation detection is a tricky problem. In this paper, we propose a rotating object detector TS4Net, which contains anchor refinement module (ARM) and two-stage sample selective strategy (TS4). The ARM can convert preseted horizontal anchors into high-quality rotated anchors through twostage anchor refinement. The TS4 module utilizes different constrained sample selective strategies to allocate positive and negative samples, which is adaptive to the regression task in different stages. Benefiting from the ARM and TS4, the TS4Net can achieve superior performance for rotating object detection solely with one preseted horizontal anchor. Extensive experimental results on UAV-ROD dataset and three remote sensing datasets DOTA, HRSC2016 and UCAS-AOD demonstrate that our method achieves competitive performance against most state-of-the-art methods.
翻訳日:2021-08-09 16:45:21 公開日:2021-08-06
# (参考訳) 肺超音波の分節化とcovid-19と市中肺炎の適応 [全文訳有]

Lung Ultrasound Segmentation and Adaptation between COVID-19 and Community-Acquired Pneumonia ( http://arxiv.org/abs/2108.03138v1 )

ライセンス: CC0 1.0
Harry Mason, Lorenzo Cristoni, Andrew Walden, Roberto Lazzari, Thomas Pulimood, Louis Grandjean, Claudia AM Gandini Wheeler-Kingshott, Yipeng Hu, Zachary MC Baum(参考訳) 肺超音波検査は間質性肺炎の典型的なパターンを検出するのに有効であることが、COVID-19および他の地域性肺炎(CAP)患者のポイント・オブ・ケア・ツールとして示されている。 本研究では,ハイパーエコーb線分節化タスクに注目する。 深層ニューラルネットワークを用いて病理に敏感なアーチファクトとその超音波パターンを示す領域を自動的に概説する。 実世界のデータスカースシナリオでは、COVID-19とCAP肺超音波データを用いてネットワークをトレーニングする手法について検討し、微調整と教師なしドメイン適応の比較を行った。 いずれのタイプの肺条件を推論において分割することは、流行の進行段階において様々な臨床応用をサポートするが、資源制約された臨床シナリオの価値も示す。 実際の臨床データをCAP患者に適応させることで、Diceのスコアは0.60から0.87(p < 0.001)に、独立したCOVID-19患者では0.43から0.71(p < 0.001)に改善した。 臨床実践において機械学習モデルをデプロイするための一般的な制約であるトレーニングデータセットと適応データセットの両方において、少量のデータだけで改善が実証されたことは実用的価値である。 また,ラベル付きCAPデータから未ラベルのCOVID-19データへの逆適応は,いずれの条件においても改善しなかったことも報告した。 さらに, このポイント・オブ・ケア肺超音波応用において, セグメンテーション性能とラベルの一貫性, データ領域の多様性を相関させる可能性を示す。

Lung ultrasound imaging has been shown effective in detecting typical patterns for interstitial pneumonia, as a point-of-care tool for both patients with COVID-19 and other community-acquired pneumonia (CAP). In this work, we focus on the hyperechoic B-line segmentation task. Using deep neural networks, we automatically outline the regions that are indicative of pathology-sensitive artifacts and their associated sonographic patterns. With a real-world data-scarce scenario, we investigate approaches to utilize both COVID-19 and CAP lung ultrasound data to train the networks; comparing fine-tuning and unsupervised domain adaptation. Segmenting either type of lung condition at inference may support a range of clinical applications during evolving epidemic stages, but also demonstrates value in resource-constrained clinical scenarios. Adapting real clinical data acquired from COVID-19 patients to those from CAP patients significantly improved Dice scores from 0.60 to 0.87 (p < 0.001) and from 0.43 to 0.71 (p < 0.001), on independent COVID-19 and CAP test cases, respectively. It is of practical value that the improvement was demonstrated with only a small amount of data in both training and adaptation data sets, a common constraint for deploying machine learning models in clinical practice. Interestingly, we also report that the inverse adaptation, from labelled CAP data to unlabeled COVID-19 data, did not demonstrate an improvement when tested on either condition. Furthermore, we offer a possible explanation that correlates the segmentation performance to label consistency and data domain diversity in this point-of-care lung ultrasound application.
翻訳日:2021-08-09 16:28:30 公開日:2021-08-06
# (参考訳) ELSED: 線画の強化 [全文訳有]

ELSED: Enhanced Line SEgment Drawing ( http://arxiv.org/abs/2108.03144v1 )

ライセンス: CC BY 4.0
Iago Su\'arez, Jos\'e M. Buenaposada, Luis Baumela(参考訳) コーナー、セグメント、ブロブなどのローカル機能を検出することは、多くのコンピュータビジョンアプリケーションのパイプラインの最初のステップである。 リアルタイムアプリケーションにはスピードが不可欠だ。 本稿では,文献中で最速の線分検出器である elsed について述べる。 その効率の鍵は、小さな不連続の存在下で勾配アラインされたピクセルを接続する局所セグメント成長アルゴリズムである。 提案したアルゴリズムは、非常にローエンドなハードウェアを持つデバイスで動作するだけでなく、手作業に応じて短いセグメントや長いセグメントの検出を促進するためにパラメータ化することもできる。 セグメント検出器の精度と再現性を評価するための新しい指標も導入する。 公開ベンチマークの異なる実験では,本手法が文献において最も効率的であることを証明し,その精度を定量的に評価した。

Detecting local features, such as corners, segments or blobs, is the first step in the pipeline of many Computer Vision applications. Its speed is crucial for real time applications. In this paper we present ELSED, the fastest line segment detector in the literature. The key for its efficiency is a local segment growing algorithm that connects gradient aligned pixels in presence of small discontinuities. The proposed algorithm not only runs in devices with very low end hardware, but may also be parametrized to foster the detection of short or longer segments, depending on the task at hand. We also introduce new metrics to evaluate the accuracy and repeatability of segment detectors. In our experiments with different public benchmarks we prove that our method is the most efficient in the literature and quantify the accuracy traded for such gain.
翻訳日:2021-08-09 16:19:39 公開日:2021-08-06
# (参考訳) 自律ロボットにおける高レベルデバッグのための特徴パラメータ空間の到達領域 [全文訳有]

Attainment Regions in Feature-Parameter Space for High-Level Debugging in Autonomous Robots ( http://arxiv.org/abs/2108.03150v1 )

ライセンス: CC BY 4.0
Sim\'on C. Smith, Subramanian Ramamoorthy(参考訳) 異なるシナリオでコントローラのパフォーマンスを理解することは、安全クリティカルなタスクにデプロイされるロボットにとって非常に重要です。 もし我々が世界の力学のモデルを持っていなければ、複雑な領域ではよくあることだが、環境との相互作用に基づいてロボットの性能関数を近似する必要があるかもしれない。 このようなパフォーマンス機能は、ロボットの動作に関する洞察を与え、手動でコントローラを微調整することを可能にする。 作用状態空間が大きい高次元系では、制御器の微調整は非自明である。 そこで本研究では,コントローラの外部特徴とパラメータによってドメインが定義される性能関数を提案する。 達成領域は、特徴パラメータペアによって定義されたそのようなドメイン上で定義され、タスクの実行を成功させるために役立ちます。 特徴パラメータ空間の使用 - 作用状態空間とは対照的に、より単純な(低次元空間)上でコントローラを適応、説明、微調整することができる。 ロボットがタスクをうまく実行した場合、達成領域を使用して、コントローラの限界とその堅牢性に関する洞察を得る。 ロボットがタスクを実行に失敗した場合、リージョンを使用してコントローラをデバッグし、ソリューションに対する適応的かつ反則的な変更を見つけます。 このアプローチのもう1つの利点は、高次元空間における性能関数のガウス過程回帰を用いて一般化できることである。 提案手法をテストするために,移動ロボットが異なる地形条件を走行しながら,シミュレーションにおける性能関数の近似を学習した。 そして,サンプル効率のよい手法により,同様の環境下での達成領域を物理ロボットに伝達する。

Understanding a controller's performance in different scenarios is crucial for robots that are going to be deployed in safety-critical tasks. If we do not have a model of the dynamics of the world, which is often the case in complex domains, we may need to approximate a performance function of the robot based on its interaction with the environment. Such a performance function gives us insights into the behaviour of the robot, allowing us to fine-tune the controller with manual interventions. In high-dimensionality systems, where the actionstate space is large, fine-tuning a controller is non-trivial. To overcome this problem, we propose a performance function whose domain is defined by external features and parameters of the controller. Attainment regions are defined over such a domain defined by feature-parameter pairs, and serve the purpose of enabling prediction of successful execution of the task. The use of the feature-parameter space -in contrast to the action-state space- allows us to adapt, explain and finetune the controller over a simpler (i.e., lower dimensional space). When the robot successfully executes the task, we use the attainment regions to gain insights into the limits of the controller, and its robustness. When the robot fails to execute the task, we use the regions to debug the controller and find adaptive and counterfactual changes to the solutions. Another advantage of this approach is that we can generalise through the use of Gaussian processes regression of the performance function in the high-dimensional space. To test our approach, we demonstrate learning an approximation to the performance function in simulation, with a mobile robot traversing different terrain conditions. Then, with a sample-efficient method, we propagate the attainment regions to a physical robot in a similar environment.
翻訳日:2021-08-09 16:00:55 公開日:2021-08-06
# (参考訳) ビデオオブジェクトセグメンテーションのためのフルダブル戦略 [全文訳有]

Full-Duplex Strategy for Video Object Segmentation ( http://arxiv.org/abs/2108.03151v1 )

ライセンス: CC BY 4.0
Ge-Peng Ji, Keren Fu, Zhe Wu, Deng-Ping Fan, Jianbing Shen, Ling Shao(参考訳) 出現と動きはビデオオブジェクトセグメンテーション(VOS)における2つの重要な情報源である。 従来の手法は主に単純なソリューションの使用に重点を置いており、これらの2つのキュー間の機能コラボレーションの上限を低くしている。 本稿では, FSNet (Full-duplex Strategy Network) と呼ばれる新しいフレームワークについて検討し, 埋め込みサブ空間間の双方向メッセージ伝達を実現するために, RCAM (Relational Cross-attention Module) を設計する。 さらに,両方向浄化モジュール(BPM)を導入し,空間的・時間的埋め込み間の不整合性を更新し,モデルロバスト性を効果的に向上する。 我々のFSNetは、全二重戦略における相互拘束を考慮し、融合・復号ステージの前に同時にクロスモーダルな特徴通過(すなわち、伝送と受信)を行い、VOSの様々な挑戦シナリオ(例えば、動きのぼやけ、閉塞)に対して堅牢である。 一般的な5つのベンチマーク(DAVIS$_{16}$、FBMS、MCL、SegTrack-V2、DAVSOD$_{19}$)の大規模な実験は、我々のFSNetがVOSとビデオの精細なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示している。

Appearance and motion are two important sources of information in video object segmentation (VOS). Previous methods mainly focus on using simplex solutions, lowering the upper bound of feature collaboration among and across these two cues. In this paper, we study a novel framework, termed the FSNet (Full-duplex Strategy Network), which designs a relational cross-attention module (RCAM) to achieve the bidirectional message propagation across embedding subspaces. Furthermore, the bidirectional purification module (BPM) is introduced to update the inconsistent features between the spatial-temporal embeddings, effectively improving the model robustness. By considering the mutual restraint within the full-duplex strategy, our FSNet performs the cross-modal feature-passing (i.e., transmission and receiving) simultaneously before the fusion and decoding stage, making it robust to various challenging scenarios (e.g., motion blur, occlusion) in VOS. Extensive experiments on five popular benchmarks (i.e., DAVIS$_{16}$, FBMS, MCL, SegTrack-V2, and DAVSOD$_{19}$) show that our FSNet outperforms other state-of-the-arts for both the VOS and video salient object detection tasks.
翻訳日:2021-08-09 15:50:09 公開日:2021-08-06
# (参考訳) GLASS:形状空間の幾何学的潜在拡張 [全文訳有]

GLASS: Geometric Latent Augmentation for Shape Spaces ( http://arxiv.org/abs/2108.03225v1 )

ライセンス: CC BY 4.0
Sanjeev Muralikrishnan (1), Siddhartha Chaudhuri (2 and 3), Noam Aigerman (2), Vladimir Kim (2), Matthew Fisher (2) and Niloy Mitra (1 and 2) ((1) University College London, (2) Adobe Research, (3) IIT Bombay)(参考訳) 本研究では, 非常にスパースな3次元モデルによる生成モデルの訓練の問題点について検討する。 幾何学的に動機づけられたエネルギーを用いて拡張し、サンプル(トレーニング)モデルのスパースコレクションを増強する。 本研究では,ARAP(as-rigid-as-po ssible)エネルギーのヘシアンを解析し,基礎となる(局所的な)形状空間に投射し,拡張データセットを用いて可変オートエンコーダ(VAE)のトレーニングを行う。 我々は,vaeの潜在空間の構築と関連するデータセットの拡張を繰り返すことで,幾何学的かつ意味的に有効なサンプルを作成するための,より豊かで表現力豊かな生成空間を徐々に明らかにする。 当社のフレームワークでは,高品質な3Dモデルの小さなセットであっても,生成可能な3Dモデルをトレーニングすることが可能です。 本手法は強力なベースラインに対して広範囲に評価し, アブレーション研究を行い, 形状対応の確立への応用を示す。 3~10のトレーニング形状から始めても,興味深く有意義な形状変化を示す複数の例を示す。

We investigate the problem of training generative models on a very sparse collection of 3D models. We use geometrically motivated energies to augment and thus boost a sparse collection of example (training) models. We analyze the Hessian of the as-rigid-as-possible (ARAP) energy to sample from and project to the underlying (local) shape space, and use the augmented dataset to train a variational autoencoder (VAE). We iterate the process of building latent spaces of VAE and augmenting the associated dataset, to progressively reveal a richer and more expressive generative space for creating geometrically and semantically valid samples. Our framework allows us to train generative 3D models even with a small set of good quality 3D models, which are typically hard to curate. We extensively evaluate our method against a set of strong baselines, provide ablation studies and demonstrate application towards establishing shape correspondences. We present multiple examples of interesting and meaningful shape variations even when starting from as few as 3-10 training shapes.
翻訳日:2021-08-09 15:10:53 公開日:2021-08-06
# 時間的抽象部分モデル

Temporally Abstract Partial Models ( http://arxiv.org/abs/2108.03213v1 )

ライセンス: Link先を確認
Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, Doina Precup(参考訳) 人間と動物は、様々な行動の過程を多くの時間スケールで推論し予測する能力を持っている。 強化学習において、オプションモデル(Sutton, Precup \& Singh, 1999; Precup, 2000)は、このような時間的抽象的な予測と推論の枠組みを提供する。 自然知的エージェントは、特定の状況において関連する、あるいは実現可能な行動コースに注目し、時には手頃な行動と呼ばれることもある。 本稿では,選択肢の余裕の概念を定義し,ある状況においてのみ選択肢が手頃な価格であることを考慮して,時間的に抽象的な部分的オプションモデルを開発する。 このようなモデルを用いた場合の計画と学習における推定誤差と近似誤差のトレードオフを分析し、興味深い特別なケースを特定する。 さらに、部分的オプションモデルが計画の効率に与える影響を実証的に示す。

Humans and animals have the ability to reason and make predictions about different courses of action at many time scales. In reinforcement learning, option models (Sutton, Precup \& Singh, 1999; Precup, 2000) provide the framework for this kind of temporally abstract prediction and reasoning. Natural intelligent agents are also able to focus their attention on courses of action that are relevant or feasible in a given situation, sometimes termed affordable actions. In this paper, we define a notion of affordances for options, and develop temporally abstract partial option models, that take into account the fact that an option might be affordable only in certain situations. We analyze the trade-offs between estimation and approximation error in planning and learning when using such models, and identify some interesting special cases. Additionally, we demonstrate empirically the potential impact of partial option models on the efficiency of planning.
翻訳日:2021-08-09 14:45:03 公開日:2021-08-06
# 心臓血管疾患に対するAIを用いた大動脈血管木切開術

AI-based Aortic Vessel Tree Segmentation for Cardiovascular Diseases Treatment: Status Quo ( http://arxiv.org/abs/2108.02998v1 )

ライセンス: Link先を確認
Yuan Jin, Antonio Pepe, Jianning Li, Christina Gsaxner, Fen-hua Zhao, Jens Kleesiek, Alejandro F. Frangi, Jan Egger(参考訳) 大動脈管木は大動脈とその分岐動脈から構成され、全身に血液を供給する上で重要な役割を果たす。 動脈瘤や解離などの大動脈疾患は大動脈破裂を引き起こすことがあるが、開腹手術による治療は非常に危険である。 したがって、患者は、画像による血管の定期的な検査を必要とする定常的な監視の下で、一般的に薬物治療を受ける。 診断・監視のための標準的な画像モダリティをCT(CT)と算出し、造影剤と組み合わせれば大動脈とその分岐血管の詳細な画像が得られ、CT血管造影(CTA)が生じる。 最適に、連続するctaからの大動脈血管ツリーの形状をオーバーレイして比較する。 これにより大動脈の変化を検出できるだけでなく、原発性病理や新規に発達した末梢血管木の変化も検出できる。 この再建には、手作業で行う場合、スライス・スライス・コントーリングが必要であり、1本の大動脈管木で一日を要し、臨床での使用は不可能である。 一方、自動的または半自動的な容器木分割アルゴリズムは、手動の実行時間のごく一部でこのタスクを完了し、臨床医の臨床ルーチンと並行して実行することができる。 本稿では,大動脈管ツリーの自動的および半自動的なセグメンテーションのための計算手法を体系的に検討する。 このレビューは、これらの最先端のアプローチが臨床実践への応用にどの程度近いか、そしてこの研究分野がどれほど活発であるかについて、出版物、データセット、課題の数を考慮して詳細に議論することで締めくくくっている。

The aortic vessel tree is composed of the aorta and its branching arteries, and plays a key role in supplying the whole body with blood. Aortic diseases, like aneurysms or dissections, can lead to an aortic rupture, whose treatment with open surgery is highly risky. Therefore, patients commonly undergo drug treatment under constant monitoring, which requires regular inspections of the vessels through imaging. The standard imaging modality for diagnosis and monitoring is computed tomography (CT), which can provide a detailed picture of the aorta and its branching vessels if combined with a contrast agent, resulting in a CT angiography (CTA). Optimally, the whole aortic vessel tree geometry from consecutive CTAs, are overlaid and compared. This allows to not only detect changes in the aorta, but also more peripheral vessel tree changes, caused by the primary pathology or newly developed. When performed manually, this reconstruction requires slice by slice contouring, which could easily take a whole day for a single aortic vessel tree and, hence, is not feasible in clinical practice. Automatic or semi-automatic vessel tree segmentation algorithms, on the other hand, can complete this task in a fraction of the manual execution time and run in parallel to the clinical routine of the clinicians. In this paper, we systematically review computing techniques for the automatic and semi-automatic segmentation of the aortic vessel tree. The review concludes with an in-depth discussion on how close these state-of-the-art approaches are to an application in clinical practice and how active this research field is, taking into account the number of publications, datasets and challenges.
翻訳日:2021-08-09 14:43:39 公開日:2021-08-06
# StrucTexT:マルチモーダル変換器による構造化テキスト理解

StrucTexT: Structured Text Understanding with Multi-Modal Transformers ( http://arxiv.org/abs/2108.02923v1 )

ライセンス: Link先を確認
Yulin Li and Yuxi Qian and Yuchen Yu and Xiameng Qin and Chengquan Zhang and Yan Liu and Kun Yao and Junyu Han and Jingtuo Liu and Errui Ding(参考訳) Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 VRDにおけるコンテンツとレイアウトの複雑さのため、構造化されたテキスト理解は難しい課題でした。 既存の研究の多くは、この問題をエンティティラベリングとエンティティリンクという2つのサブタスクに分離している。 しかし、異なるレベルから効率的に構造化データを抽出するソリューションに関する作業はほとんどなかった。 本稿では,両サブタスクを柔軟かつ効果的に処理できる,structext という統一フレームワークを提案する。 具体的には、変換器に基づいて、異なるレベルの粒度でエンティティラベリングやエンティティリンクタスクを扱うセグメントツーケン整列エンコーダを導入する。 さらに,よりリッチな表現を学ぶために,3つの自己監督タスクを用いた新しい事前学習戦略を設計する。 StrucTexTは、既存のMasked Visual Language Modelingタスクと、Sentence Longngth PredictionとPaired Boxes Directionタスクを使用して、テキスト、画像、レイアウトにマルチモーダル情報を組み込む。 本手法は,セグメントレベルとトークンレベルで構造化テキスト理解を行い,funsd,sroie,ephoieデータセットにおいて,最先端のテキスト理解よりも優れた性能を示す。

Structured text understanding on Visually Rich Documents (VRDs) is a crucial part of Document Intelligence. Due to the complexity of content and layout in VRDs, structured text understanding has been a challenging task. Most existing studies decoupled this problem into two sub-tasks: entity labeling and entity linking, which require an entire understanding of the context of documents at both token and segment levels. However, little work has been concerned with the solutions that efficiently extract the structured data from different levels. This paper proposes a unified framework named StrucTexT, which is flexible and effective for handling both sub-tasks. Specifically, based on the transformer, we introduce a segment-token aligned encoder to deal with the entity labeling and entity linking tasks at different levels of granularity. Moreover, we design a novel pre-training strategy with three self-supervised tasks to learn a richer representation. StrucTexT uses the existing Masked Visual Language Modeling task and the new Sentence Length Prediction and Paired Boxes Direction tasks to incorporate the multi-modal information across text, image, and layout. We evaluate our method for structured text understanding at segment-level and token-level and show it outperforms the state-of-the-art counterparts with significantly superior performance on the FUNSD, SROIE, and EPHOIE datasets.
翻訳日:2021-08-09 14:43:13 公開日:2021-08-06
# AceNAS: ウェイトシェアの弱スーパービジョンでニューラルネットワークのランク付けを学ぶ

AceNAS: Learning to Rank Ace Neural Architectures with Weak Supervision of Weight Sharing ( http://arxiv.org/abs/2108.03001v1 )

ライセンス: Link先を確認
Yuge Zhang and Chenqian Yan and Quanlu Zhang and Li Lyna Zhang and Yaming Yang and Xiaotian Gao and Yuqing Yang(参考訳) アーキテクチャ性能予測器はニューラルアーキテクチャサーチ(NAS)で広く使われている。 それらは単純かつ効果的であることが示されているが、従来の芸術の最適化目的(例えば、空間内のすべてのアーキテクチャの正確な精度推定や完全なランキング)はNASのランク付けの性質を捉えていなかった。 さらに、信頼性の高い予測器を構築するには、多くの接地アーキテクチャと精度のペアが必要であり、計算コストが高すぎる。 そこで本稿では,NASを新たな視点から検討し,Learning to Rank(LTR)手法を導入して,空間から最高の(最悪の)アーキテクチャを選択する。 具体的には,正規化割引累積ゲイン(ndcg)を目標メトリックとして,ラムダランクをトレーニングアルゴリズムとして使用することを提案する。 また,スーパーネットから得られた弱いラベルに対するアーキテクチャ表現を事前トレーニングし,スクラッチからトレーニングした少数のアーキテクチャを用いてランキングモデルを微調整することにより,重量分散による弱い監督を活用することを提案する。 NASベンチマークと大規模検索空間の大規模な実験により,提案手法はSOTAよりも大幅にコストを削減した。

Architecture performance predictors have been widely used in neural architecture search (NAS). Although they are shown to be simple and effective, the optimization objectives in previous arts (e.g., precise accuracy estimation or perfect ranking of all architectures in the space) did not capture the ranking nature of NAS. In addition, a large number of ground-truth architecture-accurac y pairs are usually required to build a reliable predictor, making the process too computationally expensive. To overcome these, in this paper, we look at NAS from a novel point of view and introduce Learning to Rank (LTR) methods to select the best (ace) architectures from a space. Specifically, we propose to use Normalized Discounted Cumulative Gain (NDCG) as the target metric and LambdaRank as the training algorithm. We also propose to leverage weak supervision from weight sharing by pretraining architecture representation on weak labels obtained from the super-net and then finetuning the ranking model using a small number of architectures trained from scratch. Extensive experiments on NAS benchmarks and large-scale search spaces demonstrate that our approach outperforms SOTA with a significantly reduced search cost.
翻訳日:2021-08-09 14:42:27 公開日:2021-08-06
# アクティブラーニングによる運転シナリオ軌跡の分析

Analysis of Driving Scenario Trajectories with Active Learning ( http://arxiv.org/abs/2108.03217v1 )

ライセンス: Link先を確認
Sanna Jarl and Sadegh Rahrovani and Morteza Haghir Chehreghani(参考訳) 明示的なルール(すなわち知識に基づく手法)に基づいて、駆動シナリオの軌跡を注釈付けすることは、2つのシナリオクラスの境界にあるシナリオの偽陽性/負の分類、未知のシナリオクラス、および異常といった誤りを負う可能性がある。 一方、アノテーションによるラベルの検証はコスト効率が良くない。 この目的のために、アクティブラーニング(al)は、アノテーション/エキスパートを効率的に含むことによって、アノテーション手順を改善する可能性がある。 本研究では,運転軌跡時系列データをアノテートする能動的学習フレームワークを開発する。 最初のステップでは、時系列の軌跡を潜時空間に埋め込み、時間的性質を抽出する。 本研究では,多変量時間列t-Distributed Stochastic Neighbor Embedding (mTSNE), Recurrent Auto-Encoder (RAE), Variational Recurrent Auto-Encoder (VRAE)の3種類の遅延空間表現について検討する。 次に、異なる分類モデルを持つ異なるアクティブラーニングパラダイムを組込みデータに適用する。 特に,2つの分類器であるニューラルネットワーク(nn)とサポートベクターマシン(svm)について,3つのアクティブラーニングクエリ戦略(エントロピー,マージン,ランダム)について検討した。 以下に、未知のクラスを発見するためのフレームワークの可能性について検討し、クラス外軌道の識別にどのように使用できるかを示す。

Annotating the driving scenario trajectories based only on explicit rules (i.e., knowledge-based methods) can be subject to errors, such as false positive/negative classification of scenarios that lie on the border of two scenario classes, missing unknown scenario classes, and also anomalies. On the other side, verifying the labels by the annotators is not cost-efficient. For this purpose, active learning (AL) could potentially improve the annotation procedure by inclusion of an annotator/expert in an efficient way. In this study, we develop an active learning framework to annotate driving trajectory time-series data. At the first step, we compute an embedding of the time-series trajectories into a latent space in order to extract the temporal nature. For this purpose, we study three different latent space representations: multivariate Time Series t-Distributed Stochastic Neighbor Embedding (mTSNE), Recurrent Auto-Encoder (RAE) and Variational Recurrent Auto-Encoder (VRAE). We then apply different active learning paradigms with different classification models to the embedded data. In particular, we study the two classifiers Neural Network (NN) and Support Vector Machines (SVM), with three active learning query strategies (i.e., entropy, margin and random). In the following, we explore the possibilities of the framework to discover unknown classes and demonstrate how it can be used to identify the out-of-class trajectories.
翻訳日:2021-08-09 14:41:51 公開日:2021-08-06
# 同定可能なエネルギーに基づく表現:不均一因果効果推定への応用

Identifiable Energy-based Representations: An Application to Estimating Heterogeneous Causal Effects ( http://arxiv.org/abs/2108.03039v1 )

ライセンス: Link先を確認
Yao Zhang and Jeroen Berrevoets and Mihaela van der Schaar(参考訳) 条件付き平均治療効果(CATEs)は、多数の個体における異種性の影響を理解するのに役立つ。 しかし、典型的なCATE学習者は、CATEが識別可能であるために、すべての共起変数が測定されていると仮定する。 多くの場合、この要件はCATEを推定するためのサンプルの複雑さの増加を犠牲にして、単に多くの変数を収集することで満たされる。 これに対抗するために,ノイズコントラッシブ損失関数を用いて変数の低次元表現を学習するエネルギーベースモデル(EBM)を提案する。 EBMでは、既存のモデルや学習者がCATEを推定するために開発した学習者の次元的呪いを緩和する前処理のステップを導入します。 我々は、ebmが表現を部分的に普遍定数まで識別でき、またモデルの誤特定から過剰な情報損失を避けるための普遍近似能力を持つことを証明している。 実験は表現の収束を実証し、また様々なベンチマーク次元の低減法によって得られた変数や表現よりも、表現のキャットの推定が優れていることを示した。

Conditional average treatment effects (CATEs) allow us to understand the effect heterogeneity across a large population of individuals. However, typical CATE learners assume all confounding variables are measured in order for the CATE to be identifiable. Often, this requirement is satisfied by simply collecting many variables, at the expense of increased sample complexity for estimating CATEs. To combat this, we propose an energy-based model (EBM) that learns a low-dimensional representation of the variables by employing a noise contrastive loss function. With our EBM we introduce a preprocessing step that alleviates the dimensionality curse for any existing model and learner developed for estimating CATE. We prove that our EBM keeps the representations partially identifiable up to some universal constant, as well as having universal approximation capability to avoid excessive information loss from model misspecification; these properties combined with our loss function, enable the representations to converge and keep the CATE estimation consistent. Experiments demonstrate the convergence of the representations, as well as show that estimating CATEs on our representations performs better than on the variables or the representations obtained via various benchmark dimensionality reduction methods.
翻訳日:2021-08-09 14:41:17 公開日:2021-08-06
# 不確実性に基づく医用セグメンテーションのための動的グラフ近傍

Uncertainty-Based Dynamic Graph Neighborhoods For Medical Segmentation ( http://arxiv.org/abs/2108.03117v1 )

ライセンス: Link先を確認
Ufuk Demir, Atahan Ozer, Yusuf H. Sahin, Gozde Unal(参考訳) 近年,深層学習に基づく手法は,セグメンテーションなどの重要な医用画像解析タスクに成功している。 セグメンテーションの結果の処理と精錬は、セグメンテーションネットワークに由来する誤分類を減らす一般的なプラクティスである。 セグメント化された体積/面積の構造に焦点を当てた条件ランダム場(CRF)のような広く使われている手法に加えて、グラフベースの最近のアプローチでは、グラフ内の特定の不確実点を利用し、小さなグラフ畳み込みネットワーク(GCN)に従ってセグメント化を洗練する。 しかし、このアプローチの欠点は2つあり、グラフのエッジのほとんどはランダムに割り当てられ、gcnはセグメンテーションネットワークから独立してトレーニングされる。 これらの問題に対処するために,特徴距離に応じて新しい隣接選択機構を定義し,学習手順における2つのネットワークを結合する。 CT(CT)画像による膵分画実験の結果,定量値の改善が示された。 また,提案手法が生成する動的近傍を調べることで,意味的に類似した画像部分間のエッジが観察される。 提案手法は,視覚的結果に示すように,セグメンテーションマップの質的拡張も示す。

In recent years, deep learning based methods have shown success in essential medical image analysis tasks such as segmentation. Post-processing and refining the results of segmentation is a common practice to decrease the misclassifications originating from the segmentation network. In addition to widely used methods like Conditional Random Fields (CRFs) which focus on the structure of the segmented volume/area, a graph-based recent approach makes use of certain and uncertain points in a graph and refines the segmentation according to a small graph convolutional network (GCN). However, there are two drawbacks of the approach: most of the edges in the graph are assigned randomly and the GCN is trained independently from the segmentation network. To address these issues, we define a new neighbor-selection mechanism according to feature distances and combine the two networks in the training procedure. According to the experimental results on pancreas segmentation from Computed Tomography (CT) images, we demonstrate improvement in the quantitative measures. Also, examining the dynamic neighbors created by our method, edges between semantically similar image parts are observed. The proposed method also shows qualitative enhancements in the segmentation maps, as demonstrated in the visual results.
翻訳日:2021-08-09 14:40:35 公開日:2021-08-06
# selm:siamese extreme learning machineと顔バイオメトリックスへの応用

SELM: Siamese Extreme Learning Machine with Application to Face Biometrics ( http://arxiv.org/abs/2108.03140v1 )

ライセンス: Link先を確認
Wasu Kudisthalert, Kitsuchart Pasupa, Aythami Morales, Julian Fierrez(参考訳) Extreme Learning Machineは、競争力のある既存の分類手法である。 訓練は非常に速い。 しかしながら、顔認証タスクは、同時に2人の顔画像を比較し、同一人物を識別するかどうかを判断する必要があるため、顔認証タスクを適切に実行することはできない。 Extreme Leaning Machineの構造は、2つの入力データストリームを同時に供給するように設計されていないため、2つの入力シナリオでは、Extreme Learning Machineメソッドは通常、連結入力を使用して適用される。 しかし、このセットアップは2倍の計算資源を消費し、分離可能な距離メトリックの学習が重要となる認識タスクには最適化されない。 これらの理由から,我々はSamese Extreme Learning Machine (SELM) を提案し,開発する。 SELMは2つのデータストリームを同時に供給するように設計された。 余分な siamese 層でデュアルストリームの siamese 条件を使用してデータを変換し、それを隠れた層に渡す。 さらに,特定の集団でのみ訓練された性倫理依存三重項特徴を提案する。 この機能は、各グループの有用な顔の特徴の学習と抽出を可能にする。 実験により,SELM,Extreme Learning Machine,DCNNの性能を評価し,比較した。 実験の結果,提案手法は97.87%の精度と99.45%のaucで正確な分類が可能であった。 また、提案された特徴とselmを併用することで98.31%の精度と99.72%のaucが得られることを示した。 彼らはよく知られたDCNNとExtreme Leaning Machineの手法を幅広いマージンで上回った。

Extreme Learning Machine is a powerful classification method very competitive existing classification methods. It is extremely fast at training. Nevertheless, it cannot perform face verification tasks properly because face verification tasks require comparison of facial images of two individuals at the same time and decide whether the two faces identify the same person. The structure of Extreme Leaning Machine was not designed to feed two input data streams simultaneously, thus, in 2-input scenarios Extreme Learning Machine methods are normally applied using concatenated inputs. However, this setup consumes two times more computational resources and it is not optimized for recognition tasks where learning a separable distance metric is critical. For these reasons, we propose and develop a Siamese Extreme Learning Machine (SELM). SELM was designed to be fed with two data streams in parallel simultaneously. It utilizes a dual-stream Siamese condition in the extra Siamese layer to transform the data before passing it along to the hidden layer. Moreover, we propose a Gender-Ethnicity-Dep endent triplet feature exclusively trained on a variety of specific demographic groups. This feature enables learning and extracting of useful facial features of each group. Experiments were conducted to evaluate and compare the performances of SELM, Extreme Learning Machine, and DCNN. The experimental results showed that the proposed feature was able to perform correct classification at 97.87% accuracy and 99.45% AUC. They also showed that using SELM in conjunction with the proposed feature provided 98.31% accuracy and 99.72% AUC. They outperformed the well-known DCNN and Extreme Leaning Machine methods by a wide margin.
翻訳日:2021-08-09 14:40:14 公開日:2021-08-06
# サブグループ発見を伴うブラックボックスインシデントトリージングの解釈可能な要約

Interpretable Summaries of Black Box Incident Triaging with Subgroup Discovery ( http://arxiv.org/abs/2108.03013v1 )

ライセンス: Link先を確認
Youcef Remil, Anes Bendimerad, Marc Plantevit, C\'eline Robardet, Mehdi Kaytoue(参考訳) 予測メンテナンスの必要性は、監視システムや機器/ソフトウェアユーザによって報告されるインシデントの増加に伴う。 最前線では、オンコールエンジニア(OCE)は、インシデントの深刻度を迅速に評価し、どのサービスにコンタクトして修正行動を行うかを決定する必要がある。 これらの決定を自動化するために、いくつかの予測モデルが提案されているが、最も効率的なモデルは不透明である(例えばブラックボックス)。 本稿では,過去7年間に当社に報告された170kインシデントに基づく効率的なブラックボックスモデルを提案するとともに,当社製品を実行している数千台のサーバ上で,インシデントが大規模に報告された場合のトリアージの自動化の必要性を強調する。 最近の説明可能な人工知能(xai)の開発は、モデルにグローバルな説明を提供するだけでなく、モデル予測/アウトカム毎にローカルな説明を提供するのにも役立ちます。 残念なことに、毎日の重要な数の予測を扱う場合、各結果の説明を人間に提供することは不可能である。 この問題に対処するために,ブラックボックスの予測に類似した説明を共有したオブジェクトをグループ化する自然なパターンマイニング手法であるSubgroup Discoveryをルーツとする独自のデータマイニング手法を提案する。 我々は,この手法を評価し,OCEの効果的な採用を期待できる予備的な結果を提示する。 このアプローチは、モデルに依存しない結果説明の問題を解決する新しい方法を提供すると信じています。

The need of predictive maintenance comes with an increasing number of incidents reported by monitoring systems and equipment/software users. In the front line, on-call engineers (OCEs) have to quickly assess the degree of severity of an incident and decide which service to contact for corrective actions. To automate these decisions, several predictive models have been proposed, but the most efficient models are opaque (say, black box), strongly limiting their adoption. In this paper, we propose an efficient black box model based on 170K incidents reported to our company over the last 7 years and emphasize on the need of automating triage when incidents are massively reported on thousands of servers running our product, an ERP. Recent developments in eXplainable Artificial Intelligence (XAI) help in providing global explanations to the model, but also, and most importantly, with local explanations for each model prediction/outcome. Sadly, providing a human with an explanation for each outcome is not conceivable when dealing with an important number of daily predictions. To address this problem, we propose an original data-mining method rooted in Subgroup Discovery, a pattern mining technique with the natural ability to group objects that share similar explanations of their black box predictions and provide a description for each group. We evaluate this approach and present our preliminary results which give us good hope towards an effective OCE's adoption. We believe that this approach provides a new way to address the problem of model agnostic outcome explanation.
翻訳日:2021-08-09 14:39:50 公開日:2021-08-06
# ai経済学を用いたデータ駆動、解釈可能、ロバストなポリシー設計の基礎の構築

Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist ( http://arxiv.org/abs/2108.02904v1 )

ライセンス: Link先を確認
Alexander Trott, Sunil Srinivasa, Douwe van der Wal, Sebastien Haneuse, Stephan Zheng(参考訳) 経済政策や公共政策の最適化は、社会経済問題やトレードオフ、例えば平等、生産性、ウェルネスの改善に不可欠であり、複雑なメカニズム設計の問題を引き起こす。 ポリシーデザイナーは、個々の目的のために最適化する戦略的なアクターから、複数の目的、ポリシーレバー、行動応答を考慮する必要がある。 さらに、現実世界のポリシーは、例えばキャリブレーションの問題により、シミュレーションと現実のギャップに対して説明可能で堅牢であるべきである。 既存のアプローチは、測定が難しい、明示的な最適方針を導き出さない、戦略的行動を考慮しない、政策レバーや目的の狭いセットに限定されることが多い。 したがって、現実のシナリオでポリシーを最適化することは依然として困難である。 ここでは,2段階強化学習(rl)とデータ駆動シミュレーションを用いて,ai economistフレームワークが効果的で柔軟で解釈可能なポリシ設計を可能にすることを示す。 我々は、新型コロナウイルス(covid-19)のパンデミックにおける米国の州政策と連邦補助金の厳格性を、実データに適合したシミュレーションを用いて最適化する枠組みを検証する。 rlを用いて訓練したログリニア政策は,公衆衛生と経済効果の両方に基づいて,過去の成果と比較して社会福祉を著しく改善することが判明した。 それらの行動は、例えば、回復率や予防接種率の変化に強く反応する良好な政策など、説明できる。 また、過小評価または過小評価される感染率など、校正エラーに対しても堅牢である。 現時点では、RLやAI駆動のシミュレーションを含む機械学習手法が広く採用されているわけではない。 この結果から,実世界の複雑さの中で,政策設計を指導し,社会福祉を改善するAIの可能性が示唆された。

Optimizing economic and public policy is critical to address socioeconomic issues and trade-offs, e.g., improving equality, productivity, or wellness, and poses a complex mechanism design problem. A policy designer needs to consider multiple objectives, policy levers, and behavioral responses from strategic actors who optimize for their individual objectives. Moreover, real-world policies should be explainable and robust to simulation-to-realit y gaps, e.g., due to calibration issues. Existing approaches are often limited to a narrow set of policy levers or objectives that are hard to measure, do not yield explicit optimal policies, or do not consider strategic behavior, for example. Hence, it remains challenging to optimize policy in real-world scenarios. Here we show that the AI Economist framework enables effective, flexible, and interpretable policy design using two-level reinforcement learning (RL) and data-driven simulations. We validate our framework on optimizing the stringency of US state policies and Federal subsidies during a pandemic, e.g., COVID-19, using a simulation fitted to real data. We find that log-linear policies trained using RL significantly improve social welfare, based on both public health and economic outcomes, compared to past outcomes. Their behavior can be explained, e.g., well-performing policies respond strongly to changes in recovery and vaccination rates. They are also robust to calibration errors, e.g., infection rates that are over or underestimated. As of yet, real-world policymaking has not seen adoption of machine learning methods at large, including RL and AI-driven simulations. Our results show the potential of AI to guide policy design and improve social welfare amidst the complexity of the real world.
翻訳日:2021-08-09 14:38:53 公開日:2021-08-06
# テキスト生成のための文セマンティック回帰

Sentence Semantic Regression for Text Generation ( http://arxiv.org/abs/2108.02984v1 )

ライセンス: Link先を確認
Wei Wang, Piji Li, Hai-Tao Zheng(参考訳) 古典的なテキスト生成作業を思い出すと、生成フレームワークは二段階に分けることができる: \textbf{idea reasoning} と \textbf{surface realization} である。 アイデア推論の目標は、次の会話/書き込み期間で提示される主要なアイデアを理解することである。 表面実現は、主観から抽出した情報を描写し伝達するために最も適切な文を配置することを目的としている。 しかし、現在の一般的なトークン単位のテキスト生成手法はこの決定的なプロセスを無視し、アイデア/トピックドリフトのような深刻な問題に悩まされている。 この問題に取り組み,この二相パラダイムを実現するために,文レベルの言語モデルに基づく文意味回帰(\textbf{ssr})という新しい枠組みを提案する。 アイデア推論では、2つのアーキテクチャ \textbf{SSR-AR} と \textbf{SSR-NonAR} は文の意味論的回帰(GPT2/3)と双方向(BERT)を自動回帰的に実行するように設計されている。 表層実現の段階では、予測文レベルの主アイデアと先行する文脈トークンレベルの情報とを併用することにより、より一貫性のあるテキストを生成するように、混合粒度文デコーダが設計されている。 物語終末予測,物語終末生成,対話生成,文入力の4つのタスクについて実験を行った。 その結果,ssrは自動計測と人的評価の面で優れた性能を得ることができた。

Recall the classical text generation works, the generation framework can be briefly divided into two phases: \textbf{idea reasoning} and \textbf{surface realization}. The target of idea reasoning is to figure out the main idea which will be presented in the following talking/writing periods. Surface realization aims to arrange the most appropriate sentence to depict and convey the information distilled from the main idea. However, the current popular token-by-token text generation methods ignore this crucial process and suffer from many serious issues, such as idea/topic drift. To tackle the problems and realize this two-phase paradigm, we propose a new framework named Sentence Semantic Regression (\textbf{SSR}) based on sentence-level language modeling. For idea reasoning, two architectures \textbf{SSR-AR} and \textbf{SSR-NonAR} are designed to conduct sentence semantic regression autoregressively (like GPT2/3) and bidirectionally (like BERT). In the phase of surface realization, a mixed-granularity sentence decoder is designed to generate text with better consistency by jointly incorporating the predicted sentence-level main idea as well as the preceding contextual token-level information. We conduct experiments on four tasks of story ending prediction, story ending generation, dialogue generation, and sentence infilling. The results show that SSR can obtain better performance in terms of automatic metrics and human evaluation.
翻訳日:2021-08-09 14:37:30 公開日:2021-08-06
# 効率的な転校学習のための基礎スケーリングとダブルプルーニング

Basis Scaling and Double Pruning for Efficient Transfer Learning ( http://arxiv.org/abs/2108.02893v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Satyananda Kashyap, Mehdi Moradi(参考訳) 転送学習は、限られたデータで新しいデータセットでディープラーニング機能を再利用可能にする。 しかし、結果として得られるモデルは不必要に大きいため、非効率である。 ネットワークプルーニングは推論効率を改善するために応用できるが、既存のアルゴリズムは通常微調整が必要であり、小さなデータセットには適さない。 本稿では,畳み込み重みをモデルが刈り取られる正規直交基底の部分空間に変換するアルゴリズムを提案する。 特異値分解を用いて畳み込み層を2つの層に分解する: 正規直交基底ベクトルをフィルタとする畳み込み層と、特徴の再スケーリングと元の空間への変換を行うbasisscalingconvと呼ばれる層。 各変換層のフィルタは既知の相対的重要性と線形独立であるため、プルーニングはより効果的で安定であり、個々の重みの微調整は不要である。 さらに、元の畳み込み層の入出力チャネルの数も変化しないため、ベースプルーニングは事実上全てのネットワークアーキテクチャに適用できる。 ベイシプルーニングは、既存のプルーニングアルゴリズムと組み合わせてダブルプルーニングすることで、プルーニング能力をさらに向上させることができる。 分類精度が1%未満では、パラメータの98.9%、FLOPの98.6%のプルーニング比が得られる。

Transfer learning allows the reuse of deep learning features on new datasets with limited data. However, the resulting models could be unnecessarily large and thus inefficient. Although network pruning can be applied to improve inference efficiency, existing algorithms usually require fine-tuning and may not be suitable for small datasets. In this paper, we propose an algorithm that transforms the convolutional weights into the subspaces of orthonormal bases where a model is pruned. Using singular value decomposition, we decompose a convolutional layer into two layers: a convolutional layer with the orthonormal basis vectors as the filters, and a layer that we name "BasisScalingConv&quo t;, which is responsible for rescaling the features and transforming them back to the original space. As the filters in each transformed layer are linearly independent with known relative importance, pruning can be more effective and stable, and fine tuning individual weights is unnecessary. Furthermore, as the numbers of input and output channels of the original convolutional layer remain unchanged, basis pruning is applicable to virtually all network architectures. Basis pruning can also be combined with existing pruning algorithms for double pruning to further increase the pruning capability. With less than 1% reduction in the classification accuracy, we can achieve pruning ratios up to 98.9% in parameters and 98.6% in FLOPs.
翻訳日:2021-08-09 14:35:35 公開日:2021-08-06
# DOLG:局所的特徴とグローバル的特徴の深い直交融合による単段階画像検索

DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features ( http://arxiv.org/abs/2108.02927v1 )

ライセンス: Link先を確認
Min Yang, Dongliang He, Miao Fan, Baorong Shi, Xuetong Xue, Fu Li, Errui Ding, Jizhou Huang(参考訳) Image Retrievalは、データベースからクエリに似たイメージを取得するための基本的なタスクである。 一般的な画像検索手法は、まず、グローバルな画像特徴を用いた類似性検索により候補画像を検索し、その局所的特徴を活用して候補を再ランクする。 従来の学習に基づく研究は主に、検索課題に取り組むためのグローバルまたはローカルな画像表現学習に焦点を当てていた。 本稿では,2段階のパラダイムを捨て,画像内の局所的・大域的情報をコンパクトな画像表現に統合することにより,効果的な単一ステージソリューションの設計を目指す。 具体的には,エンド・ツー・エンド画像検索のための深層直交局所およびグローバル情報融合フレームワークを提案する。 マルチアトラスな畳み込みと自己注意で代表的ローカル情報を注意深く抽出する。 次に、グローバル画像表現と直交するコンポーネントをローカル情報から抽出する。 最終的に直交成分は、大域表現と相補表現として連結され、次に最終的な表現を生成するために集約が行われる。 フレームワーク全体はエンドツーエンドの微分可能で、イメージレベルのラベルでトレーニングすることができる。 提案手法の有効性を検証し,再訪したオックスフォードおよびパリのデータセットにおいて,最先端の画像検索性能を実現することを実証した。

Image Retrieval is a fundamental task of obtaining images similar to the query one from a database. A common image retrieval practice is to firstly retrieve candidate images via similarity search using global image features and then re-rank the candidates by leveraging their local features. Previous learning-based studies mainly focus on either global or local image representation learning to tackle the retrieval task. In this paper, we abandon the two-stage paradigm and seek to design an effective single-stage solution by integrating local and global information inside images into compact image representations. Specifically, we propose a Deep Orthogonal Local and Global (DOLG) information fusion framework for end-to-end image retrieval. It attentively extracts representative local information with multi-atrous convolutions and self-attention at first. Components orthogonal to the global image representation are then extracted from the local information. At last, the orthogonal components are concatenated with the global representation as a complementary, and then aggregation is performed to generate the final representation. The whole framework is end-to-end differentiable and can be trained with image-level labels. Extensive experimental results validate the effectiveness of our solution and show that our model achieves state-of-the-art image retrieval performances on Revisited Oxford and Paris datasets.
翻訳日:2021-08-09 14:35:14 公開日:2021-08-06
# VinaFood21:ベトナムの食品認識を評価するための新しいデータセット

VinaFood21: A Novel Dataset for Evaluating Vietnamese Food Recognition ( http://arxiv.org/abs/2108.02929v1 )

ライセンス: Link先を確認
Thuan Trong Nguyen, Thuan Q. Nguyen, Dung Vo, Vi Nguyen, Ngoc Ho, Nguyen D. Vo, Kiet Van Nguyen, Khang Nguyen(参考訳) ベトナムは非常に魅力的な観光地であり、印象的かつ原始的な景観と、ユニークな飲食が特徴である。 何千ものベトナム料理の中で、外国人や先住民は食味や料理のレシピに興味を持ち、合理的な価格、口水味、人気がある。 多様性とほぼすべての料理に顕著な類似性と品質のベトナム料理データセットの欠如のため、ベトナム料理を分類するオートシステムを実装することは困難であり、ベトナム料理の発見が容易である。 そこで本稿では,ベトナムにおける21の料理に対応する13,950の画像からなる新しい食品データセットvinafood21について紹介する。 モデルトレーニングには10,044画像,vinafood21データセットでは6,682画像を用い,cnn efficientnet-b0で平均74.81%の精度を得た。 (https://github.com/ nguyenvd-uit/uit-tog ether-dataset)

Vietnam is such an attractive tourist destination with its stunning and pristine landscapes and its top-rated unique food and drink. Among thousands of Vietnamese dishes, foreigners and native people are interested in easy-to-eat tastes and easy-to-do recipes, along with reasonable prices, mouthwatering flavors, and popularity. Due to the diversity and almost all the dishes have significant similarities and the lack of quality Vietnamese food datasets, it is hard to implement an auto system to classify Vietnamese food, therefore, make people easier to discover Vietnamese food. This paper introduces a new Vietnamese food dataset named VinaFood21, which consists of 13,950 images corresponding to 21 dishes. We use 10,044 images for model training and 6,682 test images to classify each food in the VinaFood21 dataset and achieved an average accuracy of 74.81% when fine-tuning CNN EfficientNet-B0. (https://github.com/ nguyenvd-uit/uit-tog ether-dataset)
翻訳日:2021-08-09 14:34:54 公開日:2021-08-06
# 単一画像からの詳細なアバター回収

Detailed Avatar Recovery from Single Image ( http://arxiv.org/abs/2108.02931v1 )

ライセンス: Link先を確認
Hao Zhu and Xinxin Zuo and Haotian Yang and Sen Wang and Xun Cao and Ruigang Yang(参考訳) 本稿では,単一画像からemph{detailed} アバターを回収するための新しい枠組みを提案する。 人間の形、身体のポーズ、テクスチャ、視点のバリエーションなどの要因があるため、これは難しい課題である。 従来の方法は、表面の詳細を欠いたパラメトリックベースのテンプレートを使用して人体の形状を復元しようとする。 結果として体型は衣服がないように見える。 本稿では,パラメトリックモデルのロバスト性と自由形状の3次元変形の柔軟性を組み合わせた,新しい学習基盤フレームワークを提案する。 我々は,深層ニューラルネットワークを用いて階層的メッシュ変形(hmd)フレームワークにおける3次元形状を洗練し,ボディジョイントやシルエット,ピクセル毎のシェーディング情報の制約を生かした。 本手法はスキンモデル以上の完全なテクスチャで人体の詳細な形状を復元する。 実験により, 2次元iou数と3次元距離の両方において, 従来手法よりも精度が向上したことを示す。

This paper presents a novel framework to recover \emph{detailed} avatar from a single image. It is a challenging task due to factors such as variations in human shapes, body poses, texture, and viewpoints. Prior methods typically attempt to recover the human body shape using a parametric-based template that lacks the surface details. As such resulting body shape appears to be without clothing. In this paper, we propose a novel learning-based framework that combines the robustness of the parametric model with the flexibility of free-form 3D deformation. We use the deep neural networks to refine the 3D shape in a Hierarchical Mesh Deformation (HMD) framework, utilizing the constraints from body joints, silhouettes, and per-pixel shading information. Our method can restore detailed human body shapes with complete textures beyond skinned models. Experiments demonstrate that our method has outperformed previous state-of-the-art approaches, achieving better accuracy in terms of both 2D IoU number and 3D metric distance.
翻訳日:2021-08-09 14:34:35 公開日:2021-08-06
# 合成からリアルへ:ラベルなしのリアルデータでコラボレートする画像

From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real Data ( http://arxiv.org/abs/2108.02934v1 )

ライセンス: Link先を確認
Ye Liu and Lei Zhu and Shunda Pei and Huazhu Fu and Jing Qin and Qing Zhang and Liang Wan and Wei Feng(参考訳) 単一画像のデハージングは難しい作業であり、合成トレーニングデータと実世界のテストイメージとのドメインシフトは通常、既存のメソッドの劣化につながる。 この問題に対処するために,ラベルのない実データと協調する新しい画像デハジングフレームワークを提案する。 まず,特徴表現を3つの成分マップ(DID-Net)に切り離す不整形画像デハージングネットワーク(DID-Net)を開発する。 潜在ヘイズフリー画像、透過マップ、大域的な大気光の推定は、ヘイズ過程の物理モデルに依拠する。 我々のDID-Netは,3つのコンポーネントマップを段階的に拡張して予測し,独立したリファインメントネットワークを渡すことで各マップを洗練する。 そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。 具体的には,無ラベル実データに対する一貫性損失を用いて,学生と教師のネットワーク間で,各不連続成分の粗い予測と改良を両立させることを推奨する。 我々は,新たに収集したデータセット(Haze4K)と広く使用されている2つのデハージングデータセット(SOTSとHazeRD)の13の最先端デハージング手法と実世界のハズー画像との比較を行った。 実験の結果,既存の手法よりも定量的で質的な改善が見られた。

Single image dehazing is a challenging task, for which the domain shift between synthetic training data and real-world testing images usually leads to degradation of existing methods. To address this issue, we propose a novel image dehazing framework collaborating with unlabeled real data. First, we develop a disentangled image dehazing network (DID-Net), which disentangles the feature representations into three component maps, i.e. the latent haze-free image, the transmission map, and the global atmospheric light estimate, respecting the physical model of a haze process. Our DID-Net predicts the three component maps by progressively integrating features across scales, and refines each map by passing an independent refinement network. Then a disentangled-consist ency mean-teacher network (DMT-Net) is employed to collaborate unlabeled real data for boosting single image dehazing. Specifically, we encourage the coarse predictions and refinements of each disentangled component to be consistent between the student and teacher networks by using a consistency loss on unlabeled real data. We make comparison with 13 state-of-the-art dehazing methods on a new collected dataset (Haze4K) and two widely-used dehazing datasets (i.e., SOTS and HazeRD), as well as on real-world hazy images. Experimental results demonstrate that our method has obvious quantitative and qualitative improvements over the existing methods.
翻訳日:2021-08-09 14:34:19 公開日:2021-08-06
# CNNによるシェーディングからの高周波形状回復と領域適応

High-frequency shape recovery from shading by CNN and domain adaptation ( http://arxiv.org/abs/2108.02937v1 )

ライセンス: Link先を確認
Kodai Tokieda, Takafumi Iwaguchi, Hiroshi Kawasaki(参考訳) 簡易なシステム構成と移動物体を捕捉する能力により、構造化光を用いたワンショット走査技術の重要性が高まっている。 この手法の厳しい制限の一つは、空間情報を符号化するために射影パターンの特定の領域を必要とするため、スパース形状のみをキャプチャできるが、高周波形状ではないことである。 本稿では,単一カメラを用いた構造光に基づいて1ショットのRGB-Dセンサで撮影するシェーディング情報を用いて,高周波形状の復元手法を提案する。 カラー画像は物体表面のシェーディング情報を含むため、シェーディング技術から高周波形状を復元することができる。 シェーディング技術から形状に異なる照明位置の複数の画像が必要であるが, 単一画像から形状を復元するための学習ベースアプローチを提案する。 さらに,訓練のための十分な量のデータを準備する問題を克服するために,合成データとドメイン適応を用いた高周波形状のための新しいデータ拡張法を提案する。 実験の結果,提案手法の有効性が確認された。

Importance of structured-light based one-shot scanning technique is increasing because of its simple system configuration and ability of capturing moving objects. One severe limitation of the technique is that it can capture only sparse shape, but not high frequency shapes, because certain area of projection pattern is required to encode spatial information. In this paper, we propose a technique to recover high-frequency shapes by using shading information, which is captured by one-shot RGB-D sensor based on structured light with single camera. Since color image comprises shading information of object surface, high-frequency shapes can be recovered by shape from shading techniques. Although multiple images with different lighting positions are required for shape from shading techniques, we propose a learning based approach to recover shape from a single image. In addition, to overcome the problem of preparing sufficient amount of data for training, we propose a new data augmentation method for high-frequency shapes using synthetic data and domain adaptation. Experimental results are shown to confirm the effectiveness of the proposed method.
翻訳日:2021-08-09 14:33:54 公開日:2021-08-06
# ilvr:拡散確率モデルに対する条件付け方法

ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2108.02938v1 )

ライセンス: Link先を確認
Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, Sungroh Yoon(参考訳) 非条件画像生成において拡散確率モデル(DDPM)は顕著な性能を示した。 しかし、DDPMにおける生成過程の確率性のため、所望のセマンティクスで画像を生成することは困難である。 本研究では,ddpmにおける生成過程を誘導し,与えられた参照画像に基づいて高品質な画像を生成する反復的潜在変数リファインメント(ilvr)を提案する。 ここでは、DDPMにおける生成過程の洗練により、単一のDDPMが参照画像によって指示された様々な集合の画像をサンプリングすることができる。 提案手法は,生成を制御しながら高品質な画像を生成する。 本手法の制御性は,様々なダウンサンプリング要因からの生成,多領域画像変換,ペイントツーイメージ,スクリブルによる編集など,様々な画像生成タスクで追加学習することなく,単一のddpmを適応させることができる。

Denoising diffusion probabilistic models (DDPM) have shown remarkable performance in unconditional image generation. However, due to the stochasticity of the generative process in DDPM, it is challenging to generate images with the desired semantics. In this work, we propose Iterative Latent Variable Refinement (ILVR), a method to guide the generative process in DDPM to generate high-quality images based on a given reference image. Here, the refinement of the generative process in DDPM enables a single DDPM to sample images from various sets directed by the reference image. The proposed ILVR method generates high-quality images while controlling the generation. The controllability of our method allows adaptation of a single DDPM without any additional learning in various image generation tasks, such as generation from various downsampling factors, multi-domain image translation, paint-to-image, and editing with scribbles.
翻訳日:2021-08-09 14:33:38 公開日:2021-08-06
# 視覚に基づく自律走行車の運転安全に対する敵意攻撃の評価

Evaluating Adversarial Attacks on Driving Safety in Vision-Based Autonomous Vehicles ( http://arxiv.org/abs/2108.02940v1 )

ライセンス: Link先を確認
Jindi Zhang, Yang Lou, Jianping Wang, Kui Wu, Kejie Lu, Xiaohua Jia(参考訳) 近年、自動運転に多くのディープラーニングモデルが採用されている。 同時に、これらのモデルは自動運転車の安全性を損なう可能性のある新しい脆弱性を導入している。 特に最近の研究では、敵対攻撃がディープラーニングに基づく3次元物体検出モデルの検出精度を著しく低下させることが示されている。 運転安全は自動運転の究極の関心事であるが、ディープラーニングモデルのパフォーマンスと、敵対的攻撃による自動運転車の運転安全性の関連性に関する包括的研究は行われていない。 本稿では,深層学習モデルの検出精度よりも,視覚に基づく自律走行車両の運転安全性に及ぼす摂動攻撃とパッチ攻撃の2つの主な相反攻撃の影響について検討する。 特に,視覚に基づく3次元物体検出ではステレオr-cnnとdsgnという2つの最先端モデルが検討されている。 運転安全性を評価するため,運転安全性能指標のセットを用いたエンドツーエンド評価フレームワークを提案する。 評価実験の結果から,(1)自動運転車の運転安全性に対する攻撃の影響と3次元物体検出器の精度に対する攻撃の影響は分離され,(2)DSGNモデルはステレオR-CNNモデルよりも強い敵攻撃に対する強靭性を示すことがわかった。 また,この2つの研究の背景となる要因についても検討した。 本研究は,敵対的攻撃を評価し,自律運転における深層学習モデルの選択を導く新しい視点を提供する。

In recent years, many deep learning models have been adopted in autonomous driving. At the same time, these models introduce new vulnerabilities that may compromise the safety of autonomous vehicles. Specifically, recent studies have demonstrated that adversarial attacks can cause a significant decline in detection precision of deep learning-based 3D object detection models. Although driving safety is the ultimate concern for autonomous driving, there is no comprehensive study on the linkage between the performance of deep learning models and the driving safety of autonomous vehicles under adversarial attacks. In this paper, we investigate the impact of two primary types of adversarial attacks, perturbation attacks and patch attacks, on the driving safety of vision-based autonomous vehicles rather than the detection precision of deep learning models. In particular, we consider two state-of-the-art models in vision-based 3D object detection, Stereo R-CNN and DSGN. To evaluate driving safety, we propose an end-to-end evaluation framework with a set of driving safety performance metrics. By analyzing the results of our extensive evaluation experiments, we find that (1) the attack's impact on the driving safety of autonomous vehicles and the attack's impact on the precision of 3D object detectors are decoupled, and (2) the DSGN model demonstrates stronger robustness to adversarial attacks than the Stereo R-CNN model. In addition, we further investigate the causes behind the two findings with an ablation study. The findings of this paper provide a new perspective to evaluate adversarial attacks and guide the selection of deep learning models in autonomous driving.
翻訳日:2021-08-09 14:33:24 公開日:2021-08-06
# 自動食事評価のための視覚に基づく食品分析

Vision-Based Food Analysis for Automatic Dietary Assessment ( http://arxiv.org/abs/2108.02947v1 )

ライセンス: Link先を確認
Wei Wang, Weiqing Min, Tianhao Li, Xiaoxiao Dong, Haisheng Li and Shuqiang Jiang(参考訳) 背景:健康な食事を維持することは、栄養不足、肥満、多くの非感染性疾患などの健康問題を避けるために不可欠である。 健康食の欠かせない部分は食事アセスメントである。 従来の手動記録手法は重荷であり、かなりのバイアスと誤りを含んでいる。 近年の人工知能、特にコンピュータビジョン技術の進歩により、食事の自動評価ソリューションの開発が可能になった。 スコープとアプローチ:本稿では,食品画像解析,容積推定,栄養素導出の3段階からなる,統一視覚に基づく食事アセスメント(vbda)フレームワークについて紹介する。 食品の認識,検出,セグメンテーションなど,視覚に基づく食品分析手法を体系的に要約し,容積推定法や栄養素の導出法も与えている。 深層学習の繁栄により、VBDAは徐々にエンドツーエンドの実装へと移行し、単一のネットワークに食品画像を適用して栄養を直接見積もる。 最近提案されたエンドツーエンドの手法についても論じている。 既存の食事アセスメントデータセットをさらに分析し,1つの大規模ベンチマークが緊急に必要であることを示すとともに,最終的にvbdaの重要な課題と今後のトレンドを浮き彫りにする。 重要な発見と結論: 徹底的な調査の結果、マルチタスクのエンドツーエンドのディープラーニングアプローチがVBDAの重要なトレンドであることがわかった。 研究の進展にもかかわらず、食事の複雑さのためにvbdaには多くの課題が残っている。 また,食品分析や正確な体積推定など,vbdaの今後の展開に向けた最新のアイデアを提供する。 この調査は、研究者にvbdaのより実用的なソリューションの提案を促すことを目的としている。

Background: Maintaining a healthy diet is vital to avoid health-related issues, e.g., undernutrition, obesity and many non-communicable diseases. An indispensable part of the health diet is dietary assessment. Traditional manual recording methods are burdensome and contain substantial biases and errors. Recent advances in Artificial Intelligence, especially computer vision technologies, have made it possible to develop automatic dietary assessment solutions, which are more convenient, less time-consuming and even more accurate to monitor daily food intake. Scope and approach: This review presents one unified Vision-Based Dietary Assessment (VBDA) framework, which generally consists of three stages: food image analysis, volume estimation and nutrient derivation. Vision-based food analysis methods, including food recognition, detection and segmentation, are systematically summarized, and methods of volume estimation and nutrient derivation are also given. The prosperity of deep learning makes VBDA gradually move to an end-to-end implementation, which applies food images to a single network to directly estimate the nutrition. The recently proposed end-to-end methods are also discussed. We further analyze existing dietary assessment datasets, indicating that one large-scale benchmark is urgently needed, and finally highlight key challenges and future trends for VBDA. Key findings and conclusions: After thorough exploration, we find that multi-task end-to-end deep learning approaches are one important trend of VBDA. Despite considerable research progress, many challenges remain for VBDA due to the meal complexity. We also provide the latest ideas for future development of VBDA, e.g., fine-grained food analysis and accurate volume estimation. This survey aims to encourage researchers to propose more practical solutions for VBDA.
翻訳日:2021-08-09 14:32:58 公開日:2021-08-06
# 内視鏡映像における深層学習に基づく生体解剖学的ランドマーク検出

Deep Learning-based Biological Anatomical Landmark Detection in Colonoscopy Videos ( http://arxiv.org/abs/2108.02948v1 )

ライセンス: Link先を確認
Kaiwei Che, Chengwei Ye, Yibing Yao, Nachuan Ma, Ruo Zhang, Jiankun Wang, and Max Q.-H. Meng(参考訳) 大腸内視鏡は、病変領域を捉えるために患者の消化管全体(gi)を可視化する標準的なイメージングツールである。 しかし,大腸内視鏡ビデオから抽出した多数の画像の精査には臨床医の時間を要する。 これにより,大腸内の生物学的解剖学的所見の自動検出が要求され,病変部位の案内情報を提供することで臨床医の負担を軽減することができる。 本稿では,大腸内視鏡ビデオにおける生体解剖学的ランドマークを検出するための,新しい深層学習に基づくアプローチを提案する。 まず、生の大腸内視鏡ビデオシーケンスを前処理して干渉フレームを拒否する。 次に、ResNet-101ベースのネットワークを用いて、3つの生物学的解剖学的ランドマークを別々に検出し、中間検出結果を得る。 第3に,ビデオ全体のランドマーク期間のより信頼性の高いローカライズを実現するため,時間分布に基づいて不正確な予測フレームを特定し,適切なクラスに再割り当てすることで,中間検出結果を後処理することを提案する。 最後に、平均検出精度は99.75\%に達する。 一方、平均の0.91のIoUは、予測されるランドマーク期間と地上の真実との間に高い類似性を示す。 実験の結果,本モデルは大腸内視鏡映像から生体解剖学的ランドマークを高精度に検出・局在化できることがわかった。

Colonoscopy is a standard imaging tool for visualizing the entire gastrointestinal (GI) tract of patients to capture lesion areas. However, it takes the clinicians excessive time to review a large number of images extracted from colonoscopy videos. Thus, automatic detection of biological anatomical landmarks within the colon is highly demanded, which can help reduce the burden of clinicians by providing guidance information for the locations of lesion areas. In this article, we propose a novel deep learning-based approach to detect biological anatomical landmarks in colonoscopy videos. First, raw colonoscopy video sequences are pre-processed to reject interference frames. Second, a ResNet-101 based network is used to detect three biological anatomical landmarks separately to obtain the intermediate detection results. Third, to achieve more reliable localization of the landmark periods within the whole video period, we propose to post-process the intermediate detection results by identifying the incorrectly predicted frames based on their temporal distribution and reassigning them back to the correct class. Finally, the average detection accuracy reaches 99.75\%. Meanwhile, the average IoU of 0.91 shows a high degree of similarity between our predicted landmark periods and ground truth. The experimental results demonstrate that our proposed model is capable of accurately detecting and localizing biological anatomical landmarks from colonoscopy videos.
翻訳日:2021-08-09 14:32:32 公開日:2021-08-06
# 数ショット意味セグメンテーションのためのメタクラスメモリの学習

Learning Meta-class Memory for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2108.02958v1 )

ライセンス: Link先を確認
Zhonghua Wu, Xiangxi Shi, Guosheng lin, Jianfei Cai(参考訳) 現在、最先端手法は、各クラスが独立であると仮定して、条件付き前景・後景セグメンテーション問題として、数少ない意味セグメンテーションタスクを扱う。 本稿では、メタクラスの概念、すなわちメタ情報(例えば、メタクラス)について紹介する。 特定のミドルレベルの特徴) すべてのクラスで共有できる。 そこで我々は,メタクラス学習時にメタクラス情報を記憶し,推論段階に新しいクラスに転送する学習可能なメモリ埋め込みのセットを導入する,メタクラスメモリベースのマイクロショットセグメンテーション手法(MM-Net)を提案する。 さらに,k$-shot シナリオでは,支援画像の集合から画像を選択するための新しい画像品質測定モジュールを提案する。 品質測定値に基づいて, 画像特徴量の重み付けで高品質なプロトタイプを得ることができた。 PASCAL-$5^i$とCOCOデータセットの両方で実験した結果,提案手法は1ショットと5ショットの両方で最先端の結果を得られることがわかった。 特に,提案するmm-netは,従来よりも5.1\%高い1ショット設定でcocoデータセット上で37.5\%miouを達成する。

Currently, the state-of-the-art methods treat few-shot semantic segmentation task as a conditional foreground-backgroun d segmentation problem, assuming each class is independent. In this paper, we introduce the concept of meta-class, which is the meta information (e.g. certain middle-level features) shareable among all classes. To explicitly learn meta-class representations in few-shot segmentation task, we propose a novel Meta-class Memory based few-shot segmentation method (MM-Net), where we introduce a set of learnable memory embeddings to memorize the meta-class information during the base class training and transfer to novel classes during the inference stage. Moreover, for the $k$-shot scenario, we propose a novel image quality measurement module to select images from the set of support images. A high-quality class prototype could be obtained with the weighted sum of support image features based on the quality measure. Experiments on both PASCAL-$5^i$ and COCO dataset shows that our proposed method is able to achieve state-of-the-art results in both 1-shot and 5-shot settings. Particularly, our proposed MM-Net achieves 37.5\% mIoU on the COCO dataset in 1-shot setting, which is 5.1\% higher than the previous state-of-the-art.
翻訳日:2021-08-09 14:32:12 公開日:2021-08-06
# Dual-Tuning:互換性のある特徴学習のための共同プロトタイプ転送と構造規則化

Dual-Tuning: Joint Prototype Transfer and Structure Regularization for Compatible Feature Learning ( http://arxiv.org/abs/2108.02959v1 )

ライセンス: Link先を確認
Yan Bai, Jile Jiao, Shengsen Wu, Yihang Lou, Jun Liu, Xuetao Feng, and Ling-Yu Duan(参考訳) ビジュアル検索システムは頻繁なモデル更新とデプロイに直面している。 機能互換性により、学習した新しい視覚的機能をデータベースに格納された古い機能と直接比較することができる。 このようにして、デプロイされたモデルを更新すると、柔軟性と時間を要する機能の再抽出プロセスを回避できます。 しかし、互換性を持つ必要がある古い特徴空間は理想的ではなく、異なる監督損失に起因する新しい空間との分布差問題に直面している。 本研究では,異なるネットワークと損失に対する機能互換性を得るために,グローバル最適化のデュアルチューニング手法を提案する。 グローバルなプロトタイプ情報を転送することで,2種類の埋め込み機能を明示的に整列させる特徴レベルプロトタイプの損失を提案する。 さらに,特徴固有構造を暗黙的に最適化するために,コンポーネントレベルの相互構造規則化を設計する。 百万のデータセットに対する実験結果から、Dual-Tuningはパフォーマンスを犠牲にすることなく機能互換性を得ることができることが示された。 (私たちのコードはhttps://github.com/y anbai 1993/Dual-Tuning)

Visual retrieval system faces frequent model update and deployment. It is a heavy workload to re-extract features of the whole database every time.Feature compatibility enables the learned new visual features to be directly compared with the old features stored in the database. In this way, when updating the deployed model, we can bypass the inflexible and time-consuming feature re-extraction process. However, the old feature space that needs to be compatible is not ideal and faces the distribution discrepancy problem with the new space caused by different supervision losses. In this work, we propose a global optimization Dual-Tuning method to obtain feature compatibility against different networks and losses. A feature-level prototype loss is proposed to explicitly align two types of embedding features, by transferring global prototype information. Furthermore, we design a component-level mutual structural regularization to implicitly optimize the feature intrinsic structure. Experimental results on million-scale datasets demonstrate that our Dual-Tuning is able to obtain feature compatibility without sacrificing performance. (Our code will be avaliable at https://github.com/y anbai1993/Dual-Tunin g)
翻訳日:2021-08-09 14:31:49 公開日:2021-08-06
# 特徴変換の可視化によるコントラスト学習の改善

Improving Contrastive Learning by Visualizing Feature Transformation ( http://arxiv.org/abs/2108.02982v1 )

ライセンス: Link先を確認
Rui Zhu, Bingchen Zhao, Jingen Liu, Zhenglong Sun, Chang Wen Chen(参考訳) 負ペア間の距離を最小化しつつ、負ペア間の距離を最大化することを目的としたコントラスト学習は、正ペアと負ペア(pos/neg)の設計が鍵の1つである教師なし特徴学習において、広く成功している。 本稿では,データ拡張と異なる特徴レベルのデータ操作を考案し,汎用的なコントラスト的自己教師付き学習の強化を試みる。 この目的のために,まずpos/negスコアの可視化手法を設計する(pos/negスコアはpos/negペアのコサイン類似性を示す)。 分散 – 学習プロセスの解析,解釈,理解を可能にします。 私たちの知る限りでは、これはその種の最初の試みです。 さらに重要なことは、このツールを活用することで、いくつかの重要な観察が得られ、ポジティブな外挿を含む新しい特徴変換の提案に刺激を与えます。 この操作は、よりビュー不変なモデルを可能にするため、学習を促進するために難しいポジティブを生成する。 さらに,多角的否定を与え,モデルの識別性を高める負の補間法を提案する。 両方の課題を同時に対処する最初の試みである。 その結果,MoCoベースライン上でのImageNet-100の精度は少なくとも6.0%向上し,MoCoV2ベースライン上でのImageNet-1Kの精度は約2.0%向上した。 ダウンストリームタスクへの転送は、我々のモデルをうまく実証し、タスクバイアスを減らします。 視覚化ツールとコード https://github.com/D Tennant/CL-Visualizi ng-Feature-Transform ation 。

Contrastive learning, which aims at minimizing the distance between positive pairs while maximizing that of negative ones, has been widely and successfully applied in unsupervised feature learning, where the design of positive and negative (pos/neg) pairs is one of its keys. In this paper, we attempt to devise a feature-level data manipulation, differing from data augmentation, to enhance the generic contrastive self-supervised learning. To this end, we first design a visualization scheme for pos/neg score (Pos/neg score indicates cosine similarity of pos/neg pair.) distribution, which enables us to analyze, interpret and understand the learning process. To our knowledge, this is the first attempt of its kind. More importantly, leveraging this tool, we gain some significant observations, which inspire our novel Feature Transformation proposals including the extrapolation of positives. This operation creates harder positives to boost the learning because hard positives enable the model to be more view-invariant. Besides, we propose the interpolation among negatives, which provides diversified negatives and makes the model more discriminative. It is the first attempt to deal with both challenges simultaneously. Experiment results show that our proposed Feature Transformation can improve at least 6.0% accuracy on ImageNet-100 over MoCo baseline, and about 2.0% accuracy on ImageNet-1K over the MoCoV2 baseline. Transferring to the downstream tasks successfully demonstrate our model is less task-bias. Visualization tools and codes https://github.com/D Tennant/CL-Visualizi ng-Feature-Transform ation .
翻訳日:2021-08-09 14:31:33 公開日:2021-08-06
# 医用画像の臨床評価中に誤予測を訂正するための効率的かつ汎用的な対話的セグメンテーションフレームワーク

Efficient and Generic Interactive Segmentation Framework to Correct Mispredictions during Clinical Evaluation of Medical Images ( http://arxiv.org/abs/2108.02996v1 )

ライセンス: Link先を確認
Bhavani Sambaturu, Ashutosh Gupta, C.V. Jawahar, Chetan Arora(参考訳) 医療画像のセマンティックセグメンテーションは多くの用途においてコンピュータ支援診断システムにおいて重要な第一歩である。 しかし、多くの異なる画像モダリティと患者データ固有の変動を考えると、現代のディープニューラルネットワーク(DNN)を用いて常に高い精度を達成することは困難である。 これにより、医学の専門家がdnnの出力を所望の精度でインタラクティブに補正できるインタラクティブな画像分割手法が提案されている。 しかしながら、これらの技術は、しばしば関連する人間の相互作用と個別のトレーニングデータを必要とし、様々な疾患や種類の医療画像に一般化しない。 本稿では、医療専門家の介入をテスト時間制約とし、これらの制約に基づいて推論を行うdnnの新しい条件付き推論手法を提案する。 我々の技術は、あらゆるモダリティの医療画像に利用することができる。 他の手法とは異なり、複数の構造を同時に修正し、最初のセグメンテーションで見逃された構造を追加することができる。 核, 多発細胞, 肝, 腫瘍, 臓器, 脳セグメンテーションの総アノテーションよりも, ユーザアノテーションの13.3, 12.5, 17.8, 10.2, 12.4倍の改善が見られた。 他のインタラクティブセグメンテーション技術と比較して,2.8,3.0,1.9,4.4,8.6 倍の時間節約が報告されている。 本手法は, 専門医の介入が最小限で, 診断および術後経過観察に有用である。 ソースコードと詳細な結果は、ここ[1]にある。

Semantic segmentation of medical images is an essential first step in computer-aided diagnosis systems for many applications. However, given many disparate imaging modalities and inherent variations in the patient data, it is difficult to consistently achieve high accuracy using modern deep neural networks (DNNs). This has led researchers to propose interactive image segmentation techniques where a medical expert can interactively correct the output of a DNN to the desired accuracy. However, these techniques often need separate training data with the associated human interactions, and do not generalize to various diseases, and types of medical images. In this paper, we suggest a novel conditional inference technique for DNNs which takes the intervention by a medical expert as test time constraints and performs inference conditioned upon these constraints. Our technique is generic can be used for medical images from any modality. Unlike other methods, our approach can correct multiple structures simultaneously and add structures missed at initial segmentation. We report an improvement of 13.3, 12.5, 17.8, 10.2, and 12.4 times in user annotation time than full human annotation for the nucleus, multiple cells, liver and tumor, organ, and brain segmentation respectively. We report a time saving of 2.8, 3.0, 1.9, 4.4, and 8.6 fold compared to other interactive segmentation techniques. Our method can be useful to clinicians for diagnosis and post-surgical follow-up with minimal intervention from the medical expert. The source-code and the detailed results are available here [1].
翻訳日:2021-08-09 14:31:06 公開日:2021-08-06
# MmWaveレーダとビジョンフュージョンを用いた自律走行物体検出:サーベイ

MmWave Radar and Vision Fusion based Object Detection for Autonomous Driving: A Survey ( http://arxiv.org/abs/2108.03004v1 )

ライセンス: Link先を確認
Zhiqing Wei, Fengkai Zhang, Shuo Chang, Yangyang Liu, Huici Wu, Zhiyong Feng(参考訳) 自動運転が急速に発展する中、複雑なシナリオにおける正確な物体検出は、自動運転の安全性を確保するために広く注目を集めている。 ミリ波レーダーと視覚融合は、正確な障害物検出のための主流のソリューションである。 本稿では,mmWaveレーダと視覚融合による障害物検出手法に関する詳細な調査を行う。 まず,自律運転における物体検出のタスク,評価基準,データセットを紹介する。 次に、mmwaveレーダとvision fusionのプロセスについて、センサ配置、センサキャリブレーション、センサフュージョンの3部に分けて総括的に検討する。 特に,融合法をデータレベル,決定レベル,特徴レベルの融合法に分類する。 さらに,障害物検出,物体分類,道路セグメント化の両面において,ライダーの融合と自律運転のビジョンを導入し,将来有望である。 最後に、この記事をまとめる。

With autonomous driving developing in a booming stage, accurate object detection in complex scenarios attract wide attention to ensure the safety of autonomous driving. Millimeter wave (mmWave) radar and vision fusion is a mainstream solution for accurate obstacle detection. This article presents a detailed survey on mmWave radar and vision fusion based obstacle detection methods. Firstly, we introduce the tasks, evaluation criteria and datasets of object detection for autonomous driving. Then, the process of mmWave radar and vision fusion is divided into three parts: sensor deployment, sensor calibration and sensor fusion, which are reviewed comprehensively. Especially, we classify the fusion methods into data level, decision level and feature level fusion methods. Besides, we introduce the fusion of lidar and vision in autonomous driving in the aspects of obstacle detection, object classification and road segmentation, which is promising in the future. Finally, we summarize this article.
翻訳日:2021-08-09 14:30:41 公開日:2021-08-06
# 潜在表現の分離によるセグメンテーションネットワークの新たなドメインへの適応

Adapting Segmentation Networks to New Domains by Disentangling Latent Representations ( http://arxiv.org/abs/2108.03021v1 )

ライセンス: Link先を確認
Francesco Barbato, Umberto Michieli, Marco Toldo and Pietro Zanuttigh(参考訳) ディープラーニングモデルはセマンティックセグメンテーションにおいて顕著な精度を達成するが、最適化には大量のラベル付きデータが必要である。 したがって、ラベル関連ソースドメインから取得した知識を関連するラベル関連ターゲットドメインに転送するために、ドメイン適応アプローチが採用されている。 しかし、そのようなモデルは、トレーニングサンプルのものと完全に一致しない統計特性を持つデータに対してうまく一般化しない。 本研究では,意味セグメンテーションにおけるドメイン間差異を低減すべく,複数の潜在空間形成規則化戦略を設計・慎重に分析する。 特に、ドメインアライメントを向上させるための機能クラスタリング戦略、現在のバッチに存在しないものを含む、異なる意味クラスに属するspace apart機能に対する機能垂直性制約、アクティブチャネルと非アクティブチャネルを分離する機能規範アライメント戦略を考案する。 さらに,教師付き学習と比較して適応戦略の相対的効果を捉えるための新しいパフォーマンス指標を提案する。 提案手法の有効性を検証し,複数の路面ベンチマークにおける従来の最先端手法と異なるバックボーンを用いて評価した。

Deep learning models achieve outstanding accuracy in semantic segmentation, however they require a huge amount of labeled data for their optimization. Hence, domain adaptation approaches have come into play to transfer knowledge acquired on a label-abundant source domain to a related label-scarce target domain. However, such models do not generalize well to data with statistical properties not perfectly matching the ones of the training samples. In this work, we design and carefully analyze multiple latent space-shaping regularization strategies that work in conjunction to reduce the domain discrepancy in semantic segmentation. In particular, we devise a feature clustering strategy to increase domain alignment, a feature perpendicularity constraint to space apart feature belonging to different semantic classes, including those not present in the current batch, and a feature norm alignment strategy to separate active and inactive channels. Additionally, we propose a novel performance metric to capture the relative efficacy of an adaptation strategy compared to supervised training. We verify the effectiveness of our framework in synthetic-to-real and real-to-real adaptation scenarios, outperforming previous state-of-the-art methods on multiple road scenes benchmarks and using different backbones.
翻訳日:2021-08-09 14:30:26 公開日:2021-08-06
# よりシンプルに:分類器重み変換による数ショットセマンティクスセグメンテーション

Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer ( http://arxiv.org/abs/2108.03032v1 )

ライセンス: Link先を確認
Zhihe lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang(参考訳) 数ショットのセマンティックセグメンテーションモデルは通常、CNNエンコーダ、CNNデコーダ、および単純な分類器(前景と背景画素を分離する)で構成される。 既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。 しかし、単一のサポートセットイメージが利用可能であることを考えれば、新しいクラスへの3つのコンポーネントの効果的なモデル適応は極めて困難である。 本稿では,最も単純なコンポーネントである分類器にのみ焦点を合わせながら,エンコーダとデコーダを事前学習に残しながら,メタラーニングタスクの簡略化を提案する。 十分なアノテーションを持つ多様なトレーニングクラスに対して、オフザシェルフセグメンテーションモデルを事前訓練した場合、エンコーダとデコーダは、任意の未確認クラスに適用可能なリッチな識別的特徴をキャプチャし、その後のメタ学習段階を不要にする、という仮説を立てる。 分類器メタラーニングでは,各問合せ画像に対して,学習した分類器の重みを動的に適応するように設計された分類器重み変換器(CWT)を導入する。 2つの標準ベンチマークの大規模な実験は、その単純さにもかかわらず、我々のメソッドは最先端の代替手法よりも優れていることを示している。

A few-shot semantic segmentation model is typically composed of a CNN encoder, a CNN decoder and a simple classifier (separating foreground and background pixels). Most existing methods meta-learn all three model components for fast adaptation to a new class. However, given that as few as a single support set image is available, effective model adaption of all three components to the new class is extremely challenging. In this work we propose to simplify the meta-learning task by focusing solely on the simplest component, the classifier, whilst leaving the encoder and decoder to pre-training. We hypothesize that if we pre-train an off-the-shelf segmentation model over a set of diverse training classes with sufficient annotations, the encoder and decoder can capture rich discriminative features applicable for any unseen classes, rendering the subsequent meta-learning stage unnecessary. For the classifier meta-learning, we introduce a Classifier Weight Transformer (CWT) designed to dynamically adapt the supportset trained classifier's weights to each query image in an inductive way. Extensive experiments on two standard benchmarks show that despite its simplicity, our method outperforms the state-of-the-art alternatives, often by a large margin.Code is available on https://github.com/z hiheLu/CWTfor-FSS.
翻訳日:2021-08-09 14:30:05 公開日:2021-08-06
# STR-GQN:空間変換ルーティングに基づく未知カメラのシーン表現とレンダリング

STR-GQN: Scene Representation and Rendering for Unknown Cameras Based on Spatial Transformation Routing ( http://arxiv.org/abs/2108.03072v1 )

ライセンス: Link先を確認
Wen-Cheng Chen, Min-Chun Hu, Chu-Song Chen(参考訳) ジオメトリアウェアモジュールは、シーン表現とレンダリングのための最近のディープラーニングアーキテクチャで広く適用されている。 しかし、これらのモジュールは、正確に取得できない固有のカメラ情報を必要とする。 本稿では,空間特性を幾何学的事前を適用することなくモデル化する空間変換ルーティング(STR)機構を提案する。 STR機構は、空間変換をメッセージパッシングプロセスとして扱い、ビューポーズとルーティングウェイトの関係をエンドツーエンドのトレーニング可能なニューラルネットワークでモデル化する。 さらに、シーン融合プロセスに説明可能な理性を提供するために、OCM(Occupancy Concept Mapping)フレームワークが提案されている。 本研究では,いくつかのデータセットについて実験を行い,提案するstr機構が生成型クエリネットワーク(gqn)の性能を向上させることを示した。 可視化の結果,観測された情報をあるビューのある場所から他のビューの関連する場所に渡すことができ,空間認知の観点から提案したモデルの利点が示されることがわかった。

Geometry-aware modules are widely applied in recent deep learning architectures for scene representation and rendering. However, these modules require intrinsic camera information that might not be obtained accurately. In this paper, we propose a Spatial Transformation Routing (STR) mechanism to model the spatial properties without applying any geometric prior. The STR mechanism treats the spatial transformation as the message passing process, and the relation between the view poses and the routing weights is modeled by an end-to-end trainable neural network. Besides, an Occupancy Concept Mapping (OCM) framework is proposed to provide explainable rationals for scene-fusion processes. We conducted experiments on several datasets and show that the proposed STR mechanism improves the performance of the Generative Query Network (GQN). The visualization results reveal that the routing process can pass the observed information from one location of some view to the associated location in the other view, which demonstrates the advantage of the proposed model in terms of spatial cognition.
翻訳日:2021-08-09 14:29:37 公開日:2021-08-06
# 心エコー図の表示分類のためのコントラスト学習

Contrastive Learning for View Classification of Echocardiograms ( http://arxiv.org/abs/2108.03124v1 )

ライセンス: Link先を確認
Agisilaos Chartsias, Shan Gao, Angela Mumith, Jorge Oliveira, Kanwal Bhatia, Bernhard Kainz, Arian Beqiri(参考訳) 心臓機能定量化のための定期的な臨床実践において、心臓超音波画像の解析が一般的である。 その自動化の増大は、病気の予測や画像特徴の検出を訓練されたディープラーニングネットワークを頻繁に採用している。 しかし、そのようなモデルは極めてデータ不足であり、経験豊富な臨床医による何千もの画像のラベル付けを必要とする。 本稿では,ラベリングボトルネックを軽減するためのコントラスト学習手法を提案する。 不均衡心エコーデータセットのビュー分類モデルを訓練し、最小のラベル付きデータが得られるビュー/クラスの性能向上を示す。 評価基準モデルと比較すると,各視点におけるF1スコアは最大26%向上し,十分にラベル付けされたトレーニング観察を施したビューに対する最先端性能を維持した。

Analysis of cardiac ultrasound images is commonly performed in routine clinical practice for quantification of cardiac function. Its increasing automation frequently employs deep learning networks that are trained to predict disease or detect image features. However, such models are extremely data-hungry and training requires labelling of many thousands of images by experienced clinicians. Here we propose the use of contrastive learning to mitigate the labelling bottleneck. We train view classification models for imbalanced cardiac ultrasound datasets and show improved performance for views/classes for which minimal labelled data is available. Compared to a naive baseline model, we achieve an improvement in F1 score of up to 26% in those views while maintaining state-of-the-art performance for the views with sufficiently many labelled training observations.
翻訳日:2021-08-09 14:29:20 公開日:2021-08-06
# 画像分割のためのソースフリー領域適応

Source-Free Domain Adaptation for Image Segmentation ( http://arxiv.org/abs/2108.03152v1 )

ライセンス: Link先を確認
Mathilde Bateson, Jose Dolz, Hoel Kervadec, Herv\'e Lombaert, Ismail Ben Ayed(参考訳) ドメイン適応(da)は、ラベル付きソースデータでトレーニングされたモデルを異なるドメインからラベル付きまたは弱いラベル付きターゲットデータに対してうまく適用する能力に対して高い関心を集めている。 ほとんどのDA技術では、ソースとターゲットドメインの両方の入力画像に同時アクセスする必要がある。 しかし、実際には、プライバシの懸念は、適応フェーズにおけるソースイメージの可用性を妨げることが多い。 これは医療画像における非常に頻繁なDAシナリオであり、例えば、ソースとターゲットの画像は異なる臨床現場から来る可能性がある。 画像セグメンテーションのためのソースフリーなドメイン適応を導入する。 我々の定式化は、ターゲットドメインデータ上に定義されたラベルフリーエントロピー損失を最小化することに基づいており、セグメンテーション領域に先立ってドメイン不変量でガイドする。 多くの先行情報は解剖学的情報から導き出すことができる。 ここでは、解剖学的な知識から事前のクラス比を推定し、全体的な損失関数におけるKL(Kullback Leibler)分散の形で統合する。 さらに,対象画像間の相互情報とラベル予測を最大化するための興味深いリンクにより,全体の損失を動機付けている。 我々は, 様々な領域適応シナリオにおいて, 脊椎, 前立腺, 心臓分画など, 様々な形態と応用を前提とした事前認識エントロピー最小化の有効性を示す。 本手法は,画像が適応段階に完全に欠落しているため,より少ない情報にアクセスできるにもかかわらず,いくつかの技術適応手法に匹敵する結果が得られる。 我々の直接的な適応戦略は、ソースフリーなda設定には適用できない一般的な敵技術とは対照的に、1つのネットワークのみを使用する。 私たちのフレームワークはセグメンテーションの問題で簡単に使えますし、コードも公開されています: https://github.com/m athilde-b/SFDA

Domain adaptation (DA) has drawn high interest for its capacity to adapt a model trained on labeled source data to perform well on unlabeled or weakly labeled target data from a different domain. Most common DA techniques require concurrent access to the input images of both the source and target domains. However, in practice, privacy concerns often impede the availability of source images in the adaptation phase. This is a very frequent DA scenario in medical imaging, where, for instance, the source and target images could come from different clinical sites. We introduce a source-free domain adaptation for image segmentation. Our formulation is based on minimizing a label-free entropy loss defined over target-domain data, which we further guide with a domain-invariant prior on the segmentation regions. Many priors can be derived from anatomical information. Here, a class ratio prior is estimated from anatomical knowledge and integrated in the form of a Kullback Leibler (KL) divergence in our overall loss function. Furthermore, we motivate our overall loss with an interesting link to maximizing the mutual information between the target images and their label predictions. We show the effectiveness of our prior aware entropy minimization in a variety of domain-adaptation scenarios, with different modalities and applications, including spine, prostate, and cardiac segmentation. Our method yields comparable results to several state of the art adaptation techniques, despite having access to much less information, as the source images are entirely absent in our adaptation phase. Our straightforward adaptation strategy uses only one network, contrary to popular adversarial techniques, which are not applicable to a source-free DA setting. Our framework can be readily used in a breadth of segmentation problems, and our code is publicly available: https://github.com/m athilde-b/SFDA
翻訳日:2021-08-09 14:29:11 公開日:2021-08-06
# 無限データのためのインクリメンタル特徴学習

Incremental Feature Learning For Infinite Data ( http://arxiv.org/abs/2108.02932v1 )

ライセンス: Link先を確認
Armin Sadreddin and Samira Sadaoui(参考訳) 本研究では,機密情報を含む金融取引を膨大な額の学習に蓄積してはならない,クレジットカード不正検出環境の実態について述べる。 新たな適応学習アプローチを導入し,新たなトランザクションチャンクに頻繁かつ効率的に適応し,各チャンクを段階的なトレーニングステップ後に破棄する。 我々のアプローチは、伝達学習と漸進的特徴学習を組み合わせている。 前者はその後のチャンクの特徴的関連性を改善し、後者は新たなパラダイムであり、新しいチャンクごとに最適なネットワークアーキテクチャを動的に決定することでトレーニング中の精度を向上させる。 過去のインクリメンタルなアプローチのアーキテクチャは固定されているため、新しいチャンクでは精度が向上しない可能性がある。 本手法の有効性と優位性を実際の不正データセット上で実験的に示す。

This study addresses the actual behavior of the credit-card fraud detection environment where financial transactions containing sensitive data must not be amassed in an enormous amount to conduct learning. We introduce a new adaptive learning approach that adjusts frequently and efficiently to new transaction chunks; each chunk is discarded after each incremental training step. Our approach combines transfer learning and incremental feature learning. The former improves the feature relevancy for subsequent chunks, and the latter, a new paradigm, increases accuracy during training by determining the optimal network architecture dynamically for each new chunk. The architectures of past incremental approaches are fixed; thus, the accuracy may not improve with new chunks. We show the effectiveness and superiority of our approach experimentally on an actual fraud dataset.
翻訳日:2021-08-09 14:28:20 公開日:2021-08-06
# タブラルニューラルネットワーク改善のための簡単な修正

Simple Modifications to Improve Tabular Neural Networks ( http://arxiv.org/abs/2108.03214v1 )

ライセンス: Link先を確認
James Fiedler(参考訳) グラフデータに対するニューラルネットワークアーキテクチャへの関心が高まっている。 多くの汎用の表型ディープラーニングモデルが最近導入されており、時として勾配ブースト決定木(gbdts)に匹敵するパフォーマンスがある。 これらの最近のモデルは、GBDT、ファクトリゼーションマシン、他のアプリケーションドメインからのニューラルネットワークなど、さまざまなソースからインスピレーションを得ている。 従来の表型ニューラルネットワークも描画されるが、特に特定の表型問題に関連するモデルについては、考慮されていない可能性がある。 本稿では,いくつかのモデルに着目し,性能改善のための修正を提案する。 これらのモデルが修正されると、GBDTを含む主要な汎用表形式モデルと競合することが示されている。

There is growing interest in neural network architectures for tabular data. Many general-purpose tabular deep learning models have been introduced recently, with performance sometimes rivaling gradient boosted decision trees (GBDTs). These recent models draw inspiration from various sources, including GBDTs, factorization machines, and neural networks from other application domains. Previous tabular neural networks are also drawn upon, but are possibly under-considered, especially models associated with specific tabular problems. This paper focuses on several such models, and proposes modifications for improving their performance. When modified, these models are shown to be competitive with leading general-purpose tabular models, including GBDTs.
翻訳日:2021-08-09 14:28:08 公開日:2021-08-06
# エンコーダ・デコーダを用いたエンドツーエンド歌声合成に関する経験的研究

An Empirical Study on End-to-End Singing Voice Synthesis with Encoder-Decoder Architectures ( http://arxiv.org/abs/2108.03008v1 )

ライセンス: Link先を確認
Dengfeng Ke and Yuxing Lu and Xudong Liu and Yanyan Xu and Jing Sun and Cheng-Hao Cai(参考訳) ニューラルネットワークアーキテクチャと音声処理モデルの急速な発展に伴い、ニューラルネットワークを用いた歌声合成がデジタル音楽制作の最先端技術になりつつある。 本研究では,歌唱音声合成の品質と効率を改善するために,エンコーダ・デコーダ・ニューラルモデルと多数のボコーダを用いて歌唱音声合成を実現する。 実声に近いスムーズで明快で自然な歌唱音声を生成することができることを実証するため,本実験では,ピッチ情報,歌詞,ビート情報を含む音声データを用いてモデルを訓練する実験を行った。 モデルがエンドツーエンドで機能するので、ドメインの専門家でないユーザーはピッチ、歌詞、ビートを並べることで、直接歌声を生成できる。

With the rapid development of neural network architectures and speech processing models, singing voice synthesis with neural networks is becoming the cutting-edge technique of digital music production. In this work, in order to explore how to improve the quality and efficiency of singing voice synthesis, in this work, we use encoder-decoder neural models and a number of vocoders to achieve singing voice synthesis. We conduct experiments to demonstrate that the models can be trained using voice data with pitch information, lyrics and beat information, and the trained models can produce smooth, clear and natural singing voice that is close to real human voice. As the models work in the end-to-end manner, they allow users who are not domain experts to directly produce singing voice by arranging pitches, lyrics and beats.
翻訳日:2021-08-09 14:27:46 公開日:2021-08-06
# 代数測度を用いた解集合プログラミングによるマルチリレーショナル文脈階層の推論

Reasoning on Multi-Relational Contextual Hierarchies via Answer Set Programming with Algebraic Measures ( http://arxiv.org/abs/2108.03100v1 )

ライセンス: Link先を確認
Loris Bozzato, Thomas Eiter, Rafael Kiesel(参考訳) 文脈依存的な知識を扱うことは、文脈の概念の形式化に繋がる。 このフレームワークは記述ロジックに根ざしているが、論理プログラムと特に解集合プログラミング(asp)に強く関連している。 CKRフレームワークは、コンテキスト内の非実現可能な公理と例外を推論するために機能し、カバレッジ(特異性)階層内のコンテキスト間での知識継承にまで拡張された。 しかしながら、このアプローチは、この単一のタイプのコンテキスト関係のみをサポートし、推論手順は制限された階層に対してのみ機能する。 本稿では,これらの制約を克服し,複数の文脈的関係に対するCKR階層の一般化と,デファジブルな公理と選好の解釈を提案する。 論理的測度を持つASPは、半環上の重み付き公式を持つ最近のASPの拡張であり、命題原子の真理値に依存する解釈と量とを関連付けることができる。 特に、複数のコンテキスト関係を持つCKR階層の関連する断片に対して、クエリ応答は一般的なasprinフレームワークで実現できることを示す。 代数測度アプローチはより強力で、例えば、有効である。 CKR上でのエピステマティッククエリによる推論は、他のアプリケーションで定量的ASP拡張を使用するための興味深い視点を開放する。 論理プログラミング(tplp)の理論と実践における受容について考察する。

Dealing with context dependent knowledge has led to different formalizations of the notion of context. Among them is the Contextualized Knowledge Repository (CKR) framework, which is rooted in description logics but links on the reasoning side strongly to logic programs and Answer Set Programming (ASP) in particular. The CKR framework caters for reasoning with defeasible axioms and exceptions in contexts, which was extended to knowledge inheritance across contexts in a coverage (specificity) hierarchy. However, the approach supports only this single type of contextual relation and the reasoning procedures work only for restricted hierarchies, due to non-trivial issues with model preference under exceptions. In this paper, we overcome these limitations and present a generalization of CKR hierarchies to multiple contextual relations, along with their interpretation of defeasible axioms and preference. To support reasoning, we use ASP with algebraic measures, which is a recent extension of ASP with weighted formulas over semirings that allows one to associate quantities with interpretations depending on the truth values of propositional atoms. Notably, we show that for a relevant fragment of CKR hierarchies with multiple contextual relations, query answering can be realized with the popular asprin framework. The algebraic measures approach is more powerful and enables e.g. reasoning with epistemic queries over CKRs, which opens interesting perspectives for the use of quantitative ASP extensions in other applications. Under consideration for acceptance in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-08-09 14:27:32 公開日:2021-08-06
# 自分についての物語:ショッピング体験と自己満足の言葉

Tell me a story about yourself: The words of shopping experience and self-satisfaction ( http://arxiv.org/abs/2108.03016v1 )

ライセンス: Link先を確認
L Petruzzellis, A Fronzetti Colladon, M Visentin, J.-C. Chebat(参考訳) そこで本研究では,店舗入店時の気分を自発的に表現するように依頼した客のサンプルから得られた,買い物体験の言語表現について検討する。 テキストマイニングとソーシャル・ネットワーク分析の新たなツールを用いて,ショッピング体験や満足度,参加者の自己満足感や自己同一性との関連性を理解するために,インタビューを分析した。 その結果,購入前のショッピング体験に関する談話における感情の顕著な役割と,自己への内向き的なつながりが示された。 また, 現代の小売業環境は, 楽しみ, ファンタジー, 気分, 感情の両面から, ヘドニックなショッピング体験を高めることが示唆された。

In this paper we investigate the verbal expression of shopping experience obtained by a sample of customers asked to freely verbalize how they felt when entering a store. Using novel tools of Text Mining and Social Network Analysis, we analyzed the interviews to understand the connection between the emotions aroused during the shopping experience, satisfaction and the way participants link these concepts to self-satisfaction and self-identity. The results show a prominent role of emotions in the discourse about the shopping experience before purchasing and an inward-looking connection to the self. Our results also suggest that modern retail environment should enhance the hedonic shopping experience in terms of fun, fantasy, moods, and emotions.
翻訳日:2021-08-09 14:27:08 公開日:2021-08-06
# 微小信号シナリオの削減を超えて -機械学習によるスヌートリノ検出性の向上

Beyond Cuts in Small Signal Scenarios - Enhanced Sneutrino Detectability Using Machine Learning ( http://arxiv.org/abs/2108.03125v1 )

ライセンス: Link先を確認
Daniel Alvestad, Nikolai Fomin, J\"orn Kersten, Steffen Maeland, Inga Str\"umke(参考訳) 本研究では,LHCにおける新しい物理探索の感度を高めるために,背景支配の機械学習と,観測可能な信号と背景との高い重なり合いについて検討する。 xgboost と deep neural network の2つの異なるモデルを用いて,観測可能性間の相関を活用し,このアプローチを従来のカット・アンド・カウント法と比較した。 モデルの出力を分析する異なる手法を検討し、テンプレートが一般的に単純なカットよりも優れていることを発見した。 Shapley分解により、イベントキネマティクスと機械学習モデル出力の関係について、さらなる知見を得る。 我々は準安定スヌートリノを具体例として超対称シナリオを考えるが、この方法論はより広い超対称モデルのクラスに適用できる。

We investigate enhancing the sensitivity of new physics searches at the LHC by machine learning in the case of background dominance and a high degree of overlap between the observables for signal and background. We use two different models, XGBoost and a deep neural network, to exploit correlations between observables and compare this approach to the traditional cut-and-count method. We consider different methods to analyze the models' output, finding that a template fit generally performs better than a simple cut. By means of a Shapley decomposition, we gain additional insight into the relationship between event kinematics and the machine learning model output. We consider a supersymmetric scenario with a metastable sneutrino as a concrete example, but the methodology can be applied to a much wider class of supersymmetric models.
翻訳日:2021-08-09 14:26:56 公開日:2021-08-06
# Image-to-class Sparse similarity Encodingによる教師なしドメイン適応

Few-shot Unsupervised Domain Adaptation with Image-to-class Sparse Similarity Encoding ( http://arxiv.org/abs/2108.02953v1 )

ライセンス: Link先を確認
Shengqi Huang, Wanqi Yang, Lei Wang, Luping Zhou, Ming Yang(参考訳) 本稿では,文献で十分に研究されていないfs-udaと呼ばれる貴重な設定について検討する。 この設定では、ソースドメインデータはラベル付けされるが、カテゴリ毎のショット数は少なく、ターゲットドメインデータはラベル付けされない。 FS-UDA設定に対処するため,カテゴリごとのラベル付き少数ショットデータと,サポートセットとクエリセット間のドメイン適応という,2つの主要な課題を解決するための一般UDAモデルを開発した。 我々のモデルは、一度訓練すれば、同じソースとターゲットドメインから様々なFS-UDAタスクに適用できるという一般的なモデルです。 近年のローカルディスクリプタによるマイクロショット学習(FSL)に触発されて,画像分類とドメイン適応のためのローカルディスクリプタ(LD)をベースとした一般UDAモデルを構築した。 類似パターン(SP)と呼ばれる新しい概念を提案することにより,従来のFSL法で無視されたLDの空間的関係を効果的に考察するだけでなく,学習された画像の類似性が要求領域アライメントに役立てることができる。 具体的には,IMSE(IMage-to-class sparse similarity Encoding)法を提案する。 SPsを学習して、分類のための局所的な識別情報を抽出し、一方、SPsの共分散行列をドメイン適応のために整列させる。 また、LD上では、ドメイン敵トレーニングとマルチスケールローカル特徴マッチングを行う。 マルチドメインベンチマークデータセットであるDomainNetで実施された大規模な実験は、新しいFS-UDA設定のためのIMSEの最先端性能を示す。 さらに、FSLでは、IMSEはMiniImageNet上の最近のFSL手法よりも優れた性能を示すことができる。

This paper investigates a valuable setting called few-shot unsupervised domain adaptation (FS-UDA), which has not been sufficiently studied in the literature. In this setting, the source domain data are labelled, but with few-shot per category, while the target domain data are unlabelled. To address the FS-UDA setting, we develop a general UDA model to solve the following two key issues: the few-shot labeled data per category and the domain adaptation between support and query sets. Our model is general in that once trained it will be able to be applied to various FS-UDA tasks from the same source and target domains. Inspired by the recent local descriptor based few-shot learning (FSL), our general UDA model is fully built upon local descriptors (LDs) for image classification and domain adaptation. By proposing a novel concept called similarity patterns (SPs), our model not only effectively considers the spatial relationship of LDs that was ignored in previous FSL methods, but also makes the learned image similarity better serve the required domain alignment. Specifically, we propose a novel IMage-to-class sparse Similarity Encoding (IMSE) method. It learns SPs to extract the local discriminative information for classification and meanwhile aligns the covariance matrix of the SPs for domain adaptation. Also, domain adversarial training and multi-scale local feature matching are performed upon LDs. Extensive experiments conducted on a multi-domain benchmark dataset DomainNet demonstrates the state-of-the-art performance of our IMSE for the novel setting of FS-UDA. In addition, for FSL, our IMSE can also show better performance than most of recent FSL methods on miniImageNet.
翻訳日:2021-08-09 14:26:17 公開日:2021-08-06
# 3次元シーンフローと閉形式ベイズ推論を用いた動的意味空間マッピング

Dynamic Semantic Occupancy Mapping using 3D Scene Flow and Closed-Form Bayesian Inference ( http://arxiv.org/abs/2108.03180v1 )

ライセンス: Link先を確認
Aishwarya Unnikrishnan, Joseph Wilson, Lu Gan, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, Maani Ghaffari(参考訳) 本稿では,3次元シーンフロー計測を閉じたベイズ推定モデルに組み込む動的意味マッピングフレームワークについて報告する。 環境中の動的オブジェクトの存在は、現在のマッピングアルゴリズムにおけるアーティファクトやトレースを引き起こし、不整合写像の後部につながる。 深層学習を用いた最新技術セマンティックセマンティックセグメンテーションと3次元フロー推定を利用して,マップ推論の計測を行う。 連続的(すなわち任意の解像度でクエリできる)ベイズモデルを開発し、シーンをフローで伝播させ、静的モデルよりも優れたパフォーマンスで3次元意味的占有マップを推定する。 公開データセットを用いた実験結果から,提案するフレームワークは前者を一般化し,深層ニューラルネットワークからの直接測定を継続的に改善することが示された。

This paper reports on a dynamic semantic mapping framework that incorporates 3D scene flow measurements into a closed-form Bayesian inference model. Existence of dynamic objects in the environment cause artifacts and traces in current mapping algorithms, leading to an inconsistent map posterior. We leverage state-of-the-art semantic segmentation and 3D flow estimation using deep learning to provide measurements for map inference. We develop a continuous (i.e., can be queried at arbitrary resolution) Bayesian model that propagates the scene with flow and infers a 3D semantic occupancy map with better performance than its static counterpart. Experimental results using publicly available data sets show that the proposed framework generalizes its predecessors and improves over direct measurements from deep neural networks consistently.
翻訳日:2021-08-09 14:25:49 公開日:2021-08-06
# 単眼前頭視野画像を用いた鳥眼視パンオプティカルセグメンテーション

Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View Images ( http://arxiv.org/abs/2108.03227v1 )

ライセンス: Link先を確認
Nikhil Gosala and Abhinav Valada(参考訳) bird's-eye-view (bev) マップは、解釈や処理が容易なリッチな空間的コンテキストを提供する能力から、シーン理解のための最も強力な表現の1つとして登場した。 しかし、BEVマップの生成には、深度推定、地平面推定、セマンティックセグメンテーションといった一連の異なるタスクをカプセル化する複雑な多段階パラダイムが必要である。 これらのサブタスクは、モデルが全体論的推論を妨げ、誤ったBEVマップをもたらすような、相補的な方法でしばしば学習される。 さらに、既存のアルゴリズムはBEV空間のセマンティクスのみを予測するため、オブジェクトインスタンスの概念が重要なアプリケーションでの使用を制限する。 本研究では,前景(FV)に1つの単眼画像が与えられた場合,BEV内の高密度パノプティカルセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。 我々のアーキテクチャはトップダウンのパラダイムに従っており、FVからBEVへの入力画像の垂直領域と平坦領域を独立にマッピングすることを学ぶ2つの異なるトランスフォーマーからなる新しい高密度トランスフォーマーモジュールを組み込んでいる。 さらに、FV-BEV変換の感度を数学的に定式化することで、BEV空間の画素をインテリジェントに重み付けし、FV画像の様々な記述性を考慮することができる。 KITTI-360データセットとnuScenesデータセットの広範囲な評価は、我々のアプローチがPQ測定の最先端を3.61 ppと4.93 ppで上回っていることを示している。

Bird's-Eye-View (BEV) maps have emerged as one of the most powerful representations for scene understanding due to their ability to provide rich spatial context while being easy to interpret and process. However, generating BEV maps requires complex multi-stage paradigms that encapsulate a series of distinct tasks such as depth estimation, ground plane estimation, and semantic segmentation. These sub-tasks are often learned in a disjoint manner which prevents the model from holistic reasoning and results in erroneous BEV maps. Moreover, existing algorithms only predict the semantics in the BEV space, which limits their use in applications where the notion of object instances is critical. In this work, we present the first end-to-end learning approach for directly predicting dense panoptic segmentation maps in the BEV, given a single monocular image in the frontal view (FV). Our architecture follows the top-down paradigm and incorporates a novel dense transformer module consisting of two distinct transformers that learn to independently map vertical and flat regions in the input image from the FV to the BEV. Additionally, we derive a mathematical formulation for the sensitivity of the FV-BEV transformation which allows us to intelligently weight pixels in the BEV space to account for the varying descriptiveness across the FV image. Extensive evaluations on the KITTI-360 and nuScenes datasets demonstrate that our approach exceeds the state-of-the-art in the PQ metric by 3.61 pp and 4.93 pp respectively.
翻訳日:2021-08-09 14:25:34 公開日:2021-08-06
# 樹幅を用いたてんかん論理プログラムの定量的推論

Utilizing Treewidth for Quantitative Reasoning on Epistemic Logic Programs ( http://arxiv.org/abs/2108.03022v1 )

ライセンス: Link先を確認
Viktor Besin, Markus Hecher, Stefan Woltran(参考訳) イントロスペクティブ推論能力による一般的なAnswer Set Programming(ASP)パラダイムの拡張は、ここ数年で関心を集めています。 認識論理プログラム(ELP)の形式には特に注意が払われており、標準規則には、既知のまたは可能なリテラルの条件、すなわち、すべてまたはいくつかの回答セットにそれぞれ含めるモダル演算子が備わっている。 ELPはワールドビューとして知られる複数の回答セットを提供する。 これまでの推論問題に対するELPの利用は主に、世界観の標準的な決定問題(複雑度解析)と列挙(システム開発)に限られてきた。 本稿では、まず、あるリテラルの受け入れが、そのセットと互換性のある世界ビューの数(分布)に依存する、ALPの量的推論を確立する。 第2に,このような量的推論問題に答えるために必要な計数問題を効率的に解くことができる新しいシステムを提案する。 本システムでは,木幅をグラフベースで表し,ELPプログラムの抽象表現(グラフ)を反復的に探索し,精算する。 これらの抽象化の上に、(e)clingoのような既存の検索ベースの解法と組み合わせた動的プログラミングを、解法中に現れるハードコンビネータサブプロブレムに適用する。 私たちのアプローチは、最近導入された既存のシステムと競合しています。 この研究はTPLPの受け入れを検討中である。

Extending the popular Answer Set Programming (ASP) paradigm by introspective reasoning capacities has received increasing interest within the last years. Particular attention is given to the formalism of epistemic logic programs (ELPs) where standard rules are equipped with modal operators which allow to express conditions on literals for being known or possible, i.e., contained in all or some answer sets, respectively. ELPs thus deliver multiple collections of answer sets, known as world views. Employing ELPs for reasoning problems so far has mainly been restricted to standard decision problems (complexity analysis) and enumeration (development of systems) of world views. In this paper, we take a next step and contribute to epistemic logic programming in two ways: First, we establish quantitative reasoning for ELPs, where the acceptance of a certain set of literals depends on the number (proportion) of world views that are compatible with the set. Second, we present a novel system that is capable of efficiently solving the underlying counting problems required to answer such quantitative reasoning problems. Our system exploits the graph-based measure treewidth and works by iteratively finding and refining (graph) abstractions of an ELP program. On top of these abstractions, we apply dynamic programming that is combined with utilizing existing search-based solvers like (e)clingo for hard combinatorial subproblems that appear during solving. It turns out that our approach is competitive with existing systems that were introduced recently. This work is under consideration for acceptance in TPLP.
翻訳日:2021-08-09 14:25:07 公開日:2021-08-06
# 量子量子力学:時間列生成のための確率微分方程式の解法

Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series ( http://arxiv.org/abs/2108.03190v1 )

ライセンス: Link先を確認
Annie E. Paine, Vincent E. Elfving, Oleksandr Kyriienko(参考訳) 本稿では,確率微分方程式(SDE)の解からサンプリングする量子アルゴリズムを提案する。 潜在変数の特徴写像を符号化した微分可能量子回路(DQC)を用いて、基礎となる確率分布の量子関数を表現し、サンプルをDQC期待値として抽出する。 量子力学を用いてシステムを時間的に伝播し、時系列生成を可能にする。 財務分析やデータセット拡張に必要となるように,Ornstein-Uhlenbeckプロセスのシミュレーションを行い,初期点と時折異なるサンプリングを行う。 さらに, 連続量子生成逆数ネットワーク (qGANs) の解析を行い, 効率的な時間伝搬を阻害する修正(順序付け)形状の量子関数を表すことを示す。 その結果,量子量子力学(QQM)とqGANsのSDE分布の関連性に光を当て,最近の物理情報ニューラルネットワークの成功と類似して,モデルトレーニングにおける差分制約の重要性を指摘した。

We propose a quantum algorithm for sampling from a solution of stochastic differential equations (SDEs). Using differentiable quantum circuits (DQCs) with a feature map encoding of latent variables, we represent the quantile function for an underlying probability distribution and extract samples as DQC expectation values. Using quantile mechanics we propagate the system in time, thereby allowing for time-series generation. We test the method by simulating the Ornstein-Uhlenbeck process and sampling at times different from the initial point, as required in financial analysis and dataset augmentation. Additionally, we analyse continuous quantum generative adversarial networks (qGANs), and show that they represent quantile functions with a modified (reordered) shape that impedes their efficient time-propagation. Our results shed light on the connection between quantum quantile mechanics (QQM) and qGANs for SDE-based distributions, and point the importance of differential constraints for model training, analogously with the recent success of physics informed neural networks.
翻訳日:2021-08-09 14:24:40 公開日:2021-08-06
# データセット障害の緩和にはスチュワードシップが必要だ:1000の論文から学ぶ

Mitigating dataset harms requires stewardship: Lessons from 1000 papers ( http://arxiv.org/abs/2108.02922v1 )

ライセンス: Link先を確認
Kenny Peng and Arunesh Mathur and Arvind Narayanan(参考訳) プライバシ、バイアス、有害なアプリケーションに関する懸念は、マシンラーニングデータセットの倫理に光を当て、さらにはDukeMTMC、MS-Celeb-1M、TinyImages、VGGFace2といった著名なデータセットの削除につながった。 これに対し、機械学習コミュニティは、データセット作成プロセスにおけるより高い倫理基準、透明性の取り組み、技術的な修正を要求している。 私たちの研究の前提は、研究コミュニティで実際にデータセットがどのように使われているかを理解することで、これらの取り組みがより効果的になるということです。 我々は,DukeMTMC, MS-Celeb-1M, Labeled Faces in the Wild (LFW) の3つの影響力のある顔および人物認識データセットについて,1000近い論文を引用して分析した。 我々は、デリバティブデータセットとモデルの作成、より広範な技術と社会の変化、ライセンスの明確さの欠如、データセット管理プラクティスが幅広い倫理的懸念をもたらすことを見出した。 我々は、これらの害を軽減し、データセット作成者、カンファレンスプログラム委員会、データセットユーザ、そして幅広い研究コミュニティに推奨する分散アプローチを提案する。

Concerns about privacy, bias, and harmful applications have shone a light on the ethics of machine learning datasets, even leading to the retraction of prominent datasets including DukeMTMC, MS-Celeb-1M, TinyImages, and VGGFace2. In response, the machine learning community has called for higher ethical standards, transparency efforts, and technical fixes in the dataset creation process. The premise of our work is that these efforts can be more effective if informed by an understanding of how datasets are used in practice in the research community. We study three influential face and person recognition datasets - DukeMTMC, MS-Celeb-1M, and Labeled Faces in the Wild (LFW) - by analyzing nearly 1000 papers that cite them. We found that the creation of derivative datasets and models, broader technological and social change, the lack of clarity of licenses, and dataset management practices can introduce a wide range of ethical concerns. We conclude by suggesting a distributed approach that can mitigate these harms, making recommendations to dataset creators, conference program committees, dataset users, and the broader research community.
翻訳日:2021-08-09 14:24:02 公開日:2021-08-06
# ディープラーニングによる要件の検出 - 経験,課題,今後の課題

Detecting Requirements Smells With Deep Learning: Experiences, Challenges and Future Work ( http://arxiv.org/abs/2108.03087v1 )

ライセンス: Link先を確認
Mohammad Kasra Habib, Stefan Wagner, Daniel Graziotin(参考訳) 要件工学(RE)は、ソフトウェアシステムを構築するための最初のステップです。 ソフトウェアプロジェクトの成功や失敗は、自然言語を使用するステークホルダ間のコミュニケーションに基づいて、このフェーズにしっかりと結びついています。 自然言語の問題は、関係する利害関係者によって正確に表現されていない場合、それが容易に異なる理解を導き、結果として期待するものと異なる製品を構築することである。 従来,ISO 29148の要件言語基準に基づいて,言語エラーを検出するソフトウェア要件の品質向上が提案されていた。 既存のソリューションは、古典自然言語処理(NLP)を用いて検出する。 NLPには、一般化能力の低下をもたらす領域依存性など、いくつかの制限がある。 そこで本研究は,手作業によるラベル付きデータセットの作成とアンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて,従来のNLPと結びついた一般化問題を克服し,手作業によるラベル付きデータセットによる精度向上とメトリクスのリコールを目標とする。 現在の調査結果は、データセットが不均衡であり、どのクラスの例を追加すべきかを示している。 たとえデータセットがかなり代表的でなくても、アルゴリズムを訓練するのは魅力的です。 機械学習では、この問題はデータセットにより多くのインスタンスを追加し、ラベルの品質を改善し、ノイズを除去し、この研究のために計画されている学習アルゴリズムの複雑さを減らすことで解決される。

Requirements Engineering (RE) is the initial step towards building a software system. The success or failure of a software project is firmly tied to this phase, based on communication among stakeholders using natural language. The problem with natural language is that it can easily lead to different understandings if it is not expressed precisely by the stakeholders involved, which results in building a product different from the expected one. Previous work proposed to enhance the quality of the software requirements detecting language errors based on ISO 29148 requirements language criteria. The existing solutions apply classical Natural Language Processing (NLP) to detect them. NLP has some limitations, such as domain dependability which results in poor generalization capability. Therefore, this work aims to improve the previous work by creating a manually labeled dataset and using ensemble learning, Deep Learning (DL), and techniques such as word embeddings and transfer learning to overcome the generalization problem that is tied with classical NLP and improve precision and recall metrics using a manually labeled dataset. The current findings show that the dataset is unbalanced and which class examples should be added more. It is tempting to train algorithms even if the dataset is not considerably representative. Whence, the results show that models are overfitting; in Machine Learning this issue is solved by adding more instances to the dataset, improving label quality, removing noise, and reducing the learning algorithms complexity, which is planned for this research.
翻訳日:2021-08-09 14:23:40 公開日:2021-08-06
# てんかん性ECoGにおけるシフト不変波形学習

Shift-invariant waveform learning on epileptic ECoG ( http://arxiv.org/abs/2108.03177v1 )

ライセンス: Link先を確認
Carlos H. Mendoza-Cardenas and Austin J. Brockmeier(参考訳) セイズール検出アルゴリズムは、様々な条件下で正常な神経活動からの発作に関連する異常な神経活動を識別しなければならない。 本手法は、てんかん患者に対する脳波記録(ecog)において、後続発作(preictal)と非敗血症(non-seizure segment)(interictal) の異なる形態の時空間波形を求めることである。 これらの波形を見つけるために、空間フィルタされた信号のセグメントにシフト不変k平均アルゴリズムを適用し、原型波形のコードブックを学習する。 コードブックからのクラスタラベルの頻度は、テストecogセグメントのクラス(前または間期)を予測するバイナリ分類器をトレーニングするために使用される。 我々はマシューズ相関係数を用いて分類器の性能とコードブックの品質を評価する。 発作予測のための解釈可能な特徴を構築でき,生理的にも有意な非正弦波波形が繰り返し現れることがわかった。

Seizure detection algorithms must discriminate abnormal neuronal activity associated with a seizure from normal neural activity in a variety of conditions. Our approach is to seek spatiotemporal waveforms with distinct morphology in electrocorticographi c (ECoG) recordings of epileptic patients that are indicative of a subsequent seizure (preictal) versus non-seizure segments (interictal). To find these waveforms we apply a shift-invariant k-means algorithm to segments of spatially filtered signals to learn codebooks of prototypical waveforms. The frequency of the cluster labels from the codebooks is then used to train a binary classifier that predicts the class (preictal or interictal) of a test ECoG segment. We use the Matthews correlation coefficient to evaluate the performance of the classifier and the quality of the codebooks. We found that our method finds recurrent non-sinusoidal waveforms that could be used to build interpretable features for seizure prediction and that are also physiologically meaningful.
翻訳日:2021-08-09 14:23:17 公開日:2021-08-06
# ロボット政策学習におけるディセンスとスパース(視覚)リワードに関する研究

A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning ( http://arxiv.org/abs/2108.03222v1 )

ライセンス: Link先を確認
Abdalkarim Mohtasib, Gerhard Neumann and Heriberto Cuayahuitl(参考訳) 深層強化学習(DRL)はロボットに新しい行動を教えるための有望なアプローチである。 しかし、主な制限の1つは、専門家による手書き報酬信号の必要性である。 我々は,ロボットに新たなスキルを教えるために,報酬学習プロセスを自動化することが重要であると論じている。 このような自動化に対処するために,視覚的観察を用いてタスク成功度を推定するタスク成功分類器を検討する。 そこで本研究では,Dense, Sparse, Visual Dense, Visual Sparseの3種類の報奨によって,最先端の深層強化学習アルゴリズムの性能を評価する。 様々なシミュレーションタスク(Pendulum, Reacher, Pusher, Fetch Reach)における実験により,DRLエージェントは目標が識別可能であった場合の視覚的報酬を用いて,良好な動作を学習できるが,タスク目標が明確に見えない場合には,その性能が低下する可能性が示唆された。 また,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことを示す。

Deep Reinforcement Learning (DRL) is a promising approach for teaching robots new behaviour. However, one of its main limitations is the need for carefully hand-coded reward signals by an expert. We argue that it is crucial to automate the reward learning process so that new skills can be taught to robots by their users. To address such automation, we consider task success classifiers using visual observations to estimate the rewards in terms of task success. In this work, we study the performance of multiple state-of-the-art deep reinforcement learning algorithms under different types of reward: Dense, Sparse, Visual Dense, and Visual Sparse rewards. Our experiments in various simulation tasks (Pendulum, Reacher, Pusher, and Fetch Reach) show that while DRL agents can learn successful behaviours using visual rewards when the goal targets are distinguishable, their performance may decrease if the task goal is not clearly visible. Our results also show that visual dense rewards are more successful than visual sparse rewards and that there is no single best algorithm for all tasks.
翻訳日:2021-08-09 14:22:59 公開日:2021-08-06
# ACTSの表面予測のための機械学習

Machine learning for surface prediction in ACTS ( http://arxiv.org/abs/2108.03068v1 )

ライセンス: Link先を確認
Benjamin Huth, Andreas Salzburger, Tilo Wettig(参考訳) 我々は、トラック再構築に使用される検出器を通した機械学習支援ナビゲーションのための研究開発活動を行っている。 本研究では,表面予測のためのニューラルネットワークのトレーニング手法について検討し,その結果を比較した。 この研究はACTSトラッキングツールキットの文脈で行われている。

We present an ongoing R&D activity for machine-learning-ass isted navigation through detectors to be used for track reconstruction. We investigate different approaches of training neural networks for surface prediction and compare their results. This work is carried out in the context of the ACTS tracking toolkit.
翻訳日:2021-08-09 14:21:02 公開日:2021-08-06
# (参考訳) mdpsによるアクティブ強化学習 [全文訳有]

Active Reinforcement Learning over MDPs ( http://arxiv.org/abs/2108.02323v2 )

ライセンス: CC BY 4.0
Qi Yang, Peng Yang, Ke Tang(参考訳) 過去10年で強化学習が急速に発展し、多くのトレーニングリソースで素晴らしいパフォーマンスを得られるようになった。 しかしながら、rlの最大の課題の1つは、一般化効率(単位時間における一般化性能)である。 本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。 多数のインスタンスが与えられた場合、アルゴリズムはポリシーのトレーニング中にトレーニングセットとして貴重なインスタンスを選択し、リソースを少なくする。 既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。 さらに、フレームワークに一般的なインスタンス評価指標と選択メカニズムを導入します。 実験結果から,ポリシオプティマイザとしてプロクティマルポリシーオプティマイザが提案するフレームワークは,選択されていない手法やバイアスのない手法よりも効果的に一般化効率を向上できることがわかった。

The past decade has seen the rapid development of Reinforcement Learning, which acquires impressive performance with numerous training resources. However, one of the greatest challenges in RL is generalization efficiency (i.e., generalization performance in a unit time). This paper proposes a framework of Active Reinforcement Learning (ARL) over MDPs to improve generalization efficiency in a limited resource by instance selection. Given a number of instances, the algorithm chooses out valuable instances as training sets while training the policy, thereby costing fewer resources. Unlike existing approaches, we attempt to actively select and use training data rather than train on all the given data, thereby costing fewer resources. Furthermore, we introduce a general instance evaluation metrics and selection mechanism into the framework. Experiments results reveal that the proposed framework with Proximal Policy Optimization as policy optimizer can effectively improve generalization efficiency than unselect-ed and unbiased selected methods.
翻訳日:2021-08-09 12:06:08 公開日:2021-08-06
# (参考訳) mfusenet:学習型多眼融合によるロバスト深さ推定 [全文訳有]

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion ( http://arxiv.org/abs/2108.02448v2 )

ライセンス: CC BY 4.0
Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen(参考訳) 低コストの単眼RGBカメラを用いて正確な深度推定を行うマルチスコープビジョンシステムの設計を行う。 制約のないカメラポーズで撮影された画像を持つマルチビューステレオとは異なり、提案システムはカメラの動きを制御し、水平または垂直に並んだ位置の画像を同じパララックスで撮影する。 本システムでは,参照画像と周辺画像の間に複数のコストボリュームを融合する新しいヒューリスティック法と頑健な学習ベース手法を提案する。 トレーニングデータを得るために,多次元画像を用いた合成データセットを構築する。 実世界のミドルベリーデータセットと実ロボットによる実演実験により,本システムは従来の2フレームステレオマッチング手法よりも奥行き推定において優れていることが示された。 私たちのコードとデータセットはhttps://sites.google .com/view/multiscopi c.comで利用可能です。

We design a multiscopic vision system that utilizes a low-cost monocular RGB camera to acquire accurate depth estimation. Unlike multi-view stereo with images captured at unconstrained camera poses, the proposed system controls the motion of a camera to capture a sequence of images in horizontally or vertically aligned positions with the same parallax. In this system, we propose a new heuristic method and a robust learning-based method to fuse multiple cost volumes between the reference image and its surrounding images. To obtain training data, we build a synthetic dataset with multiscopic images. The experiments on the real-world Middlebury dataset and real robot demonstration show that our multiscopic vision system outperforms traditional two-frame stereo matching methods in depth estimation. Our code and dataset are available at https://sites.google .com/view/multiscopi c.
翻訳日:2021-08-09 11:53:09 公開日:2021-08-06
# M2IOSR: 最大相互情報開集合認識

M2IOSR: Maximal Mutual Information Open Set Recognition ( http://arxiv.org/abs/2108.02373v2 )

ライセンス: Link先を確認
Xin Sun, Henghui Ding, Chi Zhang, Guosheng Lin, Keck-Voon Ling(参考訳) 本研究では,オープンセット認識(OSR)の課題に対処することを目的とする。 近年のOSR法の多くは、自動エンコーダを使用して、再構成戦略によってクラス固有の特徴を抽出し、入力画像をピクセルレベルで復元する必要がある。 クラス固有の機能は一般的にすべてのピクセルではなくターゲットオブジェクトに含まれているため、この戦略はosrの要求過剰である。 ここでは,画素レベルの再構築戦略を捨て,クラス固有の特徴抽出の有効性向上により多くの注意を払う。 本稿では,M2IOSR (Maximal Mutual Information Open Set Recognition) を用いた相互情報ベース手法を提案する。 提案したM2IOSRは,与えられた入力と潜在特徴との相互情報を複数のスケールで最大化することにより,クラス固有の特徴を抽出するエンコーダのみを使用する。 一方、開空間リスクをさらに低減するために、潜在特徴は KL-発散損失関数によってクラス条件ガウス分布に制約される。 このようにして、ネットワークが同様の潜在特徴に異なる観測結果がマッピングされることを防止し、所望の統計特性を持つクラス固有の特徴を抽出する。 提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。

In this work, we aim to address the challenging task of open set recognition (OSR). Many recent OSR methods rely on auto-encoders to extract class-specific features by a reconstruction strategy, requiring the network to restore the input image on pixel-level. This strategy is commonly over-demanding for OSR since class-specific features are generally contained in target objects, not in all pixels. To address this shortcoming, here we discard the pixel-level reconstruction strategy and pay more attention to improving the effectiveness of class-specific feature extraction. We propose a mutual information-based method with a streamlined architecture, Maximal Mutual Information Open Set Recognition (M2IOSR). The proposed M2IOSR only uses an encoder to extract class-specific features by maximizing the mutual information between the given input and its latent features across multiple scales. Meanwhile, to further reduce the open space risk, latent features are constrained to class conditional Gaussian distributions by a KL-divergence loss function. In this way, a strong function is learned to prevent the network from mapping different observations to similar latent features and help the network extract class-specific features with desired statistical characteristics. The proposed method significantly improves the performance of baselines and achieves new state-of-the-art results on several benchmarks consistently.
翻訳日:2021-08-09 11:39:02 公開日:2021-08-06
# セマンティックセマンティックセグメンテーションのためのグローバルおよび局所テクスチャランダム化

Global and Local Texture Randomization for Synthetic-to-Real Semantic Segmentation ( http://arxiv.org/abs/2108.02376v2 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, and Jun Liu(参考訳) セマンティックセグメンテーションは、画像の各ピクセルを対応するラベルに分類する重要な画像理解タスクである。 地表面のピクセル単位のラベリングは退屈で手間がかかるため、実際の用途では、合成画像を利用して実語画像意味セグメンテーション(srss)のモデルを訓練する作品が多い。 しかしながら、ソース合成データでトレーニングされた深層畳み込みニューラルネットワーク(cnns)は、ターゲットとする現実世界のデータにうまく一般化できない可能性がある。 本研究では,グローバルテクスチャランダム化 (gtr) とローカルテクスチャランダム化 (ltr) の2つの簡易かつ効果的なテクスチャランダム化機構を提案する。 GTRは、ソース画像のテクスチャを多様な非現実的なテクスチャスタイルにランダム化する。 ネットワークのテクスチャへの依存を軽減するとともに,ドメイン不変の学習を促進することを目的としている。 また,画像全体においてテクスチャの違いは必ずしも発生せず,一部の地域のみに現れる可能性がある。 そこで本研究では,ソース画像を部分的にスタイリングするために,多様な局所領域を生成するLTR機構を提案する。 最後に、GTRとLTR(CGL)の整合性の規則化を実装し、トレーニング中の2つのメカニズムの調和を図る。 各種SRSS設定(GTA5/SyNTHIA to Cityscapes/BDDS/Mapi llary)を用いた5つの公開データセット(GTA5,SynTHIA,Citysc apes,BDDS,Mapillary) の大規模な実験により、提案手法はドメイン一般化に基づくSRSSの最先端手法よりも優れていることが示された。

Semantic segmentation is a crucial image understanding task, where each pixel of image is categorized into a corresponding label. Since the pixel-wise labeling for ground-truth is tedious and labor intensive, in practical applications, many works exploit the synthetic images to train the model for real-word image semantic segmentation, i.e., Synthetic-to-Real Semantic Segmentation (SRSS). However, Deep Convolutional Neural Networks (CNNs) trained on the source synthetic data may not generalize well to the target real-world data. In this work, we propose two simple yet effective texture randomization mechanisms, Global Texture Randomization (GTR) and Local Texture Randomization (LTR), for Domain Generalization based SRSS. GTR is proposed to randomize the texture of source images into diverse unreal texture styles. It aims to alleviate the reliance of the network on texture while promoting the learning of the domain-invariant cues. In addition, we find the texture difference is not always occurred in entire image and may only appear in some local areas. Therefore, we further propose a LTR mechanism to generate diverse local regions for partially stylizing the source images. Finally, we implement a regularization of Consistency between GTR and LTR (CGL) aiming to harmonize the two proposed mechanisms during training. Extensive experiments on five publicly available datasets (i.e., GTA5, SYNTHIA, Cityscapes, BDDS and Mapillary) with various SRSS settings (i.e., GTA5/SYNTHIA to Cityscapes/BDDS/Mapi llary) demonstrate that the proposed method is superior to the state-of-the-art methods for domain generalization based SRSS.
翻訳日:2021-08-09 11:38:40 公開日:2021-08-06