このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211116となっている論文です。

PDF登録状況(公開日: 20211116)

TitleAuthorsAbstract論文公表日・翻訳日
# 統合型マルチモーダルパーソナルヘルスナビゲーションシステムに向けて:枠組みと応用

Towards Integrative Multi-Modal Personal Health Navigation Systems: Framework and Application ( http://arxiv.org/abs/2111.10403v1 )

ライセンス: Link先を確認
Nitish Nag, Hyungik Oh, Mengfan Tang, Mingshu Shi, Ramesh Jain(参考訳) 個人の健康軌道は、生活習慣や医学的決定など、各瞬間における選択に影響されていることがよく理解されている。 近代的なセンシング技術の出現により、個人は歴史上のどの時代よりも多くのデータと情報を持っている。 このデータを使って、健康状態を最適に保つ最善の判断を下すにはどうすればよいのか? 一般化されたPersonal Health Navigation (PHN) フレームワークを提案する。 phnは個人を、データストリームを永続的に消化し、現在の健康状態を推定し、個人モデルを利用して中間状態を通る最善の経路を計算し、ユーザを目標に向かって導くシステムを通じて、個人の健康目標に向かって導く。 一般のフレームワークを説明することに加えて、心臓科領域における2つの実験でPHNシステムをテストする。 まず,41名の患者を対象に,知識注入型心血管内PHNシステムの試験を行った。 第2に、実際のユーザ33,269人のスマートウォッチデータセット上で、心臓血管運動応答変動に関するデータ駆動パーソナライズされたモデルを構築した。 我々は、将来的な調査を必要とするPHNシステムのヘルスコンピューティングにおける重要な課題を結論付けている。

It is well understood that an individual's health trajectory is influenced by choices made in each moment, such as from lifestyle or medical decisions. With the advent of modern sensing technologies, individuals have more data and information about themselves than any other time in history. How can we use this data to make the best decisions to keep the health state optimal? We propose a generalized Personal Health Navigation (PHN) framework. PHN takes individuals towards their personal health goals through a system which perpetually digests data streams, estimates current health status, computes the best route through intermediate states utilizing personal models, and guides the best inputs that carry a user towards their goal. In addition to describing the general framework, we test the PHN system in two experiments within the field of cardiology. First, we prospectively test a knowledge-infused cardiovascular PHN system with a pilot clinical trial of 41 users. Second, we build a data-driven personalized model on cardiovascular exercise response variability on a smartwatch data-set of 33,269 real-world users. We conclude with critical challenges in health computing for PHN systems that require deep future investigation.
翻訳日:2021-11-28 18:12:51 公開日:2021-11-16
# 二重畳み込みニューラルネットワークを用いた鉄筋コンクリート構造物の損傷検出と補修コスト推定

Postdisaster image-based damage detection and repair cost estimation of reinforced concrete buildings using dual convolutional neural networks ( http://arxiv.org/abs/2111.09862v1 )

ライセンス: Link先を確認
Xiao Pan, T.Y. Yang(参考訳) 鉄筋コンクリート建築は世界中で広く使われている。 近年の世界の地震では、建物の所有者や政策立案者にとって、構造的被害の迅速検査と修復コスト評価が重要になっている。 このような検査の効率を向上させるため,最近の研究では,畳み込みニューラルネットワークに基づく高度なコンピュータビジョン技術を採用し,構造物の損傷状況を迅速定量化している。 本稿では, YOLO-v2と呼ばれる高度な物体検出ニューラルネットワークを実装し, 平均精度98.2%, 平均精度84.5%を実現した。 提案したYOLO-v2は分類ニューラルネットワークと組み合わせて, 鉄筋コンクリート構造物の臨界損傷状態の同定精度を7.5%向上させる。 改良された分類手順により、技術者は構造物の損傷状態を迅速かつ正確に定量化し、臨界損傷特性を局所化することができる。 そして、特定された損傷状態を最先端性能評価フレームワークに統合し、重要な鉄筋コンクリート構造物の経済的損失を定量化することができる。 この結果は、強震の直後に、建物の所有者や意思決定者が情報的リスク管理決定を行うために利用できる。 したがって、コミュニティのレジリエンスを改善するために、リソースを迅速に割り当てることができる。

Reinforced concrete buildings are commonly used around the world. With recent earthquakes worldwide, rapid structural damage inspection and repair cost evaluation are crucial for building owners and policy makers to make informed risk management decisions. To improve the efficiency of such inspection, advanced computer vision techniques based on convolution neural networks have been adopted in recent research to rapidly quantify the damage state of structures. In this paper, an advanced object detection neural network, named YOLO-v2, is implemented which achieves 98.2% and 84.5% average precision in training and testing, respectively. The proposed YOLO-v2 is used in combination with the classification neural network, which improves the identification accuracy for critical damage state of reinforced concrete structures by 7.5%. The improved classification procedures allow engineers to rapidly and more accurately quantify the damage states of the structure, and also localize the critical damage features. The identified damage state can then be integrated with the state-of-the-art performance evaluation framework to quantify the financial losses of critical reinforced concrete buildings. The results can be used by the building owners and decision makers to make informed risk management decisions immediately after the strong earthquake shaking. Hence, resources can be allocated rapidly to improve the resiliency of the community.
翻訳日:2021-11-19 15:15:44 公開日:2021-11-16
# (参考訳) 脳磁図による人間の視覚における画像テクスチャの相関 [全文訳有]

The Neural Correlates of Image Texture in the Human Vision Using Magnetoencephalograp hy ( http://arxiv.org/abs/2111.09118v1 )

ライセンス: CC BY 4.0
Elaheh Hatamimajoumerd, Alireza Talebpour(参考訳) 画像のテクスチャ特性は、人間とコンピュータの両方の視覚アプリケーションにおいて、オブジェクト認識タスクにおいて最も重要な特徴の1つである。 本稿では,脳磁図(MEG)データ収集の過程において,画像のグレーレベル共起行列(GLCM)から計算したコントラスト,均一性,エネルギー,相関を含む,よく知られた4つの統計テクスチャの特徴のニューラルシグニチャについて検討した。 これらの特徴を人間の視覚系で追跡するために,多変量パターン解析 (mvpa) を用いて脳活動を表すmegデータの時間点毎に線形サポートベクターマシン (svm) を分類し,スピアマン相関を用いて画像のテキスト記述子と比較した。 本研究は, これら4つのテクスチャ記述子の処理における階層構造が, コントラスト, 均一性, エネルギー, 相関の順で表されることを示した。 さらに、画像の広範なテクスチャ特性を持つエネルギーは、時間の経過とともに脳活動とより統計的に有意義な相関を示すことが判明した。

Undoubtedly, textural property of an image is one of the most important features in object recognition task in both human and computer vision applications. Here, we investigated the neural signatures of four well-known statistical texture features including contrast, homogeneity, energy, and correlation computed from the gray level co-occurrence matrix (GLCM) of the images viewed by the participants in the process of magnetoencephalograp hy (MEG) data collection. To trace these features in the human visual system, we used multivariate pattern analysis (MVPA) and trained a linear support vector machine (SVM) classifier on every timepoint of MEG data representing the brain activity and compared it with the textural descriptors of images using the Spearman correlation. The result of this study demonstrates that hierarchical structure in the processing of these four texture descriptors in the human brain with the order of contrast, homogeneity, energy, and correlation. Additionally, we found that energy, which carries broad texture property of the images, shows a more sustained statistically meaningful correlation with the brain activity in the course of time.
翻訳日:2021-11-19 03:36:11 公開日:2021-11-16
# (参考訳) 皮膚病変セグメンテーションのためのマルチスケール特徴抽出方式によるデュアルアテンション機構の検討 [全文訳有]

Exploring dual-attention mechanism with multi-scale feature extraction scheme for skin lesion segmentation ( http://arxiv.org/abs/2111.08708v1 )

ライセンス: CC BY 4.0
G Jignesh Chowdary, G V S N Durga Yathisha, Suganya G, and Premalatha M(参考訳) 皮膚内視鏡画像からの皮膚病変の自動分割は, 病変境界の異常, 病変と背景の対比不良, アーティファクトの存在などにより困難な課題である。 本研究では,新しい畳み込みニューラルネットワークを用いた皮膚病変分割法を提案する。 本研究は,複雑な皮膚病変に関連する課題に対処するための,より識別的な特徴を抽出するための,新しいマルチスケール特徴抽出モジュールを提案する。 さらに,2つの異なる注意機構により,エンコーダによって抽出された特徴とポストアップサンプリングされた特徴を洗練する。 この研究は、ISBI2017とISIC2018データセットを含む2つの公開データセットを使用して評価された。 提案手法は、ISBI2017データセットで97.5%、94.29%、91.16%、95.92%、95.37%、91.52%の精度、リコール、JSIを報告した。 既存の手法と、各競技における上位モデルよりも優れていた。

Automatic segmentation of skin lesions from dermoscopic images is a challenging task due to the irregular lesion boundaries, poor contrast between the lesion and the background, and the presence of artifacts. In this work, a new convolutional neural network-based approach is proposed for skin lesion segmentation. In this work, a novel multi-scale feature extraction module is proposed for extracting more discriminative features for dealing with the challenges related to complex skin lesions; this module is embedded in the UNet, replacing the convolutional layers in the standard architecture. Further in this work, two different attention mechanisms refine the feature extracted by the encoder and the post-upsampled features. This work was evaluated using the two publicly available datasets, including ISBI2017 and ISIC2018 datasets. The proposed method reported an accuracy, recall, and JSI of 97.5%, 94.29%, 91.16% on the ISBI2017 dataset and 95.92%, 95.37%, 91.52% on the ISIC2018 dataset. It outperformed the existing methods and the top-ranked models in the respective competitions.
翻訳日:2021-11-19 03:26:34 公開日:2021-11-16
# (参考訳) 時系列分類における特徴選択のインスタンス選択法としての異常検出

Outlier Detection as Instance Selection Method for Feature Selection in Time Series Classification ( http://arxiv.org/abs/2111.09127v1 )

ライセンス: CC BY 4.0
David Cemernek(参考訳) 機械学習アルゴリズムが生データから知識を抽出するためには、まずこれらのデータをクリーンにし、変換し、マシンに適した形式にする必要がある。 これらはしばしば、非常に時間を要するフェーズを前処理と呼ぶ。 前処理フェーズにおける重要なステップは特徴選択であり、データセットの特徴量の削減による予測モデルの性能向上を目的としている。 これらのデータセット内では、異なるイベントのインスタンスはしばしば不均衡であり、特定の通常のイベントが過剰に表示され、他のまれなイベントは非常に制限されることを意味する。 通常、これらの稀な出来事は、通常の出来事よりも差別的な力を持つため、特別な関心を持つ。 この研究の目的は、これらの稀なインスタンスのための特徴選択メソッドに提供されるインスタンスをフィルタリングすることであり、したがって、特徴選択プロセスに肯定的な影響を及ぼす。 本研究の過程で,このフィルタリングが分類モデルの性能に肯定的な影響を及ぼし,外乱検出法がこのフィルタリングに適していることを示すことができた。 一部のデータセットでは、結果としてパフォーマンスが向上したのはわずか数パーセントでしたが、他のデータセットでは最大16%のパフォーマンス向上を実現しました。 この作業は、予測モデルの改善と、前処理フェーズにおける特徴選択のより良い解釈可能性をもたらすはずである。 オープンサイエンスの精神と研究分野の透明性を高めるために、私たちはすべてのソースコードと実験の結果を公開リポジトリで公開しました。

In order to allow machine learning algorithms to extract knowledge from raw data, these data must first be cleaned, transformed, and put into machine-appropriate form. These often very time-consuming phase is referred to as preprocessing. An important step in the preprocessing phase is feature selection, which aims at better performance of prediction models by reducing the amount of features of a data set. Within these datasets, instances of different events are often imbalanced, which means that certain normal events are over-represented while other rare events are very limited. Typically, these rare events are of special interest since they have more discriminative power than normal events. The aim of this work was to filter instances provided to feature selection methods for these rare instances, and thus positively influence the feature selection process. In the course of this work, we were able to show that this filtering has a positive effect on the performance of classification models and that outlier detection methods are suitable for this filtering. For some data sets, the resulting increase in performance was only a few percent, but for other datasets, we were able to achieve increases in performance of up to 16 percent. This work should lead to the improvement of the predictive models and the better interpretability of feature selection in the course of the preprocessing phase. In the spirit of open science and to increase transparency within our research field, we have made all our source code and the results of our experiments available in a publicly available repository.
翻訳日:2021-11-19 03:07:32 公開日:2021-11-16
# (参考訳) 部分学習による二段階逆バイアス-医療画像の事例- [全文訳有]

Two-step adversarial debiasing with partial learning -- medical image case-studies ( http://arxiv.org/abs/2111.08711v1 )

ライセンス: CC BY 4.0
Ramon Correa, Jiwoong Jason Jeong, Bhavik Patel, Hari Trivedi, Judy W. Gichoya, Imon Banerjee(参考訳) 医療における人工知能(AI)の利用は、ここ数年で非常に活発な研究領域となっている。 画像分類タスクでは大きな進歩があったが、実際に病院に配備されているAIメソッドはわずかである。 現在、臨床AIモデルを積極的に使用する上で大きなハードルは、これらのモデルの信頼性である。 多くの場合、これらの複雑なモデルは、有望な結果が生成されるブラックボックスである。 しかし、これらのモデルが精査されると、人種の検出や民族集団への偏り、亜集団への偏りなど、意思決定中の暗黙のバイアスが明らかになる。 本研究は,対象タスクのパフォーマンスを保ちながら,人種的格差を低減できる部分学習を用いた2段階の対逆脱バイアス手法の開発である。 本手法は,X線検査とマンモグラム検査の2つの独立した医療画像で評価され,目標性能を維持しつつバイアス低減の可能性を示唆した。

The use of artificial intelligence (AI) in healthcare has become a very active research area in the last few years. While significant progress has been made in image classification tasks, only a few AI methods are actually being deployed in hospitals. A major hurdle in actively using clinical AI models currently is the trustworthiness of these models. More often than not, these complex models are black boxes in which promising results are generated. However, when scrutinized, these models begin to reveal implicit biases during the decision making, such as detecting race and having bias towards ethnic groups and subpopulations. In our ongoing study, we develop a two-step adversarial debiasing approach with partial learning that can reduce the racial disparity while preserving the performance of the targeted task. The methodology has been evaluated on two independent medical image case-studies - chest X-ray and mammograms, and showed promises in bias reduction while preserving the targeted performance.
翻訳日:2021-11-19 03:04:18 公開日:2021-11-16
# (参考訳) 腰椎椎間板断裂の自動切除 マルチパラメトリック・マルチ中心MRIにおける臨床応用 [全文訳有]

Automatic Semantic Segmentation of the Lumbar Spine. Clinical Applicability in a Multi-parametric and Multi-centre MRI study ( http://arxiv.org/abs/2111.08712v1 )

ライセンス: CC BY 4.0
Jhon Jairo Saenz-Gamboa (1), Julio Domenech (2), Antonio Alonso-Manjarrez (3), Jon A. G\'omez (4), Maria de la Iglesia-Vay\'a (1 and 5) ((1) FISABIO-CIPF Joint Research Unit in Biomedical Imaging - Val\`encia Spain, (2) Orthopedic Surgery Department Hospital Arnau de Vilanova - Val\`encia Spain, (3) Radiology Department Hospital Arnau de Vilanova - Val\`encia Spain, (4) Pattern Recognition and Human Language Technology research center - Universitat Polit\`ecnica de Val\`encia, (5) Regional ministry of Universal Health and Public Health in Valencia)(参考訳) 医用画像分割の主な難点の1つは、それらの画像が起源(多中心)、取得プロトコル(多パラメータ)、人体解剖の多様性、病気の重症度、年齢、性別などによって引き起こされる高変量である。 この研究で解決された問題は、畳み込みニューラルネットワークを用いた腰椎磁気共鳴画像の自動セマンティックセグメンテーションである。 その目的は、画像の各ピクセルにクラスラベルを割り当てることである。 分類は放射線学者によって定義され、脊椎、椎間板、神経、血管、その他の組織などの異なる構造要素に対応する。 提案するネットワークトポロジは、U-Netアーキテクチャの変種である。 3種類の畳み込みブロック、空間的注意モデル、深層監視、多層特徴抽出器である。 本稿では、最も正確なセグメンテーションを得たニューラルネットワーク設計のトポロジーと結果の解析について述べる。 提案するいくつかの設計は、ベースラインとして使用される標準のU-Netよりも優れており、特に複数のニューラルネットワークの出力が異なる戦略に従って結合されるアンサンブルで使用される場合である。

One of the major difficulties in medical image segmentation is the high variability of these images, which is caused by their origin (multi-centre), the acquisition protocols (multi-parametric), as well as the variability of human anatomy, the severity of the illness, the effect of age and gender, among others. The problem addressed in this work is the automatic semantic segmentation of lumbar spine Magnetic Resonance images using convolutional neural networks. The purpose is to assign a classes label to each pixel of an image. Classes were defined by radiologists and correspond to different structural elements like vertebrae, intervertebral discs, nerves, blood vessels, and other tissues. The proposed network topologies are variants of the U-Net architecture. Several complementary blocks were used to define the variants: Three types of convolutional blocks, spatial attention models, deep supervision and multilevel feature extractor. This document describes the topologies and analyses the results of the neural network designs that obtained the most accurate segmentations. Several of the proposed designs outperform the standard U-Net used as baseline, especially when used in ensembles where the output of multiple neural networks is combined according to different strategies.
翻訳日:2021-11-19 02:59:17 公開日:2021-11-16
# (参考訳) AIがフェアなら誰が決める? アルゴリズム監査におけるラベル問題 [全文訳有]

Who Decides if AI is Fair? The Labels Problem in Algorithmic Auditing ( http://arxiv.org/abs/2111.08723v1 )

ライセンス: CC BY 4.0
Abhilash Mishra and Yash Gorana(参考訳) ラベル付き"ground truth"データセットは、高スループット設定で適用されるaiアルゴリズムの評価と監査に日常的に使用される。 しかし、これらのデータセットにラベルの品質に関する広く受け入れられているベンチマークは存在しない。 実世界において,ラベルの品質がアルゴリズム監査の結果を著しく歪めることの実証的証拠を提供する。 インドのAI企業が採用するデータアノテータを用いて、地上の真実データの忠実さは、都市部と農村部におけるASRのパフォーマンスに急激な違いをもたらす可能性があることを示す。 厳格で高価なラベルのクリーニングプロセスの後、グループ間の格差は消えます。 この結果から,ラベルの品質とデータアノテーションのコストのトレードオフが,実際にアルゴリズムによる監査を複雑化することを示す。 また、ラベル品質に対するコンセンサス駆動で広く受け入れられるベンチマークの開発の必要性も強調している。

Labelled "ground truth" datasets are routinely used to evaluate and audit AI algorithms applied in high-stakes settings. However, there do not exist widely accepted benchmarks for the quality of labels in these datasets. We provide empirical evidence that quality of labels can significantly distort the results of algorithmic audits in real-world settings. Using data annotators typically hired by AI firms in India, we show that fidelity of the ground truth data can lead to spurious differences in performance of ASRs between urban and rural populations. After a rigorous, albeit expensive, label cleaning process, these disparities between groups disappear. Our findings highlight how trade-offs between label quality and data annotation costs can complicate algorithmic audits in practice. They also emphasize the need for development of consensus-driven, widely accepted benchmarks for label quality.
翻訳日:2021-11-19 02:45:24 公開日:2021-11-16
# (参考訳) ポイントクラウドシーケンスからのシーンダイナミクスの学習 [全文訳有]

Learning Scene Dynamics from Point Cloud Sequences ( http://arxiv.org/abs/2111.08755v1 )

ライセンス: CC BY 4.0
Pan He, Patrick Emami, Sanjay Ranka, Anand Rangarajan(参考訳) 3dシーンを理解することは、自律エージェントにとって重要な前提条件である。 近年、LiDARや他のセンサーは、点雲フレームの時間的シーケンスの形で大量のデータを利用できるようになった。 そこで本研究では,一対の点雲に対する3次元シーンフローの予測を目的とした,シーケンシャルシーンフロー推定(SSFE)という新たな問題を提案する。 これは、2つのフレームに焦点をあてたシーンフロー推定の問題とは異なります。 本研究では,SPCM-Netアーキテクチャを導入し,隣接する点群間の複数スケールの時空間相関を計算し,次数不変のリカレントユニットで時間的相関を集約することでこの問題を解決する。 実験により, 点列の繰り返し処理により, SSFEは2フレームしか使用せず, SSFEが著しく向上することが確認された。 さらに,本手法は,将来的なクラウドフレームの予測を要求される関連する問題である逐次点クラウド予測(SPF)に対して,効果的に修正可能であることを示す。 実験結果は合成データと実データからなるssfeとspfのベンチマークを用いて評価した。 これまで、シーンフロー推定用のデータセットは2フレームに制限されていた。 マルチフレーム推定と予測のために,これらのデータセットに対する非自明な拡張を提供する。 実世界のデータセットでは,真理動作の獲得が困難であるため,自己教師付きトレーニングと評価指標を用いる。 このベンチマークは、この分野の将来の研究にとって重要なものだと考えています。 ベンチマークとモデルのすべてのコードはアクセス可能である。

Understanding 3D scenes is a critical prerequisite for autonomous agents. Recently, LiDAR and other sensors have made large amounts of data available in the form of temporal sequences of point cloud frames. In this work, we propose a novel problem -- sequential scene flow estimation (SSFE) -- that aims to predict 3D scene flow for all pairs of point clouds in a given sequence. This is unlike the previously studied problem of scene flow estimation which focuses on two frames. We introduce the SPCM-Net architecture, which solves this problem by computing multi-scale spatiotemporal correlations between neighboring point clouds and then aggregating the correlation across time with an order-invariant recurrent unit. Our experimental evaluation confirms that recurrent processing of point cloud sequences results in significantly better SSFE compared to using only two frames. Additionally, we demonstrate that this approach can be effectively modified for sequential point cloud forecasting (SPF), a related problem that demands forecasting future point cloud frames. Our experimental results are evaluated using a new benchmark for both SSFE and SPF consisting of synthetic and real datasets. Previously, datasets for scene flow estimation have been limited to two frames. We provide non-trivial extensions to these datasets for multi-frame estimation and prediction. Due to the difficulty of obtaining ground truth motion for real-world datasets, we use self-supervised training and evaluation metrics. We believe that this benchmark will be pivotal to future research in this area. All code for benchmark and models will be made accessible.
翻訳日:2021-11-19 02:40:48 公開日:2021-11-16
# (参考訳) 画像検索を支援するコンピュータビジョン [全文訳有]

Computer Vision for Supporting Image Search ( http://arxiv.org/abs/2111.08772v1 )

ライセンス: CC BY 4.0
Alan F. Smeaton(参考訳) コンピュータビジョンとマルチメディア情報処理は、過去10年で極端に進歩しており、多くのタスクは、まるで人間によって行われたか、それ以上の精度で行うことができる。 これは、トレーニングに利用可能な膨大なデータの利点を活用し、巨大なコンピュータ処理が利用可能であり、データ処理と正確なビジョンベースのシステムを提供するための一連のテクニックとして機械学習の進化を見てきたからです。 この処理にどのようなアプリケーションを使うのですか? 我々はこれを自動運転車のナビゲーションやセキュリティアプリケーション、例えばCCTVの検索、医療診断のための医療画像解析に利用しています。 広く普及していないアプリケーションは、ユーザーが直接画像や動画を検索することである。 本稿では,人間の記憶を検査し,それが失敗した場合の検索や画像検索の必要性について述べるとともに,それをサポートするコンピュータビジョンの要件とともに,アウトライン化される画像検索に対する異なるアプローチの必要性について述べる。

Computer vision and multimedia information processing have made extreme progress within the last decade and many tasks can be done with a level of accuracy as if done by humans, or better. This is because we leverage the benefits of huge amounts of data available for training, we have enormous computer processing available and we have seen the evolution of machine learning as a suite of techniques to process data and deliver accurate vision-based systems. What kind of applications do we use this processing for ? We use this in autonomous vehicle navigation or in security applications, searching CCTV for example, and in medical image analysis for healthcare diagnostics. One application which is not widespread is image or video search directly by users. In this paper we present the need for such image finding or re-finding by examining human memory and when it fails, thus motivating the need for a different approach to image search which is outlined, along with the requirements of computer vision to support it.
翻訳日:2021-11-19 01:58:37 公開日:2021-11-16
# (参考訳) タスク分解によるフィルムトレーラー生成 [全文訳有]

Film Trailer Generation via Task Decomposition ( http://arxiv.org/abs/2111.08774v1 )

ライセンス: CC BY-SA 4.0
Pinelopi Papalampidi, Frank Keller, Mirella Lapata(参考訳) 映画トレーラーは、視聴者をストーリーに紹介し、映画の雰囲気と芸術的なスタイルを伝え、観客に映画を見るように促す。 これらの多様な機能は、自動トレーラー生成を困難にさせる。 物語構造同定と感情予測という2つのサブタスクに分解する。 映画をグラフとしてモデル化し、ノードが撮影され、エッジがそれらの間の意味関係を示す。 我々は、スクリーンプレイから特権的テキスト情報(文字、行動、状況など)を活用する共同コントラストトレーニングを用いてこれらの関係を学習する。 教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争的な教師付きアプローチによって生成されるトレーラーを生成する。

Movie trailers perform multiple functions: they introduce viewers to the story, convey the mood and artistic style of the film, and encourage audiences to see the movie. These diverse functions make automatic trailer generation a challenging endeavor. We decompose it into two subtasks: narrative structure identification and sentiment prediction. We model movies as graphs, where nodes are shots and edges denote semantic relations between them. We learn these relations using joint contrastive training which leverages privileged textual information (e.g., characters, actions, situations) from screenplays. An unsupervised algorithm then traverses the graph and generates trailers that human judges prefer to ones generated by competitive supervised approaches.
翻訳日:2021-11-19 01:49:34 公開日:2021-11-16
# (参考訳) 自動生成会話メトリクスと再生ビデオによるテレタンデム反射のファシリテート [全文訳有]

Facilitating reflection in teletandem through automatically generated conversation metrics and playback video ( http://arxiv.org/abs/2111.08788v1 )

ライセンス: CC BY 4.0
Aparajita Dey-Plissonneau, Hyowon Lee, Michael Scriney, Alan F. Smeaton, Vincent Pradier, Hamza Riaz(参考訳) このパイロット研究は、L2Lと呼ばれるツールに焦点を当てており、第二言語(L2)学習者は、ネイティブスピーカーとのZoomインタラクションを視覚化し分析することができる。 L2LはZoom transcriptを使用して会話メトリクスを自動生成し、タイムスタンプによる再生機能により、学生は会話の選択した部分を再生して、セッション後のリフレクションと自己レビューを行うことができる。 本研究は,アイルランド大学でフランス語を学ぶ大学生(b2)がzoomで英語を学ぶフランスの大学(b2+)の仲間と交流する,7週間のテレタンデムプロジェクトを調査した。 質問紙調査(N=43)と半構造化インタビュー(N=35)から収集したデータから,会話の量的指標と同期コンテンツの質的評価が,母語話者と対話しながら学生の信頼度を高めることを示唆した。 さらに、参加を改善するために具体的な目標を設定し、何、なぜ、どのように学習しているかをより認識できるようになった。

This pilot study focuses on a tool called L2L that allows second language (L2) learners to visualise and analyse their Zoom interactions with native speakers. L2L uses the Zoom transcript to automatically generate conversation metrics and its playback feature with timestamps allows students to replay any chosen portion of the conversation for post-session reflection and self-review. This exploratory study investigates a seven-week teletandem project, where undergraduate students from an Irish University learning French (B2) interacted with their peers from a French University learning English (B2+) via Zoom. The data collected from a survey (N=43) and semi-structured interviews (N=35) show that the quantitative conversation metrics and qualitative review of the synchronous content helped raise students' confidence levels while engaging with native speakers. Furthermore, it allowsed them to set tangible goals to improve their participation, and be more aware of what, why and how they are learning.
翻訳日:2021-11-19 01:26:27 公開日:2021-11-16
# (参考訳) PredProp: 精度重み付き予測符号化による双方向確率最適化 [全文訳有]

PredProp: Bidirectional Stochastic Optimization with Precision Weighted Predictive Coding ( http://arxiv.org/abs/2111.08792v1 )

ライセンス: CC BY 4.0
Andr\'e Ofner and Sebastian Stober(参考訳) ニューラルネットワークにおける重み・活動・精度の双方向・並列・局所最適化手法であるPredPropを提案する。 PredPropは推論と学習を共同で処理し、学習率を動的にスケールし、予測誤差の精度を最適化することで損失関数の曲率による勾配を重み付けする。 PredPropは、Stochastic Gradient Descentによるネットワークパラメータの最適化と、各レイヤでローカルに利用可能な予測エラーと変数に基づいたエラーフォワードの伝播を行う。 隣接層は共有アクティビティ変数を最適化し、予測エラーがネットワーク内で進行し、予測が後方に伝播できるようにします。 このプロセスは負のフリーエネルギーを最小化し、ネットワーク全体の限界を低くする。 predpropでトレーニングされたネットワークは、隣接するアクティビティ変数間の重み数が1である場合の勾配に基づく予測符号化に似ている。 関連する作業とは対照的に、PredPropは任意の深さの後方接続を一般化し、ディープネットワークアーキテクチャの精度を最適化する。 予測誤差の精度と各層のフィッシャー情報との類似性から、PredPropは自然なグラディエントDescentの形式を実装している。 dnnモデルを最適化する場合、レイヤワイズプレドプロップはモデルを双方向予測符号化ネットワークとしてレンダリングする。 あるいは、DNNは2つのアクティビティ変数間の重みをパラメータ化できる。 単純な推論,学習,複合タスクに基づく高密度DNNに対するPredPropの評価を行った。 ネットワーク内の明示的なサンプリングステップなしに、predpropは、低量のデータから絡み合った埋め込みを学習し、より複雑なタスクやデータセットの評価を将来の作業に残すための、変分推論の形式を実装している。

We present PredProp, a method for bidirectional, parallel and local optimisation of weights, activities and precision in neural networks. PredProp jointly addresses inference and learning, scales learning rates dynamically and weights gradients by the curvature of the loss function by optimizing prediction error precision. PredProp optimizes network parameters with Stochastic Gradient Descent and error forward propagation based strictly on prediction errors and variables locally available to each layer. Neighboring layers optimise shared activity variables so that prediction errors can propagate forward in the network, while predictions propagate backwards. This process minimises the negative Free Energy, or evidence lower bound of the entire network. We show that networks trained with PredProp resemble gradient based predictive coding when the number of weights between neighboring activity variables is one. In contrast to related work, PredProp generalizes towards backward connections of arbitrary depth and optimizes precision for any deep network architecture. Due to the analogy between prediction error precision and the Fisher information for each layer, PredProp implements a form of Natural Gradient Descent. When optimizing DNN models, layer-wise PredProp renders the model a bidirectional predictive coding network. Alternatively DNNs can parameterize the weights between two activity variables. We evaluate PredProp for dense DNNs on simple inference, learning and combined tasks. We show that, without an explicit sampling step in the network, PredProp implements a form of variational inference that allows to learn disentangled embeddings from low amounts of data and leave evaluation on more complex tasks and datasets to future work.
翻訳日:2021-11-19 01:21:46 公開日:2021-11-16
# (参考訳) DeltaConv: 外部計算による異方性ポイントクラウド学習 [全文訳有]

DeltaConv: Anisotropic Point Cloud Learning with Exterior Calculus ( http://arxiv.org/abs/2111.08799v1 )

ライセンス: CC BY 4.0
Ruben Wiersma, Ahmad Nasikun, Elmar Eisemann, Klaus Hildebrandt(参考訳) 3Dポイントクラウドデータからの学習は急速に増加し、ディープラーニングのイメージの成功と3Dデータの可用性の向上が動機となっている。 本稿では,点雲から導出される表面に直接作用する異方性畳み込みを構築することを目的としており,これは表面上の接角方向のグローバルなコーディネート系が欠如しているためである。 これらの演算子はスカラー場とベクトル場上で定義されるので、ネットワークをスカラーとベクトルストリームに分離し、オペレーターによって接続される。 ベクターストリームにより、ネットワークは方向情報を明示的に表現し、評価し、処理することができる。 私たちの畳み込みは、いくつかのベンチマークにおける最先端のアプローチと比較して、AC精度の向上と実装の容易さと、トレーニングと推論のスピードアップを実現しています。

Learning from 3D point-cloud data has rapidly gainedmomentum, motivated by the success of deep learning onimages and the increased availability of 3D data. In thispaper, we aim to construct anisotropic convolutions thatwork directly on the surface derived from a point cloud.This is challenging because of the lack of a global coordi-nate system for tangential directions on surfaces. We intro-duce a new convolution operator called DeltaConv, whichcombines geometric operators from exterior calculus to en-able the construction of anisotropic filters on point clouds.Because these operators are defined on scalar- and vector-fields, we separate the network into a scalar- and a vector-stream, which are connected by the operators. The vectorstream enables the network to explicitly represent, evalu-ate, and process directional information. Our convolutionsare robust and simple to implement and show improved ac-curacy compared to state-of-the-art approaches on severalbenchmarks, while also speeding up training and inference.
翻訳日:2021-11-19 01:14:50 公開日:2021-11-16
# (参考訳) ユーティリティベース不足リスクのオンライン推定と最適化 [全文訳有]

Online Estimation and Optimization of Utility-Based Shortfall Risk ( http://arxiv.org/abs/2111.08805v1 )

ライセンス: CC BY 4.0
Arvind S. Menon, Prashanth L.A. and Krishna Jagannathan(参考訳) ユーティリティ・ベース・ショートフォール・リスク(ubsr: utility-based shortfall risk)は、特定の望ましい資産のために金融アプリケーションでますます人気が高まっているリスク指標である。 本稿では,UBSR を再帰的に推定する問題について考察する。 UBSR推定問題をルート探索問題とし,確率近似に基づく推定手法を提案する。 サンプル数における推定誤差の非漸近境界を導出する。 また,変数のパラメータ化クラスにおけるUBSR最適化の問題についても検討する。 ubsr最適化のための確率的勾配降下に基づくアルゴリズムを提案し,その収束に関する非漸近境界を導出する。

Utility-Based Shortfall Risk (UBSR) is a risk metric that is increasingly popular in financial applications, owing to certain desirable properties that it enjoys. We consider the problem of estimating UBSR in a recursive setting, where samples from the underlying loss distribution are available one-at-a-time. We cast the UBSR estimation problem as a root finding problem, and propose stochastic approximation-based estimations schemes. We derive non-asymptotic bounds on the estimation error in the number of samples. We also consider the problem of UBSR optimization within a parameterized class of random variables. We propose a stochastic gradient descent based algorithm for UBSR optimization, and derive non-asymptotic bounds on its convergence.
翻訳日:2021-11-19 00:59:06 公開日:2021-11-16
# (参考訳) レコメンダシステムのためのオフライン強化学習における圧縮的特徴 [全文訳有]

Compressive Features in Offline Reinforcement Learning for Recommender Systems ( http://arxiv.org/abs/2111.08817v1 )

ライセンス: CC BY 4.0
Hung Nguyen, Minh Nguyen, Long Pham, Jennifer Adorno Nieves(参考訳) 本稿では,ゲーム提供者の収益を最大化するために,インタラクティブな行動に基づく潜在的アイテムをプレイヤーに提案するゲーム推薦システムを開発する。 我々のアプローチは強化学習に基づく技術に基づいており、IEEE Big Data Cupチャレンジで公開されているオフラインデータセットでトレーニングされています。 オフラインデータセットの制限と高次元の呪いは、この問題を解決する上で大きな障害となる。 提案手法は,これらの主な課題に対処することで,報酬と性能の向上に重点を置いている。 具体的には,スパースPCAを用いてユーザ行動の重要な特徴を抽出した。 Q-learningベースのシステムは、処理されたオフラインデータセットからトレーニングされる。 提供されたデータセットから可能なすべての情報を活用するために、ユーザ機能を異なるグループにクラスタリングし、各グループに独立したqテーブルを構築します。 さらに,評価指標に対する未知の公式の課題に取り組むために,ゲーム提供者が達成できる潜在的な価値と,実際のスコアリング環境から得られる少数の評価指標に基づいて,システムの性能を自己評価するための指標をデザインする。 実験の結果,提案手法は課題主催者による結果と一致していることがわかった。 提案するトレーニングパイプラインを実装し,本手法が全報酬とトレーニング速度の両面で,現在の最先端手法を上回っていることを示す。 主な課題に対処し、最先端の技術を活用することで、この課題における最高の公開リーダボードを実現したのです。 さらに,提案手法は推定スコアが約20%向上し,現在の最先端手法の30倍の速さでトレーニングが可能となった。

In this paper, we develop a recommender system for a game that suggests potential items to players based on their interactive behaviors to maximize revenue for the game provider. Our approach is built on a reinforcement learning-based technique and is trained on an offline data set that is publicly available on an IEEE Big Data Cup challenge. The limitation of the offline data set and the curse of high dimensionality pose significant obstacles to solving this problem. Our proposed method focuses on improving the total rewards and performance by tackling these main difficulties. More specifically, we utilized sparse PCA to extract important features of user behaviors. Our Q-learning-based system is then trained from the processed offline data set. To exploit all possible information from the provided data set, we cluster user features to different groups and build an independent Q-table for each group. Furthermore, to tackle the challenge of unknown formula for evaluation metrics, we design a metric to self-evaluate our system's performance based on the potential value the game provider might achieve and a small collection of actual evaluation metrics that we obtain from the live scoring environment. Our experiments show that our proposed metric is consistent with the results published by the challenge organizers. We have implemented the proposed training pipeline, and the results show that our method outperforms current state-of-the-art methods in terms of both total rewards and training speed. By addressing the main challenges and leveraging the state-of-the-art techniques, we have achieved the best public leaderboard result in the challenge. Furthermore, our proposed method achieved an estimated score of approximately 20% better and can be trained faster by 30 times than the best of the current state-of-the-art methods.
翻訳日:2021-11-19 00:34:47 公開日:2021-11-16
# (参考訳) CleanRL: 深層強化学習アルゴリズムの高品質単一ファイル実装 [全文訳有]

CleanRL: High-quality Single-file Implementations of Deep Reinforcement Learning Algorithms ( http://arxiv.org/abs/2111.08819v1 )

ライセンス: CC BY 4.0
Shengyi Huang, Rousslan Fernand Julien Dossa, Chang Ye, Jeff Braga(参考訳) CleanRLはオープンソースのライブラリで、Deep Reinforcement Learningアルゴリズムの高品質なシングルファイル実装を提供する。 コードベースが単純でスケーラブルな開発エクスペリエンスを提供し、運用ツールを統合して、実験の対話とスケールアップを支援します。 CleanRLでは、アルゴリズムのすべての詳細を単一のファイルに配置し、これらのパフォーマンス関連の詳細を容易に認識できるようにする。 さらに、メトリクス、ハイパーパラメータ、エージェントのゲームプレイのビデオ、依存関係、その他をクラウドに記録するための実験追跡機能も提供されている。 簡潔な実装にもかかわらず、私たちはスケールを支援するツールも設計しました。 最後に、さまざまな環境に対してベンチマークすることで、実装の品質を確保しました。 CleanRLのソースコードはhttps://github.com/v wxyzjn/cleanrlにある。

CleanRL is an open-source library that provides high-quality single-file implementations of Deep Reinforcement Learning algorithms. It provides a simpler yet scalable developing experience by having a straightforward codebase and integrating production tools to help interact and scale experiments. In CleanRL, we put all details of an algorithm into a single file, making these performance-relevant details easier to recognize. Additionally, an experiment tracking feature is available to help log metrics, hyperparameters, videos of an agent's gameplay, dependencies, and more to the cloud. Despite succinct implementations, we have also designed tools to help scale, at one point orchestrating experiments on more than 2000 machines simultaneously via Docker and cloud providers. Finally, we have ensured the quality of the implementations by benchmarking against a variety of environments. The source code of CleanRL can be found at https://github.com/v wxyzjn/cleanrl
翻訳日:2021-11-19 00:21:33 公開日:2021-11-16
# (参考訳) スマートヘルスケアのための連合学習:調査

Federated Learning for Smart Healthcare: A Survey ( http://arxiv.org/abs/2111.08834v1 )

ライセンス: CC BY 4.0
Dinh C. Nguyen, Quoc-Viet Pham, Pubudu N. Pathirana, Ming Ding, Aruna Seneviratne, Zihuai Lin, Octavia A. Dobre, Won-Joo Hwang(参考訳) 近年の通信技術と医療のインターネットは、人工知能(AI)によって実現されたスマートヘルスケアを変革している。 従来、AI技術は、現代の医療ネットワークのスケーラビリティの高さとデータプライバシの懸念の増加により、現実的な医療シナリオでは実現不可能な、集中的なデータ収集と処理を必要とする。 新たな分散コラボレーションAIパラダイムであるフェデレートラーニング(FL)は、複数のクライアント(例えば病院)をコーディネートして、生データを共有せずにAIトレーニングを実行することで、スマートヘルスケアにとって特に魅力的なものだ。 したがって、スマートヘルスケアにおけるFLの使用に関する総合的な調査を提供する。 まず、FLの最近の進歩、モチベーション、およびスマートヘルスケアにおけるFLの使用要件について述べる。 次に、最近のスマートヘルスケアのためのfl設計について論じ、リソースアウェアfl、セキュアでプライバシアウェアfl、インセンティブfl、パーソナライズflなどについて論じる。 続いて、健康データ管理、リモートヘルスモニタリング、医療画像、COVID-19検出など、主要な医療領域におけるFLの新たな応用について、最先端のレビューを行う。 最近のFLベースのスマートヘルスケアプロジェクトを分析し、調査から学んだ重要な教訓も強調されている。 最後に、スマートヘルスケアにおける今後のFL研究の課題と可能性について論じる。

Recent advances in communication technologies and Internet-of-Medical- Things have transformed smart healthcare enabled by artificial intelligence (AI). Traditionally, AI techniques require centralized data collection and processing that may be infeasible in realistic healthcare scenarios due to the high scalability of modern healthcare networks and growing data privacy concerns. Federated Learning (FL), as an emerging distributed collaborative AI paradigm, is particularly attractive for smart healthcare, by coordinating multiple clients (e.g., hospitals) to perform AI training without sharing raw data. Accordingly, we provide a comprehensive survey on the use of FL in smart healthcare. First, we present the recent advances in FL, the motivations, and the requirements of using FL in smart healthcare. The recent FL designs for smart healthcare are then discussed, ranging from resource-aware FL, secure and privacy-aware FL to incentive FL and personalized FL. Subsequently, we provide a state-of-the-art review on the emerging applications of FL in key healthcare domains, including health data management, remote health monitoring, medical imaging, and COVID-19 detection. Several recent FL-based smart healthcare projects are analyzed, and the key lessons learned from the survey are also highlighted. Finally, we discuss interesting research challenges and possible directions for future FL research in smart healthcare.
翻訳日:2021-11-19 00:13:22 公開日:2021-11-16
# (参考訳) オンライン広告収益予測: 解釈可能なディープラーニングアプローチ [全文訳有]

Online Advertising Revenue Forecasting: An Interpretable Deep Learning Approach ( http://arxiv.org/abs/2111.08840v1 )

ライセンス: CC BY 4.0
Max W\"urfel, Qiwei Han, Maximilian Kaiser(参考訳) オンライン広告収入は、特にGoogleやFacebookのようなテクノロジー企業の広告ネットワークに依存している中小規模の出版社において、出版社の収益ストリームのシェアを増大させている。 したがって、パブリッシャーはウェブサイトの収益化戦略を改善するために、正確なオンライン広告収益予測から大きな恩恵を受ける可能性がある。 しかし、自身の収益データのみにアクセスできるパブリッシャーは、パブリッシャーの広告市場全体の全体像を欠いているため、将来的なオンライン広告収入に関する洞察を創造する能力は制限されている。 このビジネス問題に対処するために、我々はgoogle adsenseの収益を含むプロプライエタリなデータベースを、さまざまな領域のパブリッシャーの大規模なコレクションから活用している。 我々は、出版者の広告収入を予測する新しい注意に基づくアーキテクチャであるtemporal fusion transformer(tft)モデルを採用する。 我々は、出版社自身の特徴だけでなく、他の出版社の広告収入を含む複数の共変量を利用する。 我々の予測結果は、複数の時間地平線上での深層学習時系列予測モデルよりも優れている。 さらに, 変動重みを解析し, 重要な特徴と自己注意重みを同定し, 持続的な時間的パターンを明らかにする。

Online advertising revenues account for an increasing share of publishers' revenue streams, especially for small and medium-sized publishers who depend on the advertisement networks of tech companies such as Google and Facebook. Thus publishers may benefit significantly from accurate online advertising revenue forecasts to better manage their website monetization strategies. However, publishers who only have access to their own revenue data lack a holistic view of the total ad market of publishers, which in turn limits their ability to generate insights into their own future online advertising revenues. To address this business issue, we leverage a proprietary database encompassing Google Adsense revenues from a large collection of publishers in diverse areas. We adopt the Temporal Fusion Transformer (TFT) model, a novel attention-based architecture to predict publishers' advertising revenues. We leverage multiple covariates, including not only the publisher's own characteristics but also other publishers' advertising revenues. Our prediction results outperform several benchmark deep-learning time-series forecast models over multiple time horizons. Moreover, we interpret the results by analyzing variable importance weights to identify significant features and self-attention weights to reveal persistent temporal patterns.
翻訳日:2021-11-19 00:12:12 公開日:2021-11-16
# ファンネルライブラリを用いたロバストな運動プランナーの学習

Learning Provably Robust Motion Planners Using Funnel Libraries ( http://arxiv.org/abs/2111.08733v1 )

ライセンス: Link先を確認
Ali Ekin Gurgen, Anirudha Majumdar, Sushant Veer(参考訳) 本稿では,ロボットの動特性に一様に干渉する新しい環境において,その成功の確率的保証を伴う運動プランナーを学習する手法を提案する。 我々は一般化理論とロバスト制御のツールを組み合わせてこれを達成する。 まず、各プリミティブのロバスト性が前方到達可能な集合、すなわち「ファンネル」の過度な近似によって特徴づけられる動きプリミティブのライブラリをキュレートする。 そして、計画立案者がこれらのプリミティブを構成するように訓練するために、おそらくほぼ正しい(PAC)-ベイズ一般化境界を最適化する。 2つのシミュレーション例に対して,強い保証を提供するためのアプローチの能力を示す。 (i)複数の車両を有する5車線の幹線道路における外乱による自律走行車両の航行 (ii)風乱の存在下で障害物フィールドを横断するドローンの航行

This paper presents an approach for learning motion planners that are accompanied with probabilistic guarantees of success on new environments that hold uniformly for any disturbance to the robot's dynamics within an admissible set. We achieve this by bringing together tools from generalization theory and robust control. First, we curate a library of motion primitives where the robustness of each primitive is characterized by an over-approximation of the forward reachable set, i.e., a "funnel". Then, we optimize probably approximately correct (PAC)-Bayes generalization bounds for training our planner to compose these primitives such that the entire funnels respect the problem specification. We demonstrate the ability of our approach to provide strong guarantees on two simulated examples: (i) navigation of an autonomous vehicle under external disturbances on a five-lane highway with multiple vehicles, and (ii) navigation of a drone across an obstacle field in the presence of wind disturbances.
翻訳日:2021-11-18 16:04:16 公開日:2021-11-16
# 生成モデルと実世界データを組み合わせたロボット学習のためのより強力な一般化保証

Stronger Generalization Guarantees for Robot Learning by Combining Generative Models and Real-World Data ( http://arxiv.org/abs/2111.08761v1 )

ライセンス: Link先を確認
Abhinav Agarwal, Sushant Veer, Allen Z. Ren, Anirudha Majumdar(参考訳) 我々は、トレーニング中に見えない環境への一般化を保証する方法で、豊かな感覚入力(例えば視覚)を持つロボットシステムの学習ポリシーの問題に動機付けられている。 現実環境の有限データセットと(潜在的に不正確な)環境生成モデルを組み合わせることで、そのような一般化保証を提供するためのフレームワークを提供する。 このアプローチの背後にある重要なアイデアは、事前のポリシーを暗黙的に指定するために生成モデルを活用することです。 この前者は、確率的近似(PAC)-ベイズ一般化理論によって導かれる新しい環境における期待されるコストの上限を最小化し、実際の環境データセットを用いて更新される。 非線形/ハイブリッドダイナミクスとリッチセンシングモダリティを有する2つのシミュレーションシステムに対するアプローチを実証する。 (i)オンボードビジョンセンサ付き四角形ナビゲーション、 (ii)深度センサによる物体の把握 先行研究との比較により, 生成モデルを用いてより強力な一般化保証が得られることを示す。 また,把握作業の限界を検証するためのハードウェア実験も提案する。

We are motivated by the problem of learning policies for robotic systems with rich sensory inputs (e.g., vision) in a manner that allows us to guarantee generalization to environments unseen during training. We provide a framework for providing such generalization guarantees by leveraging a finite dataset of real-world environments in combination with a (potentially inaccurate) generative model of environments. The key idea behind our approach is to utilize the generative model in order to implicitly specify a prior over policies. This prior is updated using the real-world dataset of environments by minimizing an upper bound on the expected cost across novel environments derived via Probably Approximately Correct (PAC)-Bayes generalization theory. We demonstrate our approach on two simulated systems with nonlinear/hybrid dynamics and rich sensing modalities: (i) quadrotor navigation with an onboard vision sensor, and (ii) grasping objects using a depth sensor. Comparisons with prior work demonstrate the ability of our approach to obtain stronger generalization guarantees by utilizing generative models. We also present hardware experiments for validating our bounds for the grasping task.
翻訳日:2021-11-18 16:04:00 公開日:2021-11-16
# リニア2D-2Dレジストレーションによる単クローンマウス脳スライスの自動分割

Automated Atlas-based Segmentation of Single Coronal Mouse Brain Slices using Linear 2D-2D Registration ( http://arxiv.org/abs/2111.08705v1 )

ライセンス: Link先を確認
S\'ebastien Piluso, Nicolas Souedet, Caroline Jan, C\'edric Clouchoux, Thierry Delzescaux(参考訳) 脳組織学的データ解析における重要な課題は、解剖学的領域を正確に同定し、正確な局所定量を行い、治療ソリューションを評価することである。 通常、この作業は手動で行うため、退屈で主観的になる。 もう1つの選択肢は、自動的または半自動的な方法を使用することであり、そのうちデジタルアトラスによるセグメンテーションは共登録である。 しかし、ほとんどのアトラスは3Dであり、デジタル化された組織データは2Dである。 アトラスからこのような2D-3Dセグメンテーションを行う方法が必要である。 本稿では, 線形登録を用いて, 単一の2次元冠動脈スライスを3次元ボリュームのアトラスに自動的かつ正確に分割する手法を提案する。 全脳規模での探索的アプローチによる頑健さと性能の検証を行った。

A significant challenge for brain histological data analysis is to precisely identify anatomical regions in order to perform accurate local quantifications and evaluate therapeutic solutions. Usually, this task is performed manually, becoming therefore tedious and subjective. Another option is to use automatic or semi-automatic methods, among which segmentation using digital atlases co-registration. However, most available atlases are 3D, whereas digitized histological data are 2D. Methods to perform such 2D-3D segmentation from an atlas are required. This paper proposes a strategy to automatically and accurately segment single 2D coronal slices within a 3D volume of atlas, using linear registration. We validated its robustness and performance using an exploratory approach at whole-brain scale.
翻訳日:2021-11-18 15:25:59 公開日:2021-11-16
# 周波数領域におけるオートアタック摂動の検出

Detecting AutoAttack Perturbations in the Frequency Domain ( http://arxiv.org/abs/2111.08785v1 )

ライセンス: Link先を確認
Peter Lorenz, Paula Harder, Dominik Strassel, Margret Keuper and Janis Keuper(参考訳) 近年,AutoAttack(Croce and Hein, 2020b)フレームワークによる画像分類ネットワークに対する敵対攻撃が注目されている。 オートアタックは攻撃成功率が非常に高いが、ほとんどの防衛アプローチは、敵の訓練のようなネットワーク強化と堅牢性強化に焦点を当てている。 これにより、現在最も報告されている手法は、CIFAR10の敵例の約66%に耐えることができる。 本稿では,オートアタックの空間的および周波数領域特性を調査し,代替防御を提案する。 ネットワークを強固にする代わりに、推論中の敵攻撃を検出し、操作された入力を拒否する。 周波数領域における比較的単純かつ高速な解析に基づいて、2つの異なる検出アルゴリズムを導入する。 まず、入力画像上でのみ動作し、オートアタックcifar10ベンチマークで100%、imagenetで99.3%、両方のケースでepsilon = 8/255の検出精度を達成するブラックボックス検出器。 第2に、CNNの特徴マップの分析を用いたホワイトボックス検出器が、同じベンチマークで100%と98.7%の検出率をもたらす。

Recently, adversarial attacks on image classification networks by the AutoAttack (Croce and Hein, 2020b) framework have drawn a lot of attention. While AutoAttack has shown a very high attack success rate, most defense approaches are focusing on network hardening and robustness enhancements, like adversarial training. This way, the currently best-reported method can withstand about 66% of adversarial examples on CIFAR10. In this paper, we investigate the spatial and frequency domain properties of AutoAttack and propose an alternative defense. Instead of hardening a network, we detect adversarial attacks during inference, rejecting manipulated inputs. Based on a rather simple and fast analysis in the frequency domain, we introduce two different detection algorithms. First, a black box detector that only operates on the input images and achieves a detection accuracy of 100% on the AutoAttack CIFAR10 benchmark and 99.3% on ImageNet, for epsilon = 8/255 in both cases. Second, a whitebox detector using an analysis of CNN feature maps, leading to a detection rate of also 100% and 98.7% on the same benchmarks.
翻訳日:2021-11-18 15:24:22 公開日:2021-11-16
# 深層学習に基づく統合的検出・追跡によるボルト緩みのイメージベースモニタリング

Image-based monitoring of bolt loosening through deep-learning-based integrated detection and tracking ( http://arxiv.org/abs/2111.09117v1 )

ライセンス: Link先を確認
Xiao Pan, T.Y. Yang(参考訳) 構造ボルトはビームカラム接続や摩擦減衰装置など、異なる構造要素で使用される重要な部品である。 構造ボルトのクランプ力は、ボルト回転の影響を強く受けている。 ボルト回転推定に関する既存のビジョンに基づく研究の多くは、ボルトの静的画像を評価するためにハフ変換のような従来のコンピュータビジョンアルゴリズムに依存している。 これは注意深い画像前処理を必要としており、複雑なボルト組立体の状況や周囲の物体や背景ノイズの存在下ではうまく機能せず、現実の応用を妨げる可能性がある。 本研究では,ボルト回転角を監視するためにRTDT-Boltという実時間検出トラック方式を提案する。 まず、リアルタイム畳み込みニューラルネットワークベースの物体検出器、yolov3-tinyが確立され、構造ボルトのローカライズを訓練する。 そして、オプティカルフローに基づくターゲットフリーオブジェクトトラッキングアルゴリズムを実装し、構造ボルトの回転を継続的に監視して定量化する。 トラッキング中の背景雑音に対するトラッキング性能と潜在的な照度変化を高めるため、YOLOv3-tinyは光流追跡アルゴリズムと統合され、トラッキングが失われたときにボルトを再検出する。 最適追従性能を同定し, 潜在的な限界を検討するために, 広範囲なパラメータ研究を行った。 その結果, RTDT-Bolt法はボルト回転のトラッキング性能を大幅に向上し, パラメータの推奨範囲を用いて90%以上の精度を達成できることがわかった。

Structural bolts are critical components used in different structural elements, such as beam-column connections and friction damping devices. The clamping force in structural bolts is highly influenced by the bolt rotation. Much of the existing vision-based research about bolt rotation estimation relies on traditional computer vision algorithms such as Hough Transform to assess static images of bolts. This requires careful image preprocessing, and it may not perform well in the situation of complicated bolt assemblies, or in the presence of surrounding objects and background noise, thus hindering their real-world applications. In this study, an integrated real-time detect-track method, namely RTDT-Bolt, is proposed to monitor the bolt rotation angle. First, a real-time convolutional-neural -networks-based object detector, named YOLOv3-tiny, is established and trained to localize structural bolts. Then, the target-free object tracking algorithm based on optical flow is implemented, to continuously monitor and quantify the rotation of structural bolts. In order to enhance the tracking performance against background noise and potential illumination changes during tracking, the YOLOv3-tiny is integrated with the optical flow tracking algorithm to re-detect the bolts when the tracking gets lost. Extensive parameter studies were conducted to identify optimal tracking performance and examine the potential limitations. The results indicate the RTDT-Bolt method can greatly enhance the tracking performance of bolt rotation, which can achieve over 90% accuracy using the recommended range for the parameters.
翻訳日:2021-11-18 15:23:05 公開日:2021-11-16
# 都市公共交通需要に影響を与える要因の特定

Identifying the Factors that Influence Urban Public Transit Demand ( http://arxiv.org/abs/2111.09126v1 )

ライセンス: Link先を確認
Armstrong Aboah, Lydia Johnson, Setul Shah(参考訳) 近年のアメリカ全土における都市化の高まりにより、都市計画家や交通技術者は都市圏の住民が利用できる交通サービスについてより深く考慮する必要がある。 これにより交通機関は、改良された技術とサービス品質の向上を通じて、より良く信頼性の高い公共交通手段を提供することができる。 これらの改善は、都市公共交通需要に影響を与える要因を特定し、理解することで達成できる。 都市公共交通の需要に影響を与える共通の要因は、内外的要因である。 内部要因は、交通運賃、サービス・ヘッドウェイ、旅行時間などの政策措置である。 外的要因には、地理的、社会経済的、高速道路施設の特徴が含まれる。 交通需要と交通需要の間には本質的に同質性があり、都市交通需要の予測のために2段階最小二乗 (2sls) 回帰モデリングを行う必要がある。 そのため、複数の線形回帰モデル(トランジット供給予測用とトランジット需要予測用)が開発されるべきである。 その結果,サービスエリアの密度,旅行あたりの平均コスト,最大サービスで運用される車両の平均数が,自動車の収益時間として表される交通量予測に利用できることがわかった。 さらに、推定車両売上時間と1旅行あたりの平均運賃は、交通需要を予測するために利用することができる。 各交通機関の周辺地域の社会経済情報や様々な交通システムの旅行時間情報などの追加情報は、開発されたモデルを改善するのに役立つだろう。

The rise in urbanization throughout the United States (US) in recent years has required urban planners and transportation engineers to have greater consideration for the transportation services available to residents of a metropolitan region. This compels transportation authorities to provide better and more reliable modes of public transit through improved technologies and increased service quality. These improvements can be achieved by identifying and understanding the factors that influence urban public transit demand. Common factors that can influence urban public transit demand can be internal and/or external factors. Internal factors include policy measures such as transit fares, service headways, and travel times. External factors can include geographic, socioeconomic, and highway facility characteristics. There is inherent simultaneity between transit supply and demand, thus a two-stage least squares (2SLS) regression modeling procedure should be conducted to forecast urban transit supply and demand. As such, two multiple linear regression models should be developed: one to predict transit supply and a second to predict transit demand. It was found that service area density, total average cost per trip, and the average number of vehicles operated in maximum service can be used to forecast transit supply, expressed as vehicle revenue hours. Furthermore, estimated vehicle revenue hours and total average fares per trip can be used to forecast transit demand, expressed as unlinked passenger trips. Additional data such as socioeconomic information of the surrounding areas for each transit agency and travel time information of the various transit systems would be useful to improve upon the models developed.
翻訳日:2021-11-18 15:22:40 公開日:2021-11-16
# パブリッククラウドにおけるバッチ処理負荷最適化のための実行トレースの可能性について

On the Potential of Execution Traces for Batch Processing Workload Optimization in Public Clouds ( http://arxiv.org/abs/2111.08759v1 )

ライセンス: Link先を確認
Dominik Scheinert, Alireza Alamgiralem, Jonathan Bader, Jonathan Will, Thorsten Wittkopp, Lauritz Thamsen(参考訳) データ量の増加に伴い、データ処理ワークロードとリソース利用の管理がますます重要になっています。 専用のインフラストラクチャを管理することは、多くの状況において実現不可能あるいは非経済的であるため、ユーザは徐々にそれぞれのワークロードをクラウドで実行します。 ワークロードやリソースの設定が難しい場合が多いため、適切な設定に迅速にプロファイルするか、以前の実行からのデータに基づいて判断する、さまざまな方法が提案されている。 それでも、そのようなメソッドをトレーニングするためのパフォーマンスデータは、しばしば欠落しており、コストがかかる。 本稿では,匿名化されたワークロード実行トレースをユーザ間で共有し,一般的なパターンをマイニングし,過去のワークロードのクラスタを将来の最適化のために活用するための協調的アプローチを提案する。 公開されているトレースデータセット上でワークロード実行グラフをマイニングするためのプロトタイプ実装を評価し,トレースのみを用いて決定されたワークロードクラスタの予測値を示す。

With the growing amount of data, data processing workloads and the management of their resource usage becomes increasingly important. Since managing a dedicated infrastructure is in many situations infeasible or uneconomical, users progressively execute their respective workloads in the cloud. As the configuration of workloads and resources is often challenging, various methods have been proposed that either quickly profile towards a good configuration or determine one based on data from previous runs. Still, performance data to train such methods is often lacking and must be costly collected. In this paper, we propose a collaborative approach for sharing anonymized workload execution traces among users, mining them for general patterns, and exploiting clusters of historical workloads for future optimizations. We evaluate our prototype implementation for mining workload execution graphs on a publicly available trace dataset and demonstrate the predictive value of workload clusters determined through traces only.
翻訳日:2021-11-18 15:21:11 公開日:2021-11-16
# 潜在空間操作を用いた軽度認知障害からアルツハイマー病への転換の検討

Investigating Conversion from Mild Cognitive Impairment to Alzheimer's Disease using Latent Space Manipulation ( http://arxiv.org/abs/2111.08794v1 )

ライセンス: Link先を確認
Deniz Sezin Ayvaz and Inci M. Baytas(参考訳) アルツハイマー病は世界中で何百万もの生命に影響を及ぼす認知症の最も一般的な原因である。 アルツハイマー病の根本原因とリスク要因を調べることは、その進行を防ぐために不可欠である。 軽度認知障害(MCI)はアルツハイマー病の中間段階と考えられている。 MCIからアルツハイマー病への転換の早期予測は、進行を減速させ適切な治療法を開発するために必要な予防措置をとることが重要である。 本研究では,mciからアルツハイマー病への変換の識別子である変数を発見するための深層学習フレームワークを提案する。 特に、MCIおよびアルツハイマー病患者で訓練された変異型オートエンコーダネットワークの潜時空間を操作し、MCIからアルツハイマー病への転換につながる重要な属性を取得し、それらの振る舞いを解読する。 生成型デコーダとアルツハイマー病の診断に繋がる寸法を利用して、データセット中のMCI患者から合成認知症患者を生成する。 実験の結果,最も広く用いられているアルツハイマー病の神経画像データセットの1つについて,有望な定量的および質的な結果が得られた。

Alzheimer's disease is the most common cause of dementia that affects millions of lives worldwide. Investigating the underlying causes and risk factors of Alzheimer's disease is essential to prevent its progression. Mild Cognitive Impairment (MCI) is considered an intermediate stage before Alzheimer's disease. Early prediction of the conversion from the MCI to Alzheimer's is crucial to take necessary precautions for decelerating the progression and developing suitable treatments. In this study, we propose a deep learning framework to discover the variables which are identifiers of the conversion from MCI to Alzheimer's disease. In particular, the latent space of a variational auto-encoder network trained with the MCI and Alzheimer's patients is manipulated to obtain the significant attributes and decipher their behavior that leads to the conversion from MCI to Alzheimer's disease. By utilizing a generative decoder and the dimensions that lead to the Alzheimer's diagnosis, we generate synthetic dementia patients from MCI patients in the dataset. Experimental results show promising quantitative and qualitative results on one of the most extensive and commonly used Alzheimer's disease neuroimaging datasets in literature.
翻訳日:2021-11-18 15:04:39 公開日:2021-11-16
# 線虫マーカーを用いたCNNフィルタによるCT画像からのCOVID-19の示唆的兆候の検出

CNN Filter Learning from Drawn Markers for the Detection of Suggestive Signs of COVID-19 in CT Images ( http://arxiv.org/abs/2111.08710v1 )

ライセンス: Link先を確認
Azael M. Sousa, Fabiano Reis, Rachel Zerbini, Jo\~ao L. D. Comba and Alexandre X. Falc\~ao(参考訳) 新型コロナウイルスの早期検出は、感染拡大の抑制に不可欠である。 胸部ct画像から新型コロナウイルスの徴候を検出するための深層学習法が提案されている。 しかし、この疾患の新規性のため、注釈付きボリュームデータが不足している。 本稿では,畳み込みニューラルネットワーク(CNN)のフィルタを推定するために,大規模な注釈付きデータセットやバックプロパゲーションを必要としない手法を提案する。 少数のCT画像に対して、ユーザは、代表的な正常領域と異常領域にマーカーを描画する。 本手法は,カーネルがマークされたものに似た拡張領域に特化している畳み込み層からなる特徴抽出器を生成し,CNNの決定層はサポートベクタマシンである。 我々はCT画像の取得を制御できないので、強度標準化アプローチも提案する。 提案手法は,異なるサイトから抽出された117個のct画像を用いたデータセットにおいて,平均精度とkappa値がそれぞれ0.97$と0.93$をそれぞれ達成できる。

Early detection of COVID-19 is vital to control its spread. Deep learning methods have been presented to detect suggestive signs of COVID-19 from chest CT images. However, due to the novelty of the disease, annotated volumetric data are scarce. Here we propose a method that does not require either large annotated datasets or backpropagation to estimate the filters of a convolutional neural network (CNN). For a few CT images, the user draws markers at representative normal and abnormal regions. The method generates a feature extractor composed of a sequence of convolutional layers, whose kernels are specialized in enhancing regions similar to the marked ones, and the decision layer of our CNN is a support vector machine. As we have no control over the CT image acquisition, we also propose an intensity standardization approach. Our method can achieve mean accuracy and kappa values of $0.97$ and $0.93$, respectively, on a dataset with 117 CT images extracted from different sites, surpassing its counterpart in all scenarios.
翻訳日:2021-11-18 14:48:50 公開日:2021-11-16
# 対話自動評価のためのユーザ応答と感性予測

User Response and Sentiment Prediction for Automatic Dialogue Evaluation ( http://arxiv.org/abs/2111.08808v1 )

ライセンス: Link先を確認
Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu, Dilek Hakkani-Tur(参考訳) 自動評価は、オープンドメインのダイアログシステム開発に有用である。 しかし、標準単語オーバーラップメトリクス(BLEU, ROUGE)は、オープンドメインダイアログシステムの人間の判断とよく相関しない。 本研究では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に用いることを提案する。 具体的には,次の感情を直接予測する手法と,発話やフィードバック生成モデルを用いて次のユーザの発話を予測し,感情を分類する手法を提案する。 実験により, 音声対話データセットと音声対話データセットの両方において, 既存の自動評価基準を上回ったモデルを示す。

Automatic evaluation is beneficial for open-domain dialog system development. However, standard word-overlap metrics (BLEU, ROUGE) do not correlate well with human judgements of open-domain dialog systems. In this work we propose to use the sentiment of the next user utterance for turn or dialog level evaluation. Specifically we propose three methods: one that predicts the next sentiment directly, and two others that predict the next user utterance using an utterance or a feedback generator model and then classify its sentiment. Experiments show our model outperforming existing automatic evaluation metrics on both written and spoken open-domain dialogue datasets.
翻訳日:2021-11-18 14:46:59 公開日:2021-11-16
# 原:ロバスト回転平均化のための階層的アプローチ

HARA: A Hierarchical Approach for Robust Rotation Averaging ( http://arxiv.org/abs/2111.08831v1 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) 本論文では,複数の回転平均化に対する新しい階層的アプローチであるharaを提案する。 本手法は三重項支持階層に基づいて回転グラフを漸進的に初期化する。 キーとなるアイデアは、強力なトリプルトサポートでエッジを優先順位付けし、より弱く少ないサポートで徐々に追加することで、スパンニングツリーを構築することである。 これにより、スパンニングツリーに外れ値を追加するリスクが軽減される。 その結果,非線形最適化に先立ち,外れ値のフィルタリングを可能にするロバストな初期解が得られる。 最小限の変更で、有効な2D-2D対応の数の知識を統合できる。 合成データと実データの両方について広範な評価を行い,最新結果を実証した。

We propose a novel hierarchical approach for multiple rotation averaging, dubbed HARA. Our method incrementally initializes the rotation graph based on a hierarchy of triplet support. The key idea is to build a spanning tree by prioritizing the edges with many strong triplet supports and gradually adding those with weaker and fewer supports. This reduces the risk of adding outliers in the spanning tree. As a result, we obtain a robust initial solution that enables us to filter outliers prior to nonlinear optimization. With minimal modification, our approach can also integrate the knowledge of the number of valid 2D-2D correspondences. We perform extensive evaluations on both synthetic and real datasets, demonstrating state-of-the-art results.
翻訳日:2021-11-18 14:42:57 公開日:2021-11-16
# 環境対応深層ネットワークと強化学習による経路最適化

Route Optimization via Environment-Aware Deep Network and Reinforcement Learning ( http://arxiv.org/abs/2111.09124v1 )

ライセンス: Link先を確認
Pengzhan Guo, Keli Xiao, Zeyang Ye and Wei Zhu(参考訳) 都市部における車両移動の最適化は、スマートシティと空間データ分析における長年の問題である。 複雑な都市シナリオと予測不能な社会イベントを考えると,我々は,自動車サービス提供者(タクシー運転手など)の収益性を最大化するモバイル・シーケンシャル・レコメンデーション・システムの開発に重点を置いている。 特に, 動的経路最適化問題を, 長期逐次意思決定課題として扱う。 顧客ピックアップポイント監視のための自己チェック機構とディープニューラルネットワークを統合することにより,この問題に対処するための強化学習フレームワークを提案する。 予期せぬ状況(例えば、COVID-19の流行)を考慮し、自己適応的パラメータ決定機構を用いて、関連する環境変化を処理できるように設計されている。 新型コロナウイルスの感染拡大前後のニューヨーク市における黄色いタクシーデータをもとに,本手法の有効性を評価するための総合的な実験を行った。 その結果, 運転者の利益率を98%以上向上させながら, 運転方法の優越性を高めるため, 時間単位から週単位まで, 一貫して優れた性能が得られた。

Vehicle mobility optimization in urban areas is a long-standing problem in smart city and spatial data analysis. Given the complex urban scenario and unpredictable social events, our work focuses on developing a mobile sequential recommendation system to maximize the profitability of vehicle service providers (e.g., taxi drivers). In particular, we treat the dynamic route optimization problem as a long-term sequential decision-making task. A reinforcement-learni ng framework is proposed to tackle this problem, by integrating a self-check mechanism and a deep neural network for customer pick-up point monitoring. To account for unexpected situations (e.g., the COVID-19 outbreak), our method is designed to be capable of handling related environment changes with a self-adaptive parameter determination mechanism. Based on the yellow taxi data in New York City and vicinity before and after the COVID-19 outbreak, we have conducted comprehensive experiments to evaluate the effectiveness of our method. The results show consistently excellent performance, from hourly to weekly measures, to support the superiority of our method over the state-of-the-art methods (i.e., with more than 98% improvement in terms of the profitability for taxi drivers).
翻訳日:2021-11-18 14:22:47 公開日:2021-11-16
# クロススペクトルperiocular recognitionのための合成誘導型特徴学習

Synthesis-Guided Feature Learning for Cross-Spectral Periocular Recognition ( http://arxiv.org/abs/2111.08738v1 )

ライセンス: Link先を確認
Domenick Poster and Nasser Nasrabadi(参考訳) 近赤外(NIR)近赤外画像に対する可視波長のマッチングは、近赤外バイオメトリックスにおける一般的なシナリオである。 本稿では, 近視眼画像と近視眼画像から共有潜在表現部分空間へのマッピングを学習することを中心に, スペクトル内画像再構成を同時に学習することで, 新たなアプローチを提案する。 画像再構成タスク(特に高レベルなセマンティックな特徴の再構築)は,テスト時に余分な計算やメモリコストを伴わずに,ベースラインよりも識別性が高く,ドメイン不変な部分空間を学習する。 提案したCoGAN(Coupled Conditional Generative Adversarial Network)アーキテクチャは、U-NetとResNet-18エンコーダを組み合わせた、対向的損失による特徴学習と、対向的、画素ベース、知覚的再構成によるスペクトル内画像再構成のためのペアジェネレータネットワークを用いている。 さらに、提案したCoGANモデルは、近視眼近視認識における現在の最先端技術(SotA)を破る。 香港のPolyUベンチマークデータセットでは、SotA EERの8.02%に対して98.65%のAUCと5.14%のEERを達成した。 Cross-Eyedデータセットでは、99.31%のAUCと3.99%のEERを達成する。

A common yet challenging scenario in periocular biometrics is cross-spectral matching - in particular, the matching of visible wavelength against near-infrared (NIR) periocular images. We propose a novel approach to cross-spectral periocular verification that primarily focuses on learning a mapping from visible and NIR periocular images to a shared latent representational subspace, and supports this effort by simultaneously learning intra-spectral image reconstruction. We show the auxiliary image reconstruction task (and in particular the reconstruction of high-level, semantic features) results in learning a more discriminative, domain-invariant subspace compared to the baseline while incurring no additional computational or memory costs at test-time. The proposed Coupled Conditional Generative Adversarial Network (CoGAN) architecture uses paired generator networks (one operating on visible images and the other on NIR) composed of U-Nets with ResNet-18 encoders trained for feature learning via contrastive loss and for intra-spectral image reconstruction with adversarial, pixel-based, and perceptual reconstruction losses. Moreover, the proposed CoGAN model beats the current state-of-art (SotA) in cross-spectral periocular recognition. On the Hong Kong PolyU benchmark dataset, we achieve 98.65% AUC and 5.14% EER compared to the SotA EER of 8.02%. On the Cross-Eyed dataset, we achieve 99.31% AUC and 3.99% EER versus SotA EER of 4.39%.
翻訳日:2021-11-18 13:46:31 公開日:2021-11-16
# イベントカテゴリ間の物理推論における振動のモデル化のためのベンチマーク

A Benchmark for Modeling Violation-of-Expecta tion in Physical Reasoning Across Event Categories ( http://arxiv.org/abs/2111.08826v1 )

ライセンス: Link先を確認
Arijit Dasgupta, Jiafei Duan, Marcelo H. Ang Jr, Yi Lin, Su-hua Wang, Ren\'ee Baillargeon, Cheston Tan(参考訳) コンピュータビジョンと認知推論における最近の研究は、合成データセットにおけるVoE(Violation-of-Exp ectation)パラダイムの採用の増加につながっている。 幼児心理学に触発されて、研究者は、予測されたシーンのみの知識で、期待または予想外のシーンをラベル付けするモデルの能力を評価している。 しかし、既存のvoeベースの物理推論の3dデータセットは、主にヒューリスティックや帰納バイアスの少ないビジョンデータを提供する。 身体的推論の認知モデルは、幼児が物体と相互作用の高レベルな抽象表現を創造することを明らかにする。 この知識を活かし, 因果関係のある特徴や規則の接地ヒューリスティックラベルを組み込んだ, 新たな大規模合成3dvoeデータセットをキュレーションすることにより, 物理的推論を研究するベンチマークを構築した。 物理的推論の5つのイベントカテゴリでデータセットを検証するため、人間のパフォーマンスをベンチマークし分析した。 我々はまた,データセットの新たなヒューリスティックを活用し,ベースラインモデルやアブレーションモデルを上回るオブジェクトファイル物理推論ネットワーク(ofpr-net)を提案する。 ofpr-netはまた、物理的な推論における普遍的な因果関係を学習し、より良い解釈性を持つシステムを構築する能力を示す、別の物理的な現実を学ぶのにも柔軟である。

Recent work in computer vision and cognitive reasoning has given rise to an increasing adoption of the Violation-of-Expecta tion (VoE) paradigm in synthetic datasets. Inspired by infant psychology, researchers are now evaluating a model's ability to label scenes as either expected or surprising with knowledge of only expected scenes. However, existing VoE-based 3D datasets in physical reasoning provide mainly vision data with little to no heuristics or inductive biases. Cognitive models of physical reasoning reveal infants create high-level abstract representations of objects and interactions. Capitalizing on this knowledge, we established a benchmark to study physical reasoning by curating a novel large-scale synthetic 3D VoE dataset armed with ground-truth heuristic labels of causally relevant features and rules. To validate our dataset in five event categories of physical reasoning, we benchmarked and analyzed human performance. We also proposed the Object File Physical Reasoning Network (OFPR-Net) which exploits the dataset's novel heuristics to outperform our baseline and ablation models. The OFPR-Net is also flexible in learning an alternate physical reality, showcasing its ability to learn universal causal relationships in physical reasoning to create systems with better interpretability.
翻訳日:2021-11-18 13:45:50 公開日:2021-11-16
# SMACE:複合的決定システムの解釈可能性の新しい方法

SMACE: A New Method for the Interpretability of Composite Decision Systems ( http://arxiv.org/abs/2111.08749v1 )

ライセンス: Link先を確認
Gianluigi Lopardo, Damien Garreau, Frederic Precioso, Greger Ottosson(参考訳) 可読性は意思決定システムにとって差し迫った問題である。 機械学習モデルの予測を説明するために、多くのポストホック法が提案されている。 しかしながら、ビジネスプロセスと意思決定システムは単一のスタンドアロンモデルを中心にしてはめったにありません。 これらのシステムは、鍵となる予測を生成し、決定ルールを適用して最終決定を生成する複数のモデルを組み合わせている。 このような決定を説明するために,決定ルールの幾何的アプローチと機械学習モデルのための既存のポストホックソリューションを組み合わせて,エンドユーザーに適した直感的な特徴ランキングを生成する,SMACE, Semi-Model-Agnostic Contextual Explainerを提案する。 確立されたモデル非依存のアプローチは、このフレームワークに悪い結果をもたらすことを示している。

Interpretability is a pressing issue for decision systems. Many post hoc methods have been proposed to explain the predictions of any machine learning model. However, business processes and decision systems are rarely centered around a single, standalone model. These systems combine multiple models that produce key predictions, and then apply decision rules to generate the final decision. To explain such decision, we present SMACE, Semi-Model-Agnostic Contextual Explainer, a novel interpretability method that combines a geometric approach for decision rules with existing post hoc solutions for machine learning models to generate an intuitive feature ranking tailored to the end user. We show that established model-agnostic approaches produce poor results in this framework.
翻訳日:2021-11-18 13:44:36 公開日:2021-11-16
# (参考訳) 経験から学ぶことで実演から学ぶことを改善する [全文訳有]

Improving Learning from Demonstrations by Learning from Experience ( http://arxiv.org/abs/2111.08156v1 )

ライセンス: CC BY 4.0
Haofeng Liu, Yiwen Chen, Jiayi Tan, Marcelo H Ang Jr(参考訳) デモンストレーションが比較的限定されている場合、模倣学習をもっと一般的にする方法は、強化学習(rl)において永続的な問題となっている。 粗悪なデモンストレーションは、狭く偏りのある日付分布をもたらし、非マルコフの人間専門家によるデモンストレーションは、エージェントが学ぶのが難しく、準最適軌道への過度な依存は、エージェントがそのパフォーマンスを改善するのを難しくする。 これらの問題を解決するために,TD3fGという新しいアルゴリズムを提案する。 本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。 行動クローニングを用いて,ネットワークを参照行動生成器として訓練し,損失関数と探索ノイズの両方の観点から利用した。 この革新は、エージェントがデモンストレーションから事前知識を抽出し、デモの貧弱なマルコフ特性の有害な影響を低減させるのに役立つ。 BC+のファインチューニングとDDPGfDのアプローチと比較して、特にデモが比較的限定された場合にはパフォーマンスが向上する。 TD3fGはジェネレータからTD3を意味する。

How to make imitation learning more general when demonstrations are relatively limited has been a persistent problem in reinforcement learning (RL). Poor demonstrations lead to narrow and biased date distribution, non-Markovian human expert demonstration makes it difficult for the agent to learn, and over-reliance on sub-optimal trajectories can make it hard for the agent to improve its performance. To solve these problems we propose a new algorithm named TD3fG that can smoothly transition from learning from experts to learning from experience. Our algorithm achieves good performance in the MUJOCO environment with limited and sub-optimal demonstrations. We use behavior cloning to train the network as a reference action generator and utilize it in terms of both loss function and exploration noise. This innovation can help agents extract a priori knowledge from demonstrations while reducing the detrimental effects of the poor Markovian properties of the demonstrations. It has a better performance compared to the BC+ fine-tuning and DDPGfD approach, especially when the demonstrations are relatively limited. We call our method TD3fG meaning TD3 from a generator.
翻訳日:2021-11-18 05:28:01 公開日:2021-11-16
# (参考訳) ラプラシアン関連制約下でのスパースグラフ学習 [全文訳有]

Sparse Graph Learning Under Laplacian-Related Constraints ( http://arxiv.org/abs/2111.08161v1 )

ライセンス: CC BY 4.0
Jitendra K. Tugnait(参考訳) 与えられた多変量データの集合の下にあるスパース無向グラフを学習する問題を考察する。 グラフノードに関連付けられた確率変数間の条件依存を符号化するスパース精度行列のグラフラプラシアン関連制約に着目した。 これらの制約の下では、精度行列の対角外要素は非正(total positivity)であり、精度行列はフルランクでないかもしれない。 本研究は,ラプラシアン構造ではなく,多用されたペナルティ付き対数類似性アプローチの修正について検討する。 グラフラプラシアンは、外対角精度行列から抽出することができる。 Laplacian-related constraints and lasso および Adaptive lasso penalties の下で, 制約付き最適化のための乗算器アルゴリズム (ADMM) の交互方向法を提案し, 解析した。 合成データに基づく数値計算の結果,提案手法は既存のラプラシアン法よりもかなり優れていることがわかった。 実際の財務データにもアプローチを評価します。

We consider the problem of learning a sparse undirected graph underlying a given set of multivariate data. We focus on graph Laplacian-related constraints on the sparse precision matrix that encodes conditional dependence between the random variables associated with the graph nodes. Under these constraints the off-diagonal elements of the precision matrix are non-positive (total positivity), and the precision matrix may not be full-rank. We investigate modifications to widely used penalized log-likelihood approaches to enforce total positivity but not the Laplacian structure. The graph Laplacian can then be extracted from the off-diagonal precision matrix. An alternating direction method of multipliers (ADMM) algorithm is presented and analyzed for constrained optimization under Laplacian-related constraints and lasso as well as adaptive lasso penalties. Numerical results based on synthetic data show that the proposed constrained adaptive lasso approach significantly outperforms existing Laplacian-based approaches. We also evaluate our approach on real financial data.
翻訳日:2021-11-18 05:14:11 公開日:2021-11-16
# (参考訳) アダム最適化に関するボックの考えについて [全文訳有]

On Bock's Conjecture Regarding the Adam Optimizer ( http://arxiv.org/abs/2111.08162v1 )

ライセンス: CC BY 4.0
Mohamed Akrout, Douglas Tweed(参考訳) 2014年、キングマとバはアダム最適化アルゴリズムを発表し、それを正当化するための数学的議論を発表した。 2018年、bockらは、bockの予想と呼ぶ証明されていない補題が$-$という議論からキーピースが欠落していると報告した。 ここで、この予想は偽であるが、その修正版は成立し、アダムに対するボックの収束の証明のギャップを埋める。

In 2014, Kingma and Ba published their Adam optimizer algorithm, together with a mathematical argument that was meant to help justify it. In 2018, Bock and colleagues reported that a key piece was missing from that argument $-$ an unproven lemma which we will call Bock's conjecture. Here we show that this conjecture is false, but a modified version of it does hold, and fills the gap in Bock's proof of convergence for Adam.
翻訳日:2021-11-18 04:44:27 公開日:2021-11-16
# (参考訳) プログラム合成による線形代数の解法

Solving Linear Algebra by Program Synthesis ( http://arxiv.org/abs/2111.08171v1 )

ライセンス: CC BY 4.0
Iddo Drori and Nakul Verma(参考訳) 我々は、MITのLinear Algebra 18.06コースとコロンビア大学のComputational Linear Algebra COMS3251コースを、インタラクティブなプログラム合成によって完全な精度で解決する。 この驚くほど強い結果は、コース質問をプログラミングタスクに変換し、プログラムを実行して正しい回答を生成することで達成されます。 OpenAI Codexはゼロショット学習で、プロンプトのサンプルを提供しずに、質問からコードを合成します。 元の質問文と正しい回答をもたらす変換された質問文との差を定量化する。 すべてのCOMS3251質問はオンラインでは利用できないので、モデルは過度に適合しない。 数値的な答えを持つ質問のためのコードを生成するだけでなく、インタラクティブにコードを生成して、結果としてプロットを視覚的に楽しませます。 最後に、新しいコースコンテンツとして使用できるいくつかのサンプル質問から、新しい質問を自動的に生成する。 この研究は、定量的数学の問題を解決するための重要な一歩であり、多くの大学レベルのSTEMコースを機械で解くための扉を開く。

We solve MIT's Linear Algebra 18.06 course and Columbia University's Computational Linear Algebra COMS3251 courses with perfect accuracy by interactive program synthesis. This surprisingly strong result is achieved by turning the course questions into programming tasks and then running the programs to produce the correct answers. We use OpenAI Codex with zero-shot learning, without providing any examples in the prompts, to synthesize code from questions. We quantify the difference between the original question text and the transformed question text that yields a correct answer. Since all COMS3251 questions are not available online the model is not overfitting. We go beyond just generating code for questions with numerical answers by interactively generating code that also results visually pleasing plots as output. Finally, we automatically generate new questions given a few sample questions which may be used as new course content. This work is a significant step forward in solving quantitative math problems and opens the door for solving many university level STEM courses by machine.
翻訳日:2021-11-18 04:38:05 公開日:2021-11-16
# (参考訳) shapey:近接マッチングを用いた形状認識能力の測定 [全文訳有]

ShapeY: Measuring Shape Recognition Capacity Using Nearest Neighbor Matching ( http://arxiv.org/abs/2111.08174v1 )

ライセンス: CC BY 4.0
Jong Woo Nam, Amanda S. Rios, Bartlett W. Mel(参考訳) ヒトの物体認識は主に形状の手がかりに依存する。 我々は,システム埋め込み空間内の近傍のビューマッチングに基づいて,視覚システムの形状認識性能を計測する新しい手法を開発した。 評価ベンチマークであるShapeYは,そのビューマッチングを,所定の3次元視点変化や外観変化の程度に分散させることで,タスクの難易度を正確に制御する。 最初のテストケースとして、imagenetで事前トレーニングされたresnet50のパフォーマンスを測定した。 一致したエラー率は高かった。 例えば、27度のオブジェクトピッチの変化により、resnet50は不正なオブジェクトの45%と一致した。 外観の変化も非常に破壊的だった。 偽マッチの検証は、ResNet50の埋め込み空間がひどく「絡み合っている」ことを示している。 これらの結果から、ShapeYは人工視覚システムの進歩を人間レベルの形状認識能力にグラフ化するのに有用なツールであることが示唆された。

Object recognition in humans depends primarily on shape cues. We have developed a new approach to measuring the shape recognition performance of a vision system based on nearest neighbor view matching within the system's embedding space. Our performance benchmark, ShapeY, allows for precise control of task difficulty, by enforcing that view matching span a specified degree of 3D viewpoint change and/or appearance change. As a first test case we measured the performance of ResNet50 pre-trained on ImageNet. Matching error rates were high. For example, a 27 degree change in object pitch led ResNet50 to match the incorrect object 45% of the time. Appearance changes were also highly disruptive. Examination of false matches indicates that ResNet50's embedding space is severely "tangled". These findings suggest ShapeY can be a useful tool for charting the progress of artificial vision systems towards human-level shape recognition capabilities.
翻訳日:2021-11-18 04:37:07 公開日:2021-11-16
# (参考訳) 逆ウェイトサバイバルゲーム [全文訳有]

Inverse-Weighted Survival Games ( http://arxiv.org/abs/2111.08175v1 )

ライセンス: CC BY 4.0
Xintian Han, Mark Goldstein, Aahlad Puli, Thomas Wies, Adler J Perotte, Rajesh Ranganath(参考訳) 最大の可能性を通じて訓練された深層モデルは、生存分析の最先端の結果を得た。 このトレーニング方式にもかかわらず、実践者は、ブライアスコア (bs) やベルヌーイログラブル (bll) など、選択された時間軸の2進分類損失など、他の基準の下でモデルを評価する。 最大可能性で訓練されたモデルは、これらの基準を直接最適化しないため、BSまたはBLLが劣る可能性がある。 BSのような基準を直接最適化するには、検閲分布による逆重み付けが必要であり、その推定には障害分布による逆重み付けも必要である。 しかし、どちらも知られていない。 このジレンマを解決するために,我々は,BSやBLLなどの基準に関して,失敗と検閲の両方をトレーニングするために,逆ウェイトサバイバルゲームを導入する。 これらのゲームでは、各モデルの目的は、トレーニング中に再重み付けモデルが固定される他のモデルを含む再重み付け推定から構築される。 損失が適切であれば、ゲームは常に真の失敗を示し、分布を静止点として検閲する。 つまり、ゲーム内のモデルは、一度到達した正確な分布を残さないことを意味する。 この定常点が一意である場合を1つ構築する。 これらのゲームはシミュレーションでbsを最適化し、現実のがんや患者データにこれらの原則を適用する。

Deep models trained through maximum likelihood have achieved state-of-the-art results for survival analysis. Despite this training scheme, practitioners evaluate models under other criteria, such as binary classification losses at a chosen set of time horizons, e.g. Brier score (BS) and Bernoulli log likelihood (BLL). Models trained with maximum likelihood may have poor BS or BLL since maximum likelihood does not directly optimize these criteria. Directly optimizing criteria like BS requires inverse-weighting by the censoring distribution, estimation of which itself also requires inverse-weighted by the failure distribution. But neither are known. To resolve this dilemma, we introduce Inverse-Weighted Survival Games to train both failure and censoring models with respect to criteria such as BS or BLL. In these games, objectives for each model are built from re-weighted estimates featuring the other model, where the re-weighting model is held fixed during training. When the loss is proper, we show that the games always have the true failure and censoring distributions as a stationary point. This means models in the game do not leave the correct distributions once reached. We construct one case where this stationary point is unique. We show that these games optimize BS on simulations and then apply these principles on real world cancer and critically-ill patient data.
翻訳日:2021-11-18 04:28:57 公開日:2021-11-16
# (参考訳) ロバストチャネル推定のための深部拡散モデル [全文訳有]

Deep Diffusion Models for Robust Channel Estimation ( http://arxiv.org/abs/2111.08177v1 )

ライセンス: CC BY 4.0
Marius Arvinte and Jonathan I Tamir(参考訳) チャネル推定は、エンドツーエンドのシステム性能に大きな影響を及ぼすデジタル通信において重要なタスクである。 本研究では,深層拡散モデルを用いた多入力多重出力(mimo)チャネル推定のための新しい手法を提案する。 提案手法は,高次元空間の任意の点における無線チャネルの対数線勾配を推定するために訓練されたディープニューラルネットワークを用い,このモデルを用いて後部サンプリングによるチャネル推定を解く。 2つのアンテナ間隔でCDL-Dモデルからチャネル実現に関する深い拡散モデルを訓練し、生成的対向ネットワーク(GAN)や圧縮センシング(CS)手法と比較して、そのアプローチが競合する内外分布性能をもたらすことを示す。 トレーニング中や微調整中に見られることのないCDL-Cチャネルでテストすると、CS手法と比較してエンドツーエンドのコード化性能は最大3ドル、理想的なチャネル知識と比較して0.5ドルという損失しか得られない。 オープンで再現可能な研究を促進するために、ソースコードはhttps://github.com/u tcsilab/diffusion-ch annels.com/で入手できる。

Channel estimation is a critical task in digital communications that greatly impacts end-to-end system performance. In this work, we introduce a novel approach for multiple-input multiple-output (MIMO) channel estimation using deep diffusion models. Our method uses a deep neural network that is trained to estimate the gradient of the log-likelihood of wireless channels at any point in high-dimensional space, and leverages this model to solve channel estimation via posterior sampling. We train a deep diffusion model on channel realizations from the CDL-D model for two antenna spacings and show that the approach leads to competitive in- and out-of-distribution performance when compared to generative adversarial network (GAN) and compressed sensing (CS) methods. When tested on CDL-C channels which are never seen during training or fine-tuned on, our approach leads to end-to-end coded performance gains of up to $3$ dB compared to CS methods and losses of only $0.5$ dB compared to ideal channel knowledge. To encourage open and reproducible research, our source code is available at https://github.com/u tcsilab/diffusion-ch annels .
翻訳日:2021-11-18 03:58:56 公開日:2021-11-16
# (参考訳) JMSNAS: モバイルエッジネットワーク上での学習のための統合モデル分割とニューラルアーキテクチャ検索 [全文訳有]

JMSNAS: Joint Model Split and Neural Architecture Search for Learning over Mobile Edge Networks ( http://arxiv.org/abs/2111.08206v1 )

ライセンス: CC0 1.0
Yuqing Tian, Zhaoyang Zhang, Zhaohui Yang, Qianqian Yang(参考訳) モバイルエッジネットワークにディープニューラルネットワーク(DNN)をデプロイする上での大きな課題は、ネットワークアーキテクチャとすべてのノードの計算と通信能力にマッチするように、DNNモデルを分割する方法である。 これは本質的に、モデル生成とモデル分割という、2つの高度に結合した手順を含む。 本稿では,モバイルエッジネットワーク上でのDNNモデルの自動生成とデプロイのために,ジョイントモデル分割とニューラルアーキテクチャ検索(JMSNAS)フレームワークを提案する。 DNNモデルのマルチスプリット点を求める計算グラフ探索問題を計算資源制約と通信資源制約の両方を考慮して定式化し,そのモデルの精度要件を満たすよう訓練する。 さらに,目的関数の適切な設計により,モデル精度と完了遅延のトレードオフを実現する。 実験結果は、最先端の分割機械学習設計手法よりも提案フレームワークの方が優れていることを示す。

The main challenge to deploy deep neural network (DNN) over a mobile edge network is how to split the DNN model so as to match the network architecture as well as all the nodes' computation and communication capacity. This essentially involves two highly coupled procedures: model generating and model splitting. In this paper, a joint model split and neural architecture search (JMSNAS) framework is proposed to automatically generate and deploy a DNN model over a mobile edge network. Considering both the computing and communication resource constraints, a computational graph search problem is formulated to find the multi-split points of the DNN model, and then the model is trained to meet some accuracy requirements. Moreover, the trade-off between model accuracy and completion latency is achieved through the proper design of the objective function. The experiment results confirm the superiority of the proposed framework over the state-of-the-art split machine learning design methods.
翻訳日:2021-11-18 03:47:42 公開日:2021-11-16
# (参考訳) 事前学習とクラスタリングによる要約会議 [全文訳有]

Meeting Summarization with Pre-training and Clustering Methods ( http://arxiv.org/abs/2111.08210v1 )

ライセンス: CC BY 4.0
Andras Huebner, Wei Ji, Xiang Xiao(参考訳) 自動会議要約は近年ますます人気が高まっている。 ミーティングを自動的に要約し、重要な情報を抽出する能力は、作業と生活の効率を大幅に向上させます。 本稿では,クエリに基づく会議要約の性能向上のために,様々な手法を試行する。 我々は、単語レベル変換器とターンレベル変換器の両方をベースラインとする階層型ネットワークであるHMNet\cite{hmnet}から始めた。 大規模なニュース要約データセットを用いた事前学習の有効性について検討する。 本稿では,クエリに基づく要約のための入力ベクトルの一部として,クエリの埋め込みを追加することを検討する。 さらに、中間クラスタリングステップでQMSum\cite{qmsum} の位置推定アプローチを拡張する実験を行った。 最後に,ベースラインモデルの性能を,要約に有効な最先端言語モデルであるBARTと比較する。 モデルの入力にクエリ埋め込みを追加し,代替言語モデルとしてbartを使用し,要約モデルにテキストを入力する前に発話レベルでキー情報を抽出するクラスタリング手法を用いることで,パフォーマンスの向上を実現した。

Automatic meeting summarization is becoming increasingly popular these days. The ability to automatically summarize meetings and to extract key information could greatly increase the efficiency of our work and life. In this paper, we experiment with different approaches to improve the performance of query-based meeting summarization. We started with HMNet\cite{hmnet}, a hierarchical network that employs both a word-level transformer and a turn-level transformer, as the baseline. We explore the effectiveness of pre-training the model with a large news-summarization dataset. We investigate adding the embeddings of queries as a part of the input vectors for query-based summarization. Furthermore, we experiment with extending the locate-then-summariz e approach of QMSum\cite{qmsum} with an intermediate clustering step. Lastly, we compare the performance of our baseline models with BART, a state-of-the-art language model that is effective for summarization. We achieved improved performance by adding query embeddings to the input of the model, by using BART as an alternative language model, and by using clustering methods to extract key information at utterance level before feeding the text into summarization models.
翻訳日:2021-11-18 03:35:20 公開日:2021-11-16
# (参考訳) FedCG:フェデレーション学習におけるプライバシ保護と競争性能維持のための条件付きGAN [全文訳有]

FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning ( http://arxiv.org/abs/2111.08211v1 )

ライセンス: CC BY 4.0
Yuezhou Wu, Yan Kang, Jiahuan Luo, Yuanqin He, Qiang Yang(参考訳) フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに機械学習モデルを共同で構築できるようにすることによって、データのプライバシを保護することを目的としている。 しかし最近の研究では、FLは勾配に基づくデータリカバリ攻撃に弱いことが示されている。 FLのプライバシーをさらに強化するために、さまざまなプライバシー保護技術が活用されている。 それにもかかわらず、それらは計算コストか通信コスト(例えば、準同型暗号)か、または精度の喪失(例えば、微分プライバシー)に苦しんでいる。 本研究では, 競合モデルの性能を維持しつつ, 高レベルのプライバシ保護を実現するために, \underline{c}onditional \underline{g}enrative adversarial networkを活用する新しい学習手法である \textsc{FedCG} を提案する。 具体的には、‘textsc{FedCG} は各クライアントのローカルネットワークをプライベートな抽出器とパブリックな分類器に分解し、プライバシを保護するために抽出器をローカルに保持する。 プライバシリークの原因となる抽出器を公開する代わりに、 \textsc{fedcg} はクライアントのジェネレータをサーバと共有し、クライアントのローカルネットワークのパフォーマンス向上を目的とした共通知識を集約する。 大規模な実験により, 標準FL法と比較して, \textsc{FedCG} が競合モデルの性能を達成できることが示され, 数値プライバシー解析により, 高いレベルのプライバシ保存能力を有することが示された。

Federated learning (FL) aims to protect data privacy by enabling clients to collaboratively build machine learning models without sharing their private data. However, recent works demonstrate that FL is vulnerable to gradient-based data recovery attacks. Varieties of privacy-preserving technologies have been leveraged to further enhance the privacy of FL. Nonetheless, they either are computational or communication expensive (e.g., homomorphic encryption) or suffer from precision loss (e.g., differential privacy). In this work, we propose \textsc{FedCG}, a novel \underline{fed}erated learning method that leverages \underline{c}onditional \underline{g}enerative adversarial networks to achieve high-level privacy protection while still maintaining competitive model performance. More specifically, \textsc{FedCG} decomposes each client's local network into a private extractor and a public classifier and keeps the extractor local to protect privacy. Instead of exposing extractors which is the culprit of privacy leakage, \textsc{FedCG} shares clients' generators with the server for aggregating common knowledge aiming to enhance the performance of clients' local networks. Extensive experiments demonstrate that \textsc{FedCG} can achieve competitive model performance compared with baseline FL methods, and numerical privacy analysis shows that \textsc{FedCG} has high-level privacy-preserving capability.
翻訳日:2021-11-18 03:26:11 公開日:2021-11-16
# (参考訳) 一貫性予測のための選択アンサンブル [全文訳有]

Selective Ensembles for Consistent Predictions ( http://arxiv.org/abs/2111.08230v1 )

ライセンス: CC BY 4.0
Emily Black and Klas Leino and Matt Fredrikson(参考訳) 近年の研究では、同じ目的に訓練されたモデルと、一貫性のあるテストデータで同様の精度測定を達成するモデルが、個々の予測に対して非常に異なる振る舞いをする可能性があることが示されている。 この矛盾は、医療診断やファイナンスといった高い文脈では望ましくない。 この一貫性のない行動は予測を超えて特徴帰属にまで及んでいることを示し、これは同様にモデルの知性や被写体への帰属を見出す能力に負の影響を及ぼす可能性がある。 次に、ランダムに選択された開始条件を用いて訓練されたモデルの集合の予測に仮説検定を適用することにより、このような不整合を緩和する選択的アンサンブルを導入する。 選択的アンサンブル間の予測不一致が有界であることを証明し、低吸収率を維持しながら、選択アンサンブルが一貫した予測と特徴属性を達成することを実証した。 いくつかのベンチマークデータセットでは、選択的なアンサンブルが0に到達し、棄却率は1.5%である。

Recent work has shown that models trained to the same objective, and which achieve similar measures of accuracy on consistent test data, may nonetheless behave very differently on individual predictions. This inconsistency is undesirable in high-stakes contexts, such as medical diagnosis and finance. We show that this inconsistent behavior extends beyond predictions to feature attributions, which may likewise have negative implications for the intelligibility of a model, and one's ability to find recourse for subjects. We then introduce selective ensembles to mitigate such inconsistencies by applying hypothesis testing to the predictions of a set of models trained using randomly-selected starting conditions; importantly, selective ensembles can abstain in cases where a consistent outcome cannot be achieved up to a specified confidence level. We prove that that prediction disagreement between selective ensembles is bounded, and empirically demonstrate that selective ensembles achieve consistent predictions and feature attributions while maintaining low abstention rates. On several benchmark datasets, selective ensembles reach zero inconsistently predicted points, with abstention rates as low 1.5%.
翻訳日:2021-11-18 03:13:03 公開日:2021-11-16
# (参考訳) クラウドコンピューティング環境におけるオンライン自己進化的異常検出 [全文訳有]

Online Self-Evolving Anomaly Detection in Cloud Computing Environments ( http://arxiv.org/abs/2111.08232v1 )

ライセンス: CC0 1.0
Haili Wang, Jingda Guo, Xu Ma, Song Fu, Qing Yang, Yunzhong Xu(参考訳) 現代のクラウドコンピューティングシステムには、数百から数千のコンピューティングとストレージサーバーがある。 このようなスケールとシステム複雑性の増大が相まって、依存可能なクラウドコンピューティングの障害やリソース管理の重要な課題となっている。 自律的障害検出は、創発的、クラウド全体の現象、およびシステムレベルの信頼性を保証するための自己管理型クラウドリソースを理解するための重要な技術である。 障害を検出するには、クラウドの実行を監視し、実行時のパフォーマンスデータを収集する必要がある。 これらのデータは通常ラベル付けされていないため、前回の障害履歴が運用クラウドで常に利用できるとは限らない。 本稿では,クラウド信頼性保証のための,emph{self-evolving anomaly detection} (SEAD) フレームワークを提案する。 提案手法は,新たに検証された異常記録を再帰的に探索し,オンラインで異常検出器を継続的に更新することで自己発生する。 私たちのフレームワークの明確な利点として、クラウドシステム管理者は検出された少数の異常をチェックするだけでよい。 これにより、システムハードウェアのアップグレード、ソフトウェアスタックのアップデート、ユーザワークロードの変更を経て、検出器が進化する。 さらに, 一般異常検出のための検出器と, タイプ特異的異常検出のための検出器を2種類設計した。 自己進化技術の助けを借りて、検出器は感度88.94\%、特異度94.60\%を平均で達成し、現実世界の展開に適している。

Modern cloud computing systems contain hundreds to thousands of computing and storage servers. Such a scale, combined with ever-growing system complexity, is causing a key challenge to failure and resource management for dependable cloud computing. Autonomic failure detection is a crucial technique for understanding emergent, cloud-wide phenomena and self-managing cloud resources for system-level dependability assurance. To detect failures, we need to monitor the cloud execution and collect runtime performance data. These data are usually unlabeled, and thus a prior failure history is not always available in production clouds. In this paper, we present a \emph{self-evolving anomaly detection} (SEAD) framework for cloud dependability assurance. Our framework self-evolves by recursively exploring newly verified anomaly records and continuously updating the anomaly detector online. As a distinct advantage of our framework, cloud system administrators only need to check a small number of detected anomalies, and their decisions are leveraged to update the detector. Thus, the detector evolves following the upgrade of system hardware, update of the software stack, and change of user workloads. Moreover, we design two types of detectors, one for general anomaly detection and the other for type-specific anomaly detection. With the help of self-evolving techniques, our detectors can achieve 88.94\% in sensitivity and 94.60\% in specificity on average, which makes them suitable for real-world deployment.
翻訳日:2021-11-18 02:42:48 公開日:2021-11-16
# (参考訳) 高次元ランダム特徴回帰における共変量シフト

Covariate Shift in High-Dimensional Random Feature Regression ( http://arxiv.org/abs/2111.08234v1 )

ライセンス: CC BY 4.0
Nilesh Tripuraneni, Ben Adlam, Jeffrey Pennington(参考訳) 頑健な機械学習モデルの開発における重要な障害は、トレーニングとテストセットの入力分布が異なり、条件ラベル分布が同じである場合に発生する分布シフトの形式である共変量シフトである。 現実世界の応用における共変量シフトの流行にもかかわらず、現代の機械学習の文脈における理論的理解はいまだに欠如している。 本研究では,共変量シフト下でのランダム特徴回帰の正確な高次元漸近性について検討し,この設定における限界テスト誤差,バイアス,分散の正確な特徴を示す。 結果から,共変量シフトに対する自然な部分順序を動機付け,そのシフトがテスト性能を損なう(あるいは助ける)ための十分な条件を提供する。 過パラメータモデルは共変量シフトに対する強固さを示しており、この興味深い現象の最初の理論的説明の1つとなっている。 さらに,本分析により,分布内分布と分布外分布一般化性能の正確な線形関係が明らかとなり,この驚くべき最近の経験的観察を説明できる。

A significant obstacle in the development of robust machine learning models is covariate shift, a form of distribution shift that occurs when the input distributions of the training and test sets differ while the conditional label distributions remain the same. Despite the prevalence of covariate shift in real-world applications, a theoretical understanding in the context of modern machine learning has remained lacking. In this work, we examine the exact high-dimensional asymptotics of random feature regression under covariate shift and present a precise characterization of the limiting test error, bias, and variance in this setting. Our results motivate a natural partial order over covariate shifts that provides a sufficient condition for determining when the shift will harm (or even help) test performance. We find that overparameterized models exhibit enhanced robustness to covariate shift, providing one of the first theoretical explanations for this intriguing phenomenon. Additionally, our analysis reveals an exact linear relationship between in-distribution and out-of-distribution generalization performance, offering an explanation for this surprising recent empirical observation.
翻訳日:2021-11-18 02:27:17 公開日:2021-11-16
# (参考訳) Bengaliの手書きGrapheme分類:ディープラーニングアプローチ [全文訳有]

Bengali Handwritten Grapheme Classification: Deep Learning Approach ( http://arxiv.org/abs/2111.08249v1 )

ライセンス: CC BY 4.0
Tarun Roy, Hasib Hasan, Kowsar Hossain, Masuma Akter Rumi(参考訳) 世界有数の言語(人口ベースで6^{th}$)であるにもかかわらず、ベンガルの手書きグラフ(手書き文字体系の最も小さな機能単位)分類に関する調査は、他の著名な言語と比較して広く行われていない。 さらに、ベンガル語のgraphemesの組み合わせが多ければ多いほど、この分類作業は非常に困難である。 この研究に貢献するために、我々はKaggle competition \cite{kaggle_link} に参加し、その課題は、画像中のベンガルグラフの3つの構成要素を別々に分類することである。 我々は,Multi-Layer Perceptron(MLP)やResNet50の現状など,既存のニューラルネットワークモデルの性能について検討する。 さらに性能向上のために,検証ルート精度95.32\%,母音精度98.61\%,子音精度98.76\%のベンガルグラフ分類のための独自の畳み込みニューラルネットワーク(CNN)モデルを提案する。 また,vggnet を用いた地域提案ネットワーク (rpn) についても検討し,性能向上に向けた今後の方向性について検討した。

Despite being one of the most spoken languages in the world ($6^{th}$ based on population), research regarding Bengali handwritten grapheme (smallest functional unit of a writing system) classification has not been explored widely compared to other prominent languages. Moreover, the large number of combinations of graphemes in the Bengali language makes this classification task very challenging. With an effort to contribute to this research problem, we participate in a Kaggle competition \cite{kaggle_link} where the challenge is to separately classify three constituent elements of a Bengali grapheme in the image: grapheme root, vowel diacritics, and consonant diacritics. We explore the performances of some existing neural network models such as Multi-Layer Perceptron (MLP) and state of the art ResNet50. To further improve the performance we propose our own convolution neural network (CNN) model for Bengali grapheme classification with validation root accuracy 95.32\%, vowel accuracy 98.61\%, and consonant accuracy 98.76\%. We also explore Region Proposal Network (RPN) using VGGNet with a limited setting that can be a potential future direction to improve the performance.
翻訳日:2021-11-18 02:25:30 公開日:2021-11-16
# (参考訳) 任意のリー群に対する不変同値 [全文訳有]

Enabling equivariance for arbitrary Lie groups ( http://arxiv.org/abs/2111.08251v1 )

ライセンス: CC BY 4.0
Lachlan E. MacDonald, Sameera Ramasinghe, Simon Lucey(参考訳) 翻訳の摂動に対して確実に堅牢であるが、畳み込みニューラルネットワーク(CNN)は、入力のより一般的な幾何学的変換でテスト時に提示された場合、極端な性能低下に悩まされることが知られている。 近年、この制限はCNNからCapsule Networks(CapsNets)へと焦点を移す動機となっている。 しかし、capsnetは不変性の理論的保証が比較的少ない。 カプセルを必要とせず、畳み込み(リー群上)のみを用いて、任意のワープのリー群に対する不変性を許容する厳密な数学的枠組みを導入する。 グループ畳み込みに関する以前の研究は、アフィンやホモグラフィックのようなコンピュータビジョンにおける一般的なワープへのそのような技術の適用を妨げるグループについての強い仮定によって妨げられている。 我々のフレームワークは、有限次元リー群上の群畳み込みの実装を可能にする。 我々は,ベンチマークアフィン不変分類タスクのアプローチを実証的に検証し,従来のcnnに対する精度が,最先端のcapsnetを上回って$\sim$30\%向上した。 さらに,この枠組みの一般性を示すために,capsnetの結果が劣化するhomography-convoluti onal modelを訓練した。

Although provably robust to translational perturbations, convolutional neural networks (CNNs) are known to suffer from extreme performance degradation when presented at test time with more general geometric transformations of inputs. Recently, this limitation has motivated a shift in focus from CNNs to Capsule Networks (CapsNets). However, CapsNets suffer from admitting relatively few theoretical guarantees of invariance. We introduce a rigourous mathematical framework to permit invariance to any Lie group of warps, exclusively using convolutions (over Lie groups), without the need for capsules. Previous work on group convolutions has been hampered by strong assumptions about the group, which precludes the application of such techniques to common warps in computer vision such as affine and homographic. Our framework enables the implementation of group convolutions over \emph{any} finite-dimensional Lie group. We empirically validate our approach on the benchmark affine-invariant classification task, where we achieve $\sim$30\% improvement in accuracy against conventional CNNs while outperforming the state-of-the-art CapsNet. As further illustration of the generality of our framework, we train a homography-convoluti onal model which achieves superior robustness on a homography-perturbed dataset, where CapsNet results degrade.
翻訳日:2021-11-18 02:17:53 公開日:2021-11-16
# (参考訳) 野生におけるポス認識:アグロメリッククラスタリングとコントラスト学習を用いた動物ポーズ推定 [全文訳有]

Pose Recognition in the Wild: Animal pose estimation using Agglomerative Clustering and Contrastive Learning ( http://arxiv.org/abs/2111.08259v1 )

ライセンス: CC BY 4.0
Samayan Bhattacharya, Sk Shahnawaz(参考訳) 動物のポーズ推定は最近、生物学、動物学、養殖に応用されているため、石灰化している。 深層学習法は人間のポーズ推定に効果的に適用されている。 しかし、動物ポーズ推定へのこれらの手法の適用における大きなボトルネックは、十分な量のラベル付きデータの利用不可能である。 一般公開されているデータの量は少ないが、動物ごとに大量のデータをラベル付けすることは経済的には不可能である。 また、動物界では体形が多様であるため、ドメイン間での知識の移動は非効率である。 人間の脳が大量のラベル付きデータを必要とせずに動物のポーズを認識できるという事実を考えると、動物ポーズ認識の問題に対処するために教師なし学習を利用することは理にかなっている。 本稿では,複数の動物のポーズを非競合データから認識できる新しいアーキテクチャを提案する。 我々は,(1)画像から背景情報を除去し,動物体にエッジ検出アルゴリズムを用いて,(2)エッジピクセルのトラッキング動作と,(3)身体部分の集合的クラスタリングを行い,(3)遠方部分の集団化を阻止するコントラスト学習を利用する。 したがって、基礎となる解剖学ではなく、動物の視覚行動に基づいて、動物の身体部位を区別することができる。 したがって、人間のラベルが付けられたデータよりも、より効果的なデータの分類が達成できる。 我々は、TigDogとWLD(WildLife Documentary)データセットでモデルをテストする。 また,モデルの性能を他の公開データで検証し,モデルの一般化能力を示す。

Animal pose estimation has recently come into the limelight due to its application in biology, zoology, and aquaculture. Deep learning methods have effectively been applied to human pose estimation. However, the major bottleneck to the application of these methods to animal pose estimation is the unavailability of sufficient quantities of labeled data. Though there are ample quantities of unlabelled data publicly available, it is economically impractical to label large quantities of data for each animal. In addition, due to the wide variety of body shapes in the animal kingdom, the transfer of knowledge across domains is ineffective. Given the fact that the human brain is able to recognize animal pose without requiring large amounts of labeled data, it is only reasonable that we exploit unsupervised learning to tackle the problem of animal pose recognition from the available, unlabelled data. In this paper, we introduce a novel architecture that is able to recognize the pose of multiple animals fromunlabelled data. We do this by (1) removing background information from each image and employing an edge detection algorithm on the body of the animal, (2) Tracking motion of the edge pixels and performing agglomerative clustering to segment body parts, (3) employing contrastive learning to discourage grouping of distant body parts together. Hence we are able to distinguish between body parts of the animal, based on their visual behavior, instead of the underlying anatomy. Thus, we are able to achieve a more effective classification of the data than their human-labeled counterparts. We test our model on the TigDog and WLD (WildLife Documentary) datasets, where we outperform state-of-the-art approaches by a significant margin. We also study the performance of our model on other public data to demonstrate the generalization ability of our model.
翻訳日:2021-11-18 01:55:04 公開日:2021-11-16
# (参考訳) プログラム合成による確率と統計問題の解法

Solving Probability and Statistics Problems by Program Synthesis ( http://arxiv.org/abs/2111.08267v1 )

ライセンス: CC BY 4.0
Leonard Tang and Elizabeth Ke and Nikhil Singh and Nakul Verma and Iddo Drori(参考訳) 我々は,openai の codex を用いてプログラム合成を行い,大学レベルの確率と統計問題を解く。 我々は、MITの18.05の確率統計入門とハーバード大学のSTAT110の確率をプログラミングタスクに変換する。 そして、生成したコードを実行して解決策を得る。 これらのコースの疑問は確率で解決されるので、我々はしばしば、Codexがその解を計算するために多くの確率的依存関係をシミュレートする確率的プログラムを生成することを目指している。 当社のアプローチでは,質問を元の形式から,正しいプログラムと解を導出可能な明示的な形式に変換するために,迅速なエンジニアリングが必要である。 元の質問を抽出可能な形式に翻訳するために必要な作業量を推定するために,元の質問と変換された質問の類似度を測定する。 本研究は,大学レベルの確率・統計問題のデータセットを新たに導入し,大規模言語モデルのプログラム合成機能を用いて,スケーラブルな方法で解き明かした。

We solve university level probability and statistics questions by program synthesis using OpenAI's Codex, a Transformer trained on text and fine-tuned on code. We transform course problems from MIT's 18.05 Introduction to Probability and Statistics and Harvard's STAT110 Probability into programming tasks. We then execute the generated code to get a solution. Since these course questions are grounded in probability, we often aim to have Codex generate probabilistic programs that simulate a large number of probabilistic dependencies to compute its solution. Our approach requires prompt engineering to transform the question from its original form to an explicit, tractable form that results in a correct program and solution. To estimate the amount of work needed to translate an original question into its tractable form, we measure the similarity between original and transformed questions. Our work is the first to introduce a new dataset of university-level probability and statistics problems and solve these problems in a scalable fashion using the program synthesis capabilities of large language models.
翻訳日:2021-11-18 01:41:13 公開日:2021-11-16
# (参考訳) クロスドメイン勧告のための事前学習型グラフニューラルネットワーク [全文訳有]

Pre-training Graph Neural Network for Cross Domain Recommendation ( http://arxiv.org/abs/2111.08268v1 )

ライセンス: CC BY 4.0
Chen Wang, Yueqing Liang, Zhiwei Liu, Tao Zhang, Philip S. Yu(参考訳) 推薦システムは,ユーザ/イテムの埋め込み学習のコアとなる項目に対するユーザの潜在的関心を予測する。 それでも、クロスドメインレコメンデーションが緩和できるデータスパーシティの問題に悩まされている。 しかし、ほとんどの先行作業は、ソースドメインとターゲットドメインモデルを共同学習するか、またはサイド機能を必要とする。 しかし、学習された埋め込みがバイアス情報を含むソースドメインに支配されるため、共同トレーニングと側面の特徴が対象ドメインの予測に影響を及ぼす。 グラフ表現学習から事前学習を行う現代美術に着想を得て,クロスドメインレコメンデーションのための事前学習および微調整図を提案する。 我々は,グラフエンコーダの自己教師型事前学習を採用するPCRec (Pre-training Graph Neural Network for Cross-Domain Recommendation) を考案した。 次に、事前学習したグラフエンコーダを転送して、ターゲットドメイン上のノード埋め込みを初期化し、ターゲットドメイン上の単一ドメインレコメンデータシステムの微調整に役立てる。 その結果,PCRecの優位性が示された。 詳細な分析は、ソースドメインからのバイアスを避けながら情報転送におけるPCRecの優位性を検証する。

A recommender system predicts users' potential interests in items, where the core is to learn user/item embeddings. Nevertheless, it suffers from the data-sparsity issue, which the cross-domain recommendation can alleviate. However, most prior works either jointly learn the source domain and target domain models, or require side-features. However, jointly training and side features would affect the prediction on the target domain as the learned embedding is dominated by the source domain containing bias information. Inspired by the contemporary arts in pre-training from graph representation learning, we propose a pre-training and fine-tuning diagram for cross-domain recommendation. We devise a novel Pre-training Graph Neural Network for Cross-Domain Recommendation (PCRec), which adopts the contrastive self-supervised pre-training of a graph encoder. Then, we transfer the pre-trained graph encoder to initialize the node embeddings on the target domain, which benefits the fine-tuning of the single domain recommender system on the target domain. The experimental results demonstrate the superiority of PCRec. Detailed analyses verify the superiority of PCRec in transferring information while avoiding biases from source domains.
翻訳日:2021-11-18 01:39:51 公開日:2021-11-16
# (参考訳) フェデレーション学習のためのWyner-Zivグラディエント圧縮 [全文訳有]

Wyner-Ziv Gradient Compression for Federated Learning ( http://arxiv.org/abs/2111.08277v1 )

ライセンス: CC BY 4.0
Kai Liang, Huiru Zhong, Haoning Chen, and Youlong Wu(参考訳) クライアントでの限られた通信リソースと大量のモデルパラメータのため、大規模分散学習タスクは通信ボトルネックに悩まされる。 グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。 確率勾配降下のシナリオにおいて、隣接するラウンド間の勾配は、同じモデルを学習したいと願うことから高い相関関係を持つ可能性があるという事実により、本研究では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮スキームを提案する。 また,本手法の勾配量子化手法を実データ上に実装し,従来の手法よりも性能が向上した。

Due to limited communication resources at the client and a massive number of model parameters, large-scale distributed learning tasks suffer from communication bottleneck. Gradient compression is an effective method to reduce communication load by transmitting compressed gradients. Motivated by the fact that in the scenario of stochastic gradients descent, gradients between adjacent rounds may have a high correlation since they wish to learn the same model, this paper proposes a practical gradient compression scheme for federated learning, which uses historical gradients to compress gradients and is based on Wyner-Ziv coding but without any probabilistic assumption. We also implement our gradient quantization method on the real dataset, and the performance of our method is better than the previous schemes.
翻訳日:2021-11-18 01:22:29 公開日:2021-11-16
# (参考訳) 自然言語プロンプトを用いたマイナショット自己合理化 [全文訳有]

Few-Shot Self-Rationalization with Natural Language Prompts ( http://arxiv.org/abs/2111.08284v1 )

ライセンス: CC BY 4.0
Ana Marasovi\'c, Iz Beltagy, Doug Downey, Matthew E. Peters(参考訳) タスクラベルを予測し、予測のための自由テキストのエラボレーションを生成するセルフリレーゼーションモデルは、NLPシステムとのより直感的な相互作用を可能にする。 しかしながら、これらのモデルは現在、より広範な使用を妨げるタスクごとに、大量の人書き自由テキスト説明で訓練されている。 学習例の少ない自己合理化のより現実的な設定について検討することを提案する。 FEB - 既存の4つの英語データセットと関連するメトリクスの標準化されたコレクション。 我々は、FEB上の自然言語プロンプトを広範囲に探索することで、正しいプロンプトアプローチを特定する。 そして,このプロンプトを用いてモデルサイズを拡大することにより,数発の自己合理的化の進行が可能であることを示す。 人間のアノテータによって評価された説明文の平均的妥当性は51%であり,人間の説明文の平均的妥当性は76%である。 提案されたアプローチとともにFEBがコミュニティを刺激し、数発のセルフリレーゼーション課題に取り組みたいと考えています。

Self-rationalization models that predict task labels and generate free-text elaborations for their predictions could enable more intuitive interaction with NLP systems. These models are, however, currently trained with a large amount of human-written free-text explanations for each task which hinders their broader usage. We propose to study a more realistic setting of self-rationalization using few training examples. We present FEB -- a standardized collection of four existing English-language datasets and associated metrics. We identify the right prompting approach by extensively exploring natural language prompts on FEB. Then, by using this prompt and scaling the model size, we demonstrate that making progress on few-shot self-rationalization is possible. We show there is still ample room for improvement in this task: the average plausibility of generated explanations assessed by human annotators is at most 51%, while plausibility of human explanations is 76%. We hope that FEB together with our proposed approach will spur the community to take on the few-shot self-rationalization challenge.
翻訳日:2021-11-18 01:03:45 公開日:2021-11-16
# (参考訳) リカレントカルマンネットワークの切り替え [全文訳有]

Switching Recurrent Kalman Networks ( http://arxiv.org/abs/2111.08291v1 )

ライセンス: CC BY 4.0
Giao Nguyen-Quynh, Philipp Becker, Chen Qiu, Maja Rudolph, Gerhard Neumann(参考訳) 運転行動の予測やその他のセンサ測定は、自動運転システムの必須要素である。 実世界の多変量時系列データは、基礎となる力学が非線形で観測がうるさいため、しばしばモデル化が難しい。 さらに、データ駆動は、しばしば分散においてマルチモーダルである。つまり、予測は異なるが、平均化はモデルの性能を損なう可能性がある。 そこで本稿では,非線形およびマルチモーダル時系列データの効率的な推測と予測を行うためのスイッチング・リカレント・カルマン・ネットワーク(SRKN)を提案する。 モデルは、係数化潜在状態におけるダイナミクスの異なる側面をモデル化するカルマンフィルタを切り替える。 筆者らは,toy data setとportoのタクシーの運転データを用いて,スケーラブルで解釈可能なディープステートスペースモデルを実証的にテストした。 いずれの場合も、モデルはデータのダイナミクスのマルチモーダルな性質を捉えることができる。

Forecasting driving behavior or other sensor measurements is an essential component of autonomous driving systems. Often real-world multivariate time series data is hard to model because the underlying dynamics are nonlinear and the observations are noisy. In addition, driving data can often be multimodal in distribution, meaning that there are distinct predictions that are likely, but averaging can hurt model performance. To address this, we propose the Switching Recurrent Kalman Network (SRKN) for efficient inference and prediction on nonlinear and multi-modal time-series data. The model switches among several Kalman filters that model different aspects of the dynamics in a factorized latent state. We empirically test the resulting scalable and interpretable deep state-space model on toy data sets and real driving data from taxis in Porto. In all cases, the model can capture the multimodal nature of the dynamics in the data.
翻訳日:2021-11-18 00:43:47 公開日:2021-11-16
# (参考訳) 機械学習によるRCせん断壁のエネルギー挙動評価 [全文訳有]

Machine Learning-Based Assessment of Energy Behavior of RC Shear Walls ( http://arxiv.org/abs/2111.08295v1 )

ライセンス: CC BY 4.0
Berkay Topaloglu, Gulsen Taskin Kaya, Fatih Sutcu, Zeynep Tuna Deger (Istanbul Technical University)(参考訳) 現在の耐震設計法は主に構造部材の強度と変位能力に依存しており、地盤の運動時間やヒステリックな挙動特性の影響は考慮していない。 エネルギーに基づくアプローチは、応答量の補足指標として機能し、地震性能における繰り返し負荷の影響を含む。 設計哲学は、地震の要求は構造部材のエネルギー散逸能力によって満たされることを示唆している。 したがって、構造部材のエネルギー散逸挙動は、効率的なエネルギーベース設計アプローチを実現するためによく理解されるべきである。 本研究は, 鉄筋コンクリート(rc)せん断壁のエネルギー散逸能力に着目し, 横力に強い剛性と強度を与えるため, 高震域で広く利用されている。 壁面設計パラメータの関数として, 機械学習(ガウスプロセス回帰(GPR))に基づくせん断壁のエネルギー散逸能力予測モデルを開発した。 18個の設計パラメータがエネルギー散逸に影響を与えることが示されているが、最も重要なものは逐次的な逆退化と、予測モデルの複雑さを減らすために特徴選択法を用いて決定される。 予測精度(予測値/実値の比)が1.00、決定係数(r2)が0.93の新規データに基づいて、ロバストで正確な予測を行うための提案モデルの能力を検証する。 この研究の成果はエネルギーベースのアプローチに寄与していると信じられている。 (i)せん断壁の地震エネルギー散逸能力に最も影響のある壁特性を定めること、及び (ii) 異なる壁設計構成の比較が可能となる予測モデルを提供し、より高いエネルギー散逸能力を達成すること。

Current seismic design codes primarily rely on the strength and displacement capacity of structural members and do not account for the influence of the ground motion duration or the hysteretic behavior characteristics. The energy-based approach serves as a supplemental index to response quantities and includes the effect of repeated loads in seismic performance. The design philosophy suggests that the seismic demands are met by the energy dissipation capacity of the structural members. Therefore, the energy dissipation behavior of the structural members should be well understood to achieve an effective energy-based design approach. This study focuses on the energy dissipation capacity of reinforced concrete (RC) shear walls that are widely used in high seismic regions as they provide significant stiffness and strength to resist lateral forces. A machine learning (Gaussian Process Regression (GPR))-based predictive model for energy dissipation capacity of shear walls is developed as a function of wall design parameters. Eighteen design parameters are shown to influence energy dissipation, whereas the most important ones are determined by applying sequential backward elimination and by using feature selection methods to reduce the complexity of the predictive model. The ability of the proposed model to make robust and accurate predictions is validated based on novel data with a prediction accuracy (the ratio of predicted/actual values) of around 1.00 and a coefficient of determination (R2) of 0.93. The outcomes of this study are believed to contribute to the energy-based approach by (i) defining the most influential wall properties on the seismic energy dissipation capacity of shear walls and (ii) providing predictive models that can enable comparisons of different wall design configurations to achieve higher energy dissipation capacity.
翻訳日:2021-11-18 00:30:02 公開日:2021-11-16
# (参考訳) カスケード型多段プロセスのベイズ最適化

Bayesian Optimization for Cascade-type Multi-stage Processes ( http://arxiv.org/abs/2111.08330v1 )

ライセンス: CC BY 4.0
Shunya Kusakawa, Shion Takeno, Yu Inatsu, Kentaro Kutsukake, Shogo Iwazaki, Takashi Nakano, Toru Ujihara, Masayuki Karasuyama, Ichiro Takeuchi(参考訳) 科学と工学の複雑なプロセスはしばしば多段階意思決定問題として定式化される。 本稿では,カスケードプロセスと呼ばれる多段階意思決定プロセスについて考察する。 カスケードプロセスは、1つのステージの出力を次のステージの入力として使用する多段階プロセスである。 各ステージのコストが高い場合、各ステージの最適制御可能なパラメータを徹底的に探索することは困難である。 この問題に対処するため,ベイズ最適化フレームワークの拡張としてカスケードプロセスの最適化を定式化し,信頼区間と期待改善に基づく2種類の獲得関数(AF)を提案する。 提案するafsの理論特性を調査し,その効果を数値実験により実証する。 また,実際に発生する多段階意思決定プロセスの途中でカスケードプロセスの停止を許可するサスペンション設定という拡張についても検討する。 本研究の動機となった太陽電池シミュレータの最適化問題に提案手法を適用した。

Complex processes in science and engineering are often formulated as multi-stage decision-making problems. In this paper, we consider a type of multi-stage decision-making process called a cascade process. A cascade process is a multi-stage process in which the output of one stage is used as an input for the next stage. When the cost of each stage is expensive, it is difficult to search for the optimal controllable parameters for each stage exhaustively. To address this problem, we formulate the optimization of the cascade process as an extension of Bayesian optimization framework and propose two types of acquisition functions (AFs) based on credible intervals and expected improvement. We investigate the theoretical properties of the proposed AFs and demonstrate their effectiveness through numerical experiments. In addition, we consider an extension called suspension setting in which we are allowed to suspend the cascade process at the middle of the multi-stage decision-making process that often arises in practical problems. We apply the proposed method in the optimization problem of the solar cell simulator, which was the motivation for this study.
翻訳日:2021-11-18 00:12:28 公開日:2021-11-16
# (参考訳) スマートエネルギー遷移の再構築:機械学習を用いたカタールにおける人-建築相互作用の分析 [全文訳有]

Reshaping Smart Energy Transition: An analysis of human-building interactions in Qatar Using Machine Learning Techniques ( http://arxiv.org/abs/2111.08333v1 )

ライセンス: CC BY 4.0
Rateb Jabbar, Esmat Zaidan, Ahmed ben Said and Ali Ghofrani(参考訳) 政策立案は、大きな構造的変化なしにも発展途上国の戦略的発展と経済の多様化に貢献する可能性がある。 本研究では,カタールの建築部門におけるエネルギー政策の改善を目的とした,人間指向の次元の分析を行った。 GCC連合の地域社会と比較して、経済的・文化的背景や行動パターンが異なる移民・移民コミュニティの比率が高いことを考えると、適切なエネルギー政策を提案するためには人的次元を検討する必要がある。 本研究は,エネルギー利用,責任,モチベーション,習慣,全体的幸福の相違の背景にある主要な要因を決定するために,社会経済,行動,人口分布の相関について検討した。 サンプルはカタールで2,200人であり、上位と下位の2つの消費者カテゴリに分類された。 特に,人間室内の快適感と建築特性の関連性を探究することに焦点を当てた。 需要計画やエネルギー助成金などの金融ドライバーは行動パターンに関連して検討された。 その後、データ分析は介入、社会的幸福、意識に関するエネルギー政策に影響を及ぼした。 機械学習手法は、人間の行動の主要因を決定するために特徴重要度分析を行うために用いられた。 本研究は, 人的要因が居住環境, 職場環境, 規範, 習慣, 自己責任, 帰結意識, 消費の快適感に与える影響を実証した。 本研究は,エネルギー政策とサステナビリティ性能指標の有効性向上を目的とした目標戦略の開発に重要な意味を持つ。

Policy Planning have the potential to contribute to the strategic development and economic diversification of developing countries even without considerable structural changes. In this study, we analyzed a set of human-oriented dimensions aimed at improving energy policies related to the building sector in Qatar. Considering the high percentage of expatriate and migrant communities with different financial and cultural backgrounds and behavioral patterns compared with local communities in the GCC Union, it is required to investigate human dimensions to propose adequate energy policies. This study explored the correlations of socioeconomic, behavioral, and demographic dimensions to determine the main factors behind discrepancies in energy use, responsibilities, motivations, habits, and overall well-being. The sample included 2,200 people in Qatar, and it was clustered into two consumer categories: high and low. In particular, the study focused on exploring human indoor comfort perception dependencies with building features. Financial drivers, such as demand programs and energy subsidies, were explored in relation to behavioral patterns. Subsequently, the data analysis resulted in implications for energy policies regarding interventions, social well-being, and awareness. Machine learning methods were used to perform a feature importance analysis to determine the main factors of human behavior. The findings of this study demonstrated how human factors impact comfort perception in residential and work environments, norms, habits, self-responsibility, consequence awareness, and consumption. The study has important implications for developing targeted strategies aimed at improving the efficacy of energy policies and sustainability performance indicators.
翻訳日:2021-11-18 00:10:48 公開日:2021-11-16
# (参考訳) 局所センシングハッシュの数学的モデル [全文訳有]

Mathematical Models for Local Sensing Hashes ( http://arxiv.org/abs/2111.08344v1 )

ライセンス: CC0 1.0
Li Wang, Lilon Wangner(参考訳) データ量が増え続けるにつれ、データの検索はますます時間がかかりつつある。 近隣探索のための古典的な索引構造は「次元の曲線」のためにもはや持続可能ではない。 その代わり、近似インデックス構造は、クラスタリングと異常検出の隣接探索を著しく加速し、アルゴリズムの結果において最も低い誤差率を持つ良い機会を提供する。 ローカルセンシングハッシュはその1つである。 我々はその特性を数学的にモデル化する方向を示す。

As data volumes continue to grow, searches in data are becoming increasingly time-consuming. Classical index structures for neighbor search are no longer sustainable due to the "curse of dimensionality". Instead, approximated index structures offer a good opportunity to significantly accelerate the neighbor search for clustering and outlier detection and to have the lowest possible error rate in the results of the algorithms. Local sensing hashes is one of those. We indicate directions to mathematically model the properties of it.
翻訳日:2021-11-17 23:58:04 公開日:2021-11-16
# (参考訳) SEnSeI: センサ独立型クラウドマスク作成のためのディープラーニングモジュール [全文訳有]

SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud Masks ( http://arxiv.org/abs/2111.08349v1 )

ライセンス: CC BY 4.0
Alistair Francis, John Mrziglod, Panagiotis Sidiropoulos, Jan-Peter Muller(参考訳) センサ独立性のためのスペクトルエンコーダ(sensei)と呼ばれる新しいニューラルネットワークアーキテクチャを導入し、スペクトル帯域の異なる複数のマルチスペクトル楽器を使用して、一般化されたディープラーニングモデルのトレーニングを行う。 クラウドマスキングの問題,既存のいくつかのデータセット,Sentinel-2用の新たな無償データセットなどに注目した。 我々のモデルは、訓練した衛星(Sentinel-2とLandsat 8)の最先端性能を達成し、Landsat 7, Per\'uSat-1、Sentinel-3 SLSTRのようなトレーニング中に観測されていないセンサーに外挿することができる。 モデル性能は、複数の衛星を訓練に使用したり、特殊な単一センサーモデルの性能に近づいたり、超えたりする際に改善される。 この研究は、リモートセンシングコミュニティが、非常に多様なセンサーで収集されたデータにアクセスできることに動機づけられている。 これは必然的に異なるセンサーのためにラベル付け作業が別々に行われ、大量のトレーニングセットを最適に実行する必要性から、ディープラーニングモデルのパフォーマンスを制限している。 センサー独立性は、ディープラーニングモデルが複数のデータセットを同時トレーニングに利用し、パフォーマンスを高め、より広く適用できるようにする。 これにより、ディープラーニングのアプローチが、オンボードアプリケーションや地上セグメントデータ処理でより頻繁に使用されるようになる可能性がある。

We introduce a novel neural network architecture -- Spectral ENcoder for SEnsor Independence (SEnSeI) -- by which several multispectral instruments, each with different combinations of spectral bands, can be used to train a generalised deep learning model. We focus on the problem of cloud masking, using several pre-existing datasets, and a new, freely available dataset for Sentinel-2. Our model is shown to achieve state-of-the-art performance on the satellites it was trained on (Sentinel-2 and Landsat 8), and is able to extrapolate to sensors it has not seen during training such as Landsat 7, Per\'uSat-1, and Sentinel-3 SLSTR. Model performance is shown to improve when multiple satellites are used in training, approaching or surpassing the performance of specialised, single-sensor models. This work is motivated by the fact that the remote sensing community has access to data taken with a hugely variety of sensors. This has inevitably led to labelling efforts being undertaken separately for different sensors, which limits the performance of deep learning models, given their need for huge training sets to perform optimally. Sensor independence can enable deep learning models to utilise multiple datasets for training simultaneously, boosting performance and making them much more widely applicable. This may lead to deep learning approaches being used more frequently for on-board applications and in ground segment data processing, which generally require models to be ready at launch or soon afterwards.
翻訳日:2021-11-17 23:41:52 公開日:2021-11-16
# (参考訳) コンボリューションからスパイクスへ:現在コミュニティが見逃している環境基準 [全文訳有]

From Convolutions towards Spikes: The Environmental Metric that the Community currently Misses ( http://arxiv.org/abs/2111.08361v1 )

ライセンス: CC BY 4.0
Aviral Chharia, Shivu Chauhan, Rahul Upadhyay, Vinay Kumar(参考訳) 今日、aiコミュニティは、重要なパラメータ、すなわち環境指標が未報告であるために、主要なパフォーマンス指標として、'最先端'スコア(neuripsの80%の論文)に夢中になっている。 計算能力は10年前は制限要因だったが、将来は環境にやさしく電力効率の良いアルゴリズムを開発することが課題となる。 人間の脳は100万年近く最適化されてきたが、通常のラップトップと同じ量の電力を消費している。 したがって、自然にインスパイアされたアルゴリズムを開発することは、その解決策の1つだ。 本研究では,現在使用されているANNが自然界で見られるものではないこと,そして哺乳類の視覚野を反映した低性能のスパイクニューラルネットワークが注目されている理由について述べる。 さらに、スパイクベースの計算を用いて、大規模でニューロモルフィックなエネルギー効率のマイクロチップを開発することを妨げるハードウェアギャップを強調した。 従来のGPUの代わりにニューロモーフィックプロセッサを使うことは、環境に優しく、効率的かもしれない。 これらのプロセッサは、SNNを問題の理想的な解決策にする。 本稿では,神経科学と深層学習の交点における新たな研究の方向性を提案するとともに,現在のギャップ,比較研究の欠如を強調する。 さらに、AIモデルの炭素フットプリントを報告するための新しい評価指標「ナチュア」を定義した。

Today, the AI community is obsessed with 'state-of-the-art 7; scores (80% papers in NeurIPS) as the major performance metrics, due to which an important parameter, i.e., the environmental metric, remains unreported. Computational capabilities were a limiting factor a decade ago; however, in foreseeable future circumstances, the challenge will be to develop environment-friendly and power-efficient algorithms. The human brain, which has been optimizing itself for almost a million years, consumes the same amount of power as a typical laptop. Therefore, developing nature-inspired algorithms is one solution to it. In this study, we show that currently used ANNs are not what we find in nature, and why, although having lower performance, spiking neural networks, which mirror the mammalian visual cortex, have attracted much interest. We further highlight the hardware gaps restricting the researchers from using spike-based computation for developing neuromorphic energy-efficient microchips on a large scale. Using neuromorphic processors instead of traditional GPUs might be more environment friendly and efficient. These processors will turn SNNs into an ideal solution for the problem. This paper presents in-depth attention highlighting the current gaps, the lack of comparative research, while proposing new research directions at the intersection of two fields -- neuroscience and deep learning. Further, we define a new evaluation metric 'NATURE' for reporting the carbon footprint of AI models.
翻訳日:2021-11-17 22:57:29 公開日:2021-11-16
# (参考訳) 中間CNN層を可視化した弱監視火器セグメンテーション [全文訳有]

Weakly-supervised fire segmentation by visualizing intermediate CNN layers ( http://arxiv.org/abs/2111.08401v1 )

ライセンス: CC BY 4.0
Milad Niknejad, Alexandre Bernardino(参考訳) 画像やビデオにおける火災の局在化は、火災のインシデントに対処する自律システムにとって重要なステップである。 ディープニューラルネットワークに基づく最先端の画像セグメンテーション手法は、完全に教師された方法で畳み込みニューラルネットワーク(CNN)を訓練するために、多数のピクセルアノテーションのサンプルを必要とする。 本稿では,ネットワークの訓練に画像ラベルのみを使用する画像における火の弱教師付きセグメンテーションについて考察する。 CNNの中間層における特徴量の平均値は,2値セグメンテーション問題である火災セグメンテーションの場合,従来のクラスアクティベーションマッピング(CAM)法よりも優れていることを示す。 また, 最後の畳み込み層の特徴に回転同変正規化損失を加えることにより, セグメント化精度をさらに向上させる。 その結果, 弱教師付き火災セグメンテーションに対するベースライン法よりも顕著に改善が見られた。

Fire localization in images and videos is an important step for an autonomous system to combat fire incidents. State-of-art image segmentation methods based on deep neural networks require a large number of pixel-annotated samples to train Convolutional Neural Networks (CNNs) in a fully-supervised manner. In this paper, we consider weakly supervised segmentation of fire in images, in which only image labels are used to train the network. We show that in the case of fire segmentation, which is a binary segmentation problem, the mean value of features in a mid-layer of classification CNN can perform better than conventional Class Activation Mapping (CAM) method. We also propose to further improve the segmentation accuracy by adding a rotation equivariant regularization loss on the features of the last convolutional layer. Our results show noticeable improvements over baseline method for weakly-supervised fire segmentation.
翻訳日:2021-11-17 22:52:29 公開日:2021-11-16
# (参考訳) STAMP 4 NLP - 迅速な品質駆動型NLPアプリケーション開発のためのアジャイルフレームワーク [全文訳有]

STAMP 4 NLP -- An Agile Framework for Rapid Quality-Driven NLP Applications Development ( http://arxiv.org/abs/2111.08408v1 )

ライセンス: CC BY 4.0
Philipp Kohl and Oliver Schmidts and Lars Kl\"oser and Henri Werth and Bodo Kraft and Albert Z\"undorf(参考訳) 近年の自然言語処理(NLP)研究の進展は、自動化されたユーザインタラクションやデータ分析の改善など、企業にとって新たなビジネスチャンスを提供する。 高度なNLPアプリケーションを構築するには、企業がNLPプロジェクトを成功させるのを妨げる、現代的な機械学習(ML)技術を扱う必要がある。 応用NLP研究プロジェクトでの経験から、品質保証がソフトウェアを信頼し、事業目標に関する利便性と有用性を示す生産的な環境における研究プロトタイプの継続的な統合が示されている。 我々は,NLPアプリケーションを開発するための反復的・漸進的なプロセスモデルとしてSTAMP 4 NLPを紹介した。 STAMP 4 NLPでは、ソフトウェアエンジニアリングの原則とデータサイエンスのベストプラクティスをマージします。 私たちのプロセスモデルをインスタンス化することで、テンプレートや規約、実装を利用してプロトタイプを効率的に作成でき、開発者やデータサイエンティストがビジネス目標に集中することができます。 当社の反復的インクリメンタルアプローチにより、各イテレーションの後にプロトタイプの強化バージョンをソフトウェア環境にデプロイでき、潜在的なビジネス価値を最大化し、早期に信頼でき、成功してもデプロイされない実験のコストを回避することができます。

The progress in natural language processing (NLP) research over the last years, offers novel business opportunities for companies, as automated user interaction or improved data analysis. Building sophisticated NLP applications requires dealing with modern machine learning (ML) technologies, which impedes enterprises from establishing successful NLP projects. Our experience in applied NLP research projects shows that the continuous integration of research prototypes in production-like environments with quality assurance builds trust in the software and shows convenience and usefulness regarding the business goal. We introduce STAMP 4 NLP as an iterative and incremental process model for developing NLP applications. With STAMP 4 NLP, we merge software engineering principles with best practices from data science. Instantiating our process model allows efficiently creating prototypes by utilizing templates, conventions, and implementations, enabling developers and data scientists to focus on the business goals. Due to our iterative-incrementa l approach, businesses can deploy an enhanced version of the prototype to their software environment after every iteration, maximizing potential business value and trust early and avoiding the cost of successful yet never deployed experiments.
翻訳日:2021-11-17 22:42:21 公開日:2021-11-16
# (参考訳) パッチ埋め込みにおけるPreLayerNormによる視覚変換器のロバスト性の改善 [全文訳有]

Improved Robustness of Vision Transformer via PreLayerNorm in Patch Embedding ( http://arxiv.org/abs/2111.08413v1 )

ライセンス: CC BY 4.0
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong, Sang Woo Kim(参考訳) ビジョントランスフォーマー(ViT)は最近、畳み込みニューラルネットワーク(CNN)を置き換える様々なビジョンタスクにおいて最先端のパフォーマンスを実証した。 一方、ViTはCNNとは異なるアーキテクチャであるため、異なる振る舞いをする可能性がある。 本稿では,ViTの信頼性を検討するために,ViTの挙動とロバスト性について検討する。 我々は,CNN と ViT の頑健さを,現実的な視覚タスクに現れる様々な画像劣化を仮定して比較した。 ほとんどの画像変換では、VTはCNNと同等以上の堅牢性を示した。 しかし, コントラスト向上のため, ViTでは高い劣化が観測された。 詳細な分析から、色スケールが変化すると、ViTのパッチへの位置埋め込みが不適切に機能する可能性があるという潜在的な問題を特定した。 ここでは,vit のスケール不変挙動を保証するために修正パッチ埋め込み構造である prelayernorm の使用を主張する。 vitは,コントラスト変動環境を含む各種汚職においてロバスト性が改善した。

Vision transformers (ViTs) have recently demonstrated state-of-the-art performance in a variety of vision tasks, replacing convolutional neural networks (CNNs). Meanwhile, since ViT has a different architecture than CNN, it may behave differently. To investigate the reliability of ViT, this paper studies the behavior and robustness of ViT. We compared the robustness of CNN and ViT by assuming various image corruptions that may appear in practical vision tasks. We confirmed that for most image transformations, ViT showed robustness comparable to CNN or more improved. However, for contrast enhancement, severe performance degradations were consistently observed in ViT. From a detailed analysis, we identified a potential problem: positional embedding in ViT's patch embedding could work improperly when the color scale changes. Here we claim the use of PreLayerNorm, a modified patch embedding structure to ensure scale-invariant behavior of ViT. ViT with PreLayerNorm showed improved robustness in various corruptions including contrast-varying environments.
翻訳日:2021-11-17 22:33:16 公開日:2021-11-16
# (参考訳) 深層ニューラルネットワークと防御の可能性に対するバックドア攻撃の概観 [全文訳有]

An Overview of Backdoor Attacks Against Deep Neural Networks and Possible Defences ( http://arxiv.org/abs/2111.08429v1 )

ライセンス: CC BY 4.0
Wei Guo, Benedetta Tondi, Mauro Barni(参考訳) 社会のあらゆる側面に触れる目覚ましい進歩とともに、ディープニューラルネットワーク(DNN)に基づくAI技術は、セキュリティ上の懸念を増している。 テスト時に実行される攻撃は、研究者の最初の注意を独占する一方で、トレーニングプロセスに干渉することでDNNモデルを破損させる可能性を悪用するバックドア攻撃は、AI技術の信頼性を損なうさらに深刻な脅威となっている。 バックドア攻撃では、攻撃者はトレーニングデータを破損してテスト時に誤動作を誘発する。 しかし、テスト時間誤差は、適切に作成された入力サンプルに対応するトリガーイベントの存在下でのみ活性化される。 このように、破損したネットワークは通常の入力に対して期待通りに動作し続け、攻撃者がネットワーク内に隠されたバックドアをアクティベートした時にのみ悪意のある動作が発生する。 ここ数年、バックドア攻撃は、新たな攻撃のクラスの開発と、可能な対策の提案の両方に焦点を当てた、激しい研究活動の対象となっている。 本総説の目標は,これまで提案されてきた攻撃と防御の類型を分類し,現在まで出版されている作品を精査することである。 分析を導く分類は、アタッカーがトレーニングプロセスで持っている制御量と、トレーニングに使用するデータの完全性を検証するディフェンダーの能力と、トレーニングおよびテスト時のdnnの操作を監視する能力とに基づいて行われる。 したがって,提案する解析は,攻撃と防御の両方の強みと弱みを,運用中のアプリケーションシナリオに照らして強調するために特に適している。

Together with impressive advances touching every aspect of our society, AI technology based on Deep Neural Networks (DNN) is bringing increasing security concerns. While attacks operating at test time have monopolised the initial attention of researchers, backdoor attacks, exploiting the possibility of corrupting DNN models by interfering with the training process, represents a further serious threat undermining the dependability of AI techniques. In a backdoor attack, the attacker corrupts the training data so to induce an erroneous behaviour at test time. Test time errors, however, are activated only in the presence of a triggering event corresponding to a properly crafted input sample. In this way, the corrupted network continues to work as expected for regular inputs, and the malicious behaviour occurs only when the attacker decides to activate the backdoor hidden within the network. In the last few years, backdoor attacks have been the subject of an intense research activity focusing on both the development of new classes of attacks, and the proposal of possible countermeasures. The goal of this overview paper is to review the works published until now, classifying the different types of attacks and defences proposed so far. The classification guiding the analysis is based on the amount of control that the attacker has on the training process, and the capability of the defender to verify the integrity of the data used for training, and to monitor the operations of the DNN at training and test time. As such, the proposed analysis is particularly suited to highlight the strengths and weaknesses of both attacks and defences with reference to the application scenarios they are operating in.
翻訳日:2021-11-17 22:24:29 公開日:2021-11-16
# (参考訳) デジタル病理学のための深部セグメンテーションモデルの開発と展開 [全文訳有]

Code-free development and deployment of deep segmentation models for digital pathology ( http://arxiv.org/abs/2111.08430v1 )

ライセンス: CC BY 4.0
Henrik Sahlin Pettersen, Ilya Belevich, Elin Synn{\o}ve R{\o}yset, Erik Smistad, Eija Jokitalo, Ingerid Reinertsen, Ingunn Bakke, Andr\'e Pedersen(参考訳) 組織学的全スライド画像(WSI)へのディープラーニングの適用は、診断効率と再現性の向上を約束するが、主にコンピュータコードの記述能力や商用ソリューションの購入能力に依存している。 本稿では,フリーユースなオープンソースソフトウェア(QuPath,DeepMIB,Fast Pathology)を用いて,深層学習に基づく分類モデルの作成と展開を行う。 大腸粘膜のstromaから上皮を分離する使用例について本パイプラインを実証した。 このパイプラインを用いたアクティブラーニングにより,140ヘマトキシリン-エオシン (he) と111cd3免疫染色大腸生検wsisからなる251のアノテートwsisデータセットを開発した。 36 HEおよび21 CD3-stained WSIsのホールドアウト試験セットでは、上皮のセグメンテーションで96.6%と95.3%の平均結合が達成された。 病理学レベルのセグメンテーション精度と臨床が許容する実行時性能を実証し、プログラム経験のない病理学者が、フリー・ツー・ユースソフトウェアのみを用いて、病理組織学的WSIに対する最先端のセグメンテーションソリューションを作成できることを示す。 この研究は、最適化されたモデルと予測をオープンフォーマットでシームレスにエクスポートし、それによって外部ソリューションで使用できる、汎用的でオープンなパイプラインを作成する能力において、オープンソースソリューションの強みをさらに示している。 すべてのスクリプト、トレーニングされたモデル、ビデオチュートリアル、31kのエピテリウムアノテーションを備えた251のWSIの全データセットがhttps://github.com/a ndreped/NoCodeSegで公開されている。

Application of deep learning on histopathological whole slide images (WSIs) holds promise of improving diagnostic efficiency and reproducibility but is largely dependent on the ability to write computer code or purchase commercial solutions. We present a code-free pipeline utilizing free-to-use, open-source software (QuPath, DeepMIB, and FastPathology) for creating and deploying deep learning-based segmentation models for computational pathology. We demonstrate the pipeline on a use case of separating epithelium from stroma in colonic mucosa. A dataset of 251 annotated WSIs, comprising 140 hematoxylin-eosin (HE)-stained and 111 CD3 immunostained colon biopsy WSIs, were developed through active learning using the pipeline. On a hold-out test set of 36 HE and 21 CD3-stained WSIs a mean intersection over union score of 96.6% and 95.3% was achieved on epithelium segmentation. We demonstrate pathologist-level segmentation accuracy and clinical acceptable runtime performance and show that pathologists without programming experience can create near state-of-the-art segmentation solutions for histopathological WSIs using only free-to-use software. The study further demonstrates the strength of open-source solutions in its ability to create generalizable, open pipelines, of which trained models and predictions can seamlessly be exported in open formats and thereby used in external solutions. All scripts, trained models, a video tutorial, and the full dataset of 251 WSIs with ~31k epithelium annotations are made openly available at https://github.com/a ndreped/NoCodeSeg to accelerate research in the field.
翻訳日:2021-11-17 21:18:06 公開日:2021-11-16
# (参考訳) Epileptic Seizure 検出のためのマルチセントロイド超次元計算手法 [全文訳有]

Multi-Centroid Hyperdimensional Computing Approach for Epileptic Seizure Detection ( http://arxiv.org/abs/2111.08463v1 )

ライセンス: CC BY 4.0
Una Pale, Tomas Teijeiro, David Atienza(参考訳) てんかん患者の長期モニタリングは、リアルタイム検出とウェアラブルデバイス設計の工学的観点から難しい問題を示す。 継続的な障害のない監視と確実な検出と発作の予測を可能にする新しいソリューションが必要である。 脳波(EEG)パターンの変動は、発作時だけでなく、発作時には人、脳の状態、時間帯にも存在している。 これによりてんかん発作検出は非常に困難であり、特にデータが発作と非敗血症のラベルのみの下にグループ化されている場合である。 超次元(HD)コンピューティングは、新しい機械学習アプローチであり、有望なツールである。 しかし、データが高いクラス内変動を示す場合、一定の制限がある。 そこで本研究では,マルチセンタ型hdコンピューティングに基づく半教師付き学習手法を提案する。 マルチセントロイドアプローチでは、発作状態と非サイズレ状態を表すプロトタイプベクターを複数持つことができ、単純な2層hdモデルに比べて性能が大幅に向上する。 さらに、実際のデータの不均衡はさらなる課題となり、データのバランスの取れたサブセットに報告されるパフォーマンスは過大評価される可能性が高い。 したがって、私たちは3つの異なるデータセットバランスシナリオでマルチセンタ型アプローチをテストし、よりバランスのとれたデータセットでパフォーマンスが向上することを示す。 具体的には、アセプションデータよりも10倍の非正弦性を持つアンバランステストセットで最大14%の改善が達成される。 同時に、バランスの取れたデータセットと比較して、サブクラスの総数は大幅に増加しない。 このように、提案手法は、リアルタイムデータバランスによるてんかん検出の高性能化や、発作が稀なオンライン学習において重要な要素となる。

Long-term monitoring of patients with epilepsy presents a challenging problem from the engineering perspective of real-time detection and wearable devices design. It requires new solutions that allow continuous unobstructed monitoring and reliable detection and prediction of seizures. A high variability in the electroencephalogram (EEG) patterns exists among people, brain states, and time instances during seizures, but also during non-seizure periods. This makes epileptic seizure detection very challenging, especially if data is grouped under only seizure and non-seizure labels. Hyperdimensional (HD) computing, a novel machine learning approach, comes in as a promising tool. However, it has certain limitations when the data shows a high intra-class variability. Therefore, in this work, we propose a novel semi-supervised learning approach based on a multi-centroid HD computing. The multi-centroid approach allows to have several prototype vectors representing seizure and non-seizure states, which leads to significantly improved performance when compared to a simple 2-class HD model. Further, real-life data imbalance poses an additional challenge and the performance reported on balanced subsets of data is likely to be overestimated. Thus, we test our multi-centroid approach with three different dataset balancing scenarios, showing that performance improvement is higher for the less balanced dataset. More specifically, up to 14% improvement is achieved on an unbalanced test set with 10 times more non-seizure than seizure data. At the same time, the total number of sub-classes is not significantly increased compared to the balanced dataset. Thus, the proposed multi-centroid approach can be an important element in achieving a high performance of epilepsy detection with real-life data balance or during online learning, where seizures are infrequent.
翻訳日:2021-11-17 20:57:43 公開日:2021-11-16
# (参考訳) インフレクションクラスシステムの出現をシミュレートするアトラクション-反発ダイナミクスの役割 [全文訳有]

The role of attraction-repulsion dynamics in simulating the emergence of inflectional class systems ( http://arxiv.org/abs/2111.08465v1 )

ライセンス: CC BY 4.0
Erich R. Round, Sacha Beniamine, Louise Esher(参考訳) パラダイム変化の動的モデルは、最も単純なプロセスが予期せぬ結果をもたらす可能性を解明し、観察された言語現象の新しい潜在的な説明を明らかにすることができる。 Ackerman & Malouf (2015) は、摂動系がアトラクションのみのダイナミクスの作用によって障害を減少させるモデルを示しており、レキセムは時間とともに互いに似ているだけである。 ここでは,(1)誘引のみのモデルでは,必然的にすべての変動を除去するため,真の屈折系を特徴付ける構造的多様性を進化させることができず,(2)アトラクションと反発の両方を持つモデルにより,屈折クラスなどの形態的構造を顕著に再現するシステムの出現を可能にする。 したがって、1つの小さな成分 -- 相違に基づく変化 -- は、一様性に不都合な傾向にあるモデルと、安定な形態素のような構造を進化させるモデルとを分離する。 これらのモデルは、形態的複雑性の考慮方法を変える可能性を秘めています。

Dynamic models of paradigm change can elucidate how the simplest of processes may lead to unexpected outcomes, and thereby can reveal new potential explanations for observed linguistic phenomena. Ackerman & Malouf (2015) present a model in which inflectional systems reduce in disorder through the action of an attraction-only dynamic, in which lexemes only ever grow more similar to one another over time. Here we emphasise that: (1) Attraction-only models cannot evolve the structured diversity which characterises true inflectional systems, because they inevitably remove all variation; and (2) Models with both attraction and repulsion enable the emergence of systems that are strikingly reminiscent of morphomic structure such as inflection classes. Thus, just one small ingredient -- change based on dissimilarity -- separates models that tend inexorably to uniformity, and which therefore are implausible for inflectional morphology, from those which evolve stable, morphome-like structure. These models have the potential to alter how we attempt to account for morphological complexity.
翻訳日:2021-11-17 20:42:51 公開日:2021-11-16
# (参考訳) 神経クラス発現合成 [全文訳有]

Neural Class Expression Synthesis ( http://arxiv.org/abs/2111.08486v1 )

ライセンス: CC BY 4.0
N'Dah Jean Kouagou, Stefan Heindorf, Caglar Demir, Axel-Cyrille Ngonga Ngomo(参考訳) クラス表現学習は、重要性を増すための説明可能な教師付き機械学習の分野である。 記述論理におけるクラス表現学習の既存のアプローチは、探索アルゴリズムやハードルールベースである。 特に、洗練演算子に基づくアプローチは、各学習問題に対する大きな探索空間を探索するためにヒューリスティック関数に依存するため、スケーラビリティの問題に悩まされる。 そこで我々は,合成手法を考案した新しいアプローチのファミリーを提案する。 このファミリーのインスタンスは、提供される例から直接クラス式を計算します。 したがって、検索ベースのアプローチのランタイム制限や、ハードルールベースのアプローチの柔軟性の欠如には従わない。 本研究では,軽量ニューラルネットワークアーキテクチャを用いて,ポジティブな例の集合からクラス表現を合成する手法の3つの例について検討した。 4つのベンチマークデータセットで評価した結果, 平均1秒以内の入力例に対して, 高品質なクラス表現を効果的に合成できることが示唆された。 さらに, CELOE と ELTL との比較により, 大規模オントロジーにおけるF測定精度が有意に向上していることが示唆された。 再現性のために、私たちは実装と事前トレーニングされたモデルをhttps://github.com/c onceptlengthlearner/ ncesのgithubリポジトリで提供します。

Class expression learning is a branch of explainable supervised machine learning of increasing importance. Most existing approaches for class expression learning in description logics are search algorithms or hard-rule-based. In particular, approaches based on refinement operators suffer from scalability issues as they rely on heuristic functions to explore a large search space for each learning problem. We propose a new family of approaches, which we dub synthesis approaches. Instances of this family compute class expressions directly from the examples provided. Consequently, they are not subject to the runtime limitations of search-based approaches nor the lack of flexibility of hard-rule-based approaches. We study three instances of this novel family of approaches that use lightweight neural network architectures to synthesize class expressions from sets of positive examples. The results of their evaluation on four benchmark datasets suggest that they can effectively synthesize high-quality class expressions with respect to the input examples in under a second on average. Moreover, a comparison with the state-of-the-art approaches CELOE and ELTL suggests that we achieve significantly better F-measures on large ontologies. For reproducibility purposes, we provide our implementation as well as pre-trained models in the public GitHub repository at https://github.com/C onceptLengthLearner/ NCES
翻訳日:2021-11-17 20:38:02 公開日:2021-11-16
# (参考訳) 設計概念生成のための生成事前学習トランス:探索 [全文訳有]

Generative Pre-Trained Transformer for Design Concept Generation: An Exploration ( http://arxiv.org/abs/2111.08489v1 )

ライセンス: CC BY 4.0
Qihao Zhu, Jianxi Luo(参考訳) 新たな概念はデザインの革新に不可欠であり、データ刺激とコンピュータの助けを借りて生み出される。 しかし、現在の生成設計アルゴリズムは、図形的あるいは空間的概念に焦点を合わせており、それは理解するには抽象的すぎるか、初期設計の探索には詳細すぎる。 本稿では,自然言語設計概念生成における生成事前学習変換器(GPT)の利用について検討する。 本実験では, GPT-2 と GPT-3 を設計作業における創造的推論に用いた。 どちらも、言語設計の概念生成に適度に優れた性能を示す。

Novel concepts are essential for design innovation and can be generated with the aid of data stimuli and computers. However, current generative design algorithms focus on diagrammatic or spatial concepts that are either too abstract to understand or too detailed for early phase design exploration. This paper explores the uses of generative pre-trained transformers (GPT) for natural language design concept generation. Our experiments involve the use of GPT-2 and GPT-3 for different creative reasonings in design tasks. Both show reasonably good performance for verbal design concept generation.
翻訳日:2021-11-17 20:19:02 公開日:2021-11-16
# (参考訳) sequentialpointnet: 3次元動作認識のための強並列化ポイントクラウドシーケンスネットワーク [全文訳有]

SequentialPointNet: A strong parallelized point cloud sequence network for 3D action recognition ( http://arxiv.org/abs/2111.08492v1 )

ライセンス: CC BY 4.0
Xing Li, Qian Huang, Zhijian Wang, Zhenjie Hou, Tianjin Yang(参考訳) 3次元人間の行動のポイントクラウドシーケンスは、フレーム内空間情報とフレーム間時間情報の順序付けされていない。 点雲列の時空間構造を捉えるために、遠心部周辺の時空間-時空間近傍は通常構築される。 しかし、時空間局所近傍の計算的に高価な構築手順は、モデルの並列性を著しく制限する。 さらに,空間的・時間的情報を時空間的学習において等しく扱うことは不可能であり,人間の行動は空間的次元に沿って複雑であり,時間的次元に沿って単純である。 本稿では,時空間的局所符号化を避けるために,シーケンシャルポイントネットと呼ばれる強並列化点雲列ネットワークを提案する。 sequentialpointnetは2つのシリアルモジュール、すなわちフレーム内外観エンコーディングモジュールとフレーム間動きエンコーディングモジュールで構成されている。 人間の行動の強い空間構造をモデル化するために、フレーム内外観符号化モジュールにおいて各点雲フレームを並列に処理し、各フレームの特徴ベクトルを出力し、時間次元に沿った静的な外観変化を特徴付ける特徴ベクトルシーケンスを形成する。 人間の行動の弱い時間的変化をモデル化するために、フレーム間移動符号化モジュールにおいて、特徴ベクトル列上に時間的位置符号化と階層的ピラミッドプール戦略を実行する。 また、時空間コンテンツをよりよく探索するために、エンドツーエンドの3D動作認識を行う前に、人間の動作の複数のレベル特徴を集約する。 3つの公開データセットで実施された大規模な実験は、SequentialPointNetが最先端のアプローチより優れていることを示している。

Point cloud sequences of 3D human actions exhibit unordered intra-frame spatial information and ordered interframe temporal information. In order to capture the spatiotemporal structures of the point cloud sequences, cross-frame spatio-temporal local neighborhoods around the centroids are usually constructed. However, the computationally expensive construction procedure of spatio-temporal local neighborhoods severely limits the parallelism of models. Moreover, it is unreasonable to treat spatial and temporal information equally in spatio-temporal local learning, because human actions are complicated along the spatial dimensions and simple along the temporal dimension. In this paper, to avoid spatio-temporal local encoding, we propose a strong parallelized point cloud sequence network referred to as SequentialPointNet for 3D action recognition. SequentialPointNet is composed of two serial modules, i.e., an intra-frame appearance encoding module and an inter-frame motion encoding module. For modeling the strong spatial structures of human actions, each point cloud frame is processed in parallel in the intra-frame appearance encoding module and the feature vector of each frame is output to form a feature vector sequence that characterizes static appearance changes along the temporal dimension. For modeling the weak temporal changes of human actions, in the inter-frame motion encoding module, the temporal position encoding and the hierarchical pyramid pooling strategy are implemented on the feature vector sequence. In addition, in order to better explore spatio-temporal content, multiple level features of human movements are aggregated before performing the end-to-end 3D action recognition. Extensive experiments conducted on three public datasets show that SequentialPointNet outperforms stateof-the-art approaches.
翻訳日:2021-11-17 20:07:15 公開日:2021-11-16
# (参考訳) 衣服用固有画像の学習 [全文訳有]

Learning Intrinsic Images for Clothing ( http://arxiv.org/abs/2111.08521v1 )

ライセンス: CC BY 4.0
Kuo Jiang, Zian Wang, Xiaodong Yang(参考訳) 人間の衣服の復元は重要な課題であり、しばしば内在的な画像分解に依存している。 ドメイン固有のデータと粗い評価指標の欠如により、既存のモデルはグラフィックスアプリケーションで満足のいく結果を生み出すことができなかった。 本稿では,衣料画像における内在的画像分解に着目し,包括的改善を行った。 合成トレーニングセットと実世界のテストセットを含む,衣服固有の画像データセットであるclointrinsicsを収集した。 より解釈可能なエッジ対応メトリックとアノテーションスキームは、本質的なモデルの診断評価を可能にするテストセット用に設計されている。 最後に、慎重に設計された損失項と対向モジュールを持つClosInNetモデルを提案する。 簡単に入手できるラベルを使って現実世界のシェーディングから学び、小さな追加のアノテーションだけでパフォーマンスを大幅に改善する。 提案手法は, テクスチャコピー処理を著しく削減すると同時に, 驚くほど細部を保ちつつ, 既存の最先端手法を上回っている。

Reconstruction of human clothing is an important task and often relies on intrinsic image decomposition. With a lack of domain-specific data and coarse evaluation metrics, existing models failed to produce satisfying results for graphics applications. In this paper, we focus on intrinsic image decomposition for clothing images and have comprehensive improvements. We collected CloIntrinsics, a clothing intrinsic image dataset, including a synthetic training set and a real-world testing set. A more interpretable edge-aware metric and an annotation scheme is designed for the testing set, which allows diagnostic evaluation for intrinsic models. Finally, we propose ClothInNet model with carefully designed loss terms and an adversarial module. It utilizes easy-to-acquire labels to learn from real-world shading, significantly improves performance with only minor additional annotation effort. We show that our proposed model significantly reduce texture-copying artifacts while retaining surprisingly tiny details, outperforming existing state-of-the-art methods.
翻訳日:2021-11-17 19:44:53 公開日:2021-11-16
# (参考訳) SPDEによる非分離時空間グラフカーネル [全文訳有]

Non-separable Spatio-temporal Graph Kernels via SPDEs ( http://arxiv.org/abs/2111.08524v1 )

ライセンス: CC BY 4.0
Alexander Nikitin, ST John, Arno Solin, Samuel Kaski(参考訳) ガウス過程(英: Gaussian process、GP)は、グラフ上の推論と学習のための原理的かつ直接的なアプローチである。 しかし、時空間モデリングのための正当性グラフカーネルの欠如は、グラフ問題における使用を妨げている。 確率偏微分方程式(SPDE)とGPのグラフ上の明示的なリンクを利用し、空間と時間間の相互作用を捉える非分離な時空間グラフカーネルを導出する。 確率的熱方程式と波動方程式のグラフカーネルを定式化する。 グラフ上の時空間gpモデリングのための新しいツールを提供することにより、拡散、振動、その他の複雑な相互作用を特徴とする実世界のアプリケーションにおいて、既存のグラフカーネルよりも優れることを示す。

Gaussian processes (GPs) provide a principled and direct approach for inference and learning on graphs. However, the lack of justified graph kernels for spatio-temporal modelling has held back their use in graph problems. We leverage an explicit link between stochastic partial differential equations (SPDEs) and GPs on graphs, and derive non-separable spatio-temporal graph kernels that capture interaction across space and time. We formulate the graph kernels for the stochastic heat equation and wave equation. We show that by providing novel tools for spatio-temporal GP modelling on graphs, we outperform pre-existing graph kernels in real-world applications that feature diffusion, oscillation, and other complicated interactions.
翻訳日:2021-11-17 19:09:48 公開日:2021-11-16
# (参考訳) 逐次的コミュニティモード推定

Sequential Community Mode Estimation ( http://arxiv.org/abs/2111.08535v1 )

ライセンス: CC BY 4.0
Shubham Anand Jain, Shreyas Goenka, Divyam Bapna, Nikhil Karamchandani, Jayakrishnan Nair(参考訳) 我々は、集団を一組の共同体に分割し、個体の連続的無作為なサンプリングを通して、集団内の最大のコミュニティを特定する問題を研究する。 複数のサンプリングドメインがあり、これを 'emph{boxes} と呼び、人口を分割する。 各ボックスは異なるコミュニティの個人で構成され、各コミュニティは複数のボックスにまたがる可能性がある。 学習エージェントは、任意の選択されたボックスからランダムな個人を(置き換えて)サンプリングすることができる。 エージェントの目標は、サンプリング戦略と決定ルールの両方を最適化することで、最大のコミュニティを \emph{fixed budget} 設定で誤識別する可能性を最小限に抑えることである。 この問題に対する新しいアルゴリズムを提案し,解析し,任意のアルゴリズムの下でエラーの確率に関する情報理論の下限を確立する。 興味のある場合、アルゴリズムの下での誤差確率の指数的減衰速度は、定数因子まで最適であることが示されている。 提案アルゴリズムは実世界のデータセットのシミュレーションによってさらに検証される。

We consider a population, partitioned into a set of communities, and study the problem of identifying the largest community within the population via sequential, random sampling of individuals. There are multiple sampling domains, referred to as \emph{boxes}, which also partition the population. Each box may consist of individuals of different communities, and each community may in turn be spread across multiple boxes. The learning agent can, at any time, sample (with replacement) a random individual from any chosen box; when this is done, the agent learns the community the sampled individual belongs to, and also whether or not this individual has been sampled before. The goal of the agent is to minimize the probability of mis-identifying the largest community in a \emph{fixed budget} setting, by optimizing both the sampling strategy as well as the decision rule. We propose and analyse novel algorithms for this problem, and also establish information theoretic lower bounds on the probability of error under any algorithm. In several cases of interest, the exponential decay rates of the probability of error under our algorithms are shown to be optimal up to constant factors. The proposed algorithms are further validated via simulations on real-world datasets.
翻訳日:2021-11-17 18:47:29 公開日:2021-11-16
# (参考訳) 知識グラフ抽出による言語モデル解釈 [全文訳有]

Interpreting Language Models Through Knowledge Graph Extraction ( http://arxiv.org/abs/2111.08546v1 )

ライセンス: CC BY 4.0
Vinitra Swamy, Angelika Romanou, Martin Jaggi(参考訳) 大きなテキストコーパスでトレーニングされたトランスフォーマベースの言語モデルは、自然言語処理コミュニティで非常に人気があり、下流タスクの出発点として一般的に使われている。 これらのモデルは間違いなく有用であるが、従来の精度メトリクスを超えるパフォーマンスを定量化することは困難である。 本稿では,学習過程の逐次段階における獲得した知識のスナップショットを通して,BERTに基づく言語モデルを比較する。 学習コーパスからの構造化された関係は、探索タスクでマスキングされた言語モデルに問い合わせることで発見できる。 本稿では,RoBERTaの初期訓練の様々な段階において,クローズ文から知識グラフを抽出し,知識獲得のタイムラインを公開する手法を提案する。 本分析は, BERTモデル (DistilBERT, BERT-base, RoBERTa) の比較に拡張する。 本研究は,知識グラフ抽出(GED, Graph2Vec)を用いて言語モデルを比較する定量的枠組みを提案し,各モデルの言語的強みを識別する部分音声分析(POSOR)を示す。 これらのメトリクスを使用して、機械学習の実践者はモデルを比較し、モデルの振る舞いの強みと弱さを診断し、モデルのパフォーマンスを改善するために新たなターゲットデータセットを特定できる。

Transformer-based language models trained on large text corpora have enjoyed immense popularity in the natural language processing community and are commonly used as a starting point for downstream tasks. While these models are undeniably useful, it is a challenge to quantify their performance beyond traditional accuracy metrics. In this paper, we compare BERT-based language models through snapshots of acquired knowledge at sequential stages of the training process. Structured relationships from training corpora may be uncovered through querying a masked language model with probing tasks. We present a methodology to unveil a knowledge acquisition timeline by generating knowledge graph extracts from cloze "fill-in-the-blank&qu ot; statements at various stages of RoBERTa's early training. We extend this analysis to a comparison of pretrained variations of BERT models (DistilBERT, BERT-base, RoBERTa). This work proposes a quantitative framework to compare language models through knowledge graph extraction (GED, Graph2Vec) and showcases a part-of-speech analysis (POSOR) to identify the linguistic strengths of each model variant. Using these metrics, machine learning practitioners can compare models, diagnose their models' behavioral strengths and weaknesses, and identify new targeted datasets to improve model performance.
翻訳日:2021-11-17 18:46:24 公開日:2021-11-16
# (参考訳) トカマク核融合炉の乱流端プラズマ中のブロブの追跡 [全文訳有]

Tracking Blobs in the Turbulent Edge Plasma of Tokamak Fusion Reactors ( http://arxiv.org/abs/2111.08570v1 )

ライセンス: CC BY 4.0
Woonghee Han, Randall A. Pietersen, Rafael Villamor-Lora, Matthew Beveridge, Nicola Offeddu, Theodore Golfinopoulos, Christian Theiler, James L. Terry, Earl S. Marmar, Iddo Drori(参考訳) 乱流の解析は核融合プラズマ物理学において重要な領域である。 現在の理論モデルは、ブロブと呼ばれるあるプラズマ密度構造の進化に基づいて乱流の度合いを定量化する。 本研究では,合成データと実データの両方を用いてマスクR-CNNモデルをトレーニングすることにより,ガスパフイメージング(GPI)診断から得られた高頻度ビデオデータ中のこれらのブロブの形状と位置を追跡する。 その結果, 合成GPIデータと実実験GPIデータの両方でブロブ構造を効果的に追跡し, トカマクプラズマのエッジ乱流に伴うブロブ統計を推定する強力なツールとしての可能性を示した。

The analysis of turbulent flows is a significant area in fusion plasma physics. Current theoretical models quantify the degree of turbulence based on the evolution of certain plasma density structures, called blobs. In this work we track the shape and the position of these blobs in high frequency video data obtained from Gas Puff Imaging (GPI) diagnostics, by training a mask R-CNN model on synthetic data and testing on both synthetic and real data. As a result, our model effectively tracks blob structures on both synthetic and real experimental GPI data, showing its prospect as a powerful tool to estimate blob statistics linked with edge turbulence of the tokamak plasma.
翻訳日:2021-11-17 18:29:53 公開日:2021-11-16
# (参考訳) 多様なスキルを持つ複数人からのフィードバックによる強化学習 [全文訳有]

Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills ( http://arxiv.org/abs/2111.08596v1 )

ライセンス: CC BY 4.0
Taku Yamagata, Ryan McConville and Raul Santos-Rodriguez (Department of Engineering Mathematics, University of Bristol)(参考訳) 強化学習におけるロバスト性と探索性を改善するための有望なアプローチは、人間からのフィードバックと、対象環境の事前知識を取り入れることである。 しかし、品質に関する十分なフィードバックを得るには高すぎることが多い。 この問題を軽減するため、私たちは十分なフィードバックを生み出すために、異なるスキルレベルを持つ複数の専門家(および非専門家)のグループに頼ることを目標としています。 したがって、そのようなフィードバックは一貫性がなく、不十分である。 本稿では,人間のフィードバックから得られる情報を最大化しようとするベイズ的アプローチである,先行研究 -- アドバイス -- に基づいて,この大きなグループであるトレーナーからのフィードバックを受け入れるアルゴリズムを拡張し,各トレーナーの信頼性を推定する。 複数のトレーナーからのフィードバックを集約することで、全体のフィードバック精度が向上し、収集プロセスが2つの方法で容易になることを示す。 第一に、このアプローチは、一部のトレーナーが反対である場合に対処する。 第二に、トレーナーの信頼性に関する情報へのアクセスは、堅牢性の第二層を提供し、システム全体の信頼性を改善するためにシステム全体を管理する人々にとって貴重な情報を提供する。 フィードバック収集プロセスを改善したり、必要に応じて報酬関数の設計を変更するための実行可能なツールを提供する。 提案手法は,学習者の信頼性を正確に学習し,複数の学習者のフィードバックから得られる情報を最大化するために有効であることを示す。

A promising approach to improve the robustness and exploration in Reinforcement Learning is collecting human feedback and that way incorporating prior knowledge of the target environment. It is, however, often too expensive to obtain enough feedback of good quality. To mitigate the issue, we aim to rely on a group of multiple experts (and non-experts) with different skill levels to generate enough feedback. Such feedback can therefore be inconsistent and infrequent. In this paper, we build upon prior work -- Advise, a Bayesian approach attempting to maximise the information gained from human feedback -- extending the algorithm to accept feedback from this larger group of humans, the trainers, while also estimating each trainer's reliability. We show how aggregating feedback from multiple trainers improves the total feedback's accuracy and make the collection process easier in two ways. Firstly, this approach addresses the case of some of the trainers being adversarial. Secondly, having access to the information about each trainer reliability provides a second layer of robustness and offers valuable information for people managing the whole system to improve the overall trust in the system. It offers an actionable tool for improving the feedback collection process or modifying the reward function design if needed. We empirically show that our approach can accurately learn the reliability of each trainer correctly and use it to maximise the information gained from the multiple trainers' feedback, even if some of the sources are adversarial.
翻訳日:2021-11-17 18:21:07 公開日:2021-11-16
# (参考訳) 肺炎における深層学習の進歩とCovid-19の分類と局在:質的定量的分析 [全文訳有]

Advancement of Deep Learning in Pneumonia and Covid-19 Classification and Localization: A Qualitative and Quantitative Analysis ( http://arxiv.org/abs/2111.08606v1 )

ライセンス: CC BY 4.0
Aakash Shah, Manan Shah(参考訳) 毎年約4億5000万人が肺炎にかかり、250万人が死亡した。 コビッドウイルスは1億8100万人にものぼり、392万人が負傷した。 これらの疾患の死亡確率は、早期に診断されれば著しく低下する可能性がある。 しかし、現在の肺炎の診断方法(complaints + chest x-ray)とcovid-19(rt-pcr)はそれぞれ専門家の放射線技師と時間を必要とする。 ディープラーニングモデルの助けを借りて、肺炎とコビッド19は、胸部X線やCTスキャンから即座に検出できる。 このように、肺炎/covid-19の診断のプロセスはより効率的で広くできる。 本稿では,胸部x線画像とct画像から,地域性肺炎(cap),ウイルス性肺炎,covid-19の検出・局在化を目的とした深層学習法の主要な進歩を,質的・定量的に解明し,評価することを目的とする。 体系的なレビューとして,本論文では,汎用性に重点を置いたタスクに対して,スクラッチから修正あるいは作成したディープラーニングモデルアーキテクチャを説明することを目的とする。 それぞれのモデルについて、モデルがなぜそのように設計されているのか、特定のモデルが克服する課題、要求された仕様にモデルを変更した際のトレードオフ、という疑問に答える。 論文で記述された全てのモデルの定量的分析は、同じ目標で異なるモデルの有効性を定量化するためにも行われる。 いくつかのトレードオフは定量化できないため、論文全体で行われる定性分析で明確に言及されている。 すべてのデータセット、モデルアーキテクチャ、結果とともに、研究の詳細を1箇所にまとめて分析することにより、この分野に関心のある初心者や現在の研究者にワンストップソリューションを提供することを目指している。

Around 450 million people are affected by pneumonia every year which results in 2.5 million deaths. Covid-19 has also affected 181 million people which has lead to 3.92 million casualties. The chances of death in both of these diseases can be significantly reduced if they are diagnosed early. However, the current methods of diagnosing pneumonia (complaints + chest X-ray) and covid-19 (RT-PCR) require the presence of expert radiologists and time, respectively. With the help of Deep Learning models, pneumonia and covid-19 can be detected instantly from Chest X-rays or CT scans. This way, the process of diagnosing Pneumonia/Covid-19 can be made more efficient and widespread. In this paper, we aim to elicit, explain, and evaluate, qualitatively and quantitatively, major advancements in deep learning methods aimed at detecting or localizing community-acquired pneumonia (CAP), viral pneumonia, and covid-19 from images of chest X-rays and CT scans. Being a systematic review, the focus of this paper lies in explaining deep learning model architectures which have either been modified or created from scratch for the task at hand wiwth focus on generalizability. For each model, this paper answers the question of why the model is designed the way it is, the challenges that a particular model overcomes, and the tradeoffs that come with modifying a model to the required specifications. A quantitative analysis of all models described in the paper is also provided to quantify the effectiveness of different models with a similar goal. Some tradeoffs cannot be quantified, and hence they are mentioned explicitly in the qualitative analysis, which is done throughout the paper. By compiling and analyzing a large quantum of research details in one place with all the datasets, model architectures, and results, we aim to provide a one-stop solution to beginners and current researchers interested in this field.
翻訳日:2021-11-17 18:11:48 公開日:2021-11-16
# (参考訳) Project CGX:コモディティGPUのスケーラブルなディープラーニング [全文訳有]

Project CGX: Scalable Deep Learning on Commodity GPUs ( http://arxiv.org/abs/2111.08617v1 )

ライセンス: CC BY 4.0
Ilia Markov, Hamidreza Ramezani, Dan Alistarh(参考訳) トレーニングワークロードをスケールアウトする能力は、ディープラーニングの重要なパフォーマンス実現要因のひとつです。 主なスケーリングアプローチはデータ並列GPUベースのトレーニングであり、特に帯域幅のオーバープロビジョンを通じて、高効率なGPU間通信のためのハードウェアとソフトウェアのサポートによって強化されている。 サーバグレードとコンシューマグレードのGPUは、同様の計算エンベロープを持つことができるが、このようなサポートを持つ"クラウドグレード"サーバの間には、桁違いのコスト差がある。 本稿では,アルゴリズム設計とシステム設計により,コストのかかるハードウェアオーバープロビジョン手法を代替できるかどうかを考察し,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。 最新のモデルやタスクを完全精度でトレーニングする場合,我々のフレームワークは,8台のNVIDIA RTX 3090 GPUを使用して,コモディティシステム上で2~3倍の自己高速化を実現し,FLOPSに類似のピークを持つNVIDIA DGX-1サーバのスループットを超越することを可能にする。

The ability to scale out training workloads has been one of the key performance enablers of deep learning. The main scaling approach is data-parallel GPU-based training, which has been boosted by hardware and software support for highly efficient inter-GPU communication, in particular via bandwidth overprovisioning. This support comes at a price: there is an order of magnitude cost difference between "cloud-grade" servers with such support, relative to their "consumer-grade" counterparts, although server-grade and consumer-grade GPUs can have similar computational envelopes. In this paper, we investigate whether the expensive hardware overprovisioning approach can be supplanted via algorithmic and system design, and propose a framework called CGX, which provides efficient software support for communication compression. We show that this framework is able to remove communication bottlenecks from consumer-grade multi-GPU systems, in the absence of hardware support: when training modern models and tasks to full accuracy, our framework enables self-speedups of 2-3X on a commodity system using 8 consumer-grade NVIDIA RTX 3090 GPUs, and enables it to surpass the throughput of an NVIDIA DGX-1 server, which has similar peak FLOPS but benefits from bandwidth overprovisioning.
翻訳日:2021-11-17 17:45:23 公開日:2021-11-16
# (参考訳) 変分モード分解とgarchモデルを用いた線形および非線形損傷検出のためのデータ駆動アプローチ [全文訳有]

A Data-Driven Approach for Linear and Nonlinear Damage Detection Using Variational Mode Decomposition and GARCH Model ( http://arxiv.org/abs/2111.08620v1 )

ライセンス: CC BY 4.0
Vahid Reza Gharehbaghi, Hashem Kalbkhani, Ehsan Noroozinejad Farsangi, T.Y. Yang, Seyedali Mirjalili(参考訳) 本稿では,出力のみ応答を用いた構造物の線形損傷と非線形損傷の両方を検出するために,オリジナルのデータ駆動手法を提案する。 信号処理と特徴抽出のための変分モード分解(VMD)と一般化された自己回帰条件不整合性(GARCH)モデルをデプロイする。 この目的のために、VMDは応答信号を固有のモード関数(IMF)に分解する。 その後、GARCHモデルはIMFの統計を表すために使用される。 IMFのモデル係数は一次特徴ベクトルを構成する。 カーネルベース主成分分析 (PCA) と線形判別分析 (LDA) を用いて, 特徴空間にマッピングすることで, 特徴量の冗長性を低減する。 情報的特徴は3つの教師付き分類器、すなわちサポートベクターマシン(SVM)、k-nearest neighbor(kNN)、ファインツリーに別々に供給される。 線形および非線形損傷評価の2つの実験モデルを用いて,提案手法の性能評価を行った。 クルトーシスとARCHテストはGARCHモデルの互換性を証明した。

In this article, an original data-driven approach is proposed to detect both linear and nonlinear damage in structures using output-only responses. The method deploys variational mode decomposition (VMD) and a generalised autoregressive conditional heteroscedasticity (GARCH) model for signal processing and feature extraction. To this end, VMD decomposes the response signals into intrinsic mode functions (IMFs). Afterwards, the GARCH model is utilised to represent the statistics of IMFs. The model coefficients of IMFs construct the primary feature vector. Kernel-based principal component analysis (PCA) and linear discriminant analysis (LDA) are utilised to reduce the redundancy of the primary features by mapping them to the new feature space. The informative features are then fed separately into three supervised classifiers, namely support vector machine (SVM), k-nearest neighbour (kNN), and fine tree. The performance of the proposed method is evaluated on two experimentally scaled models in terms of linear and nonlinear damage assessment. Kurtosis and ARCH tests proved the compatibility of the GARCH model.
翻訳日:2021-11-17 17:19:49 公開日:2021-11-16
# (参考訳) ソフトminimum permutation invariant trainingを用いた単チャネル音声分離 [全文訳有]

Single-channel speech separation using Soft-minimum Permutation Invariant Training ( http://arxiv.org/abs/2111.08635v1 )

ライセンス: CC BY 4.0
Midia Yousefi, John H.L. Hansen(参考訳) 音声分離の目的は、単一のマイク記録から複数の音声源を抽出することである。 近年,ディープラーニングの進歩と大規模データセットの活用により,音声分離は教師付き学習問題として定式化されている。 これらのアプローチは、教師付き学習アルゴリズム、典型的にはディープニューラルネットワークを用いて、音声、話者、背景雑音の識別パターンを学習することを目的としている。 教師付き音声分離における長期的問題は、それぞれの分離された音声信号に対して正しいラベルを見つけることである。 Permutation ambiguityは、分離されたソースと利用可能な単一話者音声ラベルの間の出力ラベル割り当てを決定する問題を指す。 最良の出力ラベルの割り当てを見つけるには分離誤差の計算が必要であり、これは後にモデルのパラメータの更新に使用される。 近年,ラベルあいまいさ問題に対処する上で,PIT(Permutation Invariant Training)が有望なソリューションであることが示されている。 しかし、PITによる出力ラベル割り当ての過度な選択は、準最適訓練モデルをもたらす。 そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。 提案手法は,PIT(Permutation Invariant Training)音声分離法において,Long-Short Term Memory (LSTM) アーキテクチャを応用した。 実験の結果,提案手法は従来のPIT音声分離に比べて,SDR(Signal to Distortion Ratio)では+1dB,SIR(Signal to Interference Ratio)では+1.5dBで有意に優れていた(p-value $ < 0.01$)。

The goal of speech separation is to extract multiple speech sources from a single microphone recording. Recently, with the advancement of deep learning and availability of large datasets, speech separation has been formulated as a supervised learning problem. These approaches aim to learn discriminative patterns of speech, speakers, and background noise using a supervised learning algorithm, typically a deep neural network. A long-lasting problem in supervised speech separation is finding the correct label for each separated speech signal, referred to as label permutation ambiguity. Permutation ambiguity refers to the problem of determining the output-label assignment between the separated sources and the available single-speaker speech labels. Finding the best output-label assignment is required for calculation of separation error, which is later used for updating parameters of the model. Recently, Permutation Invariant Training (PIT) has been shown to be a promising solution in handling the label ambiguity problem. However, the overconfident choice of the output-label assignment by PIT results in a sub-optimal trained model. In this work, we propose a probabilistic optimization framework to address the inefficiency of PIT in finding the best output-label assignment. Our proposed method entitled trainable Soft-minimum PIT is then employed on the same Long-Short Term Memory (LSTM) architecture used in Permutation Invariant Training (PIT) speech separation method. The results of our experiments show that the proposed method outperforms conventional PIT speech separation significantly (p-value $ < 0.01$) by +1dB in Signal to Distortion Ratio (SDR) and +1.5dB in Signal to Interference Ratio (SIR).
翻訳日:2021-11-17 17:07:18 公開日:2021-11-16
# (参考訳) SVM分割を用いた多クラス最適分類木 [全文訳有]

Multiclass Optimal Classification Trees with SVM-splits ( http://arxiv.org/abs/2111.08674v1 )

ライセンス: CC BY 4.0
V\'ictor Blanco, Alberto Jap\'on, Justo Puerto(参考訳) 本稿では,木型分類規則を多クラスインスタンスに適用する数学的最適化手法を提案する。 提案手法は,葉ノードを除いて,ラベルを一時的に取り除き,SVMで超平面を分離して2つのクラスに分類する分類木の構築から成り立っている。 本稿では,この問題に対する混合整数非線形プログラミングの定式化と,他のベンチマーク分類手法に対する提案手法の性能評価を行うための計算実験用拡張バッテリの結果について報告する。

In this paper we present a novel mathematical optimization-based methodology to construct tree-shaped classification rules for multiclass instances. Our approach consists of building Classification Trees in which, except for the leaf nodes, the labels are temporarily left out and grouped into two classes by means of a SVM separating hyperplane. We provide a Mixed Integer Non Linear Programming formulation for the problem and report the results of an extended battery of computational experiments to assess the performance of our proposal with respect to other benchmarking classification methods.
翻訳日:2021-11-17 16:47:18 公開日:2021-11-16
# MoRe-Fi:深層学習UWBレーダによるモーションロバスト・微粒呼吸モニタリング

MoRe-Fi: Motion-robust and Fine-grained Respiration Monitoring via Deep-Learning UWB Radar ( http://arxiv.org/abs/2111.08195v1 )

ライセンス: Link先を確認
Tianyue Zheng, Zhe Chen, Shujie Zhang, Chao Cai, Jun Luo(参考訳) 医療や生物医学の分野では、呼吸モニタリングはウェアラブルセンサーを実際に使用することが多く、人体との直接の接触によって不便を生じさせる。 そのため、研究者はコンタクトフリーの代替手段を常に探している。 それでも、既存の接触のないデザインは、主に人間の被験者が静的のままでいなければならない。 幸いなことに、高周波(RF)は接触のないセンシングを可能にするが、従来のフィルタリングでは分離できない動作干渉は深層学習の助けを借りて呼吸波形を蒸留する可能性がある。 この可能性を実現するため,身体運動下で微細な呼吸監視を行うためにMoRe-Fiを導入する。 MoRe-FiはIR-UWBレーダーを利用してコンタクトレスセンシングを実現し、複雑なレーダー信号をデータ拡張に活用する。 more-fiの中核は、新しい変分エンコーダ-デコーダネットワークであり、体の動きによって変調される呼吸波形を非線形に分離することを目的としている。 12名の被験者と66時間データを用いた実験により,体動による干渉にもかかわらず,より正確な呼吸波形の回復が得られた。 肺疾患診断におけるMoRe-Fiの有用性についても検討した。

Crucial for healthcare and biomedical applications, respiration monitoring often employs wearable sensors in practice, causing inconvenience due to their direct contact with human bodies. Therefore, researchers have been constantly searching for contact-free alternatives. Nonetheless, existing contact-free designs mostly require human subjects to remain static, largely confining their adoptions in everyday environments where body movements are inevitable. Fortunately, radio-frequency (RF) enabled contact-free sensing, though suffering motion interference inseparable by conventional filtering, may offer a potential to distill respiratory waveform with the help of deep learning. To realize this potential, we introduce MoRe-Fi to conduct fine-grained respiration monitoring under body movements. MoRe-Fi leverages an IR-UWB radar to achieve contact-free sensing, and it fully exploits the complex radar signal for data augmentation. The core of MoRe-Fi is a novel variational encoder-decoder network; it aims to single out the respiratory waveforms that are modulated by body movements in a non-linear manner. Our experiments with 12 subjects and 66-hour data demonstrate that MoRe-Fi accurately recovers respiratory waveform despite the interference caused by body movements. We also discuss potential applications of MoRe-Fi for pulmonary disease diagnoses.
翻訳日:2021-11-17 16:22:57 公開日:2021-11-16
# 深層学習による拡散光学画像からの位相関数推定

Phase function estimation from a diffuse optical image via deep learning ( http://arxiv.org/abs/2111.08227v1 )

ライセンス: Link先を確認
Yuxuan Liang, Chuang Niu, Chen Wei, Shenghan Ren, Wenxiang Cong and Ge Wang(参考訳) 位相関数はモンテカルロ (MC) シミュレーションのための光伝搬モデルの鍵要素であり、通常は関連するパラメータを持つ解析関数が組み込まれている。 近年,Henyey-Greenstein相関数のような特定の形態の位相関数のパラメータを推定する機械学習手法が報告されているが,我々の知る限り,位相関数の形式を決定するための研究は行われていない。 本稿では、位相関数の形式を明示的に仮定することなく、拡散光学画像から位相関数を推定する畳み込みニューラルネットワークを設計する。 具体的には,ガウス混合モデルを用いて位相関数の一般表現を行い,モデルパラメータを正確に学習する。 ガウス混合モデルは、MCシミュレーションにおける偏向角サンプリングを容易にする位相関数の解析式を提供し、自由パラメータの数を大幅に増やさないため、選択される。 提案手法は,異方性因子の異なるhenyey-greenstein相関数を用いて,典型的な生体組織のmcシミュレーション反射画像上で検証する。 フィールド・オブ・ビュー(FOV)と空間分解能が誤差に与える影響を解析して推定法を最適化する。 位相関数の平均二乗誤差は 0.01 であり、異方性係数の相対誤差は 3.28% である。

The phase function is a key element of a light propagation model for Monte Carlo (MC) simulation, which is usually fitted with an analytic function with associated parameters. In recent years, machine learning methods were reported to estimate the parameters of the phase function of a particular form such as the Henyey-Greenstein phase function but, to our knowledge, no studies have been performed to determine the form of the phase function. Here we design a convolutional neural network to estimate the phase function from a diffuse optical image without any explicit assumption on the form of the phase function. Specifically, we use a Gaussian mixture model as an example to represent the phase function generally and learn the model parameters accurately. The Gaussian mixture model is selected because it provides the analytic expression of phase function to facilitate deflection angle sampling in MC simulation, and does not significantly increase the number of free parameters. Our proposed method is validated on MC-simulated reflectance images of typical biological tissues using the Henyey-Greenstein phase function with different anisotropy factors. The effects of field of view (FOV) and spatial resolution on the errors are analyzed to optimize the estimation method. The mean squared error of the phase function is 0.01 and the relative error of the anisotropy factor is 3.28%.
翻訳日:2021-11-17 16:22:34 公開日:2021-11-16
# CLARA: ネットワークスライシングのための制約付き強化学習に基づくリソース割り当てフレームワーク

CLARA: A Constrained Reinforcement Learning Based Resource Allocation Framework for Network Slicing ( http://arxiv.org/abs/2111.08397v1 )

ライセンス: Link先を確認
Yongshuai Liu, Jiaxin Ding, Zhi-Li Zhang, Xin Liu(参考訳) モバイルネットワークが普及するにつれ、サービスの多様化が進み、既存のネットワークからの柔軟性が向上しています。 ネットワークスライシングは、5gと将来のネットワークにおけるリソース利用の有望なソリューションとして提案されている。 ネットワークスライシングでは、動的リソースオーケストレーションとネットワークスライス管理が資源利用の最大化に不可欠である。 残念ながら、このプロセスは、正確なモデルと動的な隠れ構造がないため、従来のアプローチが効果的になるには複雑すぎる。 モデルや隠れ構造を知らずにCMDP(Constrained Markov Decision Process)として問題を定式化する。 さらに、制約付き強化LeArningに基づくリソース割当アルゴリズムであるCLARAを用いて、この問題を解決することを提案する。 特に,適応型内点ポリシー最適化と投影層を用いて,累積制約と瞬時制約をそれぞれ解析する。 評価の結果,CLARAはリソース割り当てにおいて,サービス要求の保証とともに明らかにベースラインを上回ります。

As mobile networks proliferate, we are experiencing a strong diversification of services, which requires greater flexibility from the existing network. Network slicing is proposed as a promising solution for resource utilization in 5G and future networks to address this dire need. In network slicing, dynamic resource orchestration and network slice management are crucial for maximizing resource utilization. Unfortunately, this process is too complex for traditional approaches to be effective due to a lack of accurate models and dynamic hidden structures. We formulate the problem as a Constrained Markov Decision Process (CMDP) without knowing models and hidden structures. Additionally, we propose to solve the problem using CLARA, a Constrained reinforcement LeArning based Resource Allocation algorithm. In particular, we analyze cumulative and instantaneous constraints using adaptive interior-point policy optimization and projection layer, respectively. Evaluations show that CLARA clearly outperforms baselines in resource allocation with service demand guarantees.
翻訳日:2021-11-17 16:22:15 公開日:2021-11-16
# ランクレグレット最小化

Rank-Regret Minimization ( http://arxiv.org/abs/2111.08563v1 )

ライセンス: Link先を確認
Xingxing Xiao and Jianzhong Li(参考訳) 複数基準の意思決定では、データベースから小さな代表サブセットを見つける必要があることが多い。 最近提案された手法は、remove minimization set (rms) クエリである。 rms はデータセット d の固定サイズのサブセット s を返し、s の後悔率を最小にする(s の top1 のスコアと d の top-1 のスコアの違いは、任意のユーティリティ関数に対して)。 既存の研究によると、後悔率はユーザーの後悔レベルを正確に定量化できない。 さらに、後悔率に対して、ユーザはランクの概念を理解している。 その結果、最小集合 S を少なくとも k 階数レグレット(D のソートされたリストにおける S のタプルの最小ランク)で見つけるという問題を検討した。 RMSに対応して、上述の問題をランクレグレット最小化(RRM)問題として定義し、可能なすべてのユーティリティ関数の最大ランクレグレットを最小化する固定サイズセットSを求める。 さらに、 RRM を一般化し、制限空間における関数に対する S の階数の最小化(RRRM)問題を提案する。 RRRMのソリューションは、通常、低い後悔レベルを持ち、一部のユーザの特定の好みに役立てることができる。 2次元空間において、RRMの最適解を見つけるために動的プログラミングアルゴリズム2DRRMを設計する。 hd空間において、出力サイズを制限したrrmのためのアルゴリズムhdrrmを提案し、ランクレグレットに対する二重近似保証を導入する。 2DRRMもHDRRMもRRRM問題に一般化できる。 アルゴリズムの効率と有効性を検証するために,合成データと実データを用いて広範な実験を行った。

Multi-criteria decision-making often requires finding a small representative subset from the database. A recently proposed method is the regret minimization set (RMS) query. RMS returns a fixed size subset S of dataset D that minimizes the regret ratio of S (the difference between the score of top1 in S and the score of top-1 in D, for any possible utility function). Existing work showed that the regret-ratio is not able to accurately quantify the regret level of a user. Further, relative to the regret-ratio, users do understand the notion of rank. Consequently, it considered the problem of finding a minimal set S with at most k rank-regret (the minimal rank of tuples of S in the sorted list of D). Corresponding to RMS, we focus on the dual version of the above problem, defined as the rank-regret minimization (RRM) problem, which seeks to find a fixed size set S that minimizes the maximum rank-regret for all possible utility functions. Further, we generalize RRM and propose the restricted rank-regret minimization (RRRM) problem to minimize the rank-regret of S for functions in a restricted space. The solution for RRRM usually has a lower regret level and can better serve the specific preferences of some users. In 2D space, we design a dynamic programming algorithm 2DRRM to find the optimal solution for RRM. In HD space, we propose an algorithm HDRRM for RRM that bounds the output size and introduces a double approximation guarantee for rank-regret. Both 2DRRM and HDRRM can be generalized to the RRRM problem. Extensive experiments are performed on the synthetic and real datasets to verify the efficiency and effectiveness of our algorithms.
翻訳日:2021-11-17 16:19:25 公開日:2021-11-16
# 確率外勾配:一般解析と改善率

Stochastic Extragradient: General Analysis and Improved Rates ( http://arxiv.org/abs/2111.08611v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Hugo Berard, Gauthier Gidel, Nicolas Loizou(参考訳) 確率的超勾配法(seg)は、様々な機械学習タスクに現れるmin-max最適化と変分不等式問題(vip)を解決する最も一般的なアルゴリズムの1つである。 しかし、SEGの収束性に関するいくつかの重要な質問は、確率勾配のサンプリング、ミニバッチ、非単調な項を持つ単調有限サム変分不等式に対する収束保証など、まだオープンである。 そこで本研究では,SEGのいくつかの変種を統一的に解析できる理論的枠組みを開発した。 リプシッツ性の下でのSame-Sample SEGや一様有界な分散の下での独立サンプルSEGのような標準設定に加えて、本手法は文献でこれまで明らかに考えられていなかったSEGの変種を解析することができる。 特に,SEGを任意のサンプリングで分析し,重要サンプリングと様々なミニバッチ戦略を特殊なケースとして扱う。 新たなSEG変種に対する我々のレートは、現在の最先端収束保証よりも優れており、制約の少ない仮定に依存している。

The Stochastic Extragradient (SEG) method is one of the most popular algorithms for solving min-max optimization and variational inequalities problems (VIP) appearing in various machine learning tasks. However, several important questions regarding the convergence properties of SEG are still open, including the sampling of stochastic gradients, mini-batching, convergence guarantees for the monotone finite-sum variational inequalities with possibly non-monotone terms, and others. To address these questions, in this paper, we develop a novel theoretical framework that allows us to analyze several variants of SEG in a unified manner. Besides standard setups, like Same-Sample SEG under Lipschitzness and monotonicity or Independent-Samples SEG under uniformly bounded variance, our approach allows us to analyze variants of SEG that were never explicitly considered in the literature before. Notably, we analyze SEG with arbitrary sampling which includes importance sampling and various mini-batching strategies as special cases. Our rates for the new variants of SEG outperform the current state-of-the-art convergence guarantees and rely on less restrictive assumptions.
翻訳日:2021-11-17 16:18:58 公開日:2021-11-16
# 非侵襲的bciにおける効果的なメンタルタスク分類のための特徴選択技術を用いたパワースペクトル手法の有用性について

On the utility of power spectral techniques with feature selection techniques for effective mental task classification in noninvasive BCI ( http://arxiv.org/abs/2111.08154v1 )

ライセンス: Link先を確認
Akshansh Gupta, Ramesh Kumar Agrawal, Jyoti Singh Kirar, Javier Andreu-Perez, Wei-Ping Ding, Chin-Teng Lin, Mukesh Prasad(参考訳) 本稿では,BCIにおける脳-コンピュータ・インタフェース(BCI)の分類について検討している。 BCIモデルの性能は、主に複数のチャネルを通して得られる特徴ベクトルのサイズに依存する。 メンタルタスク分類の場合、機能に対するトレーニングサンプルの可用性は最小限である。 機能選択は、無関係で余分な特徴を取り除き、メンタルタスク分類の比率を上げるためにしばしば用いられる。 本稿では,メンタルタスク分類のための関連スペクトル特徴と非冗長スペクトル特徴の選択手法を提案する。 これは、非常によく知られた4つの多変量特徴選択方法viz、Bhattacharya's Distance、Ratio of Scatter Matrices、Linear Regression、Minimum Redundancy & Maximum Relevanceを使って実現できる。 この研究は、メンタルタスク分類のための多変量および単変量特徴選択の比較分析も扱う。 以上の結果より,メンタルタスク分類における学習モデルの性能が大幅に向上したことが示された。 さらに,提案手法の有効性を,ロバストなランキングアルゴリズムとフリードマンの統計検定により検証し,最適の組み合わせを見いだし,パワースペクトル密度と特徴選択法の異なる組み合わせを比較することで検証した。

In this paper classification of mental task-root Brain-Computer Interfaces (BCI) is being investigated, as those are a dominant area of investigations in BCI and are of utmost interest as these systems can be augmented life of people having severe disabilities. The BCI model's performance is primarily dependent on the size of the feature vector, which is obtained through multiple channels. In the case of mental task classification, the availability of training samples to features are minimal. Very often, feature selection is used to increase the ratio for the mental task classification by getting rid of irrelevant and superfluous features. This paper proposes an approach to select relevant and non-redundant spectral features for the mental task classification. This can be done by using four very known multivariate feature selection methods viz, Bhattacharya's Distance, Ratio of Scatter Matrices, Linear Regression and Minimum Redundancy & Maximum Relevance. This work also deals with a comparative analysis of multivariate and univariate feature selection for mental task classification. After applying the above-stated method, the findings demonstrate substantial improvements in the performance of the learning model for mental task classification. Moreover, the efficacy of the proposed approach is endorsed by carrying out a robust ranking algorithm and Friedman's statistical test for finding the best combinations and comparing different combinations of power spectral density and feature selection methods.
翻訳日:2021-11-17 16:16:29 公開日:2021-11-16
# グラフニューラルネットワークによる故障診断 : レビュー

Graph neural network-based fault diagnosis: a review ( http://arxiv.org/abs/2111.08185v1 )

ライセンス: Link先を確認
Zhiwen Chen, Jiamin Xu, Cesare Alippi, Steven X. Ding, Yuri Shardt, Tao Peng, Chunhua Yang(参考訳) グラフニューラルネットワーク(GNN)に基づく障害診断(FD)は,複数のアプリケーションドメインから取得したデータがグラフとして有利に表現できることから,近年注目されている。 実際、この表現形式は従来のFDアプローチよりも優れたパフォーマンスをもたらしている。 本稿では,GNNの簡単な紹介,故障診断分野への応用の可能性,今後の展望について述べる。 まず,ニューラルネットワークを用いたfd手法について,時系列,画像,グラフなどのデータ表現に着目して検討する。 次に,グラフ畳み込みネットワーク,グラフアテンションネットワーク,グラフサンプルとアグリゲーション,グラフオートエンコーダ,空間-時間グラフ畳み込みネットワークに着目し,gnnの基本原則と基本アーキテクチャを紹介する。 第3に、GNNに基づく最も関連性の高い故障診断手法が詳細な実験により検証され、GNNに基づく手法が優れた故障診断性能を達成できるという結論が得られた。 最後に、議論と今後の課題が提供される。

Graph neural network (GNN)-based fault diagnosis (FD) has received increasing attention in recent years, due to the fact that data coming from several application domains can be advantageously represented as graphs. Indeed, this particular representation form has led to superior performance compared to traditional FD approaches. In this review, an easy introduction to GNN, potential applications to the field of fault diagnosis, and future perspectives are given. First, the paper reviews neural network-based FD methods by focusing on their data representations, namely, time-series, images, and graphs. Second, basic principles and principal architectures of GNN are introduced, with attention to graph convolutional networks, graph attention networks, graph sample and aggregate, graph auto-encoder, and spatial-temporal graph convolutional networks. Third, the most relevant fault diagnosis methods based on GNN are validated through the detailed experiments, and conclusions are made that the GNN-based methods can achieve good fault diagnosis performance. Finally, discussions and future challenges are provided.
翻訳日:2021-11-17 16:16:05 公開日:2021-11-16
# リッチフローとニューラルネットワークの挙動の整合性に関する考察

Thoughts on the Consistency between Ricci Flow and Neural Network Behavior ( http://arxiv.org/abs/2111.08410v1 )

ライセンス: Link先を確認
Jun Chen, Tianxin Huang, Wenzhou Chen, Yong Liu(参考訳) リッチフロー(ricci flow)は、リーマン多様体内の計量をより正則に発展させるための偏微分方程式である。 しかし、ほとんどの場合、リッチフローは特異点を生じさせ、解の発散を引き起こす傾向がある。 本稿では,リッチ・ディタック流下の線形近ユークリッド計量に近い距離の動的安定性と収束を証明し,多様体のマイクロサージを支援する線形近ユークリッド計量を提案する。 実際には、情報幾何学とミラー降下点の観点から、線形に近いユークリッド多様体上のニューラルネットワークに対して最も急勾配勾配流を与える。 ニューラルネットワークのトレーニング過程において、その計量はリッチ・デトゥルク流下での線形に近いユークリッド多様体の収束挙動と一致する線形に近いユークリッド計量に連続的に収束することが観察された。

The Ricci flow is a partial differential equation for evolving the metric in a Riemannian manifold to make it more regular. However, in most cases, the Ricci flow tends to develop singularities and lead to divergence of the solution. In this paper, we propose the linearly nearly Euclidean metric to assist manifold micro-surgery, which means that we prove the dynamical stability and convergence of the metrics close to the linearly nearly Euclidean metric under the Ricci-DeTurck flow. In practice, from the information geometry and mirror descent points of view, we give the steepest descent gradient flow for neural networks on the linearly nearly Euclidean manifold. During the training process of the neural network, we observe that its metric will also regularly converge to the linearly nearly Euclidean metric, which is consistent with the convergent behavior of linearly nearly Euclidean manifolds under Ricci-DeTurck flow.
翻訳日:2021-11-17 16:15:47 公開日:2021-11-16
# 多行列競合勾配降下

Polymatrix Competitive Gradient Descent ( http://arxiv.org/abs/2111.08565v1 )

ライセンス: Link先を確認
Jeffrey Ma, Alistair Letcher, Florian Sch\"afer, Yuanyuan Shi, and Anima Anandkumar(参考訳) 多くの経済ゲームや機械学習のアプローチは、複数のエージェントがそれぞれの目的関数を最小化している競合最適化問題とみなすことができる。 勾配降下はシングルエージェント最適化の信頼性の高い基本的な作業法であるが、しばしば競合最適化の振動を引き起こす。 本研究では,任意のエージェント数を含む一般和競合最適化の解法として,PCGD(Polymatrix competitive gradient descent)を提案する。 本手法の更新は局所ポリマトリクス近似のナッシュ平衡として二次正則化を行い,方程式の線形系を解くことにより効率的に計算できる。 我々は,n$-player general-sumゲームにおける安定不動点へのpcgdの局所収束を証明し,ステップサイズをプレイヤー相互作用の強さに適応する必要はないことを示した。 我々はPCGDを用いてマルチエージェント強化学習のポリシーを最適化し、スネーク、マルコフサッカー、電気市場ゲームにおいてその利点を実証する。 pcgdがトレーニングしたエージェントは、同時勾配降下、シンプレクティック勾配調整、およびスネークおよびマルコフサッカーゲームおよび電気市場ゲームにおいて、同時勾配降下および超勾配法の両方よりも高速に訓練される。

Many economic games and machine learning approaches can be cast as competitive optimization problems where multiple agents are minimizing their respective objective function, which depends on all agents' actions. While gradient descent is a reliable basic workhorse for single-agent optimization, it often leads to oscillation in competitive optimization. In this work we propose polymatrix competitive gradient descent (PCGD) as a method for solving general sum competitive optimization involving arbitrary numbers of agents. The updates of our method are obtained as the Nash equilibria of a local polymatrix approximation with a quadratic regularization, and can be computed efficiently by solving a linear system of equations. We prove local convergence of PCGD to stable fixed points for $n$-player general-sum games, and show that it does not require adapting the step size to the strength of the player-interactions. We use PCGD to optimize policies in multi-agent reinforcement learning and demonstrate its advantages in Snake, Markov soccer and an electricity market game. Agents trained by PCGD outperform agents trained with simultaneous gradient descent, symplectic gradient adjustment, and extragradient in Snake and Markov soccer games and on the electricity market game, PCGD trains faster than both simultaneous gradient descent and the extragradient method.
翻訳日:2021-11-17 16:12:56 公開日:2021-11-16
# グラフニューラルネットワークによるハロ質量推定

Inferring halo masses with Graph Neural Networks ( http://arxiv.org/abs/2111.08683v1 )

ライセンス: Link先を確認
Pablo Villanueva-Domingo, Francisco Villaescusa-Navarro, Daniel Angl\'es-Alc\'azar, Shy Genel, Federico Marinacci, David N. Spergel, Lars Hernquist, Mark Vogelsberger, Romeel Dave, Desika Narayanan(参考訳) 暗黒物質の性質と性質に関する知識を改善するためには、ハロ・ガラックス接続を理解することが基本である。 この研究では、銀河の位置、速度、恒星の質量、半径からハローの質量を推定するモデルを構築します。 銀河の性質と位相空間の相関関係から情報を取得するために、不規則でスパースなデータを扱うように設計されたグラフニューラルネットワーク(GNN)を用いる。 我々は、MachinE Learning Simulations (CAMELS)プロジェクトを用いて、2000以上の最先端のシミュレーションから銀河に関するモデルをトレーニングする。 我々のモデルは、宇宙論と天体物理学の不確かさを考慮し、ハロの質量を$\sim$0.2 dex精度で制限することができる。 さらに、一連のシミュレーションで訓練されたGNNは、異なるサブグリッド物理モデルを用いて異なるコードで実行されるシミュレーションでテストした場合、その精度の一部を維持でき、その手法の堅牢性を示している。 GNNのPyTorch Geometric実装はGithubでhttps://github.com/P abloVD/HaloGraphNetで公開されている。

Understanding the halo-galaxy connection is fundamental in order to improve our knowledge on the nature and properties of dark matter. In this work we build a model that infers the mass of a halo given the positions, velocities, stellar masses, and radii of the galaxies it hosts. In order to capture information from correlations among galaxy properties and their phase-space, we use Graph Neural Networks (GNNs), that are designed to work with irregular and sparse data. We train our models on galaxies from more than 2,000 state-of-the-art simulations from the Cosmology and Astrophysics with MachinE Learning Simulations (CAMELS) project. Our model, that accounts for cosmological and astrophysical uncertainties, is able to constrain the masses of the halos with a $\sim$0.2 dex accuracy. Furthermore, a GNN trained on a suite of simulations is able to preserve part of its accuracy when tested on simulations run with a different code that utilizes a distinct subgrid physics model, showing the robustness of our method. The PyTorch Geometric implementation of the GNN is publicly available on Github at https://github.com/P abloVD/HaloGraphNet
翻訳日:2021-11-17 16:12:27 公開日:2021-11-16
# 高速4次元データ同化のためのアジョイントマッチングニューラルネットワーク

Adjoint-Matching Neural Network Surrogates for Fast 4D-Var Data Assimilation ( http://arxiv.org/abs/2111.08626v1 )

ライセンス: Link先を確認
Austin Chennault, Andrey A. Popov, Amit N. Subrahmanya, Rachel Cooper, Anuj Karpatne, Adrian Sandu(参考訳) 多くの運用数値天気予報システムで使用されるデータ同化手順は、4D-Varアルゴリズムの変種に基づいている。 4D-Var問題を解くコストは、物理モデルの前進および随伴評価のコストに支配される。 これは、高速で近似的なサロゲートモデルによる置換を動機付ける。 ニューラルネットワークは、代理モデルのデータ駆動生成に有望なアプローチを提供する。 サロゲート4d-var問題の解の精度は、他のサロゲートモデリングアプローチと一般的な非線形設定のフォワードと随伴の正確なモデリングに依存することが示されている。 ニューラルネットワークサロゲートの構築にデリバティブ情報を組み込むためのいくつかのアプローチを定式化し分析する。 得られたネットワークは、トレーニングセットデータセットと、Lorenz-63システム上のシーケンシャルデータ同化設定でテストされる。 2つの手法は、随伴情報のない訓練されたサロゲートネットワークと比較して優れた性能を示し、訓練プロセスに随伴情報を組み込むことの利点を示す。

The data assimilation procedures used in many operational numerical weather forecasting systems are based around variants of the 4D-Var algorithm. The cost of solving the 4D-Var problem is dominated by the cost of forward and adjoint evaluations of the physical model. This motivates their substitution by fast, approximate surrogate models. Neural networks offer a promising approach for the data-driven creation of surrogate models. The accuracy of the surrogate 4D-Var problem's solution has been shown to depend explicitly on accurate modeling of the forward and adjoint for other surrogate modeling approaches and in the general nonlinear setting. We formulate and analyze several approaches to incorporating derivative information into the construction of neural network surrogates. The resulting networks are tested on out of training set data and in a sequential data assimilation setting on the Lorenz-63 system. Two methods demonstrate superior performance when compared with a surrogate network trained without adjoint information, showing the benefit of incorporating adjoint information into the training process.
翻訳日:2021-11-17 16:11:47 公開日:2021-11-16
# (参考訳) 高速ハイパースペクトル画像超解像のための潜在エンコーダ結合生成逆数ネットワーク(LE-GAN) [全文訳有]

A Latent Encoder Coupled Generative Adversarial Network (LE-GAN) for Efficient Hyperspectral Image Super-resolution ( http://arxiv.org/abs/2111.08685v1 )

ライセンス: CC0 1.0
Yue Shi, Liangxiu Han, Lianghao Han, Sheng Chang, Tongle Hu, Darren Dancey(参考訳) HSI(Realistic Hyperspectral Image)は、高分解能(HR) HSIを低分解能(LR)画像から高分解能(HR) HSIを生成することを目的としている。 generative adversarial network(gan)は、画像超解像のための効果的なディープラーニングフレームワークであることが証明されている。 しかし、既存のGANベースのモデルの最適化プロセスは、しばしばモード崩壊の問題に悩まされ、スペクトル空間不変再構成の限られた能力に繋がる。 これは生成したHSIのスペクトル空間歪みを、特に大きなアップスケーリング係数で引き起こす可能性がある。 モード崩壊の問題を緩和するため,本研究では,画像空間から潜在空間へのスペクトル空間的特徴をマッピングし,生成したサンプルを正規化するための結合成分を生成する,潜在エンコーダ(LE-GAN)を組み合わせた新しいGANモデルを提案する。 本質的に、HSI を潜在空間に埋め込まれた高次元多様体として扱う。 したがって、GANモデルの最適化は、潜在空間における高分解能HSIサンプルの分布を学習する問題に変換され、生成した高分解能HSIの分布を元の高分解能標本の分布に近づける。 我々は,超解像モデルの性能とモード崩壊を緩和する性能について実験を行った。 提案手法は,センサの異なる2つの実HSIデータセット(AVIRISとUHD-185)を用いて,様々なスケールアップ要因とノイズレベルを付加し,最先端の超解像モデル(HyCoNet,LTTR,BAGAN, SR-GAN,WGAN)と比較し,検証を行った。

Realistic hyperspectral image (HSI) super-resolution (SR) techniques aim to generate a high-resolution (HR) HSI with higher spectral and spatial fidelity from its low-resolution (LR) counterpart. The generative adversarial network (GAN) has proven to be an effective deep learning framework for image super-resolution. However, the optimisation process of existing GAN-based models frequently suffers from the problem of mode collapse, leading to the limited capacity of spectral-spatial invariant reconstruction. This may cause the spectral-spatial distortion on the generated HSI, especially with a large upscaling factor. To alleviate the problem of mode collapse, this work has proposed a novel GAN model coupled with a latent encoder (LE-GAN), which can map the generated spectral-spatial features from the image space to the latent space and produce a coupling component to regularise the generated samples. Essentially, we treat an HSI as a high-dimensional manifold embedded in a latent space. Thus, the optimisation of GAN models is converted to the problem of learning the distributions of high-resolution HSI samples in the latent space, making the distributions of the generated super-resolution HSIs closer to those of their original high-resolution counterparts. We have conducted experimental evaluations on the model performance of super-resolution and its capability in alleviating mode collapse. The proposed approach has been tested and validated based on two real HSI datasets with different sensors (i.e. AVIRIS and UHD-185) for various upscaling factors and added noise levels, and compared with the state-of-the-art super-resolution models (i.e. HyCoNet, LTTR, BAGAN, SR- GAN, WGAN).
翻訳日:2021-11-17 16:10:29 公開日:2021-11-16
# 一様処理による因果効果変動オートエンコーダ

Causal Effect Variational Autoencoder with Uniform Treatment ( http://arxiv.org/abs/2111.08656v1 )

ライセンス: Link先を確認
Daniel Jiwoong Im, Kyunghyun Cho, Narges Razavian(参考訳) 観察的処理データに基づいて因果効果変動オートエンコーダ(cevae)を訓練し、一方、一様処理変動オートエンコーダ(utvae)を重要サンプリングを用いて一様処理分布で訓練する。 本稿では, 観察的治療分布よりも均一な治療を行うことで, トレーニングからテスト時間への分布変化を緩和し, より良い因果推論が可能となることを示す。 また,一様および観察的処理分布と推論および生成ネットワーク学習の目的を組み合わせることで,治療効果を推定するためのより良い訓練方法を見出す。 実験により,提案手法は合成およびipdpデータセットにおけるcevaeよりも,絶対平均処理効果誤差と不均一効果誤差の推定精度が向上することがわかった。

Causal effect variational autoencoder (CEVAE) are trained to predict the outcome given observational treatment data, while uniform treatment variational autoencoders (UTVAE) are trained with uniform treatment distribution using importance sampling. In this paper, we show that using uniform treatment over observational treatment distribution leads to better causal inference by mitigating the distribution shift that occurs from training to test time. We also explore the combination of uniform and observational treatment distributions with inference and generative network training objectives to find a better training procedure for inferring treatment effect. Experimentally, we find that the proposed UTVAE yields better absolute average treatment effect error and precision in estimation of heterogeneous effect error than the CEVAE on synthetic and IHDP datasets.
翻訳日:2021-11-17 15:27:15 公開日:2021-11-16
# 理解できないものを信頼するのか? モデル解釈可能性とアウトカムフィードバックがAIの信頼に及ぼす影響

Will We Trust What We Don't Understand? Impact of Model Interpretability and Outcome Feedback on Trust in AI ( http://arxiv.org/abs/2111.08222v1 )

ライセンス: Link先を確認
Daehwan Ahn (1), Abdullah Almaatouq (2), Monisha Gulabani (1), Kartik Hosanagar (1) ((1) The Wharton School, University of Pennsylvania (2) Sloan School of Management, Massachusetts Institute of Technology)(参考訳) 様々な領域におけるAIの超人的性能にもかかわらず、人間はAIシステムを採用することを望まないことが多い。 多くの現代のAI技術に固有の解釈可能性の欠如は、ユーザが理解できない意思決定プロセスのシステムを信頼できないため、採用を損なうと考えられている。 本研究では,ai支援予測タスクにおける解釈可能性と結果フィードバックがaiの信頼と人的パフォーマンスに与える影響を,対話型予測タスクを用いて解析する実験を行った。 解釈可能性によって信頼性が向上することはなく、結果のフィードバックははるかに大きく、信頼性が高くなりました。 しかし,いずれの要因も参加者の作業性能に少なからぬ影響を及ぼした。 以上の結果から,(1)可読性などの重要な注意を引いた要因は,結果フィードバックなどの要因よりも信頼の向上に効果が低下する可能性があり,(2)aiシステムによるヒューマンパフォーマンスの強化は,aiに対する信頼の増大という単純な問題ではない可能性が示唆された。 これらの発見により、研究コミュニティは、解釈を生成する方法だけでなく、解釈が実際の信頼とパフォーマンスに影響を及ぼすことを保証する技術にも焦点を合わせることが求められる。

Despite AI's superhuman performance in a variety of domains, humans are often unwilling to adopt AI systems. The lack of interpretability inherent in many modern AI techniques is believed to be hurting their adoption, as users may not trust systems whose decision processes they do not understand. We investigate this proposition with a novel experiment in which we use an interactive prediction task to analyze the impact of interpretability and outcome feedback on trust in AI and on human performance in AI-assisted prediction tasks. We find that interpretability led to no robust improvements in trust, while outcome feedback had a significantly greater and more reliable effect. However, both factors had modest effects on participants' task performance. Our findings suggest that (1) factors receiving significant attention, such as interpretability, may be less effective at increasing trust than factors like outcome feedback, and (2) augmenting human performance via AI systems may not be a simple matter of increasing trust in AI, as increased trust is not always associated with equally sizable improvements in performance. These findings invite the research community to focus not only on methods for generating interpretations but also on techniques for ensuring that interpretations impact trust and performance in practice.
翻訳日:2021-11-17 15:26:30 公開日:2021-11-16
# ベイズ最適化におけるガウス過程不整合の会計

Accounting for Gaussian Process Imprecision in Bayesian Optimization ( http://arxiv.org/abs/2111.08299v1 )

ライセンス: Link先を確認
Julian Rodemann, Thomas Augustin(参考訳) ガウス過程(GP)をサロゲートモデルとするベイズ最適化(BO)は、解析的に未知かつ高価な評価関数を最適化するために広く用いられている。 本稿では,従来のBOよりも高い性能を示すPROBO(Preside-mean-R Obust Bayesian Optimization)を提案する。 まず,ガウス過程の先行仕様が古典的BO収束に及ぼす影響について検討する。 プリエントの平均パラメータは、すべての先行コンポーネント間の収束に最も影響が大きいことが分かりました。 この結果に対し,PROBOをBOの一般化として導入し,従来の平均パラメータの誤特定に対してより堅牢な手法を提案する。 これは、前述したほぼ無知モデルによるGPインプレクションを明示的に説明することで達成される。 この中心にあるのは、一般低信頼境界(GLCB)と呼ばれる新しい取得関数である。 物質科学の現実的な問題に対して従来のBOに対する我々のアプローチを検証し、PROBOを高速に収束させるために観察する。 マルチモーダルおよびwigglyターゲット関数に関するさらなる実験により,本手法の優位性が確認された。

Bayesian optimization (BO) with Gaussian processes (GP) as surrogate models is widely used to optimize analytically unknown and expensive-to-evaluat e functions. In this paper, we propose Prior-mean-RObust Bayesian Optimization (PROBO) that outperforms classical BO on specific problems. First, we study the effect of the Gaussian processes' prior specifications on classical BO's convergence. We find the prior's mean parameters to have the highest influence on convergence among all prior components. In response to this result, we introduce PROBO as a generalization of BO that aims at rendering the method more robust towards prior mean parameter misspecification. This is achieved by explicitly accounting for GP imprecision via a prior near-ignorance model. At the heart of this is a novel acquisition function, the generalized lower confidence bound (GLCB). We test our approach against classical BO on a real-world problem from material science and observe PROBO to converge faster. Further experiments on multimodal and wiggly target functions confirm the superiority of our method.
翻訳日:2021-11-17 15:26:09 公開日:2021-11-16
# cca-mdd: ストリーミング誤検出と診断のためのクロスアテンションベースフレームワーク

CCA-MDD: A Coupled Cross-Attention based Framework for Streaming Mispronunciation detection and diagnosis ( http://arxiv.org/abs/2111.08191v1 )

ライセンス: Link先を確認
Nianzu Zheng, Liqun Deng, Wenyong Huang, Yu Ting Yeung, Baohua Xu, Yuanyuan Guo, Yasheng Wang, Xin Jiang, Qun Liu(参考訳) エンド・ツー・エンドのモデルは、誤発音の検出と診断(MDD)に人気がある。 多くの実用的なアプリケーションから要求されるストリーミングMDDフレームワークは依然として課題である。 本稿では,CA-MDD と呼ばれるストリーミングエンドツーエンド MDD フレームワークを提案する。 CCA-MDDはオンライン処理をサポートし、厳密にリアルタイムに実行できる。 CCA-MDDのエンコーダは、conv-Transformerネットワークベースのストリーミングアコースティックエンコーダと、コラボレート・クロスアテンション(CCA)と呼ばれる改良されたクロスアテンションで構成される。 結合されたクロスアテンションは、符号化された音響特徴と事前符号化された言語特徴を統合する。 マルチタスク学習から訓練されたデコーダのアンサンブルをMDD決定に適用する。 CCA-MDDは、公開されたオフラインのMDDモデルに匹敵する性能を発揮する。

End-to-end models are becoming popular approaches for mispronunciation detection and diagnosis (MDD). A streaming MDD framework which is demanded by many practical applications still remains a challenge. This paper proposes a streaming end-to-end MDD framework called CCA-MDD. CCA-MDD supports online processing and is able to run strictly in real-time. The encoder of CCA-MDD consists of a conv-Transformer network based streaming acoustic encoder and an improved cross-attention named coupled cross-attention (CCA). The coupled cross-attention integrates encoded acoustic features with pre-encoded linguistic features. An ensemble of decoders trained from multi-task learning is applied for final MDD decision. Experiments on publicly available corpora demonstrate that CCA-MDD achieves comparable performance to published offline end-to-end MDD models.
翻訳日:2021-11-17 15:25:45 公開日:2021-11-16
# 中国語音声認識のための統合意味と音声のポスト補正

Integrated Semantic and Phonetic Post-correction for Chinese Speech Recognition ( http://arxiv.org/abs/2111.08400v1 )

ライセンス: Link先を確認
Yi-Chang Chen, Chun-Yen Cheng, Chien-An Chen, Ming-Chieh Sung and Yi-Ren Yeh(参考訳) 近年の自然言語処理の進歩により、BERTの事前学習されたマスク付き言語モデル (MLM) を音声認識の後補正に適用する研究がいくつかある。 しかし、既存の事前学習モデルでは、単語の音声的特徴が無視されている間、意味的補正のみを考慮する。 意味のみのポスト補正は、中国ASRではホモフォニックエラーがかなり多いため、性能を低下させる。 本稿では,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する新しい手法を提案する。 実世界の音声認識データセットを用いた実験の結果,提案手法はベースラインモデルよりも明らかにCERを低くし,事前学習したBERT MLMを補正器として利用した。

Due to the recent advances of natural language processing, several works have applied the pre-trained masked language model (MLM) of BERT to the post-correction of speech recognition. However, existing pre-trained models only consider the semantic correction while the phonetic features of words is neglected. The semantic-only post-correction will consequently decrease the performance since homophonic errors are fairly common in Chinese ASR. In this paper, we proposed a novel approach to collectively exploit the contextualized representation and the phonetic information between the error and its replacing candidates to alleviate the error rate of Chinese ASR. Our experiment results on real world speech recognition datasets showed that our proposed method has evidently lower CER than the baseline model, which utilized a pre-trained BERT MLM as the corrector.
翻訳日:2021-11-17 15:25:31 公開日:2021-11-16
# CAR -- 都市景観が認識に寄与する - 自律走行車のためのデータセット

CAR -- Cityscapes Attributes Recognition A Multi-category Attributes Dataset for Autonomous Vehicles ( http://arxiv.org/abs/2111.08243v1 )

ライセンス: Link先を確認
Kareem Metwaly and Aerin Kim and Elliot Branson and Vishal Monga(参考訳) 自動運転車は未来の交通手段だ。 この分野での現在の進歩により、世界はほぼゼロの確率で安全な道路に近づき、事故や人的ミスを排除している。 しかし、堅牢性レベルに達するために必要な研究と開発はまだたくさんある。 重要な側面の1つは、すべての詳細を含むシーンを完全に理解することである。 シーン内のオブジェクト(例えばドライバの振る舞い)のいくつかの特性(属性)は、正しい意思決定に不可欠である。 しかし、現在のアルゴリズムは、このような豊富な属性を持つ低品質データセットに苦しむ。 そこで本稿では,属性認識のための新しいデータセットであるCityscapes Attributes Recognition (CAR)を提案する。 新しいデータセットは、よく知られたデータセットであるCityscapesを拡張し、各イメージにオブジェクトの属性のアノテーション層を追加する。 現在、さまざまなカテゴリの32k以上のインスタンス(Vehicles、Pedestriansなど)に注釈を付けています。 データセットには、各カテゴリが独自の可能な属性セットを持つ、構造化され、カスタマイズされた分類法がある。 tailored taxonomyは、正確なコンピュータビジョンとシーン理解に依存する、より良い自動運転アルゴリズムを開発する上で最も好都合な属性に焦点を当てている。 また、CARの使用を簡単にするためのデータセット用のAPIも作成しました。 apiはhttps://github.com/k areem-metwaly/car-ap iでアクセスできる。

Self-driving vehicles are the future of transportation. With current advancements in this field, the world is getting closer to safe roads with almost zero probability of having accidents and eliminating human errors. However, there is still plenty of research and development necessary to reach a level of robustness. One important aspect is to understand a scene fully including all details. As some characteristics (attributes) of objects in a scene (drivers' behavior for instance) could be imperative for correct decision making. However, current algorithms suffer from low-quality datasets with such rich attributes. Therefore, in this paper, we present a new dataset for attributes recognition -- Cityscapes Attributes Recognition (CAR). The new dataset extends the well-known dataset Cityscapes by adding an additional yet important annotation layer of attributes of objects in each image. Currently, we have annotated more than 32k instances of various categories (Vehicles, Pedestrians, etc.). The dataset has a structured and tailored taxonomy where each category has its own set of possible attributes. The tailored taxonomy focuses on attributes that is of most beneficent for developing better self-driving algorithms that depend on accurate computer vision and scene comprehension. We have also created an API for the dataset to ease the usage of CAR. The API can be accessed through https://github.com/k areem-metwaly/CAR-AP I.
翻訳日:2021-11-17 15:24:20 公開日:2021-11-16
# 可変レート学習画像圧縮のためのオンラインメタ適応

Online Meta Adaptation for Variable-Rate Learned Image Compression ( http://arxiv.org/abs/2111.08256v1 )

ライセンス: Link先を確認
Wei Jiang and Wei Wang and Songnan Li and Shan Liu(参考訳) この研究は、深層ニューラルネットワークに基づくエンドツーエンドの学習画像圧縮(lic)の2つの主要な課題に対処する: 異なるネットワークで様々な品質の圧縮画像を生成する必要がある可変レート学習と、微分可能な近似量子化と真のハード量子化の間の列車-テストミスマッチである。 条件付き変分オートエンコーダ(CVAE)フレームワークにおいて,メタラーニングとオンラインラーニングのアイデアを組み合わせたオンラインメタラーニング(OML)設定を導入する。 条件変数をメタパラメータとして処理し、生成された条件特徴をメタプリミティブとして処理することで、所望の再構成をメタパラメータによって制御し、可変品質の圧縮に対応することができる。 オンライン学習フレームワークは、メタパラメータを更新するために使用され、条件付き再構成が現在の画像に適応的に調整される。 OMLメカニズムにより、メタパラメータはSGDを通じて効果的に更新できる。 条件付き再構成はデコーダネットワークにおける量子化潜在分布に基づいており、したがってトレーニング推定と真の量子化潜在分布とのギャップを埋めるのに役立つ。 実験により、OMLのアプローチは様々な最先端のlicメソッドに柔軟に適用でき、計算量や送信オーバーヘッドが少なく、さらなる性能向上が達成できることが示された。

This work addresses two major issues of end-to-end learned image compression (LIC) based on deep neural networks: variable-rate learning where separate networks are required to generate compressed images with varying qualities, and the train-test mismatch between differentiable approximate quantization and true hard quantization. We introduce an online meta-learning (OML) setting for LIC, which combines ideas from meta learning and online learning in the conditional variational auto-encoder (CVAE) framework. By treating the conditional variables as meta parameters and treating the generated conditional features as meta priors, the desired reconstruction can be controlled by the meta parameters to accommodate compression with variable qualities. The online learning framework is used to update the meta parameters so that the conditional reconstruction is adaptively tuned for the current image. Through the OML mechanism, the meta parameters can be effectively updated through SGD. The conditional reconstruction is directly based on the quantized latent representation in the decoder network, and therefore helps to bridge the gap between the training estimation and true quantized latent distribution. Experiments demonstrate that our OML approach can be flexibly applied to different state-of-the-art LIC methods to achieve additional performance improvements with little computation and transmission overhead.
翻訳日:2021-11-17 15:24:02 公開日:2021-11-16
# 自己教師付き高忠実度再生型3次元顔画像再構成

Self-supervised High-fidelity and Re-renderable 3D Facial Reconstruction from a Single Image ( http://arxiv.org/abs/2111.08282v1 )

ライセンス: Link先を確認
Mingxin Yang, Jianwei Guo, Zhanglin Cheng, Xiaopeng Zhang, Dong-Ming Yan(参考訳) 1枚の画像から高精細な3d顔のテクスチャを再構成することは、完全な顔情報と3d顔と2d画像との領域ギャップの欠如から難しい課題である。 直近の研究では, 顔のテクスチャ再構築問題に対して, 生成法と再構成法の両方を適用した。 それぞれの方法には独自の利点があるが、高忠実度で再現性のある顔のテクスチャを回復する能力は無く、「再現性」という用語は、顔のテクスチャを空間的に完全かつ環境照明と絡み合うように要求する。 本稿では,高品質な3d顔の再現のための自己教師あり学習フレームワークを提案する。 第一の考え方は、まず前世代のモジュールを使用して前世代のアルベドを生成し、次に細部の改良モジュールを利用して詳細なアルベドを得ることです。 さらに, 照明による顔のテクスチャを解消するために, 詳細なアルベドで再構成した, 詳細な照明表現を提案する。 また,アルベド側と照明側の両方の正則化損失関数をいくつか設計し,これら2つの因子の絡み合いを緩和した。 最後に、差別化可能なレンダリング技術のおかげで、ニューラルネットワークを自己管理的な方法で効率的にトレーニングすることができる。 挑戦的データセットに関する大規模な実験により、我々のフレームワークは質的および定量的比較において最先端のアプローチを大幅に上回っていることが示された。

Reconstructing high-fidelity 3D facial texture from a single image is a challenging task since the lack of complete face information and the domain gap between the 3D face and 2D image. The most recent works tackle facial texture reconstruction problem by applying either generation-based or reconstruction-based methods. Although each method has its own advantage, none of them is capable of recovering a high-fidelity and re-renderable facial texture, where the term 're-renderable' demands the facial texture to be spatially complete and disentangled with environmental illumination. In this paper, we propose a novel self-supervised learning framework for reconstructing high-quality 3D faces from single-view images in-the-wild. Our main idea is to first utilize the prior generation module to produce a prior albedo, then leverage the detail refinement module to obtain detailed albedo. To further make facial textures disentangled with illumination, we present a novel detailed illumination representation which is reconstructed with the detailed albedo together. We also design several regularization loss functions on both the albedo side and illumination side to facilitate the disentanglement of these two factors. Finally, thanks to the differentiable rendering technique, our neural network can be efficiently trained in a self-supervised manner. Extensive experiments on challenging datasets demonstrate that our framework substantially outperforms state-of-the-art approaches in both qualitative and quantitative comparisons.
翻訳日:2021-11-17 15:23:39 公開日:2021-11-16
# DRINet++: 効率的なVoxel-as-point Cloudセグメンテーション

DRINet++: Efficient Voxel-as-point Point Cloud Segmentation ( http://arxiv.org/abs/2111.08318v1 )

ライセンス: Link先を確認
Maosheng Ye, Rui Wan, Shuangjie Xu, Tongyi Cao, Qifeng Chen(参考訳) 近年,ポイントクラウドセマンティックセグメンテーションの性能向上のために,単一あるいは複数表現を用いて多くのアプローチが提案されている。 しかし、これらの作業は性能、効率、メモリ消費のバランスが良くない。 これらの問題に対処するため,我々は,点雲のスパーシティと幾何学的性質をvoxel-as-point原理で高め,drinetを拡張したdrinet++を提案する。 DRINet++は主にスパース機能エンコーダとスパース幾何学機能拡張の2つのモジュールで構成されている。 スパース特徴エンコーダは各点の局所的コンテキスト情報を抽出し、スパース幾何学的特徴強調はスパース点雲の幾何学的性質をマルチスケールのスパースプロジェクションと注意深いマルチスケール融合を通じて向上させる。 さらに, メモリ消費問題の収束と緩和を支援するため, トレーニング段階における深部スパース管理を提案する。 我々のDRINet++は、SemanticKITTIとNuscenesの両方のデータセット上で、最先端の屋外クラウドセグメンテーションを実現します。

Recently, many approaches have been proposed through single or multiple representations to improve the performance of point cloud semantic segmentation. However, these works do not maintain a good balance among performance, efficiency, and memory consumption. To address these issues, we propose DRINet++ that extends DRINet by enhancing the sparsity and geometric properties of a point cloud with a voxel-as-point principle. To improve efficiency and performance, DRINet++ mainly consists of two modules: Sparse Feature Encoder and Sparse Geometry Feature Enhancement. The Sparse Feature Encoder extracts the local context information for each point, and the Sparse Geometry Feature Enhancement enhances the geometric properties of a sparse point cloud via multi-scale sparse projection and attentive multi-scale fusion. In addition, we propose deep sparse supervision in the training phase to help convergence and alleviate the memory consumption problem. Our DRINet++ achieves state-of-the-art outdoor point cloud segmentation on both SemanticKITTI and Nuscenes datasets while running significantly faster and consuming less memory.
翻訳日:2021-11-17 15:23:12 公開日:2021-11-16
# 畳み込みニューラルネットワークによるフルレゾリューションフレームワークのパンシャープ化

Pansharpening by convolutional neural networks in the full resolution framework ( http://arxiv.org/abs/2111.08334v1 )

ライセンス: Link先を確認
Matteo Ciotola, Sergio Vitale, Antonio Mazza, Giovanni Poggi, Giuseppe Scarpa(参考訳) 近年、深層学習に基づくパンシャーピングへの関心が高まっている。 研究は主に建築に焦点を当てている。 しかし、基礎的な真実を欠くモデルトレーニングも大きな問題である。 一般的なアプローチは、元のデータを根拠として、解像度の低いドメインでネットワークをトレーニングすることだ。 トレーニングされたネットワークは、暗黙のスケール不変性仮説に依存するフル解像度データに使用される。 結果は一般的に解像度が低下するが、完全な解像度ではより疑わしい。 本稿では,深層学習に基づくパンシャーピングのためのフルレゾリューショントレーニングフレームワークを提案する。 トレーニングは、元のデータのみに依存する高解像度ドメインで行われ、情報の損失は発生しない。 スペクトルと空間の忠実性を確保するために、パンシャープ出力を利用可能なパンクロマティックおよびマルチスペクトル入力と一致させる適切な損失を定義する。 WorldView-3、WorldView-2、GeoEye-1で行った実験では、提案フレームワークでトレーニングした手法は、完全な数値インデックスと視覚的品質の両方において優れた性能を保証している。 フレームワークは完全に汎用的であり、ディープラーニングベースのパンシャーピングネットワークのトレーニングと微調整に使用することができる。

In recent years, there has been a growing interest on deep learning-based pansharpening. Research has mainly focused on architectures. However, lacking a ground truth, model training is also a major issue. A popular approach is to train networks in a reduced resolution domain, using the original data as ground truths. The trained networks are then used on full resolution data, relying on an implicit scale invariance hypothesis. Results are generally good at reduced resolution, but more questionable at full resolution. Here, we propose a full-resolution training framework for deep learning-based pansharpening. Training takes place in the high resolution domain, relying only on the original data, with no loss of information. To ensure spectral and spatial fidelity, suitable losses are defined, which force the pansharpened output to be consistent with the available panchromatic and multispectral input. Experiments carried out on WorldView-3, WorldView-2, and GeoEye-1 images show that methods trained with the proposed framework guarantee an excellent performance in terms of both full-resolution numerical indexes and visual quality. The framework is fully general, and can be used to train and fine-tune any deep learning-based pansharpening network.
翻訳日:2021-11-17 15:22:51 公開日:2021-11-16
# 単一画像超解像のための画像特異的畳み込みカーネル変調

Image-specific Convolutional Kernel Modulation for Single Image Super-resolution ( http://arxiv.org/abs/2111.08362v1 )

ライセンス: Link先を確認
Yuanfei Huang, Jie Li, Yanting Hu, Xinbo Gao, Hua Huang(参考訳) 近年,深層学習に基づく超解像法が優れた成果を上げているが,多くのサンプルを投入することで,単一の一般化深層ネットワークの訓練に重点を置いている。 しかし直感的には、各画像は表現を持ち、適応モデルを取得することが期待されている。 本稿では,画像や特徴の全体的文脈情報を利用して,バニラ畳み込みや既存の注意機構よりも優れる畳み込みカーネルを適応的に変調するための注意重みを生成する,新たなイメージ固有畳み込みカーネル変調(ikm)を提案する。 特に、IKMをミニバッチトレーニングで最適化するために、従来のミニバッチSGD最適化よりも効果的である画像固有最適化(IsO)アルゴリズムを導入する。 さらに,最先端アーキテクチャに対するicmの効果を調査し,u型残差学習と砂時計高密度ブロック学習(u-hourglass dense network,u-hdn)を用いた新しいバックボーンを活用し,理論的および実験的にicmの有効性を最大限に高めるための適切なアーキテクチャである。 単一画像の超解像に関する広範囲な実験により,提案手法が最先端手法よりも優れた性能を得られた。 コードはgithub.com/YuanfeiHu ang/IKMで入手できる。

Recently, deep-learning-based super-resolution methods have achieved excellent performances, but mainly focus on training a single generalized deep network by feeding numerous samples. Yet intuitively, each image has its representation, and is expected to acquire an adaptive model. For this issue, we propose a novel image-specific convolutional kernel modulation (IKM) by exploiting the global contextual information of image or feature to generate an attention weight for adaptively modulating the convolutional kernels, which outperforms the vanilla convolution and several existing attention mechanisms while embedding into the state-of-the-art architectures without any additional parameters. Particularly, to optimize our IKM in mini-batch training, we introduce an image-specific optimization (IsO) algorithm, which is more effective than the conventional mini-batch SGD optimization. Furthermore, we investigate the effect of IKM on the state-of-the-art architectures and exploit a new backbone with U-style residual learning and hourglass dense block learning, terms U-Hourglass Dense Network (U-HDN), which is an appropriate architecture to utmost improve the effectiveness of IKM theoretically and experimentally. Extensive experiments on single image super-resolution show that the proposed methods achieve superior performances over state-of-the-art methods. Code is available at github.com/YuanfeiHu ang/IKM.
翻訳日:2021-11-17 15:22:33 公開日:2021-11-16
# 2.5次元車両計測

2.5D Vehicle Odometry Estimation ( http://arxiv.org/abs/2111.08398v1 )

ライセンス: Link先を確認
Ciaran Eising, Leroy-Francisco Pereira, Jonathan Horgan, Anbuchezhiyan Selvaraju, John McDonald, Paul Moran(参考訳) adasアプリケーションでは、車両の姿勢を適切に推定する必要があることはよく理解されている。 本稿では, ヤウ速度センサと4つの車輪速度センサから導出される平面型オドメトリーを, サスペンションの線形モデルにより拡張した2.5Dオドメトリーを提案する。 平面オードメトリーのコアは、既に文献で理解されているヨーレートモデルであるが、入射信号に二次的を合わせ、補間、外挿、車両位置のより微細な積分を可能にしてこれを強化する。 DGPS/IMUによる実験結果から,本モデルが既存の手法と比較して高精度なオドメトリ推定を行うことを示す。 本研究では,サスペンション構成の変化に伴う車両基準点の高さの変化をフィードバックするセンサを用いて,サスペンションの平面モデルを定義し,オドメトリモデルを強化する。 本稿では,オドメトリーの良否を既存手法と比較して評価する実験的な枠組みと評価基準を提案する。 このオドメトリモデルは、よく知られた低速サラウンドビューカメラシステムをサポートするように設計されている。 そこで我々は,提案したオドメトリーを用いた視線およびコンピュータビジョンアプリケーションの性能向上を示すアプリケーション結果を提案する。

It is well understood that in ADAS applications, a good estimate of the pose of the vehicle is required. This paper proposes a metaphorically named 2.5D odometry, whereby the planar odometry derived from the yaw rate sensor and four wheel speed sensors is augmented by a linear model of suspension. While the core of the planar odometry is a yaw rate model that is already understood in the literature, we augment this by fitting a quadratic to the incoming signals, enabling interpolation, extrapolation, and a finer integration of the vehicle position. We show, by experimental results with a DGPS/IMU reference, that this model provides highly accurate odometry estimates, compared with existing methods. Utilising sensors that return the change in height of vehicle reference points with changing suspension configurations, we define a planar model of the vehicle suspension, thus augmenting the odometry model. We present an experimental framework and evaluations criteria by which the goodness of the odometry is evaluated and compared with existing methods. This odometry model has been designed to support low-speed surround-view camera systems that are well-known. Thus, we present some application results that show a performance boost for viewing and computer vision applications using the proposed odometry
翻訳日:2021-11-17 15:22:07 公開日:2021-11-16
# GRI:一般強化模倣と視覚に基づく自律運転への応用

GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving ( http://arxiv.org/abs/2111.08575v1 )

ライセンス: Link先を確認
Raphael Chekroun, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde(参考訳) 深部強化学習(DRL)は、自律運転やロボット工学などの複雑な意思決定アプリケーションに有効であることが示されている。 しかし、DRLは高いサンプルの複雑さと安定性の欠如により制限されている。 事前知識、例えば専門家のデモンストレーションは、しばしば利用可能であるが、これらの問題を解決するために活用するのが困難である。 本稿では,探索データと専門家データを組み合わせた新しい手法であるGeneral Reinforced Imitation (GRI)を提案する。 専門家によるデモンストレーションは、基盤となるポリシーが常に高い報酬を得る完璧なデータと見なすことができます。 この仮定に基づいて、GRIはオフラインデモエージェントの概念を導入している。 本発明のエージェントは、オンラインRL探索エージェントから得られる経験と並行して処理される専門家データを送信する。 提案手法は,都市環境における視覚に基づく自動運転に大きな改善をもたらすことを示す。 さらに、異なるオフポリチィRLアルゴリズムを用いて、Mujoco連続制御タスクのGRI法を検証する。 我々の手法はCARLA Leaderboardでトップにランクインし、以前の最先端であるWorld on Railsを17%上回りました。

Deep reinforcement learning (DRL) has been demonstrated to be effective for several complex decision-making applications such as autonomous driving and robotics. However, DRL is notoriously limited by its high sample complexity and its lack of stability. Prior knowledge, e.g. as expert demonstrations, is often available but challenging to leverage to mitigate these issues. In this paper, we propose General Reinforced Imitation (GRI), a novel method which combines benefits from exploration and expert data and is straightforward to implement over any off-policy RL algorithm. We make one simplifying hypothesis: expert demonstrations can be seen as perfect data whose underlying policy gets a constant high reward. Based on this assumption, GRI introduces the notion of offline demonstration agents. This agent sends expert data which are processed both concurrently and indistinguishably with the experiences coming from the online RL exploration agent. We show that our approach enables major improvements on vision-based autonomous driving in urban environments. We further validate the GRI method on Mujoco continuous control tasks with different off-policy RL algorithms. Our method ranked first on the CARLA Leaderboard and outperforms World on Rails, the previous state-of-the-art, by 17%.
翻訳日:2021-11-17 15:20:54 公開日:2021-11-16
# 階層的伝達学習と電力負荷予測への応用

Hierarchical transfer learning with applications for electricity load forecasting ( http://arxiv.org/abs/2111.08512v1 )

ライセンス: Link先を確認
Solenne Gaucher (LMO), Yannig Goude (EDF R&D), Anestis Antoniadis (LJK)(参考訳) 近年の電力消費に関するデータ量の増加は新たな課題を開き、より大規模な予測を改善するために、より微細なスケールに存在する情報を活用する新しい技術の必要性を強調している。 本研究では,この階層的予測問題とマルチスケールトランスファー学習の類似性を利用する。 一般化された加法モデルと無作為な森林の積み重ねと専門家の集約による階層的転帰学習の2つの手法を開発した。 これらの手法を全国規模の電力負荷予測の2つの問題に適用し,第1にスマートメータデータ,第2に地域データを用いた。 これら2つのユースケースについて,提案手法の性能をベンチマークアルゴリズムと比較し,その動作を変数重要度分析を用いて検証する。 その結果,両手法の関心が示され,予測の大幅な改善につながった。

The recent abundance of data on electricity consumption at different scales opens new challenges and highlights the need for new techniques to leverage information present at finer scales in order to improve forecasts at wider scales. In this work, we take advantage of the similarity between this hierarchical prediction problem and multi-scale transfer learning. We develop two methods for hierarchical transfer learning, based respectively on the stacking of generalized additive models and random forests, and on the use of aggregation of experts. We apply these methods to two problems of electricity load forecasting at national scale, using smart meter data in the first case, and regional data in the second case. For these two usecases, we compare the performances of our methods to that of benchmark algorithms, and we investigate their behaviour using variable importance analysis. Our results demonstrate the interest of both methods, which lead to a significant improvement of the predictions.
翻訳日:2021-11-17 15:20:35 公開日:2021-11-16
# 原子固体の正規化流れ

Normalizing flows for atomic solids ( http://arxiv.org/abs/2111.08696v1 )

ライセンス: Link先を確認
Peter Wirnsberger, George Papamakarios, Borja Ibarz, S\'ebastien Racani\`ere, Andrew J. Ballard, Alexander Pritzel, Charles Blundell(参考訳) 原子状固体をモデル化するための正規化フローに基づく機械学習手法を提案する。 本モデルでは, 実地サンプルを必要とせず, 解析的に導出可能な塩基分布を対象固体に変換する。 ヘルムホルツ自由エネルギーは,単原子水としてモデル化された立方体氷とヘキサゴナル氷,およびレナード・ジョーンズ系について推定し,文献値や確立された基準法から推定した値とよく一致していることを見いだした。 さらに, 構造特性について検討し, モデル試料が分子動力学で得られたものとほとんど区別できないことを示した。 その結果, 正規化フローは, マルチステージングや結晶形状の制約を伴わずに, 高品質な試料と固体の自由エネルギー推定を提供できることがわかった。

We present a machine-learning approach, based on normalizing flows, for modelling atomic solids. Our model transforms an analytically tractable base distribution into the target solid without requiring ground-truth samples for training. We report Helmholtz free energy estimates for cubic and hexagonal ice modelled as monatomic water as well as for a truncated and shifted Lennard-Jones system, and find them to be in excellent agreement with literature values and with estimates from established baseline methods. We further investigate structural properties and show that the model samples are nearly indistinguishable from the ones obtained with molecular dynamics. Our results thus demonstrate that normalizing flows can provide high-quality samples and free energy estimates of solids, without the need for multi-staging or for imposing restrictions on the crystal geometry.
翻訳日:2021-11-17 15:20:20 公開日:2021-11-16
# (参考訳) 半教師付きセグメンテーションのための多元多型表現 [全文訳有]

Diversified Multi-prototype Representation for Semi-supervised Segmentation ( http://arxiv.org/abs/2111.08651v1 )

ライセンス: CC BY 4.0
Jizong Peng, Christian Desrosiers, Marco Pedersoli(参考訳) 本研究は, 半教師付きセグメンテーションをプロトタイプベクトル相関に基づく密度予測問題とみなし, 複数のプロトタイプを用いて各セグメンテーションクラスを表現する簡単な方法を提案する。 退化解を避けるため、ラベルなし画像に2つの正規化戦略を適用した。 1つ目は相互情報最大化を利用して、全てのプロトタイプベクトルがネットワークによって検討されていることを保証する。 2つめは、プロトタイプがコサイン距離を最小化することによって直交することを明示的に強制するものである。 2つのベンチマーク・メディカルセグメンテーションデータセットにおける実験結果から,アノテート画像の少ない場合のセグメンテーション性能向上効果が示された。

This work considers semi-supervised segmentation as a dense prediction problem based on prototype vector correlation and proposes a simple way to represent each segmentation class with multiple prototypes. To avoid degenerate solutions, two regularization strategies are applied on unlabeled images. The first one leverages mutual information maximization to ensure that all prototype vectors are considered by the network. The second explicitly enforces prototypes to be orthogonal by minimizing their cosine distance. Experimental results on two benchmark medical segmentation datasets reveal our method's effectiveness in improving segmentation performance when few annotated images are available.
翻訳日:2021-11-17 15:17:18 公開日:2021-11-16
# ホワイトボックス攻撃に対するベイズニューラルネットワークのロバスト性

Robustness of Bayesian Neural Networks to White-Box Adversarial Attacks ( http://arxiv.org/abs/2111.08591v1 )

ライセンス: Link先を確認
Adaku Uchendu, Daniel Campoy, Christopher Menart, and Alexandra Hildenbrandt(参考訳) ベイズニューラルネットワーク(BNN)は、従来のニューラルネットワーク(TNN)とは異なり、ランダム性を取り入れて敵の攻撃を処理するのに堅牢で適している。 このランダム性は、TNNに欠けている不確実性の推定を改善する。 そこで本研究では,複数のベイズニューラルネットワークアーキテクチャを用いて,BNNのホワイトボックス攻撃に対する堅牢性について検討する。 さらに、BNN-DenseNetと呼ばれるBNNモデルを作成し、ベイズ的推論(つまり変分ベイズ)をDenseNetアーキテクチャとBDAVに融合させ、この介入と敵の訓練を組み合わせる。 CIFAR-10とFGVC-Aircraftのデータセットで実験が行われた。 強力なホワイトボックス攻撃(l_\infty$-FGSM, $l_\infty$-PGD, $l_2$-PGD, EOT $l_\infty$-FGSM, EOT $l_\infty$-PGD)で攻撃する。 すべての実験において、少なくとも1つのbnnは、敵の攻撃シナリオにおいて従来のニューラルネットワークを上回っている。 敵対的に訓練されたbnnは、多くの実験で非ベイズ的で敵対的に訓練されたbnnよりも優れており、しばしばかなりのマージンがある。 最後に、ネットワークキャリブレーションを調査し、BNNが過信予測をしていないことを発見し、BNNが不確実性の測定にも優れていることを示す。

Bayesian Neural Networks (BNNs), unlike Traditional Neural Networks (TNNs) are robust and adept at handling adversarial attacks by incorporating randomness. This randomness improves the estimation of uncertainty, a feature lacking in TNNs. Thus, we investigate the robustness of BNNs to white-box attacks using multiple Bayesian neural architectures. Furthermore, we create our BNN model, called BNN-DenseNet, by fusing Bayesian inference (i.e., variational Bayes) to the DenseNet architecture, and BDAV, by combining this intervention with adversarial training. Experiments are conducted on the CIFAR-10 and FGVC-Aircraft datasets. We attack our models with strong white-box attacks ($l_\infty$-FGSM, $l_\infty$-PGD, $l_2$-PGD, EOT $l_\infty$-FGSM, and EOT $l_\infty$-PGD). In all experiments, at least one BNN outperforms traditional neural networks during adversarial attack scenarios. An adversarially-traine d BNN outperforms its non-Bayesian, adversarially-traine d counterpart in most experiments, and often by significant margins. Lastly, we investigate network calibration and find that BNNs do not make overconfident predictions, providing evidence that BNNs are also better at measuring uncertainty.
翻訳日:2021-11-17 15:11:07 公開日:2021-11-16
# 逆さまに構築された評価セットはもっと難しいが、公平ではないかもしれない

Adversarially Constructed Evaluation Sets Are More Challenging, but May Not Be Fair ( http://arxiv.org/abs/2111.08181v1 )

ライセンス: Link先を確認
Jason Phang, Angelica Chen, William Huang, Samuel R. Bowman(参考訳) より有能な言語モデルは、既存のタスクベンチマークを飽和させる傾向にある。 これにより、さらなる進展を測定するためのヘッドルームがほとんどなくなった。 より困難なデータセットを構築するための戦略として,(1)簡単な例のフィルタリング,(2)ループ内のモデルデータ収集の2つの一般的なアプローチが提案されている。 本研究では,より困難な評価データセットを作成するために,それぞれのアプローチを適用することの影響について検討する。 afliteアルゴリズムをフィルタ評価データに適用し、18の異なる敵モデルに対して実験を行う。 AFLiteは、より難しい例を選択し、より強力な敵モデルを使用するように、評価されたモデルの性能を低下させる。 しかし、結果のモデルランキングは不安定であり、使用する敵モデルの選択に非常に敏感である。 さらに、afliteはアノテーションの少ない例を例にオーバーサンプリングする。 anliとadversarialqaで収集されたデータセットの小規模実験も同様の結果を示し、より強力な敵によって性能を低下させながら、逆モデルに不釣り合いに影響を及ぼす。

More capable language models increasingly saturate existing task benchmarks, in some cases outperforming humans. This has left little headroom with which to measure further progress. Adversarial dataset creation has been proposed as a strategy to construct more challenging datasets, and two common approaches are: (1) filtering out easy examples and (2) model-in-the-loop data collection. In this work, we study the impact of applying each approach to create more challenging evaluation datasets. We adapt the AFLite algorithm to filter evaluation data, and run experiments against 18 different adversary models. We find that AFLite indeed selects more challenging examples, lowering the performance of evaluated models more as stronger adversary models are used. However, the resulting ranking of models can also be unstable and highly sensitive to the choice of adversary model used. Moreover, AFLite oversamples examples with low annotator agreement, meaning that model comparisons hinge on the most contentiously labeled examples. Smaller-scale experiments on the adversarially collected datasets ANLI and AdversarialQA show similar findings, broadly lowering performance with stronger adversaries while disproportionately affecting the adversary model.
翻訳日:2021-11-17 15:10:39 公開日:2021-11-16
# Coral:メンタルヘルスアプリケーションにおける会話エージェントのアプローチ

Coral: An Approach for Conversational Agents in Mental Health Applications ( http://arxiv.org/abs/2111.08545v1 )

ライセンス: Link先を確認
Harsh Sakhrani, Saloni Parekh, Shubham Mahajan(参考訳) 一部の個人は、メンタルヘルスの専門家の前で自分の考えや感情を開いて共有することは難しいかもしれない。 バーチャルエージェントとより親しみやすい人のために、会話エージェントは正しい方向への中間ステップとして機能することができる。 したがって、会話エージェントは共感的であり、自由に会話ができる必要がある。 そこで,本稿では,メンタルヘルス応用に使用できる生成的共感型オープンドメインチャットボットを作成するためのアプローチを提案する。 我々は,大規模事前学習および共感的会話データを用いて,自然界における共感性の向上と,文脈維持のためのマルチターン対話アレンジメントを実現する。 我々のモデルは共感対話テストセットで最先端の結果を得る。

It may be difficult for some individuals to open up and share their thoughts and feelings in front of a mental health expert. For those who are more at ease with a virtual agent, conversational agents can serve as an intermediate step in the right direction. The conversational agent must therefore be empathetic and able to conduct free-flowing conversations. To this effect, we present an approach for creating a generative empathetic open-domain chatbot that can be used for mental health applications. We leverage large scale pre-training and empathetic conversational data to make the responses more empathetic in nature and a multi-turn dialogue arrangement to maintain context. Our models achieve state-of-the-art results on the Empathetic Dialogues test set.
翻訳日:2021-11-17 15:10:19 公開日:2021-11-16
# ドキュメントAI:ベンチマーク、モデル、アプリケーション

Document AI: Benchmarks, Models and Applications ( http://arxiv.org/abs/2111.08609v1 )

ライセンス: Link先を確認
Lei Cui, Yiheng Xu, Tengchao Lv, Furu Wei(参考訳) ドキュメントAI(Document AI、Document Intelligence)は、ビジネス文書を自動的に読み、理解し、分析する技術を指す比較的新しい研究トピックである。 自然言語処理とコンピュータビジョンにとって重要な研究方向である。 近年、ディープラーニング技術の普及は、文書レイアウト分析、視覚的情報抽出、文書視覚的質問応答、文書画像分類など、文書aiの発展に大きく進展している。 本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。 さらに,初期のヒューリスティック・ルールに基づく文書分析,統計的機械学習アルゴリズム,特に事前学習手法についても紹介する。 最後に、ドキュメントAI研究の今後の方向性について検討する。

Document AI, or Document Intelligence, is a relatively new research topic that refers to the techniques for automatically reading, understanding, and analyzing business documents. It is an important research direction for natural language processing and computer vision. In recent years, the popularity of deep learning technology has greatly advanced the development of Document AI, such as document layout analysis, visual information extraction, document visual question answering, document image classification, etc. This paper briefly reviews some of the representative models, tasks, and benchmark datasets. Furthermore, we also introduce early-stage heuristic rule-based document analysis, statistical machine learning algorithms, and deep learning approaches especially pre-training methods. Finally, we look into future directions for Document AI research.
翻訳日:2021-11-17 15:10:08 公開日:2021-11-16
# フローショップにおけるマンパワースケジューリングのための自己エンコードバーナクル結合最適化アルゴリズム

Self-encoding Barnacle Mating Optimizer Algorithm for Manpower Scheduling in Flow Shop ( http://arxiv.org/abs/2111.08246v1 )

ライセンス: Link先を確認
Shuyun Luo, Wushuang Wang, Mengyuan Fang, and Weiqiang Xu(参考訳) Flow Shop Scheduling (FSS)は様々な分野に応用されているため、広く研究されている。 人力スケジューリングは、生産効率に大きな意味を持つ適切な段階に多様な熟練度を持つ労働者を割り当てることに注意を向ける。 本稿では,FSMSP(Flow Shop Manpower Scheduling Problem)という,作業者の熟練度を考慮したFSS問題の解法として,自己符号化バーナクルマッチング最適化法(SBMO)を提案する。 SBMOアルゴリズムのハイライトは、エンコーディング方法、クロスオーバー、突然変異演算子の組み合わせである。 さらに,局所的な最適問題を解くために,近傍探索方式を設計する。 最後に,提案するsbmoの優位性を示すために,広範な比較シミュレーションを行った。 その結果,SBMOの有効性は,古典的,人気の高いものと比べ,近似比,強力な安定性,実行時間であった。

Flow Shop Scheduling (FSS) has been widely researched due to its application in many types of fields, while the human participant brings great challenges to this problem. Manpower scheduling captures attention for assigning workers with diverse proficiency to the appropriate stages, which is of great significance to production efficiency. In this paper, we present a novel algorithm called Self-encoding Barnacle Mating Optimizer (SBMO), which solves the FSS problem considering worker proficiency, defined as a new problem, Flow Shop Manpower Scheduling Problem (FSMSP). The highlight of the SBMO algorithm is the combination with the encoding method, crossover and mutation operators. Moreover, in order to solve the local optimum problem, we design a neighborhood search scheme. Finally, the extensive comparison simulations are conducted to demonstrate the superiority of the proposed SBMO. The results indicate the effectiveness of SBMO in approximate ratio, powerful stability, and execution time, compared with the classic and popular counterparts.
翻訳日:2021-11-17 15:08:04 公開日:2021-11-16
# 類似運動の発見に関する実証的研究

An Empirical Study of Finding Similar Exercises ( http://arxiv.org/abs/2111.08322v1 )

ライセンス: Link先を確認
Tongwen Huang and Xihua Li(参考訳) 教育人工知能は、知的テスト用紙の生成や統合演習などの教育分野におけるタスクの利益を目標としており、そこでは、類似したエクササイズ(FSE)問題の発見として知られるエクササイズにマッチする方法が主な技術である。 これらのアプローチの多くは、エクササイズを表現するためのモデル能力を強調したが、残念ながら、データの不足、エクササイズの理解の不十分、ハイラベルノイズなど、多くの課題がある。 ラベル・スカースデータセットのための中国語教育事前学習型言語モデルbert$_{edu}$をリリースし,数式と運動用語の多様性を克服するために運動正規化を導入する。 課題解決のアイデアに頼って,新しい補助課題を革新的な方法で発見し,FSEタスクのための非常に効果的なMoE拡張マルチタスクモデルを提案する。 また,ラベリングデータの高ノイズを克服するために,信頼度学習を用いた。 本論文では,これらの手法が有効であることを示す。

Education artificial intelligence aims to profit tasks in the education domain such as intelligent test paper generation and consolidation exercises where the main technique behind is how to match the exercises, known as the finding similar exercises(FSE) problem. Most of these approaches emphasized their model abilities to represent the exercise, unfortunately there are still many challenges such as the scarcity of data, insufficient understanding of exercises and high label noises. We release a Chinese education pre-trained language model BERT$_{Edu}$ for the label-scarce dataset and introduce the exercise normalization to overcome the diversity of mathematical formulas and terms in exercise. We discover new auxiliary tasks in an innovative way depends on problem-solving ideas and propose a very effective MoE enhanced multi-task model for FSE task to attain better understanding of exercises. In addition, confidence learning was utilized to prune train-set and overcome high noises in labeling data. Experiments show that these methods proposed in this paper are very effective.
翻訳日:2021-11-17 15:07:46 公開日:2021-11-16
# 大規模時系列データからの不確実性を考慮した複数インスタンス学習

Uncertainty-Aware Multiple Instance Learning fromLarge-Scale Long Time Series Data ( http://arxiv.org/abs/2111.08625v1 )

ライセンス: Link先を確認
Yuansheng Zhu, Weishi Shi, Deep Shankar Pandey, Yang Liu, Xiaofan Que, Daniel E. Krutz, and Qi Yu(参考訳) 本稿では,大規模時系列データを長時間に分類する新しい枠組みを提案する。 L-TSC(Long Time seriesclassification )は、分類対象に大量の無関係な情報を含むため、難しい問題である。 本稿では,不確実性を考慮した複数インスタンス学習(mil)フレームワークを提案する。 予測の不確実性により、MILモデルに識別可能な期間から学習を強いるアタテンション機構の設計が可能になる。 さらに、予測不確実性は、予測が信頼に値するか否かを判定する原則付き推定器を出力する。 我々はさらに,その可利用性に基づいて別のモデルを訓練し,最終予測を推定するために不確実性を認識した融合を行うことにより,信頼性の低い予測を緩和するもう1つのモダリティを組み込む。 自動識別システム(ais)データを用いて系統的な評価を行い,実世界の船舶の識別と追跡を行う。 実験結果から,提案手法は,他のデータモダリティ(Synthetic-ApertureR adar あるいは SAR 画像)とのトラジェクティと不確実性認識に基づく容器のタイプを効果的に検出できることが示唆された。

We propose a novel framework to classify large-scale time series data with long duration. Long time seriesclassification (L-TSC) is a challenging problem because the dataoften contains a large amount of irrelevant information to theclassification target. The irrelevant period degrades the classifica-tion performance while the relevance is unknown to the system.This paper proposes an uncertainty-aware multiple instancelearning (MIL) framework to identify the most relevant periodautomatically. The predictive uncertainty enables designing anattention mechanism that forces the MIL model to learn from thepossibly discriminant period. Moreover, the predicted uncertaintyyields a principled estimator to identify whether a prediction istrustworthy or not. We further incorporate another modality toaccommodate unreliable predictions by training a separate modelbased on its availability and conduct uncertainty aware fusion toproduce the final prediction. Systematic evaluation is conductedon the Automatic Identification System (AIS) data, which is col-lected to identify and track real-world vessels. Empirical resultsdemonstrate that the proposed method can effectively detect thetypes of vessels based on the trajectory and the uncertainty-awarefus ion with other available data modality (Synthetic-ApertureR adar or SAR imagery is used in our experiments) can furtherimprove the detection accuracy.
翻訳日:2021-11-17 15:07:27 公開日:2021-11-16
# 相互作用予測のための$AIR^2$

$AIR^2$ for Interaction Prediction ( http://arxiv.org/abs/2111.08184v1 )

ライセンス: Link先を確認
David Wu, Yunnan Wu(参考訳) 2021年のWaymo Interaction Prediction Challengeは、2人の対話エージェントの将来の軌道と信頼性を共同で予測する問題を提起した。 我々は,ラスタ化を施した辺縁運動予測モデルを用いてエージェント間相互作用をモデル化する手法を開発した。 我々は,エゴエージェントと相互作用エージェントを強調表示したラスタ化画像を用いて,共同信頼度を予測する。 我々の解はアンカーのデカルト積空間上で作用するので、$"^2"$ in $air^2$。 我々のモデルは、リーダーボード上で最も高いmAP(主指標)を達成した。

The 2021 Waymo Interaction Prediction Challenge introduced a problem of predicting the future trajectories and confidences of two interacting agents jointly. We developed a solution that takes an anchored marginal motion prediction model with rasterization and augments it to model agent interaction. We do this by predicting the joint confidences using a rasterized image that highlights the ego agent and the interacting agent. Our solution operates on the cartesian product space of the anchors; hence the $"^2"$ in $AIR^2$. Our model achieved the highest mAP (the primary metric) on the leaderboard.
翻訳日:2021-11-17 15:06:45 公開日:2021-11-16
# 高分解能仮想トライオン(VITON-CROP)のためのランダムイメージクロッピングを用いたデータ拡張

Data Augmentation using Random Image Cropping for High-resolution Virtual Try-On (VITON-CROP) ( http://arxiv.org/abs/2111.08270v1 )

ライセンス: Link先を確認
Taewon Kang, Sunghyun Park, Seunghwan Choi, Jaegul Choo(参考訳) 画像ベースの仮想試行は、衣服のアイテムを特定の人の写真に転送する能力を提供する。 しかし、前者の方法による実世界の合成画像(セルフィーなど)の結果は、首が誤って表現されたり、衣料のスタイルに重大な変化が生じたりして現実的ではない。 これらの課題に対処するため,本研究では,VITON-CROPと呼ばれる新しい手法を提案する。 VITON-CROPは、既存の最先端仮想試行モデルと比較して、ランダムな作物増収と統合した場合、画像をより堅牢に合成する。 実験では,VITON-CROPがVITON-HDより質的,定量的に優れていることを示した。

Image-based virtual try-on provides the capacity to transfer a clothing item onto a photo of a given person, which is usually accomplished by warping the item to a given human pose and adjusting the warped item to the person. However, the results of real-world synthetic images (e.g., selfies) from the previous method is not realistic because of the limitations which result in the neck being misrepresented and significant changes to the style of the garment. To address these challenges, we propose a novel method to solve this unique issue, called VITON-CROP. VITON-CROP synthesizes images more robustly when integrated with random crop augmentation compared to the existing state-of-the-art virtual try-on models. In the experiments, we demonstrate that VITON-CROP is superior to VITON-HD both qualitatively and quantitatively.
翻訳日:2021-11-17 15:06:35 公開日:2021-11-16
# ビデオベース人物再識別のためのキーポイントメッセージパッシング

Keypoint Message Passing for Video-based Person Re-Identification ( http://arxiv.org/abs/2111.08279v1 )

ライセンス: Link先を確認
Di Chen, Andreas Doering, Shanshan Zhang, Jian Yang, Juergen Gall, Bernt Schiele(参考訳) ビデオベースの人物識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした視覚監視システムにおいて重要な技術である。 既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。 本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服する手法を提案する。 具体的には、人手キーポイントに位置する特徴を抽出して空間-時間グラフとして接続する。 これらのキーポイント機能は、グラフ畳み込みネットワーク(GCN)で接続されたノードからメッセージ転送によって更新される。 トレーニング中、GCNは任意のCNNベースの人物のre-IDモデルにアタッチされ、特徴マップでの表現学習を支援する。 提案手法は,生成した人物キーポイントと新たに注釈付きデータセットであるPoseTrackReIDを用いて,MARSデータセット上のCNNベースのベースラインモデルを大幅に改善する。 また、先行研究と比較して、トップ1の精度と平均的な精度で新しい最先端手法を定義する。

Video-based person re-identification (re-ID) is an important technique in visual surveillance systems which aims to match video snippets of people captured by different cameras. Existing methods are mostly based on convolutional neural networks (CNNs), whose building blocks either process local neighbor pixels at a time, or, when 3D convolutions are used to model temporal information, suffer from the misalignment problem caused by person movement. In this paper, we propose to overcome the limitations of normal convolutions with a human-oriented graph method. Specifically, features located at person joint keypoints are extracted and connected as a spatial-temporal graph. These keypoint features are then updated by message passing from their connected nodes with a graph convolutional network (GCN). During training, the GCN can be attached to any CNN-based person re-ID model to assist representation learning on feature maps, whilst it can be dropped after training for better inference speed. Our method brings significant improvements over the CNN-based baseline model on the MARS dataset with generated person keypoints and a newly annotated dataset: PoseTrackReID. It also defines a new state-of-the-art method in terms of top-1 accuracy and mean average precision in comparison to prior works.
翻訳日:2021-11-17 15:06:20 公開日:2021-11-16
# NENet:ニューラルアンサンブルによる単眼深度推定

NENet: Monocular Depth Estimation via Neural Ensembles ( http://arxiv.org/abs/2111.08313v1 )

ライセンス: Link先を確認
Shuwei Shao, Ran Li, Zhongcai Pei, Zhong Liu, Weihai Chen, Wentao Zhu, Xingming Wu and Baochang Zhang(参考訳) 深度推定はコンピュータビジョンコミュニティで広く普及しており、単一のRGB画像のみを用いて正確な深度マップを復元することは依然として困難である。 本研究では,既存の手法が非対称な誤差を呈する傾向にある現象を観察し,高精度でロバストな深度推定のための新しい方向を開く可能性がある。 我々は,この現象を慎重に検討し,多種多様なベース予測器からの複数の予測を統合するために,二段階アンサンブルスキームnenetを構築した。 NENetはより信頼性の高い深さ推定器を形成し、ベース予測器よりも性能を大幅に向上させる。 特に,アンサンブル学習を導入する試みとしてはこれが初めてであり,知識の長所に対して単眼深度推定の有用性を評価する。 広範な実験により、nyu-depth-v2とkittiデータセットの以前の最先端のアプローチよりも優れた結果が得られることが示されている。 特に,本手法は,NYUデータセット上のRMSE測定値の0.365から0.349に改善する。 カメラ間の一般化性を検証するため、NYUデータセットでトレーニングされたモデルを微調整なしでSUN RGB-Dデータセットに直接適用し、その強力な一般化性を示す優れた結果を得る。 ソースコードとトレーニングされたモデルは、受け入れ次第公開される。

Depth estimation is getting a widespread popularity in the computer vision community, and it is still quite difficult to recover an accurate depth map using only one single RGB image. In this work, we observe a phenomenon that existing methods tend to exhibit asymmetric errors, which might open up a new direction for accurate and robust depth estimation. We carefully investigate into the phenomenon, and construct a two-level ensemble scheme, NENet, to integrate multiple predictions from diverse base predictors. The NENet forms a more reliable depth estimator, which substantially boosts the performance over base predictors. Notably, this is the first attempt to introduce ensemble learning and evaluate its utility for monocular depth estimation to the best of our knowledge. Extensive experiments demonstrate that the proposed NENet achieves better results than previous state-of-the-art approaches on the NYU-Depth-v2 and KITTI datasets. In particular, our method improves previous state-of-the-art methods from 0.365 to 0.349 on the metric RMSE on the NYU dataset. To validate the generalizability across cameras, we directly apply the models trained on the NYU dataset to the SUN RGB-D dataset without any fine-tuning, and achieve the superior results, which indicate its strong generalizability. The source code and trained models will be publicly available upon the acceptance.
翻訳日:2021-11-17 15:05:08 公開日:2021-11-16
# TRIG:初期埋め込み誘導によるトランスフォーマーベースのテキスト認識

TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance ( http://arxiv.org/abs/2111.08314v1 )

ライセンス: Link先を確認
Yue Tao, Zhiwei Jia, Runze Ma, Shugong Xu(参考訳) シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジであり、多くの研究の注目を集めている。 畳み込みニューラルネットワーク(CNNS)はこのタスクにおいて顕著な進歩を遂げているが、既存の作業の多くは、CNNが帰納的バイアスを解決するためにグローバルな依存関係をキャプチャし、テキスト機能間の関係を強化するために、追加のモジュール(コンテキストモデリングモジュール)を必要とする。 近年,自己着脱機構によるグローバルコンテキストモデリングの有望なネットワークとしてトランスフォーマが提案されているが,認識に応用した場合の主な欠点は効率である。 複雑化の課題に対処し,CNNをトランスフォーマーエンコーダに置き換え,コンテキストモデリングモジュールの必要性を減らす1次元分割を提案する。 さらに、最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、機能をテキストにデコードし、精度が低下する。 本稿では、変換器エンコーダから学習可能な初期埋め込みを用いて、異なる入力画像に適応させることを提案する。 さらに,3段階(変換,特徴抽出,予測)からなる初期埋め込み誘導(TRIG)を用いたTRansformerベースのテキスト認識アーキテクチャを提案する。 大規模な実験により,本手法はテキスト認識ベンチマークの最先端性を達成できることが示されている。

Scene text recognition (STR) is an important bridge between images and text, attracting abundant research attention. While convolutional neural networks (CNNS) have achieved remarkable progress in this task, most of the existing works need an extra module (context modeling module) to help CNN to capture global dependencies to solve the inductive bias and strengthen the relationship between text features. Recently, the transformer has been proposed as a promising network for global context modeling by self-attention mechanism, but one of the main shortcomings, when applied to recognition, is the efficiency. We propose a 1-D split to address the challenges of complexity and replace the CNN with the transformer encoder to reduce the need for a context modeling module. Furthermore, recent methods use a frozen initial embedding to guide the decoder to decode the features to text, leading to a loss of accuracy. We propose to use a learnable initial embedding learned from the transformer encoder to make it adaptive to different input images. Above all, we introduce a novel architecture for text recognition, named TRansformer-based text recognizer with Initial embedding Guidance (TRIG), composed of three stages (transformation, feature extraction, and prediction). Extensive experiments show that our approach can achieve state-of-the-art on text recognition benchmarks.
翻訳日:2021-11-17 15:04:48 公開日:2021-11-16
# アクションユニット検出のために選択すべきcnnとトレーニング設定は? 大規模データセットに基づく一考察

Which CNNs and Training Settings to Choose for Action Unit Detection? A Study Based on a Large-Scale Dataset ( http://arxiv.org/abs/2111.08320v1 )

ライセンス: Link先を確認
Mina Bishay, Ahmed Ghoneim, Mohamed Ashraf and Mohammad Mavadati(参考訳) 本稿では,よく使用される畳み込みニューラルネットワーク(cnns),トレーニング設定,トレーニングセット構造が行動単位(au)検出に与える影響について検討する。 具体的には、au検出においてまず10種類の浅層と深層cnnを比較した。 第2に、異なるトレーニング設定(例えば、入力の集中/正規化、異なる拡張精度の使用、データのバランス)がAU検出の性能に与える影響について検討する。 第3に,au検出性能に及ぼす学習セットのラベル付き被写体数とフレーム数の増加の影響について検討する。 これらの比較は、異なるCNNの選択とAU検出のトレーニング設定に関する有用なヒントを提供する。 分析では、野生で撮影された約55Kのビデオからなる大規模な自然主義的データセットを使用します。 我々の知る限りでは、そのような設定が大規模AUデータセットに与える影響を調査した研究は存在しない。

In this paper we explore the influence of some frequently used Convolutional Neural Networks (CNNs), training settings, and training set structures, on Action Unit (AU) detection. Specifically, we first compare 10 different shallow and deep CNNs in AU detection. Second, we investigate how the different training settings (i.e. centering/normalizin g the inputs, using different augmentation severities, and balancing the data) impact the performance in AU detection. Third, we explore the effect of increasing the number of labelled subjects and frames in the training set on the AU detection performance. These comparisons provide the research community with useful tips about the choice of different CNNs and training settings in AU detection. In our analysis, we use a large-scale naturalistic dataset, consisting of ~55K videos captured in the wild. To the best of our knowledge, there is no work that had investigated the impact of such settings on a large-scale AU dataset.
翻訳日:2021-11-17 15:04:24 公開日:2021-11-16
# 注意深い設定の選択:大規模データセットを用いた異なる設定でのアクションユニット検出の比較

Choose Settings Carefully: Comparing Action Unit detection at Different Settings Using a Large-Scale Dataset ( http://arxiv.org/abs/2111.08324v1 )

ライセンス: Link先を確認
Mina Bishay, Ahmed Ghoneim, Mohamed Ashraf and Mohammad Mavadati(参考訳) 本稿では,一般的な設定が与える影響について検討する。 (a)顔画像の事前処理、及び b) 分類と訓練,行動単位(AU)検出性能と複雑性。 調査では、広告を見る参加者のために、野生で収集された約55Kのビデオからなる大規模なデータセットを使用しています。 事前処理設定には、顔の固定解像度へのスケーリング、色情報(RGBからグレースケール)の変更、顔の整列、AU領域のトリミング、分類とトレーニング設定には、分類器の種類(複数ラベル対バイナリ)とトレーニングモデルに使用されるデータ量が含まれる。 我々の知る限りでは、これらの設定がAU検出に与える影響は研究されていない。 分析では,ベースライン分類モデルとしてCNNを用いる。

In this paper, we investigate the impact of some of the commonly used settings for (a) preprocessing face images, and (b) classification and training, on Action Unit (AU) detection performance and complexity. We use in our investigation a large-scale dataset, consisting of ~55K videos collected in the wild for participants watching commercial ads. The preprocessing settings include scaling the face to a fixed resolution, changing the color information (RGB to gray-scale), aligning the face, and cropping AU regions, while the classification and training settings include the kind of classifier (multi-label vs. binary) and the amount of data used for training models. To the best of our knowledge, no work had investigated the effect of those settings on AU detection. In our analysis we use CNNs as our baseline classification model.
翻訳日:2021-11-17 15:04:10 公開日:2021-11-16
# 野生の静止画像からの戦闘検出

Fight Detection from Still Images in the Wild ( http://arxiv.org/abs/2111.08370v1 )

ライセンス: Link先を確認
\c{S}eymanur Akt{\i}, Ferda Ofli, Muhammad Imran, Haz{\i}m Kemal Ekenel(参考訳) ソーシャルメディア上で共有された静止画像から戦闘を検出することは、その悪影響を防ぐために暴力シーンの分布を制限するために重要な課題である。 そこで本研究では,webおよびソーシャルメディアから収集した静止画像からの戦い検出の問題に対処する。 我々は、静止画1枚から戦いを検知する能力について検討する。 また,smfi(social media fight images)という,実世界の戦闘行動の画像を含む新しいデータセットを提案する。 提案するデータセットを用いた広範な実験の結果,静止画像から戦闘行動が認識できることがわかった。 すなわち、時間的情報を活用することなく、外観のみを活用して高精度に戦闘を検出することができる。 また,収集したデータセットの表現能力を評価するために,データセット間実験を行った。 これらの実験は、他のコンピュータビジョン問題と同様に、戦闘認識問題に対するデータセットバイアスが存在することを示している。 この手法は、同じ戦闘データセット上でトレーニングおよびテストされた場合、100%近い精度を達成するが、クロスデータセットのアキュラシーは、トレーニングにより多くの代表的データセットを使用する場合、約70%低下する。 SMFIデータセットは、使用した5つの戦闘データセットのうち、最も代表的な2つのデータセットの1つである。

Detecting fights from still images shared on social media is an important task required to limit the distribution of violent scenes in order to prevent their negative effects. For this reason, in this study, we address the problem of fight detection from still images collected from the web and social media. We explore how well one can detect fights from just a single still image. We also propose a new dataset, named Social Media Fight Images (SMFI), comprising real-world images of fight actions. Results of the extensive experiments on the proposed dataset show that fight actions can be recognized successfully from still images. That is, even without exploiting the temporal information, it is possible to detect fights with high accuracy by utilizing appearance only. We also perform cross-dataset experiments to evaluate the representation capacity of the collected dataset. These experiments indicate that, as in the other computer vision problems, there exists a dataset bias for the fight recognition problem. Although the methods achieve close to 100% accuracy when trained and tested on the same fight dataset, the cross-dataset accuracies are significantly lower, i.e., around 70% when more representative datasets are used for training. SMFI dataset is found to be one of the two most representative datasets among the utilized five fight datasets.
翻訳日:2021-11-17 15:03:57 公開日:2021-11-16
# アクティブラーニングによる単一画像オブジェクトのカウントと局所化

Single Image Object Counting and Localizing using Active-Learning ( http://arxiv.org/abs/2111.08383v1 )

ライセンス: Link先を確認
Inbar Huberman-Spiegelglas and Raanan Fattal(参考訳) 画像内の繰り返しオブジェクトを数えてローカライズする必要性は、生物顕微鏡の研究、生産ラインの検査、監視記録分析など、さまざまなシナリオで生じる。 教師付きConvoutional Neural Networks(CNN)の使用は、大規模なクラス固有のデータセットでトレーニングされた場合、正確なオブジェクト検出を実現する。 このアプローチにおけるラベル付けの取り組みは、ユニークなオブジェクトクラスの少数のイメージに対してカウントが要求される場合、報われない。 本稿では,事前学習済みの分類器がないことを前提として,単一画像シナリオにおける繰り返しオブジェクトのカウントとローカライズを行う新しい手法を提案する。 本手法は,少数のアクティブラーニングイテレーションにおいて,入力画像から注意深く収集したラベルセット上でcnnを訓練する。 各イテレーションで、ネットワークの潜在空間を分析して、クラス内の多様体を可能な限り徹底的にサンプリングし、冗長なラベルを避けるために、最小限のユーザクエリを抽出する。 既存のユーザ支援計数手法と比較して,アクティブラーニングの反復は,精度,マウスクリック数,実行時間といった面で最先端のパフォーマンスを実現している。 この評価は,照明条件や閉塞条件の多種多様な画像クラスを対象とした大規模なユーザ調査を通じて行われた。

The need to count and localize repeating objects in an image arises in different scenarios, such as biological microscopy studies, production lines inspection, and surveillance recordings analysis. The use of supervised Convoutional Neural Networks (CNNs) achieves accurate object detection when trained over large class-specific datasets. The labeling effort in this approach does not pay-off when the counting is required over few images of a unique object class. We present a new method for counting and localizing repeating objects in single-image scenarios, assuming no pre-trained classifier is available. Our method trains a CNN over a small set of labels carefully collected from the input image in few active-learning iterations. At each iteration, the latent space of the network is analyzed to extract a minimal number of user-queries that strives to both sample the in-class manifold as thoroughly as possible as well as avoid redundant labels. Compared with existing user-assisted counting methods, our active-learning iterations achieve state-of-the-art performance in terms of counting and localizing accuracy, number of user mouse clicks, and running-time. This evaluation was performed through a large user study over a wide range of image classes with diverse conditions of illumination and occlusions.
翻訳日:2021-11-17 15:03:37 公開日:2021-11-16
# Delta-GAN-Encoder:少数の合成サンプルを用いた画像編集のための意味的変化の符号化

Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing, using Few Synthetic Samples ( http://arxiv.org/abs/2111.08419v1 )

ライセンス: Link先を確認
Nir Diamant, Nitsan Shandor, Alex M Bronstein(参考訳) 生成モデルの潜在空間のアンダースタットと制御は複雑なタスクである。 本稿では,事前学習されたGANの潜伏空間における任意の属性を学習し,それに応じて合成された実世界のデータサンプルを編集する手法を提案する。 我々は最小限のサンプルを頼りにSim2Real学習を行い、連続的な正確な編集を無制限に行う。 本稿では,画像間の変化のセマンティクスを,後で新しいサンプルを編集し,正確な望ましい結果を得るための基盤として符号化することを学ぶAutoencoderベースのモデルを提案する。 従来の編集方法は潜在空間の既知の構造(例えばStyleGANのいくつかの意味論の線型性)に依存していたが、本手法は本質的にいかなる構造的制約も必要としない。 我々は,表情,ポーズ,照明属性の編集,最先端の結果の達成という,顔画像の領域における手法を実証する。

Understating and controlling generative models' latent space is a complex task. In this paper, we propose a novel method for learning to control any desired attribute in a pre-trained GAN's latent space, for the purpose of editing synthesized and real-world data samples accordingly. We perform Sim2Real learning, relying on minimal samples to achieve an unlimited amount of continuous precise edits. We present an Autoencoder-based model that learns to encode the semantics of changes between images as a basis for editing new samples later on, achieving precise desired results - example shown in Fig. 1. While previous editing methods rely on a known structure of latent spaces (e.g., linearity of some semantics in StyleGAN), our method inherently does not require any structural constraints. We demonstrate our method in the domain of facial imagery: editing different expressions, poses, and lighting attributes, achieving state-of-the-art results.
翻訳日:2021-11-17 15:03:17 公開日:2021-11-16
# 階層的で学習可能なパートフュージョンによるロバスト3次元シーンセグメンテーション

Robust 3D Scene Segmentation through Hierarchical and Learnable Part-Fusion ( http://arxiv.org/abs/2111.08434v1 )

ライセンス: Link先を確認
Anirud Thyagharajan, Benjamin Ummenhofer, Prashant Laddha, Om J Omer, Sreenivas Subramoney(参考訳) 3dセマンティックセグメンテーションは、自動運転、ロボティクス、ar/vrなど、いくつかのシーン理解アプリケーションのための基本的な構成要素である。 いくつかの最先端セマンティックセグメンテーションモデルは、同じオブジェクトの一部が誤ってラベル付けされる部分的誤分類問題に悩まされている。 従来の手法では、階層的で反復的な手法を用いて意味と事例情報を融合するが、文脈融合における学習性に欠けており、計算的に複雑でヒューリスティックな駆動である。 本稿では,セマンティクス情報とインスタンス情報の階層的融合手法であるsegment-fusionを提案する。 提案手法は,ポイントをセグメントにグループ化するグラフ分割アルゴリズムと,これらのセグメントを意味的特徴と事例的特徴に基づいて融合する学習可能な注意ベースネットワークと,セグメント特徴をインスタンスラベルに変換するためのシンプルで効果的な連結コンポーネントラベリングアルゴリズムを含む。 Segment-Fusionは、セマンティック/インスタンスセグメンテーションのためのどんなネットワークアーキテクチャでも柔軟に利用できる。 ScanNetとS3DISデータセットで評価すると、いくつかのセマンティックセグメンテーションバックボーンの質的、定量的なパフォーマンスが最大5%向上する。

3D semantic segmentation is a fundamental building block for several scene understanding applications such as autonomous driving, robotics and AR/VR. Several state-of-the-art semantic segmentation models suffer from the part misclassification problem, wherein parts of the same object are labelled incorrectly. Previous methods have utilized hierarchical, iterative methods to fuse semantic and instance information, but they lack learnability in context fusion, and are computationally complex and heuristic driven. This paper presents Segment-Fusion, a novel attention-based method for hierarchical fusion of semantic and instance information to address the part misclassifications. The presented method includes a graph segmentation algorithm for grouping points into segments that pools point-wise features into segment-wise features, a learnable attention-based network to fuse these segments based on their semantic and instance features, and followed by a simple yet effective connected component labelling algorithm to convert segment features to instance labels. Segment-Fusion can be flexibly employed with any network architecture for semantic/instance segmentation. It improves the qualitative and quantitative performance of several semantic segmentation backbones by upto 5% when evaluated on the ScanNet and S3DIS datasets.
翻訳日:2021-11-17 15:02:58 公開日:2021-11-16
# 光流動における連続的セマンティック攻撃

Consistent Semantic Attacks on Optical Flow ( http://arxiv.org/abs/2111.08485v1 )

ライセンス: Link先を確認
Tom Koren, Lior Talker, Michael Dinerstein, Roy J Jevnisek(参考訳) 本稿では,光学フローに対する意味的ターゲティング攻撃に対する新しいアプローチを提案する。 そのような攻撃では、目標は特定のオブジェクトカテゴリやインスタンスのフロー予測を壊すことである。 通常、攻撃者は入力中の敵の摂動を隠そうとする。 しかし、出力を素早くスキャンすると攻撃が明らかになる。 対照的に、この方法は攻撃者の意図をアウトプットに隠すのにも役立ちます。 目標外の一貫性を促進する正規化用語のおかげで、私たちはこれを達成します。 私たちは、ホワイトボックスとブラックボックスの両方の設定において、我々のアプローチの利点を示すために、主要な光フローモデルに関する広範なテストを行います。 また,光の流れに依存する後続のタスクに対する攻撃の有効性を実証する。

We present a novel approach for semantically targeted adversarial attacks on Optical Flow. In such attacks the goal is to corrupt the flow predictions of a specific object category or instance. Usually, an attacker seeks to hide the adversarial perturbations in the input. However, a quick scan of the output reveals the attack. In contrast, our method helps to hide the attackers intent in the output as well. We achieve this thanks to a regularization term that encourages off-target consistency. We perform extensive tests on leading optical flow models to demonstrate the benefits of our approach in both white-box and black-box settings. Also, we demonstrate the effectiveness of our attack on subsequent tasks that depend on the optical flow.
翻訳日:2021-11-17 15:02:05 公開日:2021-11-16
# IKEAオブジェクト状態データセット:マルチステートアセンブリオブジェクトの6DoFオブジェクトポーズ推定データセットとベンチマーク

IKEA Object State Dataset: A 6DoF object pose estimation dataset and benchmark for multi-state assembly objects ( http://arxiv.org/abs/2111.08614v1 )

ライセンス: Link先を確認
Yongzhi Su, Mingxin Liu, Jason Rambach, Antonia Pehrson, Anton Berg, Didier Stricker(参考訳) 6dof(degrees of freedom)を利用してオブジェクトとそのコンポーネントの情報をポーズし、オブジェクトの状態検出タスクに不可欠である。 本稿では,IKEAの家具3Dモデル,組み立てプロセスのRGBDビデオ,家具部品の6DoFポーズとそのバウンディングボックスを含む新しいデータセットであるIKEA Object State Datasetを紹介する。 提案されたデータセットはhttps://github.com/m xllmx/IKEAObjectStat eDataset.comから入手できる。

Utilizing 6DoF(Degrees of Freedom) pose information of an object and its components is critical for object state detection tasks. We present IKEA Object State Dataset, a new dataset that contains IKEA furniture 3D models, RGBD video of the assembly process, the 6DoF pose of furniture parts and their bounding box. The proposed dataset will be available at https://github.com/m xllmx/IKEAObjectStat eDataset.
翻訳日:2021-11-17 15:01:55 公開日:2021-11-16
# 発話要約のための注意に基づくマルチハイポテーシス融合

Attention-based Multi-hypothesis Fusion for Speech Summarization ( http://arxiv.org/abs/2111.08201v1 )

ライセンス: Link先を確認
Takatomo Kano, Atsunori Ogawa, Marc Delcroix, and Shinji Watanabe(参考訳) 自動音声認識(asr)とテキスト要約(ts)を組み合わせることにより、音声からテキスト要約を生成する音声要約を実現することができる。 このカスケードアプローチでは、サブタスク、すなわちASR用TransformerとTS用Bidirectional Encoder Representations from Transformer (BERT)の両方に対して、最先端のモデルと大規模なトレーニングデータセットを利用することができる。 しかし、ASR誤差はカスケード法における出力要約の品質に直接影響する。 本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。 ASR仮説を組み合わせるためのいくつかのスキームについて検討する。 まず,ASRシステムが提供する後続値によって重み付けされたサブワード埋め込みベクトルの和をBERTベースのTSシステムへの入力として用いることを提案する。 次に,事前学習したBERTモジュールにアテンションベースの融合モジュールを付加して,複数のASR仮説を調整・結合する,より一般的な手法を提案する。 最後に、ハウ2データセットと新しく構築されたTEDベースのデータセットを用いて音声要約実験を行い、本論文で発表する。 これらの実験により,BERTベースのTSシステムを再学習することで,要約性能が向上し,注意に基づく融合モジュールが特に有効であることが示された。

Speech summarization, which generates a text summary from speech, can be achieved by combining automatic speech recognition (ASR) and text summarization (TS). With this cascade approach, we can exploit state-of-the-art models and large training datasets for both subtasks, i.e., Transformer for ASR and Bidirectional Encoder Representations from Transformers (BERT) for TS. However, ASR errors directly affect the quality of the output summary in the cascade approach. We propose a cascade speech summarization model that is robust to ASR errors and that exploits multiple hypotheses generated by ASR to attenuate the effect of ASR errors on the summary. We investigate several schemes to combine ASR hypotheses. First, we propose using the sum of sub-word embedding vectors weighted by their posterior values provided by an ASR system as an input to a BERT-based TS system. Then, we introduce a more general scheme that uses an attention-based fusion module added to a pre-trained BERT module to align and combine several ASR hypotheses. Finally, we perform speech summarization experiments on the How2 dataset and a newly assembled TED-based dataset that we will release with this paper. These experiments show that retraining the BERT-based TS system with these schemes can improve summarization performance and that the attention-based fusion module is particularly effective.
翻訳日:2021-11-17 15:01:45 公開日:2021-11-16
# 微粒化科学文書類似性のためのテキストガイダンス付きマルチベクトルモデル

Multi-Vector Models with Textual Guidance for Fine-Grained Scientific Document Similarity ( http://arxiv.org/abs/2111.08366v1 )

ライセンス: Link先を確認
Sheshera Mysore, Arman Cohan, Tom Hope(参考訳) 我々は,粒度のマッチングに基づく新しい科学的文書類似性モデルであるaspireを提案する。 本モデルは,関連論文の側面をテクスト的監督の新しい形態として記述する共引用文脈を用いて学習する。 我々はマルチベクトル文書表現を使い、最近は短いクエリテキストを含む設定で検討したが、難解な文書文書設定では未検討である。 本稿では,単一文対のみをマッチングする高速手法と,最適なトランスポートと疎一致させる手法を提案する。 我々のモデルは4つのデータセットにわたる文書類似性タスクの性能を向上させる。 さらに,本手法は,大規模科学コーパスに微細な文書類似性モデルを適用する可能性を高めることで,競争結果を得る。

We present Aspire, a new scientific document similarity model based on matching fine-grained aspects. Our model is trained using co-citation contexts that describe related paper aspects as a novel form of textual supervision. We use multi-vector document representations, recently explored in settings with short query texts but under-explored in the challenging document-document setting. We present a fast method that involves matching only single sentence pairs, and a method that makes sparse multiple matches with optimal transport. Our model improves performance on document similarity tasks across four datasets. Moreover, our fast single-match method achieves competitive results, opening up the possibility of applying fine-grained document similarity models to large-scale scientific corpora.
翻訳日:2021-11-17 15:01:23 公開日:2021-11-16
# 強調重み付きオフポリシィアクター臨界

Off-Policy Actor-Critic with Emphatic Weightings ( http://arxiv.org/abs/2111.08172v1 )

ライセンス: Link先を確認
Eric Graves, Ehsan Imani, Raksha Kumaraswamy, Martha White(参考訳) 政策勾配定理(policy gradient theorem)により、オンポリシー設定のために様々な理論上音質の政策勾配アルゴリズムが存在する。 しかし、オフ・ポリシー・セッティングは、複数の目的の存在と明確なオフ・ポリシー・ポリシーの勾配定理の欠如により、明確ではない。 本研究では,これらの目的を一つのオフ・ポリシー目標に統一し,この統一目的に対して政策勾配定理を提供する。 導出には強調重み付けと関心関数が含まれる。 Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムで、勾配を近似する複数の戦略を示す。 我々は,前回(半次)のオフ・ポリティカル・アクタ-クリティック法-特にオフパック法とdpg-法-が間違った解に収束したことを反例で証明する。 これらの半次アプローチが実際にうまく機能する理由についても強調し,aceの分散削減戦略を提案する。 我々は,2つの古典的な制御環境と,各勾配近似によるトレードオフを説明するイメージベース環境において,aceのいくつかの変種を実験的に検討した。 強調重み付けを直接近似することにより、テストされたすべての設定において、ACEはOFPACと同等以上の性能を発揮する。

A variety of theoretically-sound policy gradient algorithms exist for the on-policy setting due to the policy gradient theorem, which provides a simplified form for the gradient. The off-policy setting, however, has been less clear due to the existence of multiple objectives and the lack of an explicit off-policy policy gradient theorem. In this work, we unify these objectives into one off-policy objective, and provide a policy gradient theorem for this unified objective. The derivation involves emphatic weightings and interest functions. We show multiple strategies to approximate the gradients, in an algorithm called Actor Critic with Emphatic weightings (ACE). We prove in a counterexample that previous (semi-gradient) off-policy actor-critic methods--particularl y OffPAC and DPG--converge to the wrong solution whereas ACE finds the optimal solution. We also highlight why these semi-gradient approaches can still perform well in practice, suggesting strategies for variance reduction in ACE. We empirically study several variants of ACE on two classic control environments and an image-based environment designed to illustrate the tradeoffs made by each gradient approximation. We find that by approximating the emphatic weightings directly, ACE performs as well as or better than OffPAC in all settings tested.
翻訳日:2021-11-17 14:58:44 公開日:2021-11-16
# ローカルで学習し、グローバルに正し、グラフニューラルネットワークをトレーニングする分散アルゴリズム

Learn Locally, Correct Globally: A Distributed Algorithm for Training Graph Neural Networks ( http://arxiv.org/abs/2111.08202v1 )

ライセンス: Link先を確認
Morteza Ramezani, Weilin Cong, Mehrdad Mahdavi, Mahmut T. Kandemir, Anand Sivasubramaniam(参考訳) 最近のグラフニューラルネットワーク(GNN)の成功にもかかわらず、大きなグラフ上でのGNNのトレーニングは依然として難しい。 既存のサーバのリソース容量の制限、グラフ内のノード間の依存性、集中型ストレージとモデル学習によるプライバシの懸念により、GNNトレーニングに効果的な分散アルゴリズムを設計する必要が生じた。 しかし、既存の分散GNNトレーニング手法は、通信コストの過大さや、そのスケーラビリティを妨げる大きなメモリオーバーヘッドを課している。 これらの問題を解決するために,通信効率の高い分散GNNトレーニング手法である$\text{Learn Locally, Correct Globally}}$ (LLCG)を提案する。 通信とメモリのオーバーヘッドを軽減するため、LLCGの各ローカルマシンは、異なるマシン間のノード間の依存性を無視して、まずGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにサーバーにローカルトレーニングされたモデルを送信する。 しかし、ノード依存を無視するとパフォーマンスが大幅に低下する可能性がある。 性能劣化を解決するため,ローカルに学習したモデルを改良するために$\text{Global Server Corrections}}$をサーバに適用することを提案する。 本稿では,gnnを訓練するための周期的モデル平均化による分散手法の収束を厳密に解析し,ノード間の依存性を無視する周期的モデル平均化が既約残誤差を伴わないことを示す。 しかしながら、この残差誤差は、提案された大域的補正を利用して高速収束率を伴って除去することができる。 実世界のデータセットに対する大規模な実験は、LLCGがパフォーマンスを損なうことなく効率を大幅に改善できることを示している。

Despite the recent success of Graph Neural Networks (GNNs), training GNNs on large graphs remains challenging. The limited resource capacities of the existing servers, the dependency between nodes in a graph, and the privacy concern due to the centralized storage and model learning have spurred the need to design an effective distributed algorithm for GNN training. However, existing distributed GNN training methods impose either excessive communication costs or large memory overheads that hinders their scalability. To overcome these issues, we propose a communication-effici ent distributed GNN training technique named $\text{{Learn Locally, Correct Globally}}$ (LLCG). To reduce the communication and memory overhead, each local machine in LLCG first trains a GNN on its local data by ignoring the dependency between nodes among different machines, then sends the locally trained model to the server for periodic model averaging. However, ignoring node dependency could result in significant performance degradation. To solve the performance degradation, we propose to apply $\text{{Global Server Corrections}}$ on the server to refine the locally learned models. We rigorously analyze the convergence of distributed methods with periodic model averaging for training GNNs and show that naively applying periodic model averaging but ignoring the dependency between nodes will suffer from an irreducible residual error. However, this residual error can be eliminated by utilizing the proposed global corrections to entail fast convergence rate. Extensive experiments on real-world datasets show that LLCG can significantly improve the efficiency without hurting the performance.
翻訳日:2021-11-17 14:58:24 公開日:2021-11-16
# 予測分析のための統一的・高速解釈モデル

A Unified and Fast Interpretable Model for Predictive Analytics ( http://arxiv.org/abs/2111.08255v1 )

ライセンス: Link先を確認
Rui Ding, Tianchi Qiao, Yunan Zhu, Zhitao Zou, Shi Han, Dongmei Zhang(参考訳) 本稿では,予測分析のための統一的かつ高速解釈可能なモデルであるfxam(fast and explainable additive model)を提案する。 FXAMはGAM(Generalized Additive Model)モデリング機能を拡張し、数値的、分類的、時間的特徴に統一的な加算モデルを提供する。 FXAMは、TSI(Three-Stage Iteration)と呼ばれる新しいトレーニング手順を実行している。 3つの段階はそれぞれ、数値的、カテゴリー的、時間的特徴の学習に対応する。 各ステージは、他のステージのパラメータを固定することで局所最適学習を行う。 我々は,時間的特徴のカテゴリー的特徴と部分的学習による共同学習をデザインし,高い精度と訓練効率を実現する。 TSIがグローバルな最適化に収束することが保証されていることを証明します。 さらに,対話型解析の必要性を満たすため,FXAMの学習アルゴリズムを高速化する最適化手法を提案する。 FXAMはトレーニング速度や時間的特徴をモデル化し,既存のGAMを著しく上回っている。

In this paper, we propose FXAM (Fast and eXplainable Additive Model), a unified and fast interpretable model for predictive analytics. FXAM extends GAM's (Generalized Additive Model) modeling capability with a unified additive model for numerical, categorical, and temporal features. FXAM conducts a novel training procedure called Three-Stage Iteration (TSI). The three stages correspond to learning over numerical, categorical and temporal features respectively. Each stage learns a local optimum by fixing parameters of other stages. We design joint learning over categorical features and partial learning over temporal features to achieve high accuracy and training efficiency. We prove that TSI is guaranteed to converge to global optimum. We further propose a set of optimization techniques to speed up FXAM's training algorithm to meet the needs of interactive analysis. Evaluations verify that FXAM significantly outperforms existing GAMs in terms of training speed and modeling categorical and temporal features.
翻訳日:2021-11-17 14:57:52 公開日:2021-11-16
# Deep Distilling: 説明可能なディープラーニングによるコードの自動生成

Deep Distilling: automated code generation using explainable deep learning ( http://arxiv.org/abs/2111.08275v1 )

ライセンス: Link先を確認
Paul J. Blazek, Kesavan Venkatesh, Milo M. Lin(参考訳) 人間の推論は観察されたパターンから原理を蒸留し、それらを一般化して新しい問題を説明し、解くことができる。 最も強力な人工知能システムは説明可能性や象徴的推論能力に欠けており、科学や常識推論のような人間の理解を必要とする領域では超越性を達成していない。 本稿では,説明可能な深層学習を用いてデータからパターンを学習し,簡潔で実行可能なコンピュータコードに凝縮する機械学習手法である深層蒸留法を紹介する。 ループ、ネストされた論理文、有用な中間変数を含むことができるコードは、ニューラルネットワークと等価であるが、一般的には桁違いにコンパクトで理解しやすい。 算術,コンピュータビジョン,最適化を含む多種多様な問題に対して,深蒸留は,訓練データよりも桁違いに複雑で桁違いな問題を解くために,分布を一般化する簡潔なコードを生成することを示した。 既知の基底規則セットに関する問題に対して、深蒸留はスケーラブルな保証で正確に設定された規則を発見する。 曖昧で計算に難解な問題に対して、蒸留規則は既存の人間由来のアルゴリズムと似ていて、同等かそれ以上の性能を持つ。 我々のアプローチは、非支援の機械学習が人間の推論を圧倒するであろう大規模なデータセットのパターンを説明する汎用的で直感的なルールを構築することを実証している。

Human reasoning can distill principles from observed patterns and generalize them to explain and solve novel problems. The most powerful artificial intelligence systems lack explainability and symbolic reasoning ability, and have therefore not achieved supremacy in domains requiring human understanding, such as science or common sense reasoning. Here we introduce deep distilling, a machine learning method that learns patterns from data using explainable deep learning and then condenses it into concise, executable computer code. The code, which can contain loops, nested logical statements, and useful intermediate variables, is equivalent to the neural network but is generally orders of magnitude more compact and human-comprehensible . On a diverse set of problems involving arithmetic, computer vision, and optimization, we show that deep distilling generates concise code that generalizes out-of-distribution to solve problems orders-of-magnitude larger and more complex than the training data. For problems with a known ground-truth rule set, deep distilling discovers the rule set exactly with scalable guarantees. For problems that are ambiguous or computationally intractable, the distilled rules are similar to existing human-derived algorithms and perform at par or better. Our approach demonstrates that unassisted machine intelligence can build generalizable and intuitive rules explaining patterns in large datasets that would otherwise overwhelm human reasoning.
翻訳日:2021-11-17 14:57:40 公開日:2021-11-16
# 推論時間に基づく個人化フェデレーション学習

Inference-Time Personalized Federated Learning ( http://arxiv.org/abs/2111.08356v1 )

ライセンス: Link先を確認
Ohad Amosy, Gal Eyal and Gal Chechik(参考訳) フェデレーション学習(fl)では、複数のクライアントが協力して、中央サーバを介してモデルを学習するが、データを分散化しておく。 パーソナライズド・フェデレーション・ラーニング(PFL)はさらにFLを拡張して、パーソナライズされたモデルを学ぶことで、クライアント間のデータの均一性を処理する。 FLとPFLの両方では、すべてのクライアントがトレーニングプロセスに参加し、ラベル付きデータがトレーニングに使用される。 しかし実際には、新規クライアントはデプロイ後に予測サービスに参加し、ラベルのないデータに対する予測を得たいかもしれない。 そこで我々は,新しい学習環境である推論時間PFL(IT-PFL)を定義した。そこでは,一連のクライアントでトレーニングされたモデルを,推論時に新しい未ラベルのクライアント上で後で評価する必要がある。 本稿では,ハイパーネットワークモジュールとエンコーダモジュールをベースとしたIT-PFL-HNを提案する。 具体的には、未ラベルのデータからクライアントの表現を学習するエンコーダネットワークを訓練する。 そのクライアント表現はハイパーネットワークに送られ、クライアントのパーソナライズされたモデルを生成する。 4つのベンチマークデータセットから評価したところ,IT-PFL-HN は現在の FL 法や PFL 法よりも一般化されている。 また、新しいクライアントの一般化誤差を分析し、マルチタスク学習とドメイン適応の結果を用いて、どのようにバウンドできるかを示した。 最後に、新規クライアントはトレーニングにデータを貢献しないので、データプライバシをより良くコントロールできる可能性がある。

In Federated learning (FL), multiple clients collaborate to learn a model through a central server but keep the data decentralized. Personalized federated learning (PFL) further extends FL to handle data heterogeneity between clients by learning personalized models. In both FL and PFL, all clients participate in the training process and their labeled data is used for training. However, in reality, novel clients may wish to join a prediction service after it has been deployed, obtaining predictions for their own unlabeled data. Here, we defined a new learning setup, Inference-Time PFL (IT-PFL), where a model trained on a set of clients, needs to be later evaluated on novel unlabeled clients at inference time. We propose a novel approach to this problem IT-PFL-HN, based on a hypernetwork module and an encoder module. Specifically, we train an encoder network that learns a representation for a client given its unlabeled data. That client representation is fed to a hypernetwork that generates a personalized model for that client. Evaluated on four benchmark datasets, we find that IT-PFL-HN generalizes better than current FL and PFL methods, especially when the novel client has a large domain shift. We also analyzed the generalization error for the novel client, showing how it can be bounded using results from multi-task learning and domain adaptation. Finally, since novel clients do not contribute their data to training, they can potentially have better control over their data privacy; indeed, we showed analytically and experimentally how novel clients can apply differential privacy to their data.
翻訳日:2021-11-17 14:56:10 公開日:2021-11-16
# HiRID-ICU-Benchmark - 高解像度ICUデータの総合的機械学習ベンチマーク

HiRID-ICU-Benchmark -- A Comprehensive Machine Learning Benchmark on High-resolution ICU Data ( http://arxiv.org/abs/2111.08536v1 )

ライセンス: Link先を確認
Hugo Y\`eche, Rita Kuznetsova, Marc Zimmermann, Matthias H\"user, Xinrui Lyu, Martin Faltys, Gunnar R\"atsch(参考訳) Intensive Care Units (ICU) から収集した時系列に適用される機械学習手法の最近の成功は、そのような手法の開発と比較のための標準化された機械学習ベンチマークの欠如を露呈している。 mimic-iv や eicu といった生のデータセットは physionet 上で自由にアクセスすることができるが、タスクの選択や前処理は各出版物に対して副次的に選択され、出版物間の互換性が制限される。 本研究では,ICU関連タスクの幅広い範囲をカバーするベンチマークを提供することで,この状況を改善することを目的とする。 HiRIDデータセットを用いて,臨床医とのコラボレーションによって開発された複数の臨床関連タスクを定義した。 さらに、再現可能なエンドツーエンドパイプラインを提供し、データとラベルの両方を構築する。 最後に,最先端のシーケンスモデリング手法の詳細な分析を行い,この種のデータに対するディープラーニングアプローチの限界を浮き彫りにする。 このベンチマークでは、研究コミュニティに彼らの成果を公正に比較できる可能性を与えたいと思っています。

The recent success of machine learning methods applied to time series collected from Intensive Care Units (ICU) exposes the lack of standardized machine learning benchmarks for developing and comparing such methods. While raw datasets, such as MIMIC-IV or eICU, can be freely accessed on Physionet, the choice of tasks and pre-processing is often chosen ad-hoc for each publication, limiting comparability across publications. In this work, we aim to improve this situation by providing a benchmark covering a large spectrum of ICU-related tasks. Using the HiRID dataset, we define multiple clinically relevant tasks developed in collaboration with clinicians. In addition, we provide a reproducible end-to-end pipeline to construct both data and labels. Finally, we provide an in-depth analysis of current state-of-the-art sequence modeling methods, highlighting some limitations of deep learning approaches for this type of data. With this benchmark, we hope to give the research community the possibility of a fair comparison of their work.
翻訳日:2021-11-17 14:54:52 公開日:2021-11-16
# Kronecker Factored Curvature Approximation を用いたより一般化したディープニューラルネットワークのニューロンプルーニング

Neuron-based Pruning of Deep Neural Networks with Better Generalization using Kronecker Factored Curvature Approximation ( http://arxiv.org/abs/2111.08577v1 )

ライセンス: Link先を確認
Abdolghani Ebrahimi, Diego Klabjan(参考訳) 既存のディープニューラルネットワークのプルーニング方法は、トレーニングされたネットワークの不要なパラメータを取り除き、その後モデルを微調整することで、トレーニングされたモデルの初期のパフォーマンスを回復する優れたソリューションを見つけることに焦点を当てている。 他の研究と異なり、本手法は、圧縮されたモデルにおける解の質とニューロンのプルーニングによる推論計算時間に特に注意を払っている。 提案手法は, 圧縮モデルのパラメータをより平坦な解へ向けて, ヘッセンのスペクトル半径を探索することで, 未知データに対するより良い一般化を実現する。 さらに,本手法は事前学習ネットワークでは動作せず,同時にトレーニングとプルーニングを行う。 その結果,ニューロンの圧縮に関する最先端の結果が向上した。 この方法は、異なるニューラルネットワークモデル間の精度の低下を小さくして、非常に小さなネットワークを実現することができる。

Existing methods of pruning deep neural networks focus on removing unnecessary parameters of the trained network and fine tuning the model afterwards to find a good solution that recovers the initial performance of the trained model. Unlike other works, our method pays special attention to the quality of the solution in the compressed model and inference computation time by pruning neurons. The proposed algorithm directs the parameters of the compressed model toward a flatter solution by exploring the spectral radius of Hessian which results in better generalization on unseen data. Moreover, the method does not work with a pre-trained network and performs training and pruning simultaneously. Our result shows that it improves the state-of-the-art results on neuron compression. The method is able to achieve very small networks with small accuracy degradation across different neural network models.
翻訳日:2021-11-17 14:54:35 公開日:2021-11-16
# 機械学習による小角X線散乱の解析

Machine Learning-Assisted Analysis of Small Angle X-ray Scattering ( http://arxiv.org/abs/2111.08645v1 )

ライセンス: Link先を確認
Piotr Tomaszewski, Shun Yu, Markus Borg, Jerk R\"onnols(参考訳) 小角X線散乱(SAXS)は、ナノ構造を調べる方法として材料科学で広く用いられている。 実験的なSAXSデータの解析では、かなり単純なデータ形式を膨大な構造モデルにマッピングする。 モデル選択を支援する様々な科学計算ツールにもかかわらず、この活動はSAXSアナリストの経験に大きく依存しており、コミュニティによって効率のボトルネックとして認識されている。 この意思決定問題に対処するため、我々はオープンソースの機械学習ベースのツールSCAN(SCattering Ai aNalysis)を開発し、評価し、モデル選択に関するレコメンデーションを提供する。 SCANは複数の機械学習アルゴリズムを利用し、SassViewパッケージに実装されたモデルとシミュレーションツールを使用して、明確に定義されたデータセットセットを生成する。 評価の結果,SCANの全体的な精度は95%~97%であった。 XGBoost Classifierは、精度とトレーニング時間とのバランスのよい最も正確な方法として特定されている。 一般的なナノ構造のための11の事前定義された構造モデルと、数と型トレーニングモデルを拡張する簡易な描画機能により、SCANはSAXSデータ分析ワークフローを加速できる。

Small angle X-ray scattering (SAXS) is extensively used in materials science as a way of examining nanostructures. The analysis of experimental SAXS data involves mapping a rather simple data format to a vast amount of structural models. Despite various scientific computing tools to assist the model selection, the activity heavily relies on the SAXS analysts' experience, which is recognized as an efficiency bottleneck by the community. To cope with this decision-making problem, we develop and evaluate the open-source, Machine Learning-based tool SCAN (SCattering Ai aNalysis) to provide recommendations on model selection. SCAN exploits multiple machine learning algorithms and uses models and a simulation tool implemented in the SasView package for generating a well defined set of datasets. Our evaluation shows that SCAN delivers an overall accuracy of 95%-97%. The XGBoost Classifier has been identified as the most accurate method with a good balance between accuracy and training time. With eleven predefined structural models for common nanostructures and an easy draw-drop function to expand the number and types training models, SCAN can accelerate the SAXS data analysis workflow.
翻訳日:2021-11-17 14:54:21 公開日:2021-11-16
# FedCostWAvg: よりよいフェデレーション学習のための新しい平均化

FedCostWAvg: A new averaging for better Federated Learning ( http://arxiv.org/abs/2111.08649v1 )

ライセンス: Link先を確認
Leon M\"achler, Ivan Ezhov, Florian Kofler, Suprosanna Shit, Johannes C. Paetzold, Timo Loehr, Benedikt Wiestler, Bjoern Menze(参考訳) 本稿では,機械学習コミュニティにおけるフェデレーション学習に対する最初の挑戦である,miccai federated tumor segmentation challenge 2021 (fets) を勝ち取った,フェデレーション学習のための簡易な新しい集約戦略を提案する。 本手法は,異なるデータセットで学習した複数のモデルを集約する方法の問題に対処する。 概念的には、異なるモデルを平均化する際のウェイトを選択する新しい方法を提案し、それによって、アート(FedAvg)の現在の状態を拡張する。 実証検証の結果,FedAvgに比べてセグメンテーション性能が顕著に向上した。

We propose a simple new aggregation strategy for federated learning that won the MICCAI Federated Tumor Segmentation Challenge 2021 (FETS), the first ever challenge on Federated Learning in the Machine Learning community. Our method addresses the problem of how to aggregate multiple models that were trained on different data sets. Conceptually, we propose a new way to choose the weights when averaging the different models, thereby extending the current state of the art (FedAvg). Empirical validation demonstrates that our approach reaches a notable improvement in segmentation performance compared to FedAvg.
翻訳日:2021-11-17 14:54:04 公開日:2021-11-16
# (参考訳) モデルベース強化学習の効果的なスケジューリングについて [全文訳有]

On Effective Scheduling of Model-based Reinforcement Learning ( http://arxiv.org/abs/2111.08550v1 )

ライセンス: CC BY 4.0
Hang Lai, Jian Shen, Weinan Zhang, Yimin Huang, Xing Zhang, Ruiming Tang, Yong Yu, Zhenguo Li(参考訳) モデルに基づく強化学習は、優れたサンプル効率のために広く注目を集めている。 これまでのところ成功しているにもかかわらず、Dynaスタイルのモデルベースアルゴリズムにおけるポリシー最適化の実際のデータ比率など、重要なハイパーパラメータを適切にスケジュールして適切なパフォーマンスを達成する方法はまだ不明である。 本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,性能が向上することを示す。 モデルベース手法の代表的な実行事例であるMBPOアルゴリズムのトレーニングモデルベースポリシー最適化において,実際のデータ比率と他のハイパーパラメータを自動的にスケジュールするAutoMBPOというフレームワークを提案する。 いくつかの連続制御タスクにおいて、AutoMBPOによってスケジュールされたハイパーパラメータで訓練されたMBPOインスタンスは、元のものを大幅に上回ることができ、AutoMBPOによって発見された実際のデータ比率スケジュールは、我々の理論的分析と整合性を示す。

Model-based reinforcement learning has attracted wide attention due to its superior sample efficiency. Despite its impressive success so far, it is still unclear how to appropriately schedule the important hyperparameters to achieve adequate performance, such as the real data ratio for policy optimization in Dyna-style model-based algorithms. In this paper, we first theoretically analyze the role of real data in policy training, which suggests that gradually increasing the ratio of real data yields better performance. Inspired by the analysis, we propose a framework named AutoMBPO to automatically schedule the real data ratio as well as other hyperparameters in training model-based policy optimization (MBPO) algorithm, a representative running case of model-based methods. On several continuous control tasks, the MBPO instance trained with hyperparameters scheduled by AutoMBPO can significantly surpass the original one, and the real data ratio schedule found by AutoMBPO shows consistency with our theoretical analysis.
翻訳日:2021-11-17 14:52:30 公開日:2021-11-16
# 確率ブロックモデルに対するロバスト回復

Robust recovery for stochastic block models ( http://arxiv.org/abs/2111.08568v1 )

ライセンス: Link先を確認
Jingqiu Ding, Tommaso d'Orsi, Rajai Nasser, David Steurer(参考訳) 確率ブロックモデルのロバストなバージョンにおける弱い回復のための効率的なアルゴリズムを開発する。 このアルゴリズムは確率ブロックモデルのバニラバージョンに対する最もよく知られたアルゴリズムの統計的保証と一致する。 この意味では、確率ブロックモデルにロバスト性の価格がないことを示している。 我々の研究は、銀行、mohanty、raghavendra(soda 2021)の最近の研究に強く触発され、対応する識別問題の効率的なアルゴリズムを提供した。 我々のアルゴリズムとその解析は、ロバストな回復のために以前のものから大きく離れている。 植えられた分割は、完全に無関係な解が同じ目的の値を達成することができるという意味では、最適とはほど遠いかもしれない。 この現象は、PCAのBBP相転移におけるプッシュアウト効果と関連している。 私たちの知る限りでは、このアルゴリズムは非漸近的な環境でこのようなプッシュアウト効果の存在下でロバストな回復を達成する最初の方法です。 我々のアルゴリズムは凸最適化に基づくフレームワークのインスタンス化であり、他の頑健な行列推定問題に有用かもしれない。 我々の分析の副産物は、任意の頑健な弱回復アルゴリズムの成功確率(入力のランダム性よりも)を一定(あるいは徐々に消える)確率から指数関数的に高い確率に上げる一般的な手法である。

We develop an efficient algorithm for weak recovery in a robust version of the stochastic block model. The algorithm matches the statistical guarantees of the best known algorithms for the vanilla version of the stochastic block model. In this sense, our results show that there is no price of robustness in the stochastic block model. Our work is heavily inspired by recent work of Banks, Mohanty, and Raghavendra (SODA 2021) that provided an efficient algorithm for the corresponding distinguishing problem. Our algorithm and its analysis significantly depart from previous ones for robust recovery. A key challenge is the peculiar optimization landscape underlying our algorithm: The planted partition may be far from optimal in the sense that completely unrelated solutions could achieve the same objective value. This phenomenon is related to the push-out effect at the BBP phase transition for PCA. To the best of our knowledge, our algorithm is the first to achieve robust recovery in the presence of such a push-out effect in a non-asymptotic setting. Our algorithm is an instantiation of a framework based on convex optimization (related to but distinct from sum-of-squares), which may be useful for other robust matrix estimation problems. A by-product of our analysis is a general technique that boosts the probability of success (over the randomness of the input) of an arbitrary robust weak-recovery algorithm from constant (or slowly vanishing) probability to exponentially high probability.
翻訳日:2021-11-17 14:09:08 公開日:2021-11-16
# 近接分布に対する最初のアプローチ

A first approach to closeness distributions ( http://arxiv.org/abs/2111.08357v1 )

ライセンス: Link先を確認
Jesus Cerquides(参考訳) 確率的グラフィカルモデルにより、より小さい確率の合成として大きな確率分布を符号化できる。 しばしば、これらの小さな分布のいくつかが互いに類似している可能性が高いという考えをモデルに組み込むことに興味がある。 本稿では,この情報を組み込む方法に関する情報幾何学的アプローチを提案し,すでに存在するモデルを再解釈することを可能にする。

Probabilistic graphical models allow us to encode a large probability distribution as a composition of smaller ones. It is oftentimes the case that we are interested in incorporating in the model the idea that some of these smaller distributions are likely to be similar to one another. In this paper we provide an information geometric approach on how to incorporate this information, and see that it allows us to reinterpret some already existing models.
翻訳日:2021-11-17 14:08:48 公開日:2021-11-16
# 粗大動物ポースと形状推定

Coarse-to-fine Animal Pose and Shape Estimation ( http://arxiv.org/abs/2111.08176v1 )

ライセンス: Link先を確認
Chen Li and Gim Hee Lee(参考訳) 既存の動物のポーズと形状推定手法のほとんどは、パラメトリックSMALモデルを用いて動物のメッシュを再構築する。 これは、smalモデルの低次元のポーズと形状パラメータにより、ディープネットワークが高次元の動物のメッシュを簡単に学習できるためである。 しかし、SMALモデルは、ポーズや形状の変化が限られているおもちゃの動物のスキャンから学習され、非常に多様な実際の動物を表現できない可能性がある。 これは、2Dキーポイントやシルエットのような2Dエビデンスに対する推定メッシュの適合性の悪い結果をもたらす可能性がある。 この問題を軽減するために,単一画像から3D動物メッシュを再構築する粗大なアプローチを提案する。 粗い推定段階は、まず、smalモデルのポーズ、形状、および翻訳パラメータを推定する。 次に、推定メッシュをグラフ畳み込みネットワーク(GCN)によって開始点として使用し、精製段階における頂点毎の変形を予測する。 このSMALベースの表現と頂点ベースの表現の組み合わせは、パラメトリック表現と非パラメトリック表現の両方から恩恵を受ける。 我々は,従来のGCNの限られた受容領域を克服するために,階層的な特徴表現を持つエンコーダデコーダ構造としてメッシュリファインメントGCN(MRGCN)を設計する。 さらに,既存の動物メッシュ再構築作業で使用されているグローバルな画像特徴は,メッシュ改質のための詳細な形状情報を取得することができない。 そこで我々は,局所特徴抽出器を導入して頂点レベルの特徴を抽出し,MRGCNの入力としてグローバル特徴と併用する。 我々はStanfordExtraデータセットでアプローチを検証し、最先端の結果を得る。 さらに,動物のポーズとbadjaデータセットに対するアプローチの一般化能力をテストする。 私たちのコードはプロジェクトのWebサイトで利用可能です。

Most existing animal pose and shape estimation approaches reconstruct animal meshes with a parametric SMAL model. This is because the low-dimensional pose and shape parameters of the SMAL model makes it easier for deep networks to learn the high-dimensional animal meshes. However, the SMAL model is learned from scans of toy animals with limited pose and shape variations, and thus may not be able to represent highly varying real animals well. This may result in poor fittings of the estimated meshes to the 2D evidences, e.g. 2D keypoints or silhouettes. To mitigate this problem, we propose a coarse-to-fine approach to reconstruct 3D animal mesh from a single image. The coarse estimation stage first estimates the pose, shape and translation parameters of the SMAL model. The estimated meshes are then used as a starting point by a graph convolutional network (GCN) to predict a per-vertex deformation in the refinement stage. This combination of SMAL-based and vertex-based representations benefits from both parametric and non-parametric representations. We design our mesh refinement GCN (MRGCN) as an encoder-decoder structure with hierarchical feature representations to overcome the limited receptive field of traditional GCNs. Moreover, we observe that the global image feature used by existing animal mesh reconstruction works is unable to capture detailed shape information for mesh refinement. We thus introduce a local feature extractor to retrieve a vertex-level feature and use it together with the global feature as the input of the MRGCN. We test our approach on the StanfordExtra dataset and achieve state-of-the-art results. Furthermore, we test the generalization capacity of our approach on the Animal Pose and BADJA datasets. Our code is available at the project website.
翻訳日:2021-11-17 14:08:26 公開日:2021-11-16
# 旅行時間予測のための機械学習モデルの比較分析

Comparative Analysis of Machine Learning Models for Predicting Travel Time ( http://arxiv.org/abs/2111.08226v1 )

ライセンス: Link先を確認
Armstrong Aboah, Elizabeth Arthur(参考訳) 本稿では,旅行時間予測のための5種類のディープラーニングモデルを比較した。 これらのモデルは、自己回帰統合移動平均(ARIMA)モデル、リカレントニューラルネットワーク(RNN)モデル、自己回帰(AR)モデル、長短項メモリ(LSTM)モデル、ゲートリカレントユニット(GRU)モデルである。 本研究の目的は,旅行時間予測のための各開発モデルの性能を検討することである。 この論文で使用されるデータセットは、ミズーリ州からの旅行時間と旅行速度情報で構成されている。 各モデル構築に使用する学習率は0.0001-0.01。 最高の学習率は0.001であった。 この研究は、ARIMAモデルが旅行時間の予測と予測に最適なモデルアーキテクチャであると結論付けた。

In this paper, five different deep learning models are being compared for predicting travel time. These models are autoregressive integrated moving average (ARIMA) model, recurrent neural network (RNN) model, autoregressive (AR) model, Long-short term memory (LSTM) model, and gated recurrent units (GRU) model. The aim of this study is to investigate the performance of each developed model for forecasting travel time. The dataset used in this paper consists of travel time and travel speed information from the state of Missouri. The learning rate used for building each model was varied from 0.0001-0.01. The best learning rate was found to be 0.001. The study concluded that the ARIMA model was the best model architecture for travel time prediction and forecasting.
翻訳日:2021-11-17 14:08:00 公開日:2021-11-16
# 畳み込みニューラルネットワークにおける接地心理学形状空間

Grounding Psychological Shape Space in Convolutional Neural Networks ( http://arxiv.org/abs/2111.08409v1 )

ライセンス: Link先を確認
Lucas Bechberger and Kai-Uwe K\"uhnberger(参考訳) 形状情報は人間の知覚と認知にとって不可欠であり、そのため認知AIシステムでも役割を果たすべきである。 低次元の解釈可能な類似性空間を通して概念知識の幾何学的表現を提案する概念空間の学際的枠組みを用いる。 これらの類似性空間は、しばしば小さな刺激セットに対する心理的異質性評価に基づいており、それらは多次元スケーリングと呼ばれる技法によって空間表現に変換される。 残念ながら、このアプローチは新しい刺激に一般化できない。 本稿では,畳み込みニューラルネットワークを用いて知覚入力(グレースケール線画の画素)と最近提案された形状領域の心理的類似性空間の一般化を学習する。 異なるネットワークアーキテクチャ(分類ネットワーク対オートエンコーダ)と異なるトレーニングレジーム(転送学習対マルチタスク学習)を調査した。 その結果,分類に基づくマルチタスク学習シナリオは最良の結果をもたらすが,その性能は類似性空間の次元性に比較的敏感であることがわかった。

Shape information is crucial for human perception and cognition, and should therefore also play a role in cognitive AI systems. We employ the interdisciplinary framework of conceptual spaces, which proposes a geometric representation of conceptual knowledge through low-dimensional interpretable similarity spaces. These similarity spaces are often based on psychological dissimilarity ratings for a small set of stimuli, which are then transformed into a spatial representation by a technique called multidimensional scaling. Unfortunately, this approach is incapable of generalizing to novel stimuli. In this paper, we use convolutional neural networks to learn a generalizable mapping between perceptual inputs (pixels of grayscale line drawings) and a recently proposed psychological similarity space for the shape domain. We investigate different network architectures (classification network vs. autoencoder) and different training regimes (transfer learning vs. multi-task learning). Our results indicate that a classification-based multi-task learning scenario yields the best results, but that its performance is relatively sensitive to the dimensionality of the similarity space.
翻訳日:2021-11-17 14:07:47 公開日:2021-11-16
# ubnormal: 教師付きオープンセットビデオ異常検出のための新しいベンチマーク

UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection ( http://arxiv.org/abs/2111.08644v1 )

ライセンス: Link先を確認
Andra Acsintoae, Andrei Florescu, Mariana-Iuliana Georgescu, Tudor Mare, Paul Sumedrea, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah(参考訳) ビデオ内の異常なイベントの検出は、通常、訓練ビデオは通常のイベントのみを含み、テストビデオは正常なイベントと異常なイベントの両方を包含する、1階級の分類タスクとして構成される。 このシナリオでは、異常検出はオープンセットの問題である。 しかし、いくつかの研究は、行動認識に対する異常検出を同一視している。 これは、新しい異常型を検出するシステムの能力をテストするのに失敗するクローズドセットのシナリオである。 そこで本稿では,ビデオ異常検出のための複数の仮想シーンからなる教師付きオープンセットベンチマークubnormalを提案する。 既存のデータセットとは異なり、トレーニング時に画素レベルでアノテートされた異常事象を初めて導入し、完全教師付き学習手法を用いて異常事象の検出を行う。 典型的なオープンセットの定式化を維持するため、ビデオのトレーニングとテストのコレクションに、異常なタイプの解離集合を確実に含めます。 私たちの知る限り、ubnormalは、実験で示したように、1クラスオープンセットモデルと教師付きクローズドセットモデルとを公平に比較できる最初のビデオ異常検出ベンチマークです。 さらに,我々は,UBnormalが2つの著名なデータ集合であるアベニューと上海技術上で,最先端の異常検出フレームワークの性能を向上させることを示す実証的証拠を提供する。

Detecting abnormal events in video is commonly framed as a one-class classification task, where training videos contain only normal events, while test videos encompass both normal and abnormal events. In this scenario, anomaly detection is an open-set problem. However, some studies assimilate anomaly detection to action recognition. This is a closed-set scenario that fails to test the capability of systems at detecting new anomaly types. To this end, we propose UBnormal, a new supervised open-set benchmark composed of multiple virtual scenes for video anomaly detection. Unlike existing data sets, we introduce abnormal events annotated at the pixel level at training time, for the first time enabling the use of fully-supervised learning methods for abnormal event detection. To preserve the typical open-set formulation, we make sure to include disjoint sets of anomaly types in our training and test collections of videos. To our knowledge, UBnormal is the first video anomaly detection benchmark to allow a fair head-to-head comparison between one-class open-set models and supervised closed-set models, as shown in our experiments. Moreover, we provide empirical evidence showing that UBnormal can enhance the performance of a state-of-the-art anomaly detection framework on two prominent data sets, Avenue and ShanghaiTech.
翻訳日:2021-11-17 14:07:31 公開日:2021-11-16
# WikiContradiction: Wikipediaにおける自己矛盾記事の検出

WikiContradiction: Detecting Self-Contradiction Articles on Wikipedia ( http://arxiv.org/abs/2111.08543v1 )

ライセンス: Link先を確認
Cheng Hsu, Cheng-Te Li, Diego Saez-Trumper, Yi-Zhan Hsu(参考訳) ウィキペディアは事実確認やクレーム検証で誤情報や偽情報の排除に利用されてきたが、記事の品質を改善し、ノイズの多い記事を除外することが不可欠である。 自己矛盾はウィキペディアの低品質記事タイプの一つである。 本研究では,ウィキペディアにおける自己矛盾記事の検出課題を提案する。 自己矛盾」テンプレートに基づいて、自己矛盾検出タスクのための新しいデータセットを作成する。 従来の矛盾検出は、文の対やクレームを比較することに重点を置いているが、自己矛盾検出は、記事の意味を更に推論し、すべての文から矛盾認識比較を同時に学ぶ必要がある。 そこで本研究では,第1モデルであるペアワイズ・コンフリクション・ニューラル・ネットワーク(pcnn)を提案する。 PCNNの主な考え方は2つある。 まず,データ不足が自己矛盾記事に与える影響を緩和するために,snli と mnli ベンチマークを用いて対矛盾学習のモジュールを事前学習する。 第2に、最も矛盾する確率値を持つトップk文対を選択し、それらの相関をモデル化し、対応する記事が自己矛盾に属するかどうかを判断する。 提案したWikiContradictionデータセットの実験では、PCNNは有望な性能を生み出すことができ、矛盾する箇所の文対を包括的にハイライトすることができる。

While Wikipedia has been utilized for fact-checking and claim verification to debunk misinformation and disinformation, it is essential to either improve article quality and rule out noisy articles. Self-contradiction is one of the low-quality article types in Wikipedia. In this work, we propose a task of detecting self-contradiction articles in Wikipedia. Based on the "self-contradictory&q uot; template, we create a novel dataset for the self-contradiction detection task. Conventional contradiction detection focuses on comparing pairs of sentences or claims, but self-contradiction detection needs to further reason the semantics of an article and simultaneously learn the contradiction-aware comparison from all pairs of sentences. Therefore, we present the first model, Pairwise Contradiction Neural Network (PCNN), to not only effectively identify self-contradiction articles, but also highlight the most contradiction pairs of contradiction sentences. The main idea of PCNN is two-fold. First, to mitigate the effect of data scarcity on self-contradiction articles, we pre-train the module of pairwise contradiction learning using SNLI and MNLI benchmarks. Second, we select top-K sentence pairs with the highest contradiction probability values and model their correlation to determine whether the corresponding article belongs to self-contradiction. Experiments conducted on the proposed WikiContradiction dataset exhibit that PCNN can generate promising performance and comprehensively highlight the sentence pairs the contradiction locates.
翻訳日:2021-11-17 14:05:52 公開日:2021-11-16
# 列生成による解釈可能かつ公正なブール規則セット

Interpretable and Fair Boolean Rule Sets via Column Generation ( http://arxiv.org/abs/2111.08466v1 )

ライセンス: Link先を確認
Connor Lawless, Sanjeeb Dash, Oktay Gunluk, Dennis Wei(参考訳) 本稿では,解離正規形 (DNF, OR-of-ANDs, equivalent to decision rule set) と解離正規形 (CNF, AND-of-ORs) のいずれにおいてもブール規則の学習を解釈可能な分類モデルとして考察する。 整数プログラムは規則単純性のために最適に分類精度を交換する。 また,公平性の設定を検討し,その定式化を2つの異なる分類パリティ尺度(機会の平等と等化オッズ)に対する明示的な制約を含むように拡張する。 カラム生成(CG)は、ヒューリスティックなルールマイニングを必要とせずに、指数関数的な数の候補節(接続や接続)を効率的に探索するために用いられる。 このアプローチでは、選択されたルールセットとトレーニングデータに設定された最善のルールとのギャップも制限する。 大規模データセットを扱うために,ランダム化を用いた近似cgアルゴリズムを提案する。 最近提案された3つの代替手法と比較して、CGアルゴリズムは16のデータセットのうち8つの正確さと単純さのトレードオフを支配している。 精度を最大化する場合、CGはこの目的のために設計されたルール学習者と競合する。 他の公正かつ解釈可能な分類器と比較して、我々の手法は、公正性のより厳密な概念に適合する規則セットを精度の低いトレードオフで見つけることができる。

This paper considers the learning of Boolean rules in either disjunctive normal form (DNF, OR-of-ANDs, equivalent to decision rule sets) or conjunctive normal form (CNF, AND-of-ORs) as an interpretable model for classification. An integer program is formulated to optimally trade classification accuracy for rule simplicity. We also consider the fairness setting and extend the formulation to include explicit constraints on two different measures of classification parity: equality of opportunity and equalized odds. Column generation (CG) is used to efficiently search over an exponential number of candidate clauses (conjunctions or disjunctions) without the need for heuristic rule mining. This approach also bounds the gap between the selected rule set and the best possible rule set on the training data. To handle large datasets, we propose an approximate CG algorithm using randomization. Compared to three recently proposed alternatives, the CG algorithm dominates the accuracy-simplicity trade-off in 8 out of 16 datasets. When maximized for accuracy, CG is competitive with rule learners designed for this purpose, sometimes finding significantly simpler solutions that are no less accurate. Compared to other fair and interpretable classifiers, our method is able to find rule sets that meet stricter notions of fairness with a modest trade-off in accuracy.
翻訳日:2021-11-17 14:05:26 公開日:2021-11-16
# 異常な外惑星輸送を自動的に検出する

Automatically detecting anomalous exoplanet transits ( http://arxiv.org/abs/2111.08679v1 )

ライセンス: Link先を確認
Christoph J. H\"ones, Benjamin Kurt Miller, Ana M. Heras, Bernard H. Foing(参考訳) 太陽系外惑星のトランジットからの生の光線曲線データは複雑すぎて、従来の異常検出法を適用することはできない。 本稿では,一対の変分オートエンコーダを用いて,メイントランジットと残差の遅延表現を推定するアーキテクチャを提案する。 2つのデータセットを用いて、異常なトランジット残差の潜在表現は、生データや従来の変分オートエンコーダの潜在表現よりも、異常検出にかなり適していることを示す。 次に、実際の太陽系外惑星トランジットデータに適用する。 我々の研究は、異常な太陽系外惑星の遷移光曲線を自動的に同定する最初のものである。 さらに3つのファースト・オブ・ザ・キンドデータセットをリリースし、さらなる研究を可能にします。

Raw light curve data from exoplanet transits is too complex to naively apply traditional outlier detection methods. We propose an architecture which estimates a latent representation of both the main transit and residual deviations with a pair of variational autoencoders. We show, using two fabricated datasets, that our latent representations of anomalous transit residuals are significantly more amenable to outlier detection than raw data or the latent representation of a traditional variational autoencoder. We then apply our method to real exoplanet transit data. Our study is the first which automatically identifies anomalous exoplanet transit light curves. We additionally release three first-of-their-kind datasets to enable further research.
翻訳日:2021-11-17 14:05:03 公開日:2021-11-16
# リコメンダシステムの潜在因子モデルにおけるテキストレビューの利用

Utilizing Textual Reviews in Latent Factor Models for Recommender Systems ( http://arxiv.org/abs/2111.08538v1 )

ライセンス: Link先を確認
Tatev Karen Aslanyan, Flavius Frasincar(参考訳) 既存のレコメンデータシステムのほとんどはレーティングデータのみに基づいており、テキストレビューやユーザやアイテムの特徴などのレコメンデーションの品質を高める可能性のある他の情報源を無視している。 さらに、これらのシステムの大部分は、小さなデータセット(数千の観測)にのみ適用でき、大規模なデータセット(数百万の観測)を処理できない。 本稿では,テキストレビューに基づくトピックモデリング手法(遅延因子モデル)と,テキストレビューに基づくトピックモデリング手法(遅延ディリクレ割当)を組み合わせたレコメンデータアルゴリズムを提案する。 サイズが異なるAmazon.comデータセットを用いてアルゴリズムの性能を評価し,23の製品カテゴリに対応する。 ビルトモデルと他の4つのモデルを比較した結果、テキストレビューとレーティングを組み合わせることで、より良いレコメンデーションが得られました。 さらに、モデルに追加のユーザ・アイテム機能を追加することで予測精度が向上し、特に中規模・大規模データセットに当てはまることがわかった。

Most of the existing recommender systems are based only on the rating data, and they ignore other sources of information that might increase the quality of recommendations, such as textual reviews, or user and item characteristics. Moreover, the majority of those systems are applicable only on small datasets (with thousands of observations) and are unable to handle large datasets (with millions of observations). We propose a recommender algorithm that combines a rating modelling technique (i.e., Latent Factor Model) with a topic modelling method based on textual reviews (i.e., Latent Dirichlet Allocation), and we extend the algorithm such that it allows adding extra user- and item-specific information to the system. We evaluate the performance of the algorithm using Amazon.com datasets with different sizes, corresponding to 23 product categories. After comparing the built model to four other models we found that combining textual reviews with ratings leads to better recommendations. Moreover, we found that adding extra user and item features to the model increases its prediction accuracy, which is especially true for medium and large datasets.
翻訳日:2021-11-17 14:04:51 公開日:2021-11-16
# (参考訳) DataCLUE: データ中心NLPのためのベンチマークスイート [全文訳有]

DataCLUE: A Benchmark Suite for Data-centric NLP ( http://arxiv.org/abs/2111.08647v1 )

ライセンス: CC BY 4.0
Liang Xu, Jiacheng Liu, Xiang Pan, Xiaojing Lu, Xiaofeng Hou(参考訳) データ中心のAIは、最近より効率的でハイパフォーマンスであることが証明され、一方、従来のモデル中心のAIは、より少ないメリットを提供する。 モデルパフォーマンスを改善するためにデータセットの品質を向上させることを強調する。 この分野は、その優れた実用性とより多くの注目を集めているため、大きな可能性を秘めている。 しかし、この分野、特にNLPでは大きな研究の進展は見られていない。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 また、この分野での研究を促進するために、単純だが効果的な3つのベースラインを提供する(マクロF1を5.7%まで向上させる)。 さらに,人間のアノテーションを用いた包括的実験を行い,DataCLUEの硬さを示す。 また, 自己紹介型ラベル修正手法であるletinging informed bootstrapping label correction法も試した。 DataCLUEに関連するすべてのリソース、データセット、ツールキット、リーダーボード、ベースラインはhttps://github.com/C LUEbenchmark/DataCLU Eでオンラインで入手できる。

Data-centric AI has recently proven to be more effective and high-performance, while traditional model-centric AI delivers fewer and fewer benefits. It emphasizes improving the quality of datasets to achieve better model performance. This field has significant potential because of its great practicability and getting more and more attention. However, we have not seen significant research progress in this field, especially in NLP. We propose DataCLUE, which is the first Data-Centric benchmark applied in NLP field. We also provide three simple but effective baselines to foster research in this field (improve Macro-F1 up to 5.7% point). In addition, we conduct comprehensive experiments with human annotators and show the hardness of DataCLUE. We also try an advanced method: the forgetting informed bootstrapping label correction method. All the resources related to DataCLUE, including dataset, toolkit, leaderboard, and baselines, is available online at https://github.com/C LUEbenchmark/DataCLU E
翻訳日:2021-11-17 14:02:24 公開日:2021-11-16
# 文献による臨床成績予測

Literature-Augmented Clinical Outcome Prediction ( http://arxiv.org/abs/2111.08374v1 )

ライセンス: Link先を確認
Aakanksha Naik, Sravanthi Parasa, Sergey Feldman, Lucy Lu Wang and Tom Hope(参考訳) 医療結果の予測モデルは臨床意思決定の強化に大いに貢献する。 これらのモデルは、臨床ノートなどのリッチな患者データに基づいて訓練され、多くの患者信号を結果予測に集約する。 しかし、AIベースの臨床モデルは、医学的な決定が既存の文献から明らかな証拠に基づいて行われる、エビデンスベースの医学(EBM)の卓越したパラダイムとは独立して開発された。 本研究では,EMMとAIベースの臨床モデルとのギャップを埋める手法を導入し,これらの手法が予測精度を向上させることを示す。 集中治療(icu)患者情報に基づいて患者固有の文献を自動的に検索し,関連論文を集計し,内部入会ノートと融合して結果予測を行うシステムを提案する。 我々のモデルは,近年の強靭なベースラインと比較して,3つの課題に対する予測精度を大幅に向上させることができ,病院内死亡率では,25%以上の大きなマージンでトップ10%の精度を向上することができる。

Predictive models for medical outcomes hold great promise for enhancing clinical decision-making. These models are trained on rich patient data such as clinical notes, aggregating many patient signals into an outcome prediction. However, AI-based clinical models have typically been developed in isolation from the prominent paradigm of Evidence Based Medicine (EBM), in which medical decisions are based on explicit evidence from existing literature. In this work, we introduce techniques to help bridge this gap between EBM and AI-based clinical models, and show that these methods can improve predictive accuracy. We propose a novel system that automatically retrieves patient-specific literature based on intensive care (ICU) patient information, aggregates relevant papers and fuses them with internal admission notes to form outcome predictions. Our model is able to substantially boost predictive accuracy on three challenging tasks in comparison to strong recent baselines; for in-hospital mortality, we are able to boost top-10% precision by a large margin of over 25%.
翻訳日:2021-11-17 13:50:37 公開日:2021-11-16
# 知恵の言葉:AIコミュニケーションから学ぶための表現的ハーム

Words of Wisdom: Representational Harms in Learning From AI Communication ( http://arxiv.org/abs/2111.08581v1 )

ライセンス: Link先を確認
Amanda Buddemeyer, Erin Walker, Malihe Alikhani(参考訳) 多くの教育技術では、生成された言語を学習者に提示する人工知能(AI)を使用している。 すべてのai通信を含むすべての言語は、言語の作成に寄与した人間や人間のアイデンティティに関する情報をエンコードしていると主張する。 しかし、AI通信では、ユーザはソースにマッチしないID情報をインデックスすることができる。 これは、ある文化グループに関連する言語が「標準」または「中立」として示される場合や、言語が他のグループよりも有利な場合、あるいは言語が否定的なステレオタイプを強化する場合、表現上の害をもたらす可能性がある。 本研究では,対象集団からクラウドソーシングされたデータを収集する視覚質問生成(VQG)タスクを用いたケーススタディについて論じる。 生成された質問は、人間の評価者に提示され、言語の背後にあるアイデンティティーをどのようにインデックスするか、表現上の害をどう知覚するか、そしてAIコミュニケーションによって引き起こされるあらゆる害にどのように対処するかを理解する。 我々は,この研究の教育的応用と平等,多様性,包摂性(edi)の意義について考察する。

Many educational technologies use artificial intelligence (AI) that presents generated or produced language to the learner. We contend that all language, including all AI communication, encodes information about the identity of the human or humans who contributed to crafting the language. With AI communication, however, the user may index identity information that does not match the source. This can lead to representational harms if language associated with one cultural group is presented as "standard" or "neutral", if the language advantages one group over another, or if the language reinforces negative stereotypes. In this work, we discuss a case study using a Visual Question Generation (VQG) task involving gathering crowdsourced data from targeted demographic groups. Generated questions will be presented to human evaluators to understand how they index the identity behind the language, whether and how they perceive any representational harms, and how they would ideally address any such harms caused by AI communication. We reflect on the educational applications of this work as well as the implications for equality, diversity, and inclusion (EDI).
翻訳日:2021-11-17 13:50:19 公開日:2021-11-16
# HADFL: 異種性を考慮した分散学習フレームワーク

HADFL: Heterogeneity-aware Decentralized Federated Learning Framework ( http://arxiv.org/abs/2111.08274v1 )

ライセンス: Link先を確認
Jing Cao, Zirui Lian, Weihong Liu, Zongwei Zhu, Cheng Ji(参考訳) federated learning (fl) は地理的に分散したデバイス上でのトレーニングモデルをサポートする。 しかし、従来のflシステムは集中的な同期戦略を採用しており、高い通信圧力とモデルの一般化に挑戦している。 flの既存の最適化は、異種デバイスでのトレーニングのスピードアップに失敗したり、通信効率が悪かったりしている。 本稿では,異種デバイス上での分散非同期トレーニングを支援するフレームワークであるHADFLを提案する。 デバイスは、ローカルデータを使用して、異種対応のローカルステップでモデルをローカルにトレーニングする。 各アグリゲーションサイクルでは、確率に基づいてモデル同期とアグリゲーションを実行するために選択される。 従来のFLシステムと比較して、HADFLは中央サーバの通信圧力を軽減し、不均一なコンピューティングパワーを効率的に利用し、分散トレーニングスキームであるPytorchよりも最大3.15倍、最大4.68倍のスピードアップを達成でき、収束精度をほとんど失わない。

Federated learning (FL) supports training models on geographically distributed devices. However, traditional FL systems adopt a centralized synchronous strategy, putting high communication pressure and model generalization challenge. Existing optimizations on FL either fail to speedup training on heterogeneous devices or suffer from poor communication efficiency. In this paper, we propose HADFL, a framework that supports decentralized asynchronous training on heterogeneous devices. The devices train model locally with heterogeneity-aware local steps using local data. In each aggregation cycle, they are selected based on probability to perform model synchronization and aggregation. Compared with the traditional FL system, HADFL can relieve the central server's communication pressure, efficiently utilize heterogeneous computing power, and can achieve a maximum speedup of 3.15x than decentralized-FedAvg and 4.68x than Pytorch distributed training scheme, respectively, with almost no loss of convergence accuracy.
翻訳日:2021-11-17 13:50:01 公開日:2021-11-16
# 実世界の時系列データ生成に向けて

Towards Generating Real-World Time Series Data ( http://arxiv.org/abs/2111.08386v1 )

ライセンス: Link先を確認
Hengzhi Pei, Kan Ren, Yuqing Yang, Chang Liu, Tao Qin, Dongsheng Li(参考訳) 近年,時系列データ生成が注目されている。 対象とする時系列データが適切にフォーマットされ、完結していると仮定して、この問題に取り組むために、いくつかの生成的逆ネットワーク(gan)ベースの手法が提案されている。 しかし、実世界の時系列データ(RTS)はこのユートピアから遠く離れており、例えば、可変長の長いシーケンスと情報不足のデータは、強力な生成アルゴリズムを設計するための難解な課題を提起する。 本稿では,RTSデータのための新たな生成フレームワークであるRTSGANを提案する。 RTSGANはまず、時系列インスタンスと固定次元潜在ベクトルの間のマッピングを提供するエンコーダデコーダモジュールを学び、次に生成モジュールを学び、同じ潜在空間でベクトルを生成する。 ジェネレータとデコーダを組み合わせることで、RTSGANは元の特徴分布と時間ダイナミクスを尊重するRTSを生成することができる。 不足値の時系列を生成するために,観測埋め込み層と決定・生成デコーダを備えたRTSGANを更に装備し,情報不足パターンをよりよく活用する。 4つのRTSデータセットの実験から,提案したフレームワークは,下流の分類と予測タスクのための合成データユーティリティにおいて,前世代の手法よりも優れていることが示された。

Time series data generation has drawn increasing attention in recent years. Several generative adversarial network (GAN) based methods have been proposed to tackle the problem usually with the assumption that the targeted time series data are well-formatted and complete. However, real-world time series (RTS) data are far away from this utopia, e.g., long sequences with variable lengths and informative missing data raise intractable challenges for designing powerful generation algorithms. In this paper, we propose a novel generative framework for RTS data - RTSGAN to tackle the aforementioned challenges. RTSGAN first learns an encoder-decoder module which provides a mapping between a time series instance and a fixed-dimension latent vector and then learns a generation module to generate vectors in the same latent space. By combining the generator and the decoder, RTSGAN is able to generate RTS which respect the original feature distributions and the temporal dynamics. To generate time series with missing values, we further equip RTSGAN with an observation embedding layer and a decide-and-generate decoder to better utilize the informative missing patterns. Experiments on the four RTS datasets show that the proposed framework outperforms the previous generation methods in terms of synthetic data utility for downstream classification and prediction tasks.
翻訳日:2021-11-17 13:49:43 公開日:2021-11-16
# 因果政策ランキング

Causal policy ranking ( http://arxiv.org/abs/2111.08415v1 )

ライセンス: Link先を確認
Daniel McNamee, Hana Chockler(参考訳) 強化学習(RL)によって訓練された政策は、単純な作業であっても非常に複雑であることが多い。 タイムステップが$n$のエピソードでは、ポリシーがアクションについて$n$の決定を行うが、その多くが観察者には直感的でないように見える。 さらに、これらの決定のどちらが報酬の達成に直接貢献するか、その貢献がどの程度重要かは明らかになっていない。 トレーニングされた政策を前提として,これらの決定が報奨の達成に与える因果効果を推定し,この推定に基づいて意思決定をランク付けするブラックボックス手法を提案する。 本予備研究では,提案手法を代替的,非因果的,ランク付け手順と比較し,因果性に基づく政策ランキングの利点を強調するとともに,因果アルゴリズムをrlエージェントポリシーの解釈に組み込む可能性について検討した。

Policies trained via reinforcement learning (RL) are often very complex even for simple tasks. In an episode with $n$ time steps, a policy will make $n$ decisions on actions to take, many of which may appear non-intuitive to the observer. Moreover, it is not clear which of these decisions directly contribute towards achieving the reward and how significant is their contribution. Given a trained policy, we propose a black-box method based on counterfactual reasoning that estimates the causal effect that these decisions have on reward attainment and ranks the decisions according to this estimate. In this preliminary work, we compare our measure against an alternative, non-causal, ranking procedure, highlight the benefits of causality-based policy ranking, and discuss potential future work integrating causal algorithms into the interpretation of RL agent policies.
翻訳日:2021-11-17 13:49:21 公開日:2021-11-16
# 心臓病予測のための機械学習とアンサンブルアプローチ

Machine Learning and Ensemble Approach Onto Predicting Heart Disease ( http://arxiv.org/abs/2111.08667v1 )

ライセンス: Link先を確認
Aaditya Surya(参考訳) 胸腔内にある心臓の4つの必須室は生存に不可欠であるが、皮肉なことに最も脆弱であることが証明されている。 心臓血管疾患(英: Cardiovascular disease, CVD)は、心臓疾患としても知られており、ここ数十年でヒトの死因が増加してきた。 統計学的な考察から, CVD患者は早期治療を容易にし, 死亡率の低下を図るために, 迅速かつ正確な診断が必要であることが明らかとなった。 本稿では,ロジスティック回帰,近縁近傍,サポートベクターマシン,決定木,ガウスネーブベイズ,ランダムフォレスト,マルチレイヤパーセプトロン(人工ニューラルネットワーク)などの分類モデルを訓練するために提供されたデータを活用し,最終的にはソフト投票アンサンブル技術を用いて,可能な限り正確な診断を行う。

The four essential chambers of one's heart that lie in the thoracic cavity are crucial for one's survival, yet ironically prove to be the most vulnerable. Cardiovascular disease (CVD) also commonly referred to as heart disease has steadily grown to the leading cause of death amongst humans over the past few decades. Taking this concerning statistic into consideration, it is evident that patients suffering from CVDs need a quick and correct diagnosis in order to facilitate early treatment to lessen the chances of fatality. This paper attempts to utilize the data provided to train classification models such as Logistic Regression, K Nearest Neighbors, Support Vector Machine, Decision Tree, Gaussian Naive Bayes, Random Forest, and Multi-Layer Perceptron (Artificial Neural Network) and eventually using a soft voting ensemble technique in order to attain as many correct diagnoses as possible.
翻訳日:2021-11-17 13:47:51 公開日:2021-11-16
# 変換リスク最小化を用いた学習拡大分布

Learning Augmentation Distributions using Transformed Risk Minimization ( http://arxiv.org/abs/2111.08190v1 )

ライセンス: Link先を確認
Evangelos Chatzipantazis, Stefanos Pertigkiozoglou, Edgar Dobriban, Kostas Daniilidis(参考訳) データの分散構造(対称性や変換不変性など)への適応は、機械学習において重要な課題である。 不変性はアーキテクチャ設計やデータセットの拡張によって学習プロセスに組み込むことができる。 どちらも対称性の正確な性質に関する事前知識を必要とする。 この知識を欠く実践者は、高価で時間を要するチューニングに頼る。 この問題に対処するために,新たなtrm( \emph{transformed risk minimization})フレームワークにおいて,拡張変換の分布を学習する新しい手法を提案する。 予測モデルに加えて、仮説空間から選択した変換も最適化する。 アルゴリズムフレームワークとしてのtrm法は,(1)効率的(emph{single training loop} で拡張とモデルを学ぶ),(2)モジュラー(\emph{any} トレーニングアルゴリズムで動作),(3)一般(handles \emph{both discrete and continuous} 拡張)である。 理論的には、RMを標準リスク最小化と比較し、その一般化誤差にPAC-Bayes上限を与える。 我々は、ブロックの合成に対する新しいパラメトリゼーションにより、リッチな拡張空間上のこの境界を最適化し、新しい \emph{stochastic compositional augmentedation learning} (scale) アルゴリズムを導出する。 CIFAR10/100, SVHNにおけるSCALEと先行手法(Fast AutoAugment, Augerino)を実験的に比較した。 さらに、SCALEはデータ分布の特定の対称性(回転MNIST上での回転の復元)を正しく学習でき、学習モデルの校正も改善できることを示す。

Adapting to the structure of data distributions (such as symmetry and transformation invariances) is an important challenge in machine learning. Invariances can be built into the learning process by architecture design, or by augmenting the dataset. Both require a priori knowledge about the exact nature of the symmetries. Absent this knowledge, practitioners resort to expensive and time-consuming tuning. To address this problem, we propose a new approach to learn distributions of augmentation transforms, in a new \emph{Transformed Risk Minimization} (TRM) framework. In addition to predictive models, we also optimize over transformations chosen from a hypothesis space. As an algorithmic framework, our TRM method is (1) efficient (jointly learns augmentations and models in a \emph{single training loop}), (2) modular (works with \emph{any} training algorithm), and (3) general (handles \emph{both discrete and continuous} augmentations). We theoretically compare TRM with standard risk minimization, and give a PAC-Bayes upper bound on its generalization error. We propose to optimize this bound over a rich augmentation space via a new parametrization over compositions of blocks, leading to the new \emph{Stochastic Compositional Augmentation Learning} (SCALE) algorithm. We compare SCALE experimentally with prior methods (Fast AutoAugment and Augerino) on CIFAR10/100, SVHN . Additionally, we show that SCALE can correctly learn certain symmetries in the data distribution (recovering rotations on rotated MNIST) and can also improve calibration of the learned model.
翻訳日:2021-11-17 13:47:34 公開日:2021-11-16
# 非パラメトリック需要モデルによる公正なオンライン価格判別

Fairness-aware Online Price Discrimination with Nonparametric Demand Models ( http://arxiv.org/abs/2111.08221v1 )

ライセンス: Link先を確認
Xi Chen, Xuan Zhang, Yuan Zhou(参考訳) 異なる顧客グループに対して異なる価格を設定する戦略を指す価格差別は、オンライン小売業で広く使われている。 オンライン小売業者の徴収収入を増加させるが、公正性に深刻な懸念を生じさせ、規制や法律に違反することさえある。 本稿では,公平性制約下での動的識別価格の問題について検討する。 特に、2つの顧客グループを持つ1つの製品に対して、長さt$という有限の販売地平線を考える。 顧客の各グループは、学習する必要のある未知の需要機能を持っています。 販売期間毎に、販売者は各グループの価格を決定し、購入行動を監視する。 既存の文献は主に収益の最大化に重点を置いているが、動的価格の文献では、異なる顧客間の公正性を確保することは十分に検討されていない。 本研究では,「公正」の概念を (Cohen et al. 2021a) から採用する。 価格公正性については,厳格な価格公正性制約を強制する,後悔の観点から最適な動的価格ポリシーを提案する。 オンライン学習における標準的な$\sqrt{t}$-type regretとは対照的に、われわれの場合の最適後悔は$\tilde{\theta}(t^{4/5})$である。 我々はさらに、要求公正性を含むより一般的な公正性の概念へとアルゴリズムを拡張した。 この一般クラスを扱うために、ソフトフェアネス制約を提案し、$\tilde{O}(T^{4/5})$ regretを達成する動的価格ポリシーを開発する。

Price discrimination, which refers to the strategy of setting different prices for different customer groups, has been widely used in online retailing. Although it helps boost the collected revenue for online retailers, it might create serious concern in fairness, which even violates the regulation and law. This paper studies the problem of dynamic discriminatory pricing under fairness constraints. In particular, we consider a finite selling horizon of length $T$ for a single product with two groups of customers. Each group of customers has its unknown demand function that needs to be learned. For each selling period, the seller determines the price for each group and observes their purchase behavior. While existing literature mainly focuses on maximizing revenue, ensuring fairness among different customers has not been fully explored in the dynamic pricing literature. In this work, we adopt the fairness notion from (Cohen et al. 2021a). For price fairness, we propose an optimal dynamic pricing policy in terms of regret, which enforces the strict price fairness constraint. In contrast to the standard $\sqrt{T}$-type regret in online learning, we show that the optimal regret in our case is $\tilde{\Theta}(T^{4/5})$. We further extend our algorithm to a more general notion of fairness, which includes demand fairness as a special case. To handle this general class, we propose a soft fairness constraint and develop the dynamic pricing policy that achieves $\tilde{O}(T^{4/5})$ regret.
翻訳日:2021-11-17 13:47:08 公開日:2021-11-16
# SStaGCN: 単純なスタック化に基づくグラフ畳み込みネットワーク

SStaGCN: Simplified stacking based graph convolutional networks ( http://arxiv.org/abs/2111.08228v1 )

ライセンス: Link先を確認
Jia Cai, Zhilong Xiong, Shaogao Lv(参考訳) グラフ畳み込みネットワーク(GCN)は、様々なグラフ構造データ学習タスクにおいて広く研究されている強力なモデルである。 しかし, 過飽和現象を緩和し, 異種グラフ構造データを扱うため, gcnモデルの設計は依然として検討すべき重要な課題である。 本稿では,ヘテロジニアスグラフデータを扱うための適応型汎用フレームワークであるスタックリングとアグリゲーションのアイデアを活用することで,SStaGCN(Simplified stacking based GCN)と呼ばれる新しいGCNを提案する。 具体的には、まずスタックのベースモデルを使用して、グラフのノード特徴を抽出する。 その後,ノードの特徴抽出能力を高めるために,平均,注意,投票手法などの集約手法が採用された。 その後、ノード機能は入力と見なされ、バニラgcnモデルに供給される。 さらに、提案モデルの理論的一般化境界解析を明示的に与える。 3ドルの公開引用ネットワークとさらに3ドルの不均一な表データに関する広範囲な実験は、最先端のgcnに対する提案手法の有効性と効率を示している。 特に,提案したSStaGCNはGCNの過密問題を効率的に緩和することができる。

Graph convolutional network (GCN) is a powerful model studied broadly in various graph structural data learning tasks. However, to mitigate the over-smoothing phenomenon, and deal with heterogeneous graph structural data, the design of GCN model remains a crucial issue to be investigated. In this paper, we propose a novel GCN called SStaGCN (Simplified stacking based GCN) by utilizing the ideas of stacking and aggregation, which is an adaptive general framework for tackling heterogeneous graph data. Specifically, we first use the base models of stacking to extract the node features of a graph. Subsequently, aggregation methods such as mean, attention and voting techniques are employed to further enhance the ability of node features extraction. Thereafter, the node features are considered as inputs and fed into vanilla GCN model. Furthermore, theoretical generalization bound analysis of the proposed model is explicitly given. Extensive experiments on $3$ public citation networks and another $3$ heterogeneous tabular data demonstrate the effectiveness and efficiency of the proposed approach over state-of-the-art GCNs. Notably, the proposed SStaGCN can efficiently mitigate the over-smoothing problem of GCN.
翻訳日:2021-11-17 13:46:44 公開日:2021-11-16
# 確率推定器としてのディープニューラルネットワークの評価

Assessing Deep Neural Networks as Probability Estimators ( http://arxiv.org/abs/2111.08239v1 )

ライセンス: Link先を確認
Yu Pan, Kwo-Sen Kuo, Michael L. Rilee, Hongfeng Yu(参考訳) ディープニューラルネットワーク(dnn)は、分類タスクで素晴らしい成果を上げています。 しかし、特定の用途に必要とされる分類の不確実性の特徴は不足している。 本研究では,条件付き確率を推定するDNNの能力を評価し,系統的不確実性評価のための枠組みを提案する。 入力サンプルをxとし、カテゴリをyとして、与えられた入力xにカテゴリyを割り当てる分類タスクを、ソフトマックス関数を用いてdnnにより近似された条件付き確率p(y|x)を推定するタスクに還元することができる。 softmax はすべての要素が区間 (0, 1) に落ちて 1 に和となるベクトルを与えるので、dnn の結果に対する確率論的解釈が示唆される。 合成および実世界のデータセットを用いて,dnnのp(y|x)の推定精度に対する確率密度f(x)およびカテゴリ間スパーシティの影響を調べ,確率確率密度とカテゴリ間スパーシティが,dnnの分類の不確実性に対する以前の確率よりも大きな影響を持つことを示す。

Deep Neural Networks (DNNs) have performed admirably in classification tasks. However, the characterization of their classification uncertainties, required for certain applications, has been lacking. In this work, we investigate the issue by assessing DNNs' ability to estimate conditional probabilities and propose a framework for systematic uncertainty characterization. Denoting the input sample as x and the category as y, the classification task of assigning a category y to a given input x can be reduced to the task of estimating the conditional probabilities p(y|x), as approximated by the DNN at its last layer using the softmax function. Since softmax yields a vector whose elements all fall in the interval (0, 1) and sum to 1, it suggests a probabilistic interpretation to the DNN's outcome. Using synthetic and real-world datasets, we look into the impact of various factors, e.g., probability density f(x) and inter-categorical sparsity, on the precision of DNNs' estimations of p(y|x), and find that the likelihood probability density and the inter-categorical sparsity have greater impacts than the prior probability to DNNs' classification uncertainty.
翻訳日:2021-11-17 13:46:27 公開日:2021-11-16
# カーネル法における畳み込みとプール操作による学習

Learning with convolution and pooling operations in kernel methods ( http://arxiv.org/abs/2111.08308v1 )

ライセンス: Link先を確認
Theodor Misiakiewicz, Song Mei(参考訳) 最近の実証研究は、画像分類タスクにおいて、畳み込みニューラルネットワーク(CNN)にインスパイアされた階層的畳み込みカーネルは、カーネルメソッドのパフォーマンスを著しく向上させることを示した。 これらのアーキテクチャの成功に対する広く受け入れられている説明は、自然画像に適した仮説クラスを符号化しているということである。 しかし、畳み込みアーキテクチャにおける近似と一般化の正確な相互作用を理解することは依然として困難である。 本稿では,ハイパーキューブ上に均一に分布する共変量(画像画素)のスタイリング設定を検討し,コンボリューション,プーリング,ダウンサンプリングの単一層からなるカーネルのRKHSを完全に特徴付ける。 次に, 標準内積カーネルに対するこれらのカーネルを用いたカーネルメソッドのサンプル効率の利得について検討した。 特に私たちが示すのは 1) 畳み込み層は,RKHSを「ローカル」機能に制限することにより,次元性の呪いを破る。 2) 局所プールバイアスは,小さな翻訳によって安定する低周波関数に対して学習する。 3) ダウンサンプリングは高周波固有空間を変化させるが、低周波部はほぼ変化しない。 特に,対象関数に適合するアーキテクチャを選択することで,サンプル複雑性が大幅に向上することを示す。

Recent empirical work has shown that hierarchical convolutional kernels inspired by convolutional neural networks (CNNs) significantly improve the performance of kernel methods in image classification tasks. A widely accepted explanation for the success of these architectures is that they encode hypothesis classes that are suitable for natural images. However, understanding the precise interplay between approximation and generalization in convolutional architectures remains a challenge. In this paper, we consider the stylized setting of covariates (image pixels) uniformly distributed on the hypercube, and fully characterize the RKHS of kernels composed of single layers of convolution, pooling, and downsampling operations. We then study the gain in sample efficiency of kernel methods using these kernels over standard inner-product kernels. In particular, we show that 1) the convolution layer breaks the curse of dimensionality by restricting the RKHS to `local' functions; 2) local pooling biases learning towards low-frequency functions, which are stable by small translations; 3) downsampling may modify the high-frequency eigenspaces but leaves the low-frequency part approximately unchanged. Notably, our results quantify how choosing an architecture adapted to the target function leads to a large improvement in the sample complexity.
翻訳日:2021-11-17 13:46:05 公開日:2021-11-16
# (参考訳) NVIDIA NeMo Neural Machine Translation System for English-German and English- Russian News and Biomedical Tasks at WMT21 [全文訳有]

NVIDIA NeMo Neural Machine Translation Systems for English-German and English-Russian News and Biomedical Tasks at WMT21 ( http://arxiv.org/abs/2111.08634v1 )

ライセンス: CC BY 4.0
Sandeep Subramanian, Oleksii Hrinchuk, Virginia Adams, Oleksii Kuchaiev(参考訳) 本稿では,WMT21ニュースおよびバイオメディカル共有翻訳タスクの制約データトラックに対するNVIDIA NeMoのニューラルマシン翻訳システムの概要について述べる。 英語-ドイツ語(En-De)と英語-ロシア語(En-Ru)のニュースタスクは,ベースライントランスフォーマーに基づくシーケンス・ツー・シーケンスモデル上に構築されている。 具体的には 組み合わせて 1)チェックポイント平均化 2)モデルスケーリング 3) 左右因数分解モデルによる逆翻訳・知識蒸留によるデータ増大 4 前年の試験セットの微調整 5)モデルアンサンブル 6)トランスフォーマー言語モデルを用いた浅い核融合復号 7) ノイズチャネルの再ランキング。 さらに, 英語-ロシア語における生物医学的タスクの提出は, 生物医学的偏りのある語彙を用い, ニュースタスクデータ, ニュースタスクデータセットから収集された医学的関連テキスト, 共有タスクによって提供される生体医学的データからスクラッチから訓練される。 WMT'20 En-De テストでは, 昨年の38.8 のタスクから, 最多の38.8 のサトレBLEU スコアを達成した。 バイオメディカルタスクru-enとen-ruシステムは、wmt'20バイオメディカルタスクテストセットでそれぞれ43.8と40.3のbleuスコアに達し、前年のベストサブミッションを上回っています。

This paper provides an overview of NVIDIA NeMo's neural machine translation systems for the constrained data track of the WMT21 News and Biomedical Shared Translation Tasks. Our news task submissions for English-German (En-De) and English-Russian (En-Ru) are built on top of a baseline transformer-based sequence-to-sequence model. Specifically, we use a combination of 1) checkpoint averaging 2) model scaling 3) data augmentation with backtranslation and knowledge distillation from right-to-left factorized models 4) finetuning on test sets from previous years 5) model ensembling 6) shallow fusion decoding with transformer language models and 7) noisy channel re-ranking. Additionally, our biomedical task submission for English-Russian uses a biomedically biased vocabulary and is trained from scratch on news task data, medically relevant text curated from the news task dataset, and biomedical data provided by the shared task. Our news system achieves a sacreBLEU score of 39.5 on the WMT'20 En-De test set outperforming the best submission from last year's task of 38.8. Our biomedical task Ru-En and En-Ru systems reach BLEU scores of 43.8 and 40.3 respectively on the WMT'20 Biomedical Task Test set, outperforming the previous year's best submissions.
翻訳日:2021-11-17 13:44:09 公開日:2021-11-16
# CVSS-BERT: 説明からコンピュータセキュリティ脆弱性の深刻度を決定するための説明可能な自然言語処理

CVSS-BERT: Explainable Natural Language Processing to Determine the Severity of a Computer Security Vulnerability from its Description ( http://arxiv.org/abs/2111.08510v1 )

ライセンス: Link先を確認
Mustafizur Shahid (IP Paris), Herv\'e Debar(参考訳) 新たなコンピュータセキュリティ脆弱性が公開された場合、そのテキスト記述のみが利用可能である。 サイバーセキュリティの専門家は後にcommon vulnerability scoring system(cvss)を使用して脆弱性の深刻度を分析する。 具体的には、脆弱性の異なる特性をベクトル(メトリクスの集合を構成する)に要約し、重大度スコアが計算される。 しかし、毎日多くの脆弱性が開示されているため、このプロセスには多くの人力が必要であり、脆弱性の分析の前に数日が経過する可能性がある。 本稿では,自然言語処理(NLP)分野における最近の進歩を活用し,そのテキスト記述から脆弱性のCVSSベクトルと関連する重大度スコアを決定することを提案する。 この目的のために,CVSSベクトルを構成するメトリクス毎に複数のBERT分類器を訓練した。 実験の結果,訓練された分類器は,cvssベクトルの指標の値を高精度に決定できることがわかった。 予測されたCVSSベクトルから算出された重大度スコアも、人間の専門家による真の重大度スコアに非常に近い。 説明可能性のために, 分類器によって与えられた予測に対して, 最も関連する入力語を決定するために, 勾配に基づく入力サリエンシー法が用いられた。 もっとも関連性の高い言葉は、人間のサイバーセキュリティ専門家の理屈に合致する条件を含んでおり、エンドユーザーにとって説明は理解しやすい。

When a new computer security vulnerability is publicly disclosed, only a textual description of it is available. Cybersecurity experts later provide an analysis of the severity of the vulnerability using the Common Vulnerability Scoring System (CVSS). Specifically, the different characteristics of the vulnerability are summarized into a vector (consisting of a set of metrics), from which a severity score is computed. However, because of the high number of vulnerabilities disclosed everyday this process requires lot of manpower, and several days may pass before a vulnerability is analyzed. We propose to leverage recent advances in the field of Natural Language Processing (NLP) to determine the CVSS vector and the associated severity score of a vulnerability from its textual description in an explainable manner. To this purpose, we trained multiple BERT classifiers, one for each metric composing the CVSS vector. Experimental results show that our trained classifiers are able to determine the value of the metrics of the CVSS vector with high accuracy. The severity score computed from the predicted CVSS vector is also very close to the real severity score attributed by a human expert. For explainability purpose, gradient-based input saliency method was used to determine the most relevant input words for a given prediction made by our classifiers. Often, the top relevant words include terms in agreement with the rationales of a human cybersecurity expert, making the explanation comprehensible for end-users.
翻訳日:2021-11-17 13:32:01 公開日:2021-11-16
# InterN: 一般ビジョンに向けた新たな学習パラダイム

INTERN: A New Learning Paradigm Towards General Vision ( http://arxiv.org/abs/2111.08687v1 )

ライセンス: Link先を確認
Jing Shao, Siyu Chen, Yangguang Li, Kun Wang, Zhenfei Yin, Yinan He, Jianing Teng, Qinghong Sun, Mengya Gao, Jihao Liu, Gengshi Huang, Guanglu Song, Yichao Wu, Yuming Huang, Fenggang Liu, Huan Peng, Shuo Qin, Chengyu Wang, Yujie Wang, Conghui He, Ding Liang, Yu Liu, Fengwei Yu, Junjie Yan, Dahua Lin, Xiaogang Wang, Yu Qiao(参考訳) ここ数年、AI技術の進歩に代表される技術革新の波は、業界と社会を大きく変えつつある。 しかし、将来的には、急速に成長するシナリオ特有の要求を満たす能力が、定期的なトレーニングデータを取得するコストによって著しく制限される、という重要な課題が待ち受けている。 この困難な状況は、基本的には主流の学習パラダイムの制限によるものです – 大量の注釈付きデータと一般的にスクラッチから、新しいシナリオ毎に新しいモデルをトレーニングする必要があります。 この根本的な問題に取り組む中で、私たちは、internという新しい学習パラダイムを先取りして発展させます。 複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。 コンピュータビジョンにおけるタスクの4つのカテゴリをカバーする26の既知のデータセットについて評価した。 ほとんどの場合、私たちのモデルは、ターゲットドメイン内のトレーニングデータのわずか10%に適応しており、トレーニング対象のトレーニング対象を、完全なデータセットで、多くの場合かなりのマージンで上回っています。 これは、一般的なビジョン能力を備えたモデルが、データへの依存を劇的に減らし、AI技術の採用を迅速化する、有望な展望に向けた重要なステップである。 さらに,新しいパラダイムを振り返って,新しいデータシステム,新しいアーキテクチャ,新しいベンチマークを導入して,オープンで包括的な方法で将来の開発をサポートする汎用的なビジョンエコシステムを形成します。

Enormous waves of technological innovations over the past several years, marked by the advances in AI technologies, are profoundly reshaping the industry and the society. However, down the road, a key challenge awaits us, that is, our capability of meeting rapidly-growing scenario-specific demands is severely limited by the cost of acquiring a commensurate amount of training data. This difficult situation is in essence due to limitations of the mainstream learning paradigm: we need to train a new model for each new scenario, based on a large quantity of well-annotated data and commonly from scratch. In tackling this fundamental problem, we move beyond and develop a new learning paradigm named INTERN. By learning with supervisory signals from multiple sources in multiple stages, the model being trained will develop strong generalizability. We evaluate our model on 26 well-known datasets that cover four categories of tasks in computer vision. In most cases, our models, adapted with only 10% of the training data in the target domain, outperform the counterparts trained with the full set of data, often by a significant margin. This is an important step towards a promising prospect where such a model with general vision capability can dramatically reduce our reliance on data, thus expediting the adoption of AI technologies. Furthermore, revolving around our new paradigm, we also introduce a new data system, a new architecture, and a new benchmark, which, together, form a general vision ecosystem to support its future development in an open and inclusive manner.
翻訳日:2021-11-17 13:31:38 公開日:2021-11-16
# 対人訓練によるバイオメディカル言語モデルの堅牢性と精度の向上

Improving the robustness and accuracy of biomedical language models through adversarial training ( http://arxiv.org/abs/2111.08529v1 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) ディープトランスニューラルネットワークモデルは、生物医学領域におけるインテリジェントテキスト処理システムの予測精度を改善した。 彼らは様々なバイオメディカルおよび臨床自然言語処理(NLP)ベンチマークで最先端のパフォーマンススコアを得た。 しかし、これらのモデルの堅牢性や信頼性は、これまであまり調査されていない。 ニューラルNLPモデルは、テキストの意味と理解性を保持するが、NLPシステムに誤った判断を強要する入力に対する小さな変更など、敵対的なサンプルによって簡単に騙される。 これにより、バイオメディカルNLPシステムのセキュリティと信頼性に関する深刻な懸念が生まれ、特に現実世界のユースケースにデプロイされることを意図している。 生体医用および臨床用テキスト処理タスクにおいて,BioBERT,SciBERT,Bio Med-RoBERTa,Bio-Clin icalBERTなどのトランスフォーマーニューラルネットワークモデルの堅牢性を検討した。 我々は,異なる攻撃シナリオでNLPシステムをテストするために,様々な敵攻撃手法を実装した。 実験の結果, バイオメディカルなNLPモデルは, 対人的サンプルに敏感であり, 平均して21.9%, 対人的ノイズに18.9%低下した。 広範囲な敵意訓練実験を行い, クリーンサンプルと敵意入力を混合してnlpモデルを微調整した。 その結果、対向訓練は対向音に対する効果的な防御機構であり、モデルの堅牢性は平均11.3%向上した。 さらに, クリーンデータのモデル性能は平均2.4絶対値で向上し, バイオメディカルNLPシステムの一般化能力を高めることが実証された。

Deep transformer neural network models have improved the predictive accuracy of intelligent text processing systems in the biomedical domain. They have obtained state-of-the-art performance scores on a wide variety of biomedical and clinical Natural Language Processing (NLP) benchmarks. However, the robustness and reliability of these models has been less explored so far. Neural NLP models can be easily fooled by adversarial samples, i.e. minor changes to input that preserve the meaning and understandability of the text but force the NLP system to make erroneous decisions. This raises serious concerns about the security and trust-worthiness of biomedical NLP systems, especially when they are intended to be deployed in real-world use cases. We investigated the robustness of several transformer neural language models, i.e. BioBERT, SciBERT, BioMed-RoBERTa, and Bio-ClinicalBERT, on a wide range of biomedical and clinical text processing tasks. We implemented various adversarial attack methods to test the NLP systems in different attack scenarios. Experimental results showed that the biomedical NLP models are sensitive to adversarial samples; their performance dropped in average by 21 and 18.9 absolute percent on character-level and word-level adversarial noise, respectively. Conducting extensive adversarial training experiments, we fine-tuned the NLP models on a mixture of clean samples and adversarial inputs. Results showed that adversarial training is an effective defense mechanism against adversarial noise; the models robustness improved in average by 11.3 absolute percent. In addition, the models performance on clean data increased in average by 2.4 absolute present, demonstrating that adversarial training can boost generalization abilities of biomedical NLP systems.
翻訳日:2021-11-17 13:30:39 公開日:2021-11-16
# 多項目視覚言語事前学習:テキストと視覚概念の整合

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts ( http://arxiv.org/abs/2111.08276v1 )

ライセンス: Link先を確認
Yan Zeng, Xinsong Zhang, Hang Li(参考訳) 視覚言語事前学習における既存のほとんどの手法は、オブジェクト検出によって抽出されたオブジェクト中心の特徴に依存し、抽出された特徴とテキスト間の微妙なアライメントを行う。 我々は、オブジェクト検出の使用は視覚言語の事前学習に適さないかもしれないと主張している。 その代わり,テキストに言及されている「視覚概念」の領域が画像内に位置し,テキストと視覚概念の中間のアライメントが特定され,アライメントが複数粒度となるようにタスクを実行するべきであることを指摘する。 本稿では,'多粒ビジョン言語事前学習'を行うためのx-vlmと呼ばれる新しい手法を提案する。 実験の結果、X-VLMは、多くの下流視覚言語タスクにおいて、最先端の手法よりも一貫して優れていることが示された。

Most existing methods in vision language pre-training rely on object-centric features extracted through object detection, and make fine-grained alignments between the extracted features and texts. We argue that the use of object detection may not be suitable for vision language pre-training. Instead, we point out that the task should be performed so that the regions of `visual concepts' mentioned in the texts are located in the images, and in the meantime alignments between texts and visual concepts are identified, where the alignments are in multi-granularity. This paper proposes a new method called X-VLM to perform `multi-grained vision language pre-training'. Experimental results show that X-VLM consistently outperforms state-of-the-art methods in many downstream vision language tasks.
翻訳日:2021-11-17 13:30:10 公開日:2021-11-16
# 内視鏡下縫合部のマルチインスタンス深熱マップ回帰による点検出

Point detection through multi-instance deep heatmap regression for sutures in endoscopy ( http://arxiv.org/abs/2111.08468v1 )

ライセンス: Link先を確認
Lalith Sharan, Gabriele Romano, Julian Brand, Halvar Kelm, Matthias Karck, Raffaele De Simone, Sandy Engelhardt(参考訳) 目的:僧帽弁修復術は心臓弁の低侵襲手術である。 この文脈では、内視鏡画像からの縫合検出は、縫合パターンの分析、補綴構成の評価、拡張現実の可視化のための定量的情報を提供する、非常に関連するタスクである。 顔または解剖学的ランドマーク検出タスクは、通常、一定の数のランドマークを含み、回帰または固定ヒートマップベースのアプローチを使用してランドマークをローカライズする。 しかし内視鏡検査では、各画像には様々な縫合糸があり、縫合糸は意味的に一意ではないため、どの部位でも生じる可能性がある。 方法: 本研究では, 縫合検出タスクをマルチインスタンス深部ヒートマップ回帰問題として定式化し, 縫合の入口と出口を同定する。 我々は,従来の研究を拡張して,局所的な非最大抑圧として機能する2次元ガウス層と,微分可能な2次元空間アルグマックス層を新たに導入する。 結果: 複数の熱マップ分布関数と2種類のモデルを用いた広範囲な実験を行った。 術中ドメインでは,Variant 1はベースライン上の平均F1が0.0422であった。 同様にシミュレータ領域では、変種1はベースライン上で平均+0.0865のf1を示した。 結論: 提案モデルでは, 術中およびシミュレータ領域におけるベースラインの改善が示されている。 データはMICCAI Adaptor2021 Challenge https://adaptor2021. github.io/とhttps://github.com/C ardio-AI/suture-dete ction-pytorch/で公開されている。 DOI:10.1007/s11548-0 21-02523-w https://link.springe r.com/article/10.100 7%2fs11548-021-02523 -w

Purpose: Mitral valve repair is a complex minimally invasive surgery of the heart valve. In this context, suture detection from endoscopic images is a highly relevant task that provides quantitative information to analyse suturing patterns, assess prosthetic configurations and produce augmented reality visualisations. Facial or anatomical landmark detection tasks typically contain a fixed number of landmarks, and use regression or fixed heatmap-based approaches to localize the landmarks. However in endoscopy, there are a varying number of sutures in every image, and the sutures may occur at any location in the annulus, as they are not semantically unique. Method: In this work, we formulate the suture detection task as a multi-instance deep heatmap regression problem, to identify entry and exit points of sutures. We extend our previous work, and introduce the novel use of a 2D Gaussian layer followed by a differentiable 2D spatial Soft-Argmax layer to function as a local non-maximum suppression. Results: We present extensive experiments with multiple heatmap distribution functions and two variants of the proposed model. In the intra-operative domain, Variant 1 showed a mean F1 of +0.0422 over the baseline. Similarly, in the simulator domain, Variant 1 showed a mean F1 of +0.0865 over the baseline. Conclusion: The proposed model shows an improvement over the baseline in the intra-operative and the simulator domains. The data is made publicly available within the scope of the MICCAI AdaptOR2021 Challenge https://adaptor2021. github.io/, and the code at https://github.com/C ardio-AI/suture-dete ction-pytorch/. DOI:10.1007/s11548-0 21-02523-w. The link to the open access article can be found here: https://link.springe r.com/article/10.100 7%2Fs11548-021-02523 -w
翻訳日:2021-11-17 13:28:46 公開日:2021-11-16
# 視覚質問応答における言語バイアス:調査と分類

Language bias in Visual Question Answering: A Survey and Taxonomy ( http://arxiv.org/abs/2111.08531v1 )

ライセンス: Link先を確認
Desen Yuan(参考訳) 視覚的質問応答(VQA)は難しい課題であり、コンピュータビジョンや自然言語処理の分野でますます注目を集めている。 しかし、現在の視覚的質問応答は言語バイアスの問題があり、それによってモデルの堅牢性が低下し、視覚的質問応答の実践的応用に悪影響を及ぼす。 本稿では,この分野の包括的レビューと分析を初めて行い,視覚情報の向上,言語優先順位の弱化,データ強化,トレーニング戦略など,既存の手法を3つのカテゴリに分類する。 同時に、関連する代表的な方法を紹介し、要約し、分析する。 言語バイアスの原因は明らかにされ、分類される。 次に,主にテストに使用されるデータセットを紹介し,既存手法の実験結果を報告する。 最後に,本分野における今後の研究の方向性について論じる。

Visual question answering (VQA) is a challenging task, which has attracted more and more attention in the field of computer vision and natural language processing. However, the current visual question answering has the problem of language bias, which reduces the robustness of the model and has an adverse impact on the practical application of visual question answering. In this paper, we conduct a comprehensive review and analysis of this field for the first time, and classify the existing methods according to three categories, including enhancing visual information, weakening language priors, data enhancement and training strategies. At the same time, the relevant representative methods are introduced, summarized and analyzed in turn. The causes of language bias are revealed and classified. Secondly, this paper introduces the datasets mainly used for testing, and reports the experimental results of various existing methods. Finally, we discuss the possible future research directions in this field.
翻訳日:2021-11-17 13:28:13 公開日:2021-11-16
# キーポイント表現再考:多人数人格推定のためのキーポイントとポーズのモデル化

Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation ( http://arxiv.org/abs/2111.08557v1 )

ライセンス: Link先を確認
William McNally, Kanav Vats, Alexander Wong, John McPhee(参考訳) 人間のポーズ推定のようなキーポイント推定タスクでは、ヒートマップベースの回帰は顕著な欠点があるにもかかわらず支配的なアプローチである。 より効率的な解を求めるために,個々のキーポイントと空間関連キーポイント(つまりポーズ)のセットを,密集した単段アンカーに基づく検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーキーポイント推定法を提案する。 したがって、キーポイントとポゼス・アズ・オブジェクトに対して、我々のメソッド KAPAO ("Ka-Pow!"と発音する) を呼ぶ。 本研究では,人間のポーズオブジェクトとキーポイントオブジェクトを同時に検出し,両方のオブジェクト表現の強みを生かして,カパオを単段多人数のポーズ推定問題に適用する。 実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。 さらに、テスト時間拡張を使用しない場合には、特に実用環境での精度・速度トレードオフが好ましい。 我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成し、次の最高のシングルステージモデルよりも2.5倍高速で4.0 APが正確である。 さらに、カパオは重閉塞の存在に優れる。 crowdpose テストセットでは、kapao-l は ap 68.9 の単段法で新しい最先端精度を達成する。

In keypoint estimation tasks such as human pose estimation, heatmap-based regression is the dominant approach despite possessing notable drawbacks: heatmaps intrinsically suffer from quantization error and require excessive computation to generate and post-process. Motivated to find a more efficient solution, we propose a new heatmap-free keypoint estimation method in which individual keypoints and sets of spatially related keypoints (i.e., poses) are modeled as objects within a dense single-stage anchor-based detection framework. Hence, we call our method KAPAO (pronounced "Ka-Pow!") for Keypoints And Poses As Objects. We apply KAPAO to the problem of single-stage multi-person human pose estimation by simultaneously detecting human pose objects and keypoint objects and fusing the detections to exploit the strengths of both object representations. In experiments, we observe that KAPAO is significantly faster and more accurate than previous methods, which suffer greatly from heatmap post-processing. Moreover, the accuracy-speed trade-off is especially favourable in the practical setting when not using test-time augmentation. Our large model, KAPAO-L, achieves an AP of 70.6 on the Microsoft COCO Keypoints validation set without test-time augmentation, which is 2.5x faster and 4.0 AP more accurate than the next best single-stage model. Furthermore, KAPAO excels in the presence of heavy occlusion. On the CrowdPose test set, KAPAO-L achieves new state-of-the-art accuracy for a single-stage method with an AP of 68.9.
翻訳日:2021-11-17 13:28:00 公開日:2021-11-16
# COVID-19ツイートのセマンティッククラスタリングにおける移動学習と距離メトリクスの比較検討

A Comparative Study on Transfer Learning and Distance Metrics in Semantic Clustering over the COVID-19 Tweets ( http://arxiv.org/abs/2111.08658v1 )

ライセンス: Link先を確認
Elnaz Zafarani-Moattar, Mohammad Reza Kangavari, Amir Masoud Rahmani(参考訳) 本稿は,covid-19データにおける話題検出の文脈における比較研究である。 トピック検出には様々なアプローチがあり、その中にはクラスタリング手法が選択されている。 クラスタリングは距離を必要とし、距離を計算するには埋め込みが必要です。 本研究の目的は,組込み方法,距離測定,クラスタリングの3つの要因とその相互作用を同時に研究することである。 この研究には、covid-19関連ハッシュタグで収集された1ヶ月のツイートを含むデータセットが使用されている。 埋め込みメソッドには、word2vec、fasttext、grave、bert、t5の5つのメソッドが選択される。 本論文では,k-means,DBSCAN,OPTI CS,Spectrum,Jarvis-P atrickの5つのクラスタリング手法について検討した。 この分野における最も重要な距離指標としてのユークリッド距離とコサイン距離についても検討した。 まず、パラメータをチューニングするために7500以上のテストが実行される。 次に,距離メトリクスとクラスタリング手法を用いた埋め込み手法のすべての異なる組み合わせをシルエット計量を用いて検討する。 これらの組み合わせの数は50例である。 まず,これらの50試験の結果について検討した。 そして、その方法のすべてのテストにおいて、各メソッドのランクが考慮される。 最後に、研究の主要な変数(埋め込み法、距離測定法、クラスタリング法)を別々に研究する。 平均化は制御変数上で行われ、効果を中和する。 実験の結果,T5はシルエットメートル法で他の埋め込み法よりも優れていた。 距離測定の観点では、コサイン距離は弱く良い。 DBSCANはクラスタリング法において他の方法よりも優れている。

This paper is a comparison study in the context of Topic Detection on COVID-19 data. There are various approaches for Topic Detection, among which the Clustering approach is selected in this paper. Clustering requires distance and calculating distance needs embedding. The aim of this research is to simultaneously study the three factors of embedding methods, distance metrics and clustering methods and their interaction. A dataset including one-month tweets collected with COVID-19-related hashtags is used for this study. Five methods, from earlier to new methods, are selected among the embedding methods: Word2Vec, fastText, GloVe, BERT and T5. Five clustering methods are investigated in this paper that are: k-means, DBSCAN, OPTICS, spectral and Jarvis-Patrick. Euclidian distance and Cosine distance as the most important distance metrics in this field are also examined. First, more than 7,500 tests are performed to tune the parameters. Then, all the different combinations of embedding methods with distance metrics and clustering methods are investigated by silhouette metric. The number of these combinations is 50 cases. First, the results of these 50 tests are examined. Then, the rank of each method is taken into account in all the tests of that method. Finally, the major variables of the research (embedding methods, distance metrics and clustering methods) are studied separately. Averaging is performed over the control variables to neutralize their effect. The experimental results show that T5 strongly outperforms other embedding methods in terms of silhouette metric. In terms of distance metrics, cosine distance is weakly better. DBSCAN is also superior to other methods in terms of clustering methods.
翻訳日:2021-11-17 13:27:31 公開日:2021-11-16
# (参考訳) DFC:ロバストポイントクラウド登録のための深い機能一貫性 [全文訳有]

DFC: Deep Feature Consistency for Robust Point Cloud Registration ( http://arxiv.org/abs/2111.07597v2 )

ライセンス: CC BY 4.0
Zhu Xu, Zhengyao Bai, Huijie Liu, Qianjie Lu, Shenglan Fan(参考訳) 重要な点雲の特徴を抽出し、それらの間のポーズを推定する方法は、その構造が固有の欠如と点雲のあいまいな順序置換のため、依然として難しい問題である。 オブジェクトの分類、オブジェクトのセグメンテーション、ポイントクラウドの登録など、ほとんどの3Dコンピュータビジョンタスクにディープラーニングベースのメソッドを適用することの大幅な改善にもかかわらず、既存の学習ベースのパイプラインでは、機能間の一貫性は魅力的ではない。 本稿では,複雑なアライメントシーンのための新たな学習ベースアライメントネットワークであるディープ特徴整合性(deep feature consistency)と,幾何対応セットを高次元特徴に変換するマルチスケールグラフ特徴マージネットワークと,複数の候補不整合部分集合を構成する対応重み付けモジュールと,相対的なポーズを推定するための閉形式解を与えるProcrustesアプローチを提案する。 深部特徴整合モジュールの最も重要なステップとして、各不整合部分集合に対する特徴整合行列を構築し、対応する部分集合の不整合確率として主ベクトルを得る。 我々は,3DMatchデータセットとKITTIオドメトリデータセットの両方に対して,アプローチの堅牢性と有効性を総合的に検証した。 大規模屋内シーンでは, 3dmatchデータセットの登録結果から, 従来型と学習型の両方の手法に勝ることを示す。 KITTIの屋外シーンでは、我々のアプローチは変換エラーを低減できる。 クロスデータセットに対する強力な一般化機能についても検討する。

How to extract significant point cloud features and estimate the pose between them remains a challenging question, due to the inherent lack of structure and ambiguous order permutation of point clouds. Despite significant improvements in applying deep learning-based methods for most 3D computer vision tasks, such as object classification, object segmentation and point cloud registration, the consistency between features is still not attractive in existing learning-based pipelines. In this paper, we present a novel learning-based alignment network for complex alignment scenes, titled deep feature consistency and consisting of three main modules: a multiscale graph feature merging network for converting the geometric correspondence set into high-dimensional features, a correspondence weighting module for constructing multiple candidate inlier subsets, and a Procrustes approach named deep feature matching for giving a closed-form solution to estimate the relative pose. As the most important step of the deep feature matching module, the feature consistency matrix for each inlier subset is constructed to obtain its principal vectors as the inlier likelihoods of the corresponding subset. We comprehensively validate the robustness and effectiveness of our approach on both the 3DMatch dataset and the KITTI odometry dataset. For large indoor scenes, registration results on the 3DMatch dataset demonstrate that our method outperforms both the state-of-the-art traditional and learning-based methods. For KITTI outdoor scenes, our approach remains quite capable of lowering the transformation errors. We also explore its strong generalization capability over cross-datasets.
翻訳日:2021-11-17 12:04:54 公開日:2021-11-16
# FastFlow: 2次元正規化フローによる教師なし異常検出と位置決め

FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows ( http://arxiv.org/abs/2111.07677v2 )

ライセンス: Link先を確認
Jiawei Yu, Ye Zheng, Xiang Wang, Wei Li, Yushuang Wu, Rui Zhao, Liwei Wu(参考訳) 十分な異常データの収集とラベル付けを行う場合には,教師なし異常検出と局在化が不可欠である。 既存の表現に基づくアプローチは、ディープ畳み込みニューラルネットワークを用いて通常の画像特徴を抽出し、非パラメトリック分布推定法により対応する分布を特徴付ける。 テスト画像の特徴と推定分布との間の距離を測定して異常スコアを算出する。 しかし,現在の手法では,画像特徴を抽出可能なベース分布に効果的にマッピングすることはできず,局所的特徴とグローバル的特徴の関係は無視できない。 そこで本研究では,FastFlowを2次元正規化フローで実装し,確率分布推定器として利用する。 当社のfastflowは,resnetやvision transformerなど,任意の深い特徴抽出器を備えたプラグインモジュールとして,教師なし異常検出とローカライズに使用することができる。 トレーニングフェーズでは、fastflowは入力された視覚特徴を扱いやすい分布に変換することを学び、推論フェーズで異常を認識する可能性を得る。 MVTec ADデータセットの大規模な実験結果から、FastFlowは様々なバックボーンネットワークによる精度と推論効率の観点から、従来の最先端手法を超越していることがわかった。 提案手法は推論効率の高い異常検出において99.4%のAUCを実現する。

Unsupervised anomaly detection and localization is crucial to the practical application when collecting and labeling sufficient anomaly data is infeasible. Most existing representation-based approaches extract normal image features with a deep convolutional neural network and characterize the corresponding distribution through non-parametric distribution estimation methods. The anomaly score is calculated by measuring the distance between the feature of the test image and the estimated distribution. However, current methods can not effectively map image features to a tractable base distribution and ignore the relationship between local and global features which are important to identify anomalies. To this end, we propose FastFlow implemented with 2D normalizing flows and use it as the probability distribution estimator. Our FastFlow can be used as a plug-in module with arbitrary deep feature extractors such as ResNet and vision transformer for unsupervised anomaly detection and localization. In training phase, FastFlow learns to transform the input visual feature into a tractable distribution and obtains the likelihood to recognize anomalies in inference phase. Extensive experimental results on the MVTec AD dataset show that FastFlow surpasses previous state-of-the-art methods in terms of accuracy and inference efficiency with various backbone networks. Our approach achieves 99.4% AUC in anomaly detection with high inference efficiency.
翻訳日:2021-11-17 11:44:46 公開日:2021-11-16
# ビデオ異常検出のための学習可能な局所感性ハッシュ

Learnable Locality-Sensitive Hashing for Video Anomaly Detection ( http://arxiv.org/abs/2111.07839v2 )

ライセンス: Link先を確認
Yue Lu, Congqi Cao and Yanning Zhang(参考訳) ビデオ異常検出(英: video anomaly detection、vad)とは、通常サンプルのみが利用可能なトレーニングセットで発生していない異常事象を識別することを指す。 既存の作品は通常、vadを再構成や予測問題として定式化する。 しかし、これらの手法の適応性とスケーラビリティは限られている。 本稿では,利用可能なすべての正規データを効率的に柔軟に活用するための距離ベースvad法を提案する。 本手法では, 試験試料と正常試料との間の距離が小さくなるほど, 試験試料が正常である確率が高くなる。 具体的には、局所性に敏感なハッシュ(LSH)を用いて、類似度が一定の閾値を超えるサンプルを予め同じバケットにマッピングすることを提案する。 このように、近傍探索の複雑さは大幅に削減される。 セマンティックに類似したサンプルがより接近し、類似しないサンプルがさらに分離されるように、LSHの学習可能な新しいバージョンを提案し、LSHをニューラルネットワークに埋め込み、対照的な学習戦略でハッシュ関数を最適化する。 提案手法はデータ不均衡に対して頑健であり,通常のデータの大きなクラス内変動を柔軟に扱える。 さらに、スケーラビリティにも優れています。 広範な実験により,vadベンチマークで新たな最先端結果を得る手法の優位性が実証された。

Video anomaly detection (VAD) mainly refers to identifying anomalous events that have not occurred in the training set where only normal samples are available. Existing works usually formulate VAD as a reconstruction or prediction problem. However, the adaptability and scalability of these methods are limited. In this paper, we propose a novel distance-based VAD method to take advantage of all the available normal data efficiently and flexibly. In our method, the smaller the distance between a testing sample and normal samples, the higher the probability that the testing sample is normal. Specifically, we propose to use locality-sensitive hashing (LSH) to map samples whose similarity exceeds a certain threshold into the same bucket in advance. In this manner, the complexity of near neighbor search is cut down significantly. To make the samples that are semantically similar get closer and samples not similar get further apart, we propose a novel learnable version of LSH that embeds LSH into a neural network and optimizes the hash functions with contrastive learning strategy. The proposed method is robust to data imbalance and can handle the large intra-class variations in normal data flexibly. Besides, it has a good ability of scalability. Extensive experiments demonstrate the superiority of our method, which achieves new state-of-the-art results on VAD benchmarks.
翻訳日:2021-11-17 11:44:27 公開日:2021-11-16
# 自律駐車のためのニューラルモーション計画

Neural Motion Planning for Autonomous Parking ( http://arxiv.org/abs/2111.06739v2 )

ライセンス: Link先を確認
Dongchan Kim and Kunsoo Huh(参考訳) 本稿では,より深い生成ネットワークと従来の動き計画手法を組み合わせたハイブリッドな動き計画手法を提案する。 A*やHybrid A*といった既存の計画手法は、複雑な環境においても実現可能な経路を決定する能力があるため、経路計画タスクで広く用いられているが、効率の面で制限がある。 これらの制限を克服するため、ニューラルネットワーク、すなわちニューラルハイブリッドA*に基づく経路計画アルゴリズムが導入された。 本稿では,条件付き変分オートエンコーダ(CVAE)を用いて,駐車環境の情報をもとに,CVAEが計画空間に関する情報を学習する能力を利用した探索アルゴリズムを提案する。 非一様展開戦略は、実演で学んだ実現可能な軌道の分布に基づいて活用される。 提案手法は,与えられた状態の表現を効果的に学習し,アルゴリズムの性能向上を示す。

This paper presents a hybrid motion planning strategy that combines a deep generative network with a conventional motion planning method. Existing planning methods such as A* and Hybrid A* are widely used in path planning tasks because of their ability to determine feasible paths even in complex environments; however, they have limitations in terms of efficiency. To overcome these limitations, a path planning algorithm based on a neural network, namely the neural Hybrid A*, is introduced. This paper proposes using a conditional variational autoencoder (CVAE) to guide the search algorithm by exploiting the ability of CVAE to learn information about the planning space given the information of the parking environment. A non-uniform expansion strategy is utilized based on a distribution of feasible trajectories learned in the demonstrations. The proposed method effectively learns the representations of a given state, and shows improvement in terms of algorithm performance.
翻訳日:2021-11-17 11:44:05 公開日:2021-11-16