このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220304となっている論文です。

PDF登録状況(公開日: 20220304)

TitleAuthorsAbstract論文公表日・翻訳日
# Bernoulli Matrix Factorization によるRecommender システムの信頼性の提供

Providing reliability in Recommender Systems through Bernoulli Matrix Factorization ( http://arxiv.org/abs/2006.03481v6 )

ライセンス: Link先を確認
Fernando Ortega, Ra\'ul Lara-Cabrera, \'Angel Gonz\'alez-Prieto, Jes\'us Bobadilla(参考訳) 精度を超えて、現代のレコメンデータシステムでは品質対策の重要性が高まっており、信頼性は協調フィルタリングの文脈において最も重要な指標の1つである。 本稿では,行列分解モデルであるBernoulli Matrix Factorization (BeMF)を提案し,予測値と信頼性値の両方を提供する。 BeMFは、いくつかの観点から非常に革新的なアプローチです。 a)メモリベースのフィルタリングではなく,モデルベースの協調フィルタリングに作用する。 b) 信頼性を提供するために、外部メソッドや既存のソリューションのような拡張アーキテクチャを使用しない。 c) 従来の回帰モデルではなく,分類に基づくモデルに基づいており, d) 行列分解形式はベルヌーイ分布によって支持され、設計された分類モデルの二項性を利用する。 実験結果から,予測の信頼性が高ければ高いほど,その信頼性は低下し,信頼性の高い予測が選択された後に,推奨品質が向上することがわかった。 信頼性に関する最新の品質対策がテストされており、BeMFは従来のベースライン手法やモデルよりも優れていた。

Beyond accuracy, quality measures are gaining importance in modern recommender systems, with reliability being one of the most important indicators in the context of collaborative filtering. This paper proposes Bernoulli Matrix Factorization (BeMF), which is a matrix factorization model, to provide both prediction values and reliability values. BeMF is a very innovative approach from several perspectives: a) it acts on model-based collaborative filtering rather than on memory-based filtering, b) it does not use external methods or extended architectures, such as existing solutions, to provide reliability, c) it is based on a classification-based model instead of traditional regression-based models, and d) matrix factorization formalism is supported by the Bernoulli distribution to exploit the binary nature of the designed classification model. The experimental results show that the more reliable a prediction is, the less liable it is to be wrong: recommendation quality improves after the most reliable predictions are selected. State-of-the-art quality measures for reliability have been tested, which shows that BeMF outperforms previous baseline methods and models.
翻訳日:2022-11-25 03:24:47 公開日:2022-03-04
# 自動運転におけるrgbカメラの故障とその影響

RGB cameras failures and their effects in autonomous driving applications ( http://arxiv.org/abs/2008.05938v3 )

ライセンス: Link先を確認
Francesco Secci, Andrea Ceccarelli(参考訳) rgbカメラは、自動運転アプリケーションにとって最も適切なセンサーの1つだ。 車両用カメラの故障が自動運転タスクを損なう可能性があり、運転システムによって処理された画像が変更されると、おそらく安全でない振る舞いにつながる可能性がある。 安全でロバストな車両アーキテクチャとインテリジェントシステムの定義をサポートするため,本論文では,車両カメラの故障モードを,効果と既知の緩和の分析とともに定義する。 さらに、対応する失敗画像を生成するためのソフトウェアライブラリを構築し、モノカメラやステレオカメラ用の6つの物体検出器と、自動運転シミュレータの自動運転エージェントに供給する。 クリーンなイメージによる操作に関する結果として生じる誤解は、イメージベースのアプリケーションにおける障害の影響と関連する安全リスクをよりよく理解することを可能にします。

RGB cameras are one of the most relevant sensors for autonomous driving applications. It is undeniable that failures of vehicle cameras may compromise the autonomous driving task, possibly leading to unsafe behaviors when images that are subsequently processed by the driving system are altered. To support the definition of safe and robust vehicle architectures and intelligent systems, in this paper we define the failure modes of a vehicle camera, together with an analysis of effects and known mitigations. Further, we build a software library for the generation of the corresponding failed images and we feed them to six object detectors for mono and stereo cameras and to the self-driving agent of an autonomous driving simulator. The resulting misbehaviors with respect to operating with clean images allow a better understanding of failures effects and the related safety risks in image-based applications.
翻訳日:2022-10-30 22:54:19 公開日:2022-03-04
# 置換の混合を学習する:ペアワイズ比較群とモーメントの組合せ法

Learning Mixtures of Permutations: Groups of Pairwise Comparisons and Combinatorial Method of Moments ( http://arxiv.org/abs/2009.06784v2 )

ライセンス: Link先を確認
Cheng Mao and Yihong Wu(参考訳) ランクアグリゲーションのような応用では、置換のための混合モデルは、集団が異質性を示すときに頻繁に用いられる。 本研究では,広く用いられているマロ混合モデルについて検討する。 高次元設定では、$n$要素上のマロース混合と$\log n$に比例する最適なサンプル複雑性を学習し、$n$で多項式的にスケールする以前の結果を改善する多項式時間アルゴリズムを提案する。 高雑音環境下では,雑音パラメータに対するサンプル複雑性の最適依存性を特徴付ける。 両方の目的は、まず、ペアワイズ比較の群を用いてノイズレスクエリモデルの下で置換をデミックスし、混合分布のモーメントとみなし、ノイズレスオラクルをシミュレートしてノイズの多いマロズモデルに拡張することで達成される。

In applications such as rank aggregation, mixture models for permutations are frequently used when the population exhibits heterogeneity. In this work, we study the widely used Mallows mixture model. In the high-dimensional setting, we propose a polynomial-time algorithm that learns a Mallows mixture of permutations on $n$ elements with the optimal sample complexity that is proportional to $\log n$, improving upon previous results that scale polynomially with $n$. In the high-noise regime, we characterize the optimal dependency of the sample complexity on the noise parameter. Both objectives are accomplished by first studying demixing permutations under a noiseless query model using groups of pairwise comparisons, which can be viewed as moments of the mixing distribution, and then extending these results to the noisy Mallows model by simulating the noiseless oracle.
翻訳日:2022-10-18 12:17:29 公開日:2022-03-04
# 系図におけるパワーローダイナミクス

Power law dynamics in genealogical graphs ( http://arxiv.org/abs/2010.05463v3 )

ライセンス: Link先を確認
Francisco Leonardo Bezerra Martins, Jos\'e Cl\'audio do Nascimento(参考訳) いくつかの集団ネットワークは、進化アルゴリズムで実装された複雑なトポロジーを示す。 これらのトポロジの共通する特徴は、権力法則の出現である。 異なるスケーリング要因を持つパワーローの挙動は、系譜ネットワークでも観察できるが、そのダイナミクスや時間とともに人口の進化との関係を十分に説明できない。 本稿では, 人口数における個人の影響を計測するアルゴリズムを用い, 非指数統計による進化のダイナミクスについて検討する。 このように、観測された力の法則の出現が時間とともに動的に振舞うことを示す。 この動的展開は、パラメータが時間依存で特定のパターンに従う q-指数分布の族を用いて記述することができる。 また,エリートズムがパワーロースケーリング因子に大きく影響することを示す。 これらの結果は、系図ネットワークで観測される異なる動力法則形状と偏差が、q指数分布を用いて満足できる時間依存動的発展の静的画像であることを示している。

Several populational networks present complex topologies when implemented in evolutionary algorithms. A common feature of these topologies is the emergence of a power law. Power law behavior with different scaling factors can also be observed in genealogical networks, but we still can not satisfactorily describe its dynamics or its relation to population evolution over time. In this paper, we use an algorithm to measure the impact of individuals in several numerical populations and study its dynamics of evolution through nonextensive statistics. Like this, we show evidence that the observed emergence of power law has a dynamic behavior over time. This dynamic development can be described using a family of q-exponential distributions whose parameters are time-dependent and follow a specific pattern. We also show evidence that elitism significantly influences the power law scaling factors observed. These results imply that the different power law shapes and deviations observed in genealogical networks are static images of a time-dependent dynamic development that can be satisfactorily described using q-exponential distributions.
翻訳日:2022-10-08 07:18:29 公開日:2022-03-04
# 非負独立成分分析のための生物学的に有望な単層ネットワーク

Biologically plausible single-layer networks for nonnegative independent component analysis ( http://arxiv.org/abs/2010.12632v2 )

ライセンス: Link先を確認
David Lipshutz, Cengiz Pehlevan, Dmitri B. Chklovskii(参考訳) 神経科学における重要な問題は、脳が未知のソースの混合物から関連する信号をどのように抽出するかを理解することである。 この処理を脳がどのように行うのかをモデル化するため,視覚源分離アルゴリズムの生物学的に妥当な単層ニューラルネットワークの実装を探索する。 生物学的な可能性については、神経回路の3つの基本的な特性を満たすようネットワークに要求する。 i) ネットワークは、オンライン設定で動作します。 (ii)シナプス学習規則は局所的である。 (iii)神経出力は非負である。 一番近いのはpehlevanらによる作品だ。 [非負の独立成分分析(NICA)を考察したニューラル計算29,2925-2954(2017)] 生物学的に妥当な2層ネットワーク実装を持つアルゴリズムを導出する。 そこで本研究では,NICAの2つのアルゴリズムを生物学的に検証可能な単一層ネットワーク実装を用いて導出した。 最初のアルゴリズムは、相互に介在する間接的な横接続を持つネットワークにマップする。 第2のアルゴリズムは、直交接続と多成分出力ニューロンを持つネットワークにマップする。

An important problem in neuroscience is to understand how brains extract relevant signals from mixtures of unknown sources, i.e., perform blind source separation. To model how the brain performs this task, we seek a biologically plausible single-layer neural network implementation of a blind source separation algorithm. For biological plausibility, we require the network to satisfy the following three basic properties of neuronal circuits: (i) the network operates in the online setting; (ii) synaptic learning rules are local; (iii) neuronal outputs are nonnegative. Closest is the work by Pehlevan et al. [Neural Computation, 29, 2925--2954 (2017)], which considers Nonnegative Independent Component Analysis (NICA), a special case of blind source separation that assumes the mixture is a linear combination of uncorrelated, nonnegative sources. They derive an algorithm with a biologically plausible 2-layer network implementation. In this work, we improve upon their result by deriving 2 algorithms for NICA, each with a biologically plausible single-layer network implementation. The first algorithm maps onto a network with indirect lateral connections mediated by interneurons. The second algorithm maps onto a network with direct lateral connections and multi-compartmental output neurons.
翻訳日:2022-10-03 23:00:50 公開日:2022-03-04
# 解剖学的文脈情報は3D U-Netに基づく脳腫瘍セグメンテーションを改善するか?

Does anatomical contextual information improve 3D U-Net based brain tumor segmentation? ( http://arxiv.org/abs/2010.13460v3 )

ライセンス: Link先を確認
Iulian Emil Tampu and Neda Haj-Hosseini and Anders Eklund(参考訳) 磁気共鳴(MR)画像から治療計画に有用な情報を抽出するためには,脳腫瘍セグメンテーションのための効果的で堅牢で自動的なツールが必要である。 コンテキスト認識人工知能は、コンピュータ支援医療画像解析のためのディープラーニングアプリケーションを開発するための新しい概念である。 そこで本研究では,脳解剖学から白質,灰白質,脳脊髄液マスク,確率マップなどの文脈情報の追加が,u-netを用いた脳腫瘍の分節を改善するかどうかについて検討した。 BraTS2020データセットは、従来のMR画像モダリティに加えて、解剖学的文脈情報をバイナリマスク(CIM)や確率マップ(CIP)の形で追加チャネルとして使用する2つの標準的な3次元U-Netモデルのトレーニングとテストに使用された。 従来のMR画像のみを用いたベースラインモデル(BLM)も訓練された。 対象者ごとのMRモダリティを減らし, セグメンテーション精度, モデルトレーニング時間, ドメインの一般化, 補償の観点から, 文脈情報の追加が与える影響について検討した。 その結果,Diceスコアを基準モデルと文脈情報モデルで比較した場合,高次・低次腫瘍の成績を独立に比較しても,統計的に有意な差は認められなかった。 各被験者に利用可能なMRモダリティが少なかった場合のみ,解剖学的文脈情報を加えることで腫瘍全体のセグメンテーションが有意に改善した。 全体として、バイナリマスクや確率マップを付加チャネルとして解剖学的文脈情報を使用する場合、セグメンテーション性能の全体的な改善はない。

Effective, robust, and automatic tools for brain tumor segmentation are needed for the extraction of information useful in treatment planning from magnetic resonance (MR) images. Context-aware artificial intelligence is an emerging concept for the development of deep learning applications for computer-aided medical image analysis. In this work, it is investigated whether the addition of contextual information from the brain anatomy in the form of white matter, gray matter, and cerebrospinal fluid masks and probability maps improves U-Net-based brain tumor segmentation. The BraTS2020 dataset was used to train and test two standard 3D U-Net models that, in addition to the conventional MR image modalities, used the anatomical contextual information as extra channels in the form of binary masks (CIM) or probability maps (CIP). A baseline model (BLM) that only used the conventional MR image modalities was also trained. The impact of adding contextual information was investigated in terms of overall segmentation accuracy, model training time, domain generalization, and compensation for fewer MR modalities available for each subject. Results show that there is no statistically significant difference when comparing Dice scores between the baseline model and the contextual information models, even when comparing performances for high- and low-grade tumors independently. Only in the case of compensation for fewer MR modalities available for each subject did the addition of anatomical contextual information significantly improve the segmentation of the whole tumor. Overall, there is no overall significant improvement in segmentation performance when using anatomical contextual information in the form of either binary masks or probability maps as extra channels.
翻訳日:2022-10-02 18:49:47 公開日:2022-03-04
# (参考訳) ナビゲーション用タッチセンサの可視性モデル

Visibility-Inspired Models of Touch Sensors for Navigation ( http://arxiv.org/abs/2203.04751v1 )

ライセンス: CC BY 4.0
Kshitij Tiwari, Basak Sakcak, Prasanna Routray, Manivannan M., and Steven M. LaValle(参考訳) 本稿では,可視性に基づく移動ロボット用タッチセンサの数学的モデルを提案する。 コンピュータビジョンのためのピンホールカメラモデルに類似した目的により、導入されたモデルは、その出力や観測から推測できるタスク関連情報の有用で理想的な特徴付けを提供すると期待されている。 これにより、従来の深度センサーと、飛行時や視覚センサーとタッチセンシングが交換可能なケースをハイライトし、タッチセンシングによって提供されるユニークな利点を特徴付けることができる。 モデルには接触検出、圧縮、荷重軸受、偏向が含まれる。 この結果は、モバイルロボットセンサー融合システムのための革新的なタッチセンサー設計の基本的な構成要素となるかもしれない。

This paper introduces mathematical models of touch sensors for mobile robotics based on visibility. Serving a purpose similar to the pinhole camera model for computer vision, the introduced models are expected to provide a useful, idealized characterization of task-relevant information that can be inferred from their outputs or observations. This allows direct comparisons to be made between traditional depth sensors, highlighting cases in which touch sensing may be interchangeable with time of flight or vision sensors, and characterizing unique advantages provided by touch sensing. The models include contact detection, compression, load bearing, and deflection. The results could serve as a basic building block for innovative touch sensor designs for mobile robot sensor fusion systems.
翻訳日:2022-03-13 13:46:29 公開日:2022-03-04
# ディジタル双生児のためのセマンティックペトリネットを用いた時間規則のモデル化と検証

Modeling and Validating Temporal Rules with Semantic Petri-Net for Digital Twins ( http://arxiv.org/abs/2203.04741v1 )

ライセンス: Link先を確認
Han Liu, Xiaoyu Song, Ge Gao, Hehua Zhang, Yu-Shen Liu, Ming Gu(参考訳) RDFS/OWLデータのセマンティック・ルールチェックは建設業界で広く利用されている。 現在、セマンティックルールチェックは主に静的モデル上で行われている。 複合ルールチェックのための時間モデルとセマンティックモデルの統合には依然として課題がある。 本稿ではsemantic petri-net(spn)を,rdfsとsparqlを直接ベースとする有色ペトリネットの状態と遷移を実装し,実行時のドメイン意味webと時間モデル間の知識の双方向共有を実現する新しい時相モデリングおよび検証手法として提案する。 いくつかのケースは、同時状態変化と依存関係を持つデジタルツインで可能なアプリケーションを示すために提供される。

Semantic rule checking on RDFS/OWL data has been widely used in the construction industry. At present, semantic rule checking is mainly performed on static models. There are still challenges in integrating temporal models and semantic models for combined rule checking. In this paper, Semantic Petri-Net (SPN) is proposed as a novel temporal modeling and validating method, which implements the states and transitions of the Colored Petri-Net directly based on RDFS and SPARQL, and realizes two-way sharing of knowledge between domain semantic webs and temporal models in the runtime. Several cases are provided to demonstrate the possible applications in digital twins with concurrent state changes and dependencies.
翻訳日:2022-03-13 13:25:41 公開日:2022-03-04
# (参考訳) 共変量をもつネットワークに対するベイズコミュニティ検出

Bayesian community detection for networks with covariates ( http://arxiv.org/abs/2203.02090v1 )

ライセンス: CC BY 4.0
Luyi Shen, Arash Amini, Nathaniel Josephs, and Lizhen Lin(参考訳) 様々な分野におけるネットワークデータの普及と、それらから有用な情報を抽出する必要性が、関連するモデルやアルゴリズムの急速な発展を促している。 ネットワークデータを用いた様々な学習タスクのうち、コミュニティ検出、ノードクラスタの発見、あるいは"コミュニティ"は、科学コミュニティで最も注目を集めている。 多くの現実世界のアプリケーションでは、ネットワークデータは、理想的には推論に活用されるべきノードまたはエッジ共変数の形で追加情報を伴うことが多い。 本稿では,共変量付きネットワークのコミュニティ検出に関する限定的な文献を,共変量依存ランダム分割を用いたベイズ確率ブロックモデルを提案する。 前述したように、共変数はクラスタメンバシップの事前分布を指定することで明示的に表現されます。 我々のモデルは、コミュニティメンバーシップを含む全てのパラメータ推定の不確かさをモデル化する柔軟性を持っている。 重要なのは、既存の手法の多くと異なり、我々のモデルは、後から推測することでコミュニティの数を学習する能力を持っています。 我々のモデルは,分類的・連続的共変量を持つ高密度ネットワークとスパースネットワークの両方において,コミュニティ検出に適用でき,MCMCアルゴリズムは良好な混合特性を有する。 提案手法は,既存のモデルよりも優れた性能を,総合シミュレーション実験と2つの実データへの適用により実証する。

The increasing prevalence of network data in a vast variety of fields and the need to extract useful information out of them have spurred fast developments in related models and algorithms. Among the various learning tasks with network data, community detection, the discovery of node clusters or "communities," has arguably received the most attention in the scientific community. In many real-world applications, the network data often come with additional information in the form of node or edge covariates that should ideally be leveraged for inference. In this paper, we add to a limited literature on community detection for networks with covariates by proposing a Bayesian stochastic block model with a covariate-dependent random partition prior. Under our prior, the covariates are explicitly expressed in specifying the prior distribution on the cluster membership. Our model has the flexibility of modeling uncertainties of all the parameter estimates including the community membership. Importantly, and unlike the majority of existing methods, our model has the ability to learn the number of the communities via posterior inference without having to assume it to be known. Our model can be applied to community detection in both dense and sparse networks, with both categorical and continuous covariates, and our MCMC algorithm is very efficient with good mixing properties. We demonstrate the superior performance of our model over existing models in a comprehensive simulation study and an application to two real datasets.
翻訳日:2022-03-12 05:18:01 公開日:2022-03-04
# (参考訳) 自動ポリープ検出における精度向上のための各種深層学習モデルの探索

Exploration of Various Deep Learning Models for Increased Accuracy in Automatic Polyp Detection ( http://arxiv.org/abs/2203.04093v1 )

ライセンス: CC BY 4.0
Ariel E. Isidro, Arnel C. Fajardo, Alexander A. Hernandez(参考訳) 本稿では,大腸内視鏡画像におけるポリープ検出の精度を最大化する深層学習モデルとアルゴリズムについて検討する。 前回の研究では、畳み込みニューラルネットワーク(cnn)アルゴリズムによるポリプと非ポリプの検出でディープラーニングを実装した。 他の研究では、ドロップアウトとデータ拡張アルゴリズムを使用していたが、大半はオーバーフィッティングをチェックせず、4層モデル以上を含んでいる。 ソフトウェア研究所の Rulei Yu ら中国科学アカデミーは、トランスファーラーニングはパフォーマンスや前回使用したアルゴリズムの改善について話している方がよい、と述べている。 特に、特徴抽出における転送学習の適用において。 これまでに使用したモデルを適用した4つのCNN層で実験を行い、転送学習を施した他のモデルのうち、98%の精度で生成するモデルを同定した。 さらなる研究は、異なるCNNモデルに異なるオプティマイザを使用することで精度を向上させることができる。

This paper is created to explore deep learning models and algorithms that results in highest accuracy in detecting polyp on colonoscopy images. Previous studies implemented deep learning using convolution neural network (CNN) algorithm in detecting polyp and non-polyp. Other studies used dropout, and data augmentation algorithm but mostly not checking the overfitting, thus, include more than four-layer modelss. Rulei Yu et.al from the Institute of Software, Chinese Academy of Sciences said that transfer learning is better talking about performance or improving the previous used algorithm. Most especially in applying the transfer learning in feature extraction. Series of experiments were conducted with only a minimum of 4 CNN layers applying previous used models and identified the model that produce the highest percentage accuracy of 98% among the other models that apply transfer learning. Further studies could use different optimizer to a different CNN modelsto increase accuracy.
翻訳日:2022-03-10 12:18:03 公開日:2022-03-04
# (参考訳) コーニック溶液

CoNIC Solution ( http://arxiv.org/abs/2203.03415v1 )

ライセンス: CC BY 4.0
Wenhua Zhang(参考訳) 核のセグメンテーションと分類は、クラス間類似度とクラス内変異性が高いため、課題となっている。 この問題を解決するには,大規模アノテーションと特別に設計されたアルゴリズムが必要である。 そのため、リザードはこの領域では大きな推進であり、約50万個の核に注釈を付けた。 本稿では,CoNICコンペティションで使用される2段階パイプラインを提案する。 元のベースライン法と類似したモデル: HoVerNet をセグメント化モデルとして採用し,分類結果を微調整する新しい分類モデルを開発する。 このメソッドのコードは近々公開される予定だ。 これはテストにおける円錐形のソリューションです。

Nuclei segmentation and classification has been a challenge due to the high inter-class similarity and intra-class variability. Thus, a large-scale annotation and a specially-designed algorithm are needed to solve this problem. Lizard is therefore a great promotion in this area, containing around half a million nuclei annotated. In this paper, we propose a two-stage pipeline used in the CoNIC competition, which achieves much better results than the baseline method. We adopt a similar model as the original baseline method: HoVerNet, as the segmentaion model and then develop a new classification model to fine-tune the classification results. Code for this method will be made public soon. This is a conic solution in testing.
翻訳日:2022-03-10 12:06:52 公開日:2022-03-04
# (参考訳) 変異型covid-19株予測のための量子ディープラーニング

Quantum Deep Learning for Mutant COVID-19 Strain Prediction ( http://arxiv.org/abs/2203.03556v1 )

ライセンス: CC BY 4.0
Yu-Xin Jin, Jun-Jie Hu, Qi Li, Zhi-Cheng Luo, Fang-Yan Zhang, Hao Tang, Kun Qian, Xian-Min Jin(参考訳) デルタやオミクロンなどの感染拡大で感染率や病原性が高まり、世界中に急速に広がり、パンデミック期には高い死亡率を生み出している。 sars-cov-2rna配列の変異に基づくcovid-19感染株の早期変異(特にスパイクタンパク質)の予測は、早期の予防と治療につながる可能性がある。 本稿では、量子と量子に触発されたアルゴリズムの利点とディープラーニングの幅広い応用を組み合わせ、DeepQuantumという開発ツールを提案し、このソフトウェアを用いて、COVID-19感染菌のスパイクタンパク質の変動構造を予測する。 さらに、このハイブリッド量子古典モデルは、古典的奥行き方向畳み込みに類似した量子インスパイアされたぼけ畳み込みを初めて達成し、量子プログレッシブトレーニングを量子回路に適用することに成功した。 その結果、ランダム生成スパイクタンパク質の変異構造はデルタでは96%以上、オミクロンでは94%であることがわかった。 トレーニング損失曲線はより安定であり、対応する古典アルゴリズムと比較して複数の損失関数に収束する。 量子インスパイアされたアルゴリズムが古典的ディープラーニングを促進し、ハイブリッドモデルがミュータント株を効果的に予測する証拠は、最終的に強力である。

New COVID-19 epidemic strains like Delta and Omicron with increased transmissibility and pathogenicity emerge and spread across the whole world rapidly while causing high mortality during the pandemic period. Early prediction of possible variants (especially spike protein) of COVID-19 epidemic strains based on available mutated SARS-CoV-2 RNA sequences may lead to early prevention and treatment. Here, combining the advantage of quantum and quantum-inspired algorithms with the wide application of deep learning, we propose a development tool named DeepQuantum, and use this software to realize the goal of predicting spike protein variation structure of COVID-19 epidemic strains. In addition, this hybrid quantum-classical model for the first time achieves quantum-inspired blur convolution similar to classical depthwise convolution and also successfully applies quantum progressive training with quantum circuits, both of which guarantee that our model is the quantum counterpart of the famous style-based GAN. The results state that the fidelities of random generating spike protein variation structure are always beyond 96% for Delta, 94% for Omicron. The training loss curve is more stable and converges better with multiple loss functions compared with the corresponding classical algorithm. At last, evidences that quantum-inspired algorithms promote the classical deep learning and hybrid models effectively predict the mutant strains are strong.
翻訳日:2022-03-10 12:01:56 公開日:2022-03-04
# (参考訳) OCRの品質が歴史的新聞クリッピングの有用性に影響を及ぼす-ユーザー調査

OCR quality affects perceived usefulness of historical newspaper clippings -- a user study ( http://arxiv.org/abs/2203.03557v1 )

ライセンス: CC BY 4.0
Kimmo Kettunen, Heikki Keskustalo, Sanna Kumpulainen, Tuula P\"a\"akk\"onen and Juha Rautiainen(参考訳) 歴史的情報検索における光学文字認識(OCR)の品質の影響を,検索結果の有効性に関するデータ指向のシナリオで検討した。 このような研究は、人工的に劣化したOCRの品質(例: [1-2])や、真に低品質なOCRデータに基づくテキストを含むテストコレクション(例: [3])の影響に焦点を当てている。 本稿では,ユーザ指向情報検索環境におけるOCR品質の影響について検討する。 シミュレーション作業タスク設定を用いて,前処理クエリに基づいて6つのトピック(30トピック中)の主観的なクエリ結果を評価した。 我々の知る限り、我々の模擬作業実験は、ユーザが検索した文書の主観的関連性評価が、光学的に読まれたテキストの品質の変化によって影響を受けることを実証的に示す最初のものである。 歴史的新聞コレクションの利用者は,ocrのデータ品質が印象主義的な効果を主に有しており,ocr品質が検索結果の妥当性評価に与える影響を調べるためのユーザ環境は,これまで失われてきた。 フィンランド国立図書館(NLF)は、フィンランドの歴史新聞Uusi Suometar 1869-1918のコンテンツに対して、デジタル化された新聞記事の2つの異なるOCR品質の検索結果に対するユーザによる評価を比較するために、実験的なクエリ環境を構築した。 クエリインターフェースは,ocr品質の低いもの,あるいはocr品質の高いもの,という2つの代替案に基づいて,ユーザに対して同じ基礎となるドキュメントを表示することが可能で,選択はランダム化された。 ユーザは、評価した記事のテキストの品質の違いを知らなかった。 本研究の主な成果は,光学的文字認識精度の向上が歴史的新聞記事の有用性に有意な影響を与えることにある。 改善OCR結果の平均評価スコアは,旧OCR結果の平均評価スコアよりも7.94%高かった。

Effects of Optical Character Recognition (OCR) quality on historical information retrieval have so far been studied in data-oriented scenarios regarding the effectiveness of retrieval results. Such studies have either focused on the effects of artificially degraded OCR quality (see, e.g., [1-2]) or utilized test collections containing texts based on authentic low quality OCR data (see, e.g., [3]). In this paper the effects of OCR quality are studied in a user-oriented information retrieval setting. Thirty-two users evaluated subjectively query results of six topics each (out of 30 topics) based on pre-formulated queries using a simulated work task setting. To the best of our knowledge our simulated work task experiment is the first one showing empirically that users' subjective relevance assessments of retrieved documents are affected by a change in the quality of optically read text. Users of historical newspaper collections have so far commented effects of OCR'ed data quality mainly in impressionistic ways, and controlled user environments for studying effects of OCR quality on users' relevance assessments of the retrieval results have so far been missing. To remedy this The National Library of Finland (NLF) set up an experimental query environment for the contents of one Finnish historical newspaper, Uusi Suometar 1869-1918, to be able to compare users' evaluation of search results of two different OCR qualities for digitized newspaper articles. The query interface was able to present the same underlying document for the user based on two alternatives: either based on the lower OCR quality, or based on the higher OCR quality, and the choice was randomized. The users did not know about quality differences in the article texts they evaluated. The main result of the study is that improved optical character recognition quality affects perceived usefulness of historical newspaper articles significantly. The mean average evaluation score for the improved OCR results was 7.94% higher than the mean average evaluation score of the old OCR results.
翻訳日:2022-03-10 12:00:49 公開日:2022-03-04
# (参考訳) 解説型対話型機械学習の探索と指導のためのタイポロジー

A Typology to Explore and Guide Explanatory Interactive Machine Learning ( http://arxiv.org/abs/2203.03668v1 )

ライセンス: CC BY 4.0
Felix Friedrich, Wolfgang Stammer, Patrick Schramowski, Kristian Kersting(参考訳) 近年,モデルの説明に人的ユーザの監督を統合することで,モデルの学習プロセスを拡張することを目的として,eXplanatory Interactive Machine Learning (XIL) 手法がますます多く提案されている。 これらの手法はしばしば独立して開発され、異なるモチベーションと異なる応用から生じている。 これまでにこれらの作品の総合的な評価は行われていない。 共通する基本モジュールの集合を特定し、これらのモジュールについて徹底的な議論を行うことで、我々の研究は初めて、様々なメソッドを単一のタイプロジーに統一する。 この型は、特定されたモジュールに基づいて既存のXILメソッドと将来のXILメソッドを分類するために使用できる。 さらに,既存の6つのXIL法を調査した。 モデル変更の全体的な能力に関するこれらの手法のベンチマークに加えて、誤った理由修正、インタラクション効率、フィードバック品質に対する堅牢性、強弱に破損したモデル修正能力に関する追加ベンチマークを実行します。 定量的評価を改善するために、これらの新しいベンチマークタスクを導入するのとは別に、定性検査を補完するモデルの説明において、平均的な誤った理由のアクティベーションを測定する新しいWrong Reason(\wrnospace)メトリクスを導入する。 評価では、全ての手法がモデルの再検討を成功に導く。 しかし,ベンチマークタスクごとに有意な差異を認め,現在の手法を比較するだけでなく,将来のxil手法の開発においてこれらのベンチマークを組み込むことの必要性も明らかにした。

Recently, more and more eXplanatory Interactive machine Learning (XIL) methods have been proposed with the goal of extending a model's learning process by integrating human user supervision on the model's explanations. These methods were often developed independently, provide different motivations and stem from different applications. Notably, up to now, there has not been a comprehensive evaluation of these works. By identifying a common set of basic modules and providing a thorough discussion of these modules, our work, for the first time, comes up with a unification of the various methods into a single typology. This typology can thus be used to categorize existing and future XIL methods based on the identified modules. Moreover, our work contributes by surveying six existing XIL methods. In addition to benchmarking these methods on their overall ability to revise a model, we perform additional benchmarks regarding wrong reason revision, interaction efficiency, robustness to feedback quality, and the ability to revise a strongly corrupted model. Apart from introducing these novel benchmarking tasks, for improved quantitative evaluations, we further introduce a novel Wrong Reason (\wrnospace) metric which measures the average wrong reason activation in a model's explanations to complement a qualitative inspection. In our evaluations, all methods prove to revise a model successfully. However, we found significant differences between the methods on individual benchmark tasks, revealing valuable application-relevant aspects not only for comparing current methods but also to motivate the necessity of incorporating these benchmarks in the development of future XIL methods.
翻訳日:2022-03-10 11:45:09 公開日:2022-03-04
# (参考訳) 深層学習を用いたルーチン組織像の細胞分画と構成

Cellular Segmentation and Composition in Routine Histology Images using Deep Learning ( http://arxiv.org/abs/2203.02510v1 )

ライセンス: CC BY 4.0
Muhammad Dawood, Raja Muhammad Saad Bashir, Srijay Deshpande, Manahil Raza, Adam Shephard(参考訳) 大腸癌におけるHaematoxylin \&eosin(H\&E)染色組織像の同定と定量化は予後と患者管理に不可欠である。 計算病理学ではこれらのタスクは核分裂、分類、構成と呼ばれ、下流解析に有意義な解釈可能な細胞学的およびアーキテクチャ的特徴を抽出するために用いられる。 CoNICの課題は、既知の最大の核データセットであるLizardから6つの異なる種類の核に、自動的な核分割、分類、合成のタスクを担っている。 そこで我々は,HoVer-NetとALBRTを用いて細胞組成の予測を行うパイプラインを開発した。 予備テストセットのテストでは、HoVer-NetはPQ0.58、PQ+0.58、mPQ+0.35を達成した。 予備試験セットにおけるalbrtを用いた細胞組成の予測のために,リンパ球0.84,上皮細胞0.70,血漿0.70,好酸球0.060の合計$r^2$スコアを0.53とした。

Identification and quantification of nuclei in colorectal cancer haematoxylin \& eosin (H\&E) stained histology images is crucial to prognosis and patient management. In computational pathology these tasks are referred to as nuclear segmentation, classification and composition and are used to extract meaningful interpretable cytological and architectural features for downstream analysis. The CoNIC challenge poses the task of automated nuclei segmentation, classification and composition into six different types of nuclei from the largest publicly known nuclei dataset - Lizard. In this regard, we have developed pipelines for the prediction of nuclei segmentation using HoVer-Net and ALBRT for cellular composition. On testing on the preliminary test set, HoVer-Net achieved a PQ of 0.58, a PQ+ of 0.58 and finally a mPQ+ of 0.35. For the prediction of cellular composition with ALBRT on the preliminary test set, we achieved an overall $R^2$ score of 0.53, consisting of 0.84 for lymphocytes, 0.70 for epithelial cells, 0.70 for plasma and .060 for eosinophils.
翻訳日:2022-03-10 11:05:24 公開日:2022-03-04
# (参考訳) リッジ、ニューラルネットワーク、ラドン変換

Ridges, Neural Networks, and the Radon Transform ( http://arxiv.org/abs/2203.02543v1 )

ライセンス: CC BY 4.0
Michael Unser(参考訳) リッジは1次元プロファイル(アクティベーション)と多次元方向ベクトルによって特徴づけられる関数である。 リッジはニューロンの効果の関数記述子としてニューラルネットワークの理論に現れ、方向ベクトルは線形重みで符号化される。 本稿では,尾根に関するラドン変換の特性とニューラルネットワークの特性について検討する。 我々は、逆射影作用素が可逆である超球面的バナッハ部分空間(測度の関連する部分空間を含む)の広いカテゴリを導入する。 また、バック射影作用素が全親空間に拡張可能であり、そのヌル空間はバナッハ補空間として識別できる条件を与える。 最初の原理から始めて、フィルターされたラドン変換の範囲内にあるサンプリング汎関数を特徴付ける。 次に、任意の分布プロファイルに対するリッジの定義を拡張し、その(フィルターされた)ラドン変換を完全一般性で決定する。 最後に,文献に現れるreluネットワークの最適性に関するいくつかの結果と証明を明らかにするために,形式的手法を適用した。

A ridge is a function that is characterized by a one-dimensional profile (activation) and a multidimensional direction vector. Ridges appear in the theory of neural networks as functional descriptors of the effect of a neuron, with the direction vector being encoded in the linear weights. In this paper, we investigate properties of the Radon transform in relation to ridges and to the characterization of neural networks. We introduce a broad category of hyper-spherical Banach subspaces (including the relevant subspace of measures) over which the back-projection operator is invertible. We also give conditions under which the back-projection operator is extendable to the full parent space with its null space being identifiable as a Banach complement. Starting from first principles, we then characterize the sampling functionals that are in the range of the filtered Radon transform. Next, we extend the definition of ridges for any distributional profile and determine their (filtered) Radon transform in full generality. Finally, we apply our formalism to clarify and simplify some of the results and proofs on the optimality of ReLU networks that have appeared in the literature.
翻訳日:2022-03-10 11:01:20 公開日:2022-03-04
# (参考訳) 構造化プルーニングは、初期化時のCNNのプルーニングに必要なもの

Structured Pruning is All You Need for Pruning CNNs at Initialization ( http://arxiv.org/abs/2203.02549v1 )

ライセンス: CC BY 4.0
Yaohui Cai, Weizhe Hua, Hongzheng Chen, G. Edward Suh, Christopher De Sa, Zhiru Zhang(参考訳) プルーニングは畳み込みニューラルネットワーク(CNN)のモデルサイズと計算コストを削減するための一般的な手法である。 しかしながら、刈り取りによる精度の低下を回復するために、遅い再訓練または微調整の手順がしばしば必要となる。 近年,CNNの微調整や再訓練が避けられるように,PAI(Pruning-at-initialization)という新たな研究方向が提案されている。 PAIはモデルサイズの削減に有望な結果を示してきたが、既存のアプローチでは未構造化のスパース行列計算を必要とするきめ細かい重み付けに依存しており、スパース率が非常に高くない限り実際の高速化は困難である。 この研究は、PAIには粒度の細かい刈り取りが実際には必要ないことを示す最初のものである。 代わりに、階層圧縮比が初期化時にプルーニングされたCNNモデルの精度を決定する主要な要因である。 そこで本研究では,ハードウェア効率の良いモデル圧縮方式であるPreCroppingを提案する。 PreCroppingはレイヤーワイド圧縮比に従ってチャネルレベルでモデルを直接圧縮する。 重みの刈り取りと比較すると,提案手法は正確性を犠牲にすることなく,ストレージと計算の両方において規則的かつ高密度である。 さらに、PreCroppingは初期化時にCNNを圧縮するため、コモディティハードウェアのトレーニングと推論の両方において、CNNの計算コストとメモリコストが削減される。 我々は、CIFAR-10とImageNetの両方のResNet、ShuffleNet、MobileNetを含む、現代のCNNアーキテクチャに対する我々のアプローチを実証的に実証した。

Pruning is a popular technique for reducing the model size and computational cost of convolutional neural networks (CNNs). However, a slow retraining or fine-tuning procedure is often required to recover the accuracy loss caused by pruning. Recently, a new research direction on weight pruning, pruning-at-initialization (PAI), is proposed to directly prune CNNs before training so that fine-tuning or retraining can be avoided. While PAI has shown promising results in reducing the model size, existing approaches rely on fine-grained weight pruning which requires unstructured sparse matrix computation, making it difficult to achieve real speedup in practice unless the sparsity is very high. This work is the first to show that fine-grained weight pruning is in fact not necessary for PAI. Instead, the layerwise compression ratio is the main critical factor to determine the accuracy of a CNN model pruned at initialization. Based on this key observation, we propose PreCropping, a structured hardware-efficient model compression scheme. PreCropping directly compresses the model at the channel level following the layerwise compression ratio. Compared to weight pruning, the proposed scheme is regular and dense in both storage and computation without sacrificing accuracy. In addition, since PreCropping compresses CNNs at initialization, the computational and memory costs of CNNs are reduced for both training and inference on commodity hardware. We empirically demonstrate our approaches on several modern CNN architectures, including ResNet, ShuffleNet, and MobileNet for both CIFAR-10 and ImageNet.
翻訳日:2022-03-10 11:00:20 公開日:2022-03-04
# (参考訳) ディープラーニングのためのストリーミング型大規模臨床脳波データセット

A streamable large-scale clinical EEG dataset for Deep Learning ( http://arxiv.org/abs/2203.02552v1 )

ライセンス: CC BY 4.0
Dung Truong, Manisha Sinha, Kannan Umadevi Venkataraju, Michael Milham, Arnaud Delorme(参考訳) ディープラーニングは、コンピュータビジョン、自然言語処理、生物医学研究など、さまざまな分野に革命をもたらした。 神経科学の分野、特に電気生理学的神経画像学の分野では、ディープラーニングを利用して広範な機能工学を使わずにデータを予測する研究が始まっている。 大規模データセットの可用性は、ディープラーニングモデルの実験を可能にする重要な側面である。 深層学習のためのデータアクセスと管理を簡素化する最初の大規模臨床脳波データセットを公開する。 このデータセットには、Healthy Brain Networkから1,574人の青少年の収集した目を閉じた脳波データが含まれている。 我々は,この枠組みを統合したユースケースを実演し,そのような神経情報基盤をコミュニティに提供することが,今後の科学的発見にとって重要な理由について論じる。

Deep Learning has revolutionized various fields, including Computer Vision, Natural Language Processing, as well as Biomedical research. Within the field of neuroscience, specifically in electrophysiological neuroimaging, researchers are starting to explore leveraging deep learning to make predictions on their data without extensive feature engineering. The availability of large-scale datasets is a crucial aspect of allowing the experimentation of Deep Learning models. We are publishing the first large-scale clinical EEG dataset that simplifies data access and management for Deep Learning. This dataset contains eyes-closed EEG data prepared from a collection of 1,574 juvenile participants from the Healthy Brain Network. We demonstrate a use case integrating this framework, and discuss why providing such neuroinformatics infrastructure to the community is critical for future scientific discoveries.
翻訳日:2022-03-10 10:44:23 公開日:2022-03-04
# (参考訳) UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired Image-to-image translation

UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired image-to-image translation ( http://arxiv.org/abs/2203.02557v1 )

ライセンス: CC BY 4.0
Dmitrii Torbunov, Yi Huang, Haiwang Yu, Jin Huang, Shinjae Yoo, Meifeng Lin, Brett Viren, Yihui Ren(参考訳) 画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。 オリジナルのCycleGANモデルは、サイクル一貫性損失による1対1のマッピングを強調し、より最近の研究は、翻訳された画像の多様性を高めるために1対1のマッピングを促進する。 科学シミュレーションとワン・ツー・ワンのニーズを念頭に置いて,視覚変換器(ViT)でCycleGANを装着し,GAN(Generative Adversarial Network)の高度なトレーニング技術を用いて,より優れたパフォーマンスを実現するかを検討する。 得られたunet vitサイクル一貫性gan(uvcgan)モデルは、open benchmark image-to-image translationデータセット、selfie2anime、celebaの以前のベストパフォーマンスモデルと比較される。 UVCGANの性能は向上し、元の画像と翻訳画像の相関が強い。 補助的アブレーション研究は、勾配のペナルティとBERTのような事前訓練が改善に寄与していることを示している。 再現性とオープンサイエンスを促進するため、ソースコード、ハイパーパラメータ設定、事前トレーニングされたモデルは、https://github.com/LS4GAN/uvcga.comで利用可能になる。

Image-to-image translation has broad applications in art, design, and scientific simulations. The original CycleGAN model emphasizes one-to-one mapping via a cycle-consistent loss, while more recent works promote one-to-many mapping to boost the diversity of the translated images. With scientific simulation and one-to-one needs in mind, this work examines if equipping CycleGAN with a vision transformer (ViT) and employing advanced generative adversarial network (GAN) training techniques can achieve better performance. The resulting UNet ViT Cycle-consistent GAN (UVCGAN) model is compared with previous best-performing models on open benchmark image-to-image translation datasets, Selfie2Anime and CelebA. UVCGAN performs better and retains a strong correlation between the original and translated images. An accompanying ablation study shows that the gradient penalty and BERT-like pre-training also contribute to the improvement.~To promote reproducibility and open science, the source code, hyperparameter configurations, and pre-trained model will be made available at: https://github.com/LS4GAN/uvcga.
翻訳日:2022-03-10 10:35:13 公開日:2022-03-04
# (参考訳) ロググレード入力画像を用いたtinymlコンピュータビジョンのエネルギー効率とロバスト性の向上

Improving the Energy Efficiency and Robustness of tinyML Computer Vision using Log-Gradient Input Images ( http://arxiv.org/abs/2203.02571v1 )

ライセンス: CC BY-SA 4.0
Qianyun Lu and Boris Murmann(参考訳) 本稿では,マイクロMLコンピュータビジョン(CV)のための畳み込みニューラルネットワーク(CNN)にログ勾配入力画像を適用するメリットについて検討する。 ログ勾配が実現できることを示します (i)第一層入力の1.5ビットアグレッシブ量子化 (ii)CNNリソース削減の可能性、及び (3)照度変化に固有のロバスト性(1/32...8の明るさ変化に対して1.7%の精度損失)。 PASCAL RAW画像データセットを用いてこれらの結果を確立し、ニューラルアーキテクチャサーチと固定された3層ネットワークを用いて実験を行った。 後者は、ロググレードイメージのトレーニングがフィルタの類似度を高め、cnnをよりprunableにすることを示している。 攻撃的第一層量子化, cnn資源削減, および密接な露光制御や画像信号処理(isp)を伴わない操作の利点は, tinyml cvを究極の効率限界に向けて押し上げるのに有用である。

This paper studies the merits of applying log-gradient input images to convolutional neural networks (CNNs) for tinyML computer vision (CV). We show that log gradients enable: (i) aggressive 1.5-bit quantization of first-layer inputs, (ii) potential CNN resource reductions, and (iii) inherent robustness to illumination changes (1.7% accuracy loss across 1/32...8 brightness variation vs. up to 10% for JPEG). We establish these results using the PASCAL RAW image data set and through a combination of experiments using neural architecture search and a fixed three-layer network. The latter reveal that training on log-gradient images leads to higher filter similarity, making the CNN more prunable. The combined benefits of aggressive first-layer quantization, CNN resource reductions, and operation without tight exposure control and image signal processing (ISP) are helpful for pushing tinyML CV toward its ultimate efficiency limits.
翻訳日:2022-03-10 10:25:14 公開日:2022-03-04
# (参考訳) 機械学習によるエージェントモデルの構築

Machine Learning Simulates Agent-Based Model Towards Policy ( http://arxiv.org/abs/2203.02576v1 )

ライセンス: CC BY 4.0
Bernardo Alves Furtado and Gustavo Onofre Andre\~ao(参考訳) 公共政策は本質的に肯定的あるいは否定的ではない。 むしろ、ポリシーは異なる受信者に対してさまざまなレベルの効果を提供する。 方法論上、計算モデリングは経験的データに複数の影響の組み合わせを応用し、ポリシーへの異種な応答を可能にする。 ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。 その際,11,076回の実シミュレーション実行と100万回のエミュレート実行の入力パラメータと出力インジケータを使用する。 その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。 最適は、MRの完全なアンサンブルのための生産指標と不等式指標の組み合わせとして定義される。その結果、MRは、既に最適または非最適結果を好む組込み構造を有しており、各場所にどの政策がより有益かも示している。 MR固有のポリシーの結果の提供に加えて、機械学習を用いてABMをシミュレートすることで、計算負担を低減し、モデルパラメータ間の大きな変動を可能にする。 より大きな不確実性の文脈における結果のコヒーレンス(vis-\`a-vis)は、モデルの堅牢性のさらなるテストを示している。 同時に、この運動は、MRの最適化に向けて、政策立案者が介入すべきパラメータを示す。

Public Policies are not intrinsically positive or negative. Rather, policies provide varying levels of effects across different recipients. Methodologically, computational modeling enables the application of a combination of multiple influences on empirical data, thus allowing for heterogeneous response to policies. We use a random forest machine learning algorithm to emulate an agent-based model (ABM) and evaluate competing policies across 46 Metropolitan Regions (MRs) in Brazil. In doing so, we use input parameters and output indicators of 11,076 actual simulation runs and one million emulated runs. As a result, we obtain the optimal (and non-optimal) performance of each region over the policies. Optimum is defined as a combination of production and inequality indicators for the full ensemble of MRs. Results suggest that MRs already have embedded structures that favor optimal or non-optimal results, but they also illustrate which policy is more beneficial to each place. In addition to providing MR-specific policies' results, the use of machine learning to simulate an ABM reduces the computational burden, whereas allowing for a much larger variation among model parameters. The coherence of results within the context of larger uncertainty -- vis-\`a-vis those of the original ABM -- suggests an additional test of robustness of the model. At the same time the exercise indicates which parameters should policymakers intervene, in order to work towards optimum of MRs.
翻訳日:2022-03-10 10:12:21 公開日:2022-03-04
# (参考訳) 画像復元のための適応型クロスレイアアテンション

Adaptive Cross-Layer Attention for Image Restoration ( http://arxiv.org/abs/2203.03619v1 )

ライセンス: CC BY 4.0
Yancheng Wang, Ning Xu, Chong Chen, Yingzhen Yang(参考訳) 非局所注意モジュールは画像復元に不可欠であることが証明されている。 従来の非局所的アテンションプロセスは各レイヤを別々に特徴付けるため、異なるレイヤ間の特徴の相関を欠くリスクがある。 この問題に対処するため,本論文ではクロスレイヤーアテンション(CLA)モジュールを提案する。 同じ層内で相関のあるキーピクセルを見つける代わりに、各クエリピクセルはネットワークの前の層にあるキーピクセルに出席することができる。 さらに,CLAの学習能力の向上と推論コストの削減を目的として,改良型CLAとして適応型CLA(ACLA)を提案する。 ACLAには2つの適応型設計法が提案されている。 1) 各層における非局所的注意のためのキーを適応的に選択すること。 2)ACLAモジュールの挿入位置を自動的に検索する。 これら2つの適応型設計により、ACLAは階層における非局所的な注意のために集約されるキーの数を動的に選択する。 さらに、ACLAはニューラルネットワーク探索法によりACLAモジュールの最適な挿入位置を探索し、コンパクトなニューラルネットワークを魅力的な性能でレンダリングする。 単一画像の超高解像度化、画像のデニュージング、画像のデモサイシング、画像圧縮アーティファクトの削減など、画像復元タスクに関する広範な実験は、aclaの有効性と効率を検証する。

Non-local attention module has been proven to be crucial for image restoration. Conventional non-local attention processes features of each layer separately, so it risks missing correlation between features among different layers. To address this problem, we propose Cross-Layer Attention (CLA) module in this paper. Instead of finding correlated key pixels within the same layer, each query pixel can attend to key pixels at previous layers of the network. In order to further enhance the learning capability and reduce the inference cost of CLA, we further propose Adaptive CLA, or ACLA, as an improved CLA. Two adaptive designs are proposed for ACLA: 1) adaptively selecting the keys for non-local attention at each layer; 2) automatically searching for the insertion locations for ACLA modules. By these two adaptive designs, ACLA dynamically selects the number of keys to be aggregated for non-local attention at layer. In addition, ACLA searches for the optimal insert positions of ACLA modules by a neural architecture search method to render a compact neural network with compelling performance. Extensive experiments on image restoration tasks, including single image super-resolution, image denoising, image demosaicing, and image compression artifacts reduction, validate the effectiveness and efficiency of ACLA.
翻訳日:2022-03-10 09:51:53 公開日:2022-03-04
# (参考訳) 現代統計学における強化学習 : 最適適応的介入の構築

Reinforcement Learning in Modern Biostatistics: Constructing Optimal Adaptive Interventions ( http://arxiv.org/abs/2203.02605v1 )

ライセンス: CC BY-SA 4.0
Nina Deliu, Joseph Jay Williams and Bibhas Chakraborty(参考訳) 強化学習 (Reinforcement Learning, RL) は適応的介入 (Adaptive interventions, AIs) の分野において重要な役割を担い、方法論的・理論的文献にかなりの関心を惹きつけ、健康科学で人気を増している。 潜在的な利益にもかかわらず、実生活におけるその応用は、倫理的、コスト的な問題に加えて、いくつかの運用上の課題と統計上の課題により、依然として制限されている。 本研究では、RL、因果推論、AIといった分野を横断するユニークなフレームワークの下で、RLに寄与し、利益をもたらす可能性のあるさまざまなドメインを橋渡しすることを目的とする。 モバイルヘルス(mHealth)における動的治療体制(DTR)とジャスト・イン・タイム適応的介入(mHealth)の両方を包含する、AI構築のためのRL手法に関する初の統一的な指導的調査を行った。 両領域の類似点と相違点を概説し,RLの意義について論じる。 我々は、関連する方法論知識と、DTRとmHealthの両方でのモチベーション研究を組み合わせることで、AIの分野における統計学、RL、医療研究者の膨大な協力機会を説明する。

Reinforcement learning (RL) is acquiring a key role in the space of adaptive interventions (AIs), attracting a substantial interest within methodological and theoretical literature and becoming increasingly popular within health sciences. Despite potential benefits, its application in real life is still limited due to several operational and statistical challenges--in addition to ethical and cost issues among others--that remain open in part due to poor communication and synergy between methodological and applied scientists. In this work, we aim to bridge the different domains that contribute to and may benefit from RL, under a unique framework that intersects the areas of RL, causal inference, and AIs, among others. We provide the first unified instructive survey on RL methods for building AIs, encompassing both dynamic treatment regimes (DTRs) and just-in-time adaptive interventions in mobile health (mHealth). We outline similarities and differences between the two areas, and discuss their implications for using RL. We combine our relevant methodological knowledge with motivating studies in both DTRs and mHealth to illustrate the tremendous collaboration opportunities between statistical, RL, and healthcare researchers in the space of AIs.
翻訳日:2022-03-10 09:31:52 公開日:2022-03-04
# マンモグラム分類:概観

Mammograms Classification: A Review ( http://arxiv.org/abs/2203.03618v1 )

ライセンス: Link先を確認
Marawan Elbatel(参考訳) 乳がん検診に有効な画像診断法として,高信頼性低コスト検診法Digital Mammographyが用いられている。 医療支援技術への注目が高まり、マンモグラム画像は臨床診断に役立つ可能性のあるコンピュータ支援診断システムの開発に利用されてきた。 研究者たちは、この病気の早期発見や、乳癌の評価における放射線技師のパフォーマンス向上に人工知能が利用できることを証明している。 本稿では,マンモグラムの質量分類法を2つのカテゴリに分けて検討する。 1つ目は、手作業で提供された利害関係(ROI)を悪性または良性のいずれかに分類し、もう1つは自動的に分類されたROIを悪性または良性のいずれかに分類する。 また,分類タスクで使用されるデータセットと評価指標についても概説する。 最後に、この領域における古典的画像処理および学習アプローチとディープラーニングアプローチを比較し、議論する。

An advanced reliable low-cost form of screening method, Digital mammography has been used as an effective imaging method for breast cancer detection. With an increased focus on technologies to aid healthcare, Mammogram images have been utilized in developing computer-aided diagnosis systems that will potentially help in clinical diagnosis. Researchers have proved that artificial intelligence with its emerging technologies can be used in the early detection of the disease and improve radiologists' performance in assessing breast cancer. In this paper, we review the methods developed for mammogram mass classification in two categories. The first one is classifying manually provided cropped region of interests (ROI) as either malignant or benign, and the second one is the classification of automatically segmented ROIs as either malignant or benign. We also provide an overview of datasets and evaluation metrics used in the classification task. Finally, we compare and discuss the deep learning approach to classical image processing and learning approach in this domain.
翻訳日:2022-03-09 14:19:22 公開日:2022-03-04
# 混合モデルにおける偽クラスタリング速度

False clustering rate in mixture models ( http://arxiv.org/abs/2203.02597v1 )

ライセンス: Link先を確認
Ariane Marandon, Tabea Rebafka, Etienne Roquain, Nataliya Sokolovska(参考訳) クラスタリングタスクは、サンプルメンバーにラベルを配信することで構成される。 ほとんどのデータセットでは、いくつかの個人は曖昧で、あるクラスタに属性を付けるのが本質的に難しい。 しかし、実際的な応用では、個人を誤分類することは破滅的な可能性がある。 この難しさを克服するために、以下のアイデアはサンプルの一部だけを分類し、小さな誤分類率を得るというものである。 このアプローチは教師付き設定でよく知られており、棄却オプション付き分類 (classification with a abstention option) と呼ばれる。 本論文の目的は、このアプローチを教師なし混合モデルフレームワークで再検討することである。 この問題は、分類項目の数を最大化しながら、所定のレベル {\alpha} 以下の偽クラスタリング率(fcr)を制御するという観点で定式化される。 理論的な結果を確立し, 数値実験を行うことにより, 新しい手法を導入し, その挙動が最適手法に近いことを示した。 乳がんデータへの応用は、実用的な観点から新しいアプローチの利点を示している。

The clustering task consists in delivering labels to the members of a sample. For most data sets, some individuals are ambiguous and intrinsically difficult to attribute to one or another cluster. However, in practical applications, misclassifying individuals is potentially disastrous. To overcome this difficulty, the idea followed here is to classify only a part of the sample in order to obtain a small misclassification rate. This approach is well known in the supervised setting, and referred to as classification with an abstention option. The purpose of this paper is to revisit this approach in an unsupervised mixture-model framework. The problem is formalized in terms of controlling the false clustering rate (FCR) below a prescribed level {\alpha}, while maximizing the number of classified items. New procedures are introduced and their behavior is shown to be close to the optimal one by establishing theoretical results and conducting numerical experiments. An application to breast cancer data illustrates the benefits of the new approach from a practical viewpoint.
翻訳日:2022-03-08 18:43:00 公開日:2022-03-04
# CUDA+MPI設計規則のための機械学習

Machine Learning for CUDA+MPI Design Rules ( http://arxiv.org/abs/2203.02530v1 )

ライセンス: Link先を確認
Carl Pearson, Aurya Javeed, Karen Devine(参考訳) 本稿では,鍵となるCUDA+MPIプログラムの設計空間を自動探索し,高速な実装から遅延を識別する設計規則を提案する。 そのようなプログラムでは、オペレーションの順序(例えば、gpuカーネル、mpi通信)とリソースへのオペレーションの割り当て(例えば、gpuストリーム)は、可能な設計の範囲を大きくします。 システムの専門家は、これらのプログラムを再設計し、再最適化し、新しいプラットフォームを効果的に利用するタスクを持つ。 この作業は、その負担を軽減するためのプロトタイプツールを提供する。 提案手法では,CUDA および MPI 操作の有向非巡回グラフがプログラムの設計空間を定義する。 モンテカルロ木探索は、プログラムの性能に大きな影響を与えるデザイン空間の領域を発見する。 sequence-to-vector変換(sequence-to-vector transformation)は、各実装の機能を定義し、各実装は相対的なパフォーマンスに応じてクラスラベルを割り当てる。 決定木は各クラスの設計ルールを作成するために特徴とラベルに基づいて訓練されます。これらのルールはシステムの専門家が実装をガイドするために使用できます。 複数のMPIランクとGPUストリームを備えたプラットフォーム上で、科学計算のキーカーネルであるスパース行列ベクトル乗算(sparse-matrix vector multiplication)を使用して、当社の戦略を実証する。

We present a new strategy for automatically exploring the design space of key CUDA+MPI programs and providing design rules that discriminate slow from fast implementations. In such programs, the order of operations (e.g., GPU kernels, MPI communication) and assignment of operations to resources (e.g., GPU streams) makes the space of possible designs enormous. Systems experts have the task of redesigning and reoptimizing these programs to effectively utilize each new platform. This work provides a prototype tool to reduce that burden. In our approach, a directed acyclic graph of CUDA and MPI operations defines the design space for the program. Monte-Carlo tree search discovers regions of the design space that have large impact on the program's performance. A sequence-to-vector transformation defines features for each explored implementation, and each implementation is assigned a class label according to its relative performance. A decision tree is trained on the features and labels to produce design rules for each class; these rules can be used by systems experts to guide their implementations. We demonstrate our strategy using a key kernel from scientific computing -- sparse-matrix vector multiplication -- on a platform with multiple MPI ranks and GPU streams.
翻訳日:2022-03-08 18:42:19 公開日:2022-03-04
# 自律走行車知覚のオンライン自己評価のための品質指標と方法

A Quality Index Metric and Method for Online Self-Assessment of Autonomous Vehicles Sensory Perception ( http://arxiv.org/abs/2203.02588v1 )

ライセンス: Link先を確認
Ce Zhang and Azim Eskandarian(参考訳) 認識は自動運転の安全性に不可欠である。 カメラによる物体検出は、自動運転車の知覚において最も重要な方法の1つである。 現在の自律走行用カメラベース物体検出ソリューションでは,各フレームに対する検出性能に対するフィードバックが得られない。 本稿では、カメラによる物体検出アルゴリズムの性能評価のための評価指標、すなわち知覚品質指標(PQI)を提案し、フレーム単位の知覚品質フィードバックフレームを提供する。 pqi生成の方法は、細粒度の塩分マップ強度とオブジェクト検出アルゴリズムの出力結果を組み合わせたものである。 さらに,原画像画素とスーパーピクセルを入力として,提案したPQI評価指標を予測するために,スーパーピクセルベースのアテンションネットワーク(SPA-NET)を開発した。 提案した評価基準と予測ネットワークは3つのオープンソースデータセットで検証される。 提案した評価基準は, 自律走行環境下でのカメラによる知覚品質を, 実験結果に応じて正確に評価することができる。 ネットワーク回帰 r-平方値はモデル間の比較を決定する。 知覚品質指数は、カメラの視覚的シーン知覚を自己評価するのに有用である。

Perception is critical to autonomous driving safety. Camera-based object detection is one of the most important methods for autonomous vehicle perception. Current camera-based object detection solutions for autonomous driving cannot provide feedback on the detection performance for each frame. We propose an evaluation metric, namely the perception quality index (PQI), to assess the camera-based object detection algorithm performance and provide the perception quality feedback frame by frame. The method of the PQI generation is by combining the fine-grained saliency map intensity with the object detection algorithm's output results. Furthermore, we developed a superpixel-based attention network (SPA-NET) to predict the proposed PQI evaluation metric by using raw image pixels and superpixels as input. The proposed evaluation metric and prediction network are tested on three open-source datasets. The proposed evaluation metric can correctly assess the camera-based perception quality under the autonomous driving environment according to the experiment results. The network regression R-square values determine the comparison among models. It is shown that a Perception Quality Index is useful in self-evaluating a cameras visual scene perception.
翻訳日:2022-03-08 18:36:17 公開日:2022-03-04
# シングルタイムスケールアクター批判の小さなゲイン分析

A Small Gain Analysis of Single Timescale Actor Critic ( http://arxiv.org/abs/2203.02591v1 )

ライセンス: Link先を確認
Alex Olshevsky, Bahman Gharesifard(参考訳) 我々は,1ステップあたりの定常分布から1つのサンプルを用いて,比例したステップサイズと1つの批評家更新のみを使用するアクタ-クリティックの1バージョンについて検討する。 小利得定理を用いて本手法の解析を行う。 具体的には,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さが,アクター批判手法のテクニックの状態を$O \left(\mu^{-4} \epsilon^{-2} \right)$から$O \left(\mu^{-2} \epsilon^{-2} \right)$から$O \left(\mu^{-2} \epsilon^{-2} \right)$へと改善する。

We consider a version of actor-critic which uses proportional step-sizes and only one critic update with a single sample from the stationary distribution per actor step. We provide an analysis of this method using the small gain theorem. Specifically, we prove that this method can be used to find a stationary point, and that the resulting sample complexity improves the state of the art for actor-critic methods from $O \left(\mu^{-4} \epsilon^{-2} \right)$ to $O \left(\mu^{-2} \epsilon^{-2} \right)$ to find an $\epsilon$-approximate stationary point where $\mu$ is the condition number associated with the critic.
翻訳日:2022-03-08 18:32:30 公開日:2022-03-04
# 予測モデルを用いた水・土質分析

Water and Sediment Analyse Using Predictive Models ( http://arxiv.org/abs/2203.03422v1 )

ライセンス: Link先を確認
Xiaoting Xu, Tin Lai, Sayka Jahan, Farnaz Farid(参考訳) 過去数十年間の海洋汚染の増加は、状況を緩和するための最近の研究の動機となった。 典型的な水質評価では、汚染の程度を決定するために、労働集約型実験室で遠隔地における水と堆積物の連続的なモニタリングが必要である。 収集した水と堆積物のサンプルを用いて,機械学習を用いて予測モデルを定式化し,水質と汚染レベルを推定する自動フレームワークを提案する。 水と沈殿物で統計分析することの難しさの1つは、サンプル収集場所のスパース性のため、限られた量のデータサンプルと不完全なデータセットである。 そこで本研究では,データ欠落率の異なる水・土砂データセットにおける各種データ含浸法の性能を広範囲に調査した。 経験的に、最良のモデルでは、データ不足の57%を考慮し、75%の精度でアーカイブしています。 実験により,本モデルは,不完全な実世界のデータに基づいて水質のスクリーニングを行うのに役立つことを示した。

The increasing prevalence of marine pollution during the past few decades motivated recent research to help ease the situation. Typical water quality assessment requires continuous monitoring of water and sediments at remote locations with labour intensive laboratory tests to determine the degree of pollution. We propose an automated framework where we formalise a predictive model using Machine Learning to infer the water quality and level of pollution using collected water and sediments samples. One commonly encountered difficulty performing statistical analysis with water and sediment is the limited amount of data samples and incomplete dataset due to the sparsity of sample collection location. To this end, we performed extensive investigation on various data imputation methods' performance in water and sediment datasets with various data missing rates. Empirically, we show that our best model archives an accuracy of 75% after accounting for 57% of missing data. Experimentally, we show that our model would assist in assessing water quality screening based on possibly incomplete real-world data.
翻訳日:2022-03-08 18:28:45 公開日:2022-03-04
# Bayesian Optimization with Hybrid Zero Dynamics: セーフパラメータ学習による二足歩行制御

Bayesian Optimization Meets Hybrid Zero Dynamics: Safe Parameter Learning for Bipedal Locomotion Control ( http://arxiv.org/abs/2203.02570v1 )

ライセンス: Link先を確認
Lizhi Yang, Zhongyu Li, Jun Zeng, Koushil Sreenath(参考訳) 本稿では,2足歩行ロボットの移動制御にベイズ最適化(BO)とハイブリッドゼロダイナミクス(HZD)を組み合わせたマルチドメイン制御パラメータ学習フレームワークを提案する。 BOを利用して、HZDベースのコントローラで使用される制御パラメータを学習する。 学習プロセスはまず、異なる制御パラメータを最適化するためにシミュレーションに展開される。 次に、シミュレーションと実世界の不一致に対処するために、物理ロボットに学習プロセスを適用し、シミュレーションで学習した制御パラメータの補正を学習するとともに、歩行安定性の安全性制約を尊重する。 本手法は実世界の少数のサンプルで効率的なsim-to-real遷移を実現し,シミュレーションでトレーニングを初期化するための有効なコントローラを必要としない。 提案する学習フレームワークは二足歩行ロボットCassieに実験的に展開・検証され,歩行歩行の平滑性の向上と定常追従誤差の低減を図り,多目的移動技術を実現する。

In this paper, we propose a multi-domain control parameter learning framework that combines Bayesian Optimization (BO) and Hybrid Zero Dynamics (HZD) for locomotion control of bipedal robots. We leverage BO to learn the control parameters used in the HZD-based controller. The learning process is firstly deployed in simulation to optimize different control parameters for a large repertoire of gaits. Next, to tackle the discrepancy between the simulation and the real world, the learning process is applied on the physical robot to learn for corrections to the control parameters learned in simulation while also respecting a safety constraint for gait stability. This method empowers an efficient sim-to-real transition with a small number of samples in the real world, and does not require a valid controller to initialize the training in simulation. Our proposed learning framework is experimentally deployed and validated on a bipedal robot Cassie to perform versatile locomotion skills with improved performance on smoothness of walking gaits and reduction of steady-state tracking errors.
翻訳日:2022-03-08 17:40:27 公開日:2022-03-04
# オブジェクトゴールナビゲーションのための再利用可能な抽象モデルのオンライン学習

Online Learning of Reusable Abstract Models for Object Goal Navigation ( http://arxiv.org/abs/2203.02583v1 )

ライセンス: Link先を確認
Tommaso Campari, Leonardo Lamanna, Paolo Traverso, Luciano Serafini, Lamberto Ballan(参考訳) 本稿では,未知環境の抽象モデルを段階的に学習するための新しい手法を提案する。 抽象モデルは有限状態機械であり、それぞれの状態が環境の状態の抽象であり、ある位置と向きのエージェントによって認識される。 知覚は高次元の知覚データ(例えばRGB-D画像)であり、画像セグメンテーションとタスクノミーモデルバンクを利用して抽象化される。 抽象モデルの学習は、アクションを実行し、到達した状態を観察し、取得した情報で抽象モデルを更新することで達成される。 学習されたモデルはエージェントによって記憶され、保存されたモデルに対応する環境にあると認識されるたびに再利用されます。 本稿では,オブジェクト目標ナビゲーションタスクに対する提案手法の有効性を,公開ベンチマークに頼って検討する。 その結果,学習した抽象モデルの再利用により,目標ナビゲーションの性能向上が期待できることがわかった。

In this paper, we present a novel approach to incrementally learn an Abstract Model of an unknown environment, and show how an agent can reuse the learned model for tackling the Object Goal Navigation task. The Abstract Model is a finite state machine in which each state is an abstraction of a state of the environment, as perceived by the agent in a certain position and orientation. The perceptions are high-dimensional sensory data (e.g., RGB-D images), and the abstraction is reached by exploiting image segmentation and the Taskonomy model bank. The learning of the Abstract Model is accomplished by executing actions, observing the reached state, and updating the Abstract Model with the acquired information. The learned models are memorized by the agent, and they are reused whenever it recognizes to be in an environment that corresponds to the stored model. We investigate the effectiveness of the proposed approach for the Object Goal Navigation task, relying on public benchmarks. Our results show that the reuse of learned Abstract Models can boost performance on Object Goal Navigation.
翻訳日:2022-03-08 16:17:14 公開日:2022-03-04
# 種々の確率分布からサンプリングされた雑音画像に適用した測地線グラミアン雑音化

Geodesic Gramian Denoising Applied to the Images Contaminated With Noise Sampled From Diverse Probability Distributions ( http://arxiv.org/abs/2203.02600v1 )

ライセンス: Link先を確認
Yonggi Park, Kelum Gajamannage, Alexey Sadovski(参考訳) 高級カメラの利用が急増する中、現代社会の人々は高品質な画像を撮影することに関心を持っている。 しかし,画像中のノイズの影響により,画像の品質は人々の期待よりも劣る可能性がある。 したがって、重要な画像特徴を維持しながらノイズをフィルタリングすることは必須要件である。 既存の遮音法は, 汚染された騒音をサンプリングした確率分布を仮定し, 予測された遮音性能を達成する。 本稿では,近年のグラミアンに基づくフィルタリング手法を用いて,選択した画像から5つの確率分布からサンプリングされた雑音を除去する。 画素ではなく、画像から分割されたパッチを採用することにより、画像の滑らかさを保ち、画像領域ではなく、パッチ空間の裏にある多様体を飾ることにより、重要な画像特徴を維持する。 BM3DとK-SVDの2つの最先端デノナイズ手法に適用した3つのベンチマークコンピュータビジョンテスト画像を用いて、そのデノナイズ性能を検証する。

As quotidian use of sophisticated cameras surges, people in modern society are more interested in capturing fine-quality images. However, the quality of the images might be inferior to people's expectations due to the noise contamination in the images. Thus, filtering out the noise while preserving vital image features is an essential requirement. Current existing denoising methods have their own assumptions on the probability distribution in which the contaminated noise is sampled for the method to attain its expected denoising performance. In this paper, we utilize our recent Gramian-based filtering scheme to remove noise sampled from five prominent probability distributions from selected images. This method preserves image smoothness by adopting patches partitioned from the image, rather than pixels, and retains vital image features by performing denoising on the manifold underlying the patch space rather than in the image domain. We validate its denoising performance, using three benchmark computer vision test images applied to two state-of-the-art denoising methods, namely BM3D and K-SVD.
翻訳日:2022-03-08 15:56:06 公開日:2022-03-04
# Style-ERD: レスポンシブでコヒーレントなオンラインモーションスタイル転送

Style-ERD: Responsive and Coherent Online Motion Style Transfer ( http://arxiv.org/abs/2203.02574v1 )

ライセンス: Link先を確認
Tianxin Tao, Xiaohang Zhan, Zhongquan Chen, Michiel van de Panne(参考訳) モーションスタイル転送はキャラクターアニメーションを豊かにする一般的な方法である。 モーションスタイルの転送アルゴリズムは、動作がセグメントで処理されるオフライン設定のためにしばしば設計される。 しかし、モーションキャプチャによるリアルタイムアバターアニメーションのようなオンラインアニメーションアプリケーションでは、動きを最小のレイテンシでストリームとして処理する必要がある。 本研究では, フレキシブルで高品質なモーションスタイルのトランスファー手法を実現する。 本研究では,エンコーダ・リカレント・デコーダ構造と特徴的注意と時間的注意を組み合わせた新たな識別器を用いて,オンラインで動作をスタイリングするスタイルトランスファーモデルであるStyle-ERDを提案する。 本手法は,動作を統一モデルで複数のターゲットスタイルに分類する。 提案手法はオンライン設定を対象としているが,動作リアリズムやスタイル表現性において従来のオフライン手法よりも優れ,実行効率に大きな向上をもたらす。

Motion style transfer is a common method for enriching character animation. Motion style transfer algorithms are often designed for offline settings where motions are processed in segments. However, for online animation applications, such as realtime avatar animation from motion capture, motions need to be processed as a stream with minimal latency. In this work, we realize a flexible, high-quality motion style transfer method for this setting. We propose a novel style transfer model, Style-ERD, to stylize motions in an online manner with an Encoder-Recurrent-Decoder structure, along with a novel discriminator that combines feature attention and temporal attention. Our method stylizes motions into multiple target styles with a unified model. Although our method targets online settings, it outperforms previous offline methods in motion realism and style expressiveness and provides significant gains in runtime efficiency
翻訳日:2022-03-08 15:24:12 公開日:2022-03-04
# 分布検出器の概念に基づく説明

Concept-based Explanations for Out-Of-Distribution Detectors ( http://arxiv.org/abs/2203.02586v1 )

ライセンス: Link先を確認
Jihye Choi, Jayaram Raghuram, Ryan Feng, Jiefeng Chen, Somesh Jha, Atul Prakash(参考訳) Out-of-Distribution(OOD)検出は、ディープニューラルネットワーク(DNN)分類器の安全なデプロイを保証する上で重要な役割を果たす。 OOD検出器の性能向上に多くの手法が注がれているが、決定を解釈する上で重要なギャップが残っている。 我々は、学習された高レベル概念に基づいたOOD検出器の説明を提供することで、このギャップを埋める手助けをする。 まず,ood検出器を説明するための概念セットの有効性を評価するための2つの新しい指標を提案する。 1)OOD検出者の判断を説明するための概念の充実度を定量化する検出完全性、及び 2) 概念分離性は, 概念空間における分配データとOODデータの分散分離を捉える。 これらの指標に基づいて,検出完全性と概念分離性の望ましい特性を満たす概念の集合を学習するフレームワークを提案し,多様なOOD技術に対する概念ベースの説明を提供する上でのフレームワークの有効性を実証する。 また,修正したshapley値に基づく重要度スコアを用いて,検出結果に寄与する重要な概念を特定する方法を示す。

Out-of-distribution (OOD) detection plays a crucial role in ensuring the safe deployment of deep neural network (DNN) classifiers. While a myriad of methods have focused on improving the performance of OOD detectors, a critical gap remains in interpreting their decisions. We help bridge this gap by providing explanations for OOD detectors based on learned high-level concepts. We first propose two new metrics for assessing the effectiveness of a particular set of concepts for explaining OOD detectors: 1) detection completeness, which quantifies the sufficiency of concepts for explaining an OOD-detector's decisions, and 2) concept separability, which captures the distributional separation between in-distribution and OOD data in the concept space. Based on these metrics, we propose a framework for learning a set of concepts that satisfy the desired properties of detection completeness and concept separability and demonstrate the framework's effectiveness in providing concept-based explanations for diverse OOD techniques. We also show how to identify prominent concepts that contribute to the detection results via a modified Shapley value-based importance score.
翻訳日:2022-03-08 15:23:57 公開日:2022-03-04
# 最適化した3次元多項式ニューラルネットワークと時間コヒーレントなスライディングウィンドウを用いた植物種認識

Plant Species Recognition with Optimized 3D Polynomial Neural Networks and Variably Overlapping Time-Coherent Sliding Window ( http://arxiv.org/abs/2203.02611v1 )

ライセンス: Link先を確認
Habib Ben Abdallah, Christopher J. Henry, Sheela Ramanna(参考訳) 近年、EAGL-Iシステムは、農夫や研究者が農業においてAI駆動のソリューションを作成するのによく使うことを意図した、大規模ラベル付き植物データセットを迅速に作成するために開発された。 その結果、8種の植物種からなる異なる大きさの4万枚の画像からなる植物種認識データセットがシステムで作成され、その能力が実証された。 本稿では,可変サイズの画像からなるデータセットを,畳み込みニューラルネットワークに適した固定サイズの3次元表現に変換する,VOTCSW (Variably Overlapping Time-Coherent Sliding Window) という新しい手法を提案する。 理論上,本手法の用途とその固有特性を定式化し,データに対する過剰サンプリングと正規化効果があることを証明した。 VOTCSW法と最近提案された1次元多項式ニューラルネットワークと呼ばれる機械学習モデルの3次元拡張を組み合わせることで、EAGL-Iシステムによって作成されたデータセットに対して99.9%の最先端精度を達成し、ResNetやInceptionのようなよく知られたアーキテクチャを上回るモデルを構築することができた。 さらに,事前学習したN次元ポリノミアルニューラルネットワークの次数削減が可能なヒューリスティックアルゴリズムを作成し,その性能を変化させることなく圧縮し,より高速で軽量なモデルを実現する。 さらに,現在利用可能なデータセットは,トレーニングセットとテストセットとの間にかなりのクラス不均衡があるため,現在の形式では機械学習に使用できないことが判明した。 そのため、特定の前処理とモデル開発フレームワークを作成し、49.23%から99.9%の精度向上を可能にしました。

Recently, the EAGL-I system was developed to rapidly create massive labeled datasets of plants intended to be commonly used by farmers and researchers to create AI-driven solutions in agriculture. As a result, a publicly available plant species recognition dataset composed of 40,000 images with different sizes consisting of 8 plant species was created with the system in order to demonstrate its capabilities. This paper proposes a novel method, called Variably Overlapping Time-Coherent Sliding Window (VOTCSW), that transforms a dataset composed of images with variable size to a 3D representation with fixed size that is suitable for convolutional neural networks, and demonstrates that this representation is more informative than resizing the images of the dataset to a given size. We theoretically formalized the use cases of the method as well as its inherent properties and we proved that it has an oversampling and a regularization effect on the data. By combining the VOTCSW method with the 3D extension of a recently proposed machine learning model called 1-Dimensional Polynomial Neural Networks, we were able to create a model that achieved a state-of-the-art accuracy of 99.9% on the dataset created by the EAGL-I system, surpassing well-known architectures such as ResNet and Inception. In addition, we created a heuristic algorithm that enables the degree reduction of any pre-trained N-Dimensional Polynomial Neural Network and which compresses it without altering its performance, thus making the model faster and lighter. Furthermore, we established that the currently available dataset could not be used for machine learning in its present form, due to a substantial class imbalance between the training set and the test set. Hence, we created a specific preprocessing and a model development framework that enabled us to improve the accuracy from 49.23% to 99.9%.
翻訳日:2022-03-08 15:23:39 公開日:2022-03-04
# ニュースレコメンデーションシステムにおけるターゲットデータ中毒攻撃

Targeted Data Poisoning Attack on News Recommendation System ( http://arxiv.org/abs/2203.03560v1 )

ライセンス: Link先を確認
Xudong Zhang, Zan Wang, Jingke Zhao, Lanjun Wang(参考訳) ニュースレコメンデーションシステム(NRS)は多くのオンラインニュースサービスの基本技術となっている。 一方で、いくつかの研究は、レコメンデーションシステム(rs)がデータ中毒攻撃に弱いことを示しており、攻撃者はシステムを欲望として実行するように誤解させることができる。 偽ユーザを注入する攻撃アプローチは、NRSがアイテムが固定された他のシステムと同じ扱いを受けた場合、NRSに適用することができる。 しかし、NRSでは、各項目(すなわちニュース)がより情報的であるため、ターゲットニュースのランクを操作できる閲覧ニュースの内容の摂動を抑えるため、NRSに毒を盛る新たなアプローチを提案する。 直感的には、攻撃が捕捉される可能性が高い場合、すなわち露出した場合は役に立たない。 そこで本稿では,露出リスクの概念を導入し,所定の予算下での露出リスクを維持しつつ,目標とするニュースランクの操作を最大化することを目的とした摂動を用いて,ヒストリーニュースデータセットを攻撃する新たな課題を提案する。 探索空間を縮小する2段階階層モデルを含む強化学習フレームワークであるTDP-CPを設計する。 また、報酬のためにNRSを再訓練する時間を節約するために影響推定を適用する。 3つのNRSと異なるターゲットニュースに基づいてTDP-CPの性能を検証した。 実験の結果,TDP-CPは限られた露出予算で目標ニュースのランクを上げることができることがわかった。

News Recommendation System(NRS) has become a fundamental technology to many online news services. Meanwhile, several studies show that recommendation systems(RS) are vulnerable to data poisoning attacks, and the attackers have the ability to mislead the system to perform as their desires. A widely studied attack approach, injecting fake users, can be applied on the NRS when the NRS is treated the same as the other systems whose items are fixed. However, in the NRS, as each item (i.e. news) is more informative, we propose a novel approach to poison the NRS, which is to perturb contents of some browsed news that results in the manipulation of the rank of the target news. Intuitively, an attack is useless if it is highly likely to be caught, i.e., exposed. To address this, we introduce a notion of the exposure risk and propose a novel problem of attacking a history news dataset by means of perturbations where the goal is to maximize the manipulation of the target news rank while keeping the risk of exposure under a given budget. We design a reinforcement learning framework, called TDP-CP, which contains a two-stage hierarchical model to reduce the searching space. Meanwhile, influence estimation is also applied to save the time on retraining the NRS for rewards. We test the performance of TDP-CP under three NRSs and on different target news. Our experiments show that TDP-CP can increase the rank of the target news successfully with a limited exposure budget.
翻訳日:2022-03-08 15:15:53 公開日:2022-03-04
# sparsity-induced categorical priorは情報ボトルネックのロバスト性を改善する

Sparsity-Inducing Categorical Prior Improves Robustness of the Information Bottleneck ( http://arxiv.org/abs/2203.02592v1 )

ライセンス: Link先を確認
Anirban Samaddar, Sandeep Madireddy, Prasanna Balaprakash(参考訳) 情報ボトルネックフレームワークは、入力中のニュアンス情報を圧縮し、予測に関する意味論的意味のある情報を抽出する表現を学習するための体系的なアプローチを提供する。 しかしながら、すべてのデータにわたる次元性を修正する事前分布の選択は、堅牢な表現を学ぶためのこのアプローチの柔軟性を制限することができる。 本稿では,各データポイントがそれぞれの次元分布を学習するための柔軟性を提供するメカニズムとして,スパーシリティを用いた新しいスパイクスラブを提案する。 さらに、潜在変数と空間の結合分布を学習するメカニズムを提供する。 したがって、他のアプローチとは異なり、潜在空間における完全不確実性を考慮することができる。 MNISTデータとFashion-MNISTデータに対する分布内および分布外学習シナリオを用いた一連の実験により,本手法は従来の固定-imensionalの先行手法や,文献で提案される疎性推論機構と比較して,精度と堅牢性を向上させることを示した。

The information bottleneck framework provides a systematic approach to learn representations that compress nuisance information in inputs and extract semantically meaningful information about the predictions. However, the choice of the prior distribution that fix the dimensionality across all the data can restrict the flexibility of this approach to learn robust representations. We present a novel sparsity-inducing spike-slab prior that uses sparsity as a mechanism to provide flexibility that allows each data point to learn its own dimension distribution. In addition, it provides a mechanism to learn a joint distribution of the latent variable and the sparsity. Thus, unlike other approaches, it can account for the full uncertainty in the latent space. Through a series of experiments using in-distribution and out-of-distribution learning scenarios on the MNIST and Fashion-MNIST data we show that the proposed approach improves the accuracy and robustness compared with the traditional fixed -imensional priors as well as other sparsity-induction mechanisms proposed in the literature.
翻訳日:2022-03-08 15:14:47 公開日:2022-03-04
# boostmis:adaptive pseudo labelingとinformative active annotationによる医用画像半教師付き学習の促進

BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation ( http://arxiv.org/abs/2203.02533v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Lei Zhu, James Hallinan, Andrew Makmur, Shengyu Zhang, Qingpeng Cai, Beng Chin Ooi(参考訳) 本稿では,医療画像sslモデルの可能性を解き放つために,適応型擬似ラベリングと情報型アクティブアノテーションを組み合わせた,boostmisと呼ばれる新しい半教師付き学習(ssl)フレームワークを提案する。 この戦略は、タスクモデルのトレーニングを改善するためにタスクモデルの予測から変換された1ホットの ``hard'' ラベルを適応的に生成することができる。 2) 信頼度が低い未ラベル画像に対して,仮想対向摂動とモデルの密度認識エントロピーを利用して,情報的サンプルをアノテーション候補として検出する能動学習(AL)アルゴリズムを導入する。 これらの情報的候補はその後、SSLラベルの伝搬を改善するための次のトレーニングサイクルに投入される。 特に、適応的な擬似ラベルと情報的アクティブアノテーションは、医療画像SSLを促進するために相互に協調する学習クローズドループを形成する。 提案手法の有効性を検証するため,MESCC診断と分類の最適化を目的とした転移性硬膜外脊髄圧迫(MESCC)データセットの収集を行った。 我々は MESCC と他の公開データセット COVIDx に対する BoostMIS の広範な実験を行った。 実験により, 異なる医用画像データセットに対するフレームワークの有効性と汎用性を検証し, 各種最先端手法に対して有意な改善が得られた。

In this paper, we propose a novel semi-supervised learning (SSL) framework named BoostMIS that combines adaptive pseudo labeling and informative active annotation to unleash the potential of medical image SSL models: (1) BoostMIS can adaptively leverage the cluster assumption and consistency regularization of the unlabeled data according to the current learning status. This strategy can adaptively generate one-hot ``hard'' labels converted from task model predictions for better task model training. (2) For the unselected unlabeled images with low confidence, we introduce an Active learning (AL) algorithm to find the informative samples as the annotation candidates by exploiting virtual adversarial perturbation and model's density-aware entropy. These informative candidates are subsequently fed into the next training cycle for better SSL label propagation. Notably, the adaptive pseudo-labeling and informative active annotation form a learning closed-loop that are mutually collaborative to boost medical image SSL. To verify the effectiveness of the proposed method, we collected a metastatic epidural spinal cord compression (MESCC) dataset that aims to optimize MESCC diagnosis and classification for improved specialist referral and treatment. We conducted an extensive experimental study of BoostMIS on MESCC and another public dataset COVIDx. The experimental results verify our framework's effectiveness and generalisability for different medical image datasets with a significant improvement over various state-of-the-art methods.
翻訳日:2022-03-08 14:41:07 公開日:2022-03-04
# 最小データによる3次元生成モデルの構築

Building 3D Generative Models from Minimal Data ( http://arxiv.org/abs/2203.02554v1 )

ライセンス: Link先を確認
Skylar Sutherland, Bernhard Egger, Joshua Tenenbaum(参考訳) 本研究では,単一の3dメッシュから3dオブジェクトの生成モデルを構築し,2d画像からの教師なし低ショット学習により改善する手法を提案する。 本手法は,ガウス過程の観点から形状とアルベドを表す3次元モーファブルモデルを生成する。 従来のアプローチでは、複数の高品質な3dスキャンからプリンシパルコンポーネント分析を通じて3d morphableモデルを構築してきたが、単一のスキャンやテンプレートから3d morphableモデルを構築する。 顔領域で示すように、これらのモデルは2次元データ(逆図形)や3次元データ(登録)から3次元再構成を推測することができる。 具体的には,1つの3dテンプレート(1人1人ではなく合計1つのスキャン)だけで顔認識を行うことができることを示す。 1つの3Dテンプレートと少数の2D画像を用いて3D顔の分布を学習できる予備的な教師なし学習フレームワークにモデルを拡張した。 このアプローチは、生来の顔テンプレートから始めて、新しい顔の3d構造を、比較的少数の親しみやすい顔の2dイメージだけで認識する柔軟なシステムを開発する、人間の幼児における顔知覚の起源のモデルを提供するかもしれない。

We propose a method for constructing generative models of 3D objects from a single 3D mesh and improving them through unsupervised low-shot learning from 2D images. Our method produces a 3D morphable model that represents shape and albedo in terms of Gaussian processes. Whereas previous approaches have typically built 3D morphable models from multiple high-quality 3D scans through principal component analysis, we build 3D morphable models from a single scan or template. As we demonstrate in the face domain, these models can be used to infer 3D reconstructions from 2D data (inverse graphics) or 3D data (registration). Specifically, we show that our approach can be used to perform face recognition using only a single 3D template (one scan total, not one per person). We extend our model to a preliminary unsupervised learning framework that enables the learning of the distribution of 3D faces using one 3D template and a small number of 2D images. This approach could also provide a model for the origins of face perception in human infants, who appear to start with an innate face template and subsequently develop a flexible system for perceiving the 3D structure of any novel face from experience with only 2D images of a relatively small number of familiar faces.
翻訳日:2022-03-08 14:40:45 公開日:2022-03-04
# マルチモーダルコンディショニングによるビデオ合成

Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning ( http://arxiv.org/abs/2203.02573v1 )

ライセンス: Link先を確認
Ligong Han and Jian Ren and Hsin-Ying Lee and Francesco Barbieri and Kyle Olszewski and Shervin Minaee and Dimitris Metaxas and Sergey Tulyakov(参考訳) 条件付きビデオ合成のほとんどの方法は、条件として単一のモダリティを用いる。 これには大きな制限がある。 例えば、画像に条件付けされたモデルが、動き情報を提供する手段がないため、ユーザが望む特定の動き軌跡を生成することは問題となる。 逆に、言語情報はビデオの内容を正確に定義することなく、所望の動作を記述できる。 本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。 本研究では,映像の量子化表現の最近の進歩を活かし,複数のモードを持つ双方向トランスを入力として適用し,離散的な映像表現を予測する。 ビデオの品質と一貫性を向上させるために,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。 生成したビデオのテキスト表現と多様性の堅牢性を改善するためにテキスト拡張を導入する。 我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。 トレーニングに使用されるものよりもずっと長いシーケンスを生成することができる。 さらに,本モデルでは,テキストプロンプトによって提案される視覚情報,例えば「画像中の物体が北東に移動している」を抽出し,対応する映像を生成する。 3つの公開データセットと新たに収集した顔属性付きデータセットで評価を行い,4つすべてで最新生成結果を得た。

Most methods for conditional video synthesis use a single modality as the condition. This comes with major limitations. For example, it is problematic for a model conditioned on an image to generate a specific motion trajectory desired by the user since there is no means to provide motion information. Conversely, language information can describe the desired motion, while not precisely defining the content of the video. This work presents a multimodal video generation framework that benefits from text and images provided jointly or separately. We leverage the recent progress in quantized representations for videos and apply a bidirectional transformer with multiple modalities as inputs to predict a discrete video representation. To improve video quality and consistency, we propose a new video token trained with self-learning and an improved mask-prediction algorithm for sampling video tokens. We introduce text augmentation to improve the robustness of the textual representation and diversity of generated videos. Our framework can incorporate various visual modalities, such as segmentation masks, drawings, and partially occluded images. It can generate much longer sequences than the one used for training. In addition, our model can extract visual information as suggested by the text prompt, e.g., "an object in image one is moving northeast", and generate corresponding videos. We run evaluations on three public datasets and a newly collected dataset labeled with facial attributes, achieving state-of-the-art generation results on all four.
翻訳日:2022-03-08 14:40:21 公開日:2022-03-04
# NUQ:不確かさの量子化による拡散MRIのノイズメトリクス

NUQ: A Noise Metric for Diffusion MRI via Uncertainty Discrepancy Quantification ( http://arxiv.org/abs/2203.01921v2 )

ライセンス: Link先を確認
Shreyas Fadnavis, Jens Sj\"olund, Anders Eklund, Eleftherios Garyfallidis(参考訳) 拡散MRI(dMRI)は組織微細構造に敏感な唯一の非侵襲的手法であり、組織微細構造と白質経路の再構築に使用できる。 このようなタスクの精度は、dMRIの低信号対雑音比によって妨げられる。 今日、ノイズは主に残留地図の視覚的検査と推定標準偏差によって特徴付けられる。 しかし,このような質的評価だけでは,下流課題に対する騒音の影響を推定することは困難である。 そこで本研究では, 基礎的真理参照画像が存在しない場合の定量的画像品質解析のための新しい指標, ノイズ不確かさ定量化(nuq)を提案する。 NUQは最近のベイズ的dMRIモデルの定式化を用いて、ミクロ構造測定の不確かさを推定している。 具体的には、NUQは、最大平均誤差測定値を用いて、マイクロ構造測定の後方分布から得られたサンプルを比較して、プールされた品質スコアを算出する。 NUQはノイズのきめ細かい分析を可能にし、視覚的に知覚できない詳細を捉える。 実際のデータセットに対して定性的および定量的な比較を行い、NUQが異なるデノイザと取得に対して一貫したスコアを生成することを示す。 最後に, 統合失調症とコントロールのコホートにnuqを使用することにより, グループ差に対する分別の影響を定量化する。

Diffusion MRI (dMRI) is the only non-invasive technique sensitive to tissue micro-architecture, which can, in turn, be used to reconstruct tissue microstructure and white matter pathways. The accuracy of such tasks is hampered by the low signal-to-noise ratio in dMRI. Today, the noise is characterized mainly by visual inspection of residual maps and estimated standard deviation. However, it is hard to estimate the impact of noise on downstream tasks based only on such qualitative assessments. To address this issue, we introduce a novel metric, Noise Uncertainty Quantification (NUQ), for quantitative image quality analysis in the absence of a ground truth reference image. NUQ uses a recent Bayesian formulation of dMRI models to estimate the uncertainty of microstructural measures. Specifically, NUQ uses the maximum mean discrepancy metric to compute a pooled quality score by comparing samples drawn from the posterior distribution of the microstructure measures. We show that NUQ allows a fine-grained analysis of noise, capturing details that are visually imperceptible. We perform qualitative and quantitative comparisons on real datasets, showing that NUQ generates consistent scores across different denoisers and acquisitions. Lastly, by using NUQ on a cohort of schizophrenics and controls, we quantify the substantial impact of denoising on group differences.
翻訳日:2022-03-08 12:22:00 公開日:2022-03-04
# (参考訳) X2T: ユーザフィードバックによるオンライン学習によるX-to-Textタイピングインタフェースのトレーニング

X2T: Training an X-to-Text Typing Interface with Online Learning from User Feedback ( http://arxiv.org/abs/2203.02072v1 )

ライセンス: CC BY 4.0
Jensen Gao, Siddharth Reddy, Glen Berseth, Anca D. Dragan, Sergey Levine(参考訳) 任意のユーザ入力を望ましいアクションに変換するフレキシブルなアダプティブインターフェースを使用して,ユーザの意図をマシンに伝達することを支援する。 本研究は,ユーザがキーボードを操作できないような補助的タイピングアプリケーションに焦点を当てるが,その代わりに,視覚や脳インプラントによる神経活動を測定するwebカメラ画像など,他の入力を供給できる。 標準メソッドは、ユーザ入力の固定されたデータセット上でモデルをトレーニングし、そのミスから学習しない静的インターフェースをデプロイする。 ユーザからのフィードバックからインタフェースの動作の正確性に関するオンライン学習という,ユーザによる最小限の労力で,そのようなインターフェースを時間とともに改善する簡単なアイデアを考察する。 タイピング領域では、インターフェースが望ましいアクションを実行していないというフィードバックとしてバックスペースを活用します。 我々は,このフィードバック信号の予測モデルを訓練するx-to-text(X2T)と呼ばれるアルゴリズムを提案し,このモデルを用いて既存のデフォルトインターフェースを微調整し,ユーザ入力を単語や文字を選択する動作に変換する。 我々はX2Tを,所望の言葉を見つめて文章を入力した12人の参加者による小規模なオンラインユーザスタディ,60人のユーザによる手書きサンプルの大規模観察,脳-コンピュータインターフェースを用いた1人の参加者によるパイロットスタディを通じて評価した。 その結果、x2tは非適応型デフォルトインターフェースよりも優れ、インターフェースへのユーザの共適応を刺激し、個々のユーザに対するインターフェースをパーソナライズし、デフォルトインターフェースから収集されたオフラインデータを活用し、初期パフォーマンスを改善し、オンライン学習を加速する。

We aim to help users communicate their intent to machines using flexible, adaptive interfaces that translate arbitrary user input into desired actions. In this work, we focus on assistive typing applications in which a user cannot operate a keyboard, but can instead supply other inputs, such as webcam images that capture eye gaze or neural activity measured by a brain implant. Standard methods train a model on a fixed dataset of user inputs, then deploy a static interface that does not learn from its mistakes; in part, because extracting an error signal from user behavior can be challenging. We investigate a simple idea that would enable such interfaces to improve over time, with minimal additional effort from the user: online learning from user feedback on the accuracy of the interface's actions. In the typing domain, we leverage backspaces as feedback that the interface did not perform the desired action. We propose an algorithm called x-to-text (X2T) that trains a predictive model of this feedback signal, and uses this model to fine-tune any existing, default interface for translating user input into actions that select words or characters. We evaluate X2T through a small-scale online user study with 12 participants who type sentences by gazing at their desired words, a large-scale observational study on handwriting samples from 60 users, and a pilot study with one participant using an electrocorticography-based brain-computer interface. The results show that X2T learns to outperform a non-adaptive default interface, stimulates user co-adaptation to the interface, personalizes the interface to individual users, and can leverage offline data collected from the default interface to improve its initial performance and accelerate online learning.
翻訳日:2022-03-08 00:30:50 公開日:2022-03-04
# (参考訳) スプリットラーニングにおける差分プライベートラベル保護

Differentially Private Label Protection in Split Learning ( http://arxiv.org/abs/2203.02073v1 )

ライセンス: CC BY 4.0
Xin Yang, Jiankai Sun, Yuanshun Yao, Junyuan Xie, Chong Wang(参考訳) Split Learningは、複数のパーティが垂直に分割されたデータ(属性によって分割される)上で機械学習モデルを共同でトレーニングすることを可能にする分散トレーニングフレームワークである。 プライベートな特徴やラベルではなく、中間的な計算結果だけがパーティ間で共有され、生のトレーニングデータがプライベートのままになる、というのがその考え方だ。 しかし、近年の研究では、分割学習の平易な実装は、半正直な敵が簡単にラベルを再構築できる厳しいプライバシーリスクに悩まされていることが示されている。 本稿では,差分プライバシー保証を提供する汎用勾配摂動型分割学習フレームワークである \textsf{tpsl} (transcript private split learning)を提案する。 差分プライバシはモデル重みだけでなく、分散計算環境における通信メッセージにも適用される。 大規模実世界のデータセットに対する実験により,ラベル漏洩攻撃に対するtextsf{TPSL}の堅牢性と有効性を示した。 また、‘textsf{TPSL} はベースラインよりもユーティリティプライバシトレードオフが優れていることも分かりました。

Split learning is a distributed training framework that allows multiple parties to jointly train a machine learning model over vertically partitioned data (partitioned by attributes). The idea is that only intermediate computation results, rather than private features and labels, are shared between parties so that raw training data remains private. Nevertheless, recent works showed that the plaintext implementation of split learning suffers from severe privacy risks that a semi-honest adversary can easily reconstruct labels. In this work, we propose \textsf{TPSL} (Transcript Private Split Learning), a generic gradient perturbation based split learning framework that provides provable differential privacy guarantee. Differential privacy is enforced on not only the model weights, but also the communicated messages in the distributed computation setting. Our experiments on large-scale real-world datasets demonstrate the robustness and effectiveness of \textsf{TPSL} against label leakage attacks. We also find that \textsf{TPSL} have a better utility-privacy trade-off than baselines.
翻訳日:2022-03-08 00:09:20 公開日:2022-03-04
# (参考訳) グローバル平均プールを用いた動的バックドア

Dynamic Backdoors with Global Average Pooling ( http://arxiv.org/abs/2203.02079v1 )

ライセンス: CC BY 4.0
Stefanos Koffas and Stjepan Picek and Mauro Conti(参考訳) アウトソースのトレーニングと機械学習をサービスとして提供することで、バックドア攻撃のような新たな攻撃ベクトルが生まれている。 このような攻撃は、トリガーが入力に追加されると起動されるニューラルネットワークに秘密の機能を埋め込む。 文学におけるほとんどの著作では、トリガーは位置とパターンの両方において静的である。 様々な検出機構の有効性はこの性質に依存する。 ニューラルクリーンスやABSのような画像分類の対策は、パターンや位置に関わらず効果的に働く動的トリガーによってバイパスできることが最近示されている。 しかし、こうしたバックドアは、大量の有毒なトレーニングデータを必要とするため、要求されている。 本研究は,有毒なトレーニングデータの割合を増大させることなく,グローバル平均プール層による動的バックドア攻撃の発生を初めて示すものである。 それにもかかわらず、音声分類、テキスト感情分析、画像分類の実験は、実際非常に困難であることを示している。

Outsourced training and machine learning as a service have resulted in novel attack vectors like backdoor attacks. Such attacks embed a secret functionality in a neural network activated when the trigger is added to its input. In most works in the literature, the trigger is static, both in terms of location and pattern. The effectiveness of various detection mechanisms depends on this property. It was recently shown that countermeasures in image classification, like Neural Cleanse and ABS, could be bypassed with dynamic triggers that are effective regardless of their pattern and location. Still, such backdoors are demanding as they require a large percentage of poisoned training data. In this work, we are the first to show that dynamic backdoor attacks could happen due to a global average pooling layer without increasing the percentage of the poisoned training data. Nevertheless, our experiments in sound classification, text sentiment analysis, and image classification show this to be very difficult in practice.
翻訳日:2022-03-07 23:46:29 公開日:2022-03-04
# (参考訳) 深部語彙仮説 : 自然言語におけるパーソナリティ構造の同定

Deep Lexical Hypothesis: Identifying personality structure in natural language ( http://arxiv.org/abs/2203.02092v1 )

ライセンス: CC BY 4.0
Andrew Cutler, David M. Condon(参考訳) 自然言語処理(NLP)の最近の進歩は、長い節の要約や言語間の翻訳といった複雑なタスクを実行できる一般的なモデルを生み出している。 本稿では,従来の心理語彙学における調査に基づく格付けを用いた言語モデルから形容詞的類似性を抽出する手法を提案する。 この方法で生成された相関構造は、ソーシエとゴールドバーグ (1996a) が報告した 435 項の自己および他の年代と非常によく似ている。 NLPを用いた最初の3つの回転しない因子は、0.89、0.79、0.79の係数を持つ調査データと一致している。 この構造は多くのモデリング上の決定に対して堅牢である:形容詞集合: 1,710 項 (Goldberg, 1982) と 18,000 項 (Allport & Odbert, 1936) を含む。 特に、神経症と開放性は弱く、矛盾なく回復するだけである。 これは、語彙仮説の本来の(意味的な)ビジョンに近い新しい信号源である。 この方法は、調査ができない場所で適用することができる: 数十の言語を同時に、数万のアイテムで、歴史的なテキストで、そして非常に大きなスケールで、わずかなコストで。 コードは、新しい研究方向の再現と迅速なイテレーションを容易にするために公開されています。

Recent advances in natural language processing (NLP) have produced general models that can perform complex tasks such as summarizing long passages and translating across languages. Here, we introduce a method to extract adjective similarities from language models as done with survey-based ratings in traditional psycholexical studies but using millions of times more text in a natural setting. The correlational structure produced through this method is highly similar to that of self- and other-ratings of 435 terms reported by Saucier and Goldberg (1996a). The first three unrotated factors produced using NLP are congruent with those in survey data, with coefficients of 0.89, 0.79, and 0.79. This structure is robust to many modeling decisions: adjective set, including those with 1,710 terms (Goldberg, 1982) and 18,000 terms (Allport & Odbert, 1936); the query used to extract correlations; and language model. Notably, Neuroticism and Openness are only weakly and inconsistently recovered. This is a new source of signal that is closer to the original (semantic) vision of the Lexical Hypothesis. The method can be applied where surveys cannot: in dozens of languages simultaneously, with tens of thousands of items, on historical text, and at extremely large scale for little cost. The code is made public to facilitate reproduction and fast iteration in new directions of research.
翻訳日:2022-03-07 23:40:38 公開日:2022-03-04
# (参考訳) LiteTransformerSearch: 効率的な自己回帰型言語モデルのためのトレーニング不要なオンデバイス検索

LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models ( http://arxiv.org/abs/2203.02094v1 )

ライセンス: CC BY 4.0
Mojan Javaheripi, Shital Shah, Subhabrata Mukherjee, Tomasz L. Religa, Caio C. T. Mendes, Gustavo H. de Rosa, Sebastien Bubeck, Farinaz Koushanfar, Debadeepta Dey(参考訳) トランスアーキテクチャは、ほとんどの大規模言語モデルの構成要素として広く使われている。 しかし、試行錯誤のゲームとして、レイヤ数、アテンションヘッド数、フィードフォワードネットワークの内部サイズなど、無数のアーキテクチャハイパーパラメータを設定し、複雑なタスクパフォーマンスとメモリやレイテンシといった計算制約の間の最適なトレードオフを持つアーキテクチャを見つけることは、依然として困難である。 この課題は、様々なハードウェアの普及によってさらに悪化する。 本研究では, 自己回帰変換器における非埋め込みパラメータの数が, アーキテクチャのハイパーパラメータによらず, タスク性能と高い相関性を有することを示す。 アーキテクチャのハイパーパラメータはハードウェアに依存した遅延とメモリフットプリントに影響を与えるため、上記の観測は、ターゲットデバイス上で直接実行できる単純な探索アルゴリズムを有機的に誘導する。 我々は,非埋め込みパラメータをパープレキシティのプロキシとして使用することにより,モデルトレーニングを必要とせずに,レイテンシとパープレキシティ・パレート・フロンティアが発見できることを厳格に示す。 ARM CPUからNvidia GPUまで多種多様なデバイス上での軽量トランスフォーマーサーチ(LTS)という手法を評価し,最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することを示す。 LTSは、コモディティラップトップ上で実行中に、3時間以内でパレトフロンティアを抽出する。 自動回帰言語モデリングにおける将来のNASメソッドのための強力なシンプルなベースラインを提供するため、数百時間にわたるトレーニングのカーボンフットプリントを効果的に除去する。

The transformer architecture is ubiquitously used as the building block of most large-scale language models. However, it remains a painstaking guessing game of trial and error to set its myriad of architectural hyperparameters, e.g., number of layers, number of attention heads, and inner size of the feed forward network, and find architectures with the optimal trade-off between task performance like perplexity and compute constraints like memory and latency. This challenge is further exacerbated by the proliferation of various hardware. In this work, we leverage the somewhat surprising empirical observation that the number of non-embedding parameters in autoregressive transformers has a high rank correlation with task performance, irrespective of the architectural hyperparameters. Since architectural hyperparameters affect the latency and memory footprint in a hardware-dependent manner, the above observation organically induces a simple search algorithm that can be directly run on target devices. We rigorously show that the latency and perplexity pareto-frontier can be found without need for any model training, using non-embedding parameters as a proxy for perplexity. We evaluate our method, dubbed Lightweight Transformer Search (LTS), on diverse devices from ARM CPUs to Nvidia GPUs and show that the perplexity of Transformer-XL can be achieved with up to 2x lower latency. LTS extracts the pareto-frontier in less than 3 hours while running on a commodity laptop. We effectively remove the carbon footprint of training for hundreds of GPU hours, offering a strong simple baseline for future NAS methods in autoregressive language modeling.
翻訳日:2022-03-07 23:39:36 公開日:2022-03-04
# (参考訳) サードパーティipコアにおけるハードウェアトロイの木馬検出のためのコンボリューションネットワーク

Contrastive Graph Convolutional Networks for Hardware Trojan Detection in Third Party IP Cores ( http://arxiv.org/abs/2203.02095v1 )

ライセンス: CC BY 4.0
Nikhil Muralidhar, Abdullah Zubair, Nathanael Weidler, Ryan Gerdes and Naren Ramakrishnan(参考訳) 広帯域のサードパーティの知的財産(3PIP)コアを使用することで、集積回路(IC)設計者はASIC/SoCの高レベル機能の設計に集中することができる。 ICの急増により、さまざまな悪質な理由でこれらの回路を活用しようとする悪質なアクターが増えている。 集積回路が社会のあらゆる側面に影響を与えるので、これは驚くべきことではない。 したがって、悪意あるロジック(Hardware Trojans, HT)が信頼できないベンダーによってIC設計で使用される3PIPコアに過剰に注入されることは、常に脅威である。 本稿では, 黄金モデルのない合成可能なIPコアを含む設計において, トリガーベースHTの同定方法を検討する。 具体的には,ベンダから取得したnetlistに基づいて,icに埋め込まれたトリガを検出することで,ハードウェアトロイの木馬を検出する手法を開発した。 本稿では,教師付きコントラスト学習を用いて学習したグラフ畳み込みネットワーク(gcn)に基づくディープラーニングモデルgate-netを提案する。 提案アーキテクチャは, 組換えトリガの検出性能が平均46.99%向上し, シーケンシャルトリガの21.91%向上した。 厳密な実験,質的,定量的な性能評価を通じて,GATE-Netの有効性と,HT検出のためのGATE-Netの教師付きコントラストトレーニングを示す。

The availability of wide-ranging third-party intellectual property (3PIP) cores enables integrated circuit (IC) designers to focus on designing high-level features in ASICs/SoCs. The massive proliferation of ICs brings with it an increased number of bad actors seeking to exploit those circuits for various nefarious reasons. This is not surprising as integrated circuits affect every aspect of society. Thus, malicious logic (Hardware Trojans, HT) being surreptitiously injected by untrusted vendors into 3PIP cores used in IC design is an ever present threat. In this paper, we explore methods for identification of trigger-based HT in designs containing synthesizable IP cores without a golden model. Specifically, we develop methods to detect hardware trojans by detecting triggers embedded in ICs purely based on netlists acquired from the vendor. We propose GATE-Net, a deep learning model based on graph-convolutional networks (GCN) trained using supervised contrastive learning, for flagging designs containing randomly-inserted triggers using only the corresponding netlist. Our proposed architecture achieves significant improvements over state-of-the-art learning models yielding an average 46.99% improvement in detection performance for combinatorial triggers and 21.91% improvement for sequential triggers across a variety of circuit types. Through rigorous experimentation, qualitative and quantitative performance evaluations, we demonstrate effectiveness of GATE-Net and the supervised contrastive training of GATE-Net for HT detection.
翻訳日:2022-03-07 23:37:56 公開日:2022-03-04
# (参考訳) デュアルブランチネットワークと動的混合擬似ラベルによるscribble-supervised medical image segmentation

Scribble-Supervised Medical Image Segmentation via Dual-Branch Network and Dynamically Mixed Pseudo Labels Supervision ( http://arxiv.org/abs/2203.02106v1 )

ライセンス: CC BY 4.0
Xiangde Luo, Minhao Hu, Wenjun Liao, Shuwei Zhai, Tao Song, Guotai Wang, Shaoting Zhang(参考訳) 医用画像のセグメンテーションは、コンピュータ支援診断、治療計画、フォローアップにおいて、相応の役割を果たす。 大規模なデータセットの収集と注釈付けは強力なセグメンテーションモデルのトレーニングには不可欠だが、高品質なセグメンテーションマスクの生成は高価で時間を要する作業だ。 近年,ネットワークトレーニングにスパースアノテーション(ポイント,スクリブル,バウンディングボックス)を用いた弱い教師付き学習が促進され,アノテーションコスト削減の可能性が示された。 しかし,分散アノテーションの監督信号が限られているため,直接ネットワークトレーニングに使用することは依然として困難である。 本研究では,単純かつ効率的なscribble-supervised image segmentation法を提案し,それを心臓mriセグメンテーションに適用する。 具体的には、1つのエンコーダと2つのわずかに異なるデコーダを備えたデュアルブランチネットワークを用いて画像分割を行い、2つのデコーダの予測を動的に混合し、補助的な監督のために擬似ラベルを生成する。 このスクリブル監視と補助擬似ラベル監視を組み合わせることにより、両ブランチネットワークは、スクリブルアノテーションをエンドツーエンドから効率的に学習することができる。 ACDCデータセットを用いた実験により,本手法は現在のスクリブル制御セグメンテーション法よりも優れた性能を示し,半教師付きセグメンテーション法よりも優れた性能を示した。

Medical image segmentation plays an irreplaceable role in computer-assisted diagnosis, treatment planning, and following-up. Collecting and annotating a large-scale dataset is crucial to training a powerful segmentation model, but producing high-quality segmentation masks is an expensive and time-consuming procedure. Recently, weakly-supervised learning that uses sparse annotations (points, scribbles, bounding boxes) for network training has achieved encouraging performance and shown the potential for annotation cost reduction. However, due to the limited supervision signal of sparse annotations, it is still challenging to employ them for networks training directly. In this work, we propose a simple yet efficient scribble-supervised image segmentation method and apply it to cardiac MRI segmentation. Specifically, we employ a dual-branch network with one encoder and two slightly different decoders for image segmentation and dynamically mix the two decoders' predictions to generate pseudo labels for auxiliary supervision. By combining the scribble supervision and auxiliary pseudo labels supervision, the dual-branch network can efficiently learn from scribble annotations end-to-end. Experiments on the public ACDC dataset show that our method performs better than current scribble-supervised segmentation methods and also outperforms several semi-supervised segmentation methods.
翻訳日:2022-03-07 23:18:23 公開日:2022-03-04
# (参考訳) FS-COCO:コンテクストにおける共通オブジェクトのフリーハンドスケッチ理解に向けて

FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in Context ( http://arxiv.org/abs/2203.02113v1 )

ライセンス: CC BY 4.0
Pinaki Nath Chowdhury and Aneeshan Sain and Yulia Gryaditskaya and Ayan Kumar Bhunia and Tao Xiang and Yi-Zhe Song(参考訳) フリーハンドシーンスケッチの最初のデータセットFS-COCOを用いてスケッチ研究を進めた。 実践的な応用を念頭に置いて,シーン内容の充実したスケッチを収集するが,スケッチスキルのある人なら数分でスケッチできる。 本データセットは,100名の非専門家による1点当たりの空間時間情報付きフリーハンドシーンベクトルスケッチからなる。 各スケッチにはテキスト記述が付加される。 本研究では,このデータセットを用いて,フリーハンドシーンスケッチやスケッチキャプションからのきめ細かな画像検索の問題を初めて検討した。 私たちは洞察を引き出す (i)ストロークの時間順のスケッチにエンコードされたシーンの敬礼 (ii)画像キャプションに対するシーンスケッチからの検索性能の精度 (iii)スケッチ及び画像キャプションにおける情報の相補性、及びこれら2つのモダリティを組み合わせる潜在的メリット さらに、データセットで実現可能な新しいソリューションを提案する。 (i)メタラーニングを採用して,少数のスケッチのみを考慮し,検索モデルを新たなユーザスタイルに微調整する方法を示す。 (ii)従来よりも複雑なスケッチを扱うために,人気のあるベクタースケッチlstmベースのエンコーダを拡張した。 具体的には,スケッチ特有の"pretext"タスクで利用する階層型スケッチデコーダを提案する。 当社のデータセットは,フリーハンドシーンのスケッチ理解とその実用的応用を初めて研究できる。

We advance sketch research to scenes with the first dataset of freehand scene sketches, FS-COCO. With practical applications in mind, we collect sketches that convey well scene content but can be sketched within a few minutes by a person with any sketching skills. Our dataset comprises 10,000 freehand scene vector sketches with per point space-time information by 100 non-expert individuals, offering both object- and scene-level abstraction. Each sketch is augmented with its text description. Using our dataset, we study for the first time the problem of the fine-grained image retrieval from freehand scene sketches and sketch captions. We draw insights on (i) Scene salience encoded in sketches with strokes temporal order; (ii) The retrieval performance accuracy from scene sketches against image captions; (iii) Complementarity of information in sketches and image captions, as well as the potential benefit of combining the two modalities. In addition, we propose new solutions enabled by our dataset (i) We adopt meta-learning to show how the retrieval model can be fine-tuned to a new user style given just a small set of sketches, (ii) We extend a popular vector sketch LSTM-based encoder to handle sketches with larger complexity than was supported by previous work. Namely, we propose a hierarchical sketch decoder, which we leverage at a sketch-specific "pretext" task. Our dataset enables for the first time research on freehand scene sketch understanding and its practical applications.
翻訳日:2022-03-07 23:07:05 公開日:2022-03-04
# (参考訳) adversarial patterns: 堅牢なandroidマルウェア分類器の構築

Adversarial Patterns: Building Robust Android Malware Classifiers ( http://arxiv.org/abs/2203.02121v1 )

ライセンス: CC BY 4.0
Dipkamal Bhusal, Nidhi Rastogi(参考訳) ディープラーニングに基づく分類器は、マルウェアサンプルの認識を大幅に改善した。 しかし、これらの分類器は逆入力摂動に対して脆弱である。 マルウェア分類器の脆弱性は、彼らが防御するプラットフォームに重大な脅威をもたらす。 したがって,マルウェアに対する防御モデルを構築するためには,敵による入力摂動のパターンを理解する必要がある。 本研究は,アンドロイドマルウェア分類器の対人機械学習に関する総合的研究である。 まず,androidマルウェア用機械学習分類器の構築において,画像ベースとテキストに基づく特徴抽出手法の両方をカバーする幅広い背景を示す。 次に,回避攻撃と防衛に関する最先端研究のパターンと進展について検討する。 最後に,ロバストなマルウェア分類器の設計ガイドラインと今後の研究指針を提案する。

Deep learning-based classifiers have substantially improved recognition of malware samples. However, these classifiers can be vulnerable to adversarial input perturbations. Any vulnerability in malware classifiers poses significant threats to the platforms they defend. Therefore, to create stronger defense models against malware, we must understand the patterns in input perturbations caused by an adversary. This survey paper presents a comprehensive study on adversarial machine learning for android malware classifiers. We first present an extensive background in building a machine learning classifier for android malware, covering both image-based and text-based feature extraction approaches. Then, we examine the pattern and advancements in the state-of-the-art research in evasion attacks and defenses. Finally, we present guidelines for designing robust malware classifiers and enlist research directions for the future.
翻訳日:2022-03-07 22:45:51 公開日:2022-03-04
# (参考訳) ソーシャルネットワーク上での攻撃的言語検出:グラフ注意ネットワークに基づくエンドツーエンド検出手法

Detecting Offensive Language on Social Networks: An End-to-end Detection Method based on Graph Attention Networks ( http://arxiv.org/abs/2203.02123v1 )

ライセンス: CC BY-SA 4.0
Zhenxiong Miao, Xingshu Chen, Haizhou Wang, Rui Tang, Zhou Yang, Wenyi Tang(参考訳) ソーシャルネットワーク上での攻撃的言語の普及は、虐待行動などの社会に悪影響を及ぼしている。 攻撃的な言語を検知し、その拡散を抑えることは急務である。 既存の研究によると、コミュニティ構造を持つ手法は攻撃的言語検出の性能を効果的に向上させる。 しかし、既存のモデルはコミュニティ構造を独立に扱うため、検出モデルの有効性に深刻な影響を及ぼす。 本稿では,攻撃的言語検出(CT-OLD)のためのコミュニティ構造とテキスト特徴に基づくエンドツーエンド手法を提案する。 具体的には、コミュニティ構造の特徴をグラフ注意ネットワーク層で直接キャプチャし、BERTの最後の隠蔽層からテキスト埋め込みを取り出す。 注意機構と位置符号化はこれらの特徴を融合するために使用される。 一方、ユーザの特徴を表現するために、コミュニティ構造にユーザ意見を追加する。 ユーザの意見は、ユーザの履歴行動情報で表現され、テキスト情報で表現される情報よりも優れています。 以上の点に加えて、ユーザとツイートの分布は一般的なデータセットでは不均衡であり、モデルの一般化能力を制限している。 この問題に対処するため、適切なユーザ分布を持つデータセットを構築し、リリースする。 F1スコア89.94%でベースラインを上回りました。 その結果, エンド・ツー・エンドのモデルでは, コミュニティ構造やテキストの潜在的な情報を効果的に学習し, ユーザの過去の行動情報は, ユーザの意見表現により適していることがわかった。

The pervasiveness of offensive language on the social network has caused adverse effects on society, such as abusive behavior online. It is urgent to detect offensive language and curb its spread. Existing research shows that methods with community structure features effectively improve the performance of offensive language detection. However, the existing models deal with community structure independently, which seriously affects the effectiveness of detection models. In this paper, we propose an end-to-end method based on community structure and text features for offensive language detection (CT-OLD). Specifically, the community structure features are directly captured by the graph attention network layer, and the text embeddings are taken from the last hidden layer of BERT. Attention mechanisms and position encoding are used to fuse these features. Meanwhile, we add user opinion to the community structure for representing user features. The user opinion is represented by user historical behavior information, which outperforms that represented by text information. Besides the above point, the distribution of users and tweets is unbalanced in the popular datasets, which limits the generalization ability of the model. To address this issue, we construct and release a dataset with reasonable user distribution. Our method outperforms baselines with the F1 score of 89.94%. The results show that the end-to-end model effectively learns the potential information of community structure and text, and user historical behavior information is more suitable for user opinion representation.
翻訳日:2022-03-07 22:44:58 公開日:2022-03-04
# (参考訳) $\phi$-divergences を用いた分布ロバストベイズ最適化

Distributionally Robust Bayesian Optimization with $\phi$-divergences ( http://arxiv.org/abs/2203.02128v1 )

ライセンス: CC BY 4.0
Hisham Husain and Vu Nguyen and Anton van den Hengel(参考訳) 堅牢性の研究は、多くのシステムが不確実性に直面するデータ駆動環境において必然性のため、多くの注目を集めている。 そのような問題の一つがベイズ最適化 (BO) であり、不確実性は多面的であるが、この方向に特化した研究は限られている。 特に、Kirschner et al. (2020) は、DROのレンズからBO問題をキャストすることで、既存の分散ロバスト最適化(DRO)の文献を橋渡しする。 この研究は先駆的だが、有限文脈仮定のような様々な現実的な欠点に悩まされており、主要な疑問を残している。 本研究では,$\phi$-divergences におけるデータシフトに対するロバスト性を検討することで,この問題に多くの一般性に取り組み,$\chi^2$-divergence や total variation, 現存する kullback-leibler (kl) の分岐など,多くの一般的な選択肢を仮定した。 この設定におけるDRO-BO問題は有限次元最適化問題と等価であり、連続的な文脈でも証明可能な部分線型後悔境界で容易に実装できることを示す。 実験により,提案手法が既存の手法を超越し,理論的結果が得られたことを示す。

The study of robustness has received much attention due to its inevitability in data-driven settings where many systems face uncertainty. One such example of concern is Bayesian Optimization (BO), where uncertainty is multi-faceted, yet there only exists a limited number of works dedicated to this direction. In particular, there is the work of Kirschner et al. (2020), which bridges the existing literature of Distributionally Robust Optimization (DRO) by casting the BO problem from the lens of DRO. While this work is pioneering, it admittedly suffers from various practical shortcomings such as finite contexts assumptions, leaving behind the main question Can one devise a computationally tractable algorithm for solving this DRO-BO problem? In this work, we tackle this question to a large degree of generality by considering robustness against data-shift in $\phi$-divergences, which subsumes many popular choices, such as the $\chi^2$-divergence, Total Variation, and the extant Kullback-Leibler (KL) divergence. We show that the DRO-BO problem in this setting is equivalent to a finite-dimensional optimization problem which, even in the continuous context setting, can be easily implemented with provable sublinear regret bounds. We then show experimentally that our method surpasses existing methods, attesting to the theoretical results
翻訳日:2022-03-07 22:18:12 公開日:2022-03-04
# (参考訳) パンオプティカルセグメンテーションによるlidarに基づく3次元物体検出のための多目的多視点フレームワーク

A Versatile Multi-View Framework for LiDAR-based 3D Object Detection with Guidance from Panoptic Segmentation ( http://arxiv.org/abs/2203.02133v1 )

ライセンス: CC BY-SA 4.0
Hamidreza Fazlali, Yixuan Xu, Yuan Ren, Bingbing Liu(参考訳) LiDARデータを用いた3Dオブジェクト検出は、自動運転システムにとって必須のコンポーネントである。 しかし,LiDARをベースとした3Dオブジェクト検出手法では,セグメンテーション情報を利用して検出プロセスのガイドを行う。 本稿では,3次元物体検出と汎視セグメンテーションを共同で行うマルチタスクフレームワークを提案する。 本研究では,Bird's-Eye-View (BEV) 平面の3次元物体検出バックボーンを,3次元パノプティカルセグメンテーションバックボーンからのレンジビュー (RV) 特徴写像の注入により拡張する。 これにより、検出バックボーンはマルチビュー情報を利用して、各プロジェクションビューの欠点に対処することができる。 さらに、特徴マップ内の各オブジェクトクラスの位置をハイライトすることにより、前景の意味情報を組み込んで検出作業を容易にする。 最後に、インスタンスレベルの情報に基づいて生成された新しいセンター密度ヒートマップは、オブジェクトのボックスセンター位置を示唆することで、検出バックボーンをさらに導く。 提案手法は,任意のBEVベースの3Dオブジェクト検出手法で動作し,nuScenesデータセットの広範な実験によって示されるように,性能が大幅に向上する。 特に,シングルステージのCenterPoint 3Dオブジェクト検出ネットワークに基づく提案手法は,67.3 NDSを用いたnuScenes 3D Detection Benchmarkで最先端の性能を達成した。

3D object detection using LiDAR data is an indispensable component for autonomous driving systems. Yet, only a few LiDAR-based 3D object detection methods leverage segmentation information to further guide the detection process. In this paper, we propose a novel multi-task framework that jointly performs 3D object detection and panoptic segmentation. In our method, the 3D object detection backbone in Bird's-Eye-View (BEV) plane is augmented by the injection of Range-View (RV) feature maps from the 3D panoptic segmentation backbone. This enables the detection backbone to leverage multi-view information to address the shortcomings of each projection view. Furthermore, foreground semantic information is incorporated to ease the detection task by highlighting the locations of each object class in the feature maps. Finally, a new center density heatmap generated based on the instance-level information further guides the detection backbone by suggesting possible box center locations for objects. Our method works with any BEV-based 3D object detection method, and as shown by extensive experiments on the nuScenes dataset, it provides significant performance gains. Notably, the proposed method based on a single-stage CenterPoint 3D object detection network achieved state-of-the-art performance on nuScenes 3D Detection Benchmark with 67.3 NDS.
翻訳日:2022-03-07 21:50:08 公開日:2022-03-04
# (参考訳) 閉ループ慣性勾配ダイナミクスの解析

Analysis of closed-loop inertial gradient dynamics ( http://arxiv.org/abs/2203.02140v1 )

ライセンス: CC BY 4.0
Subhransu S. Bhattacharjee and Ian R. Petersen(参考訳) 本稿では,l$-smooth 凸コスト関数に対する閉ループホイップラッシュ勾配降下アルゴリズムの性能解析を行う。 数値実験を用いて,異なる条件数に対する凸コスト関数に対するアルゴリズムの性能について検討した。 シンプレクティック積分を用いて運動量列の収束を解析し、ウィップラッシュ法の非古典的性質を解析した緩和列の概念を導入する。 さらなる凸性の仮定の下で、モーメント駆動適応収束速度を確立する。 さらに, 閉ループ慣性勾配ダイナミクスに対する凸コスト関数を用いた収束率を, 積分アンカーエネルギー関数と新しい下界漸近記法を用いて予測するエネルギー法を提案する。 これを用いて, スカラー二次コスト関数の族に対して, ウィップラッシュ慣性勾配系の多項式収束率と二次スカラーコスト関数に対する指数速度を定式化する。

In this paper, we analyse the performance of the closed-loop Whiplash gradient descent algorithm for $L$-smooth convex cost functions. Using numerical experiments, we study the algorithm's performance for convex cost functions, for different condition numbers. We analyse the convergence of the momentum sequence using symplectic integration and introduce the concept of relaxation sequences which analyses the non-classical character of the whiplash method. Under the additional assumption of invexity, we establish a momentum-driven adaptive convergence rate. Furthermore, we introduce an energy method for predicting the convergence rate with convex cost functions for closed-loop inertial gradient dynamics, using an integral anchored energy function and a novel lower bound asymptotic notation, by exploiting the bounded nature of the solutions. Using this, we establish a polynomial convergence rate for the whiplash inertial gradient system, for a family of scalar quadratic cost functions and an exponential rate for a quadratic scalar cost function.
翻訳日:2022-03-07 21:36:36 公開日:2022-03-04
# (参考訳) PatchMVSNet:弱表面再構成のためのパッチワイズ非教師付きマルチビューステレオ

PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for Weakly-Textured Surface Reconstruction ( http://arxiv.org/abs/2203.02156v1 )

ライセンス: CC BY 4.0
Haonan Dong, Jian Yao(参考訳) 学習ベースマルチビューステレオ(MVS)は,一般的なデータセットに対して微細に再構成されている。 しかし、教師あり学習法は、特に大規模データセットでは収集が難しいトレーニングのための基礎的真理を必要とする。 近年では教師なし学習法が提案され、満足度の高い結果が得られたが、これらの手法は様々な照明を受ける画素単位の光度整合性に依存するため、弱テクスチャ面などの難解な場面において、相変わらず再現に失敗している。 そこで本研究では,多視点画像下での制約を活かしたロバストな損失関数を提案する。 1) 多視点類似度測定における特徴の受容場を拡大するパッチワイド光度整合損失。 2) ロバストな2ビュー幾何一貫性:最小のオクルージョンによるクロスビュー深度の一貫性チェックを含む。 教師なし戦略は任意の深さ推定フレームワークで実装でき、任意の大規模なmvsデータセットでトレーニングできます。 実験の結果,提案手法は一致したあいまいさを低減し,特に弱テクスチャ復元の完全性を向上させることができることがわかった。 さらに,本手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。 コードはまもなくリリースされる。

Learning-based multi-view stereo (MVS) has gained fine reconstructions on popular datasets. However, supervised learning methods require ground truth for training, which is hard to be collected, especially for the large-scale datasets. Though nowadays unsupervised learning methods have been proposed and have gotten gratifying results, those methods still fail to reconstruct intact results in challenging scenes, such as weakly-textured surfaces, as those methods primarily depend on pixel-wise photometric consistency which is subjected to various illuminations. To alleviate matching ambiguity in those challenging scenes, this paper proposes robust loss functions leveraging constraints beneath multi-view images: 1) Patch-wise photometric consistency loss, which expands the receptive field of the features in multi-view similarity measuring, 2) Robust twoview geometric consistency, which includes a cross-view depth consistency checking with the minimum occlusion. Our unsupervised strategy can be implemented with arbitrary depth estimation frameworks and can be trained with arbitrary large-scale MVS datasets. Experiments show that our method can decrease the matching ambiguity and particularly improve the completeness of weakly-textured reconstruction. Moreover, our method reaches the performance of the state-of-the-art methods on popular benchmarks, like DTU, Tanks and Temples and ETH3D. The code will be released soon.
翻訳日:2022-03-07 21:18:10 公開日:2022-03-04
# (参考訳) コミュニケーションの観点からの学習画像圧縮における変換

Transformations in Learned Image Compression from a Communication Perspective ( http://arxiv.org/abs/2203.02158v1 )

ライセンス: CC BY 4.0
Youneng Bao, Fangyang Meng, Wen Tan, Chao Li, Yonghong Tian and Yongsheng Liang(参考訳) 本稿では,コミュニケーションの観点から,学習画像圧縮(lic)における統一変換法を提案する。 第一に、licの量子化は加法的一様雑音を持つ一般化されたチャネルと見なされる。 さらに、構造と最適化目的の一貫性に応じて、licを特定の通信システムとして解釈する。 したがって、通信システムの技術は、モジュールの設計をlicでガイドするために応用できる。 さらに、信号変調(TSM)に基づく統一変換法を定義する。 tsmの観点からは、既存の変換法は線形変調に数学的に還元される。 TPMやTJMといった一連の変換法は、非線形変調に拡張することで得られる。 各種データセットおよびバックボーンアーキテクチャの実験結果から,提案手法の有効性とロバスト性を検証した。 さらに重要なことは、コミュニケーションの観点からlic設計を導く可能性をさらに確認することである。 例えば、バックボーンアーキテクチャがハイパープリオ結合コンテキストモデルである場合、複雑さを増すことなく、kodakデータセット上のgdnよりも3.52$\%$ bdレートの削減を達成します。

In this paper, a unified transformation method in learned image compression(LIC) is proposed from the perspective of communication. Firstly, the quantization in LIC is considered as a generalized channel with additive uniform noise. Moreover, the LIC is interpreted as a particular communication system according to the consistency in structures and optimization objectives. Thus, the technology of communication systems can be applied to guide the design of modules in LIC. Furthermore, a unified transform method based on signal modulation (TSM) is defined. In the view of TSM, the existing transformation methods are mathematically reduced to a linear modulation. A series of transformation methods, e.g. TPM and TJM, are obtained by extending to nonlinear modulation. The experimental results on various datasets and backbone architectures verify that the effectiveness and robustness of the proposed method. More importantly, it further confirms the feasibility of guiding LIC design from a communication perspective. For example, when backbone architecture is hyperprior combining context model, our method achieves 3.52$\%$ BD-rate reduction over GDN on Kodak dataset without increasing complexity.
翻訳日:2022-03-07 21:03:51 公開日:2022-03-04
# (参考訳) MF-Hovernet:CoNiC(Colon Nuclei Identification and Counting)チャレンジのためのHovernetの拡張

MF-Hovernet: An Extension of Hovernet for Colon Nuclei Identification and Counting (CoNiC) Challenge ( http://arxiv.org/abs/2203.02161v1 )

ライセンス: CC BY 4.0
Vi Thi-Tuong Vo, Soo-Hyung Kim and Taebum Lee(参考訳) 核の同定と数え上げは、癌、特に結腸の最も重要な形態学的特徴である。 この問題に対処するために,多くのディープラーニングに基づく手法が提案されている。 本研究では,MF-Hovernetという問題に対処するために,核同定とカウントのためのHovernetの拡張を構築する。 提案するモデルは,複数のファイルシステムブロックとhovernetアーキテクチャの組み合わせである。 その結果,マルチフィルタブロックの効率が向上し,ホバーネットモデルの性能が向上した。

Nuclei Identification and Counting is the most important morphological feature of cancers, especially in the colon. Many deep learning-based methods have been proposed to deal with this problem. In this work, we construct an extension of Hovernet for nuclei identification and counting to address the problem named MF-Hovernet. Our proposed model is the combination of multiple filer block to Hovernet architecture. The current result shows the efficiency of multiple filter block to improve the performance of the original Hovernet model.
翻訳日:2022-03-07 20:48:56 公開日:2022-03-04
# (参考訳) 反復ニューラルネットワークのエンドツーエンド学習による畳み込み解析演算子学習

Convolutional Analysis Operator Learning by End-To-End Training of Iterative Neural Networks ( http://arxiv.org/abs/2203.02166v1 )

ライセンス: CC BY 4.0
Andreas Kofler, Christian Wald, Tobias Schaeffter, Markus Haltmeier, Christoph Kolbitsch(参考訳) スパーシティの概念は画像再構成の規則化に広く応用されている。 通常、スパース化変換は地上画像で事前訓練されるか、復元中に適応的に訓練される。 したがって、学習アルゴリズムは変換の所望の特性を符号化する対象関数を最小化するように設計されている。 しかし、この手順は、その後の再構成アルゴリズムや、画像形成プロセスに責任を持つ物理モデルを無視している。 物理モデルを含む反復ニューラルネットワークは、これらの問題を克服することができる。 本稿では,反復型ニューラルネットワークのエンドツーエンドトレーニングにより,畳み込みスパルサイゼーションフィルタが効率的に学習できることを示す。 本研究は,非カルテ系2次元心臓シネmri例に対するアプローチを評価し,得られたフィルタが分離前訓練法よりも対応する再構成アルゴリズムに適していることを示した。

The concept of sparsity has been extensively applied for regularization in image reconstruction. Typically, sparsifying transforms are either pre-trained on ground-truth images or adaptively trained during the reconstruction. Thereby, learning algorithms are designed to minimize some target function which encodes the desired properties of the transform. However, this procedure ignores the subsequently employed reconstruction algorithm as well as the physical model which is responsible for the image formation process. Iterative neural networks - which contain the physical model - can overcome these issues. In this work, we demonstrate how convolutional sparsifying filters can be efficiently learned by end-to-end training of iterative neural networks. We evaluated our approach on a non-Cartesian 2D cardiac cine MRI example and show that the obtained filters are better suitable for the corresponding reconstruction algorithm than the ones obtained by decoupled pre-training.
翻訳日:2022-03-07 20:44:22 公開日:2022-03-04
# (参考訳) SimKGC: 事前学習言語モデルによる単純なコントラスト知識グラフ補完

SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models ( http://arxiv.org/abs/2203.02167v1 )

ライセンス: CC BY 4.0
Liang Wang, Wei Zhao, Zhuoyu Wei, Jingming Liu(参考訳) 知識グラフ補完(KGC)は、既知の事実を推論し、欠落したリンクを推測することを目的としている。 KGBERT (Yao et al., 2019)のようなテキストベースの手法は、自然言語の記述から実体表現を学習し、帰納的KGCの可能性を秘めている。 しかし、テキストベースの手法の性能は、TransE (Bordes et al., 2013) やRotatE (Sun et al., 2019b) のようなグラフ埋め込み方式に大きく遅れている。 本稿では,効率的なコントラスト学習が鍵となる課題を明らかにする。 学習効率を向上させるために,本研究では, ハードネガティブの単純な形式として機能する, 内バッチ陰性, 前バッチ陰性, 自己負の3種類の負を導入する。 InfoNCEの損失と組み合わせることで、提案モデルSimKGCは、いくつかのベンチマークデータセット上の埋め込みベースのメソッドを大幅に上回ることができる。 平均相互ランク(MRR)に関しては、WN18RRでは+19%、Wikidata5Mでは+6.8%、Wikidata5Mでは+22%である。 各コンポーネントに関する洞察を得るために、詳細な分析が行われる。 私たちのコードはhttps://github.com/intfloat/SimKGCで利用可能です。

Knowledge graph completion (KGC) aims to reason over known facts and infer the missing links. Text-based methods such as KGBERT (Yao et al., 2019) learn entity representations from natural language descriptions, and have the potential for inductive KGC. However, the performance of text-based methods still largely lag behind graph embedding-based methods like TransE (Bordes et al., 2013) and RotatE (Sun et al., 2019b). In this paper, we identify that the key issue is efficient contrastive learning. To improve the learning efficiency, we introduce three types of negatives: in-batch negatives, pre-batch negatives, and self-negatives which act as a simple form of hard negatives. Combined with InfoNCE loss, our proposed model SimKGC can substantially outperform embedding-based methods on several benchmark datasets. In terms of mean reciprocal rank (MRR), we advance the state-of-the-art by +19% on WN18RR, +6.8% on the Wikidata5M transductive setting, and +22% on the Wikidata5M inductive setting. Thorough analyses are conducted to gain insights into each component. Our code is available at https://github.com/intfloat/SimKGC .
翻訳日:2022-03-07 20:34:43 公開日:2022-03-04
# (参考訳) ニューラルシミュレートアニーリング

Neural Simulated Annealing ( http://arxiv.org/abs/2203.02201v1 )

ライセンス: CC BY 4.0
Alvaro H.C. Correia, Daniel E. Worrall, Roberto Bondesan(参考訳) Simulated annealing (SA) は、様々な離散変数および連続変数問題に適用可能な確率的大域最適化手法である。 その単純さにもかかわらず、ある問題に対する効果的なsaオプティマイザーの開発は、いくつかの慎重に選択されたコンポーネント、すなわち近隣の提案分布と温度アニーリングスケジュールにかかっている。 本研究では,強化学習の観点からsaを考察し,固定的な計算予算を考慮すれば,より高い解質に最適化可能な方針として提案分布の枠組みを提案する。 このような学習可能なプロポーザル分布を持つニューラルネットワークsaは,小さな等価ニューラルネットワークによってモデル化され,ローゼンブロック関数,ナップサック問題,ビンパッキング問題,トラベルセールスパーソン問題などの問題に対するsaベースラインを上回っている。 また、Neural SAは、トレーニング中に見られる問題よりもはるかに大きな問題に一般化すると同時に、ソリューションの品質と壁時計時間の観点から、一般的なオフザシェルフソルバやその他の機械学習手法に匹敵するパフォーマンスを実現しています。

Simulated annealing (SA) is a stochastic global optimisation technique applicable to a wide range of discrete and continuous variable problems. Despite its simplicity, the development of an effective SA optimiser for a given problem hinges on a handful of carefully handpicked components; namely, neighbour proposal distribution and temperature annealing schedule. In this work, we view SA from a reinforcement learning perspective and frame the proposal distribution as a policy, which can be optimised for higher solution quality given a fixed computational budget. We demonstrate that this Neural SA with such a learnt proposal distribution, parametrised by small equivariant neural networks, outperforms SA baselines on a number of problems: Rosenbrock's function, the Knapsack problem, the Bin Packing problem, and the Travelling Salesperson problem. We also show that Neural SA scales well to large problems - generalising to significantly larger problems than the ones seen during training - while achieving comparable performance to popular off-the-shelf solvers and other machine learning methods in terms of solution quality and wall-clock time.
翻訳日:2022-03-07 20:13:14 公開日:2022-03-04
# (参考訳) 医用画像解析のためのディープラーニングモデル選択とトレーニングのためのカーボンフットプリント

Carbon Footprint of Selecting and Training Deep Learning Models for Medical Image Analysis ( http://arxiv.org/abs/2203.02202v1 )

ライセンス: CC BY 4.0
Raghavendra Selvan, Nikhil Bhagwat, Lasse F. Wolff Anthony, Benjamin Kanding, Erik B. Dam(参考訳) 計算要求の増加によるエネルギー消費の増加と深層学習(DL)の炭素フットプリントが問題となっている。 本研究では,高空間解像度の容積画像を扱う医療画像解析(MIA)用DLモデルの開発において,カーボンフットプリントに着目した。 本研究では,DLの炭素フットプリントを定量化するために,文献からの4つのツールの特徴を提示し,比較した。 これらのツールの1つを用いて、医療画像セグメンテーションパイプラインの炭素フットプリントを推定する。 医療画像セグメンテーションパイプラインのプロキシとしてnnU-netを選択し、3つの共通のデータセットで実験する。 当社では、MIAによるエネルギーコストの増大について報告したい。 モデル選択とトレーニングプロセスをより効率的にするための環境影響を削減するための簡単な戦略について論じる。

The increasing energy consumption and carbon footprint of deep learning (DL) due to growing compute requirements has become a cause of concern. In this work, we focus on the carbon footprint of developing DL models for medical image analysis (MIA), where volumetric images of high spatial resolution are handled. In this study, we present and compare the features of four tools from literature to quantify the carbon footprint of DL. Using one of these tools we estimate the carbon footprint of medical image segmentation pipelines. We choose nnU-net as the proxy for a medical image segmentation pipeline and experiment on three common datasets. With our work we hope to inform on the increasing energy costs incurred by MIA. We discuss simple strategies to cut-down the environmental impact that can make model selection and training processes more efficient.
翻訳日:2022-03-07 19:44:17 公開日:2022-03-04
# (参考訳) 誤差付き近似勾配アルゴリズムのためのシャーパ境界

Sharper Bounds for Proximal Gradient Algorithms with Errors ( http://arxiv.org/abs/2203.02204v1 )

ライセンス: CC BY 4.0
Anis Hamadouche, Yun Wu, Andrew M. Wallace, Joao F. C. Mota(参考訳) 凸複合問題に対する近位勾配アルゴリズムの収束度を、勾配と近位計算の不正確さの存在下で解析する。 我々は, 減算機で解くシミュレーション(mpc)と合成(lasso)最適化問題と不正確な近距離演算子とを組み合わせることで, 新たな厳密な決定論的, 確率的境界を導出する。 また,確率的境界がアルゴリズム検証に対してより堅牢であり,アプリケーション性能の保証がより正確であることを示す。 いくつかの統計的仮定の下では、累積誤差項がマーチンゲールの性質に従うことも証明する。 そして、例えば \cite{schmidt2011convergence} では、アルゴリズムの加速がどのように勾配と近位計算誤差を増幅するかを示す。

We analyse the convergence of the proximal gradient algorithm for convex composite problems in the presence of gradient and proximal computational inaccuracies. We derive new tighter deterministic and probabilistic bounds that we use to verify a simulated (MPC) and a synthetic (LASSO) optimization problems solved on a reduced-precision machine in combination with an inaccurate proximal operator. We also show how the probabilistic bounds are more robust for algorithm verification and more accurate for application performance guarantees. Under some statistical assumptions, we also prove that some cumulative error terms follow a martingale property. And conforming to observations, e.g., in \cite{schmidt2011convergence}, we also show how the acceleration of the algorithm amplifies the gradient and proximal computational errors.
翻訳日:2022-03-07 19:33:11 公開日:2022-03-04
# (参考訳) Look\&Listen: アクティブ話者検出と音声強調のためのマルチモーダル相関学習

Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement ( http://arxiv.org/abs/2203.02216v1 )

ライセンス: CC BY 4.0
Junwen Xiong, Yu Zhou, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha(参考訳) アクティブな話者検出と音声強調は、音声と視覚のシナリオ理解において、ますます魅力的なトピックとなっている。 それぞれの特徴により、独立設計アーキテクチャのスキームは個々のタスクに対応して広く使われている。 これは、学習された特徴表現がタスク固有であり、必然的にマルチモーダルモデリングに基づく特徴の一般化能力の欠如につながる可能性がある。 近年の研究では、聴覚と視覚ストリームの相互関係を確立することが、マルチタスク学習の課題に対して有望な解決策であることが示されている。 そこで本研究では,マルチモーダル・クロスアテンションを橋渡しするモチベーションとして,ターゲット話者検出と音声強調を実現するための統合フレームワークADENetを提案する。

Active speaker detection and speech enhancement have become two increasingly attractive topics in audio-visual scenario understanding. According to their respective characteristics, the scheme of independently designed architecture has been widely used in correspondence to each single task. This may lead to the learned feature representation being task-specific, and inevitably result in the lack of generalization ability of the feature based on multi-modal modeling. More recent studies have shown that establishing cross-modal relationship between auditory and visual stream is a promising solution for the challenge of audio-visual multi-task learning. Therefore, as a motivation to bridge the multi-modal cross-attention, in this work, a unified framework ADENet is proposed to achieve target speaker detection and speech enhancement with joint learning of audio-visual modeling.
翻訳日:2022-03-07 19:31:53 公開日:2022-03-04
# (参考訳) 意思決定における感情の定量化

Quantification of emotions in decision making ( http://arxiv.org/abs/2203.02217v1 )

ライセンス: CC BY 4.0
V.I. Yukalov(参考訳) 選択肢間の選択における感情の定量化の問題を考える。 代替案は双対的に評価される。 他方から、それらは各選択肢の効用を定義する合理的な特徴によって特徴づけられる。 他方から、選択は、代替品を魅力的、反発的、快楽、不快と分類する感情に影響される。 意思決定者は、これらの機能、代替品の有用性、魅力の両方を考慮して選択する必要がある。 実用性の概念は合理的な根拠に基づいているが、魅力の概念は曖昧であり、むしろ不合理な感情に基づいている。 合理的特徴と感情的特徴を組み合わせた選択を定量化するための一般的な方法について述べる。 感情は正確な定量化を避けているように見えるが、それらの定量的評価は集約レベルで可能である。 一連の経験的データの分析は、標準的な期待実用理論では処理できない現実的な行動問題を含む、アプローチの効率を示す。

The problem of quantification of emotions in the choice between alternatives is considered. The alternatives are evaluated in a dual manner. From one side, they are characterized by rational features defining the utility of each alternative. From the other side, the choice is affected by emotions labeling the alternatives as attractive or repulsive, pleasant or unpleasant. A decision maker needs to make a choice taking into account both these features, the utility of alternatives and their attractiveness. The notion of utility is based on rational grounds, while the notion of attractiveness is vague and rather is based on irrational feelings. A general method, allowing for the quantification of the choice combining rational and emotional features is described. Despite that emotions seem to avoid precise quantification, their quantitative evaluation is possible at the aggregate level. The analysis of a series of empirical data demonstrates the efficiency of the approach, including the realistic behavioral problems that cannot be treated by the standard expected utility theory.
翻訳日:2022-03-07 19:12:33 公開日:2022-03-04
# (参考訳) OPAL:教師なし光場間隔推定のための閉塞パターン認識損失

OPAL: Occlusion Pattern Aware Loss for Unsupervised Light Field Disparity Estimation ( http://arxiv.org/abs/2203.02231v1 )

ライセンス: CC BY 4.0
Peng Li, Jiayin Zhao, Jingyao Wu, Chao Deng, Haoqian Wang and Tao Yu(参考訳) 光場差の推定は、様々な応用を伴うコンピュータビジョンにおいて必須のタスクである。 教師付き学習に基づく手法は,従来の最適化手法よりも精度と効率の両面を達成しているが,基礎的真相の差が捉え難い実世界のシナリオでは,総合的な一般化性能が制限されている。 本稿では,教師なし手法は,教師なし手法よりもはるかに高い一般化能力と効率性を実現することができると論じる。 具体的にはOcclusion Pattern Aware Loss(OPAL)という,光電場固有の一般的な閉塞パターンを抽出して符号化し,損失計算を行う。 OPAL 対応 一 厳密な情報を訓練に使わずに、効果的に閉塞処理を行うことによる正確で堅牢な推定 二 正確な推論に必要なネットワークパラメータを著しく削減し、非常に効率的な性能 さらに,より正確な結果を得るために,トランスベースネットワークとリファインメントモジュールを提案する。 大規模な実験により,SOTAの教師なし手法と比較して精度が向上するだけでなく,教師付き手法と比較して実世界のデータにおいても高い一般化能力を有することが示された。 私たちのコードは公開されます。

Light field disparity estimation is an essential task in computer vision with various applications. Although supervised learning-based methods have achieved both higher accuracy and efficiency than traditional optimization-based methods, the dependency on ground-truth disparity for training limits the overall generalization performance not to say for real-world scenarios where the ground-truth disparity is hard to capture. In this paper, we argue that unsupervised methods can achieve comparable accuracy, but, more importantly, much higher generalization capacity and efficiency than supervised methods. Specifically, we present the Occlusion Pattern Aware Loss, named OPAL, which successfully extracts and encodes the general occlusion patterns inherent in the light field for loss calculation. OPAL enables i) accurate and robust estimation by effectively handling occlusions without using any ground-truth information for training and ii) much efficient performance by significantly reducing the network parameters required for accurate inference. Besides, a transformer-based network and a refinement module are proposed for achieving even more accurate results. Extensive experiments demonstrate our method not only significantly improves the accuracy compared with the SOTA unsupervised methods, but also possesses strong generalization capacity, even for real-world data, compared with supervised methods. Our code will be made publicly available.
翻訳日:2022-03-07 19:11:37 公開日:2022-03-04
# (参考訳) IISERB Brains at SemEval 2022 Task 6: A Deep-learning Framework to Identended Sarcasm in English

IISERB Brains at SemEval 2022 Task 6: A Deep-learning Framework to Identify Intended Sarcasm in English ( http://arxiv.org/abs/2203.02244v1 )

ライセンス: CC BY 4.0
Tanuj Singh Shekhawat, Manoj Kumar, Udaybhan Rathore, Aditya Joshi, Jasabanta Patro(参考訳) 本稿では,SemEval 2022 Task 6 コンペティションに対して,我々のチーム "IISERBBrains" が提出したシステムアーキテクチャとモデルについて述べる。 英語データセットに浮かぶ3つのサブタスクすべてに挑戦しました。 リーダーボードでは、wegot19がサブタスクで43位、サブタスクで8位、サブタスクbで13位、サブタスクで16位にランクインした。 提出した結果とモデルを別にして,主催者が評価データのゴールドラベルを公表し,実験により得られた他のモデルと結果を報告する。

This paper describes the system architectures and the models submitted by our team "IISERBBrains" to SemEval 2022 Task 6 competition. We contested for all three sub-tasks floated for the English dataset. On the leader-board, wegot19th rank out of43 teams for sub-taskA, the 8th rank out of22 teams for sub-task B,and13th rank out of 16 teams for sub-taskC. Apart from the submitted results and models, we also report the other models and results that we obtained through our experiments after organizers published the gold labels of their evaluation data
翻訳日:2022-03-07 18:59:13 公開日:2022-03-04
# (参考訳) 決定経路付きランキングモデルへの学習の局所モデル非依存的説明の評価

Evaluating Local Model-Agnostic Explanations of Learning to Rank Models with Decision Paths ( http://arxiv.org/abs/2203.02295v1 )

ライセンス: CC BY 4.0
Amir Hossein Akhavan Rahnama, Judith Butepage(参考訳) LTRモデル(Learning-to-rank)モデルの局所的な説明は、LTRモデルによって予測される1つのデータポイントのランキングに寄与する最も重要な特徴を抽出すると考えられている。 これらの説明の正確さを評価することは、現代のほとんどのLTRモデルでは、基礎的真理特徴重要度スコアが利用できないため困難である。 本研究では,LTRモデルの説明のための体系的評価手法を提案する。 ニューラルネットワークのようなブラックボックスモデルを使う代わりに、木に基づくLTRモデルに焦点をあてて、決定経路を用いて真実の特徴的重要度を抽出することを提案する。 一度抽出すると、基礎的真理特徴重要度スコアと説明手法で生成された特徴重要度スコアを直接比較できる。 我々は、最近提案された2つのLTRモデルの説明手法を比較し、MQ2008データセット上の決定木と勾配向上モデルを用いてそれらをベンチマークした。 いずれの手法も、選択された類似度指標がAUCスコアまたはスピアマンのランク相関である場合に、許容できる説明精度を達成できないことを示す。

Local explanations of learning-to-rank (LTR) models are thought to extract the most important features that contribute to the ranking predicted by the LTR model for a single data point. Evaluating the accuracy of such explanations is challenging since the ground truth feature importance scores are not available for most modern LTR models. In this work, we propose a systematic evaluation technique for explanations of LTR models. Instead of using black-box models, such as neural networks, we propose to focus on tree-based LTR models, from which we can extract the ground truth feature importance scores using decision paths. Once extracted, we can directly compare the ground truth feature importance scores to the feature importance scores generated with explanation techniques. We compare two recently proposed explanation techniques for LTR models and benchmark them using decision trees and gradient boosting models on the MQ2008 dataset. We show that neither of the explanation techniques can achieve an acceptable explanation accuracy when the chosen similarity metric is AUC score or Spearman's rank correlation.
翻訳日:2022-03-07 18:51:35 公開日:2022-03-04
# (参考訳) 潜在的介入による因果発見

Differentiable Causal Discovery Under Latent Interventions ( http://arxiv.org/abs/2203.02336v1 )

ライセンス: CC BY 4.0
Gon\c{c}alo R. A. Faria, Andr\'e F. T. Martins, M\'ario A. T. Figueiredo(参考訳) 最近の研究は、介入した変数が未知であっても、勾配に基づく手法で介入データを活用することにより因果発見の有望な結果を示している。 しかし、以前の研究はサンプルと介入の対応が知られていると仮定しており、しばしば非現実的である。 複数の介入分布と1つの観察分布からサンプリングされた広範囲なデータセットを用いたシナリオを想定するが、どの分布がそれぞれのサンプルに由来するのか、どのように介入がシステムに影響を及ぼすかは分かっていない。 本稿では、ニューラルネットワークと変分推論に基づいて、干渉構造因果モデルの無限混合(ディリクレ過程以前の)における共有因果グラフの学習として学習することで、このシナリオに対処する手法を提案する。 合成データおよび実データを用いた実験により,本手法とその半教師付き変種は,この困難なシナリオにおいて因果関係を発見できることが示された。

Recent work has shown promising results in causal discovery by leveraging interventional data with gradient-based methods, even when the intervened variables are unknown. However, previous work assumes that the correspondence between samples and interventions is known, which is often unrealistic. We envision a scenario with an extensive dataset sampled from multiple intervention distributions and one observation distribution, but where we do not know which distribution originated each sample and how the intervention affected the system, \textit{i.e.}, interventions are entirely latent. We propose a method based on neural networks and variational inference that addresses this scenario by framing it as learning a shared causal graph among an infinite mixture (under a Dirichlet process prior) of intervention structural causal models. Experiments with synthetic and real data show that our approach and its semi-supervised variant are able to discover causal relations in this challenging scenario.
翻訳日:2022-03-07 18:40:24 公開日:2022-03-04
# (参考訳) ヒートマップに基づくランドマーク位置推定の不確かさ推定

Uncertainty Estimation for Heatmap-based Landmark Localization ( http://arxiv.org/abs/2203.02351v1 )

ライセンス: CC BY 4.0
Lawrence Schobs, Andrew J. Swift, Haiping Lu(参考訳) 近年, 深層学習の手法を活用することで, 解剖学的ランドマークの自動定位化が進みつつある。 これらの予測の不確かさを定量化する能力は、これらの方法が臨床で採用されるのを見る上で必須の要素であり、誤った予測を捉えて修正することが必須である。 推定誤差境界を持つ不確実性によって予測を分類するデータ駆動手法であるQuantile Binningを提案する。 このフレームワークは、任意の連続不確実性測度に適用でき、推定誤差境界を伴う予測の最良のサブセットを容易に識別することができる。 分位二分法に基づく2つの評価指標を構築することにより,不確実性尺度の簡易比較を行う。 本研究では,3つの不確実性尺度(ベースライン,現在の金標準,および2つの側面を組み合わせた手法)を,2つのデータセット(1つは容易,1つは困難)と2つのヒートマップベースランドマークローカライゼーションモデルパラダイム(U-Netとパッチベース)を比較して比較し,比較を行った。 我々は、Quantile Binsで捕捉された重大な誤予測をフィルタリングすることで、許容されるエラー閾値の下で予測の割合を大幅に改善し、どの不確実性対策を使うか、どのように使うかを推奨する。

Automatic anatomical landmark localization has made great strides by leveraging deep learning methods in recent years. The ability to quantify the uncertainty of these predictions is a vital ingredient needed to see these methods adopted in clinical use, where it is imperative that erroneous predictions are caught and corrected. We propose Quantile Binning, a data-driven method to categorise predictions by uncertainty with estimated error bounds. This framework can be applied to any continuous uncertainty measure, allowing straightforward identification of the best subset of predictions with accompanying estimated error bounds. We facilitate easy comparison between uncertainty measures by constructing two evaluation metrics derived from Quantile Binning. We demonstrate this framework by comparing and contrasting three uncertainty measures (a baseline, the current gold standard, and a proposed method combining aspects of the two), across two datasets (one easy, one hard) and two heatmap-based landmark localization model paradigms (U-Net and patch-based). We conclude by illustrating how filtering out gross mispredictions caught in our Quantile Bins significantly improves the proportion of predictions under an acceptable error threshold, and offer recommendations on which uncertainty measure to use and how to use it.
翻訳日:2022-03-07 18:16:21 公開日:2022-03-04
# (参考訳) ベイズネットワーク構造学習のための量子近似最適化アルゴリズム

Quantum Approximate Optimization Algorithm for Bayesian network structure learning ( http://arxiv.org/abs/2203.02400v1 )

ライセンス: CC BY 4.0
Vicente P. Soloviev, Concha Bielza, Pedro Larra\~naga(参考訳) ベイジアンネットワーク構造学習は、最近の数十年で多くの伝統的なアプローチで直面してきたNPハード問題である。 現在、量子技術は、古典的なコンピューティングアプローチを利用する際に効率的に対処できない最適化タスクを解くために活用できる幅広い利点を提供している。 本研究では,ベイジアンネットワークのノード数が$n$となる3n(n-1)/2$ qubitsを用いることで,ベイジアンネットワーク構造学習の問題を解決するために,量子近似最適化アルゴリズムと呼ばれる特定の種類の変分量子アルゴリズムを用いた。 その結果、量子近似最適化アルゴリズムは、最先端の手法と量子ノイズに対する定量的レジリエンスによる競合結果を提供することを示した。 このアプローチはがんベンチマーク問題に適用され、ベイズネットワーク構造学習問題を解くために変分量子アルゴリズムを用いることを正当化した。

Bayesian network structure learning is an NP-hard problem that has been faced by a number of traditional approaches in recent decades. Currently, quantum technologies offer a wide range of advantages that can be exploited to solve optimization tasks that cannot be addressed in an efficient way when utilizing classic computing approaches. In this work, a specific type of variational quantum algorithm, the quantum approximate optimization algorithm, was used to solve the Bayesian network structure learning problem, by employing $3n(n-1)/2$ qubits, where $n$ is the number of nodes in the Bayesian network to be learned. Our results showed that the quantum approximate optimization algorithm approach offers competitive results with state-of-the-art methods and quantitative resilience to quantum noise. The approach was applied to a cancer benchmark problem, and the results justified the use of variational quantum algorithms for solving the Bayesian network structure learning problem.
翻訳日:2022-03-07 17:53:24 公開日:2022-03-04
# (参考訳) 3次元ブロック骨材トランスフォーマによる腎構造の特徴化

Characterizing Renal Structures with 3D Block Aggregate Transformers ( http://arxiv.org/abs/2203.02430v1 )

ライセンス: CC BY 4.0
Xin Yu, Yucheng Tang, Yinchi Zhou, Riqiang Gao, Qi Yang, Ho Hin Lee, Thomas Li, Shunxing Bao, Yuankai Huo, Zhoubing Xu, Thomas A. Lasko, Richard G. Abramson, and Bennett A. Landman(参考訳) 効率的な腎構造の定量化は、異なる空間的文脈を提供し、腎臓形態のバイオマーカー発見を促進することができる。 しかし, 腎皮質, 髄質, 収集系を分割するトランスフォーマモデルの開発と評価は, データの非効率性から依然として困難である。 視覚トランスフォーマの階層構造に触発されて,造影ctで腎臓成分を分節する3次元ブロックアグリゲーショントランスを用いた新しい手法を提案する。 施設評価委員会 (irb) の承認のもと, 116名の被験者による腎サブストラクチャーセグメンテーションデータセットの最初のコホートを構築した。 提案手法は,データ効率設計による0.8308のベースラインアプローチに対して,最先端性能(0.8467)が得られる。 Pearson R は提案手法と手動標準の間で 0.9891 を達成し,ボリューム解析における強い相関関係と再現性を示す。 提案手法をパブリックKiTSデータセットに拡張することにより,トランスフォーマーベースのアプローチと比較して精度が向上する。 3Dブロック集約変換器は、自己注意を変更せずに、配列表現間の局所的なコミュニケーションを実現することができ、腎構造を特徴付けるための正確かつ効率的な定量化ツールとして機能することを示す。

Efficiently quantifying renal structures can provide distinct spatial context and facilitate biomarker discovery for kidney morphology. However, the development and evaluation of the transformer model to segment the renal cortex, medulla, and collecting system remains challenging due to data inefficiency. Inspired by the hierarchical structures in vision transformer, we propose a novel method using a 3D block aggregation transformer for segmenting kidney components on contrast-enhanced CT scans. We construct the first cohort of renal substructures segmentation dataset with 116 subjects under institutional review board (IRB) approval. Our method yields the state-of-the-art performance (Dice of 0.8467) against the baseline approach of 0.8308 with the data-efficient design. The Pearson R achieves 0.9891 between the proposed method and manual standards and indicates the strong correlation and reproducibility for volumetric analysis. We extend the proposed method to the public KiTS dataset, the method leads to improved accuracy compared to transformer-based approaches. We show that the 3D block aggregation transformer can achieve local communication between sequence representations without modifying self-attention, and it can serve as an accurate and efficient quantification tool for characterizing renal structures.
翻訳日:2022-03-07 17:31:20 公開日:2022-03-04
# (参考訳) Control-Variates 法による \textit{Tug-of-War} スケッチの改良

Improving \textit{Tug-of-War} sketch using Control-Variates method ( http://arxiv.org/abs/2203.02432v1 )

ライセンス: CC BY 4.0
Rameshwar Pratap and Bhisham Dev Verma and Raghav Kulkarni(参考訳) 大規模データの空間効率の高いサマリー計算、または \textit{a.k.a. sketches} は、ストリーミングアルゴリズムの中心的な問題である。 このようなスケッチは、いくつかのデータ分析タスクで \textit{post-hoc} クエリに答えるために使われる。 スケッチの計算アルゴリズムは通常、高速で正確で、空間効率が要求される。 ストリーミングアルゴリズムフレームワークの根本的な問題は、データストリームの周波数モーメントを計算することである。 i$ 型の $f_i$ 要素を含む列の周波数モーメントは、$\mathbf{f}_k=\sum_{i=1}^n {f_i}^k,$ ここで $i\in [n]$ である。 これは周波数ベクトル $(f_1, f_2, \ldots f_n) の $\ell_k$ norm とも呼ばれる。 もう一つの重要な問題は、対応する周波数ベクトルの内部積を計算することによって、2つのデータストリーム間の類似性を計算することである。 Alon, Matias, and Szegedy~\cite{AMS}, \textit{a.k.a. Tug-of-war} (または AMS) のスケッチは、周波数モーメントを計算するためのランダム化された部分線型空間(および線形時間)アルゴリズムと、データストリームに対応する2つの周波数ベクトル間の内部積を与える。 しかし、これらの推定値のばらつきは通常大きい傾向にある。 本研究では,これらの推定値のばらつきを最小化することに注力する。 我々はモンテカルロシミュレーションの分散還元で主に知られている古典的制御-変数法~\cite{Lavenberg}の手法を用いており、計算オーバーヘッドの少ないコストで大きな分散還元を得ることができる。 本稿では,提案手法の理論的解析を行い,実世界のデータセットと合成実験を補完する。

Computing space-efficient summary, or \textit{a.k.a. sketches}, of large data, is a central problem in the streaming algorithm. Such sketches are used to answer \textit{post-hoc} queries in several data analytics tasks. The algorithm for computing sketches typically requires to be fast, accurate, and space-efficient. A fundamental problem in the streaming algorithm framework is that of computing the frequency moments of data streams. The frequency moments of a sequence containing $f_i$ elements of type $i$, are the numbers $\mathbf{F}_k=\sum_{i=1}^n {f_i}^k,$ where $i\in [n]$. This is also called as $\ell_k$ norm of the frequency vector $(f_1, f_2, \ldots f_n).$ Another important problem is to compute the similarity between two data streams by computing the inner product of the corresponding frequency vectors. The seminal work of Alon, Matias, and Szegedy~\cite{AMS}, \textit{a.k.a. Tug-of-war} (or AMS) sketch gives a randomized sublinear space (and linear time) algorithm for computing the frequency moments, and the inner product between two frequency vectors corresponding to the data streams. However, the variance of these estimates typically tends to be large. In this work, we focus on minimizing the variance of these estimates. We use the techniques from the classical Control-Variate method~\cite{Lavenberg} which is primarily known for variance reduction in Monte-Carlo simulations, and as a result, we are able to obtain significant variance reduction, at the cost of a little computational overhead. We present a theoretical analysis of our proposal and complement it with supporting experiments on synthetic as well as real-world datasets.
翻訳日:2022-03-07 17:19:59 公開日:2022-03-04
# (参考訳) SFPN:オブジェクト検出のための合成FPN

SFPN: Synthetic FPN for Object Detection ( http://arxiv.org/abs/2203.02445v1 )

ライセンス: CC BY 4.0
Yu-Ming Zhang, Jun-Wei Hsieh, Chun-Chieh Lee, Kuo-Chin Fan(参考訳) fpn(feature pyramid network)はsoma one stage object detectorsの基本的なコンポーネントとなっている。 以前の多くの研究は、FPNがより優れたマルチスケール特徴写像を取り込み、異なる大きさの物体をより正確に記述できることを何度も証明してきた。 しかしながら、VGG、ResNet、DenseNetのようなほとんどのバックボーンでは、各レイヤのフィーチャーマップはプール操作やストライド2との畳み込みによってクォーターに縮小される。 ダウンスケールバイ-2のギャップは大きいので、FPNは機能をスムーズに融合させない。 本稿では,従来のFPNの層間に様々な合成層を形成し,軽量CNNバックホンの精度を高め,物体の視覚的特徴をより正確に抽出するSFPN(Synthetic Fusion Pyramid Network)を新たに提案する。 最後に、SFPNアーキテクチャは、大きなバックボーンVGG16、ResNet50、またはAPスコアに基づいてMobilenetV2のような軽量のバックボーンよりも優れていることを示す。

FPN (Feature Pyramid Network) has become a basic component of most SoTA one stage object detectors. Many previous studies have repeatedly proved that FPN can caputre better multi-scale feature maps to more precisely describe objects if they are with different sizes. However, for most backbones such VGG, ResNet, or DenseNet, the feature maps at each layer are downsized to their quarters due to the pooling operation or convolutions with stride 2. The gap of down-scaling-by-2 is large and makes its FPN not fuse the features smoothly. This paper proposes a new SFPN (Synthetic Fusion Pyramid Network) arichtecture which creates various synthetic layers between layers of the original FPN to enhance the accuracy of light-weight CNN backones to extract objects' visual features more accurately. Finally, experiments prove the SFPN architecture outperforms either the large backbone VGG16, ResNet50 or light-weight backbones such as MobilenetV2 based on AP score.
翻訳日:2022-03-07 16:57:38 公開日:2022-03-04
# (参考訳) 実現しなかったこと:非言語的社会行動予測に関する調査

Didn't see that coming: a survey on non-verbal social human behavior forecasting ( http://arxiv.org/abs/2203.02480v1 )

ライセンス: CC BY 4.0
German Barquero and Johnny N\'u\~nez and Sergio Escalera and Zhen Xu and Wei-Wei Tu and Isabelle Guyon and Cristina Palmero(参考訳) 近年,非言語的社会的行動予測が研究コミュニティの関心を集めている。 人間とロボットの相互作用や社会的に認識された人間のモーション生成への直接的な応用は、非常に魅力的な分野である。 本研究では,対話型エージェントの行動予測問題を,従来の社会信号予測と人間の行動予測の分野を統一することを目的とした汎用的な手法で定義する。 両問題の定式化は同じ概念的問題を指し、未来の確率性、文脈認識、歴史の搾取など、多くの共通する基本的な課題を特定している。 また,過去5年間に発行された手法を極めて情報的な方法で構成する分類法を提案し,この問題に関する現在のコミュニティの関心事について述べる。 この分野でのさらなる研究を促進するために,非作用型ソーシャルインタラクションを特徴とする視聴覚データセットの概要を要約して紹介する。 最後に、このタスクで使われる最も一般的なメトリクスとその問題について説明する。

Non-verbal social human behavior forecasting has increasingly attracted the interest of the research community in recent years. Its direct applications to human-robot interaction and socially-aware human motion generation make it a very attractive field. In this survey, we define the behavior forecasting problem for multiple interactive agents in a generic way that aims at unifying the fields of social signals prediction and human motion forecasting, traditionally separated. We hold that both problem formulations refer to the same conceptual problem, and identify many shared fundamental challenges: future stochasticity, context awareness, history exploitation, etc. We also propose a taxonomy that comprises methods published in the last 5 years in a very informative way and describes the current main concerns of the community with regard to this problem. In order to promote further research on this field, we also provide a summarised and friendly overview of audiovisual datasets featuring non-acted social interactions. Finally, we describe the most common metrics used in this task and their particular issues.
翻訳日:2022-03-07 16:49:54 公開日:2022-03-04
# (参考訳) hypertransformer: パンシャープ化のためのテクスチュラルおよびスペクトル特徴融合トランス

HyperTransformer: A Textural and Spectral Feature Fusion Transformer for Pansharpening ( http://arxiv.org/abs/2203.02503v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara, Vishal M. Patel(参考訳) Pansharpeningは、登録された高分解能パノクロマトグラフィー画像(PAN)と低分解能ハイパースペクトル画像(LR-HSI)を融合して、高スペクトル・空間解像度の高分解能HSIを生成することを目的としている。 既存のパンシャルペン法は、HRテクスチャの特徴をPANからLR-HSIに伝達するアテンション機構を無視し、空間的およびスペクトル的歪みをもたらす。 本稿では, LR-HSI と PAN の特徴をそれぞれ変換器のクエリとキーとして表現する HyperTransformer という, パンシャーピングのための新しい注意機構を提案する。 HyperTransformerは、PANとHSI用の2つの別個の特徴抽出器、マルチヘッド機能ソフトアテンションモジュール、空間スペクトル機能融合モジュールの3つの主要モジュールで構成されている。 このようなネットワークは、空間依存性を学習し、PANとLR-HSIの長距離詳細を学習することにより、パンシャーペンHSIの空間的およびスペクトル的品質の測定を改善する。 さらに、HyperTransformerは、バックボーンの複数の空間スケールで使用でき、性能が向上する。 広範に使用されている3つのデータセットで実施された大規模な実験により、HyperTransformerは空間的およびスペクトル的品質測定の両面で最先端の手法よりも大幅に改善されていることが示された。 実装コードと事前トレーニングされたウェイトはhttps://github.com/wgcban/HyperTransformer.comでアクセスすることができる。

Pansharpening aims to fuse a registered high-resolution panchromatic image (PAN) with a low-resolution hyperspectral image (LR-HSI) to generate an enhanced HSI with high spectral and spatial resolution. Existing pansharpening approaches neglect using an attention mechanism to transfer HR texture features from PAN to LR-HSI features, resulting in spatial and spectral distortions. In this paper, we present a novel attention mechanism for pansharpening called HyperTransformer, in which features of LR-HSI and PAN are formulated as queries and keys in a transformer, respectively. HyperTransformer consists of three main modules, namely two separate feature extractors for PAN and HSI, a multi-head feature soft attention module, and a spatial-spectral feature fusion module. Such a network improves both spatial and spectral quality measures of the pansharpened HSI by learning cross-feature space dependencies and long-range details of PAN and LR-HSI. Furthermore, HyperTransformer can be utilized across multiple spatial scales at the backbone for obtaining improved performance. Extensive experiments conducted on three widely used datasets demonstrate that HyperTransformer achieves significant improvement over the state-of-the-art methods on both spatial and spectral quality measures. Implementation code and pre-trained weights can be accessed at https://github.com/wgcban/HyperTransformer.
翻訳日:2022-03-07 16:48:35 公開日:2022-03-04
# 低速度単眼UAVを用いた屋内空間のリアルタイムハイブリッドマッピング

Real-Time Hybrid Mapping of Populated Indoor Scenes using a Low-Cost Monocular UAV ( http://arxiv.org/abs/2203.02453v1 )

ライセンス: Link先を確認
Stuart Golodetz, Madhu Vankadari, Aluna Everitt, Sangyun Shin, Andrew Markham and Niki Trigoni(参考訳) 無人航空機(UAV)は近年、都市探索や救助、農業調査、自律的な地下地雷探査など、多くの用途に利用されている。 しかし、特に人間に近い密集した屋内空間にUAVを配備することは依然として困難である。 制限されたペイロードが必要な場合、マイクロUAVを使用することで、人間にはリスクが低く、クラッシュ後に置き換えるコストも低い。 しかし、マイクロuavは、ステレオペアやライダーではなく単眼カメラのような限られたセンサースイートしか持たず、密接なマッピングや、人を取り巻く狭い環境での操作に必要なマーカーレスマルチパーソン3dポーズ推定などのタスクを複雑にする。 このようなタスクに対する単分子的アプローチが存在し、UAVアプリケーションに高密度な単分子マッピングアプローチが成功している。 しかし、マーカーベースおよびマーカーレスマルチuav単眼モーションキャプチャに関する最近の多くの研究にもかかわらず、マーカーレス単眼3d人間のポーズ推定は、まだかなり初期段階の技術であり、既存の空中環境への展開の試みには気づいていない。 本稿では,一台のuavに搭載された単眼カメラから,同時マッピングと多人数3次元ポーズ推定を行う最初のシステムについて述べる。 特に,最先端のモノキュラー深度推定とモノキュラー3次元人間のポーズ推定を緩やかに組み合わせ,人口密集した屋内シーンのハイブリッドマップをリアルタイムに再構築する方法を示す。 大規模ScanNetおよびGTA-IMデータセットの広範な実験を通じて,コンポーネントレベルの設計選択を検証する。 また,システムレベルの性能を評価するために,屋内環境の人口分布を考慮した新しいオックスフォードハイブリッドマッピングデータセットを構築した。

Unmanned aerial vehicles (UAVs) have been used for many applications in recent years, from urban search and rescue, to agricultural surveying, to autonomous underground mine exploration. However, deploying UAVs in tight, indoor spaces, especially close to humans, remains a challenge. One solution, when limited payload is required, is to use micro-UAVs, which pose less risk to humans and typically cost less to replace after a crash. However, micro-UAVs can only carry a limited sensor suite, e.g. a monocular camera instead of a stereo pair or LiDAR, complicating tasks like dense mapping and markerless multi-person 3D human pose estimation, which are needed to operate in tight environments around people. Monocular approaches to such tasks exist, and dense monocular mapping approaches have been successfully deployed for UAV applications. However, despite many recent works on both marker-based and markerless multi-UAV single-person motion capture, markerless single-camera multi-person 3D human pose estimation remains a much earlier-stage technology, and we are not aware of existing attempts to deploy it in an aerial context. In this paper, we present what is thus, to our knowledge, the first system to perform simultaneous mapping and multi-person 3D human pose estimation from a monocular camera mounted on a single UAV. In particular, we show how to loosely couple state-of-the-art monocular depth estimation and monocular 3D human pose estimation approaches to reconstruct a hybrid map of a populated indoor scene in real time. We validate our component-level design choices via extensive experiments on the large-scale ScanNet and GTA-IM datasets. To evaluate our system-level performance, we also construct a new Oxford Hybrid Mapping dataset of populated indoor scenes.
翻訳日:2022-03-07 16:27:34 公開日:2022-03-04
# 深層強化学習のためのクラウドエッジトレーニングアーキテクチャ

Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement Learning ( http://arxiv.org/abs/2203.02230v1 )

ライセンス: Link先を確認
Hongpeng Cao, Mirco Theile, Federico G. Wyrwal, and Marco Caccamo(参考訳) 深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。 しかしながら、drlポリシーのトレーニングには大量のトレーニング経験が必要であり、物理システム上で直接ポリシーを学ぶことは現実的ではない。 Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。 残念なことに、事前訓練されたポリシーの現実世界への直接配置は、通常、現実のギャップとして知られる異なるダイナミクスによるパフォーマンス低下に苦しむ。 ドメインランダム化やドメイン適応のような最近のsim-to-realメソッドは、事前訓練されたエージェントの堅牢性の改善に焦点を当てている。 それにもかかわらず、シミュレーションによって訓練されたポリシーは、しばしば最適なパフォーマンスを得るために現実世界のデータと調整する必要がある。 本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。 アーキテクチャでは、推論とトレーニングはエッジとクラウドに割り当てられ、リアルタイム制御ループと計算に高価なトレーニングループを分離する。 現実のギャップを克服するため,本アーキテクチャはシミュレーション事前学習エージェントのトレーニングを物理システム上で継続するためにsim-to-real転送戦略を利用する。 物理逆振り制御システムに適用可能性を示し、臨界パラメータを解析する。 実世界の実験により、我々のアーキテクチャは、事前訓練されたDRLエージェントを連続的かつ効率的に観察できないダイナミクスに適応できることを示した。

Deep reinforcement learning (DRL) is a promising approach to solve complex control tasks by learning policies through interactions with the environment. However, the training of DRL policies requires large amounts of training experiences, making it impractical to learn the policy directly on physical systems. Sim-to-real approaches leverage simulations to pretrain DRL policies and then deploy them in the real world. Unfortunately, the direct real-world deployment of pretrained policies usually suffers from performance deterioration due to the different dynamics, known as the reality gap. Recent sim-to-real methods, such as domain randomization and domain adaptation, focus on improving the robustness of the pretrained agents. Nevertheless, the simulation-trained policies often need to be tuned with real-world data to reach optimal performance, which is challenging due to the high cost of real-world samples. This work proposes a distributed cloud-edge architecture to train DRL agents in the real world in real-time. In the architecture, the inference and training are assigned to the edge and cloud, separating the real-time control loop from the computationally expensive training loop. To overcome the reality gap, our architecture exploits sim-to-real transfer strategies to continue the training of simulation-pretrained agents on a physical system. We demonstrate its applicability on a physical inverted-pendulum control system, analyzing critical parameters. The real-world experiments show that our architecture can adapt the pretrained DRL agents to unseen dynamics consistently and efficiently.
翻訳日:2022-03-07 16:23:59 公開日:2022-03-04
# 機械学習による量子アニーラの性能向上

Boosting the Performance of Quantum Annealers using Machine Learning ( http://arxiv.org/abs/2203.02360v1 )

ライセンス: Link先を確認
Jure Brence, Dragan Mihailovi\'c, Viktor Kabanov, Ljup\v{c}o Todorovski, Sa\v{s}o D\v{z}eroski, Jaka Vodeb(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、第2の量子革命を先導している。 これらのうち、5000量子ビットの商用アプリケーションを提供しているのは量子アニールだけである。 量子アニールによって解くことができる問題の大きさは、主に環境ノイズやプロセッサの固有の欠陥に起因する誤差によって制限される。 本稿では,機械学習手法に基づく新しい誤り訂正手法を用いて,本質的不完全性の問題に対処する。 この手法は入力ハミルトニアンを調整して解を見つける確率を最大化する。 実験では, 提案手法により, 焼鈍性能を最大3桁まで改善し, 従来は難解で, 極端に複雑な問題の解法を可能にした。

Noisy intermediate-scale quantum (NISQ) devices are spearheading the second quantum revolution. Of these, quantum annealers are the only ones currently offering real world, commercial applications on as many as 5000 qubits. The size of problems that can be solved by quantum annealers is limited mainly by errors caused by environmental noise and intrinsic imperfections of the processor. We address the issue of intrinsic imperfections with a novel error correction approach, based on machine learning methods. Our approach adjusts the input Hamiltonian to maximize the probability of finding the solution. In our experiments, the proposed error correction method improved the performance of annealing by up to three orders of magnitude and enabled the solving of a previously intractable, maximally complex problem.
翻訳日:2022-03-07 16:23:35 公開日:2022-03-04
# 音声からの自由形体運動生成

Freeform Body Motion Generation from Speech ( http://arxiv.org/abs/2203.02291v1 )

ライセンス: Link先を確認
Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei(参考訳) 人々は自然に体の動きを行い、講演しながらスピーチを強化する。 音声からの身体運動の生成は、音声から身体運動への非決定論的マッピングのため、本質的に困難である。 既存の作品の多くは、特定のスタイルを条件づけることで、音声を決定論的に表現し、準最適結果をもたらす。 言語学の研究に動機づけられ,協調動作はポーズモードとリズミカルダイナミクスの2つの相補的な部分に分けられる。 そこで,本研究では,2ストリームアーキテクチャ,すなわちプライマリ姿勢生成のためのポーズモード分岐,リズミカルダイナミクス合成のためのリズミカルモーションブランチを備えることで,新しいフリーフォームモーション生成モデル(FreeMo)を導入する。 一方,潜在空間における条件付サンプリングにより多彩なポーズモードが生成され,音声意味論が導かれる。 一方、リズミカルダイナミクスは音声韻律と同期する。 広範囲な実験は、動きの多様性、品質および音声との同期の観点から、いくつかのベースラインに対して優れた性能を示す。 コードと事前トレーニングされたモデルはhttps://github.com/TheTempAccount/Co-Speech-Motion-Generation.comから公開される。

People naturally conduct spontaneous body motions to enhance their speeches while giving talks. Body motion generation from speech is inherently difficult due to the non-deterministic mapping from speech to body motions. Most existing works map speech to motion in a deterministic way by conditioning on certain styles, leading to sub-optimal results. Motivated by studies in linguistics, we decompose the co-speech motion into two complementary parts: pose modes and rhythmic dynamics. Accordingly, we introduce a novel freeform motion generation model (FreeMo) by equipping a two-stream architecture, i.e., a pose mode branch for primary posture generation, and a rhythmic motion branch for rhythmic dynamics synthesis. On one hand, diverse pose modes are generated by conditional sampling in a latent space, guided by speech semantics. On the other hand, rhythmic dynamics are synced with the speech prosody. Extensive experiments demonstrate the superior performance against several baselines, in terms of motion diversity, quality and syncing with speech. Code and pre-trained models will be publicly available through https://github.com/TheTempAccount/Co-Speech-Motion-Generation.
翻訳日:2022-03-07 16:23:24 公開日:2022-03-04
# 話者認識における言語の役割について

On the relevance of language in speaker recognition ( http://arxiv.org/abs/2203.01992v1 )

ライセンス: Link先を確認
Antonio Satue-Villar, Marcos Faundez-Zanuy(参考訳) 本稿では、2つの異なる言語(スペイン語とカタルーニャ語)のバイリンガル話者集合(49)から収集した新しいデータベースを提案する。 両言語の間には顕著な違いがある。 これらの違いは、話者認識における言語関係に関するいくつかの結論を、ベクトル量子化と共分散行列という2つの方法を用いて定めている。

This paper presents a new database collected from a bilingual speakers set (49), in two different languages: Spanish and Catalan. Phonetically there are significative differences between both languages. These differences have let us to establish several conclusions on the relevance of language in speaker recognition, using two methods: vector quantization and covariance matrices
翻訳日:2022-03-07 16:20:55 公開日:2022-03-04
# ニューラルネットワークに基づく音声強調への統計的不確かさの統合

Integrating Statistical Uncertainty into Neural Network-Based Speech Enhancement ( http://arxiv.org/abs/2203.02288v1 )

ライセンス: Link先を確認
Huajian Fang, Tal Peer, Stefan Wermter, Timo Gerkmann(参考訳) 時間周波数領域における音声強調は、乗法マスクを推定してクリーン音声を抽出することで行われることが多い。 しかしながら、ほとんどのニューラルネットワークベースの手法は、点推定、すなわち、その出力は単一のマスクからなる。 本稿では,ニューラルネットワークに基づく音声強調における不確実性モデリングの利点について検討する。 このために、我々のニューラルネットワークは、スペクトル係数の最大 a posteriori (map) 推定に基づいて、ノイズのあったスペクトログラムをウィーナーフィルタとその関連する分散にマッピングするように訓練されている。 点推定の代わりに分布を推定することで、各推定に付随する不確かさをモデル化することができる。 さらに,推定ウィナーフィルタとその不確かさを用いて,スペクトル等級の近似写像(a-map)推定器を構築し,スペクトル係数の写像推定と組み合わせてハイブリッド損失関数を形成し,その推定を補強する。 異なるデータセットを用いた実験の結果,提案手法は推定フィルタに関する不確かさを捉えるだけでなく,不確実性を考慮していないモデルよりも高い拡張性能が得られることがわかった。

Speech enhancement in the time-frequency domain is often performed by estimating a multiplicative mask to extract clean speech. However, most neural network-based methods perform point estimation, i.e., their output consists of a single mask. In this paper, we study the benefits of modeling uncertainty in neural network-based speech enhancement. For this, our neural network is trained to map a noisy spectrogram to the Wiener filter and its associated variance, which quantifies uncertainty, based on the maximum a posteriori (MAP) inference of spectral coefficients. By estimating the distribution instead of the point estimate, one can model the uncertainty associated with each estimate. We further propose to use the estimated Wiener filter and its uncertainty to build an approximate MAP (A-MAP) estimator of spectral magnitudes, which in turn is combined with the MAP inference of spectral coefficients to form a hybrid loss function to jointly reinforce the estimation. Experimental results on different datasets show that the proposed method can not only capture the uncertainty associated with the estimated filters, but also yield a higher enhancement performance over comparable models that do not take uncertainty into account.
翻訳日:2022-03-07 16:20:06 公開日:2022-03-04
# ブリッジヘルスモニタリングのためのスケーラブルで分散リアルタイムな異常検出の探索

Exploring Scalable, Distributed Real-Time Anomaly Detection for Bridge Health Monitoring ( http://arxiv.org/abs/2203.02380v1 )

ライセンス: Link先を確認
Amirhossein Moallemi, Alessio Burrello, Davide Brunelli, Luca Benini(参考訳) 現代のリアルタイム構造健康モニタリングシステムは、初期の異常を検出し、土木インフラの状況について即座に警告や警報を発生させるために処理され、評価されなければならない大量の情報を生成することができる。 現在のクラウドベースのソリューションは、数千の建物から生のデータを集める必要がある場合、スケールできない。 本稿では,生データをクラウドに送信する必要がなく,エッジ計算に依存するSHMシステムのための,効率的でスケーラブルな異常検出パイプラインのフルスタック展開を提案する。 まず,主成分分析(PCA),完全連結オートエンコーダ(FC-AE),畳み込みオートエンコーダ(C-AE)の3つのアルゴリズムによる異常検出手法をベンチマークする。 次に、エッジセンサーであるSTM32L4に、限られた計算能力でデプロイする。 このアプローチは、ネットワークトラフィックを1回のインストールで780kb/hから10バイト/h未満に削減し、ネットワークとクラウドリソースの利用を最小限に抑え、監視インフラストラクチャのスケーリングを可能にする。 イタリアの高速道路橋での実際のケーススタディでは、異常検出アルゴリズムの近接センサー計算、スマート前処理、および低消費電力広域ネットワークプロトコル(lpwan)の組み合わせにより、データ通信とクラウドコンピューティングのコストを大幅に削減できるが、異常検出精度は悪影響を与えない。

Modern real-time Structural Health Monitoring systems can generate a considerable amount of information that must be processed and evaluated for detecting early anomalies and generating prompt warnings and alarms about the civil infrastructure conditions. The current cloud-based solutions cannot scale if the raw data has to be collected from thousands of buildings. This paper presents a full-stack deployment of an efficient and scalable anomaly detection pipeline for SHM systems which does not require sending raw data to the cloud but relies on edge computation. First, we benchmark three algorithmic approaches of anomaly detection, i.e., Principal Component Analysis (PCA), Fully-Connected AutoEncoder (FC-AE), and Convolutional AutoEncoder (C-AE). Then, we deploy them on an edge-sensor, the STM32L4, with limited computing capabilities. Our approach decreases network traffic by $\approx8\cdot10^5\times$ , from 780KB/hour to less than 10 Bytes/hour for a single installation and minimize network and cloud resource utilization, enabling the scaling of the monitoring infrastructure. A real-life case study, a highway bridge in Italy, demonstrates that combining near-sensor computation of anomaly detection algorithms, smart pre-processing, and low-power wide-area network protocols (LPWAN) we can greatly reduce data communication and cloud computing costs, while anomaly detection accuracy is not adversely affected.
翻訳日:2022-03-07 16:19:47 公開日:2022-03-04
# 弱ラベルからのオントロジー学習

Ontological Learning from Weak Labels ( http://arxiv.org/abs/2203.02483v1 )

ライセンス: Link先を確認
Larry Tang, Po Hao Chou, Yi Yu Zheng, Ziqian Ge, Ankit Shah, Bhiksha Raj(参考訳) オントロジーは、ドメインの概念や特性の定義、それらの概念間の関係を通じて、知識の形式的な表現を包含する。 本研究では,このオントロジ情報の利用が,イベントの存在や不在のみを必要とするため,収集が容易な弱いラベル付きデータからの学習を改善するかどうかを検討する。 我々はAudioSetオントロジーとデータセットを使用し、オントロジーの概念と概念間の"Is A"関係を提供するオントロジーを弱めにラベル付けしたオーディオクリップを含む。 我々はまず,soundevent_ontologyによって提案されたモデルを再実装し,マルチラベルシナリオに適合するように修正した上で,その概念をグラフ畳み込みネットワーク(gcn)を用いてモデル化し,概念を学習した。 弱いマルチラベルのシナリオにオントロジー情報を組み込むことで,ベースラインのSiameseは向上しないが,GCNは弱いマルチラベルのデータに対して,オントロジーの知識をよりよく捉えている。 実験では,異なるモジュールが弱ラベルからのノイズを許容し,オントロジー情報をより深く取り入れる方法について検討する。 我々の最善のシアーム-gcnモデルは低レベル概念ではmap=0.45とauc=0.87、高レベル概念ではmap=0.72とauc=0.86を達成している。

Ontologies encompass a formal representation of knowledge through the definition of concepts or properties of a domain, and the relationships between those concepts. In this work, we seek to investigate whether using this ontological information will improve learning from weakly labeled data, which are easier to collect since it requires only the presence or absence of an event to be known. We use the AudioSet ontology and dataset, which contains audio clips weakly labeled with the ontology concepts and the ontology providing the "Is A" relations between the concepts. We first re-implemented the model proposed by soundevent_ontology with modification to fit the multi-label scenario and then expand on that idea by using a Graph Convolutional Network (GCN) to model the ontology information to learn the concepts. We find that the baseline Siamese does not perform better by incorporating ontology information in the weak and multi-label scenario, but that the GCN does capture the ontology knowledge better for weak, multi-labeled data. In our experiments, we also investigate how different modules can tolerate noises introduced from weak labels and better incorporate ontology information. Our best Siamese-GCN model achieves mAP=0.45 and AUC=0.87 for lower-level concepts and mAP=0.72 and AUC=0.86 for higher-level concepts, which is an improvement over the baseline Siamese but about the same as our models that do not use ontology information.
翻訳日:2022-03-07 16:18:10 公開日:2022-03-04
# マイクロミキサー幾何の最適化ツールとしての計算流体力学と機械学習

Computational Fluid Dynamics and Machine Learning as tools for Optimization of Micromixers geometry ( http://arxiv.org/abs/2203.02498v1 )

ライセンス: Link先を確認
Daniela de Oliveira Maionchi, Luca Ainstein, Fabio Pereira dos Santos, Maur\'icio Bezerra de Souza J\'unior(参考訳) 本研究は,CFD(Computational Fluid Dynamics)と機械学習技術を組み合わせて,マイクロ流体の分野における新しい最適化手法を提案する。 この組み合わせの目的は、計算コストを低くしてグローバル最適化を可能にすることである。 初期形状はY型マイクロミキサーにインスパイアされ、主チャネルの表面に円筒状の溝があり、内部の障害物がある。 障害物の影響を観測するために,OpenFOAMソフトウェアを用いて円形障害物シミュレーションを行った。 また, [20,140]mmおよび[10,160]mmの範囲における閉塞径 (od) およびオフセット (of) が混合率 (\varphi$) , 圧力降下率 (\delta p$) およびエネルギーコスト (\delta p/\varphi$) に及ぼす影響を検討した。 機械学習を用いて数値実験を行った。 まず、入力odとofからなるデータセットをトレーニングするためにニューラルネットワークを使用し、$\varphi$と$\delta p$を出力する。 ObFは溝と障害物を有するマイクロミキサーの性能を数値的に最適化するために選択され、$\varphi$, $\Delta P$, $\Delta P/\varphi$であった。 遺伝的アルゴリズムは、最大値が$\varphi$、最小値が$\delta p_s$となる幾何学を得た。 その結果、$\varphi$ は、of のすべての値での od の増加とともに単調に増加する。 逆はオフセットの増加とともに観測される。 さらに,ODでは,$\Delta P$e $\Delta P/\varphi$も増加した。 一方、圧力の低下と混合エネルギーのコストは、最低値ofに近い最大値を示す。 最後に, 直径が od=131 mm であり, オフセットが 10 mm であり, チャネル壁近傍の中間サイズの障害に相当する。

This work explores a new approach for optimization in the field of microfluidics, using the combination of CFD (Computational Fluid Dynamics), and Machine Learning techniques. The objective of this combination is to enable global optimization with lower computational cost. The initial geometry is inspired in a Y-type micromixer with cylindrical grooves on the surface of the main channel and obstructions inside it. Simulations for circular obstructions were carried out using the OpenFOAM software to observe the influences of obstacles. The effects of obstruction diameter (OD), and offset (OF) in the range of [20,140] mm and [10,160] mm, respectively, on percentage of mixing ($\varphi$), pressure drop ($\Delta P$) and energy cost ($\Delta P/\varphi$) were investigated. Numerical experiments were analyzed using machine learning. Firstly, a neural network was used to train the dataset composed by the inputs OD and OF and outputs $\varphi$ and $\Delta P$. The objective functions (ObF) chosen to numerically optimize the performance of micromixers with grooves and obstructions were $\varphi$, $\Delta P$, $\Delta P/\varphi$. The genetic algorithm obtained the geometry that offers the maximum value of $\varphi$ and the minimum value of $\Delta P_s$. The results show that $\varphi$ increases monotonically with increasing OD at all values of OF. The inverse is observed with increasing offset. Furthermore, the results reveal that $\Delta P$ e $\Delta P/\varphi$ also increase with OD. On the other hand, the pressure drop and the cost of mixing energy present a maximum close to the lowest values of OF. Finally, the optimal value obtained for the diameter was OD=131 mm and for the offset OF=10 mm, which corresponds to obstruction of medium size close to the channel wall.
翻訳日:2022-03-07 16:17:41 公開日:2022-03-04
# (参考訳) マルチアーム組立システムの協調作業と動作計画

Cooperative Task and Motion Planning for Multi-Arm Assembly Systems ( http://arxiv.org/abs/2203.02475v1 )

ライセンス: CC BY 4.0
Jingkai Chen, Jiaoyang Li, Yijiang Huang, Caelan Garrett, Dawei Sun, Chuchu Fan, Andreas Hofmann, Caitlin Mueller, Sven Koenig, Brian C. Williams(参考訳) マルチロボット組立システムは、自動的、柔軟に、かつ迅速に望まれる構造設計を構築できるため、製造においてますます魅力的になっている。 しかし、各ロボットが同時に生産的であり、アイドルではないような方法で効果的に計画することは、(1)ロボットが構造を操作するために動作しなければならない近さ、(2)各部品の設置に固有の構造的部分順序のため困難である。 本稿では,ロボットチームが複雑な空間構造を組み立てるための安全かつ低メークスパンプランを共同で計画するタスク・アンド・モーション・プランニング・フレームワークを提案する。 本フレームワークは,高レベルにおいて,ロボットの優先制約対象タスクへの割り当てからなる抽象計画の計算に混合整数線形プログラムを用いる階層的アプローチを採り,低レベルにおいては,この抽象計画を実現する衝突フリーロボット動作計画のための,マルチエージェントパス探索のための最先端アルゴリズムを構築した。 提案手法は, 高レベルの計画において, 一定の衝突制約や移動時間を含めることによって, 探索をトラクタブルに保ちながら, 実現可能かつ低マッシュパンとなる可能性のある抽象的な計画の探索を, より効果的に行えるようにしている。 レゴブロック,バー,プレート,あるいは不規則な形状のブロックを含む最大23個の物体を組み立てるためのグリッパーや吸引板を備えた複数の(時には異種な)ロボットを用いて,いくつかの難易度の高い組立領域における計画システムを示す。

Multi-robot assembly systems are becoming increasingly appealing in manufacturing due to their ability to automatically, flexibly, and quickly construct desired structural designs. However, effectively planning for these systems in a manner that ensures each robot is simultaneously productive, and not idle, is challenging due to (1) the close proximity that the robots must operate in to manipulate the structure and (2) the inherent structural partial orderings on when each part can be installed. In this paper, we present a task and motion planning framework that jointly plans safe, low-makespan plans for a team of robots to assemble complex spatial structures. Our framework takes a hierarchical approach that, at the high level, uses Mixed-integer Linear Programs to compute an abstract plan comprised of an allocation of robots to tasks subject to precedence constraints and, at the low level, builds on a state-of-the-art algorithm for Multi-Agent Path Finding to plan collision-free robot motions that realize this abstract plan. Critical to our approach is the inclusion of certain collision constraints and movement durations during high-level planning, which better informs the search for abstract plans that are likely to be both feasible and low-makespan while keeping the search tractable. We demonstrate our planning system on several challenging assembly domains with several (sometimes heterogeneous) robots with grippers or suction plates for assembling structures with up to 23 objects involving Lego bricks, bars, plates, or irregularly shaped blocks.
翻訳日:2022-03-07 16:16:39 公開日:2022-03-04
# ViT-P:データ効率のよい視覚変換器を地域性から再考

ViT-P: Rethinking Data-efficient Vision Transformers from Locality ( http://arxiv.org/abs/2203.02358v1 )

ライセンス: Link先を確認
Bin Chen, Ran Wang, Di Ming and Xin Feng(参考訳) 最近のトランスフォーマーの進歩は、コンピュータビジョンタスクに新たな信頼をもたらした。 しかし、小さなデータセットでは、Transformerはトレーニングが困難で、畳み込みニューラルネットワークよりもパフォーマンスが低い。 マルチ焦点注意バイアスを導入することで,畳み込みニューラルネットワークのようなデータ効率の高い視覚トランスフォーマーを実現する。 十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。 受容野のサイズはトレーニング中に適応可能であり、最適な構成が学べる。 視覚変換器のトレーニングデータの量を減らすことができるという実証的な証拠を提供する。 Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。 また,この手法が大規模データセットの精度を損なわないことを示すために,ImageNetで解析を行う。

Recent advances of Transformers have brought new trust to computer vision tasks. However, on small dataset, Transformers is hard to train and has lower performance than convolutional neural networks. We make vision transformers as data-efficient as convolutional neural networks by introducing multi-focal attention bias. Inspired by the attention distance in a well-trained ViT, we constrain the self-attention of ViT to have multi-scale localized receptive field. The size of receptive field is adaptable during training so that optimal configuration can be learned. We provide empirical evidence that proper constrain of receptive field can reduce the amount of training data for vision transformers. On Cifar100, our ViT-P Base model achieves the state-of-the-art accuracy (83.16%) trained from scratch. We also perform analysis on ImageNet to show our method does not lose accuracy on large data sets.
翻訳日:2022-03-07 15:52:56 公開日:2022-03-04
# DiT: 文書画像変換器のための自己教師付き事前学習

DiT: Self-supervised Pre-training for Document Image Transformer ( http://arxiv.org/abs/2203.02378v1 )

ライセンス: Link先を確認
Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei(参考訳) Image Transformerは最近、教師付き(ViT、DeiTなど)または自己監督型(BeiT、MAEなど)のトレーニング技術を用いて、自然画像理解において大きな進歩を遂げている。 本稿では,文書AIタスクのための大規模未ラベルのテキストイメージを用いた自己教師付き文書画像変換モデルであるDiTを提案する。 文書画像分類や文書レイアウト分析,テーブル検出など,さまざまな視覚ベースのドキュメントAIタスクにおいて,バックボーンネットワークとしてDiTを活用する。 実験の結果、教師付き事前訓練されたDiTモデルは、文書画像分類(91.11$\rightarrow$92.69)、文書レイアウト解析(91.0$\rightarrow$94.9)、テーブル検出(94.23$\rightarrow$96.55)など、これらの下流タスクの新たな最先端結果を達成することが示されている。 コードと事前トレーニングされたモデルは \url{https://aka.ms/msdit} で公開されている。

Image Transformer has recently achieved significant progress for natural image understanding, either using supervised (ViT, DeiT, etc.) or self-supervised (BEiT, MAE, etc.) pre-training techniques. In this paper, we propose DiT, a self-supervised pre-trained Document Image Transformer model using large-scale unlabeled text images for Document AI tasks, which is essential since no supervised counterparts ever exist due to the lack of human labeled document images. We leverage DiT as the backbone network in a variety of vision-based Document AI tasks, including document image classification, document layout analysis, as well as table detection. Experiment results have illustrated that the self-supervised pre-trained DiT model achieves new state-of-the-art results on these downstream tasks, e.g. document image classification (91.11 $\rightarrow$ 92.69), document layout analysis (91.0 $\rightarrow$ 94.9) and table detection (94.23 $\rightarrow$ 96.55). The code and pre-trained models are publicly available at \url{https://aka.ms/msdit}.
翻訳日:2022-03-07 15:52:42 公開日:2022-03-04
# 2次対称非負遅延因子解析

Second-order Symmetric Non-negative Latent Factor Analysis ( http://arxiv.org/abs/2203.02088v1 )

ライセンス: Link先を確認
Weiling Li and Xin Luo(参考訳) 大規模非指向ネットワークの正確な表現は、大規模エンティティセット内の関係を理解するための基礎となる。 非向ネットワーク表現タスクは、明らかに非凸である対称性非負の潜在因子(snlf)モデルによって効率的に対処することができる。 しかし、既存のSNLFモデルは一般に、非凸目的をうまく扱えない一階最適化器を採用しており、結果として不正確な表現結果をもたらす。 一方で、高階学習アルゴリズムはブレークスルーになると期待されているが、その計算効率は、間接的ネットワーク表現タスクにおいて巨大であるヘッセン行列を直接操作するため、大幅に制限されている。 そこで本研究では,SNLFに効率的な2次法を組み込むことにより,2次対称非負の潜在因子分析モデルを構築することを提案する。 イ SNLFモデルにマッピング戦略を組み込んで、制約のないモデルを形成すること。 ロ 特別に設計された二階法の非拘束モデルを訓練して、適切な二階ステップを効率よく取得すること。 実証研究は,提案モデルが計算負荷の少ない表現精度で最先端モデルを上回ることを示唆する。

Precise representation of large-scale undirected network is the basis for understanding relations within a massive entity set. The undirected network representation task can be efficiently addressed by a symmetry non-negative latent factor (SNLF) model, whose objective is clearly non-convex. However, existing SNLF models commonly adopt a first-order optimizer that cannot well handle the non-convex objective, thereby resulting in inaccurate representation results. On the other hand, higher-order learning algorithms are expected to make a breakthrough, but their computation efficiency are greatly limited due to the direct manipulation of the Hessian matrix, which can be huge in undirected network representation tasks. Aiming at addressing this issue, this study proposes to incorporate an efficient second-order method into SNLF, thereby establishing a second-order symmetric non-negative latent factor analysis model for undirected network with two-fold ideas: a) incorporating a mapping strategy into SNLF model to form an unconstrained model, and b) training the unconstrained model with a specially designed second order method to acquire a proper second-order step efficiently. Empirical studies indicate that proposed model outperforms state-of-the-art models in representation accuracy with affordable computational burden.
翻訳日:2022-03-07 15:52:19 公開日:2022-03-04
# 不均一データに対する連続水平フェデレーション学習

Continual Horizontal Federated Learning for Heterogeneous Data ( http://arxiv.org/abs/2203.02108v1 )

ライセンス: Link先を確認
Junki Mori, Isamu Teranishi, Ryo Furukawa(参考訳) フェデレーション学習は有望な機械学習技術であり、複数のクライアントが互いに生データを公開せずに協力してモデルを構築することができる。 各種のフェデレーション学習手法の中で, 水平フェデレーション学習(HFL)が最もよく研究され, 均質な特徴空間を扱う。 しかし、ヘテロジニアスな機能空間の場合、hflは共通機能のみを使用し、クライアント固有の機能を使用しない。 本稿では,各クライアントの特徴を生かしてhflの性能を向上させるための連続学習手法であるcontinual horizontal federated learning(chfl)というニューラルネットワークを用いたhfl手法を提案する。 CHFLはネットワークを共通の特徴とユニークな特徴に対応する2つの列に分割する。 バニラHFLを介して共通の特徴を用いて第1列を共同訓練し、独自の特徴を用いて第2列をローカルに訓練し、第1列の知識を連合的な訓練に干渉することなく横線接続で活用する。 実世界のさまざまなデータセットで実験を行い、CHFLが共通の機能のみを使用するバニラHFLと、各クライアントが持つすべての機能を使用するローカル学習に大きく勝っていることを示す。

Federated learning is a promising machine learning technique that enables multiple clients to collaboratively build a model without revealing the raw data to each other. Among various types of federated learning methods, horizontal federated learning (HFL) is the best-studied category and handles homogeneous feature spaces. However, in the case of heterogeneous feature spaces, HFL uses only common features and leaves client-specific features unutilized. In this paper, we propose a HFL method using neural networks named continual horizontal federated learning (CHFL), a continual learning approach to improve the performance of HFL by taking advantage of unique features of each client. CHFL splits the network into two columns corresponding to common features and unique features, respectively. It jointly trains the first column by using common features through vanilla HFL and locally trains the second column by using unique features and leveraging the knowledge of the first one via lateral connections without interfering with the federated training of it. We conduct experiments on various real world datasets and show that CHFL greatly outperforms vanilla HFL that only uses common features and local learning that uses all features that each client has.
翻訳日:2022-03-07 15:51:58 公開日:2022-03-04
# 電気自動車からの運転行動の受動的・能動的学習

Passive and Active Learning of Driver Behavior from Electric Vehicles ( http://arxiv.org/abs/2203.02179v1 )

ライセンス: Link先を確認
Federica Comuni, Christopher M\'esz\'aros, Niklas {\AA}kerblom, Morteza Haghir Chehreghani(参考訳) モデリングドライバの振る舞いは、電気自動車のエネルギー消費量の予測など、自動車業界でいくつかの利点をもたらします。 研究によると、特定の運転シナリオにおいて、攻撃的な運転は適度な運転よりも最大30%エネルギーを消費することができる。 機械学習手法はドライバの動作分類に広く使われているが、長い時間ウィンドウでのシーケンスモデリングや高価なアノテーションによるラベル付きデータの欠如など、いくつかの課題がある。 ドライバ行動のパッシブ学習という第1の課題に対処するために,自己着立モデルや畳み込みニューラルネットワークなどの非リカレントアーキテクチャとジョイントリカレントプロット(jrp)を比較し,リカレントモデルと比較する。 自己注意モデルでは良好な性能が得られたが,JRPでは大きな改善はない。 しかし,本研究で使用した窓長5~10秒では,非リカレントモデルがリカレントモデルを上回ることはない。 第2の課題に対処するために,様々な情報量尺度を用いたアクティブラーニング手法について検討する。 我々は,不確実なサンプリングや,委員会によるクエリやアクティブな深層投棄など,より高度な手法を評価する。 実験では,いくつかのアクティブサンプリング手法がランダムサンプリングよりも優れており,アノテーションに必要な労力を削減できることを示した。

Modeling driver behavior provides several advantages in the automotive industry, including prediction of electric vehicle energy consumption. Studies have shown that aggressive driving can consume up to 30% more energy than moderate driving, in certain driving scenarios. Machine learning methods are widely used for driver behavior classification, which, however, may yield some challenges such as sequence modeling on long time windows and lack of labeled data due to expensive annotation. To address the first challenge, passive learning of driver behavior, we investigate non-recurrent architectures such as self-attention models and convolutional neural networks with joint recurrence plots (JRP), and compare them with recurrent models. We find that self-attention models yield good performance, while JRP does not exhibit any significant improvement. However, with the window lengths of 5 and 10 seconds used in our study, none of the non-recurrent models outperform the recurrent models. To address the second challenge, we investigate several active learning methods with different informativeness measures. We evaluate uncertainty sampling, as well as more advanced methods, such as query by committee and active deep dropout. Our experiments demonstrate that some active sampling techniques can outperform random sampling, and therefore decrease the effort needed for annotation.
翻訳日:2022-03-07 15:51:35 公開日:2022-03-04
# 非凸緩和と適応相関学習による行列完成

Matrix Completion via Non-Convex Relaxation and Adaptive Correlation Learning ( http://arxiv.org/abs/2203.02189v1 )

ライセンス: Link先を確認
Xuelong Li, Hongyuan Zhang, Rui Zhang(参考訳) 既存の行列補完法は、核ノルムやシャッテン-pノルムなどのランク関数の緩和を最適化することに焦点を当てている。 通常、収束するには多くのイテレーションが必要です。 さらに、行列の低ランク性のみが既存のモデルで使われており、他の知識を組み込んだいくつかの手法は、実際にはかなり時間がかかる。 これらの問題に対処するため、閉形式解によって最適化できる新しい非凸サロゲートを提案し、数十回の反復で経験的に収束する。 さらに、最適化はパラメータフリーであり、収束が証明される。 位階の緩和と比べ、上位の階階を最適化することでシュロゲートを動機付ける。 理論的には、既存の行列完備モデルと等価であることを示す。 低ランクの仮定の他に、行列の完備化に列回りの相関を活用し、スケーリング不変である適応相関学習を開発した。 さらに重要なことに、相関学習を組み込んだ後、モデルがまだ高速に収束するように閉形式解によって解くことができる。 実験は非凸代理と適応相関学習の有効性を示す。

The existing matrix completion methods focus on optimizing the relaxation of rank function such as nuclear norm, Schatten-p norm, etc. They usually need many iterations to converge. Moreover, only the low-rank property of matrices is utilized in most existing models and several methods that incorporate other knowledge are quite time-consuming in practice. To address these issues, we propose a novel non-convex surrogate that can be optimized by closed-form solutions, such that it empirically converges within dozens of iterations. Besides, the optimization is parameter-free and the convergence is proved. Compared with the relaxation of rank, the surrogate is motivated by optimizing an upper-bound of rank. We theoretically validate that it is equivalent to the existing matrix completion models. Besides the low-rank assumption, we intend to exploit the column-wise correlation for matrix completion, and thus an adaptive correlation learning, which is scaling-invariant, is developed. More importantly, after incorporating the correlation learning, the model can be still solved by closed-form solutions such that it still converges fast. Experiments show the effectiveness of the non-convex surrogate and adaptive correlation learning.
翻訳日:2022-03-07 15:51:13 公開日:2022-03-04
# ラベル雑音学習によるラベル比率からの学習

Learning from Label Proportions by Learning with Label Noise ( http://arxiv.org/abs/2203.02496v1 )

ライセンス: Link先を確認
Jianxin Zhang, Yutong Wang, Clayton Scott(参考訳) ラベルパーセンテージ(LLP)からの学習は、データポイントをバッグに分類し、各バッグ内のラベルパーセンテージをインスタンスレベルのラベルの代わりに観測する弱い教師付き分類問題である。 タスクは分類器を学習し、将来の個々のインスタンスの個々のラベルを予測することである。 マルチクラスデータに対するLPPに関する以前の研究は、理論的に基礎付けられたアルゴリズムをまだ開発していない。 本研究では,ラベルノイズによる学習の削減に基づくLLPに対する理論的基礎的なアプローチを提案する。 我々は、我々のアプローチに対して過剰なリスク境界と一般化誤差解析を確立し、また独立性のあるFC損失の理論を拡張した。 提案手法は,既存手法と比較して,複数のデータセットやアーキテクチャにわたるディープラーニングシナリオにおける経験的パフォーマンスの向上を実証する。

Learning from label proportions (LLP) is a weakly supervised classification problem where data points are grouped into bags, and the label proportions within each bag are observed instead of the instance-level labels. The task is to learn a classifier to predict the individual labels of future individual instances. Prior work on LLP for multi-class data has yet to develop a theoretically grounded algorithm. In this work, we provide a theoretically grounded approach to LLP based on a reduction to learning with label noise, using the forward correction (FC) loss of \citet{Patrini2017MakingDN}. We establish an excess risk bound and generalization error analysis for our approach, while also extending the theory of the FC loss which may be of independent interest. Our approach demonstrates improved empirical performance in deep learning scenarios across multiple datasets and architectures, compared to the leading existing methods.
翻訳日:2022-03-07 15:49:27 公開日:2022-03-04
# 機能的表情運動の空間を拡大するロボットの指導

Teaching Robots to Span the Space of Functional Expressive Motion ( http://arxiv.org/abs/2203.02091v1 )

ライセンス: Link先を確認
Arjun Sripathy, Andreea Bobu, Zhongyu Li, Koushil Sreenath, Daniel S. Brown, and Anca D. Dragan(参考訳) 私たちの目標は、ロボットがユーザの感情状態に応じて、あるいは自信レベルを表現して、モチベーションの高い方法で機能的なタスクを実行できるようにすることです。 従来の作業では、目標感情ごとにユーザフィードバックから独立したコスト関数を学習することを提案しており、ロボットは、遭遇した状況に対してタスクや環境固有の目的と共にそれを最適化することができる。 しかし、このアプローチは複数の感情をモデル化し、新しい感情に一般化できない場合に非効率である。 本研究では、感情が互いに独立していないという事実を活用する。それらは、Valence-Arousal-Dominance(VAD)の潜伏した空間を通して関連している。 私たちのキーとなるアイデアは、トラジェクトリがVADにユーザラベルでマップする方法のモデルを学ぶことです。 軌道マッピングと目標VADの間の距離を考えると、この単一のモデルはすべての感情に対するコスト関数を表現することができる。 その結果 1) すべてのユーザフィードバックが,すべての感情の学習に寄与する。 2) ロボットは, 空間内の感情の軌跡を, 予め定義された数個でなく生成することができる。 3)ロボットは,対象のVADにマッピングすることで,ユーザ生成自然言語に動機づけて応答することができる。 本稿では,この潜在空間に軌道をマッピングし,シミュレーションやユーザスタディで試す方法を対話的に学習する手法を提案する。 実験では、単純な真空ロボットとキャシー二足歩行を使用する。

Our goal is to enable robots to perform functional tasks in emotive ways, be it in response to their users' emotional states, or expressive of their confidence levels. Prior work has proposed learning independent cost functions from user feedback for each target emotion, so that the robot may optimize it alongside task and environment specific objectives for any situation it encounters. However, this approach is inefficient when modeling multiple emotions and unable to generalize to new ones. In this work, we leverage the fact that emotions are not independent of each other: they are related through a latent space of Valence-Arousal-Dominance (VAD). Our key idea is to learn a model for how trajectories map onto VAD with user labels. Considering the distance between a trajectory's mapping and a target VAD allows this single model to represent cost functions for all emotions. As a result 1) all user feedback can contribute to learning about every emotion; 2) the robot can generate trajectories for any emotion in the space instead of only a few predefined ones; and 3) the robot can respond emotively to user-generated natural language by mapping it to a target VAD. We introduce a method that interactively learns to map trajectories to this latent space and test it in simulation and in a user study. In experiments, we use a simple vacuum robot as well as the Cassie biped.
翻訳日:2022-03-07 15:48:51 公開日:2022-03-04
# GraspARL: 逆強化学習による動的グラスピング

GraspARL: Dynamic Grasping via Adversarial Reinforcement Learning ( http://arxiv.org/abs/2203.02119v1 )

ライセンス: Link先を確認
Tianhao Wu, Fangwei Zhong, Yiran Geng, Hongchen Wang, Yongjian Zhu, Yizhou Wang, Hao Dong(参考訳) ベルト上の物や生きた動物などの移動物体をグラッピングすることは、ロボット工学において重要であるが難しい課題である。 従来のアプローチでは、トレーニングのために手動で定義されたオブジェクトの動きパターンのセットに依存しており、その結果、見えないオブジェクトの軌跡への一般化が不十分である。 本研究では,動的把握のための逆強化学習フレームワーク,すなわちGraspARLを提案する。 具体的に言うと ロボットが移動体の物体を拾い上げ、敵の移動者が逃げ出す道を見つけるという「モブ・アンド・グレイプ」ゲームとして動的把持問題を定式化する。 したがって、2人のエージェントはミニマックスゲームをプレイし、強化学習によって訓練される。 これにより、トレーニング中に様々な移動軌道を自動生成することができる。 また、対向軌道で訓練されたロボットは、様々な動きパターンに一般化することができる。 シミュレータと実世界のシナリオにおける実験結果から,各手法の有効性が実証された。

Grasping moving objects, such as goods on a belt or living animals, is an important but challenging task in robotics. Conventional approaches rely on a set of manually defined object motion patterns for training, resulting in poor generalization to unseen object trajectories. In this work, we introduce an adversarial reinforcement learning framework for dynamic grasping, namely GraspARL. To be specific. we formulate the dynamic grasping problem as a 'move-and-grasp' game, where the robot is to pick up the object on the mover and the adversarial mover is to find a path to escape it. Hence, the two agents play a min-max game and are trained by reinforcement learning. In this way, the mover can auto-generate diverse moving trajectories while training. And the robot trained with the adversarial trajectories can generalize to various motion patterns. Empirical results on the simulator and real-world scenario demonstrate the effectiveness of each and good generalization of our method.
翻訳日:2022-03-07 15:48:30 公開日:2022-03-04
# 不確実環境下でのスポンサー検索広告における最適キーワードグループ化

Optimal Keywords Grouping in Sponsored Search Advertising under Uncertain Environments ( http://arxiv.org/abs/2203.02192v1 )

ライセンス: Link先を確認
Huiran Li, Yanwu Yang(参考訳) スポンサー付き検索広告では、広告主は一連のキーワード決定を行う必要がある。 これらのキーワードをキャンペーン内で複数のアドグループに分類する方法は、非常に不確実な検索広告環境のため、難しい課題である。 本稿では、予算制約と広告主のリスク耐性を考慮し、クリックスルー率と変換率をランダム変数として、キーワードグループ化のための確率的プログラミングモデルを提案する。 このモデルを解くために分岐結合アルゴリズムを開発した。 さらに,検索広告キャンペーンのレポートとログから収集した2つの実世界データセットを用いて,モデルとソリューションの有効性を評価するための計算実験を行った。 実験の結果,キーワードグループ化アプローチは5つの基準線より優れており,ほぼ安定して最適にアプローチできることがわかった。 本研究は、スポンサー付き検索広告における広告主にとって重要な管理上の洞察を照らす興味深い発見を多く生み出している。 第一に、キーワードのグルーピングは広告主にとって重要であり、特に多くのキーワードの状況において重要である。 第二に、キーワード分類決定において、マージン利益は予算が増加するにつれてマージン減少現象を示すとは限らない。 このように、広告主が追加利益を得るためにキーワードのグループ化決定の予算を増やすことは価値ある試みです。 第3に、最適なキーワードグループ化ソリューションは、さまざまな広告要素間の多面的トレードオフの結果である。 特に、より多くのキーワードをアドグループに割り当てたり、予算を増やしたりしても、高い利益をもたらすことはないでしょう。 これは、キーワードのグループ化決定の基準としてキーワードの数を取るのが賢明ではないことを広告主に警告している。

In sponsored search advertising, advertisers need to make a series of keyword decisions. Among them, how to group these keywords to form several adgroups within a campaign is a challenging task, due to the highly uncertain environment of search advertising. This paper proposes a stochastic programming model for keywords grouping, taking click-through rate and conversion rate as random variables, with consideration of budget constraints and advertisers' risk-tolerance. A branch-and-bound algorithm is developed to solve our model. Furthermore, we conduct computational experiments to evaluate the effectiveness of our model and solution, with two real-world datasets collected from reports and logs of search advertising campaigns. Experimental results illustrated that our keywords grouping approach outperforms five baselines, and it can approximately approach the optimum in a steady way. This research generates several interesting findings that illuminate critical managerial insights for advertisers in sponsored search advertising. First, keywords grouping does matter for advertisers, especially in the situation with a large number of keywords. Second, in keyword grouping decisions, the marginal profit does not necessarily show the marginal diminishing phenomenon as the budget increases. Such that, it's a worthy try for advertisers to increase their budget in keywords grouping decisions, in order to obtain additional profit. Third, the optimal keywords grouping solution is a result of multifaceted trade-off among various advertising factors. In particular, assigning more keywords into adgroups or having more budget won't certainly lead to higher profits. This suggests a warning for advertisers that it's not wise to take the number of keywords as the criterion for keywords grouping decisions.
翻訳日:2022-03-07 15:48:16 公開日:2022-03-04
# 広告判断の総合的効果--実験研究による複雑なシステムによる検索エンジン広告の考察

Aggregate effects of advertising decisions: a complex systems look at search engine advertising via an experimental study ( http://arxiv.org/abs/2203.02200v1 )

ライセンス: Link先を確認
Yanwu Yang, Xin Li, Bernard J. Jansen, Daniel Zeng(参考訳) 目的:同一のオークションや垂直産業に参入している広告主の集団的意思決定であるグループ広告決定を,exp-sea (experimental platform for search engine advertising) というシミュレーションフレームワークを通じて検証し,検索エンジン広告の文脈における集団的行動の実験的な研究を支援する。 設計:提案したシミュレーションフレームワークを検証するためにEXP-SEAを実装し,電子単語の集合的影響,競争レベル,戦略的入札行動の3つの実験を行った。 EXP-SEAは異種参加者、様々なオークション機構、ランキングと価格アルゴリズムをサポートする。 発見: 3つの実験から分かったことは (a)eWOM効果が現れると、市場利益とインプレッション数やクリック数などの広告指標が大きくなるため、ソーシャルメディアが検索エンジン広告の結果に何らかの影響を及ぼすことは確かである。 (b)競争水準は市場パフォーマンスに単調な影響を及ぼすため、検索エンジンは検索利用者のeWOMと広告主の競争の両方を奨励するインセンティブを持つ。 (c)動的な欲張り入札戦略を採用する広告主の割合の市場レベル効果を考えると、戦略的入札行動のカットオフポイントが存在する。 原点:これは、様々な広告戦略の評価と、そのメカニズムが検索市場に与える影響を推定するシミュレーションフレームワークの開発と検証を通じて、グループ決定と、検索エンジン広告の複雑な文脈における現象を探索する最初の研究の1つである。

Purpose: We model group advertising decisions, which are the collective decisions of every single advertiser within the set of advertisers who are competing in the same auction or vertical industry, and examine resulting market outcomes, via a proposed simulation framework named EXP-SEA (Experimental Platform for Search Engine Advertising) supporting experimental studies of collective behaviors in the context of search engine advertising. Design: We implement the EXP-SEA to validate the proposed simulation framework, also conduct three experimental studies on the aggregate impact of electronic word-of-mouth, the competition level, and strategic bidding behaviors. EXP-SEA supports heterogeneous participants, various auction mechanisms, and also ranking and pricing algorithms. Findings: Findings from our three experiments show that (a) both the market profit and advertising indexes such as number of impressions and number of clicks are larger when the eWOM effect presents, meaning social media certainly has some effect on search engine advertising outcomes, (b) the competition level has a monotonic increasing effect on the market performance, thus search engines have an incentive to encourage both the eWOM among search users and competition among advertisers, and (c) given the market-level effect of the percentage of advertisers employing a dynamic greedy bidding strategy, there is a cut-off point for strategic bidding behaviors. Originality: This is one of the first research works to explore collective group decisions and resulting phenomena in the complex context of search engine advertising via developing and validating a simulation framework that supports assessments of various advertising strategies and estimations of the impact of mechanisms on the search market.
翻訳日:2022-03-07 15:47:53 公開日:2022-03-04
# 議論論における決定の形式とノルム

Forms and Norms of Indecision in Argumentation Theory ( http://arxiv.org/abs/2203.02207v1 )

ライセンス: Link先を確認
Daniela Schuster(参考訳) 議論理論の主な目標は、議論を評価し、それが受け入れられるか拒否されるべきかを決定することである。 明確な答えがない場合、決定されていない第3の選択肢が考慮される必要がある。 indecisionはしばしば明示的には考慮されないが、不明瞭なケースや厄介なケースのコレクションとみなされる。 しかし、現在の哲学は、判断そのものを適切な対象とする上での強固な論点となっている。 本稿では,哲学における非決定に関する知見と,議論理論における不決定の扱いとの類似性を明らかにすることを目的とした。 不確定性の哲学形式と規範が議論理論にどのような関係があるかを調べることで、議論理論における異なる不確実な状況の理解を改善することができる。

One main goal of argumentation theory is to evaluate arguments and to determine whether they should be accepted or rejected. When there is no clear answer, a third option, being undecided, has to be taken into account. Indecision is often not considered explicitly, but rather taken to be a collection of all unclear or troubling cases. However, current philosophy makes a strong point for taking indecision itself to be a proper object of consideration. This paper aims at revealing parallels between the findings concerning indecision in philosophy and the treatment of indecision in argumentation theory. By investigating what philosophical forms and norms of indecision are involved in argumentation theory, we can improve our understanding of the different uncertain evidential situations in argumentation theory.
翻訳日:2022-03-07 15:47:21 公開日:2022-03-04
# 大型TSPインスタンスの解法におけるアントコロニー最適化効率の改善

Improving Ant Colony Optimization Efficiency for Solving Large TSP Instances ( http://arxiv.org/abs/2203.02228v1 )

ライセンス: Link先を確認
Rafa{\l} Skinderowicz(参考訳) アントコロニー最適化(Ant Colony Optimization、ACO)は、しばしば難解な最適化問題の近似解を見つけるために応用される自然に着想を得たメタヒューリスティックのファミリーである。 正確な方法よりもはるかに高速であるにもかかわらず、ACOは、特に基本的な問題固有のヒューリスティックに比較すると、禁断的に遅くなる可能性がある。 最近の研究が示すように、マルチコアCPUや専用アクセラレータによるアルゴリズムの改良や並列実装による性能向上が可能である。 本稿では,新しいACO変種であるFocused ACO(FACO)を提案する。 FACOの中核要素の1つは、新しく構築された解と選択された前の解との差の数を制御するメカニズムである。 このメカニズムにより、より焦点を絞った検索プロセスが実現し、既存のソリューションの品質を維持しながら改善点を見つけることができる。 もうひとつのメリットは、問題固有のローカル検索とのより効率的な統合だ。 トラベリングセールスマン問題の範囲に基づく計算学的研究により、FACOは大規模なTSPインスタンスを解く際に最先端のACOよりも優れていることが示された。 具体的には、tsp artインスタンスの100000ノードから200000ノードの高品質なソリューションを見つけるために、facoは8コアのコモディティcpu時間を1時間未満で必要としていた。

Ant Colony Optimization (ACO) is a family of nature-inspired metaheuristics often applied to finding approximate solutions to difficult optimization problems. Despite being significantly faster than exact methods, the ACOs can still be prohibitively slow, especially if compared to basic problem-specific heuristics. As recent research has shown, it is possible to significantly improve the performance through algorithm refinements and careful parallel implementation benefiting from multi-core CPUs and dedicated accelerators. In this paper, we present a novel ACO variant, namely the Focused ACO (FACO). One of the core elements of the FACO is a mechanism for controlling the number of differences between a newly constructed and a selected previous solution. The mechanism results in a more focused search process, allowing to find improvements while preserving the quality of the existing solution. An additional benefit is a more efficient integration with a problem-specific local search. Computational study based on a range of the Traveling Salesman Problem instances shows that the FACO outperforms the state-of-the-art ACOs when solving large TSP instances. Specifically, the FACO required less than an hour of an 8-core commodity CPU time to find high-quality solutions (within 1% from the best-known results) for TSP Art Instances ranging from 100000 to 200000 nodes.
翻訳日:2022-03-07 15:47:09 公開日:2022-03-04
# 電子カルテデータを用いた最適治療判定のための適応的半監督推論

Adaptive Semi-Supervised Inference for Optimal Treatment Decisions with Electronic Medical Record Data ( http://arxiv.org/abs/2203.02318v1 )

ライセンス: Link先を確認
Kevin Gunn, Wenbin Lu and Rui Song(参考訳) 治療体制は、患者の共変量情報に基づいて患者に治療を割り当てる規則である。 近年,関心の総合的な臨床効果を最大限に生み出す最適な治療体制の推定に注目が集まっている。 そこで本研究では,電子カルテデータを用いた半監督環境下での最適治療体制の評価について検討する。 ここでのデータは、共変量、治療、アウトカム情報を持つ一連の「ラベル付き」患者と、共変量情報しか持たないはるかに大きな「ラベル付き」患者の2つの部分からなる。 そこで本稿では, 「ラベルのない」個人を用いて, 最適治療体制のより効率的な推定方法を提案する。 提案した推定器の漸近特性とその関連推論手順を提供する。 提案手法の実証的な性能評価と,ラベル付きデータのみを用いた完全教師付き手法との比較を行った。 また、集中治療室(ICU)滞在中の低血圧エピソードの治療に関する電子カルテデータセットへの適用についても、さらなる図示を行う。

A treatment regime is a rule that assigns a treatment to patients based on their covariate information. Recently, estimation of the optimal treatment regime that yields the greatest overall expected clinical outcome of interest has attracted a lot of attention. In this work, we consider estimation of the optimal treatment regime with electronic medical record data under a semi-supervised setting. Here, data consist of two parts: a set of `labeled' patients for whom we have the covariate, treatment and outcome information, and a much larger set of `unlabeled' patients for whom we only have the covariate information. We proposes an imputation-based semi-supervised method, utilizing `unlabeled' individuals to obtain a more efficient estimator of the optimal treatment regime. The asymptotic properties of the proposed estimators and their associated inference procedure are provided. Simulation studies are conducted to assess the empirical performance of the proposed method and to compare with a fully supervised method using only the labeled data. An application to an electronic medical record data set on the treatment of hypotensive episodes during intensive care unit (ICU) stays is also given for further illustration.
翻訳日:2022-03-07 15:46:12 公開日:2022-03-04
# 33の解剖学のユニバーサルセグメンテーション

Universal Segmentation of 33 Anatomies ( http://arxiv.org/abs/2203.02098v1 )

ライセンス: Link先を確認
Pengbo Liu, Yang Deng, Ce Wang, Yuan Hui, Qian Li, Jun Li, Shiwei Luo, Mengke Sun, Quan Quan, Shuxin Yang, You Hao, Honghu Xiao, Chunpeng Zhao, Xinbao Wu, and S. Kevin Zhou(参考訳) 本稿では, 椎骨, 骨盤骨, 腹部器官など33の解剖学的構造を普遍的に区分する単一モデルを学ぶためのアプローチを提案する。 私たちのモデル構築は、以下の課題に対処する必要があります。 第一に、大規模で完全に注釈付きデータセットからそのようなモデルを学ぶのは理想的ですが、そのようなデータセットのキュレーションは事実上困難です。 したがって、複数のデータセットの結合から学習し、各データセットには部分的にラベル付けされた画像が含まれている。 第2に,部分的ラベリングのラインに沿って,背骨解析コミュニティであるctspine1kの利益のために,オープンソースの大規模な椎骨セグメンテーションデータセットを提供し,1,000以上の3dボリュームと1k以上の注釈付き椎骨を誇っている。 第三に、GPUメモリの制限により、3次元の医用画像分割タスクにおいて、我々は常に、収集したパッチを入力として使用し、学習するコンテキスト情報の量を制限する3次元ボリューム全体をトレーニングする。 そこで本研究では,隣接パッチでより多くの情報を融合するクロスパッチトランスフォーマーモジュールを提案する。 これは、例えば細長い脊椎のセグメンテーションにおいて特に重要である。 約2800の3Dボリュームを含む7つの部分ラベル付きデータセットに基づいて、そのような普遍的なモデルを学ぶことに成功した。 最後に、複数のオープンソースデータセット上でのユニバーサルモデルの評価を行い、我々のモデルが優れた一般化性能を持ち、下流タスクの基盤となる可能性を証明した。

In the paper, we present an approach for learning a single model that universally segments 33 anatomical structures, including vertebrae, pelvic bones, and abdominal organs. Our model building has to address the following challenges. Firstly, while it is ideal to learn such a model from a large-scale, fully-annotated dataset, it is practically hard to curate such a dataset. Thus, we resort to learn from a union of multiple datasets, with each dataset containing the images that are partially labeled. Secondly, along the line of partial labelling, we contribute an open-source, large-scale vertebra segmentation dataset for the benefit of spine analysis community, CTSpine1K, boasting over 1,000 3D volumes and over 11K annotated vertebrae. Thirdly, in a 3D medical image segmentation task, due to the limitation of GPU memory, we always train a model using cropped patches as inputs instead a whole 3D volume, which limits the amount of contextual information to be learned. To this, we propose a cross-patch transformer module to fuse more information in adjacent patches, which enlarges the aggregated receptive field for improved segmentation performance. This is especially important for segmenting, say, the elongated spine. Based on 7 partially labeled datasets that collectively contain about 2,800 3D volumes, we successfully learn such a universal model. Finally, we evaluate the universal model on multiple open-source datasets, proving that our model has a good generalization performance and can potentially serve as a solid foundation for downstream tasks.
翻訳日:2022-03-07 15:44:25 公開日:2022-03-04
# 生成的敵対的自己模倣学習によるカテゴリーレベル一般化型オブジェクト操作政策の実証

Learning Category-Level Generalizable Object Manipulation Policy via Generative Adversarial Self-Imitation Learning from Demonstrations ( http://arxiv.org/abs/2203.02107v1 )

ライセンス: Link先を確認
Hao Shen, Weikang Wan and He Wang(参考訳) 汎用的なオブジェクト操作スキルは、知的で多機能なロボットが現実世界の複雑な場面で作業するために不可欠である。 近年の強化学習の進歩にもかかわらず、幾何学的に多彩な調音対象のカテゴリを扱える汎用的な操作ポリシーを学ぶことは依然として非常に困難である。 本研究では,手作りの密集した報酬ではなく,端末報酬のみを想定した,タスクに依存しない模倣学習を通じて,このカテゴリレベルのオブジェクト操作ポリシー学習問題に取り組む。 この新奇で難解なポリシ学習問題を考えると,先行した模倣学習アルゴリズムを失敗させる可能性のあるいくつかの重要な問題を特定し,未知のインスタンスへの一般化を妨げる。 次に, 実演から生成的対人自己イメージ学習, 差別化の進展, エキスパートバッファのインスタンスバランスなど, 課題を正確に把握し, 課題によらずカテゴリレベルの操作政策学習に有効である, など, 一般的な手法を提案する。 マニススキルベンチマークを用いた実験は,すべてのタスクにおいて著しい改善を示し,各手法の寄与をさらに検証した。

Generalizable object manipulation skills are critical for intelligent and multi-functional robots to work in real-world complex scenes. Despite the recent progress in reinforcement learning, it is still very challenging to learn a generalizable manipulation policy that can handle a category of geometrically diverse articulated objects. In this work, we tackle this category-level object manipulation policy learning problem via imitation learning in a task-agnostic manner, where we assume no handcrafted dense rewards but only a terminal reward. Given this novel and challenging generalizable policy learning problem, we identify several key issues that can fail the previous imitation learning algorithms and hinder the generalization to unseen instances. We then propose several general but critical techniques, including generative adversarial self-imitation learning from demonstrations, progressive growing of discriminator, and instance-balancing for expert buffer, that accurately pinpoints and tackles these issues and can benefit category-level manipulation policy learning regardless of the tasks. Our experiments on ManiSkill benchmarks demonstrate a remarkable improvement on all tasks and our ablation studies further validate the contribution of each proposed technique.
翻訳日:2022-03-07 15:42:52 公開日:2022-03-04
# mixcl:pixelラベルはコントラスト学習に重要

MixCL: Pixel label matters to contrastive learning ( http://arxiv.org/abs/2203.02114v1 )

ライセンス: Link先を確認
Jun Li, Quan Quan and S. Kevin Zhou(参考訳) コントラスト学習と自己指導技術はここ数年,コンピュータビジョンにおいて普及している。 医用画像解析には必須であり、しばしば注釈の欠如で悪名高い。 自然画像タスクに適用される既存の自己監督手法は、ラベルなしデータのプロキシタスクの設計に重点を置いている。 例えば、対照的な学習はしばしば、画像とその変換されたバージョンが同一のアイデンティティを共有するという事実に基づいている。 しかし、pixelアノテーションには医療画像分割のための貴重な情報が多く含まれており、対照的な学習では無視されている。 本研究では,画像識別性と画素ラベルを併用した混合コントラスト学習(mixcl)と呼ばれる新しい事前学習フレームワークを提案する。 したがって、事前訓練されたモデルは、医学的イメージを特徴付けるより強固な表現を持つ。 Spleen のラベル付きデータ 5% と BTVC の 15% を微調整に用いた場合, ベースラインを5.28% と 14.12% のディス係数で改良し, 提案手法の有効性を実証した。

Contrastive learning and self-supervised techniques have gained prevalence in computer vision for the past few years. It is essential for medical image analysis, which is often notorious for its lack of annotations. Most existing self-supervised methods applied in natural imaging tasks focus on designing proxy tasks for unlabeled data. For example, contrastive learning is often based on the fact that an image and its transformed version share the same identity. However, pixel annotations contain much valuable information for medical image segmentation, which is largely ignored in contrastive learning. In this work, we propose a novel pre-training framework called Mixed Contrastive Learning (MixCL) that leverages both image identities and pixel labels for better modeling by maintaining identity consistency, label consistency, and reconstruction consistency together. Consequently, thus pre-trained model has more robust representations that characterize medical images. Extensive experiments demonstrate the effectiveness of the proposed method, improving the baseline by 5.28% and 14.12% in Dice coefficient when 5% labeled data of Spleen and 15% of BTVC are used in fine-tuning, respectively.
翻訳日:2022-03-07 15:42:29 公開日:2022-03-04
# HDNet:スペクトル圧縮イメージングのための高分解能デュアルドメイン学習

HDNet: High-resolution Dual-domain Learning for Spectral Compressive Imaging ( http://arxiv.org/abs/2203.02149v1 )

ライセンス: Link先を確認
Xiaowan Hu, Yuanhao Cai, Jing Lin, Haoqian Wang, Xin Yuan, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) ディープラーニングの急速な発展は、ハイパースペクトル画像(HSI)のエンドツーエンド再構成のためのより良いソリューションを提供する。 しかし,既存の学習手法には2つの大きな欠陥がある。 第一に、自己注意型のネットワークは通常、モデルパフォーマンスと複雑性のバランスをとるために内部解像度を犠牲にし、きめ細かい高解像度(HR)の機能を失う。 第二に、空間スペクトル領域学習(SDL)に焦点をあてた最適化が理想的な解に収束しても、再構成されたHSIと真理の間には大きな視覚的違いがある。 そこで本研究では,HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。 一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。 一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。 動的fdl監督により、モデルは細粒度周波数を再構成し、ピクセルレベルの損失による過剰な平滑化と歪みを補償する。 HDNetにおけるHRレベルの注意と周波数レベルの改善は、HSIの知覚品質を相互に促進する。 広範囲な定量的・定性評価実験により,シミュレーションおよび実hsiデータセット上でのsoma性能が得られた。 コードとモデルはリリースされる。

The rapid development of deep learning provides a better solution for the end-to-end reconstruction of hyperspectral image (HSI). However, existing learning-based methods have two major defects. Firstly, networks with self-attention usually sacrifice internal resolution to balance model performance against complexity, losing fine-grained high-resolution (HR) features. Secondly, even if the optimization focusing on spatial-spectral domain learning (SDL) converges to the ideal solution, there is still a significant visual difference between the reconstructed HSI and the truth. Therefore, we propose a high-resolution dual-domain learning network (HDNet) for HSI reconstruction. On the one hand, the proposed HR spatial-spectral attention module with its efficient feature fusion provides continuous and fine pixel-level features. On the other hand, frequency domain learning (FDL) is introduced for HSI reconstruction to narrow the frequency domain discrepancy. Dynamic FDL supervision forces the model to reconstruct fine-grained frequencies and compensate for excessive smoothing and distortion caused by pixel-level losses. The HR pixel-level attention and frequency-level refinement in our HDNet mutually promote HSI perceptual quality. Extensive quantitative and qualitative evaluation experiments show that our method achieves SOTA performance on simulated and real HSI datasets. Code and models will be released.
翻訳日:2022-03-07 15:42:08 公開日:2022-03-04
# DetFlowTrack:オブジェクト検出とシーンフロー推定の同時最適化に基づく3次元多物体追跡

DetFlowTrack: 3D Multi-object Tracking based on Simultaneous Optimization of Object Detection and Scene Flow Estimation ( http://arxiv.org/abs/2203.02157v1 )

ライセンス: Link先を確認
Yueling Shen and Guangming Wang and Hesheng Wang(参考訳) 3D Multi-Object Tracking (MOT) は無人車両認識モジュールの重要な部分である。 ほとんどの方法は独立してオブジェクト検出とデータアソシエーションを最適化する。 これらの手法によりネットワーク構造が複雑になり,mot精度の向上が制限される。 オブジェクト検出とシーンフロー推定の同時最適化に基づく3次元MOTフレームワークを提案する。 このフレームワークでは, フレーム間アソシエーションの誤りを解消するために, 検出・誘導シーンフローモジュールを提案する。 特に回転を伴う動きの場合のより正確なシーンフローラベルについて,ボックス変換に基づくシーンフローグラウンド真理計算法を提案する。 KITTI MOTデータセットの実験結果は、回転を伴う極運動下での最先端とロバスト性に対する競争結果を示している。

3D Multi-Object Tracking (MOT) is an important part of the unmanned vehicle perception module. Most methods optimize object detection and data association independently. These methods make the network structure complicated and limit the improvement of MOT accuracy. we proposed a 3D MOT framework based on simultaneous optimization of object detection and scene flow estimation. In the framework, a detection-guidance scene flow module is proposed to relieve the problem of incorrect inter-frame assocation. For more accurate scene flow label especially in the case of motion with rotation, a box-transformation-based scene flow ground truth calculation method is proposed. Experimental results on the KITTI MOT dataset show competitive results over the state-of-the-arts and the robustness under extreme motion with rotation.
翻訳日:2022-03-07 15:41:46 公開日:2022-03-04
# Time-to-Label:自己監督型モノクロ3次元物体検出のための時間一貫性

Time-to-Label: Temporal Consistency for Self-Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2203.02193v1 )

ライセンス: Link先を確認
Issa Mouawad, Nikolas Brasch, Fabian Manhardt, Federico Tombari, Francesca Odone(参考訳) 単眼の3Dオブジェクト検出は、コストの利点とRGBカメラの普及により注目されている。 最近の進歩と大規模なデータ取得能力にもかかわらず、アノテーションのコストと複雑さは、教師付き設定で3Dオブジェクト検出データセットのサイズを制限する。 一方,自己教師付き手法は,プリテキストタスクやさまざまな一貫性制約に依存するディープネットワークのトレーニングを目標としている。 さらに、他の3次元知覚タスク(深度推定など)は、自己超越信号として時間的先行の利点を示している。 本研究では,物体のレベルでの時間的一貫性が,物理的運動に強く先行する上で重要な監督信号を与えると主張する。 具体的には,この一貫性を生かした自己教師付き損失に加えて,ノイズの多いポーズ予測を洗練し,高品質な擬似ラベルを導出する。 提案手法の有効性を評価するため, 実データから生成した擬似ラベルを用いて, 合成訓練したモノクル3次元物体検出モデルを微調整する。 標準KITTI3Dベンチマークによる評価は,本手法が他の単分子自己監督型および教師型手法と比較して競合性能に達することを示した。

Monocular 3D object detection continues to attract attention due to the cost benefits and wider availability of RGB cameras. Despite the recent advances and the ability to acquire data at scale, annotation cost and complexity still limit the size of 3D object detection datasets in the supervised settings. Self-supervised methods, on the other hand, aim at training deep networks relying on pretext tasks or various consistency constraints. Moreover, other 3D perception tasks (such as depth estimation) have shown the benefits of temporal priors as a self-supervision signal. In this work, we argue that the temporal consistency on the level of object poses, provides an important supervision signal given the strong prior on physical motion. Specifically, we propose a self-supervised loss which uses this consistency, in addition to render-and-compare losses, to refine noisy pose predictions and derive high-quality pseudo labels. To assess the effectiveness of the proposed method, we finetune a synthetically trained monocular 3D object detection model using the pseudo-labels that we generated on real data. Evaluation on the standard KITTI3D benchmark demonstrates that our method reaches competitive performance compared to other monocular self-supervised and supervised methods.
翻訳日:2022-03-07 15:41:34 公開日:2022-03-04
# 束調整における最適化のための量子レベンバーグ-マーカルトアルゴリズム

Quantum Levenberg--Marquardt Algorithm for optimization in Bundle Adjustment ( http://arxiv.org/abs/2203.02311v1 )

ライセンス: Link先を確認
Luca Bernecker and Andrea Idini(参考訳) 本稿では,量子最適化アルゴリズムを開発し,シミュレーション量子コンピュータを用いてバンドル調整問題を解く。 バンドル調整は、カメラのポーズとセンサー特性を最適化し、3次元構造と観察パラメータを最適に再構築するプロセスである。 この問題は、レバンス-マルカルトアルゴリズムのいくつかの実装を用いてしばしば解決される。この場合、正規方程式の線形系を解く量子アルゴリズムを実装し、レバンス-マルカルトにおける最適化ステップを計算する。 この手順は、バンドル調整のアルゴリズム的複雑さの現在のボトルネックである。 提案する量子アルゴリズムは、点数に関してこの演算の複雑さを劇的に減少させる。 本研究では,バンドル調整用玩具モデルの9つの構成を10点2カメラに限定して検討した。 この最適化問題はsparse levenberg-marquardtアルゴリズムと量子実装を用いて解決される。 結果として得られた解は、収束速度が向上し、理論的な速度アップと、現在の量子コンピュータ上でアルゴリズムをうまく動作させる確率が解析される。 提案した量子アルゴリズムは、コンピュータビジョン、特にバンドル調整における複雑な最適化問題を解くために、量子コンピューティングアルゴリズムを使用するための基礎的な実装である。

In this paper we develop a quantum optimization algorithm and use it to solve the bundle adjustment problem with a simulated quantum computer. Bundle adjustment is the process of optimizing camera poses and sensor properties to best reconstruct the three-dimensional structure and viewing parameters. This problem is often solved using some implementation of the Levenberg--Marquardt algorithm. In this case we implement a quantum algorithm for solving the linear system of normal equations that calculates the optimization step in Levenberg--Marquardt. This procedure is the current bottleneck in the algorithmic complexity of bundle adjustment. The proposed quantum algorithm dramatically reduces the complexity of this operation with respect to the number of points. We investigate 9 configurations of a toy-model for bundle adjustment, limited to 10 points and 2 cameras. This optimization problem is solved both by using the sparse Levenberg-Marquardt algorithm and our quantum implementation. The resulting solutions are presented, showing an improved rate of convergence, together with an analysis of the theoretical speed up and the probability of running the algorithm successfully on a current quantum computer. The presented quantum algorithm is a seminal implementation of using quantum computing algorithms in order to solve complex optimization problems in computer vision, in particular bundle adjustment, which offers several avenues of further investigations.
翻訳日:2022-03-07 15:41:14 公開日:2022-03-04
# ハイブリッド2D-3Dネットワークを用いた網膜CT画像の3次元コヒーレント層分割のための同時アライメントと表面回帰

Simultaneous Alignment and Surface Regression Using Hybrid 2D-3D Networks for 3D Coherent Layer Segmentation of Retina OCT Images ( http://arxiv.org/abs/2203.02390v1 )

ライセンス: Link先を確認
Hong Liu, Dong Wei, Donghuan Lu, Yuexiang Li, Kai Ma, Liansheng Wang, Yefeng Zheng(参考訳) 光コヒーレンストモグラフィー(OCT)解析において網膜層の自動表面分画は重要かつ困難である。 近年,この課題に対して多くの深層学習手法が開発され,性能が著しく向上している。 しかし、OCTデータのBスキャン間の空間的ギャップと潜在的なミスマッチのため、これらは全て個々のBスキャンの2次元分割に基づいており、Bスキャン全体の連続性情報を失う可能性がある。 さらに、網膜層の3次元表面は、定量的画像解析において重要な診断情報を提供することができる。 本研究では,ハイブリッド2D-3D畳み込みニューラルネットワーク(CNN)を用いた新しいフレームワークを提案し,OCTから連続した3次元網膜層表面を得る。 個々のBスキャンの2次元特徴は、2次元畳み込みからなるエンコーダによって抽出される。 これらの2次元特徴は、空間トランスモジュールを介して結合された2つの3次元デコーダによるアライメント変位場と層分割を生成するために使用される。 フレームワーク全体がエンドツーエンドでトレーニングされる。 私たちの知る限りでは、cnnに基づくボリューム型oct画像における3d網膜層セグメンテーションを試みる最初の研究です。 公開データセットを用いた実験により,本フレームワークは,階層分割精度とクロスBスキャン3D連続性の両方の観点から,最先端の2D手法よりも優れた結果が得られた。

Automated surface segmentation of retinal layer is important and challenging in analyzing optical coherence tomography (OCT). Recently, many deep learning based methods have been developed for this task and yield remarkable performance. However, due to large spatial gap and potential mismatch between the B-scans of OCT data, all of them are based on 2D segmentation of individual B-scans, which may loss the continuity information across the B-scans. In addition, 3D surface of the retina layers can provide more diagnostic information, which is crucial in quantitative image analysis. In this study, a novel framework based on hybrid 2D-3D convolutional neural networks (CNNs) is proposed to obtain continuous 3D retinal layer surfaces from OCT. The 2D features of individual B-scans are extracted by an encoder consisting of 2D convolutions. These 2D features are then used to produce the alignment displacement field and layer segmentation by two 3D decoders, which are coupled via a spatial transformer module. The entire framework is trained end-to-end. To the best of our knowledge, this is the first study that attempts 3D retinal layer segmentation in volumetric OCT images based on CNNs. Experiments on a publicly available dataset show that our framework achieves superior results to state-of-the-art 2D methods in terms of both layer segmentation accuracy and cross-B-scan 3D continuity, thus offering more clinical values than previous works.
翻訳日:2022-03-07 15:40:53 公開日:2022-03-04
# コピー検出パターンのモバイル認証

Mobile authentication of copy detection patterns ( http://arxiv.org/abs/2203.02397v1 )

ライセンス: Link先を確認
Olga Taran, Joakim Tutt, Taras Holotyak, Roman Chaban, Slavi Bonev, Slava Voloshynovskiy(参考訳) 近年では、コピー検出パターン(cdp)が、モノのインターネットやブランド保護アプリケーションにとって非常に興味を寄せている物理的世界とデジタル世界の間のリンクとして、多くの注目を集めている。 しかし、無許可の当事者による再現性やクローン性の観点からのCDPの安全性はほとんど解明されていない。 本稿では, 物理オブジェクトの偽造防止問題に対処し, 機械学習の観点から, 現代のCDPの不正コピーに対する認証的側面と抵抗性を検討することを目的とする。 工業用プリンタにコードが印刷され、最新の携帯電話を介して定期的な光条件で登録される場合、実生活検証条件下で信頼性の高い認証に特別な注意が払われる。 cdpの認証面に関する理論的・実証的研究は,4種類のコピー・フェイクについて,その観点から検討した。 (i)ベースラインアプローチとしての多クラス指導型分類及び (ii)実生活の応用事例としての一級分類 以上の結果から,最新の携帯電話の機械学習手法と技術的能力は,携帯端末上での偽造品のクラスにおけるCDPの確実な認証を可能にした。

In the recent years, the copy detection patterns (CDP) attracted a lot of attention as a link between the physical and digital worlds, which is of great interest for the internet of things and brand protection applications. However, the security of CDP in terms of their reproducibility by unauthorized parties or clonability remains largely unexplored. In this respect this paper addresses a problem of anti-counterfeiting of physical objects and aims at investigating the authentication aspects and the resistances to illegal copying of the modern CDP from machine learning perspectives. A special attention is paid to a reliable authentication under the real life verification conditions when the codes are printed on an industrial printer and enrolled via modern mobile phones under regular light conditions. The theoretical and empirical investigation of authentication aspects of CDP is performed with respect to four types of copy fakes from the point of view of (i) multi-class supervised classification as a baseline approach and (ii) one-class classification as a real-life application case. The obtained results show that the modern machine-learning approaches and the technical capacities of modern mobile phones allow to reliably authenticate CDP on end-user mobile phones under the considered classes of fakes.
翻訳日:2022-03-07 15:40:27 公開日:2022-03-04
# (参考訳) AutoMap: 臨床予測モデル展開のための自動医療コードマッピング

AutoMap: Automatic Medical Code Mapping for Clinical Prediction Model Deployment ( http://arxiv.org/abs/2203.02446v1 )

ライセンス: CC BY 4.0
Zhenbang Wu, Cao Xiao, Lucas M Glass, David M Liebovitz, Jimeng Sun(参考訳) ソースサイトからのデータに基づいてトレーニングされたディープラーニングモデルを考えると、モデルをターゲット病院に自動的にデプロイする方法は何か? 病院間における異種医療符号化システムへの対応 標準的なアプローチは、既存の医療コードマッピングツールに依存している。 この問題に対処するために,我々はAutoMapを提案する。(1)オントロジーレベルのアライメント:オントロジー構造を利用して,ソースとターゲットの医療用コーディングシステム間の粗いアライメントを学習する;(2)コードレベルのリファインメント:教師の学習フレームワークを用いて,下流のタスクの詳細なコードレベルでアライメントを洗練する。 実世界のEHRデータセットであるeICUとMIMIC-IIIの2つの深層学習モデルを用いてAutoMapを評価する。 その結果、AutoMapは死亡予測の相対的な改善を3.9%(AUC-ROC)と8.7%(AUC-PR)に、そして推定の4.7%(AUC-ROC)と3.7%(F1)に達成している。 さらに,automapは符号化システム間の正確なマッピングを提供することができることを示す。 最後に, (1) 全く異なるコーディングシステム間のマッピングと (2) 全く異なる病院間のマッピングという,2つの困難なシナリオにautomapが適応できることを実証する。

Given a deep learning model trained on data from a source site, how to deploy the model to a target hospital automatically? How to accommodate heterogeneous medical coding systems across different hospitals? Standard approaches rely on existing medical code mapping tools, which have significant practical limitations. To tackle this problem, we propose AutoMap to automatically map the medical codes across different EHR systems in a coarse-to-fine manner: (1) Ontology-level Alignment: We leverage the ontology structure to learn a coarse alignment between the source and target medical coding systems; (2) Code-level Refinement: We refine the alignment at a fine-grained code level for the downstream tasks using a teacher-student framework. We evaluate AutoMap using several deep learning models with two real-world EHR datasets: eICU and MIMIC-III. Results show that AutoMap achieves relative improvements up to 3.9% (AUC-ROC) and 8.7% (AUC-PR) for mortality prediction, and up to 4.7% (AUC-ROC) and 3.7% (F1) for length-of-stay estimation. Further, we show that AutoMap can provide accurate mapping across coding systems. Lastly, we demonstrate that AutoMap can adapt to the two challenging scenarios: (1) mapping between completely different coding systems and (2) between completely different hospitals.
翻訳日:2022-03-07 15:39:41 公開日:2022-03-04
# パン光学レイアウト生成を用いたインタラクティブ画像合成

Interactive Image Synthesis with Panoptic Layout Generation ( http://arxiv.org/abs/2203.02104v1 )

ライセンス: Link先を確認
Bo Wang, Tao Wu, Minfeng Zhu, Peng Du(参考訳) ユーザ誘導入力からのインタラクティブ画像合成は、ユーザが生成した画像のシーン構造を容易かつ容易に制御したい場合の課題である。インタラクティブシーンでリアルな偽画像を得るためには、レイアウトベースの画像合成アプローチでは顕著な進歩がなされているが、既存の手法では高精度な入力が必要である。 境界ボックスの配置が摂動を受ける場合、レイアウトベースのモデルは構築されたセマンティックレイアウトの「欠落領域」に悩まされ、生成した画像には望ましくないアーティファクトが生じる。 本研究では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。 PLGANは、オブジェクトカテゴリをアモルファスな境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティカル理論を採用しており、モノとインスタンスのレイアウトは別々のブランチを通して構築され、後にパノプティカルなレイアウトに融合される。 特に、モノのレイアウトはアモルファスな形を取り、インスタンスのレイアウトで残された領域を埋めることができます。 我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルと比較実験を行った。 plganの利点は視覚的に示されるだけでなく、インセプションスコア、fr\'echetインセプション距離、分類精度スコア、カバレッジの観点から定量的に検証されている。

Interactive image synthesis from user-guided input is a challenging task when users wish to control the scene structure of a generated image with ease.Although remarkable progress has been made on layout-based image synthesis approaches, in order to get realistic fake image in interactive scene, existing methods require high-precision inputs, which probably need adjustment several times and are unfriendly to novice users. When placement of bounding boxes is subject to perturbation, layout-based models suffer from "missing regions" in the constructed semantic layouts and hence undesirable artifacts in the generated images. In this work, we propose Panoptic Layout Generative Adversarial Networks (PLGAN) to address this challenge. The PLGAN employs panoptic theory which distinguishes object categories between "stuff" with amorphous boundaries and "things" with well-defined shapes, such that stuff and instance layouts are constructed through separate branches and later fused into panoptic layouts. In particular, the stuff layouts can take amorphous shapes and fill up the missing regions left out by the instance layouts. We experimentally compare our PLGAN with state-of-the-art layout-based models on the COCO-Stuff, Visual Genome, and Landscape datasets. The advantages of PLGAN are not only visually demonstrated but quantitatively verified in terms of inception score, Fr\'echet inception distance, classification accuracy score, and coverage.
翻訳日:2022-03-07 15:14:06 公開日:2022-03-04
# 自律走行における単眼3次元物体検出のための擬似ステレオ

Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving ( http://arxiv.org/abs/2203.02112v1 )

ライセンス: Link先を確認
Yi-Nan Chen and Hang Dai and Yong Ding(参考訳) 擬似LiDAR3D検出器は、深度推定ネットワークによる深度知覚能力を高め、LiDARベースの3D検出アーキテクチャを用いて、単分子3D検出において顕著な進歩を遂げた。 高度なステレオ3D検出器は、3Dオブジェクトを正確にローカライズすることもできる。 ステレオビューにおける画像対画像生成のギャップは、画像対LiDAR生成のギャップよりもはるかに小さい。 そこで我々はPseudo-Stereo 3D検出フレームワークを提案し,画像から3Dオブジェクトを検出するために,画像レベル生成,特徴レベル生成,特徴クロンを含む3つの新しい仮想ビュー生成手法を提案する。 深度認識学習は特徴レベルの仮想ビュー生成にのみ有効であり,推定深度マップは我々のフレームワークにおける画像レベルと特徴レベルの両方に有効であることを示す。 本稿では,分散特徴写像からサンプリングした動的カーネルによる不均一な動的畳み込みを提案し,仮想画像特徴を生成する単一画像から特徴を適応的にフィルタリングすることにより,深さ推定誤差による特徴劣化を緩和する。 2021年11月18日、我々のPseudo-Stereo 3D検出フレームワークは、KITTI-3Dベンチマークで発表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインした。 コードはhttps://github.com/revisitq/Pseudo-Stereo-3Dで公開されている。

Pseudo-LiDAR 3D detectors have made remarkable progress in monocular 3D detection by enhancing the capability of perceiving depth with depth estimation networks, and using LiDAR-based 3D detection architectures. The advanced stereo 3D detectors can also accurately localize 3D objects. The gap in image-to-image generation for stereo views is much smaller than that in image-to-LiDAR generation. Motivated by this, we propose a Pseudo-Stereo 3D detection framework with three novel virtual view generation methods, including image-level generation, feature-level generation, and feature-clone, for detecting 3D objects from a single image. Our analysis of depth-aware learning shows that the depth loss is effective in only feature-level virtual view generation and the estimated depth map is effective in both image-level and feature-level in our framework. We propose a disparity-wise dynamic convolution with dynamic kernels sampled from the disparity feature map to filter the features adaptively from a single image for generating virtual image features, which eases the feature degradation caused by the depth estimation errors. Till submission (November 18, 2021), our Pseudo-Stereo 3D detection framework ranks 1st on car, pedestrian, and cyclist among the monocular 3D detectors with publications on the KITTI-3D benchmark. The code is released at https://github.com/revisitq/Pseudo-Stereo-3D.
翻訳日:2022-03-07 15:13:38 公開日:2022-03-04
# ACVNet: 正確なステレオマッチングのための注意結合ボリューム

ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo Matching ( http://arxiv.org/abs/2203.02146v1 )

ライセンス: Link先を確認
Gangwei Xu, Junda Cheng, Peng Guo, Xin Yang(参考訳) ステレオマッチングは多くのビジョンとロボティクスアプリケーションのための基本的なビルディングブロックである。 高い精度と効率のステレオマッチングには,情報的かつ簡潔なコストボリューム表現が不可欠である。 本稿では,相関手がかりから注意重みを生成し,冗長な情報を抑制し,連結量におけるマッチング関連情報を強化する新しいコストボリューム構築手法を提案する。 テクスチャレス領域においても,異なる領域におけるマッチングコストの特異性を改善するために,信頼性の高い注意重みを生成するため,マルチレベル適応パッチマッチングを提案する。 提案するコストボリュームは注意結合量(acv)と呼ばれ、ほとんどのステレオマッチングネットワークにシームレスに埋め込むことができ、結果として得られるネットワークはより軽量な集約ネットワークを使用でき、一方、集約ネットワークの1/25パラメータのみを使用することでgwcnetの精度が向上する。 さらに,ACVに基づく高精度ネットワーク(ACVNet)を設計し,いくつかのベンチマークで最先端の性能を実現する。

Stereo matching is a fundamental building block for many vision and robotics applications. An informative and concise cost volume representation is vital for stereo matching of high accuracy and efficiency. In this paper, we present a novel cost volume construction method which generates attention weights from correlation clues to suppress redundant information and enhance matching-related information in the concatenation volume. To generate reliable attention weights, we propose multi-level adaptive patch matching to improve the distinctiveness of the matching cost at different disparities even for textureless regions. The proposed cost volume is named attention concatenation volume (ACV) which can be seamlessly embedded into most stereo matching networks, the resulting networks can use a more lightweight aggregation network and meanwhile achieve higher accuracy, e.g. using only 1/25 parameters of the aggregation network can achieve higher accuracy for GwcNet. Furthermore, we design a highly accurate network (ACVNet) based on our ACV, which achieves state-of-the-art performance on several benchmarks.
翻訳日:2022-03-07 15:13:15 公開日:2022-03-04
# 部分ラベルを用いたマルチラベル画像認識のためのセマンティック・アウェア表現ブレンド

Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels ( http://arxiv.org/abs/2203.02172v1 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Hefeng Wu, Liang Lin(参考訳) 部分ラベルによる複数ラベル画像認識モデルのトレーニングは,画像毎に未知のラベルしか認識されないが,極めて困難かつ実用的な課題である。 この課題に対処するために、現在のアルゴリズムは主に事前訓練された分類や類似性モデルに依存し、未知のラベルに対して擬似ラベルを生成する。 しかし、これらのアルゴリズムはモデルのトレーニングに十分なマルチラベルアノテーションに依存しており、特に低ラベル率で性能が低下する。 本研究では,未知のラベルを補うために,未知のラベルの情報を伝達するために,各画像にカテゴリ固有の表現をブレンドし,事前学習モデルを取り除き,十分なアノテーションに依存しない手法を提案する。 この目的のために、インスタンスレベルとプロトタイプレベルのセマンティクス表現を利用して未知のラベルを2つの補完モジュールで補完する統一的なセマンティクス・アウェア表現ブレンディング(sarb)フレームワークを設計する。 1) インスタンスレベルの表現ブレンディング(ILRB)モジュールは、未知ラベルの表現と未知ラベルの表現を別の画像にブレンドして、これらの未知ラベルを補完する。 2)プロトタイプレベルの表現ブレンディング(PLRB)モジュールは,各カテゴリのより安定した表現プロトタイプを学習し,未知ラベルの表現と対応するラベルのプロトタイプをブレンドし,それらのラベルを補完する。 MS-COCO、Visual Genome、Pascal VOC 2007データセットの大規模な実験によると、提案されたSARBフレームワークは、既知のラベル比率が10%である3つのデータセットで、mAPの改善が4.6%、4.%、22%である、すべての既知のラベル比率設定において、現在の主要な競合相手よりも優れたパフォーマンスが得られる。 コードはhttps://github.com/HCPLab-SYSU/HCP-MLR-PLで公開されている。

Training the multi-label image recognition models with partial labels, in which merely some labels are known while others are unknown for each image, is a considerably challenging and practical task. To address this task, current algorithms mainly depend on pre-training classification or similarity models to generate pseudo labels for the unknown labels. However, these algorithms depend on sufficient multi-label annotations to train the models, leading to poor performance especially with low known label proportion. In this work, we propose to blend category-specific representation across different images to transfer information of known labels to complement unknown labels, which can get rid of pre-training models and thus does not depend on sufficient annotations. To this end, we design a unified semantic-aware representation blending (SARB) framework that exploits instance-level and prototype-level semantic representation to complement unknown labels by two complementary modules: 1) an instance-level representation blending (ILRB) module blends the representations of the known labels in an image to the representations of the unknown labels in another image to complement these unknown labels. 2) a prototype-level representation blending (PLRB) module learns more stable representation prototypes for each category and blends the representation of unknown labels with the prototypes of corresponding labels to complement these labels. Extensive experiments on the MS-COCO, Visual Genome, Pascal VOC 2007 datasets show that the proposed SARB framework obtains superior performance over current leading competitors on all known label proportion settings, i.e., with the mAP improvement of 4.6%, 4.%, 2.2% on these three datasets when the known label proportion is 10%. Codes are available at https://github.com/HCPLab-SYSU/HCP-MLR-PL.
翻訳日:2022-03-07 15:10:45 公開日:2022-03-04
# 非剛性点集合登録のための部分ワッサーシュタイン逆数ネットワーク

Partial Wasserstein Adversarial Network for Non-rigid Point Set Registration ( http://arxiv.org/abs/2203.02227v1 )

ライセンス: Link先を確認
Zi-Ming Wang, Nan Xue, Ling Lei, Gui-Song Xia(参考訳) 2つの点集合が与えられた場合、登録の問題は一方が他方と一致する変換を回復することである。 この課題は、多数の外れ値、未知の非剛性変形、および点集合の大きい大きさの存在によって困難である。 外れ値に対する強固なロバスト性を得るために、登録問題を部分分布マッチング(pdm)問題として定式化し、そこでは計量空間内の点集合で表される分布を部分的に一致させることを目標とする。 大規模な点集合を扱うために,効率的な部分的ワッサースタイン-1(PW)の相違を利用したスケーラブルなPDMアルゴリズムを提案する。 具体的には、PW離散性に対するカントロビッチ・ルビンシュタイン双対性を求め、その勾配を明示的に計算できることを示す。 これらの結果に基づき、ニューラルネットワークによるPWの差を近似し、勾配降下による最小化が可能な部分的なワッサーシュタイン対向ネットワーク(PWAN)を提案する。 さらに、非リジッド変換のための効率的なコヒーレンス正則化器も組み込まれており、非現実的変形を避けることができる。 我々は,PWANを実用点集合登録タスクで評価し,提案したPWANが最先端の手法よりも堅牢で,スケーラブルで,良好な性能を示すことを示す。

Given two point sets, the problem of registration is to recover a transformation that matches one set to the other. This task is challenging due to the presence of the large number of outliers, the unknown non-rigid deformations and the large sizes of point sets. To obtain strong robustness against outliers, we formulate the registration problem as a partial distribution matching (PDM) problem, where the goal is to partially match the distributions represented by point sets in a metric space. To handle large point sets, we propose a scalable PDM algorithm by utilizing the efficient partial Wasserstein-1 (PW) discrepancy. Specifically, we derive the Kantorovich-Rubinstein duality for the PW discrepancy, and show its gradient can be explicitly computed. Based on these results, we propose a partial Wasserstein adversarial network (PWAN), which is able to approximate the PW discrepancy by a neural network, and minimize it by gradient descent. In addition, it also incorporates an efficient coherence regularizer for non-rigid transformations to avoid unrealistic deformations. We evaluate PWAN on practical point set registration tasks, and show that the proposed PWAN is robust, scalable and performs more favorably than the state-of-the-art methods.
翻訳日:2022-03-07 15:10:11 公開日:2022-03-04
# 視覚変換器のデータフリー量子化を考慮したパッチ類似性

Patch Similarity Aware Data-Free Quantization for Vision Transformers ( http://arxiv.org/abs/2203.02250v1 )

ライセンス: Link先を確認
Zhikai Li, Liping Ma, Mengjuan Chen, Junrui Xiao, Qingyi Gu(参考訳) ビジョントランスフォーマーは近年、様々なコンピュータビジョンタスクで大きな成功を収めている。しかしながら、その高いモデル複雑さは、リソースに制約のあるデバイスへのデプロイを困難にしている。 量子化はモデルの複雑さを減らす効果的なアプローチであり、モデル展開中のデータのプライバシとセキュリティの懸念に対処するデータフリー量子化は広く関心を集めている。 残念ながら、BN正規化のような既存の手法はすべて畳み込みニューラルネットワーク用に設計されており、全く異なるモデルアーキテクチャを持つ視覚変換器には適用できない。 本稿では,視覚トランスフォーマーのためのパッチ類似性を考慮したデータフリー量子化フレームワークであるpsaq-vitを提案する。 具体的には,自己アテンションモジュールの特性を解析し,ガウス雑音と実画像の処理における一般差(パッチ類似性)を明らかにする。 上記の知見は、実画像の近似にガウスノイズを最適化するために相対値メトリックを設計することを示し、量子化パラメータの校正に利用する。 PSAQ-ViTの有効性を検証するため、様々なベンチマークで大規模な実験とアブレーション研究が行われ、実際のデータ駆動手法よりも優れている。

Vision transformers have recently gained great success on various computer vision tasks; nevertheless, their high model complexity makes it challenging to deploy on resource-constrained devices. Quantization is an effective approach to reduce model complexity, and data-free quantization, which can address data privacy and security concerns during model deployment, has received widespread interest. Unfortunately, all existing methods, such as BN regularization, were designed for convolutional neural networks and cannot be applied to vision transformers with significantly different model architectures. In this paper, we propose PSAQ-ViT, a Patch Similarity Aware data-free Quantization framework for Vision Transformers, to enable the generation of "realistic" samples based on the vision transformer's unique properties for calibrating the quantization parameters. Specifically, we analyze the self-attention module's properties and reveal a general difference (patch similarity) in its processing of Gaussian noise and real images. The above insights guide us to design a relative value metric to optimize the Gaussian noise to approximate the real images, which are then utilized to calibrate the quantization parameters. Extensive experiments and ablation studies are conducted on various benchmarks to validate the effectiveness of PSAQ-ViT, which can even outperform the real-data-driven methods.
翻訳日:2022-03-07 15:09:46 公開日:2022-03-04
# クラス対応コントラスト学習

Class-Aware Contrastive Semi-Supervised Learning ( http://arxiv.org/abs/2203.02261v1 )

ライセンス: Link先を確認
Fan Yang, Kai Wu, Shuyi Zhang, Guannan Jiang, Yong Liu, Feng Zheng, Wei Zhang, Chengjie Wang, Long Zeng(参考訳) Pseudo-label-based semi-supervised learning (SSL)は生データ利用において大きな成功を収めている。 しかし, 自己生成型人工ラベルに含まれるノイズにより, その学習手順は確認バイアスに苦しむ。 さらに、このモデルの判断は、広範囲な分散データを持つ実世界のアプリケーションにおいてより不安定になる。 そこで本研究では,擬似ラベルの品質を向上し,実環境におけるモデルの堅牢性を高めるために,CCSSL(Class-aware Contrastive Semi-Supervised Learning)という一般的な手法を提案する。 実世界のデータを結合集合として扱うのではなく、信頼性の高い分散データとクラス毎のクラスタリングを別々に処理し、下流のタスクとノイズの多い分散データと画像のコントラストデータとをブレンドし、より良い一般化を行う。 さらに,ターゲット再重み付けの適用により,クリーンラベル学習とノイズラベル学習の同時低減を実現した。 その単純さにもかかわらず、提案したCCSSLは、標準データセットCIFAR100とSTL10の最先端SSLメソッドよりも大幅にパフォーマンスが向上した。 実世界のデータセットSemi-iNat 2021では、FixMatchを9.80%、CoMatchを3.18%改善しています。

Pseudo-label-based semi-supervised learning (SSL) has achieved great success on raw data utilization. However, its training procedure suffers from confirmation bias due to the noise contained in self-generated artificial labels. Moreover, the model's judgment becomes noisier in real-world applications with extensive out-of-distribution data. To address this issue, we propose a general method named Class-aware Contrastive Semi-Supervised Learning (CCSSL), which is a drop-in helper to improve the pseudo-label quality and enhance the model's robustness in the real-world setting. Rather than treating real-world data as a union set, our method separately handles reliable in-distribution data with class-wise clustering for blending into downstream tasks and noisy out-of-distribution data with image-wise contrastive for better generalization. Furthermore, by applying target re-weighting, we successfully emphasize clean label learning and simultaneously reduce noisy label learning. Despite its simplicity, our proposed CCSSL has significant performance improvements over the state-of-the-art SSL methods on the standard datasets CIFAR100 and STL10. On the real-world dataset Semi-iNat 2021, we improve FixMatch by 9.80% and CoMatch by 3.18%.
翻訳日:2022-03-07 15:09:24 公開日:2022-03-04
# クロスドメインFew-shotリモートセンシングシーン分類のための特徴変換

Feature Transformation for Cross-domain Few-shot Remote Sensing Scene Classification ( http://arxiv.org/abs/2203.02270v1 )

ライセンス: Link先を確認
Qiaoling Chen, Zhihao Chen, Wei Luo(参考訳) リモートセンシングシーンを効果的に分類することは、リモート画像の空間分解能の増大とリモートセンシング画像間の大きなばらつきのため、依然として課題である。 既存の研究では、リモートセンシングシーン分類(RSSC)の性能が大幅に向上した。 しかし、これらの手法は、ターゲットドメインが非常に限られたトレーニングサンプルを持ち、ソースドメインと異なるデータ分布を持つ、クロスドメインのショット問題には適用できない。 モデルの適用性を改善するため,本稿では特徴量変換モジュール(FTM)を提案する。 FTMは、ソースドメインで学習した特徴分布を、無視可能な追加パラメータを持つ非常に単純なアフィン演算によりターゲットドメインに転送する。 さらに、FTMはトレーニングデータが少ない場合にターゲットドメインで効果的に学習でき、特定のネットワーク構造に依存しない。 RSSCとランドカバーマッピングタスクの実験により、クロスドメインな数ショット問題を扱う能力が確認された。 直接微調整と比較して、FTMはより良い性能を達成し、転送性およびきめ細かい識別性を有する。 textit{codeは公開される予定だ。 }

Effectively classifying remote sensing scenes is still a challenge due to the increasing spatial resolution of remote imaging and large variances between remote sensing images. Existing research has greatly improved the performance of remote sensing scene classification (RSSC). However, these methods are not applicable to cross-domain few-shot problems where target domain is with very limited training samples available and has a different data distribution from source domain. To improve the model's applicability, we propose the feature-wise transformation module (FTM) in this paper. FTM transfers the feature distribution learned on source domain to that of target domain by a very simple affine operation with negligible additional parameters. Moreover, FTM can be effectively learned on target domain in the case of few training data available and is agnostic to specific network structures. Experiments on RSSC and land-cover mapping tasks verified its capability to handle cross-domain few-shot problems. By comparison with directly finetuning, FTM achieves better performance and possesses better transferability and fine-grained discriminability. \textit{Code will be publicly available.}
翻訳日:2022-03-07 15:09:02 公開日:2022-03-04
# 意味認識対応による半パラメトリックメイクアップ転送

Semi-parametric Makeup Transfer via Semantic-aware Correspondence ( http://arxiv.org/abs/2203.02286v1 )

ライセンス: Link先を確認
Mingrui Zhu, Yun Yi, Nannan Wang, Xiaoyu Wang, Xinbo Gao(参考訳) ソース非メイクアップ画像と基準メイク画像との間の大きな相違は、メイクアップ転送における重要な課題の1つである。 メイク転送の従来のアプローチは、アンタングル表現を学習するか、2つの画像間のパラメトリックな方法でピクセルワイズ対応を実行する。 我々は,非パラメトリック手法がポーズ,表現,咬合の相違に対処する可能性が高いと主張している。 そこで本稿では,非パラメトリック機構とパラメトリック機構の相互強度を結合した \textbf{S}emi-\textbf{p}arametric \textbf{M}akeup \textbf{T}ransfer (SpMT) 法を提案する。 非パラメトリックなコンポーネントは新規な \textbf{S}emantic-\textbf{a}ware \textbf{C}or correspondingence (SaC) モジュールであり、コンポーネントセマンティクスの強い制約の下で構成表現でコンテンツ表現を明示的に再構成する。 再構成された表現は、基準画像のメイクアップを「着用」しながら、ソース画像の空間的およびアイデンティティ情報を保存することが望まれる。 出力画像は、再構成された表現に描画するパラメトリックデコーダを介して合成される。 広範な実験により,視覚品質,ロバスト性,柔軟性の観点から,本手法の優越性が示された。 コードと事前トレーニングされたモデルは、 \url{https://github.com/AnonymScholar/SpMTで入手できる。

The large discrepancy between the source non-makeup image and the reference makeup image is one of the key challenges in makeup transfer. Conventional approaches for makeup transfer either learn disentangled representation or perform pixel-wise correspondence in a parametric way between two images. We argue that non-parametric techniques have a high potential for addressing the pose, expression, and occlusion discrepancies. To this end, this paper proposes a \textbf{S}emi-\textbf{p}arametric \textbf{M}akeup \textbf{T}ransfer (SpMT) method, which combines the reciprocal strengths of non-parametric and parametric mechanisms. The non-parametric component is a novel \textbf{S}emantic-\textbf{a}ware \textbf{C}orrespondence (SaC) module that explicitly reconstructs content representation with makeup representation under the strong constraint of component semantics. The reconstructed representation is desired to preserve the spatial and identity information of the source image while "wearing" the makeup of the reference image. The output image is synthesized via a parametric decoder that draws on the reconstructed representation. Extensive experiments demonstrate the superiority of our method in terms of visual quality, robustness, and flexibility. Code and pre-trained model are available at \url{https://github.com/AnonymScholar/SpMT.
翻訳日:2022-03-07 15:08:39 公開日:2022-03-04
# F2DNet:歩行者検出のための高速焦点検出ネットワーク

F2DNet: Fast Focal Detection Network for Pedestrian Detection ( http://arxiv.org/abs/2203.02331v1 )

ライセンス: Link先を確認
Abdul Hannan Khan, Mohsin Munir, Ludger van Elst and Andreas Dengel(参考訳) 2段階検出器は、歩行者検出と同様に物体検出の最先端である。 しかし、現在の2段階検出器は、領域提案ネットワークや境界ボックスヘッドなど、複数のステップで境界ボックス回帰を行うため、非効率である。 また、アンカーベースの領域提案ネットワークは、訓練に費用がかかる。 本研究では,領域提案ネットワークを焦点検出ネットワークに置き換え,バウンディングボックスヘッドを高速抑制ヘッドに置き換えることで,現行の2段階検出器の冗長性を解消する新しい2段階検出アーキテクチャであるf2dnetを提案する。 我々はF2DNetを歩行者検出データセット上でベンチマークし、既存の最先端検出器と徹底的に比較し、クロスデータセット評価を行い、我々のモデルの一般化可能性をテストする。 我々のF2DNetは、1つのデータセットでトレーニングされたときそれぞれ、市人、カルテック歩行者、ユーロシティパーソンのデータセットに対して8.7%、2.2%、6.1%のMR-2を達成する。 その上、F2DNetは現在の最先端に比べて推論時間が非常に少ない。 コードとトレーニングされたモデルはhttps://github.com/abdulhannankhan/f2dnetで入手できる。

Two-stage detectors are state-of-the-art in object detection as well as pedestrian detection. However, the current two-stage detectors are inefficient as they do bounding box regression in multiple steps i.e. in region proposal networks and bounding box heads. Also, the anchor-based region proposal networks are computationally expensive to train. We propose F2DNet, a novel two-stage detection architecture which eliminates redundancy of current two-stage detectors by replacing the region proposal network with our focal detection network and bounding box head with our fast suppression head. We benchmark F2DNet on top pedestrian detection datasets, thoroughly compare it against the existing state-of-the-art detectors and conduct cross dataset evaluation to test the generalizability of our model to unseen data. Our F2DNet achieves 8.7%, 2.2%, and 6.1% MR-2 on City Persons, Caltech Pedestrian, and Euro City Person datasets respectively when trained on a single dataset and reaches 20.4% and 26.2% MR-2 in heavy occlusion setting of Caltech Pedestrian and City Persons datasets when using progressive fine-tunning. On top of that F2DNet have significantly lesser inference time compared to the current state-of-the-art. Code and trained models will be available at https://github.com/AbdulHannanKhan/F2DNet.
翻訳日:2022-03-07 15:08:16 公開日:2022-03-04
# コンピュータ支援道路検査:システムとアルゴリズム

Computer-Aided Road Inspection: Systems and Algorithms ( http://arxiv.org/abs/2203.02355v1 )

ライセンス: Link先を確認
Rui Fan, Sicen Guo, Li Wang, Mohammud Junaid Bocus(参考訳) 道路の損傷は不便と安全の危険であり、車両の状態、運転の快適さ、交通の安全に深刻な影響を及ぼす。 従来の手動の視覚道路検査プロセスは高価で、危険で、疲れており、面倒です。 また,手動による道路検査の結果は質的かつ主観的であり,検査者の個人的経験に依存している。 そのため,自動道路検査システムの必要性はますます高まっている。 この章はまず、最も一般的な5つの道路損傷のタイプを比較します。 次に2次元3次元道路画像システムについて述べる。 最後に,最先端マシンビジョンと知性に基づく道路損傷検出アルゴリズムを導入する。

Road damage is an inconvenience and a safety hazard, severely affecting vehicle condition, driving comfort, and traffic safety. The traditional manual visual road inspection process is pricey, dangerous, exhausting, and cumbersome. Also, manual road inspection results are qualitative and subjective, as they depend entirely on the inspector's personal experience. Therefore, there is an ever-increasing need for automated road inspection systems. This chapter first compares the five most common road damage types. Then, 2-D/3-D road imaging systems are discussed. Finally, state-of-the-art machine vision and intelligence-based road damage detection algorithms are introduced.
翻訳日:2022-03-07 15:07:49 公開日:2022-03-04
# (参考訳) 翻訳の同時翻訳による字幕の理解

Comprehension of Subtitles from Re-Translating Simultaneous Speech Translation ( http://arxiv.org/abs/2203.02458v1 )

ライセンス: CC BY 4.0
D\'avid Javorsk\'y, Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar(参考訳) 同時翻訳では、出力ウィンドウのサイズ、システムのレイテンシ、時には書き直しの許容レベルを変えることができる。 これらの特性が可読性と理解性に与える影響は、現代の神経翻訳システムではテストされていない。 本研究では,評価手法を提案し,理解とユーザの嗜好に及ぼす効果について検討する。 チェコ語へのオンライン翻訳を伴う2時間のドイツのドキュメンタリーやスピーチに14人のユーザーが参加するパイロット研究である。 質問に対する継続的なフィードバックと回答を集めます。 その結果,機械翻訳そのものや個人の能力とは対照的に,字幕レイアウトやフリックは理解にほとんど影響を与えないことがわかった。 他の結果は、ソースコードの知識が限られているユーザは、安定性とレイテンシがゼロのユーザとは異なることを示している。 結果は統計的に重要ではないが,本手法が有効であり,より大きなボリュームで再現可能であることを示す。

In simultaneous speech translation, one can vary the size of the output window, system latency and sometimes the allowed level of rewriting. The effect of these properties on readability and comprehensibility has not been tested with modern neural translation systems. In this work, we propose an evaluation method and investigate the effects on comprehension and user preferences. It is a pilot study with 14 users on 2 hours of German documentaries or speeches with online translations into Czech. We collect continuous feedback and answers on factual questions. Our results show that the subtitling layout or flicker have a little effect on comprehension, in contrast to machine translation itself and individual competence. Other results show that users with a limited knowledge of the source language have different preferences to stability and latency than the users with zero knowledge. The results are statistically insignificant, however, we show that our method works and can be reproduced in larger volume.
翻訳日:2022-03-07 15:06:50 公開日:2022-03-04
# claret: イベント中心の生成と分類のための相関認識コンテキストからイベントへのトランスフォーマーの事前トレーニング

ClarET: Pre-training a Correlation-Aware Context-To-Event Transformer for Event-Centric Generation and Classification ( http://arxiv.org/abs/2203.02225v1 )

ライセンス: Link先を確認
Yucheng Zhou, Tao Shen, Xiubo Geng, Guodong Long, Daxin Jiang(参考訳) 関連付けられたコンテキストで与えられた新しいイベントを生成することは、多くのイベント中心の推論タスクにおいて重要な役割を果たす。 既存の作業は、スコープを特定のシナリオに制限するか、イベントレベルの相関を見落としている。 本稿では,イベント中心推論のための一般相関対応コンテキスト・イベント変換器(ClarET)の事前学習を提案する。 そこで本研究では,イベントレベルの相関を効果的に強調する,イベントリカバリ,コントラスト型イベント相関エンコーディング,プロンプト型イベントロケーティングという3つの新しいイベント中心目標を提案する。 提案されたClarETは、その汎用性を考慮して、幅広いイベント中心の推論シナリオに適用できる。 (i)イベント相関型(例えば因果関係、時間関係、コントラスト) (ii)出願の定式化(すなわち、生成及び分類)及び (三)推論の種類(例えば、帰納的、反実的、終了的推論) 9つのベンチマーク(さまざまなイベント相関を持つ4つの推論タイプをカバーする5つの世代と4つの分類タスク)において、経験的な微調整結果とゼロショット学習と、ゼロショット学習は、その有効性と一般化能力を検証する。

Generating new events given context with correlated ones plays a crucial role in many event-centric reasoning tasks. Existing works either limit their scope to specific scenarios or overlook event-level correlations. In this paper, we propose to pre-train a general Correlation-aware context-to-Event Transformer (ClarET) for event-centric reasoning. To achieve this, we propose three novel event-centric objectives, i.e., whole event recovering, contrastive event-correlation encoding and prompt-based event locating, which highlight event-level correlations with effective training. The proposed ClarET is applicable to a wide range of event-centric reasoning scenarios, considering its versatility of (i) event-correlation types (e.g., causal, temporal, contrast), (ii) application formulations (i.e., generation and classification), and (iii) reasoning types (e.g., abductive, counterfactual and ending reasoning). Empirical fine-tuning results, as well as zero- and few-shot learning, on 9 benchmarks (5 generation and 4 classification tasks covering 4 reasoning types with diverse event correlations), verify its effectiveness and generalization ability.
翻訳日:2022-03-07 14:53:13 公開日:2022-03-04
# プレーントキシックを超えて:ロシア語の可燃性トピックに関する不適切な文章の検出

Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable Topics for the Russian Language ( http://arxiv.org/abs/2203.02392v1 )

ライセンス: Link先を確認
Nikolay Babakov, Varvara Logacheva, Alexander Panchenko(参考訳) インターネット上の有害性、例えばヘイトスピーチ、特定のユーザーや人々のグループに対する攻撃、あるいはわいせつな言葉の使用は、認識されている問題である。 しかし、他のタイプの不適切なメッセージも存在し、例えば、明示的な違反を含まないなど、一般的に有毒とはみなされない。 このようなメッセージは、有害な行為(犯罪、自殺、薬物使用)を誘発し、熱い議論を引き起こす、カバーされた毒性や一般化を含んでいる。 このようなメッセージは、例えば政治、性的マイノリティ、社会的不正など、特定のセンシティブなトピックと関連付けられ、車やコンピューティングなど、他のトピックよりも頻繁に、有害な感情反応をもたらす。 同時に、このような可燃性トピック内のすべてのメッセージは、明らかに不適切ではない。 そこで本研究では,不合理性という二項的概念と,センシティブな話題の多項的概念に基づく2つのテキストコレクションを提案する。 同一文化の人々の間で不適切という概念が一般的であると仮定すると、我々は、受け入れられず有害でないものを人間の直感的な理解に基づいてアプローチする。 不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。 すなわち、あるチャットボットのテキスト文が、ある企業の評判に悪影響を及ぼすかどうかを労働者に尋ねる大規模なアノテーション研究を実行する。 注釈間合意の許容可能な高い価値は、不適切性の概念が存在することを示唆し、異なる人々によって一様に理解される。 大企業の法務・広報部門の専門家が推奨するガイドラインを客観的に活用する上で, センシティブなトピックの概念を潜在的に有害であるとして定義する。

Toxicity on the Internet, such as hate speech, offenses towards particular users or groups of people, or the use of obscene words, is an acknowledged problem. However, there also exist other types of inappropriate messages which are usually not viewed as toxic, e.g. as they do not contain explicit offences. Such messages can contain covered toxicity or generalizations, incite harmful actions (crime, suicide, drug use), provoke "heated" discussions. Such messages are often related to particular sensitive topics, e.g. on politics, sexual minorities, social injustice which more often than other topics, e.g. cars or computing, yield toxic emotional reactions. At the same time, clearly not all messages within such flammable topics are inappropriate. Towards this end, in this work, we present two text collections labelled according to binary notion of inapropriateness and a multinomial notion of sensitive topic. Assuming that the notion of inappropriateness is common among people of the same culture, we base our approach on human intuitive understanding of what is not acceptable and harmful. To objectivise the notion of inappropriateness, we define it in a data-driven way though crowdsourcing. Namely we run a large-scale annotation study asking workers if a given chatbot textual statement could harm reputation of a company created it. Acceptably high values of inter-annotator agreement suggest that the notion of inappropriateness exists and can be uniformly understood by different people. To define the notion of sensitive topics in an objective way we use on guidelines suggested commonly by specialists of legal and PR department of a large public company as potentially harmful.
翻訳日:2022-03-07 14:52:53 公開日:2022-03-04
# ストリーミング履歴を活用した同時翻訳からストリーミング機械翻訳へ

From Simultaneous to Streaming Machine Translation by Leveraging Streaming History ( http://arxiv.org/abs/2203.02459v1 )

ライセンス: Link先を確認
Javier Iranzo-S\'anchez and Jorge Civera and Alfons Juan(参考訳) 同時機械翻訳は、完全に利用可能になる前に入力文を漸進的に翻訳するタスクである。 現在、それまでの翻訳テキストとは独立して各文を翻訳することで同時翻訳を行う。 より一般的には、ストリーム MT は連続的な入力テキストストリームの漸進的な変換への同時 MT の拡張と解釈できる。 本研究では、ストリーミング履歴を活用することで、最先端の文レベルMTシステムをストリーミング設定に拡張する。 iwslt翻訳タスクに関する広範な実験結果が報告されており、ストリーミング履歴を活用すると大幅な品質向上が期待できる。 特に,提案システムは,最高の性能を持つシステムと比較して好意的に比較できる。

Simultaneous Machine Translation is the task of incrementally translating an input sentence before it is fully available. Currently, simultaneous translation is carried out by translating each sentence independently of the previously translated text. More generally, Streaming MT can be understood as an extension of Simultaneous MT to the incremental translation of a continuous input text stream. In this work, a state-of-the-art simultaneous sentence-level MT system is extended to the streaming setup by leveraging the streaming history. Extensive empirical results are reported on IWSLT Translation Tasks, showing that leveraging the streaming history leads to significant quality gains. In particular, the proposed system proves to compare favorably to the best performing systems.
翻訳日:2022-03-07 14:52:24 公開日:2022-03-04
# 時間認識グラフニューラルネットワークによる時間知識グラフ間のエンティティアライメント

Time-aware Graph Neural Networks for Entity Alignment between Temporal Knowledge Graphs ( http://arxiv.org/abs/2203.02150v1 )

ライセンス: Link先を確認
Chengjin_Xu, Fenglong Su, Jens Lehmann(参考訳) エンティティアライメントは、異なる知識グラフ(KG)間の等価なエンティティペアを特定することを目的としている。 近年,時間情報を含む時間的kgs(tkgs)が利用可能となり,時間的推論の必要性が高まった。 既存の埋め込みベースのエンティティアライメントアプローチは、多くの大規模KGに存在する時間情報を無視し、改善の余地を多く残している。 本稿では,TKG間のエンティティペアの整合性に焦点をあて,グラフニューラルネットワーク(TEA-GNN)に基づく新しい時間対応エンティティアライメント手法を提案する。 我々は、異なるKGのエンティティ、関係、タイムスタンプをベクトル空間に埋め込んで、GNNを使ってエンティティ表現を学習する。 本モデルでは,関係情報と時間情報の両方をGNN構造に組み込むため,周辺地域の関係やタイムスタンプの埋め込みから計算した直交変換行列を用いて,異なるノードに異なる重みを割り当てるタイムアウェアメント機構を用いる。 複数の実世界のTKGデータセットに対する実験結果から,本手法は時間情報の導入により最先端の手法よりも優れていた。

Entity alignment aims to identify equivalent entity pairs between different knowledge graphs (KGs). Recently, the availability of temporal KGs (TKGs) that contain time information created the need for reasoning over time in such TKGs. Existing embedding-based entity alignment approaches disregard time information that commonly exists in many large-scale KGs, leaving much room for improvement. In this paper, we focus on the task of aligning entity pairs between TKGs and propose a novel Time-aware Entity Alignment approach based on Graph Neural Networks (TEA-GNN). We embed entities, relations and timestamps of different KGs into a vector space and use GNNs to learn entity representations. To incorporate both relation and time information into the GNN structure of our model, we use a time-aware attention mechanism which assigns different weights to different nodes with orthogonal transformation matrices computed from embeddings of the relevant relations and timestamps in a neighborhood. Experimental results on multiple real-world TKG datasets show that our method significantly outperforms the state-of-the-art methods due to the inclusion of time information.
翻訳日:2022-03-07 14:52:15 公開日:2022-03-04
# (参考訳) AutoMO-Mixer:医療におけるバランス、安全、堅牢な予測のための自動多目的ミキサーモデル

AutoMO-Mixer: An automated multi-objective Mixer model for balanced, safe and robust prediction in medicine ( http://arxiv.org/abs/2203.02384v1 )

ライセンス: CC BY 4.0
Xi Chen, Jiahuan Lv, Dehua Feng, Xuanqin Mou, Ling Bai, Shu Zhang, Zhiguo Zhou(参考訳) 診断と治療において、医療画像による患者の状況を正確に特定することが重要な役割を担っている。 人工知能(AI)、特にディープラーニングは、多くの分野で大きな成功を収めています。 しかし、画像誘導診断と治療にはより信頼性の高いaiモデルが必要である。 この目標を達成するには、統一されたフレームワークでバランスよく安全で堅牢なモデルを開発することが望ましい。 本研究では,MLP-Mixerをベースとして,多層パーセプトロンミキサー(MLP-Mixer)をベースとして,自動多目的ミキサー(AutoMO-Mixer)モデルと呼ばれる新しい統一モデルを開発した。 バランスの取れたモデルを構築するために, 訓練段階において, 感度と特異性を同時に目的関数として検討した。 一方、エントロピーに基づく新たな明らかな推論は、テスト段階で安全で堅牢なモデルを実現するために開発された。 光コヒーレンストモグラフィーデータセットの実験では、AutoMO-Mixerは、MLP-Mixerや他の利用可能なモデルと比較して、より安全でバランスの取れた、堅牢な結果を得ることができることを示した。

Accurately identifying patient's status through medical images plays an important role in diagnosis and treatment. Artificial intelligence (AI), especially the deep learning, has achieved great success in many fields. However, more reliable AI model is needed in image guided diagnosis and therapy. To achieve this goal, developing a balanced, safe and robust model with a unified framework is desirable. In this study, a new unified model termed as automated multi-objective Mixer (AutoMO-Mixer) model was developed, which utilized a recent developed multiple layer perceptron Mixer (MLP-Mixer) as base. To build a balanced model, sensitivity and specificity were considered as the objective functions simultaneously in training stage. Meanwhile, a new evidential reasoning based on entropy was developed to achieve a safe and robust model in testing stage. The experiment on an optical coherence tomography dataset demonstrated that AutoMO-Mixer can obtain safer, more balanced, and robust results compared with MLP-Mixer and other available models.
翻訳日:2022-03-07 14:49:54 公開日:2022-03-04
# CT画像における複数臓器の連続的学習

Learning Incrementally to Segment Multiple Organs in a CT Image ( http://arxiv.org/abs/2203.02100v1 )

ライセンス: Link先を確認
Pengbo Liu, Xia Wang, Mengsi Fan, Hongli Pan, Minmin Yin, Xiaohong Zhu, Dandan Du, Xiaoying Zhao, Li Xiao, Lian Ding, Xingwang Wu, and S. Kevin Zhou(参考訳) オルガンセグメンテーションのための多くのデータセットがあり、部分的に注釈付けされ、順次構築されている。 典型的なデータセットは、医療画像のキュレーションと興味ある臓器の注釈付けによって、一定時間で構築される。 言い換えれば、新しい臓器カテゴリのアノテーションを備えた新しいデータセットは、時間とともに構築される。 これらの部分ラベル付きシーケンシャルに構築されたデータセットの背後にあるポテンシャルを解き放つために,多臓器セグメンテーションモデルを漸進的に学習することを提案する。 インクリメンタル学習(il)段階の各段階では、現在のモデルで知識を想定してキャプチャする以前のデータやアノテーションへのアクセスを失い、新しい臓器カテゴリのアノテーションを備えた新しいデータセットにアクセスし、そこから臓器のセグメンテーションモデルを更新して、新しい臓器を含むようにすることを学びます。 ILは自然画像解析における「破滅的忘れ」の弱点で悪名高いが、これらの弱点はCT多臓器分割においてほとんど消失することが実験的に判明した。 ILステージ全体のモデル性能をさらに安定させるために,機能空間における異なるカテゴリの表現を抑制し,同一クラスの特徴表現を集約し,異なるクラスの特徴表現を分離する軽メモリモジュールと損失関数を導入する。 提案手法の有効性を示すために,5つのオープンソースデータセットの大規模な実験を行った。

There exists a large number of datasets for organ segmentation, which are partially annotated and sequentially constructed. A typical dataset is constructed at a certain time by curating medical images and annotating the organs of interest. In other words, new datasets with annotations of new organ categories are built over time. To unleash the potential behind these partially labeled, sequentially-constructed datasets, we propose to incrementally learn a multi-organ segmentation model. In each incremental learning (IL) stage, we lose the access to previous data and annotations, whose knowledge is assumingly captured by the current model, and gain the access to a new dataset with annotations of new organ categories, from which we learn to update the organ segmentation model to include the new organs. While IL is notorious for its `catastrophic forgetting' weakness in the context of natural image analysis, we experimentally discover that such a weakness mostly disappears for CT multi-organ segmentation. To further stabilize the model performance across the IL stages, we introduce a light memory module and some loss functions to restrain the representation of different categories in feature space, aggregating feature representation of the same class and separating feature representation of different classes. Extensive experiments on five open-sourced datasets are conducted to illustrate the effectiveness of our method.
翻訳日:2022-03-07 14:42:41 公開日:2022-03-04
# FairPrune:皮膚疾患診断のためのプルーニングによるフェアネス獲得

FairPrune: Achieving Fairness Through Pruning for Dermatological Disease Diagnosis ( http://arxiv.org/abs/2203.02110v1 )

ライセンス: Link先を確認
Yawen Wu, Dewen Zeng, Xiaowei Xu, Yiyu Shi, Jingtong Hu(参考訳) 多くの研究で、深層学習に基づく医療画像分類モデルが人種、性別、年齢といった特定の属性に対するバイアスを示すことが示されている。 既存のバイアス緩和法は主にバイアス付きモデルの学習に重点を置いており、これは必ずしもすべての機密情報が取り除かれることを保証せず、特権群と特権群の両方でかなりの精度の劣化をもたらす可能性がある。 この問題に対処するために,刈り込みによる公平性を実現する手法であるFairPruneを提案する。 従来、プルーニングは効率的な推論のためにモデルサイズを減らすために使われます。 しかし, 刈り取りは公平性を達成するための強力なツールであることを示す。 我々の観察では、刈り取り中に、モデルの各パラメータは異なるグループの精度に対して異なる重要性を持つ。 この重要度差に基づいてパラメータを刈り取ることにより,特権群と非特権群との精度差を低減し,公平性を向上させることができる。 この目的のために、事前学習されたモデルのパラメータの第2微分を用いて、各グループのモデル精度に関する各パラメータの重要性を定量化する。 2つの皮膚病変の診断データセットを複数の敏感な属性上で実験した結果,両群の平均精度を極力高く保ちながら,公平性を大幅に改善できることがわかった。

Many works have shown that deep learning-based medical image classification models can exhibit bias toward certain demographic attributes like race, gender, and age. Existing bias mitigation methods primarily focus on learning debiased models, which may not necessarily guarantee all sensitive information can be removed and usually comes with considerable accuracy degradation on both privileged and unprivileged groups. To tackle this issue, we propose a method, FairPrune, that achieves fairness by pruning. Conventionally, pruning is used to reduce the model size for efficient inference. However, we show that pruning can also be a powerful tool to achieve fairness. Our observation is that during pruning, each parameter in the model has different importance for different groups' accuracy. By pruning the parameters based on this importance difference, we can reduce the accuracy difference between the privileged group and the unprivileged group to improve fairness without a large accuracy drop. To this end, we use the second derivative of the parameters of a pre-trained model to quantify the importance of each parameter with respect to the model accuracy for each group. Experiments on two skin lesion diagnosis datasets over multiple sensitive attributes demonstrate that our method can greatly improve fairness while keeping the average accuracy of both groups as high as possible.
翻訳日:2022-03-07 14:42:19 公開日:2022-03-04
# 視覚に基づくエンドツーエンド自動運転のための微分制御バリア機能

Differentiable Control Barrier Functions for Vision-based End-to-End Autonomous Driving ( http://arxiv.org/abs/2203.02401v1 )

ライセンス: Link先を確認
Wei Xiao and Tsun-Hsuan Wang and Makram Chahine and Alexander Amini and Ramin Hasani and Daniela Rus(参考訳) 知覚に基づく学習システムの安全性の保証は、状態認識制御シナリオと異なり、地中情報がないため困難である。 本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。 この目的のために、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。 我々のモデルは従来のニューラルネットワークアーキテクチャとdcbfで構成されている。 それらは大規模に解釈可能であり、限られたトレーニングデータの下で優れたテスト性能を達成でき、車線維持や障害物回避といった一連の自律運転シナリオで安全が保証される。 我々は,本フレームワークを実走行環境において評価し,実車上でテストし,Augmented Reality(AR)および実駐車車両による安全な車線追従と障害物回避を実現した。

Guaranteeing safety of perception-based learning systems is challenging due to the absence of ground-truth state information unlike in state-aware control scenarios. In this paper, we introduce a safety guaranteed learning framework for vision-based end-to-end autonomous driving. To this end, we design a learning system equipped with differentiable control barrier functions (dCBFs) that is trained end-to-end by gradient descent. Our models are composed of conventional neural network architectures and dCBFs. They are interpretable at scale, achieve great test performance under limited training data, and are safety guaranteed in a series of autonomous driving scenarios such as lane keeping and obstacle avoidance. We evaluated our framework in a sim-to-real environment, and tested on a real autonomous car, achieving safe lane following and obstacle avoidance via Augmented Reality (AR) and real parked vehicles.
翻訳日:2022-03-07 14:42:00 公開日:2022-03-04
# Contextformer:学習画像圧縮における文脈モデリングのための時空間注意変換器

Contextformer: A Transformer with Spatio-Channel Attention for Context Modeling in Learned Image Compression ( http://arxiv.org/abs/2203.02452v1 )

ライセンス: Link先を確認
A. Burakhan Koyuncu, Han Gao, Eckehard Steinbach(参考訳) エントロピーモデリングは高性能画像圧縮アルゴリズムの鍵となる要素である。 最近の自己回帰的文脈モデリングの発展は、学習に基づく手法が古典的手法を超えるのを助けた。 しかし、これらのモデルの性能は、潜時空間におけるスパースチャネル依存性の不足や、文脈適応性の準最適実装により、さらに向上することができる。 変圧器の適応特性に着想を得て,デファクト標準注意機構を時空間注意に一般化したトランスフォーマ(a.k.a.contextformer)を提案する。 我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。 実験の結果,VVC(Versatile Video Coding)テストモデル(VTM)9.1と比較して最大10%のコスト削減が可能であり,学習ベースモデルよりも優れていた。

Entropy modeling is a key component for high-performance image compression algorithms. Recent developments in autoregressive context modeling helped learning-based methods to surpass their classical counterparts. However, the performance of those models can be further improved due to the underexploited spatio-channel dependencies in latent space, and the suboptimal implementation of context adaptivity. Inspired by the adaptive characteristics of the transformers, we propose a transformer-based context model, a.k.a. Contextformer, which generalizes the de facto standard attention mechanism to spatio-channel attention. We replace the context model of a modern compression framework with the Contextformer and test it on the widely used Kodak image dataset. Our experimental results show that the proposed model provides up to 10% rate savings compared to the standard Versatile Video Coding (VVC) Test Model (VTM) 9.1, and outperforms various learning-based models.
翻訳日:2022-03-07 14:41:47 公開日:2022-03-04
# boltzmannマシンによるグラフクラスタリング

Graph clustering with Boltzmann machines ( http://arxiv.org/abs/2203.02471v1 )

ライセンス: Link先を確認
Pierre Miasnikof, Mohammad Bagherbeik, Ali Sheikholeslami(参考訳) グラフクラスタリングは、頂点をクラスタと呼ばれる密結合集合にグループ化するプロセスである。 我々は2つの数学的プログラミングの定式化を文献からこの問題に仕立て上げた。 これにより,クラスタ内密度最大化問題に対するヒューリスティック近似が得られる。 ボルツマン機械ヒューリスティックの2つの変種を用いて数値解を得る。 ベンチマークのために,商用解法 gurobi を用いて得られた解の質と計算性能を比較した。 また,Louvainモジュラリティ最大化法を用いて得られたクラスタと比較した。 最初の結果は問題定式化の優位性を明確に示している。 彼らはまた、従来の正確な解法よりもボルツマンマシンの優位性を確立する。 より小さな複素グラフの場合、ボルツマンマシンはgurobiと同じ解を提供するが、解時間は桁違いに低い。 より大きく複雑なグラフの場合、グロビは妥当な時間枠内で有意義な結果を返すことができない。 最後に、我々のクラスタリングの定式化、距離最小化、および$k$-medoidsは、luuvainアルゴリズムで得られたものよりも優れた品質のクラスタを産出する。

Graph clustering is the process of grouping vertices into densely connected sets called clusters. We tailor two mathematical programming formulations from the literature, to this problem. In doing so, we obtain a heuristic approximation to the intra-cluster density maximization problem. We use two variations of a Boltzmann machine heuristic to obtain numerical solutions. For benchmarking purposes, we compare solution quality and computational performances to those obtained using a commercial solver, Gurobi. We also compare clustering quality to the clusters obtained using the popular Louvain modularity maximization method. Our initial results clearly demonstrate the superiority of our problem formulations. They also establish the superiority of the Boltzmann machine over the traditional exact solver. In the case of smaller less complex graphs, Boltzmann machines provide the same solutions as Gurobi, but with solution times that are orders of magnitude lower. In the case of larger and more complex graphs, Gurobi fails to return meaningful results within a reasonable time frame. Finally, we also note that both our clustering formulations, the distance minimization and $K$-medoids, yield clusters of superior quality to those obtained with the Louvain algorithm.
翻訳日:2022-03-07 14:41:31 公開日:2022-03-04
# (参考訳) 確率学習アルゴリズムにおける速度歪み理論一般化境界

Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms ( http://arxiv.org/abs/2203.02474v1 )

ライセンス: CC BY 4.0
Milad Sefidgaran, Amin Gohari, Ga\"el Richard, Umut \c{S}im\c{s}ekli(参考訳) 現代の機械学習設定における一般化を理解することは、統計学習理論における大きな課題の1つである。 この文脈では、近年、データサンプルとアルゴリズム出力の相互情報、仮説空間の圧縮性、仮説空間のフラクタル次元など、様々な複雑さの概念を示唆する一般化境界の開発が観察されている。 これらの境界は、異なる角度から問題に照らしているが、それらの示唆される複雑性の概念は無関係に見え、その結果、高いレベルの影響を制限する。 本研究では, 速度歪み理論のレンズによる新しい一般化を証明し, 1つの数学的枠組みにおける相互情報, 圧縮性, フラクタル次元の概念を明示的に記述する。 私たちのアプローチは (i)ソースコーディング概念を用いて圧縮可能性の一般化概念を定義すること、 (ii)「圧縮誤差率」は期待値と確率値の両方において一般化誤差に関連付けられることを示す。 損失圧縮」の設定では、既存の相互情報に基づく境界を回復し改善する一方、「損失圧縮」スキームでは、一般化をレート・ディストリクト次元 -- フラクタル次元の特別な概念と結びつけることができる。 我々の結果は、一般化に関するより統一された視点をもたらし、将来の研究方向性を開拓する。

Understanding generalization in modern machine learning settings has been one of the major challenges in statistical learning theory. In this context, recent years have witnessed the development of various generalization bounds suggesting different complexity notions such as the mutual information between the data sample and the algorithm output, compressibility of the hypothesis space, and the fractal dimension of the hypothesis space. While these bounds have illuminated the problem at hand from different angles, their suggested complexity notions might appear seemingly unrelated, thereby restricting their high-level impact. In this study, we prove novel generalization bounds through the lens of rate-distortion theory, and explicitly relate the concepts of mutual information, compressibility, and fractal dimensions in a single mathematical framework. Our approach consists of (i) defining a generalized notion of compressibility by using source coding concepts, and (ii) showing that the `compression error rate' can be linked to the generalization error both in expectation and with high probability. We show that in the `lossless compression' setting, we recover and improve existing mutual information-based bounds, whereas a `lossy compression' scheme allows us to link generalization to the rate-distortion dimension -- a particular notion of fractal dimension. Our results bring a more unified perspective on generalization and open up several future research directions.
翻訳日:2022-03-07 14:39:56 公開日:2022-03-04
# Hyperbox Searchによる解釈型オフポリティ学習

Interpretable Off-Policy Learning via Hyperbox Search ( http://arxiv.org/abs/2203.02473v1 )

ライセンス: Link先を確認
Daniel Tschernutter, Tobias Hatt, Stefan Feuerriegel(参考訳) パーソナライズされた治療決定は現代医学の不可欠な部分となっている。 これにより、個々の患者特性に基づいて治療決定を行うことが目的である。 特定の政策クラスで最高の結果を得るための観測データからこのような政策を学ぶための多くの方法が開発されている。 しかし、これらの方法はほとんど解釈できない。 しかし、解釈可能性はしばしば臨床における政策学習の前提条件である。 本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。 特に、我々のポリシーは可分な正規形式(すなわち、OR-of-ANDs)で表され、したがって理解可能である。 我々は、ポリシークラスが任意の可測関数を任意に近似できるほど柔軟であることを示す普遍近似定理を証明する。 最適化のために,ブランチ・アンド・バウンド・フレームワーク内で列生成を行う。 シミュレーション研究により,本アルゴリズムは,後悔の観点から解釈可能なオフ・ポリシー学習から最先端の手法を上回ることを実証する。 実語臨床データを用いて実際の臨床専門家とユーザスタディを行い,政策を極めて解釈可能なものと評価した。

Personalized treatment decisions have become an integral part of modern medicine. Thereby, the aim is to make treatment decisions based on individual patient characteristics. Numerous methods have been developed for learning such policies from observational data that achieve the best outcome across a certain policy class. Yet these methods are rarely interpretable. However, interpretability is often a prerequisite for policy learning in clinical practice. In this paper, we propose an algorithm for interpretable off-policy learning via hyperbox search. In particular, our policies can be represented in disjunctive normal form (i.e., OR-of-ANDs) and are thus intelligible. We prove a universal approximation theorem that shows that our policy class is flexible enough to approximate any measurable function arbitrarily well. For optimization, we develop a tailored column generation procedure within a branch-and-bound framework. Using a simulation study, we demonstrate that our algorithm outperforms state-of-the-art methods from interpretable off-policy learning in terms of regret. Using real-word clinical data, we perform a user study with actual clinical experts, who rate our policies as highly interpretable.
翻訳日:2022-03-07 14:38:25 公開日:2022-03-04
# 学習経路の観察によるより良い監督信号

Better Supervisory Signals by Observing Learning Paths ( http://arxiv.org/abs/2203.02485v1 )

ライセンス: Link先を確認
Yi Ren and Shangmin Guo and Danica J. Sutherland(参考訳) 監督されたモデルの方がパフォーマンスが良いかもしれない。 本稿ではまず, 分類問題に対する適切な管理方法を明らかにするとともに, 既存のラベル精錬法, ラベル平滑化法, 知識蒸留法を, 提案基準の観点から解説する。 学習過程,すなわちトレーニング中のモデルの予測の軌跡を,トレーニングサンプル毎に観察する。 モデルは、おもちゃと実際のデータセットの両方で発生する"zig-zag"学習パスを通じて、自発的に"bad"ラベルを洗練できる。 学習経路の観察は、知識の蒸留、過剰な適合、学習のダイナミクスを理解するための新たな視点を提供するだけでなく、教師ネットワークの監視信号が実際のタスクのトレーニングにおける最善の点近くで非常に不安定であることも示します。 そこで,本研究では,様々な条件下で下流分類性能を向上させる新しい知識蒸留法であるフィルタkdを提案する。

Better-supervised models might have better performance. In this paper, we first clarify what makes for good supervision for a classification problem, and then explain two existing label refining methods, label smoothing and knowledge distillation, in terms of our proposed criterion. To further answer why and how better supervision emerges, we observe the learning path, i.e., the trajectory of the model's predictions during training, for each training sample. We find that the model can spontaneously refine "bad" labels through a "zig-zag" learning path, which occurs on both toy and real datasets. Observing the learning path not only provides a new perspective for understanding knowledge distillation, overfitting, and learning dynamics, but also reveals that the supervisory signal of a teacher network can be very unstable near the best points in training on real tasks. Inspired by this, we propose a new knowledge distillation scheme, Filter-KD, which improves downstream classification performance in various settings.
翻訳日:2022-03-07 14:38:09 公開日:2022-03-04
# 自動エンコーダを用いたアウト・オブ・ディストリビューション検出の再考

Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection ( http://arxiv.org/abs/2203.02194v1 )

ライセンス: Link先を確認
Yibo Zhou(参考訳) いくつかのシナリオでは、分類器はトレーニングデータから遠く離れた分散サンプルを検出する必要がある。 レコンストラクションオートエンコーダベースの手法は望ましい特性を持つため、入力再構成誤差をノベルティとノーマルの指標として用いることでこの問題に対処している。 このようなアプローチの本質を,条件付きデータの不確かさのプロキシに対してのみ問い合わせるために,内在的なバイアスを持つ4重項領域変換として定式化する。 これにより、自己エンコーダの潜伏空間を最大圧縮し、記述されたドメイントランスレータとして動作するための再構成力を確保して改善方向を定式化する。 これによって、cifar-100 の fpr@95%tpr と wide-resnet の tinyimagenet-crop は 0.2% である。 重要なことは、我々の方法は追加のデータや実装が難しい構造、時間を要するパイプライン、既知のクラスの分類精度を損なうことさえなく機能する。

In some scenarios, classifier requires detecting out-of-distribution samples far from its training data. With desirable characteristics, reconstruction autoencoder-based methods deal with this problem by using input reconstruction error as a metric of novelty vs. normality. We formulate the essence of such approach as a quadruplet domain translation with an intrinsic bias to only query for a proxy of conditional data uncertainty. Accordingly, an improvement direction is formalized as maximumly compressing the autoencoder's latent space while ensuring its reconstructive power for acting as a described domain translator. From it, strategies are introduced including semantic reconstruction, data certainty decomposition and normalized L2 distance to substantially improve original methods, which together establish state-of-the-art performance on various benchmarks, e.g., the FPR@95%TPR of CIFAR-100 vs. TinyImagenet-crop on Wide-ResNet is 0.2%. Importantly, our method works without any additional data, hard-to-implement structure, time-consuming pipeline, and even harming the classification accuracy of known classes.
翻訳日:2022-03-07 14:37:25 公開日:2022-03-04
# 説明はできるのか? モデルが一番知っている

Do Explanations Explain? Model Knows Best ( http://arxiv.org/abs/2203.02269v1 )

ライセンス: Link先を確認
Ashkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab(参考訳) これは、入力機能がニューラルネットワークの出力に寄与するミステリーである。 文献では,この問題に光を当てるために,様々な説明法が提案されている。 一つの特異な観察は、これらの説明(帰属)が異なる特徴を重要視していることである。 この現象は疑問を提起し、どの説明を信頼するか? 本稿では,ニューラルネットワークモデル自体を用いた説明評価フレームワークを提案する。 フレームワークはネットワークを利用して、特定の振る舞いを出力に課す入力機能を生成する。 生成した特徴を用いて,説明手法が公理に適合するかどうかを評価するために,制御された実験セットアップを考案する。 そこで本稿では,説明手法の公理的評価のための実証的枠組みを提案する。 提案手法を用いて,よく知られた有望な説明解を評価する。 このフレームワークは、既存および将来の説明ソリューションでプロパティと欠点を明らかにするためのツールセットを提供する。

It is a mystery which input features contribute to a neural network's output. Various explanation (feature attribution) methods are proposed in the literature to shed light on the problem. One peculiar observation is that these explanations (attributions) point to different features as being important. The phenomenon raises the question, which explanation to trust? We propose a framework for evaluating the explanations using the neural network model itself. The framework leverages the network to generate input features that impose a particular behavior on the output. Using the generated features, we devise controlled experimental setups to evaluate whether an explanation method conforms to an axiom. Thus we propose an empirical framework for axiomatic evaluation of explanation methods. We evaluate well-known and promising explanation solutions using the proposed framework. The framework provides a toolset to reveal properties and drawbacks within existing and future explanation solutions.
翻訳日:2022-03-07 14:37:07 公開日:2022-03-04
# 両眼類似性マッチングと3次元輪郭最適化を用いた混合現実深度輪郭閉塞

Mixed Reality Depth Contour Occlusion Using Binocular Similarity Matching and Three-dimensional Contour Optimisation ( http://arxiv.org/abs/2203.02300v1 )

ライセンス: Link先を確認
Naye Ji, Fan Zhang, Haoxiang Zhang, Youbing Zhao, Dingguo Yu(参考訳) 複合現実アプリケーションは、現実のオブジェクトによって部分的に隠された仮想オブジェクトを必要とすることが多い。 しかし、以前の研究や商業製品は性能と効率の面で制限があった。 これらの課題に対処するため、我々は新しい深度輪郭閉塞アルゴリズム(DCO)を提案する。 提案手法は、輪郭閉塞の感度と両眼立体視装置に基づく。 本発明は、深度輪郭マップと、2段階適応フィルタ領域ステレオマッチングアルゴリズムから得られたスパース深度マップと、デジタル画像安定化光学フロー法により抽出された物体の深さ輪郭情報とを組み合わせる。 また、3つの制約を持つ2次最適化モデルを提案し、高品質な実空間閉塞に対する深度輪郭の正確な密集写像を生成する。 プロセス全体がGPUによって加速されます。 このアルゴリズムの有効性を評価するために,dcoアルゴリズムの実行の各段階について時間平均統計解析を行った。 実仮想オクルージョン効果のリアビリティを検証するため, 単一側, 囲み, 複素オクルージョンの実験的解析を行い, 二次最適化を伴わないオクルージョン法と比較した。 実時間dcoに対するgpu実装により,提示したdcoアルゴリズムの適用により,実時間性能と実時間咬合の視覚的品質が向上することを示す。

Mixed reality applications often require virtual objects that are partly occluded by real objects. However, previous research and commercial products have limitations in terms of performance and efficiency. To address these challenges, we propose a novel depth contour occlusion (DCO) algorithm. The proposed method is based on the sensitivity of contour occlusion and a binocular stereoscopic vision device. In this method, a depth contour map is combined with a sparse depth map obtained from a two-stage adaptive filter area stereo matching algorithm and the depth contour information of the objects extracted by a digital image stabilisation optical flow method. We also propose a quadratic optimisation model with three constraints to generate an accurate dense map of the depth contour for high-quality real-virtual occlusion. The whole process is accelerated by GPU. To evaluate the effectiveness of the algorithm, we demonstrate a time con-sumption statistical analysis for each stage of the DCO algorithm execution. To verify the relia-bility of the real-virtual occlusion effect, we conduct an experimental analysis on single-sided, enclosed, and complex occlusions; subsequently, we compare it with the occlusion method without quadratic optimisation. With our GPU implementation for real-time DCO, the evaluation indicates that applying the presented DCO algorithm can enhance the real-time performance and the visual quality of real-virtual occlusion.
翻訳日:2022-03-07 14:36:56 公開日:2022-03-04
# 近赤外虹彩画像を用いた行動曲線解析

Behavioural Curves Analysis Using Near-Infrared-Iris Image Sequences ( http://arxiv.org/abs/2203.02488v1 )

ライセンス: Link先を確認
L. Causa (1), J. E. Tapia (2 and 3), E. Lopez-Droguett (4), A. Valenzuela (2), D. Benalcazar (2) and C. Busch (3) ((1) TOC Biometrics, Research and Development Centre, Chile. (2) Universidad de Chile, DIMEC, Chile. (3) da/sec-Biometrics and Internet Security Research Group, Hochschule Darmstadt, Germany. (4) Department of Civil and Environmental Engineering, and Garrick Institute for the Risk Sciences, University ofCalifornia, Los Angeles, USA)(参考訳) 本稿では,近赤外線(nir)ビデオフレームのストリームから行動曲線を推定する新しい手法を提案する。 この方法はFitness For Duty System(FFD)で使用することができる。 この研究は、アルコール、薬物、睡眠などの外的要因が中枢神経系(CNS)に及ぼす影響を決定することに焦点を当てている。 目的は、この行動が虹彩や瞳孔の動きにどのように表現されているかを分析し、標準のNIRカメラでこれらの変化を捉えることができるかどうかを調べることである。 行動分析では,「フィット」や「アンフィット」の条件で労働者を分類するために,瞳孔行動と虹彩行動に重要な差異が認められた。 最良の結果は、アルコール、薬物消費、睡眠条件の下で、被験者をしっかりと区別することができる。 マルチレイヤー・パーセプトロンとグラデーション・ブースト・マシンはそれぞれ74.0%、不適合クラスでは75.5%の精度で全群で最高の結果に達した。 これらの結果は虹彩捕獲デバイスのための新しいアプリケーションを開く。

This paper proposes a new method to estimate behavioural curves from a stream of Near-Infra-Red (NIR) iris video frames. This method can be used in a Fitness For Duty system (FFD). The research focuses on determining the effect of external factors such as alcohol, drugs, and sleepiness on the Central Nervous System (CNS). The aim is to analyse how this behaviour is represented on iris and pupil movements and if it is possible to capture these changes with a standard NIR camera. The behaviour analysis showed essential differences in pupil and iris behaviour to classify the workers in "Fit" or "Unfit" conditions. The best results can distinguish subjects robustly under alcohol, drug consumption, and sleep conditions. The Multi-Layer-Perceptron and Gradient Boosted Machine reached the best results in all groups with an overall accuracy for Fit and Unfit classes of 74.0% and 75.5%, respectively. These results open a new application for iris capture devices.
翻訳日:2022-03-07 14:36:33 公開日:2022-03-04
# 3次元表面認識制約を用いた三次元内視鏡深度推定

3D endoscopic depth estimation using 3D surface-aware constraints ( http://arxiv.org/abs/2203.02131v1 )

ライセンス: Link先を確認
Shang Zhao, Ce Wang, Qiyuan Wang, Yanzhe Liu, S Kevin Zhou(参考訳) ロボット支援手術により、外科医はステレオビジョンと柔軟な運動制御で正確な手術を行うことができる。 しかし, 3次元空間知覚の欠如は手術中の状況認識を制限し, 狭い腹部空間での手術スキルの習得を妨げている。 奥行き推定は、代表的な知覚課題として、通常、画像再構成問題として定義される。 本研究では, 深さ推定を3次元的視点から再構成できることを示す。 本研究では,表面認識制約を統合した深度推定のための損失関数を提案し,空間情報からの有効情報へのより高速な収束を実現する。 さらに、カメラパラメータがトレーニングパイプラインに組み込まれ、深さ推定の制御と透明性が向上する。 また,より多くの埋設画像情報を復元するために,スペキュラリティ除去モジュールも統合した。 医療従事者による内視鏡的データセットとユーザスタディの定量的実験により,本手法の有効性が示された。

Robotic-assisted surgery allows surgeons to conduct precise surgical operations with stereo vision and flexible motor control. However, the lack of 3D spatial perception limits situational awareness during procedures and hinders mastering surgical skills in the narrow abdominal space. Depth estimation, as a representative perception task, is typically defined as an image reconstruction problem. In this work, we show that depth estimation can be reformed from a 3D surface perspective. We propose a loss function for depth estimation that integrates the surface-aware constraints, leading to a faster and better convergence with the valid information from spatial information. In addition, camera parameters are incorporated into the training pipeline to increase the control and transparency of the depth estimation. We also integrate a specularity removal module to recover more buried image information. Quantitative experimental results on endoscopic datasets and user studies with medical professionals demonstrate the effectiveness of our method.
翻訳日:2022-03-07 14:36:01 公開日:2022-03-04
# 声と顔の相同性がディープフェイクを語る

Voice-Face Homogeneity Tells Deepfake ( http://arxiv.org/abs/2203.02195v1 )

ライセンス: Link先を確認
Harry Cheng and Yangyang Guo and Tianyi Wang and Qi Li and Tao Ye and Liqiang Nie(参考訳) ディープフェイクの悪用により、偽造ビデオの検出が望まれている。 既存の検出アプローチは、deepfakeビデオ内の特定のアーティファクトの探索に寄与し、特定のデータに適合する。 しかし、これらのアーティファクトの成長技術は、従来のディープフェイク検出器の堅牢性に挑戦し続けている。 その結果、これらの手法の一般化可能性の発達は阻止された。 そこで本稿では,音声と顔の同一性がディープフェイク映像では不一致であり,音声と顔の類似性がある程度あるという経験的結果から,未探索の音声・顔マッチング視点からディープフェイク検出を行うことを提案する。 この目的のために音声面マッチング検出モデルを考案し、これら2つのマッチング度を汎用視聴覚データセット上で測定する。 その後、このモデルを微調整なしでディープフェイクデータセットにスムーズに転送し、データセット間の一般化を向上する。 広く利用されている2つのデータセットDFDCとFakeAVCelebについて広範な実験を行った。 本モデルは他の最先端の競合に比べて大幅に性能が向上し,良好な一般化性を維持している。 コードはhttps://github.com/xaCheng1996/VFDでリリースされた。

Detecting forgery videos is highly desired due to the abuse of deepfake. Existing detection approaches contribute to exploring the specific artifacts in deepfake videos and fit well on certain data. However, the growing technique on these artifacts keeps challenging the robustness of traditional deepfake detectors. As a result, the development of generalizability of these approaches has reached a blockage. To address this issue, given the empirical results that the identities behind voices and faces are often mismatched in deepfake videos, and the voices and faces have homogeneity to some extent, in this paper, we propose to perform the deepfake detection from an unexplored voice-face matching view. To this end, a voice-face matching detection model is devised to measure the matching degree of these two on a generic audio-visual dataset. Thereafter, this model can be smoothly transferred to deepfake datasets without any fine-tuning, and the generalization across datasets is accordingly enhanced. We conduct extensive experiments over two widely exploited datasets - DFDC and FakeAVCeleb. Our model obtains significantly improved performance as compared to other state-of-the-art competitors and maintains favorable generalizability. The code has been released at https://github.com/xaCheng1996/VFD.
翻訳日:2022-03-07 14:35:35 公開日:2022-03-04
# メトリック埋め込み学習に対するユーザレベルメンバーシップ推論攻撃

User-Level Membership Inference Attack against Metric Embedding Learning ( http://arxiv.org/abs/2203.02077v1 )

ライセンス: Link先を確認
Guoyao Li, Shahbaz Rezaei, and Xin Liu(参考訳) メンバーシップ推論(MI)は、サンプルが犠牲者モデルトレーニングセットの一部であるかどうかを決定する。 MI攻撃の最近の発展は、多くの実世界のシナリオにおける適用を制限するレコードレベルのメンバシップ推論に焦点を当てている。 例えば、人物再識別タスクでは、攻撃者(または調査員)は、トレーニング中にユーザーの画像が使用されたかどうかを判断することに興味がある。 しかし、正確な訓練画像は攻撃者がアクセスできない可能性がある。 本稿では,攻撃者が正確なトレーニングサンプルを入手できなくても,対象ユーザからのサンプルがトレーニング中に使用されたかどうかを確認することを目的とした,ユーザレベルのmi攻撃を開発した。 ユーザレベルのMI攻撃がより賢明な,個人の再識別における優位性から,メトリック埋め込み学習に着目する。 我々は,複数のデータセットに対して広範囲な評価を行い,ユーザレベルのMIタスクに対して高い精度を実現することを示す。

Membership inference (MI) determines if a sample was part of a victim model training set. Recent development of MI attacks focus on record-level membership inference which limits their application in many real-world scenarios. For example, in the person re-identification task, the attacker (or investigator) is interested in determining if a user's images have been used during training or not. However, the exact training images might not be accessible to the attacker. In this paper, we develop a user-level MI attack where the goal is to find if any sample from the target user has been used during training even when no exact training sample is available to the attacker. We focus on metric embedding learning due to its dominance in person re-identification, where user-level MI attack is more sensible. We conduct an extensive evaluation on several datasets and show that our approach achieves high accuracy on user-level MI task.
翻訳日:2022-03-07 14:35:14 公開日:2022-03-04
# iSTFTNet:逆短周期フーリエ変換を組み込んだ高速軽量メルスペクトログラムヴォコーダ

iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform ( http://arxiv.org/abs/2203.02395v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, Kou Tanaka, Hirokazu Kameoka, Shogo Seki(参考訳) 近年のテキスト音声合成・音声変換システムでは,中間表現としてメルスペクトルが一般的に適用され,メルスペクトルヴォコーダの必要性が高まっている。 メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。 典型的な畳み込みメル-スペクトログラムボコーダは、生波形を直接計算する際に、時間的アップサンプリング層を含む畳み込みニューラルネットワークを用いて、これらの問題を共同で暗黙的に解決する。 このようなアプローチにより、波形合成中に冗長なプロセスをスキップすることができる(例えば、高次元の原スケール分光図の直接再構成)。 対照的に、この手法はブラックボックス内の全ての問題を解き、メル-スペクトログラムに存在する時間周波数構造を効果的に利用できない。 そこで本稿では,アップサンプリング層を用いて周波数次元を十分に低減し,ブラックボックスモデリングによる計算コストを低減し,高次元スペクトルの冗長な推定を回避することで,メルスペクトルボコーダの出力側層を逆ショートタイムフーリエ変換(iSTFT)に置き換えるiSTFTNetを提案する。 実験では,3つのhifi-gan変種に適用し,適切な音声品質でモデルを高速かつ軽量にすることを試みた。 オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet/で入手できる。

In recent text-to-speech synthesis and voice conversion systems, a mel-spectrogram is commonly applied as an intermediate representation, and the necessity for a mel-spectrogram vocoder is increasing. A mel-spectrogram vocoder must solve three inverse problems: recovery of the original-scale magnitude spectrogram, phase reconstruction, and frequency-to-time conversion. A typical convolutional mel-spectrogram vocoder solves these problems jointly and implicitly using a convolutional neural network, including temporal upsampling layers, when directly calculating a raw waveform. Such an approach allows skipping redundant processes during waveform synthesis (e.g., the direct reconstruction of high-dimensional original-scale spectrograms). By contrast, the approach solves all problems in a black box and cannot effectively employ the time-frequency structures existing in a mel-spectrogram. We thus propose iSTFTNet, which replaces some output-side layers of the mel-spectrogram vocoder with the inverse short-time Fourier transform (iSTFT) after sufficiently reducing the frequency dimension using upsampling layers, reducing the computational cost from black-box modeling and avoiding redundant estimations of high-dimensional spectrograms. During our experiments, we applied our ideas to three HiFi-GAN variants and made the models faster and more lightweight with a reasonable speech quality. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet/.
翻訳日:2022-03-07 14:34:58 公開日:2022-03-04
# ML4COのための機械学習 - 結果と洞察

The Machine Learning for Combinatorial Optimization Competition (ML4CO): Results and Insights ( http://arxiv.org/abs/2203.02433v1 )

ライセンス: Link先を確認
Maxime Gasse, Quentin Cappart, Jonas Charfreitag, Laurent Charlin, Didier Ch\'etelat, Antonia Chmiela, Justin Dumouchelle, Ambros Gleixner, Aleksandr M. Kazachkov, Elias Khalil, Pawel Lichocki, Andrea Lodi, Miles Lubin, Chris J. Maddison, Christopher Morris, Dimitri J. Papageorgiou, Augustin Parjadis, Sebastian Pokutta, Antoine Prouvost, Lara Scavuzzo, Giulia Zarpellon, Linxin Yangm, Sha Lai, Akang Wang, Xiaodong Luo, Xiang Zhou, Haohan Huang, Shengcheng Shao, Yuanming Zhu, Dong Zhang, Tao Quan, Zixuan Cao, Yang Xu, Zhewei Huang, Shuchang Zhou, Chen Binbin, He Minggui, Hao Hao, Zhang Zhiyu, An Zhiwu, Mao Kun(参考訳) 組合せ最適化は、オペレーション研究とコンピュータ科学において確立された分野である。 最近まで、その手法は個別に問題インスタンスを解くことに重点を置いており、それらが実際に関連するデータ分散に由来することが多いことを無視してきた。 しかし、近年は、直接解法として、あるいは正確な解法として、組合せ問題を解く新しいアプローチとして機械学習を使うことへの関心が高まっている。 このコンテキストに基づいて、ML4COは、キーヒューリスティックコンポーネントを置き換えることで、最先端の組合せ最適化問題を改善しようとしている。 このコンペには3つの難題があった: 最善の解を見つけること、最も厳密な最適性証明を作成し、適切な解法の構成を与えること。 バランスの取れたアイテム配置、ワークロードの配置、海上在庫ルーティングの3つの現実的なデータセットが検討された。 この最後のデータセットは、競技者に匿名で保持された。

Combinatorial optimization is a well-established area in operations research and computer science. Until recently, its methods have focused on solving problem instances in isolation, ignoring that they often stem from related data distributions in practice. However, recent years have seen a surge of interest in using machine learning as a new approach for solving combinatorial problems, either directly as solvers or by enhancing exact solvers. Based on this context, the ML4CO aims at improving state-of-the-art combinatorial optimization solvers by replacing key heuristic components. The competition featured three challenging tasks: finding the best feasible solution, producing the tightest optimality certificate, and giving an appropriate solver configuration. Three realistic datasets were considered: balanced item placement, workload apportionment, and maritime inventory routing. This last dataset was kept anonymous for the contestants.
翻訳日:2022-03-07 14:34:27 公開日:2022-03-04
# WPNAS: ウェイトシェアリングと予測器を併用したニューラルアーキテクチャ検索

WPNAS: Neural Architecture Search by jointly using Weight Sharing and Predictor ( http://arxiv.org/abs/2203.02086v1 )

ライセンス: Link先を確認
Ke Lin, Yong A, Zhuoxin Gan, Yingying Jiang(参考訳) ウェイトシェアリングベースと予測器ベースメソッドは、高速ニューラルネットワーク探索方式の2つの主要なタイプである。 本稿では,重みの共有と予測を統一的な枠組みで共同で行うことを提案する。 まず、重み共有方式でスーパーネットを構築し、スーパーネットから確率的にアーキテクチャをサンプリングする。 アーキテクチャの評価の正確性を高めるため、継承した重みを用いた直接評価に加えて、数ショットの予測器を適用して、アーキテクチャの評価を行う。 アーキテクチャの最終的な評価は、直接評価、予測器からの予測、アーキテクチャのコストの組み合わせである。 評価を報酬として捉え,アーキテクチャの確率性を更新するために,自己批判的な政策勾配アプローチを適用する。 重み共有の副作用をさらに軽減するために、別のHyperNetを導入することで、弱い重み共有手法を提案する。 CIFAR-10, CIFAR-100, ImageNetなどのデータセットをNATS-Bench, DARTS, MobileNetで実験する。 提案手法は,これらのデータセットの最先端性能を実現する。

Weight sharing based and predictor based methods are two major types of fast neural architecture search methods. In this paper, we propose to jointly use weight sharing and predictor in a unified framework. First, we construct a SuperNet in a weight-sharing way and probabilisticly sample architectures from the SuperNet. To increase the correctness of the evaluation of architectures, besides direct evaluation using the inherited weights, we further apply a few-shot predictor to assess the architecture on the other hand. The final evaluation of the architecture is the combination of direct evaluation, the prediction from the predictor and the cost of the architecture. We regard the evaluation as a reward and apply a self-critical policy gradient approach to update the architecture probabilities. To further reduce the side effects of weight sharing, we propose a weakly weight sharing method by introducing another HyperNet. We conduct experiments on datasets including CIFAR-10, CIFAR-100 and ImageNet under NATS-Bench, DARTS and MobileNet search space. The proposed WPNAS method achieves state-of-the-art performance on these datasets.
翻訳日:2022-03-07 14:34:14 公開日:2022-03-04
# (参考訳) 6フィート以上離れない - 半径上限を経由するロバストなk平均

No More Than 6ft Apart: Robust K-Means via Radius Upper Bounds ( http://arxiv.org/abs/2203.02502v1 )

ライセンス: CC BY-SA 4.0
Ahmed Imtiaz Humayun, Randall Balestriero, Anastasios Kyrillidis, Richard Baraniuk(参考訳) k-means,k-medoids,k-centersなどのセンタロイドベースのクラスタリング手法は,探索的データ解析におけるgo-toツールとして広く適用されている。 多くの場合、これらの手法はデータセットの視覚化や要約のためにデータ多様体の代表的なセントロイドを得るために用いられる。 実世界のデータセットは、しばしば不均衡なクラスタリングを示す繰り返しサンプルやサンプリングバイアスのような固有の異常を含む。 我々は,このシナリオを,センチロイドによって形成されたクラスタ上に最大半径制約$r$を導入し,例えば,同じクラスタからのサンプルが$\ell_2$距離で2r$以上離れるべきではないことを提案する。 この制約は半定値プログラムを解き、次に2次制約を持つ線形代入問題を解く。 定性的な結果から,提案手法はデータセットの不均衡やアーティファクトのサンプリングに対して堅牢であることを示す。 我々の知る限りでは、我々の手法はハード半径制約を持つ最初の制約付きk平均クラスタリング手法である。 コード: https://bit.ly/kmeans-constrained

Centroid based clustering methods such as k-means, k-medoids and k-centers are heavily applied as a go-to tool in exploratory data analysis. In many cases, those methods are used to obtain representative centroids of the data manifold for visualization or summarization of a dataset. Real world datasets often contain inherent abnormalities, e.g., repeated samples and sampling bias, that manifest imbalanced clustering. We propose to remedy such a scenario by introducing a maximal radius constraint $r$ on the clusters formed by the centroids, i.e., samples from the same cluster should not be more than $2r$ apart in terms of $\ell_2$ distance. We achieve this constraint by solving a semi-definite program, followed by a linear assignment problem with quadratic constraints. Through qualitative results, we show that our proposed method is robust towards dataset imbalances and sampling artifacts. To the best of our knowledge, ours is the first constrained k-means clustering method with hard radius constraints. Codes at https://bit.ly/kmeans-constrained
翻訳日:2022-03-07 14:31:30 公開日:2022-03-04
# 効率的なサブポピュレーションに基づくメンバーシップ推論攻撃

An Efficient Subpopulation-based Membership Inference Attack ( http://arxiv.org/abs/2203.02080v1 )

ライセンス: Link先を確認
Shahbaz Rezaei and Xin Liu(参考訳) メンバーシップ推論攻撃により、悪意のあるエンティティは、被害者モデルのトレーニング中にサンプルが使用されているかどうかを予測できる。 最先端の会員推測攻撃は、優れた精度を達成し、プライバシーの脅威を招いている。 しかし、SOTA攻撃の大半は、メンバーシップを正確に推測するために、数十から数百のシャドウモデルへの訓練を必要とする。 この膨大な計算コストは、深層モデルに対するこれらの攻撃の実用性に関する疑問を引き起こす。 本稿では,数百のシャドウモデルを訓練する必要性を回避し,基本的に異なるMI攻撃手法を提案する。 簡単に言えば、ターゲットのサンプルで出力された被害者モデルと、同じサブポピュレーション(意味的に類似したサンプル)のサンプルを比較し、数百のシャドーモデルの出力と比較します。 直観的には、モデル応答は、トレーニングサンプルでなければ、ターゲットサンプルとそのサブポピュレーションの間で著しく異なるべきではない。 攻撃者がサブポピュレーションのサンプルを入手できない場合、訓練は1つの生成モデルだけが要求を満たせることを示す。 これにより,訓練計算コストを大幅に削減しながら,最先端のメンバシップ推定精度を実現することができる。

Membership inference attacks allow a malicious entity to predict whether a sample is used during training of a victim model or not. State-of-the-art membership inference attacks have shown to achieve good accuracy which poses a great privacy threat. However, majority of SOTA attacks require training dozens to hundreds of shadow models to accurately infer membership. This huge computation cost raises questions about practicality of these attacks on deep models. In this paper, we introduce a fundamentally different MI attack approach which obviates the need to train hundreds of shadow models. Simply put, we compare the victim model output on the target sample versus the samples from the same subpopulation (i.e., semantically similar samples), instead of comparing it with the output of hundreds of shadow models. The intuition is that the model response should not be significantly different between the target sample and its subpopulation if it was not a training sample. In cases where subpopulation samples are not available to the attacker, we show that training only a single generative model can fulfill the requirement. Hence, we achieve the state-of-the-art membership inference accuracy while significantly reducing the training computation cost.
翻訳日:2022-03-07 14:22:03 公開日:2022-03-04
# 自律走行における物体検知器の安全性評価指標

Safety-aware metrics for object detectors in autonomous driving ( http://arxiv.org/abs/2203.02205v1 )

ライセンス: Link先を確認
Andrea Ceccarelli, Leonardo Montecchi(参考訳) 安全クリティカルドメインのオブジェクト検出器は、自律的なアクターの動作に最も干渉しそうなオブジェクトの検出を優先すべきである、と我々は主張する。 特に、アクターの安全性と信頼性に影響を与える可能性のあるオブジェクトに当てはまる。 自律運転の文脈において,対象車両(アクタ)と最も相互作用する可能性のある物体(すなわちアクタ)の正しい識別に報いる新しい物体検出指標を提案する。 これを実現するために,対象車両に対する近接,方向,相対速度に基づく物体の検出に報いる臨界モデルを構築した。 次に、我々のモデルを最近の自律走行データセットnuScenesに適用し、8種類の物体検出器を比較した。 その結果、いくつかの環境では、安全性と信頼性に重点を置いている場合、nuScenesランキングでベストに機能するオブジェクト検出器は好ましくないことが判明した。

We argue that object detectors in the safety critical domain should prioritize detection of objects that are most likely to interfere with the actions of the autonomous actor. Especially, this applies to objects that can impact the actor's safety and reliability. In the context of autonomous driving, we propose new object detection metrics that reward the correct identification of objects that are most likely to interact with the subject vehicle (i.e., the actor), and that may affect its driving decision. To achieve this, we build a criticality model to reward the detection of the objects based on proximity, orientation, and relative velocity with respect to the subject vehicle. Then, we apply our model on the recent autonomous driving dataset nuScenes, and we compare eight different object detectors. Results show that, in several settings, object detectors that perform best according to the nuScenes ranking are not the preferable ones when the focus is shifted on safety and reliability.
翻訳日:2022-03-07 14:21:45 公開日:2022-03-04
# 親密性仮説:深部開集合法の振る舞いを説明する

The Familiarity Hypothesis: Explaining the Behavior of Deep Open Set Methods ( http://arxiv.org/abs/2203.02486v1 )

ライセンス: Link先を確認
Thomas G. Dietterich, Alexander Guyer(参考訳) 多くのオブジェクト認識アプリケーションでは、可能なカテゴリのセットはオープンセットであり、デプロイされた認識システムはトレーニング中に見えないカテゴリに属する新しいオブジェクトに遭遇する。 このような「ノベル圏」オブジェクトの検出は通常、異常検出問題として定式化される。 特徴ベクトルデータに対する異常検出アルゴリズムは異常を外れ値として識別するが、外れ値検出はディープラーニングではうまく機能しない。 代わりに、ビジュアルオブジェクト分類器の計算ロジットに基づくメソッドは、最先端のパフォーマンスを提供する。 本論文は, 新規性の有無ではなく, 慣れ親しんだ特徴の欠如を検知しているため, これらの手法が成功するというFamiliarity仮説を提案する。 本論文は,本論文の証拠をレビューし,この仮説を強く支持する我々の実験から追加の証拠を提示する。 本論文は,親しみやすさの検出が表現学習の必然的な結果であるかどうかを論じる。

In many object recognition applications, the set of possible categories is an open set, and the deployed recognition system will encounter novel objects belonging to categories unseen during training. Detecting such "novel category" objects is usually formulated as an anomaly detection problem. Anomaly detection algorithms for feature-vector data identify anomalies as outliers, but outlier detection has not worked well in deep learning. Instead, methods based on the computed logits of visual object classifiers give state-of-the-art performance. This paper proposes the Familiarity Hypothesis that these methods succeed because they are detecting the absence of familiar learned features rather than the presence of novelty. The paper reviews evidence from the literature and presents additional evidence from our own experiments that provide strong support for this hypothesis. The paper concludes with a discussion of whether familiarity detection is an inevitable consequence of representation learning.
翻訳日:2022-03-07 14:21:32 公開日:2022-03-04
# eag: 完全多言語ニューラルマシン翻訳のためのマルチウェイアライメントコーパスの抽出と生成

EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation ( http://arxiv.org/abs/2203.02180v1 )

ライセンス: Link先を確認
Yulin Xu and Zhen Yang and Fandong Meng and JieZhou(参考訳) 完全多言語ニューラルネットワーク翻訳(C-MNMT)は,多言語対応コーパスを構築することで従来のMNMTよりも優れた性能を実現している。 しかし、異なる言語対の全く同一の文が不足しているため、マルチウェイアライメントコーパスのパワーはその規模によって制限される。 本稿では,2言語データから大規模かつ高品質な多方向コーパスを構築するための2段階のアプローチである「抽出と生成」を提案する。 具体的には、まず、異なる言語対と非常に類似したソースやターゲット文とをペアにすることで、候補の整列例を抽出し、それから、よく訓練された生成モデルを用いて候補から最終的な整列例を生成する。 この2段階のパイプラインにより、EAGは、多様性が元のバイリンガルコーパスとほぼ同一である大規模で多方向のコーパスを構築することができる。 WMT-5とOPUS-100の2つの公開データセットの実験により、提案手法は強いベースラインよりも大幅に改善され、+1.1と+1.4のBLEUポイントは2つのデータセットでそれぞれ改善された。

Complete Multi-lingual Neural Machine Translation (C-MNMT) achieves superior performance against the conventional MNMT by constructing multi-way aligned corpus, i.e., aligning bilingual training examples from different language pairs when either their source or target sides are identical. However, since exactly identical sentences from different language pairs are scarce, the power of the multi-way aligned corpus is limited by its scale. To handle this problem, this paper proposes "Extract and Generate" (EAG), a two-step approach to construct large-scale and high-quality multi-way aligned corpus from bilingual data. Specifically, we first extract candidate aligned examples by pairing the bilingual examples from different language pairs with highly similar source or target sentences; and then generate the final aligned examples from the candidates with a well-trained generation model. With this two-step pipeline, EAG can construct a large-scale and multi-way aligned corpus whose diversity is almost identical to the original bilingual corpus. Experiments on two publicly available datasets i.e., WMT-5 and OPUS-100, show that the proposed method achieves significant improvements over strong baselines, with +1.1 and +1.4 BLEU points improvements on the two datasets respectively.
翻訳日:2022-03-07 14:21:17 公開日:2022-03-04
# ディープフェイク検出のベンチマークと評価に向けて

Towards Benchmarking and Evaluating Deepfake Detection ( http://arxiv.org/abs/2203.02115v1 )

ライセンス: Link先を確認
Chenhao Lin, Jingyi Deng, Pengbin Hu, Chao Shen, Qian Wang, Qi Li(参考訳) ディープフェイク検出は、操作されたビデオと非修正されたビデオの違いを分析して、操作されたメディアを自動的に認識する。 既存のディープフェイク検出手法の中で、どちらがトップパフォーマーであるかを問うことは自然であり、有望な研究方向を特定し、実践的なガイダンスを提供する。 残念ながら、評価条件は研究間で一貫性がないため、文献による結果を用いて既存の検出手法を音質ベンチマークで比較することは困難である。 本研究の目的は, 総合的かつ一貫したベンチマークを確立し, 繰り返し可能な評価手法を開発し, 様々な検出手法の性能を測定し, 結果を健全に比較することである。 13以上の異なる手法によって生成された操作されたサンプルからなる挑戦的データセットが収集され、既存の文献からの11の一般的な検出手法(9つのアルゴリズム)が実装され、6つの公正で実用的な評価指標で評価されている。 最後に92モデルが訓練され、評価のために644の実験が行われた。 その結果,共有データおよび評価手法とともに,ディープフェイク検出手法と進捗測定手法を比較するベンチマークを構成する。

Deepfake detection automatically recognizes the manipulated medias through the analysis of the difference between manipulated and non-altered videos. It is natural to ask which are the top performers among the existing deepfake detection approaches to identify promising research directions and provide practical guidance. Unfortunately, it's difficult to conduct a sound benchmarking comparison of existing detection approaches using the results in the literature because evaluation conditions are inconsistent across studies. Our objective is to establish a comprehensive and consistent benchmark, to develop a repeatable evaluation procedure, and to measure the performance of a range of detection approaches so that the results can be compared soundly. A challenging dataset consisting of the manipulated samples generated by more than 13 different methods has been collected, and 11 popular detection approaches (9 algorithms) from the existing literature have been implemented and evaluated with 6 fair-minded and practical evaluation metrics. Finally, 92 models have been trained and 644 experiments have been performed for the evaluation. The results along with the shared data and evaluation methodology constitute a benchmark for comparing deepfake detection approaches and measuring progress.
翻訳日:2022-03-07 14:20:53 公開日:2022-03-04
# 複数のCNNの直交訓練によるGAN生成画像の検出

Detecting GAN-generated Images by Orthogonal Training of Multiple CNNs ( http://arxiv.org/abs/2203.02246v1 )

ライセンス: Link先を確認
Sara Mandelli, Nicol\`o Bonettini, Paolo Bestagini, Stefano Tubaro(参考訳) ここ数年、我々は非常にリアルに見える合成画像を生成するための一連の深層学習手法の台頭を目撃してきた。 これらの技術は映画産業や芸術的目的に有用である。 しかし、偽ニュースを広めたり、偽のオンラインアカウントを作成したりする際にも危険である。 このため、画像が実際の写真であるか、あるいは合成的に生成されたかを検出することが、必要不可欠なものとなっている。 本稿では,畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく合成画像の検出手法を提案する。 訓練時間には使用できない手法で生成した画像を検出する問題を考える。 新しいイメージジェネレータが頻繁に発行されることを考えると、これは一般的なシナリオである。 この問題を解決するために、私たちは2つの主要なアイデアを活用します。 i)CNNは、アンサンブルにより良い貢献をするために直交結果を提供するべきである。 (ii)原画像は合成画像よりもよく定義されているため、テスト時には信頼性が高い。 実験の結果、これらの2つのアイデアを追求することで、NVIDIAが新たに生成したStyleGAN3イメージの検出精度が向上することが示された。

In the last few years, we have witnessed the rise of a series of deep learning methods to generate synthetic images that look extremely realistic. These techniques prove useful in the movie industry and for artistic purposes. However, they also prove dangerous if used to spread fake news or to generate fake online accounts. For this reason, detecting if an image is an actual photograph or has been synthetically generated is becoming an urgent necessity. This paper proposes a detector of synthetic images based on an ensemble of Convolutional Neural Networks (CNNs). We consider the problem of detecting images generated with techniques not available at training time. This is a common scenario, given that new image generators are published more and more frequently. To solve this issue, we leverage two main ideas: (i) CNNs should provide orthogonal results to better contribute to the ensemble; (ii) original images are better defined than synthetic ones, thus they should be better trusted at testing time. Experiments show that pursuing these two ideas improves the detector accuracy on NVIDIA's newly generated StyleGAN3 images, never used in training.
翻訳日:2022-03-07 14:20:36 公開日:2022-03-04
# 空間正規化とデータ拡張を組み込んだ連発的ファウショット関係学習

Continual Few-shot Relation Learning via Embedding Space Regularization and Data Augmentation ( http://arxiv.org/abs/2203.02135v1 )

ライセンス: Link先を確認
Chengwei Qin and Shafiq Joty(参考訳) 既存のCRL(Continuousal Relation Learning)手法では,大量のラベル付きトレーニングデータを使って新しいタスクを学習する。 したがって,従来の課題知識の破滅的な忘れを回避しつつ,ラベル付きデータが少ない新しい関係パターンを学習することが不可欠である。 本稿では,この課題をCFRL(Continuous few-shot relation learning)として定式化する。 そこで本稿では,新しいマイナショットタスクの学習が,従来のタスクの学習分布と相容れない特徴分布をもたらすことの多いことに着目し,空間正規化とデータ拡張の組込みに基づく新しい手法を提案する。 提案手法は,新たな数発タスクに一般化し,リレーショナル埋め込みに余分な制約を課し,自己管理的なデータを追加することにより,過去のタスクの破滅的な忘れを避ける。 本研究では,CFRLタスク設定における従来の最先端手法よりも優れた性能を示す。

Existing continual relation learning (CRL) methods rely on plenty of labeled training data for learning a new task, which can be hard to acquire in real scenario as getting large and representative labeled data is often expensive and time-consuming. It is therefore necessary for the model to learn novel relational patterns with very few labeled data while avoiding catastrophic forgetting of previous task knowledge. In this paper, we formulate this challenging yet practical problem as continual few-shot relation learning (CFRL). Based on the finding that learning for new emerging few-shot tasks often results in feature distributions that are incompatible with previous tasks' learned distributions, we propose a novel method based on embedding space regularization and data augmentation. Our method generalizes to new few-shot tasks and avoids catastrophic forgetting of previous tasks by enforcing extra constraints on the relational embeddings and by adding extra {relevant} data in a self-supervised manner. With extensive experiments we demonstrate that our method can significantly outperform previous state-of-the-art methods in CFRL task settings.
翻訳日:2022-03-07 14:20:20 公開日:2022-03-04
# gcnet:会話における不完全マルチモーダル学習のためのグラフ補完ネットワーク

GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation ( http://arxiv.org/abs/2203.02177v1 )

ライセンス: Link先を確認
Zheng Lian, Lan Chen, Licai Sun, Bin Liu, Jianhua Tao(参考訳) 会話はソーシャルメディアプラットフォーム上で重要なデータフォーマットになっています。 感情、内容、その他の側面からの会話を理解することは、人間とコンピュータの相互作用に広く応用されているため、研究者の注目を集める。 現実の環境では、会話理解の中核となる不完全なモダリティの問題に遭遇することが多い。 この問題に対処するため、研究者は様々な方法を提案する。 しかし、既存のアプローチは主に会話データではなく個々の発話や医療画像向けに設計されており、会話における時間的情報や話者情報を活用できない。 そこで本研究では,会話における不完全なマルチモーダル学習のための新しいフレームワーク"Graph Complete Network (GCNet)"を提案し,既存の作業のギャップを埋める。 我々のGCNetは、2つのよく設計されたグラフニューラルネットワークベースのモジュール「Speaker GNN」と「Temporal GNN」を含んでおり、会話中の時間的および話者的情報をキャプチャしている。 機能学習において完全で不完全なデータをフルに活用するために,エンドツーエンドで分類と再構成を共同で最適化する。 提案手法の有効性を検証するため,3つのベンチマーク対話データセットを用いて実験を行った。 実験の結果,GCNetは非完全マルチモーダル学習における最先端手法よりも優れていることがわかった。

Conversations have become a critical data format on social media platforms. Understanding conversation from emotion, content, and other aspects also attracts increasing attention from researchers due to its widespread application in human-computer interaction. In real-world environments, we often encounter the problem of incomplete modalities, which has become a core issue of conversation understanding. To address this problem, researchers propose various methods. However, existing approaches are mainly designed for individual utterances or medical images rather than conversational data, which cannot exploit temporal and speaker information in conversations. To this end, we propose a novel framework for incomplete multimodal learning in conversations, called "Graph Complete Network (GCNet)", filling the gap of existing works. Our GCNet contains two well-designed graph neural network-based modules, "Speaker GNN" and "Temporal GNN", to capture temporal and speaker information in conversations. To make full use of complete and incomplete data in feature learning, we jointly optimize classification and reconstruction in an end-to-end manner. To verify the effectiveness of our method, we conduct experiments on three benchmark conversational datasets. Experimental results demonstrate that our GCNet is superior to existing state-of-the-art approaches in incomplete multimodal learning.
翻訳日:2022-03-07 14:19:00 公開日:2022-03-04
# MM-DFN:会話における感情認識のためのマルチモーダルダイナミックフュージョンネットワーク

MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in Conversations ( http://arxiv.org/abs/2203.02385v1 )

ライセンス: Link先を確認
Dou Hu, Xiaolong Hou, Lingwei Wei, Lianxin Jiang, Yang Mo(参考訳) 会話における感情認識(erc)は共感機械の開発にかなりの可能性を持っている。 マルチモーダルERCでは,会話における文脈の理解とモダリティ情報の融合が不可欠である。 最近のグラフベースの融合手法では、グラフ内のユニモーダルおよびクロスモーダル相互作用を探索することにより、一般的にマルチモーダル情報を集約する。 しかし、各層に冗長な情報を蓄積し、モダリティ間のコンテキスト理解を制限する。 本稿では,マルチモーダルな対話的文脈を十分に理解して感情を認識するためのマルチモーダル動的融合ネットワーク(mm-dfn)を提案する。 具体的には,会話におけるマルチモーダルなコンテキスト特徴を融合するグラフベースの動的融合モジュールを設計する。 このモジュールは冗長性を低減し、異なる意味空間における文脈情報のダイナミクスを捉えることにより、モダリティ間の相補性を高める。 2つの公開ベンチマークデータセットに対する大規模な実験は、MM-DFNの有効性と優位性を示している。

Emotion Recognition in Conversations (ERC) has considerable prospects for developing empathetic machines. For multimodal ERC, it is vital to understand context and fuse modality information in conversations. Recent graph-based fusion methods generally aggregate multimodal information by exploring unimodal and cross-modal interactions in a graph. However, they accumulate redundant information at each layer, limiting the context understanding between modalities. In this paper, we propose a novel Multimodal Dynamic Fusion Network (MM-DFN) to recognize emotions by fully understanding multimodal conversational context. Specifically, we design a new graph-based dynamic fusion module to fuse multimodal contextual features in a conversation. The module reduces redundancy and enhances complementarity between modalities by capturing the dynamics of contextual information in different semantic spaces. Extensive experiments on two public benchmark datasets demonstrate the effectiveness and superiority of MM-DFN.
翻訳日:2022-03-07 14:18:38 公開日:2022-03-04
# ヒューリスティック・アウェア・機械学習を用いたストリーミングサービスにおける不正検出

Abuse and Fraud Detection in Streaming Services Using Heuristic-Aware Machine Learning ( http://arxiv.org/abs/2203.02124v1 )

ライセンス: Link先を確認
Soheil Esmaeilzadeh, Negin Salajegheh, Amir Ziai, Jeff Boote(参考訳) 本研究は,ユーザのストリーミング行動のモデル化により,ストリーミングサービスに対する不正および乱用検出フレームワークを提案する。 目的は、異常や不審なインシデントを発見し、ユーザーの振る舞いを特徴付けるモデルを作成して調査をスケールすることである。 半教師付きおよび教師付きアプローチを用いた異常検出法について検討した。 半教師付きアプローチでは、認証された異常なデータサンプルのセットのみを利用することで、一級分類アルゴリズムとオートエンコーダディープニューラルネットワークを用いて異常検出を行う。 教師付き異常検出タスクでは、ラベル付きデータサンプルを作成するためのヒューリスティック・アウェアなデータラベリング戦略を提案する。 本研究は,異常サンプルの検出だけでなく,各サンプルに関連付けられた下位の異常行動(s)を特定するために,バイナリ分類とマルチクラスマルチラベル分類タスクを実行する。 最後に、システマティックな特徴重要度調査を用いて、異なるストリーミング詐欺カテゴリを特徴付ける基礎となる特徴セットに関する洞察を提供する。 私たちの知る限りでは、現実世界のストリーミングサービスにおける不正や乱用の検出に機械学習を使用する最初の論文です。

This work presents a fraud and abuse detection framework for streaming services by modeling user streaming behavior. The goal is to discover anomalous and suspicious incidents and scale the investigation efforts by creating models that characterize the user behavior. We study the use of semi-supervised as well as supervised approaches for anomaly detection. In the semi-supervised approach, by leveraging only a set of authenticated anomaly-free data samples, we show the use of one-class classification algorithms as well as autoencoder deep neural networks for anomaly detection. In the supervised anomaly detection task, we present a so-called heuristic-aware data labeling strategy for creating labeled data samples. We carry out binary classification as well as multi-class multi-label classification tasks for not only detecting the anomalous samples but also identifying the underlying anomaly behavior(s) associated with each one. Finally, using a systematic feature importance study we provide insights into the underlying set of features that characterize different streaming fraud categories. To the best of our knowledge, this is the first paper to use machine learning methods for fraud and abuse detection in real-world scale streaming services.
翻訳日:2022-03-07 14:18:24 公開日:2022-03-04
# 目標を計画し、スキルを学ぶ - decoupled policy optimizationによる移行可能なステートのみの模倣学習

Plan Your Target and Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization ( http://arxiv.org/abs/2203.02214v1 )

ライセンス: Link先を確認
Minghuan Liu, Zhengbang Zhu, Yuzheng Zhuang, Weinan Zhang, Jianye Hao, Yong Yu, Jun Wang(参考訳) 状態限定模倣学習の最近の進歩は、専門家の行動を観察する必要性を緩和することで、模倣学習の適用範囲を現実の環境にまで広げている。 しかし、既存のソリューションは、エキスパートがどのようにターゲットに計画するかを考慮せずに、データから状態から行動へのマッピングポリシーを抽出することしか学ばない。 これにより、デモの活用が妨げられ、ポリシーの柔軟性が制限される。 本稿では,Decoupled Policy Optimization (DePO)を導入し,高レベルな状態プランナと逆動的モデルとしてポリシーを明示的に分離する。 組込み型分離政策勾配と生成的敵意訓練により、DePOは異なる行動空間や状態遷移ダイナミクスへの知識伝達を可能にし、プランナーを実証外状態領域に一般化することができる。 実験結果から,DePOが最適模擬性能を達成しつつ,汎用目標状態プランナの学習に有効であることを示す。 プレトレーニングにより,様々なタスクを移動させるDePOの魅力と,様々なスキルを持つ協調学習エージェントの可能性を示す。

Recent progress in state-only imitation learning extends the scope of applicability of imitation learning to real-world settings by relieving the need for observing expert actions. However, existing solutions only learn to extract a state-to-action mapping policy from the data, without considering how the expert plans to the target. This hinders the ability to leverage demonstrations and limits the flexibility of the policy. In this paper, we introduce Decoupled Policy Optimization (DePO), which explicitly decouples the policy as a high-level state planner and an inverse dynamics model. With embedded decoupled policy gradient and generative adversarial training, DePO enables knowledge transfer to different action spaces or state transition dynamics, and can generalize the planner to out-of-demonstration state regions. Our in-depth experimental analysis shows the effectiveness of DePO on learning a generalized target state planner while achieving the best imitation performance. We demonstrate the appealing usage of DePO for transferring across different tasks by pre-training, and the potential for co-training agents with various skills.
翻訳日:2022-03-07 14:18:06 公開日:2022-03-04
# XAIの対実アルゴリズムのベンチマーク評価:ホワイトボックスからブラックボックスへ

Benchmark Evaluation of Counterfactual Algorithms for XAI: From a White Box to a Black Box ( http://arxiv.org/abs/2203.02399v1 )

ライセンス: Link先を確認
Yu-Liang Chou and Chihcheng Hsieh and Catarina Moreira and Chun Ouyang and Joaquim Jorge and Jo\~ao Madeiras Pereira(参考訳) 説明可能な人工知能(XAI)の予測モデルから人間の理解可能な説明を得るための、潜在的に重要な反応として、対物的説明が最近明かされた。 様々な反事実アルゴリズムが提案されているにもかかわらず、最先端の芸術研究は相反的説明の質を評価するための標準化されたプロトコルをいまだに欠いている。 本研究では,文献中の異なるモデル非依存な反事実アルゴリズム(dice,watchercf,prototype,unjustifiedcf)を対象としたベンチマーク評価を行い,ホワイトボックス(決定木)からグレイボックス(ランダムフォレスト),ブラックボックス(ニューラルネットワーク)まで,さまざまな機械学習モデルにおける反事実生成過程について検討した。 我々は,5つのデータセットの近接性,解釈可能性,機能など,いくつかの指標を用いて,異なる反現実的アルゴリズムを評価した。 本研究の主な成果は次のとおりである。(1) 対実生成プロセスの妥当性が保証されていない場合、有意義な評価結果が得られない。 This means that all explainable counterfactual algorithms that do not take into consideration plausibility in their internal mechanisms cannot be evaluated with the current state of the art evaluation metrics; (2) the counterfactual generated are not impacted by the different types of machine learning models; (3) DiCE was the only tested algorithm that was able to generate actionable and plausible counterfactuals, because it provides mechanisms to constraint features; (4) WatcherCF and UnjustifiedCF are limited to continuous variables and can not deal with categorical data.

Counterfactual explanations have recently been brought to light as a potentially crucial response to obtaining human-understandable explanations from predictive models in Explainable Artificial Intelligence (XAI). Despite the fact that various counterfactual algorithms have been proposed, the state of the art research still lacks standardised protocols to evaluate the quality of counterfactual explanations. In this work, we conducted a benchmark evaluation across different model agnostic counterfactual algorithms in the literature (DiCE, WatcherCF, prototype, unjustifiedCF), and we investigated the counterfactual generation process on different types of machine learning models ranging from a white box (decision tree) to a grey-box (random forest) and a black box (neural network). We evaluated the different counterfactual algorithms using several metrics including proximity, interpretability and functionality for five datasets. The main findings of this work are the following: (1) without guaranteeing plausibility in the counterfactual generation process, one cannot have meaningful evaluation results. This means that all explainable counterfactual algorithms that do not take into consideration plausibility in their internal mechanisms cannot be evaluated with the current state of the art evaluation metrics; (2) the counterfactual generated are not impacted by the different types of machine learning models; (3) DiCE was the only tested algorithm that was able to generate actionable and plausible counterfactuals, because it provides mechanisms to constraint features; (4) WatcherCF and UnjustifiedCF are limited to continuous variables and can not deal with categorical data.
翻訳日:2022-03-07 14:17:48 公開日:2022-03-04
# (参考訳) AutoDIME:興味深いマルチエージェント環境の自動設計

AutoDIME: Automatic Design of Interesting Multi-Agent Environments ( http://arxiv.org/abs/2203.02481v1 )

ライセンス: CC BY 4.0
Ingmar Kanitscheider and Harri Edwards(参考訳) RLエージェントが興味深く有用なスキルを習得できる環境の分布を設計することは困難であり、マルチエージェント環境では困難が悪化するのみである。 一つのアプローチは、教師と呼ばれる第二のRLエージェントを訓練することであり、学生エージェントの学習に役立つ環境をサンプリングする。 しかし、教師報酬に関する以前の提案のほとんどは、直接的にマルチエージェント設定に一般化していない。 本研究では,マルチエージェント設定で適用可能な予測問題から派生した本質的な教師報酬のセットについて検討し,マルチエージェントHideやSeekなどのMujocoタスクや診断シングルエージェント迷路タスクで評価する。 考慮された内在的な報酬のうち、価値の不一致はタスク間で最も一貫性があり、隠れて探究する高度なスキルと迷路タスクのより速く、より信頼性の高い出現をもたらしました。 価値予測エラー(value prediction error)は隠れて探すのもうまくいったが、確率的な環境ではノイズの多いテレビスタイルの注意をそらす傾向があった。 政策の不一致は迷路タスクでうまくいったが、隠れて探す学習をスピードアップさせることはできなかった。 この結果から,教師の報酬,特に価値の相違は,単一環境とマルチエージェント環境の両方を自動生成する上で有望なアプローチであることが示唆された。

Designing a distribution of environments in which RL agents can learn interesting and useful skills is a challenging and poorly understood task, for multi-agent environments the difficulties are only exacerbated. One approach is to train a second RL agent, called a teacher, who samples environments that are conducive for the learning of student agents. However, most previous proposals for teacher rewards do not generalize straightforwardly to the multi-agent setting. We examine a set of intrinsic teacher rewards derived from prediction problems that can be applied in multi-agent settings and evaluate them in Mujoco tasks such as multi-agent Hide and Seek as well as a diagnostic single-agent maze task. Of the intrinsic rewards considered we found value disagreement to be most consistent across tasks, leading to faster and more reliable emergence of advanced skills in Hide and Seek and the maze task. Another candidate intrinsic reward considered, value prediction error, also worked well in Hide and Seek but was susceptible to noisy-TV style distractions in stochastic environments. Policy disagreement performed well in the maze task but did not speed up learning in Hide and Seek. Our results suggest that intrinsic teacher rewards, and in particular value disagreement, are a promising approach for automating both single and multi-agent environment design.
翻訳日:2022-03-07 14:15:25 公開日:2022-03-04
# オンライン・オーダーのサービス:機械学習と影響分析によるサイバー・ブリッシングの取り組み

In the Service of Online Order: Tackling Cyber-Bullying with Machine Learning and Affect Analysis ( http://arxiv.org/abs/2203.02116v1 )

ライセンス: Link先を確認
Michal Ptaszynski, Pawel Dybala, Tatsuaki Matsuba, Fumito Masui, Rafal Rzepka, Kenji Araki, Yoshio Momouchi(参考訳) 最近日本で燃えている問題の一つは、ネット上でのサイバーいじめやスランディング、いじめだ。 この問題は日本の学校の公式ウェブサイトで特に注目されている。 学校職員とPTA(Parent-Teacher Association)のメンバーからなるボランティアは、Webフォーラムやブログ内で悪意のあるコンテンツを見つけるためにオンラインパトロールを開始した。 実践的に、オンラインパトロールは、手動で実行するのが難しいwebコンテンツ全体を読むことを想定している。 本稿では,PTAメンバーがオンラインパトロールをより効率的に行うための研究を紹介する。 悪意のあるエントリを自動的に検出し,それをPTAメンバに報告するツールセットの開発を目指している。 まず、非公式の学校ウェブサイトからサイバーいじめデータを収集した。 そして,このデータを2つの方法で分析した。 まず,サイバーいじめの特徴的な特徴を見つけ,機械学習分類器に適用するために,多面的感情分析システムを用いてエントリを分析した。 次に,SVMに基づく機械学習手法を適用し,サイバーいじめ検出のための分類器の訓練を行った。 このシステムは、バランスの取れたFスコアの88.2%のサイバーいじめエントリを分類することができた。

One of the burning problems lately in Japan has been cyber-bullying, or slandering and bullying people online. The problem has been especially noticed on unofficial Web sites of Japanese schools. Volunteers consisting of school personnel and PTA (Parent-Teacher Association) members have started Online Patrol to spot malicious contents within Web forums and blogs. In practise, Online Patrol assumes reading through the whole Web contents, which is a task difficult to perform manually. With this paper we introduce a research intended to help PTA members perform Online Patrol more efficiently. We aim to develop a set of tools that can automatically detect malicious entries and report them to PTA members. First, we collected cyber-bullying data from unofficial school Web sites. Then we performed analysis of this data in two ways. Firstly, we analysed the entries with a multifaceted affect analysis system in order to find distinctive features for cyber-bullying and apply them to a machine learning classifier. Secondly, we applied a SVM based machine learning method to train a classifier for detection of cyber-bullying. The system was able to classify cyber-bullying entries with 88.2% of balanced F-score.
翻訳日:2022-03-07 13:54:08 公開日:2022-03-04
# 人間のフィードバックで指示に従うための言語モデル

Training language models to follow instructions with human feedback ( http://arxiv.org/abs/2203.02155v1 )

ライセンス: Link先を確認
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe(参考訳) 言語モデルをより大きくすることは、本来、ユーザの意図に従うことを良くするものではない。 例えば、大きな言語モデルは、非現実的で有毒、あるいは単にユーザにとって役に立たないアウトプットを生成することができる。 言い換えれば、これらのモデルはユーザーと一致していない。 本稿では,人間のフィードバックを微調整することで,幅広いタスクに対して言語モデルとユーザの意図を連携させる方法を示す。 OpenAI APIを通じてラベラで書かれたプロンプトとプロンプトのセットから始め、所望のモデル動作のラベラデモのデータセットを収集し、教師付き学習を用いてGPT-3を微調整する。 次に、モデル出力のランキングのデータセットを収集し、人間のフィードバックからの強化学習を用いて、この教師付きモデルをさらに微調整する。 結果のモデルをInstructGPTと呼びます。 本手法では,1.3Bパラメータからの出力が175B GPT-3の出力より好まれるが,パラメータは100倍少ない。 さらに、インストラクトGPTモデルは、パブリックなNLPデータセット上での最小性能のレグレッションを保ちながら、有毒な出力生成の真偽と低減の改善を示す。 InstructGPTは依然として単純な誤りを犯すが、人間のフィードバックによる微調整は言語モデルと人間の意図を一致させる上で有望な方向であることを示す。

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.
翻訳日:2022-03-07 13:53:51 公開日:2022-03-04
# R-GCN:Rはランダムに立つかもしれない

R-GCN: The R Could Stand for Random ( http://arxiv.org/abs/2203.02424v1 )

ライセンス: Link先を確認
Vic Degraeve, Gilles Vandewiele, Femke Ongenae, Sofie Van Hoecke(参考訳) リレーショナルグラフ畳み込みネットワーク(R-GCN)の誕生は、知識グラフ(KG)上で動作する機械学習モデルのエンドツーエンドトレーニングを可能にするセマンティックWebドメインにおけるマイルストーンとなった。 R-GCNは、近隣のパラメトリクスと関係特異的な変換を繰り返し集約することで、興味のあるノードの表現を生成する。 しかし,本論文では,r-gcnの主な貢献は学習パラメータではなく,この「メッセージパッシング」パラダイムにあると主張する。 この目的のために、ランダムに変換されたランダムな情報をナイグブラーから集約することで、KG内のノードへの埋め込みを構築するRR-GCN(Random Relational Graph Convolutional Network)を導入する。 RR-GCNはノード分類とリンク予測設定の両方において完全に訓練されたR-GCNと競合することを示す。 これらの結果の意義は2つある:一方、我々の技術は、新しいkg埋め込みメソッドが打ち勝てるという簡単な基準として使用できる。 一方で、さらなる研究によってkgsに対するパラメーター効率の高いインダクティブバイアスが明らかになることも示されている。

The inception of Relational Graph Convolutional Networks (R-GCNs) marked a milestone in the Semantic Web domain as it allows for end-to-end training of machine learning models that operate on Knowledge Graphs (KGs). R-GCNs generate a representation for a node of interest by repeatedly aggregating parametrised, relation-specific transformations of its neighbours. However, in this paper, we argue that the the R-GCN's main contribution lies in this "message passing" paradigm, rather than the learned parameters. To this end, we introduce the "Random Relational Graph Convolutional Network" (RR-GCN), which constructs embeddings for nodes in the KG by aggregating randomly transformed random information from neigbours, i.e., with no learned parameters. We empirically show that RR-GCNs can compete with fully trained R-GCNs in both node classification and link prediction settings. The implications of these results are two-fold: on the one hand, our technique can be used as a quick baseline that novel KG embedding methods should be able to beat. On the other hand, it demonstrates that further research might reveal more parameter-efficient inductive biases for KGs.
翻訳日:2022-03-07 13:53:08 公開日:2022-03-04
# 曲線モデリングによる効率的な車線検出の再考

Rethinking Efficient Lane Detection via Curve Modeling ( http://arxiv.org/abs/2203.02431v1 )

ライセンス: Link先を確認
Zhengyang Feng, Shaohua Guo, Xin Tan, Ke Xu, Min Wang, Lizhuang Ma(参考訳) 本稿ではRGB画像における車線検出のための新しいパラメトリック曲線法を提案する。 予測の復号化や大量のアンカーの定式化にヒューリスティックスを必要とする最先端のセグメンテーションベースやポイント検出ベースの手法とは異なり、曲線ベースの手法は全体論的レーン表現を自然に学習することができる。 既存の多項式曲線法の最適化の難しさに対処するため、パラメトリックb\'ezier曲線の計算容易性、安定性、高自由度変換による利用を提案する。 さらに、駆動シーンにおけるレーンの対称性特性を利用した変形可能な畳み込み型特徴フリップ融合を提案する。 提案手法は, LLAMASベンチマークにおいて, 最新の性能を実現する。 TuSimpleとCULaneのデータセットでは、低レイテンシ(> 150 FPS)と小さなモデルサイズ(10M)の両方を維持しながら、良好な精度を実現している。 本手法は新しいベースラインとして機能し,レーン検出のためのパラメトリック曲線モデリングに光をあてることができる。 私たちのモデルとPytorchAutoDriveのコードは、自動運転知覚のための統一されたフレームワークである。

This paper presents a novel parametric curve-based method for lane detection in RGB images. Unlike state-of-the-art segmentation-based and point detection-based methods that typically require heuristics to either decode predictions or formulate a large sum of anchors, the curve-based methods can learn holistic lane representations naturally. To handle the optimization difficulties of existing polynomial curve methods, we propose to exploit the parametric B\'ezier curve due to its ease of computation, stability, and high freedom degrees of transformations. In addition, we propose the deformable convolution-based feature flip fusion, for exploiting the symmetry properties of lanes in driving scenes. The proposed method achieves a new state-of-the-art performance on the popular LLAMAS benchmark. It also achieves favorable accuracy on the TuSimple and CULane datasets, while retaining both low latency (> 150 FPS) and small model size (< 10M). Our method can serve as a new baseline, to shed the light on the parametric curves modeling for lane detection. Codes of our model and PytorchAutoDrive: a unified framework for self-driving perception, are available at: https://github.com/voldemortX/pytorch-auto-drive .
翻訳日:2022-03-07 13:52:46 公開日:2022-03-04
# ハイブリッド機能融合による歩行者停止・外出予測

Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion ( http://arxiv.org/abs/2203.02489v1 )

ライセンス: Link先を確認
Dongxu Guo, Taylor Mordan, Alexandre Alahi(参考訳) 歩行者の将来の動きを予測することは、自動運転システムが都市部を安全に移動するのに不可欠である。 しかし、既存の予測アルゴリズムは、過去の観測された軌跡を過度に頼り、歩行者が突然動き始めたり歩けなくなったりするなど、突然のダイナミックな変化で失敗する傾向がある。 これらの非線形遷移の予測は, 運動予測アルゴリズムのロバスト性を改善するため, コアコンポーネントを形成するべきである。 本稿では,歩行者の立ち止まりと移動予測の新しい課題を紹介する。 既存のデータセットが不足していることを考慮すると、都市交通における歩行者の停止行動と外出行動を明確に調査するベンチマークであるtransをリリースします。 歩行者の歩行動作に注釈を付けたいくつかの既存のデータセットから構築し、さまざまなシナリオや行動を実現する。 また,映像シーケンスと高レベル属性の両方を含む複数のモダリティから歩行者特有の特徴とシーン特徴を生かした,新たなハイブリッドモデルを提案する。 我々は,トランスのモデルといくつかのベースラインを評価し,コミュニティが歩行者の立ち止まりと予測を行うための新しいベンチマークを設定した。

Forecasting pedestrians' future motions is essential for autonomous driving systems to safely navigate in urban areas. However, existing prediction algorithms often overly rely on past observed trajectories and tend to fail around abrupt dynamic changes, such as when pedestrians suddenly start or stop walking. We suggest that predicting these highly non-linear transitions should form a core component to improve the robustness of motion prediction algorithms. In this paper, we introduce the new task of pedestrian stop and go forecasting. Considering the lack of suitable existing datasets for it, we release TRANS, a benchmark for explicitly studying the stop and go behaviors of pedestrians in urban traffic. We build it from several existing datasets annotated with pedestrians' walking motions, in order to have various scenarios and behaviors. We also propose a novel hybrid model that leverages pedestrian-specific and scene features from several modalities, both video sequences and high-level attributes, and gradually fuses them to integrate multiple levels of context. We evaluate our model and several baselines on TRANS, and set a new benchmark for the community to work on pedestrian stop and go forecasting.
翻訳日:2022-03-07 13:52:24 公開日:2022-03-04
# (参考訳) ワンショットランドマーク検出のための相対距離問題

Relative distance matters for one-shot landmark detection ( http://arxiv.org/abs/2203.01687v2 )

ライセンス: CC BY 4.0
Qingsong Yao and Jianji Wang and Yihua Sun and Quan Quan and Heqin Zhu and S. Kevin Zhou(参考訳) カスケード比較(CC2D)のような対照的な学習に基づく手法は、一発的医学的ランドマーク検出に大きな可能性を示している。 しかし、CC2Dではランドマーク間の相対距離の重要なキューは無視されている。 本稿では,比較的離れたランドマークを比較的類似度の低い埋め込みに投影することを理論的に促進することが証明された訓練段階において,単純なyet効率の相対距離バイアスを組み込むことで,CC2DをバージョンIIにアップグレードする。 その結果、CC2Dv2は正しいランドマークから遠く離れた地点を検出できない。 さらに,整形外科手術者の負担を軽減するために,下肢の生体力学的パラメータを測定するためのオープンソースのランドマークラベルデータセットを提案する。 CC2Dv2の有効性は、ISBI 2015 Grand-Challenge of cephalometric radiographsと我々の新しいデータセットの公開データセットで評価され、最先端のワンショットランドマーク検出アプローチよりも大幅に優れている。

Contrastive learning based methods such as cascade comparing to detect (CC2D) have shown great potential for one-shot medical landmark detection. However, the important cue of relative distance between landmarks is ignored in CC2D. In this paper, we upgrade CC2D to version II by incorporating a simple-yet-effective relative distance bias in the training stage, which is theoretically proved to encourage the encoder to project the relatively distant landmarks to the embeddings with low similarities. As consequence, CC2Dv2 is less possible to detect a wrong point far from the correct landmark. Furthermore, we present an open-source, landmark-labeled dataset for the measurement of biomechanical parameters of the lower extremity to alleviate the burden of orthopedic surgeons. The effectiveness of CC2Dv2 is evaluated on the public dataset from the ISBI 2015 Grand-Challenge of cephalometric radiographs and our new dataset, which greatly outperforms the state-of-the-art one-shot landmark detection approaches.
翻訳日:2022-03-07 13:11:03 公開日:2022-03-04
# (参考訳) 木型線形構造因果モデルにおける同定

Identification in Tree-shaped Linear Structural Causal Models ( http://arxiv.org/abs/2203.01852v2 )

ライセンス: CC BY 4.0
Benito van der Zander, Marcel Wien\"obst, Markus Bl\"aser, Maciej Li\'skiewicz(参考訳) 線形構造方程式モデルは、直接因果効果を有向エッジとして、共起因子を有向エッジとして表現する。 オープンな問題は、ノード間の相関から因果パラメータを特定することである。 我々は,有向成分が木を形成するモデルを調査し,古典的インストゥルメンタル変数の他に,二方向エッジの欠落サイクルを用いてモデルを特定することができることを示す。 隣り合う有向エッジの因果パラメータの1つまたは2つの解を得るために、明確に解ける二次方程式の系が得られる。 複数の欠落サイクルを組み合わせることで、一意な解を得る方法を示す。 これにより、以前に必要であったgr\"obner基底に基づくアプローチのインスタンスを識別できるアルゴリズムが作成され、構造パラメータの数の2倍の時間複雑性を持つ。

Linear structural equation models represent direct causal effects as directed edges and confounding factors as bidirected edges. An open problem is to identify the causal parameters from correlations between the nodes. We investigate models, whose directed component forms a tree, and show that there, besides classical instrumental variables, missing cycles of bidirected edges can be used to identify the model. They can yield systems of quadratic equations that we explicitly solve to obtain one or two solutions for the causal parameters of adjacent directed edges. We show how multiple missing cycles can be combined to obtain a unique solution. This results in an algorithm that can identify instances that previously required approaches based on Gr\"obner bases, which have doubly-exponential time complexity in the number of structural parameters.
翻訳日:2022-03-07 12:59:27 公開日:2022-03-04
# KamNet: KamLAND-Zenにおけるレアイベント検索のための統合時空間深部ニューラルネットワーク

KamNet: An Integrated Spatiotemporal Deep Neural Network for Rare Event Search in KamLAND-Zen ( http://arxiv.org/abs/2203.01870v2 )

ライセンス: Link先を確認
A. Li, Z. Fu, L. A. Winslow, C. P. Grant, H. Song, H. Ozaki, I. Shimizu, A. Takeuchi(参考訳) 希少な事象探索により、他の方法でアクセスできないエネルギースケールで新しい物理を探すことができる。 機械学習は、これらの検出器が提供する情報を最大化する新しいツールを提供する。 情報はスパースであり、このアルゴリズムは最低レベルのデータから始め、検出器内のすべての対称性を利用して結果を生成する。 本研究では,幾何学的深層学習と時空間データ解析のブレークスルーを活かし,ニュートリノのない二重ベータ崩壊を探索するキロトンスケールの球状液体シンチレータ検出器であるkamland-zenの物理学的到達範囲を最大化するために,kamnetを提案する。 KamLANDの簡易な背景モデルを用いて、KamNetはMCシミュレーションのベンチマークにおいて従来のCNNよりも高いロバスト性を持つことを示す。 シミュレーションデータを用いて、KamNetがKamLAND-Zenの感度を$0\nu\beta\beta$と$0\nu\beta\beta$にアップする能力を実証する。 この研究の重要な要素は、背景の拒絶のためにKamNetが使用している物理を解明するための注意機構の追加である。

Rare event searches allow us to search for new physics at energy scales inaccessible with other means by leveraging specialized large-mass detectors. Machine learning provides a new tool to maximize the information provided by these detectors. The information is sparse, which forces these algorithms to start from the lowest level data and exploit all symmetries in the detector to produce results. In this work we present KamNet which harnesses breakthroughs in geometric deep learning and spatiotemporal data analysis to maximize the physics reach of KamLAND-Zen, a kiloton scale spherical liquid scintillator detector searching for neutrinoless double beta decay ($0\nu\beta\beta$). Using a simplified background model for KamLAND we show that KamNet outperforms a conventional CNN on benchmarking MC simulations with an increasing level of robustness. Using simulated data, we then demonstrate KamNet's ability to increase KamLAND-Zen's sensitivity to $0\nu\beta\beta$ and $0\nu\beta\beta$ to excited states. A key component of this work is the addition of an attention mechanism to elucidate the underlying physics KamNet is using for the background rejection.
翻訳日:2022-03-07 12:16:27 公開日:2022-03-04
# HighMMT:高モダリティ表現学習のためのモダリティとタスク一般化を目指して

HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning ( http://arxiv.org/abs/2203.01311v2 )

ライセンス: Link先を確認
Paul Pu Liang, Yiwei Lyu, Xiang Fan, Shentong Mo, Dani Yogatama, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) マルチモーダル表現の学習は、複数の異種データソースからの対応の発見と情報の統合を伴う。 近年の研究では、より汎用的なマルチモーダルモデル(ドメインやモダリティに特化していたアーキテクチャとは対照的に)の設計が検討されているが、これらの手法は言語、ビジョン、オーディオ空間における小さなモダリティに主に焦点を絞っている。 多様なモダリティに対する一般化を加速するために、高モダリティ(多様モダリティの大規模な集合)と部分可観測性(各タスクはモダリティの小さなサブセットでのみ定義される)のシナリオの手法を調査した。 共有パラメータによるマルチタスク学習は、安定したパラメータカウント(アドレス拡張性)を可能にし、クロスモーダル転送学習は、モダリティとタスク間の情報共有(部分的可観測性)を可能にします。 得られたモデルは,テキスト,画像,ビデオ,オーディオ,時系列,センサ,テーブル,設定モダリティを多種多様な研究領域から一般化し,性能と効率のトレードオフを改善し,新しいモダリティやタスクに移行し,マルチタスクモデルにおける情報共有の性質に関する驚くべき洞察を明らかにする。 私たちはコードとベンチマークをリリースし、その後の理論と経験的分析のための統一プラットフォームを提示したいと考えています。

Learning multimodal representations involves discovering correspondences and integrating information from multiple heterogeneous sources of data. While recent research has begun to explore the design of more general-purpose multimodal models (contrary to prior focus on domain and modality-specific architectures), these methods are still largely focused on a small set of modalities in the language, vision, and audio space. In order to accelerate generalization towards diverse and understudied modalities, we investigate methods for high-modality (a large set of diverse modalities) and partially-observable (each task only defined on a small subset of modalities) scenarios. To tackle these challenges, we design a general multimodal model that enables multitask and transfer learning: multitask learning with shared parameters enables stable parameter counts (addressing scalability), and cross-modal transfer learning enables information sharing across modalities and tasks (addressing partial observability). Our resulting model generalizes across text, image, video, audio, time-series, sensors, tables, and set modalities from different research areas, improves the tradeoff between performance and efficiency, transfers to new modalities and tasks, and reveals surprising insights on the nature of information sharing in multitask models. We release our code and benchmarks which we hope will present a unified platform for subsequent theoretical and empirical analysis: https://github.com/pliang279/HighMMT.
翻訳日:2022-03-07 12:15:28 公開日:2022-03-04
# QaNER: 名前付きエンティティ認識のための質問応答モデルの提案

QaNER: Prompting Question Answering Models for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2203.01543v2 )

ライセンス: Link先を確認
Andy T. Liu, Wei Xiao, Henghui Zhu, Dejiao Zhang, Shang-Wen Li, Andrew Arnold(参考訳) 近年,事前学習された言語モデルに対するプロンプトベースの学習は,ラベル効率を向上させるために,プロンプトをタスクガイダンスとして活用することで,数発の固有認識(NER)に成功した。 しかし、従来の数ショットNERのプロンプトベースの手法には、計算複雑性の向上、ゼロショット能力の低下、手動プロンプトエンジニアリングの必要、迅速な堅牢性の欠如などの制限がある。 本稿では,QaNER(QaNER)と呼ばれるQAを用いた新しいプロンプトベースの学習NER手法を提案することにより,これらの問題点に対処する。 私たちのアプローチには 1) NER問題をQA定式化に変換するための洗練された戦略 2)QAモデルのNER即時生成 3) いくつかの注釈付きNER例に基づくQAモデルによるプロンプトベースのチューニング。 4)QAモデルによるゼロショットNER。 提案手法を従来の手法と比較すると,qanerは推論が高速で,迅速な品質に影響を受けず,ハイパーパラメータに堅牢であると同時に,低リソースのパフォーマンスとゼロショット能力も大幅に向上している。

Recently, prompt-based learning for pre-trained language models has succeeded in few-shot Named Entity Recognition (NER) by exploiting prompts as task guidance to increase label efficiency. However, previous prompt-based methods for few-shot NER have limitations such as a higher computational complexity, poor zero-shot ability, requiring manual prompt engineering, or lack of prompt robustness. In this work, we address these shortcomings by proposing a new prompt-based learning NER method with Question Answering (QA), called QaNER. Our approach includes 1) a refined strategy for converting NER problems into the QA formulation; 2) NER prompt generation for QA models; 3) prompt-based tuning with QA models on a few annotated NER examples; 4) zero-shot NER by prompting the QA model. Comparing the proposed approach with previous methods, QaNER is faster at inference, insensitive to the prompt quality, and robust to hyper-parameters, as well as demonstrating significantly better low-resource performance and zero-shot capability.
翻訳日:2022-03-07 12:15:00 公開日:2022-03-04
# LILE: 未来を見渡す前に深く見る - 病理学アーカイブのクロスモーダル情報検索のためのトランスフォーマーを用いたデュアルアテンションネットワーク

LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network using Transformers for Cross-Modal Information Retrieval in Histopathology Archives ( http://arxiv.org/abs/2203.01445v2 )

ライセンス: Link先を確認
Danial Maleki, H.R Tizhoosh(参考訳) 近年、多くのアプリケーションで利用可能なデータの量は劇的に増加している。 さらに、複数のモダリティを別々に使ったネットワークの時代は事実上終わった。 したがって、処理可能な双方向の相互モーダリティデータ検索を可能にすることが、多くの分野や研究分野の要件となっている。 これは医療の分野では特に当てはまり、データは様々な種類の画像やレポート、分子データを含む多種多様なタイプで行われるため、特に当てはまる。 現代の作品の多くは、他のモダリティに関連して、画像やテキストの本質的な要素を強調し、それらを一致させようとする。 しかしながら、それらのモジュラリティの重要性にかかわらず、これらのアプローチは通常、各モジュラリティの特徴を等しく考慮する。 本研究では、クロスアテンションモジュールに提供される内部表現を強化するために、追加の損失項としての自己注意を提案する。 この研究は、共同潜在空間における画像とテキストの表現を支援する新しい損失項を持つ新しいアーキテクチャを示唆している。 MS-COCOとARCHという2つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。

The volume of available data has grown dramatically in recent years in many applications. Furthermore, the age of networks that used multiple modalities separately has practically ended. Therefore, enabling bidirectional cross-modality data retrieval capable of processing has become a requirement for many domains and disciplines of research. This is especially true in the medical field, as data comes in a multitude of types, including various types of images and reports as well as molecular data. Most contemporary works apply cross attention to highlight the essential elements of an image or text in relation to the other modalities and try to match them together. However, regardless of their importance in their own modality, these approaches usually consider features of each modality equally. In this study, self-attention as an additional loss term will be proposed to enrich the internal representation provided into the cross attention module. This work suggests a novel architecture with a new loss term to help represent images and texts in the joint latent space. Experiment results on two benchmark datasets, i.e. MS-COCO and ARCH, show the effectiveness of the proposed method.
翻訳日:2022-03-07 12:14:41 公開日:2022-03-04
# $\beta$-DARTS: 微分可能なアーキテクチャ検索のためのベータデカイ正規化

$\beta$-DARTS: Beta-Decay Regularization for Differentiable Architecture Search ( http://arxiv.org/abs/2203.01665v2 )

ライセンス: Link先を確認
Peng Ye, Baopu Li, Yikang Li, Tao Chen, Jiayuan Fan, Wanli Ouyang(参考訳) neural architecture search~(nas)は、ディープニューラルネットワークを自動設計する能力により、近年ますます注目を集めている。 その中でも、dartのような異なるnasアプローチが検索効率で人気を集めている。 しかし、性能の崩壊に対する弱固さと探索されたアーキテクチャの一般化能力の低さという2つの主な問題に苦しんでいる。 これら2つの問題を解決するために,DARTSに基づくNAS探索プロセスの正規化のために,β-Decayと呼ばれるシンプルだが効率的な正規化法を提案する。 特に、β-decay正規化は、活性化されたアーキテクチャパラメータの価値とばらつきを過大に防ぐために制約を課すことができる。 さらに,その動作方法と動作理由について,詳細な理論的解析を行う。 NAS-Bench-201の実験結果から,提案手法は探索過程の安定化に有効であり,探索されたネットワークを異なるデータセット間で転送しやすくする。 さらに,本手法は,学習時間やデータへの依存度が低いという優れた特性を示す。 様々な探索空間とデータセットに関する総合的な実験により,提案手法の有効性が検証された。

Neural Architecture Search~(NAS) has attracted increasingly more attention in recent years because of its capability to design deep neural networks automatically. Among them, differential NAS approaches such as DARTS, have gained popularity for the search efficiency. However, they suffer from two main issues, the weak robustness to the performance collapse and the poor generalization ability of the searched architectures. To solve these two problems, a simple-but-efficient regularization method, termed as Beta-Decay, is proposed to regularize the DARTS-based NAS searching process. Specifically, Beta-Decay regularization can impose constraints to keep the value and variance of activated architecture parameters from too large. Furthermore, we provide in-depth theoretical analysis on how it works and why it works. Experimental results on NAS-Bench-201 show that our proposed method can help to stabilize the searching process and makes the searched network more transferable across different datasets. In addition, our search scheme shows an outstanding property of being less dependent on training time and data. Comprehensive experiments on a variety of search spaces and datasets validate the effectiveness of the proposed method.
翻訳日:2022-03-07 12:14:21 公開日:2022-03-04
# FastFold:AlphaFoldのトレーニング時間を11日から67時間に短縮

FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours ( http://arxiv.org/abs/2203.00854v2 )

ライセンス: Link先を確認
Shenggan Cheng, Ruidong Wu, Zhongming Yu, Binrui Li, Xiwen Zhang, Jian Peng, Yang You(参考訳) タンパク質構造予測は、構造生物学領域における遺伝子翻訳とタンパク質機能を理解する重要な方法である。 AlphaFoldは、原子精度でタンパク質構造予測の分野にトランスフォーマーモデルを導入した。 しかし、AlphaFoldモデルのトレーニングと推論は、特別な性能特性と膨大なメモリ消費のため、時間と費用がかかる。 本稿では,タンパク質構造予測モデルの学習と推論のための高効率実装であるFastFoldを提案する。 FastFoldには、AlphaFoldのパフォーマンスを徹底的に分析した一連のGPU最適化が含まれている。 一方、Dynamic Axial ParallelismとDuality Async Operationでは、FastFoldは、既存の一般的なモデル並列化技術を上回る、高いモデル並列化スケーリング効率を達成する。 実験の結果、FastFoldはトレーニング時間を11日から67時間に短縮し、ロングシーケンス推論のために7.5-9.5倍のスピードアップを達成した。 さらに、FastFoldを512GPUに拡張し、90.1%の並列効率で6.02 PetaFLOPを集計した。 実装はhttps://github.com/hpcaitech/FastFoldで確認できる。

Protein structure prediction is an important method for understanding gene translation and protein function in the domain of structural biology. AlphaFold introduced the Transformer model to the field of protein structure prediction with atomic accuracy. However, training and inference of the AlphaFold model are time-consuming and expensive because of the special performance characteristics and huge memory consumption. In this paper, we propose FastFold, a highly efficient implementation of the protein structure prediction model for training and inference. FastFold includes a series of GPU optimizations based on a thorough analysis of AlphaFold's performance. Meanwhile, with Dynamic Axial Parallelism and Duality Async Operation, FastFold achieves high model parallelism scaling efficiency, surpassing existing popular model parallelism techniques. Experimental results show that FastFold reduces overall training time from 11 days to 67 hours and achieves 7.5-9.5X speedup for long-sequence inference. Furthermore, We scaled FastFold to 512 GPUs and achieved an aggregate of 6.02 PetaFLOPs with 90.1% parallel efficiency. The implementation can be found at https://github.com/hpcaitech/FastFold
翻訳日:2022-03-07 12:14:04 公開日:2022-03-04
# 構造を用いた個人化フェデレーション学習

Personalized Federated Learning With Structure ( http://arxiv.org/abs/2203.00829v3 )

ライセンス: Link先を確認
Fengwen Chen, Guodong Longr, Zonghan Wu, Tianyi Zhou and Jing Jiang(参考訳) 知識共有とモデルパーソナライゼーションは、パーソナライズされたフェデレーション学習(PFL)のパフォーマンスに影響を与える2つの重要な要素である。 既存のPFL手法は、知識共有を、その間の隠れた関係に関係なく、すべてのクライアントの集約として扱う。 本稿では,クライアント間の構造情報を活用し,pflにおける知識共有プロセスを強化することを目的とする。 各クライアントのローカルな関係とプライベートデータセットを使って、グローバルモデルとパーソナライズモデルを同時に学習する、新しい構造化フェデレーション学習(sfl)フレームワークを提案する。 このフレームワークは、パーソナライズされたモデルと構造トポロジ情報間の複雑な関係を統一フレームワークにモデル化するための新しい最適化問題として定式化されている。 さらに、事前定義された構造とは対照的に、クライアントのモデルのパラメータ間の類似性を利用して構造を自動的に学習する構造学習コンポーネントを追加することで、フレームワークをさらに強化することができる。 大規模な実験を行うことで,実世界のデータセットを用いてサーバ集約プロセスに構造情報を導入することにより,フェデレーション学習のメリットを実証する。

Knowledge sharing and model personalization are two key components to impact the performance of personalized federated learning (PFL). Existing PFL methods simply treat knowledge sharing as an aggregation of all clients regardless of the hidden relations among them. This paper is to enhance the knowledge-sharing process in PFL by leveraging the structural information among clients. We propose a novel structured federated learning(SFL) framework to simultaneously learn the global model and personalized model using each client's local relations with others and its private dataset. This proposed framework has been formulated to a new optimization problem to model the complex relationship among personalized models and structural topology information into a unified framework. Moreover, in contrast to a pre-defined structure, our framework could be further enhanced by adding a structure learning component to automatically learn the structure using the similarities between clients' models' parameters. By conducting extensive experiments, we first demonstrate how federated learning can be benefited by introducing structural information into the server aggregation process with a real-world dataset, and then the effectiveness of the proposed method has been demonstrated in varying degrees of data non-iid settings.
翻訳日:2022-03-07 12:13:46 公開日:2022-03-04
# プレトレーニングをANNからSNNへのブリッジとして再考

Rethinking Pretraining as a Bridge from ANNs to SNNs ( http://arxiv.org/abs/2203.01158v3 )

ライセンス: Link先を確認
Yihan Lin, Yifan Hu, Shijie Ma, Guoqi Li, Dongjie Yu(参考訳) スパイキングニューラルネットワーク(snn)は、脳にインスパイアされた典型的なモデルとして知られ、その特徴は、豊富な神経細胞のダイナミクス、多様なコーディングスキーム、低消費電力特性である。 高精度モデルを得る方法は、SNNの分野では常に主要な課題である。 現在、よく訓練されたニューラルネットワーク(ANN)をSNNに変換したり、SNNを直接訓練することで、変換されたSNNを得る2つの主要な方法が存在する。 しかしながら、変換されたSNNの推論時間は長すぎるが、SNNトレーニングは一般的に非常に費用がかかり非効率である。 本研究では,2つの異なるトレーニング手法の概念を,プレトレイン技術とBPベースの深部SNNトレーニング機構の助けを借りて組み合わせることで,新しいSNNトレーニングパラダイムを提案する。 提案するパラダイムは、SNNをトレーニングするためのより効率的なパイプラインであると考えています。 パイプラインには静的データ転送タスク用のパイプと動的データ転送タスク用のパイプが含まれている。 SOTAの結果は、大規模なイベント駆動データセットES-ImageNetで得られる。 トレーニングアクセラレーションでは、ImageNet-1Kでの1/10のトレーニング時間とES-ImageNetでの2/5のトレーニング時間と、新しいデータセットES-UCF101の時間精度ベンチマークを用いて、同様のLIF-SNNと同じ(あるいはそれ以上の)精度を達成する。 これらの実験結果は、ANNとSNNのパラメータ関数の類似性を明らかにし、このSNNトレーニングパイプラインの様々な可能性を示す。

Spiking neural networks (SNNs) are known as a typical kind of brain-inspired models with their unique features of rich neuronal dynamics, diverse coding schemes and low power consumption properties. How to obtain a high-accuracy model has always been the main challenge in the field of SNN. Currently, there are two mainstream methods, i.e., obtaining a converted SNN through converting a well-trained Artificial Neural Network (ANN) to its SNN counterpart or training an SNN directly. However, the inference time of a converted SNN is too long, while SNN training is generally very costly and inefficient. In this work, a new SNN training paradigm is proposed by combining the concepts of the two different training methods with the help of the pretrain technique and BP-based deep SNN training mechanism. We believe that the proposed paradigm is a more efficient pipeline for training SNNs. The pipeline includes pipeS for static data transfer tasks and pipeD for dynamic data transfer tasks. SOTA results are obtained in a large-scale event-driven dataset ES-ImageNet. For training acceleration, we achieve the same (or higher) best accuracy as similar LIF-SNNs using 1/10 training time on ImageNet-1K and 2/5 training time on ES-ImageNet and also provide a time-accuracy benchmark for a new dataset ES-UCF101. These experimental results reveal the similarity of the functions of parameters between ANNs and SNNs and also demonstrate the various potential applications of this SNN training pipeline.
翻訳日:2022-03-07 12:13:27 公開日:2022-03-04
# 垂直フェデレート学習におけるラベル漏洩と前方埋め込みからの保護

Label Leakage and Protection from Forward Embedding in Vertical Federated Learning ( http://arxiv.org/abs/2203.01451v2 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Chong Wang(参考訳) 垂直連合学習(vFL)は近年注目を集め、データプライバシに関する機械学習の問題を解決するためにデプロイされている。 しかし、最近の研究でvFLは、(生の特徴ではなく)前方中間の埋め込みと(生のラベルではなく)後方プロパゲート勾配だけが関係する参加者間で通信されているにもかかわらず、プライバシー漏洩に弱いことが示されている。 ラベルには高感度情報が含まれていることが多いため, バックプロパゲート勾配からのラベル漏洩を効果的に防止するための最近の研究が提案されている。 しかし、これらの研究はバックプロパゲート勾配からのラベルリークの脅威を識別し、防いだだけだった。 これらの研究は、中間埋め込みからラベルリークの問題に注意を払っていない。 本稿では,ラベル差分プライバシーや勾配摂動といった既存の保護手法を適用した場合でも,共有中間埋め込みからプライベートラベルを効果的に盗むことができる実用的なラベル推論手法を提案する。 ラベル攻撃の有効性は、中間埋め込みと対応するプライベートラベルとの相関から区別できない。 先行組込みからのラベルリーク問題を軽減するため,中間組込みと対応するプライベートラベル間の距離相関を最小化することにより,相手のラベル盗み能力を制限するために,ラベルパーティに追加の最適化目標を付加する。 提案手法の有効性を実証するために大規模実験を行った。

Vertical federated learning (vFL) has gained much attention and been deployed to solve machine learning problems with data privacy concerns in recent years. However, some recent work demonstrated that vFL is vulnerable to privacy leakage even though only the forward intermediate embedding (rather than raw features) and backpropagated gradients (rather than raw labels) are communicated between the involved participants. As the raw labels often contain highly sensitive information, some recent work has been proposed to prevent the label leakage from the backpropagated gradients effectively in vFL. However, these work only identified and defended the threat of label leakage from the backpropagated gradients. None of these work has paid attention to the problem of label leakage from the intermediate embedding. In this paper, we propose a practical label inference method which can steal private labels effectively from the shared intermediate embedding even though some existing protection methods such as label differential privacy and gradients perturbation are applied. The effectiveness of the label attack is inseparable from the correlation between the intermediate embedding and corresponding private labels. To mitigate the issue of label leakage from the forward embedding, we add an additional optimization goal at the label party to limit the label stealing ability of the adversary by minimizing the distance correlation between the intermediate embedding and corresponding private labels. We conducted massive experiments to demonstrate the effectiveness of our proposed protection methods.
翻訳日:2022-03-07 12:12:58 公開日:2022-03-04