このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220228)

# アンテナ設計と最適化を自動化する機械学習生成手法

A Machine Learning Generative Method for Automating Antenna Design and Optimization ( http://arxiv.org/abs/2203.11698v1 )

ライセンス: Link先を確認
Yang Zhong, Peter Renner, Weiping Dou, Geng Ye, Jiang Zhu, and Qing Huo Liu(参考訳) アンテナ設計をコンピュータの助けを借りて容易にするために、消費者電子産業ではアンテナの幾何学的構成を単純化してアンテナ性能をモデル化し最適化する。 従来のアンテナモデリングは、アンテナ設計と製品設計の両方のパフォーマンス仕様を満たす優れた設計を実現するために、電磁の深い事前知識を必要とする。 多次元最適化問題への対処の容易さとドメイン知識と経験への依存の低さは、シミュレーション駆動アンテナ設計と業界への最適化の人気を達成するための鍵である。 本稿では,異なるノードを接続して任意の形状を形成するメッシュネットワークの概念を用いた柔軟な幾何スキームを提案する。 このような高次元パラメータ問題に対して,最適解探索を支援する機械学習による生成法を提案する。 判別器と発電機で構成される。 判別器は幾何学モデルの性能を予測するために使われ、生成器は識別器を通過する新しい候補を作成する。 さらに,本手法の効率をさらに高めるために,進化基準法が提案されている。 最後に、最適解を見つけるだけでなく、よく訓練された発電機を使って将来のアンテナの設計と最適化を自動化することができる。 広帯域のデュアル共振アンテナの設計において,提案手法は信頼領域の枠組みと同等であり,広く用いられている遺伝的アルゴリズムや粒子群最適化など,他の成熟した機械学習アルゴリズムよりも優れている。 帯域幅の広い要求がなければ、Trust Region Frameworkよりもよいでしょう。

To facilitate the antenna design with the aid of computer, one of the practices in consumer electronic industry is to model and optimize antenna performances with a simplified antenna geometric scheme. Traditional antenna modeling requires profound prior knowledge of electromagnetics in order to achieve a good design which satisfies the performance specifications from both antenna and product designs. The ease of handling multidimensional optimization problems and the less dependence on domain knowledge and experience are the key to achieve the popularity of simulation driven antenna design and optimization for the industry. In this paper, we introduce a flexible geometric scheme with the concept of mesh network that can form any arbitrary shape by connecting different nodes. For such problems with high dimensional parameters, we propose a machine learning based generative method to assist the searching of optimal solutions. It consists of discriminators and generators. The discriminators are used to predict the performance of geometric models, and the generators to create new candidates that will pass the discriminators. Moreover, an evolutionary criterion approach is proposed for further improving the efficiency of our method. Finally, not only optimal solutions can be found, but also the well trained generators can be used to automate future antenna design and optimization. For a dual resonance antenna design with wide bandwidth, our proposed method is in par with Trust Region Framework and much better than the other mature machine learning algorithms including the widely used Genetic Algorithm and Particle Swarm Optimization. When there is no wide bandwidth requirement, it is better than Trust Region Framework.
翻訳日:2022-03-27 05:44:33 公開日:2022-02-28
# (参考訳) 旅行泥棒問題における相互依存モデルの適合性について [全文訳有]

On the Fitness Landscapes of Interdependency Models in the Travelling Thief Problem ( http://arxiv.org/abs/2203.04363v1 )

ライセンス: CC BY 4.0
Mohamed El Yafrani, Marcella Scoczynski, Myriam Delgado, Ricardo L\"uders, Peter Nielsen, Markus Wagner(参考訳) 2013年の創業以来、トラベリング・ティーフ問題(TTP)は複数の相互接続サブプロブレムの問題の一例として広く研究されてきた。 このモデルの依存性は、"thief"の走行時間をクナップサックの重さに結びつけるときに生じる。 しかし、複雑な実世界の問題でしばしば見られるため、他の形式の依存関係と依存関係の組み合わせは調査のために考慮されるべきである。 我々のゴールは、単純な局所探索アルゴリズムを用いて、TTPにおける様々な形式の依存の影響を研究することである。 これを実現するために、フィットネスランドスケープを分析する技術であるLocal Optima Networksを使用する。

Since its inception in 2013, the Travelling Thief Problem (TTP) has been widely studied as an example of problems with multiple interconnected sub-problems. The dependency in this model arises when tying the travelling time of the "thief" to the weight of the knapsack. However, other forms of dependency as well as combinations of dependencies should be considered for investigation, as they are often found in complex real-world problems. Our goal is to study the impact of different forms of dependency in the TTP using a simple local search algorithm. To achieve this, we use Local Optima Networks, a technique for analysing the fitness landscape.
翻訳日:2022-03-13 15:19:36 公開日:2022-02-28
# 文書分類のための半教師付き非負行列分解

Semi-supervised Nonnegative Matrix Factorization for Document Classification ( http://arxiv.org/abs/2203.03551v1 )

ライセンス: Link先を確認
Jamie Haddock, Lara Kassab, Sixian Li, Alona Kryshchenko, Rachel Grotheer, Elena Sizikova, Chuntian Wang, Thomas Merkh, RWMA Madushani, Miju Ahn, Deanna Needell, Kathryn Leonard(参考訳) 本稿では,文書分類のための半教師付き非負行列分解(ssnmf)モデルを提案し,それらのモデルに対する最大確率推定器としての動機付けを提供する。 提案したSSNMFモデルはトピックモデルと分類モデルの両方を同時に提供し、高い解釈可能な分類結果を提供する。 我々は,各新モデルに対して乗算的更新を用いたトレーニング手法を導出し,回帰のような他の教師あり学習タスクに対して柔軟であるが,これらのモデルの単一ラベルおよび多ラベル文書分類への応用を実証する。 文書分類データセット(例えば20のニュースグループ、ロイター)におけるこれらのモデルの約束とトレーニング方法を説明する。

We propose new semi-supervised nonnegative matrix factorization (SSNMF) models for document classification and provide motivation for these models as maximum likelihood estimators. The proposed SSNMF models simultaneously provide both a topic model and a model for classification, thereby offering highly interpretable classification results. We derive training methods using multiplicative updates for each new model, and demonstrate the application of these models to single-label and multi-label document classification, although the models are flexible to other supervised learning tasks such as regression. We illustrate the promise of these models and training methods on document classification datasets (e.g., 20 Newsgroups, Reuters).
翻訳日:2022-03-13 13:53:09 公開日:2022-02-28
# (参考訳) リアルな電気自動車充電セッションのための合成データ生成装置の定義 [全文訳有]

Defining a synthetic data generator for realistic electric vehicle charging sessions ( http://arxiv.org/abs/2203.01129v1 )

ライセンス: CC BY 4.0
Manu Lahariya and Dries Benoit and Chris Develder(参考訳) 電気自動車(EV)充電ステーションは、近年電力網で顕著になっている。 EV充電セッションの分析は、柔軟性の分析、ロードバランシング、顧客へのインセンティブの提供などに役立ちます。 しかし、そのようなEVセッションデータの可用性の制限は、これらの分野でのさらなる発展を妨げる。 一般公開され、現実的なデータの必要性に対処し、ev充電セッション用の合成データジェネレータ(sdg)を開発します。 我々のSDGは、EVの車間時間を指数分布に従うと仮定する。 出発時間は接続時間に対して条件付き確率密度関数(pdf)を定義することでモデル化される。 この接続時間と必要なエネルギーに関するpdfは、ガウス混合モデルに適合する。 大規模な実世界のデータセットを使ってSDGをトレーニングしているので、その出力はリアルです。

Electric vehicle (EV) charging stations have become prominent in electricity grids in the past years. Analysis of EV charging sessions is useful for flexibility analysis, load balancing, offering incentives to customers, etc. Yet, the limited availability of such EV sessions data hinders further development in these fields. Addressing this need for publicly available and realistic data, we develop a synthetic data generator (SDG) for EV charging sessions. Our SDG assumes the EV inter-arrival time to follow an exponential distribution. Departure times are modeled by defining a conditional probability density function (pdf) for connection times. This pdf for connection time and required energy is fitted by Gaussian mixture models. Since we train our SDG using a large real-world dataset, its output is realistic.
翻訳日:2022-03-04 10:09:53 公開日:2022-02-28
# (参考訳) Modular and Equivariant Set-based Neural Networks を用いた熱スニャーエフ・ゼルドビッチ場の予測 [全文訳有]

Predicting the Thermal Sunyaev-Zel'dovich Field using Modular and Equivariant Set-Based Neural Networks ( http://arxiv.org/abs/2203.00026v1 )

ライセンス: CC BY 4.0
Leander Thiele, Miles Cranmer, William Coulton, Shirley Ho, David N. Spergel(参考訳) 理論的不確実性は、熱スニャーエフ・ゼルドビッチ (tSZ) 効果のようなバリオン場から宇宙情報を抽出する能力を制限する。 電子圧力場によって引き起こされるtSZ効果は、通常高価な流体力学シミュレーションによってモデル化されるバリオン物理学に依存する。 我々は、重力のみのシミュレーションから銀河団の連続電子圧場を予測するために、IllustrisTNG-300宇宙学シミュレーションでニューラルネットワークを訓練する。 ガス圧のほとんどがいくつかのボクセルに集中しており、最大の流体力学シミュレーションでさえ、トレーニングに使用できる数百のクラスターしか含まないため、ニューラルネットワークのモデリングは困難である。 従来の畳み込みニューラルネット(CNN)アーキテクチャの代わりに、回転同変のDeepSetsアーキテクチャを用いてダークマター粒子の集合を直接操作する。 我々は、集合ベースのアーキテクチャはcnnに対して異なる利点をもたらすと主張している。 例えば、正確な回転と置換の等式を強制し、tSZ体上の既存の知識を取り入れ、宇宙論の標準となるスパース場を扱うことができる。 アーキテクチャを別々に物理的に意味のあるモジュールで構成し、解釈が可能である。 例えば、ローカル環境とクラスタスケール環境の影響を別々に調査し、クラスタ三軸性が無視できる影響を判断し、ミスセンタリングを補正するモジュールを訓練することができる。 このモデルでは,同じシミュレーションデータに適合する解析プロファイルを70%改善する。 電子圧力場は、重力のみのシミュレーションの関数と見なされ、本質的に確率性を持ち、ネットワークへの条件付きVAE拡張を通じてこの特性をモデル化する。 この変更により、さらなる改善は7%となり、小さなトレーニングセットによって制限される。 (橋渡し)

Theoretical uncertainty limits our ability to extract cosmological information from baryonic fields such as the thermal Sunyaev-Zel'dovich (tSZ) effect. Being sourced by the electron pressure field, the tSZ effect depends on baryonic physics that is usually modeled by expensive hydrodynamic simulations. We train neural networks on the IllustrisTNG-300 cosmological simulation to predict the continuous electron pressure field in galaxy clusters from gravity-only simulations. Modeling clusters is challenging for neural networks as most of the gas pressure is concentrated in a handful of voxels and even the largest hydrodynamical simulations contain only a few hundred clusters that can be used for training. Instead of conventional convolutional neural net (CNN) architectures, we choose to employ a rotationally equivariant DeepSets architecture to operate directly on the set of dark matter particles. We argue that set-based architectures provide distinct advantages over CNNs. For example, we can enforce exact rotational and permutation equivariance, incorporate existing knowledge on the tSZ field, and work with sparse fields as are standard in cosmology. We compose our architecture with separate, physically meaningful modules, making it amenable to interpretation. For example, we can separately study the influence of local and cluster-scale environment, determine that cluster triaxiality has negligible impact, and train a module that corrects for mis-centering. Our model improves by 70 % on analytic profiles fit to the same simulation data. We argue that the electron pressure field, viewed as a function of a gravity-only simulation, has inherent stochasticity, and model this property through a conditional-VAE extension to the network. This modification yields further improvement by 7 %, it is limited by our small training set however. (abridged)
翻訳日:2022-03-04 10:06:35 公開日:2022-02-28
# (参考訳) アンサンブルニューラルネットワークを用いたルーマニアにおけるCovid19の動的推定と予測 [全文訳有]

A Dynamical Estimation and Prediction for Covid19 on Romania using ensemble neural networks ( http://arxiv.org/abs/2203.00407v1 )

ライセンス: CC0 1.0
Marian Petrica, Ionel Popescu(参考訳) 本稿では、ルーマニアにおけるcovid-19の進化と予測を、死者を別カテゴリとして含む古典モデルsirdの拡張であるsirdの数学的モデルと組み合わせて分析する。 原因は、感染・回復した人の報告された数を完全に信頼できないため、より信頼できる死者数に基づいて分析を行うことができるためである。 さらに,本モデルのパラメータの1つは,感染率と検査率と感染率の比率を含む。 パンデミックの進展に影響を及ぼす要因は多いため、これまでの7日間のデータから推定と予測を扱い、特に死者数を重要視する。 ニューラルネットワークを用いた推定と予測を2つのステップで行う。 まず、モデルとデータをシミュレートすることで、モデルのパラメータを学習する複数のニューラルネットワークをトレーニングします。 次に、ルーマニアのcovid-19の実際のデータからパラメータを予測するために、これらのニューラルネットワークの10つのアンサンブルを使用する。 これらの結果の多くは、報告されたデータからパラメータを回復できることを保証する定理によって裏付けられている。

In this paper, we propose an analysis of Covid19 evolution and prediction on Romania combined with the mathematical model of SIRD, an extension of the classical model SIR, which includes the deceased as a separate category. The reason is that, because we can not fully trust the reported numbers of infected or recovered people, we base our analysis on the more reliable number of deceased people. In addition, one of the parameters of our model includes the proportion of infected and tested versus infected. Since there are many factors which have an impact on the evolution of the pandemic, we decide to treat the estimation and the prediction based on the previous 7 days of data, particularly important here being the number of deceased. We perform the estimation and prediction using neural networks in two steps. Firstly, by simulating data with our model, we train several neural networks which learn the parameters of the model. Secondly, we use an ensemble of ten of these neural networks to forecast the parameters from the real data of Covid19 in Romania. Many of these results are backed up by a theorem which guarantees that we can recover the parameters from the reported data.
翻訳日:2022-03-03 06:18:40 公開日:2022-02-28
# (参考訳) フィードフォワードニューラルネットワークの正確な前画像計算のための解析的手法 [全文訳有]

An Analytical Approach to Compute the Exact Preimage of Feed-Forward Neural Networks ( http://arxiv.org/abs/2203.00438v1 )

ライセンス: CC BY 4.0
Th\'eo Nancy, Vassili Maillet, Johann Barbier(参考訳) ニューラルネットワークは、手動で記述するには複雑すぎる関数を自動的に適合させる便利な方法である。 このアプローチの欠点は、内部で何が起きたのか理解せずにブラックボックスを構築することにある。 プレイメージを見つけることは、なぜニューラルネットワークがそのような出力を与えたのかをよりよく理解するのに役立ちます。 ほとんどのニューラルネットワークは非インジェクティブ関数であるため、数値的な方法だけで計算することは不可能であることが多い。 本研究の目的は,隠蔽層に対する線形あるいは断片的な線形活性化関数を持つフィードフォワードニューラルネットワークの正確な事前画像を計算する方法を提供することである。 他のメソッドとは対照的に、これはユニークな出力に対してユニークなソリューションを返すのではなく、解析的に全体と正確な事前イメージを返す。

Neural networks are a convenient way to automatically fit functions that are too complex to be described by hand. The downside of this approach is that it leads to build a black-box without understanding what happened inside. Finding the preimage would help to better understand how and why such neural networks had given such outputs. Because most of the neural networks are noninjective function, it is often impossible to compute it entirely only by a numerical way. The point of this study is to give a method to compute the exact preimage of any Feed-Forward Neural Network with linear or piecewise linear activation functions for hidden layers. In contrast to other methods, this one is not returning a unique solution for a unique output but returns analytically the entire and exact preimage.
翻訳日:2022-03-03 05:53:51 公開日:2022-02-28
# (参考訳) キーポイント監視とマルチチャネルインスタンス最適化を備えたVoxelmorph++がCranial Vaultを超える [全文訳有]

Voxelmorph++ Going beyond the cranial vault with keypoint supervision and multi-channel instance optimisation ( http://arxiv.org/abs/2203.00046v1 )

ライセンス: CC BY 4.0
Mattias P. Heinrich and Lasse Hansen(参考訳) 深層学習に基づく画像登録の現在の研究の大部分は、中等度な変形を伴う患者間脳登録に対処している。 最近のlearn2regの医療登録ベンチマークでは、voxelmorphのような空間的トランスフォーマーロスを直接使用する単一スケールのu-netアーキテクチャは、しばしば頭蓋底を超えて一般化せず、腹腔内または患者の肺登録のための最先端のパフォーマンスに不足していることが示されている。 本稿では,この精度の差を大幅に減らすための2つの簡単なステップを提案する。 まず,分散ヒートマップを予測し,ロバスト性を改善するために大きな変形をロバストに低減する,新しいネットワークヘッドを用いたkeypoint self-supervisionを採用する。 第2に、複数の学習された微調整ステップを、手作りの機能とadam optimiserで単一のインスタンス最適化に置き換える。 flownetやpdd-netといった他の関連業務とは異なり、このアプローチでは相関層を持つ完全に離散化されたアーキテクチャは必要としない。 本研究は,自己教師と無監督設定(マインドメトリックのみを用いて)におけるキーポイントの重要性を実証する。 copdスキャンに非常に挑戦的な問題を含む多心型肺ctデータセットでは、非線形アライメントを19%改善することでvoxelmorphを77%上回っています。 このメソッドをセマンティック機能に拡張することで、サブジェクト間腹部ct登録における新たなパフォーマンスが向上する。

The majority of current research in deep learning based image registration addresses inter-patient brain registration with moderate deformation magnitudes. The recent Learn2Reg medical registration benchmark has demonstrated that single-scale U-Net architectures, such as VoxelMorph that directly employ a spatial transformer loss, often do not generalise well beyond the cranial vault and fall short of state-of-the-art performance for abdominal or intra-patient lung registration. Here, we propose two straightforward steps that greatly reduce this gap in accuracy. First, we employ keypoint self-supervision with a novel network head that predicts a discretised heatmap and robustly reduces large deformations for better robustness. Second, we replace multiple learned fine-tuning steps by a single instance optimisation with hand-crafted features and the Adam optimiser. Different to other related work, including FlowNet or PDD-Net, our approach does not require a fully discretised architecture with correlation layer. Our ablation study demonstrates the importance of keypoints in both self-supervised and unsupervised (using only a MIND metric) settings. On a multi-centric inspiration-exhale lung CT dataset, including very challenging COPD scans, our method outperforms VoxelMorph by improving nonlinear alignment by 77% compared to 19% - reaching target registration errors of 2 mm that outperform all but one learning methods published to date. Extending the method to semantic features sets new stat-of-the-art performance on inter-subject abdominal CT registration.
翻訳日:2022-03-03 05:30:26 公開日:2022-02-28
# (参考訳) ドメイン外の説明に関する実証的研究 [全文訳有]

An Empirical Study on Explanations in Out-of-Domain Settings ( http://arxiv.org/abs/2203.00056v1 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) 自然言語処理における最近の研究は、入力中の最も重要なトークン(すなわち、ポストホックな説明)を特定するか、最初に最も重要なトークンを選択して正しいラベル(すなわち、選択-予測モデル)を予測する本質的に忠実なモデルを設計することによって、忠実な説明を抽出する手法の開発に焦点を当てている。 現在、これらのアプローチはドメイン内の設定で大きく評価されている。 しかし、ポストホックな説明や本質的に忠実なモデルはドメイン外設定でどのように振る舞うかについてはほとんど知られていない。 本稿では,(1)5つの特徴帰属法によって生み出されるポストホックな説明のドメイン外忠実度,(2)6つのデータセットに対して本質的に忠実な2つのモデルのドメイン外性能について検討する。 我々の期待に反して, 多くの場合, ドメイン外説明では, 十分性と包括性によって測定される忠実さは, ドメイン内説明よりも高い。 この誤解を招き,無作為なベースラインをヤードスティックとして使用して,ポストホックな説明の忠実さを評価することを提案する。 また,select-then予測モデルでは,全文学習モデルに対してドメイン外設定で同等の予測性能を示すことが示された。

Recent work in Natural Language Processing has focused on developing approaches that extract faithful explanations, either via identifying the most important tokens in the input (i.e. post-hoc explanations) or by designing inherently faithful models that first select the most important tokens and then use them to predict the correct label (i.e. select-then-predict models). Currently, these approaches are largely evaluated on in-domain settings. Yet, little is known about how post-hoc explanations and inherently faithful models perform in out-of-domain settings. In this paper, we conduct an extensive empirical study that examines: (1) the out-of-domain faithfulness of post-hoc explanations, generated by five feature attribution methods; and (2) the out-of-domain performance of two inherently faithful models over six datasets. Contrary to our expectations, results show that in many cases out-of-domain post-hoc explanation faithfulness measured by sufficiency and comprehensiveness is higher compared to in-domain. We find this misleading and suggest using a random baseline as a yardstick for evaluating post-hoc explanation faithfulness. Our findings also show that select-then predict models demonstrate comparable predictive performance in out-of-domain settings to full-text trained models.
翻訳日:2022-03-03 05:19:25 公開日:2022-02-28
# (参考訳) MadJax を用いた微分行列要素 [全文訳有]

Differentiable Matrix Elements with MadJax ( http://arxiv.org/abs/2203.00057v1 )

ライセンス: CC BY 4.0
Lukas Heinrich and Michael Kagan(参考訳) MadJaxは高エネルギー散乱過程の微分可能な行列要素の生成と評価のためのツールである。 そのため、高エネルギー物理学における微分可能プログラミングパラダイムは、シミュレーションソフトウェアで符号化された高エネルギー物理学領域の知識を勾配に基づく学習と最適化パイプラインに組み込むのに役立つ。 MadJaxは2つのコンポーネントから構成される。 (a) 汎用マトリックス要素生成器MadGraphへのプラグインで、行列要素と位相空間サンプリングコードをJAX微分可能なプログラミングフレームワークに統合し、 (b)行列要素のコードとその勾配にアクセスするためのスタンドアロンラッピングapiで、自動微分で計算される。 madjaxの実装とシミュレーションに基づく推論と、微分可能な行列要素で一意に実現可能なフローベースのマトリックス要素モデリングの例を示す。

MadJax is a tool for generating and evaluating differentiable matrix elements of high energy scattering processes. As such, it is a step towards a differentiable programming paradigm in high energy physics that facilitates the incorporation of high energy physics domain knowledge, encoded in simulation software, into gradient based learning and optimization pipelines. MadJax comprises two components: (a) a plugin to the general purpose matrix element generator MadGraph that integrates matrix element and phase space sampling code with the JAX differentiable programming framework, and (b) a standalone wrapping API for accessing the matrix element code and its gradients, which are computed with automatic differentiation. The MadJax implementation and example applications of simulation based inference and normalizing flow based matrix element modeling, with capabilities enabled uniquely with differentiable matrix elements, are presented.
翻訳日:2022-03-03 04:56:19 公開日:2022-02-28
# (参考訳) 電圧からの構造 [全文訳有]

Structure from Voltage ( http://arxiv.org/abs/2203.00063v1 )

ライセンス: CC BY 4.0
Robi Bhattacharjee, Alex Cloninger, Yoav Freund(参考訳) 有効抵抗(ER)はグラフの構造を問う魅力的な方法である。 これはグラフラプラシアンの固有ベクトルを計算するに代わるものである。 グラフラプラシアンは高次元データにおいて低次元構造を見つけるために用いられる。 ここでも、ERベースの解析は等ベクトル法よりも有利である。 残念ながら、Von Luxburg et al. (2010) は、頂点が計量空間上の分布からのサンプルに対応するとき、遠点間のERの極限はグラフの構造に関する情報を持たない自明な量に収束することを示した。 我々は、$n$頂点が$n^2$のグラフにおけるスケーリング抵抗を使用することで、電圧と有効抵抗の有意な制限が得られることを示す。 また、計量グラフに「接地」ノードを加えることで、選択された点から他の全ての点までの距離を計算するための単純で自然な方法が得られることを示す。

Effective resistance (ER) is an attractive way to interrogate the structure of graphs. It is an alternative to computing the eigen-vectors of the graph Laplacian. Graph laplacians are used to find low dimensional structures in high dimensional data. Here too, ER based analysis has advantages over eign-vector based methods. Unfortunately Von Luxburg et al. (2010) show that, when vertices correspond to a sample from a distribution over a metric space, the limit of the ER between distant points converges to a trivial quantity that holds no information about the structure of the graph. We show that by using scaling resistances in a graph with $n$ vertices by $n^2$, one gets a meaningful limit of the voltages and of effective resistances. We also show that by adding a "ground" node to a metric graph one gets a simple and natural way to compute all of the distances from a chosen point to all other points.
翻訳日:2022-03-03 04:42:51 公開日:2022-02-28
# (参考訳) シーケンスの選択 [全文訳有]

Choosing on Sequences ( http://arxiv.org/abs/2203.00070v1 )

ライセンス: CC BY 4.0
Bhavook Bhardwaj and Siddharth Chatterjee(参考訳) 選択の標準的な経済モデルでは、意思決定者が選択肢の集合から選ぶと仮定する。 新しい文学の分野は、リスト、すなわち順序集合から選択する問題を検討した。 本稿では,無限列からの選択を考慮に入れた新しい枠組みを提案する。 私たちのフレームワークは、選択が一連のレコメンデーションに依存する設定で意思決定をモデル化する自然な方法を提供する。 このフレームワークには3つの幅広い選択ルールクラスを導入します。 我々の主な結果は、有界な注意は自然位相に対する選択関数の連続性に起因することを示している。 このフレームワークにいくつかの自然選択ルールを導入し、その公理的特徴を提供する。 最後に、チューリングマシンを用いた選択関数の計算可能性の概念を導入し、計算可能な選択規則を有限オートマトンで実装可能であることを示す。

The standard economic model of choice assumes that a decision maker chooses from sets of alternatives. A new branch of literature has considered the problem of choosing from lists i.e. ordered sets. In this paper, we propose a new framework that considers choice from infinite sequences. Our framework provides a natural way to model decision making in settings where choice relies on a string of recommendations. We introduce three broad classes of choice rules in this framework. Our main result shows that bounded attention is due to the continuity of the choice functions with respect to a natural topology. We introduce some natural choice rules in this framework and provide their axiomatic characterizations. Finally, we introduce the notion of computability of a choice function using Turing machines and show that computable choice rules can be implemented by a finite automaton.
翻訳日:2022-03-03 04:22:48 公開日:2022-02-28
# (参考訳) 地区選挙におけるサンプリングに基づく勝者予測 [全文訳有]

Sampling-Based Winner Prediction in District-Based Elections ( http://arxiv.org/abs/2203.00083v1 )

ライセンス: CC BY 4.0
Palash Dey, Debajyoti Kar, Swagato Sanyal(参考訳) 地区ベースの選挙において、各地区の勝者を決定するためにr$という投票規則を適用し、最大数の地区で当選した候補者が選挙の勝者である。 本稿では,このような地区選挙システムの勝者を予測するために,効率的なサンプリングに基づくアルゴリズムを提案する。 r$が複数であり、勝利のマージンが全人口の少なくとも$\varepsilon$分の1であることが知られているとき、勝者を予測するアルゴリズムを提示する。 アルゴリズムのサンプル複雑性は$\mathcal{O}\left(\frac{1}{\varepsilon^4}\log \frac{1}{\varepsilon}\log\frac{1}{\delta}\right)$である。 我々は、この結果を補うために、自然階級のアルゴリズムから、$r$が複数であるときの地方選挙の勝者を予測するアルゴリズムが、少なくとも$\Omega\left(\frac{1}{\varepsilon^4}\log\frac{1}{\delta}\right)$ voteをサンプリングしなければならないことを証明した。 次に、この結果を任意の投票ルールに拡張します。 以下に示すように、地区ベースの選挙の勝者を$\mathcal{O}\left(\frac{1}{\varepsilon^2}\log\frac{1}{\delta}\right)という余分なオーバーヘッドで予測できることを示します。 勝利の限界が不明な場合のアルゴリズムをさらに拡張するが、2つの候補しか持たない。 次に、各地区の選好セットが単一話者である場合の中央値投票ルールを検討する。 地区ベースの選挙の勝者は、異なる地区の調和順序が異なり未知であっても、$\mathcal{o}\left(\frac{1}{\varepsilon^4}\log\frac{1}{\varepsilon}\log\frac{1}{\delta}\right)$サンプルで予測できることを示した。 最後に,加法的および乗算的誤差境界内における地区選挙の勝利率を推定するためのいくつかの結果を示す。

In a district-based election, we apply a voting rule $r$ to decide the winners in each district, and a candidate who wins in a maximum number of districts is the winner of the election. We present efficient sampling-based algorithms to predict the winner of such district-based election systems in this paper. When $r$ is plurality and the margin of victory is known to be at least $\varepsilon$ fraction of the total population, we present an algorithm to predict the winner. The sample complexity of our algorithm is $\mathcal{O}\left(\frac{1}{\varepsilon^4}\log \frac{1}{\varepsilon}\log\frac{1}{\delta}\right)$. We complement this result by proving that any algorithm, from a natural class of algorithms, for predicting the winner in a district-based election when $r$ is plurality, must sample at least $\Omega\left(\frac{1}{\varepsilon^4}\log\frac{1}{\delta}\right)$ votes. We then extend this result to any voting rule $r$. Loosely speaking, we show that we can predict the winner of a district-based election with an extra overhead of $\mathcal{O}\left(\frac{1}{\varepsilon^2}\log\frac{1}{\delta}\right)$ over the sample complexity of predicting the single-district winner under $r$. We further extend our algorithm for the case when the margin of victory is unknown, but we have only two candidates. We then consider the median voting rule when the set of preferences in each district is single-peaked. We show that the winner of a district-based election can be predicted with $\mathcal{O}\left(\frac{1}{\varepsilon^4}\log\frac{1}{\varepsilon}\log\frac{1}{\delta}\right)$ samples even when the harmonious order in different districts can be different and even unknown. Finally, we also show some results for estimating the margin of victory of a district-based election within both additive and multiplicative error bounds.
翻訳日:2022-03-03 03:56:46 公開日:2022-02-28
# (参考訳) MRI-GAN:知覚画像アセスメントを用いたディープフェイクの検出 [全文訳有]

MRI-GAN: A Generalized Approach to Detect DeepFakes using Perceptual Image Assessment ( http://arxiv.org/abs/2203.00108v1 )

ライセンス: CC BY 4.0
Pratikkumar Prajapati, Chris Pollett(参考訳) DeepFakesは、オリジナル画像の顔と誰かの顔とを交換して生成された合成ビデオだ。 本稿では,DeepFakeコンテンツを分類するための一般的なディープラーニングモデルの開発について述べる。 我々は、画像の知覚差を利用して合成ビデオを検出するGAN(Generative Adversarial Network)ベースの新しいフレームワーク、MRI-GANを提案する。 我々は、DeepFake Detection Challenge Datasetを用いて、MRI-GANアプローチとプレーンフレームベースのモデルをテストする。 基本フレームベースモデルは91%のテスト精度を達成し,mri-ganフレームワークと構造類似度指標測定(ssim)を用いたモデルは74%のテスト精度を達成している。 MRI-GANの結果は予備的であり、損失関数の選択を変更したり、ハイパーパラメータをチューニングしたり、より先進的な知覚類似度測定を用いて改善される可能性がある。

DeepFakes are synthetic videos generated by swapping a face of an original image with the face of somebody else. In this paper, we describe our work to develop general, deep learning-based models to classify DeepFake content. We propose a novel framework for using Generative Adversarial Network (GAN)-based models, we call MRI-GAN, that utilizes perceptual differences in images to detect synthesized videos. We test our MRI-GAN approach and a plain-frames-based model using the DeepFake Detection Challenge Dataset. Our plain frames-based-model achieves 91% test accuracy and a model which uses our MRI-GAN framework with Structural Similarity Index Measurement (SSIM) for the perceptual differences achieves 74% test accuracy. The results of MRI-GAN are preliminary and may be improved further by modifying the choice of loss function, tuning hyper-parameters, or by using a more advanced perceptual similarity metric.
翻訳日:2022-03-03 03:24:53 公開日:2022-02-28
# (参考訳) 人工チューター-ラーナーインタラクションにおける教育的実証と実践的学習 [全文訳有]

Pedagogical Demonstrations and Pragmatic Learning in Artificial Tutor-Learner Interactions ( http://arxiv.org/abs/2203.00111v1 )

ライセンス: CC BY 4.0
Hugo Caselles-Dupr\'e, Mohamed Chetouani, Olivier Sigaud(参考訳) タスクのデモンストレーションを行うとき、人間の教師は、単にタスクを"実行"する(デモの関連部分を誇張する)のではなく、あるいはコミュニケーションする目標を最も曖昧にするデモを行うことで、そのタスクの動作を教育的に変更する。 同様に、人間の学習者は教師のコミュニケーションの意図を実践的に推論し、教師が教えようとしていることを解釈し、学習に必要な情報を推測する。 このようなメカニズムがなければ、従来のLearning from Demonstration (LfD)アルゴリズムはそのようなデモを準最適と見なすだろう。 本稿では,複数の目標を持った環境において,両者が人工エージェントであるチューター・リーナー設定において,このようなメカニズムの実装を検討する。 教師の教育学と学習者のプラグマティズムを用いて,実演による標準学習よりも大幅に改善した。

When demonstrating a task, human tutors pedagogically modify their behavior by either "showing" the task rather than just "doing" it (exaggerating on relevant parts of the demonstration) or by giving demonstrations that best disambiguate the communicated goal. Analogously, human learners pragmatically infer the communicative intent of the tutor: they interpret what the tutor is trying to teach them and deduce relevant information for learning. Without such mechanisms, traditional Learning from Demonstration (LfD) algorithms will consider such demonstrations as sub-optimal. In this paper, we investigate the implementation of such mechanisms in a tutor-learner setup where both participants are artificial agents in an environment with multiple goals. Using pedagogy from the tutor and pragmatism from the learner, we show substantial improvements over standard learning from demonstrations.
翻訳日:2022-03-03 03:12:53 公開日:2022-02-28
# (参考訳) GraphWorld: Fake GraphsがGNNのリアルインサイトを提供 [全文訳有]

GraphWorld: Fake Graphs Bring Real Insights for GNNs ( http://arxiv.org/abs/2203.00112v1 )

ライセンス: CC BY 4.0
John Palowitch, Anton Tsitsulin, Brandon Mayer, Bryan Perozzi(参考訳) グラフニューラルネットワーク(GNN)の分野での進歩にもかかわらず、現在、新しいモデルを評価するために使用されるデータセットはわずか (~5) である。 この少数のデータセットへの継続的な依存は、モデル間のパフォーマンスの違いに関する最小限の洞察を与えます。 GoogleのGNNインフラストラクチャとオープンソースソフトウェアに関する作業の中で、堅牢でチューニング可能で、スケーラブルで、一般化可能な、改良されたベンチマークの開発を模索しました。 本研究では,任意のGNNタスクに対して,任意の集団の合成グラフ上でGNNモデルをベンチマークするための新しい方法論とシステムであるGraphWorldを紹介する。 graphworldは、何百万もの統計的に多様なデータセットを持つ世界を効率的に生成できる。 アクセス可能で、スケーラブルで、使いやすくなります。 GraphWorldは特別なハードウェアを使わずに単一のマシン上で実行できるし、任意のクラスタやクラウドフレームワーク上でも簡単にスケールアップできる。 GraphWorldを使用すると、ユーザはグラフジェネレータパラメータをきめ細かいコントロールができ、任意のGNNモデルをハイパーパラメータチューニングでベンチマークすることができる。 数百万のベンチマークデータセットに対する数万のGNNモデルの性能特性について,GraphWorldの実験結果から考察した。 さらに、GraphWorldは、標準ベンチマークによって発見されたベンチマークデータセット空間の領域を効率的に探索し、歴史的に取得できないモデルの比較を明らかにする。 GraphWorldを使用することで、グラフプロパティとタスクパフォーマンスメトリクスの関係を詳細に調査することが可能になります。

Despite advances in the field of Graph Neural Networks (GNNs), only a small number (~5) of datasets are currently used to evaluate new models. This continued reliance on a handful of datasets provides minimal insight into the performance differences between models, and is especially challenging for industrial practitioners who are likely to have datasets which look very different from those used as academic benchmarks. In the course of our work on GNN infrastructure and open-source software at Google, we have sought to develop improved benchmarks that are robust, tunable, scalable,and generalizable. In this work we introduce GraphWorld, a novel methodology and system for benchmarking GNN models on an arbitrarily-large population of synthetic graphs for any conceivable GNN task. GraphWorld allows a user to efficiently generate a world with millions of statistically diverse datasets. It is accessible, scalable, and easy to use. GraphWorld can be run on a single machine without specialized hardware, or it can be easily scaled up to run on arbitrary clusters or cloud frameworks. Using GraphWorld, a user has fine-grained control over graph generator parameters, and can benchmark arbitrary GNN models with built-in hyperparameter tuning. We present insights from GraphWorld experiments regarding the performance characteristics of tens of thousands of GNN models over millions of benchmark datasets. We further show that GraphWorld efficiently explores regions of benchmark dataset space uncovered by standard benchmarks, revealing comparisons between models that have not been historically obtainable. Using GraphWorld, we also are able to study in-detail the relationship between graph properties and task performance metrics, which is nearly impossible with the classic collection of real-world benchmarks.
翻訳日:2022-03-03 03:08:58 公開日:2022-02-28
# (参考訳) 右スピン:回転補償流れ場から物体の動きを学習する [全文訳有]

The Right Spin: Learning Object Motion from Rotation-Compensated Flow Fields ( http://arxiv.org/abs/2203.00115v1 )

ライセンス: CC BY 4.0
Pia Bideau, Erik Learned-Miller, Cordelia Schmid, Karteek Alahari(参考訳) 幾何学的概念の理解と、物体との幅広い親和性の両方が、動く物体に対する優れた認識に繋がる。 動く物体を検知して分割する人間の能力は、複数の物体、複雑な背景幾何学、オブザーバーの動き、さらにはカモフラージュの存在下で機能する。 人間が動く物体をこれほど確実に知覚することは、コンピュータビジョンにおける長年の研究課題であり、心理学、認知科学、物理学などの関連分野からの知見を借りている。 この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。 これは、認知過程と身体設計が密結合され、それぞれが動く物体を正しく識別する特定の側面に責任を持つ人間の視覚で使われる戦略とは対照的である。 同様にコンピュータビジョンの観点からは、古典的な幾何学に基づく技術が問題の「動きに基づく」部分に適しているのに対し、ディープネットワークはモデリングの外観に適しているという証拠がある。 本研究では,カメラ回転とカメラ変換の結合により,ディープネットワークが直接絡み合うことが困難となる複雑な動き場を創りだすことができると主張する。 運動場を考慮したカメラの回転を推定する新しい確率モデルを提案する。 次に,流れ場を補正し,その後のセグメンテーションのための回転補償運動場を得る。 カメラの動きを最初に推定し、ネットワークが問題の残りの部分を学ぶというこの戦略は、広く使われているDAVISベンチマークと最近発表されたMoCA(Moving Camouflaged Animals)のモーションセグメンテーションデータセットの改善結果をもたらす。

Both a good understanding of geometrical concepts and a broad familiarity with objects lead to our excellent perception of moving objects. The human ability to detect and segment moving objects works in the presence of multiple objects, complex background geometry, motion of the observer and even camouflage. How humans perceive moving objects so reliably is a longstanding research question in computer vision and borrows findings from related areas such as psychology, cognitive science and physics. One approach to the problem is to teach a deep network to model all of these effects. This contrasts with the strategy used by human vision, where cognitive processes and body design are tightly coupled and each is responsible for certain aspects of correctly identifying moving objects. Similarly from the computer vision perspective, there is evidence that classical, geometry-based techniques are better suited to the "motion-based" parts of the problem, while deep networks are more suitable for modeling appearance. In this work, we argue that the coupling of camera rotation and camera translation can create complex motion fields that are difficult for a deep network to untangle directly. We present a novel probabilistic model to estimate the camera's rotation given the motion field. We then rectify the flow field to obtain a rotation-compensated motion field for subsequent segmentation. This strategy of first estimating camera motion, and then allowing a network to learn the remaining parts of the problem, yields improved results on the widely used DAVIS benchmark as well as the recently published motion segmentation data set MoCA (Moving Camouflaged Animals).
翻訳日:2022-03-03 02:52:08 公開日:2022-02-28
# (参考訳) 配送情報取引研究の有効性 [全文訳有]

Effectiveness of Delivered Information Trade Study ( http://arxiv.org/abs/2203.00116v1 )

ライセンス: CC BY 4.0
Matthew Ciolino(参考訳) センサーから撮影者のタイムラインは、衛星の位置とアセット位置の2つの主な変数に影響される。 センサーの追加や処理時間の短縮による衛星位置決めの高速化は、準備された撮影機がある場合のみ重要である。 しかし、インテリジェンスコミュニティは、可能な限り高速かつ効果的にセンサーを活用できるよう努力すべきである。 速度を高く保ちながら高い有効性を達成することは、センサーからシューターのタイムラインに考慮しなければならないトレードオフである。 本稿では,画像操作による衛星画像の有効性向上と,搭載画像操作がセンサから撮影者タイムラインに与える影響について検討する。 我々は,これらのアイデアを,オンボード処理と地上局処理の離散イベントシミュレーション,雲被覆除去情報の品質,超解像情報の改善,キャプションへのデータ還元の4つのシナリオでカバーする。 本稿では,スーパーレゾリューション,クラウド除去,キャプションに対する画像操作技術が,配信情報の品質を向上させるとともに,そのプロセスがセンサから撮影者のタイムラインに与える影響を示す。

The sensor to shooter timeline is affected by two main variables: satellite positioning and asset positioning. Speeding up satellite positioning by adding more sensors or by decreasing processing time is important only if there is a prepared shooter, otherwise the main source of time is getting the shooter into position. However, the intelligence community should work towards the exploitation of sensors to the highest speed and effectiveness possible. Achieving a high effectiveness while keeping speed high is a tradeoff that must be considered in the sensor to shooter timeline. In this paper we investigate two main ideas, increasing the effectiveness of satellite imagery through image manipulation and how on-board image manipulation would affect the sensor to shooter timeline. We cover these ideas in four scenarios: Discrete Event Simulation of onboard processing versus ground station processing, quality of information with cloud cover removal, information improvement with super resolution, and data reduction with image to caption. This paper will show how image manipulation techniques such as Super Resolution, Cloud Removal, and Image to Caption will improve the quality of delivered information in addition to showing how those processes effect the sensor to shooter timeline.
翻訳日:2022-03-03 02:31:46 公開日:2022-02-28
# (参考訳) 高次元雑音データから低次元非線形構造を学習する:積分演算子アプローチ

Learning Low-Dimensional Nonlinear Structures from High-Dimensional Noisy Data: An Integral Operator Approach ( http://arxiv.org/abs/2203.00126v1 )

ライセンス: CC BY 4.0
Xiucai Ding and Rong Ma(参考訳) 本研究では,高次元および雑音の観測から低次元非線形構造を学習するためのカーネルスペクトル埋め込みアルゴリズムを提案する。 このアルゴリズムは、基礎となる多様体の事前知識に依存しない適応的帯域選択手順を用いる。 得られた低次元埋め込みは、データ可視化、クラスタリング、予測などの下流目的にさらに活用することができる。 我々の方法は理論的に正当化され、事実上解釈可能である。 具体的には,サンプルの寸法と大きさが可分に大きい場合,最終的な埋め込みの収束を確立し,信号対雑音比が収束率と位相遷移に与える影響を特徴付ける。 また、ある再生核ヒルベルト空間の核写像によって定義される積分作用素の固有関数への埋め込みの収束を証明し、基礎となる非線形構造を捉える。 3つの実データセットの数値シミュレーションと解析により,様々な多様体を多様な応用で学習する手法と比較して,提案手法の実証的性能が優れていることを示す。

We propose a kernel-spectral embedding algorithm for learning low-dimensional nonlinear structures from high-dimensional and noisy observations, where the datasets are assumed to be sampled from an intrinsically low-dimensional manifold and corrupted by high-dimensional noise. The algorithm employs an adaptive bandwidth selection procedure which does not rely on prior knowledge of the underlying manifold. The obtained low-dimensional embeddings can be further utilized for downstream purposes such as data visualization, clustering and prediction. Our method is theoretically justified and practically interpretable. Specifically, we establish the convergence of the final embeddings to their noiseless counterparts when the dimension and size of the samples are comparably large, and characterize the effect of the signal-to-noise ratio on the rate of convergence and phase transition. We also prove convergence of the embeddings to the eigenfunctions of an integral operator defined by the kernel map of some reproducing kernel Hilbert space capturing the underlying nonlinear structures. Numerical simulations and analysis of three real datasets show the superior empirical performance of the proposed method, compared to many existing methods, on learning various manifolds in diverse applications.
翻訳日:2022-03-03 02:22:41 公開日:2022-02-28
# (参考訳) 神経ハミルトニアンダイナミクスの学習 : 方法論的概観 [全文訳有]

Learning Neural Hamiltonian Dynamics: A Methodological Overview ( http://arxiv.org/abs/2203.00128v1 )

ライセンス: CC BY 4.0
Zhijie Chen, Mingquan Feng, Junchi Yan, Hongyuan Zha(参考訳) ここ数年、ディープラーニングフレームワークにおけるハミルトン力学の学習への関心が高まっている。 物理法則に基づく帰納バイアスとして、ハミルトン力学は、正確な長期予測、解釈可能性、データ効率の学習を含むニューラルネットワークを許容する。 しかし、ハミルトニアン力学は入力データにエネルギー保存や散逸の仮定をもたらし、さらなる計算オーバーヘッドをもたらす。 本稿では,最近提案したハミルトンニューラルネットワークモデルについて,方法論に特化して体系的に調査する。 一般に、これらのモデルの主な貢献について議論し、4つの重なり合う方向で比較する。 1) 一般化ハミルトン系 2)シンプレクティック統合 3)汎用入力形式,及び 4) 問題設定の拡張。 また、この分野における根本的な課題と新たな機会の展望も提供します。

The past few years have witnessed an increased interest in learning Hamiltonian dynamics in deep learning frameworks. As an inductive bias based on physical laws, Hamiltonian dynamics endow neural networks with accurate long-term prediction, interpretability, and data-efficient learning. However, Hamiltonian dynamics also bring energy conservation or dissipation assumptions on the input data and additional computational overhead. In this paper, we systematically survey recently proposed Hamiltonian neural network models, with a special emphasis on methodologies. In general, we discuss the major contributions of these models, and compare them in four overlapping directions: 1) generalized Hamiltonian system; 2) symplectic integration, 3) generalized input form, and 4) extended problem settings. We also provide an outlook of the fundamental challenges and emerging opportunities in this area.
翻訳日:2022-03-03 02:21:34 公開日:2022-02-28
# (参考訳) 論文プレーン:自然言語処理による医療従事者への医療研究論文へのアプローチ

Paper Plain: Making Medical Research Papers Approachable to Healthcare Consumers with Natural Language Processing ( http://arxiv.org/abs/2203.00130v1 )

ライセンス: CC BY 4.0
Tal August, Lucy Lu Wang, Jonathan Bragg, Marti A. Hearst, Andrew Head and Kyle Lo(参考訳) 医療パンフレットのような患者フレンドリーな文書にない情報を求めるとき、医療関係者は研究文献に目を向けることがある。 しかし、医学論文を読むことは難しい経験だ。 医学論文へのアクセスを改善するために, 自然言語処理を利用した対話型インタフェース・パパープレーンを導入する: 未知用語の定義, 原文部分要約, 読者が回答を導くための重要な質問の収集, 回答文の平文要約の4つの特徴について述べる。 論文の理解度を低下させることなく,研究論文の読解・理解に要する時間が一般的なpdf読取者に比べて容易であることを見いだした。 総じて,本論文の内容と並行して,読者を関連項目に誘導し,平易な言語要約や「要点」を提供することにより,医学論文の読解が容易になり,読者がこれらの論文に接近する自信が高まることが示唆された。

When seeking information not covered in patient-friendly documents, like medical pamphlets, healthcare consumers may turn to the research literature. Reading medical papers, however, can be a challenging experience. To improve access to medical papers, we introduce a novel interactive interface-Paper Plain-with four features powered by natural language processing: definitions of unfamiliar terms, in-situ plain language section summaries, a collection of key questions that guide readers to answering passages, and plain language summaries of the answering passages. We evaluate Paper Plain, finding that participants who use Paper Plain have an easier time reading and understanding research papers without a loss in paper comprehension compared to those who use a typical PDF reader. Altogether, the study results suggest that guiding readers to relevant passages and providing plain language summaries, or "gists," alongside the original paper content can make reading medical papers easier and give readers more confidence to approach these papers.
翻訳日:2022-03-03 02:07:04 公開日:2022-02-28
# (参考訳) 欠落データモデルにおける適合テストの検証可能性と良さについて [全文訳有]

On Testability and Goodness of Fit Tests in Missing Data Models ( http://arxiv.org/abs/2203.00132v1 )

ライセンス: CC BY 4.0
Razieh Nabi, Rohit Bhattacharya(参考訳) モデリング仮定を有向非巡回グラフで記述できるデータ問題に対する識別と推定手法の開発において、重要な進展が見られた。 このような手法を用いた結果の妥当性は、グラフが真とする仮定に依存するが、これらの仮定の検証は、事前の作業において十分な注意を払われていない。 本稿では,データグラフィカルモデルが欠落している3つのクラスにおいて,テスト可能な意味に関する新たな知見を提供する。 探索されたモデルのクラスは、ドロップアウト/検閲による縦断的研究のモデリングに使用できるシーケンシャルな非ランダムモデルと、横断的な研究や調査に応用できる一種の自己検閲モデルである。

Significant progress has been made in developing identification and estimation techniques for missing data problems where modeling assumptions can be described via a directed acyclic graph. The validity of results using such techniques rely on the assumptions encoded by the graph holding true; however, verification of these assumptions has not received sufficient attention in prior work. In this paper, we provide new insights on the testable implications of three broad classes of missing data graphical models, and design goodness-of-fit tests around them. The classes of models explored are: sequential missing-at-random and missing-not-at-rando m models which can be used for modeling longitudinal studies with dropout/censoring, and a kind of no self-censoring model which can be applied to cross-sectional studies and surveys.
翻訳日:2022-03-03 02:05:59 公開日:2022-02-28
# (参考訳) GPSデータを用いた電気自動車の時空間充電需要と走行行動の調査:機械学習によるアプローチ [全文訳有]

Investigating the Spatiotemporal Charging Demand and Travel Behavior of Electric Vehicles Using GPS Data: A Machine Learning Approach ( http://arxiv.org/abs/2203.00135v1 )

ライセンス: CC BY 4.0
Sina Baghali, Zhaomiao Guo, Samiul Hasan(参考訳) 電気自動車(ev)の市場浸透の増加は、ドライバーの移動行動を変え、電力系統に大きな電力需要をもたらす可能性がある。 電力需要は、本質的に不確実であるevの走行行動に依存するため、日々の充電需要(cd)の予測は困難な課題となる。 本稿では,同市における電気自動車とガソリン自動車のGPSデータを用いて,従来の車両からEVへの運転者の移動行動の潜在的な変化を調査し,日々のCDの時空間パターンを予測する。 分析の結果,EVと従来の車両の走行挙動は類似していることがわかった。 また, 予測結果は, 開発したモデルが日々のcdの時空間パターンを精度良く生成できることを示す。

The increasing market penetration of electric vehicles (EVs) may change the travel behavior of drivers and pose a significant electricity demand on the power system. Since the electricity demand depends on the travel behavior of EVs, which are inherently uncertain, the forecasting of daily charging demand (CD) will be a challenging task. In this paper, we use the recorded GPS data of EVs and conventional gasoline-powered vehicles from the same city to investigate the potential shift in the travel behavior of drivers from conventional vehicles to EVs and forecast the spatiotemporal patterns of daily CD. Our analysis reveals that the travel behavior of EVs and conventional vehicles are similar. Also, the forecasting results indicate that the developed models can generate accurate spatiotemporal patterns of the daily CD.
翻訳日:2022-03-03 01:26:48 公開日:2022-02-28
# (参考訳) 点群における3次元ボクセルレベル関節分割と運動予測のための時空間変圧器注意ネットワーク [全文訳有]

Spatiotemporal Transformer Attention Network for 3D Voxel Level Joint Segmentation and Motion Prediction in Point Cloud ( http://arxiv.org/abs/2203.00138v1 )

ライセンス: CC BY 4.0
Zhensong Wei, Xuewei Qi, Zhengwei Bai, Guoyuan Wu, Saswat Nayak, Peng Hao, Matthew Barth, Yongkang Liu, and Kentaro Oguchi(参考訳) 検知、分類、追跡、動き予測を含む環境認識は、自動走行システムとインテリジェント輸送アプリケーションにとって重要な実現手段である。 センサー技術と機械学習技術の進歩により、LiDARベースのセンシングシステムは有望なソリューションとなっている。 このソリューションの現在の課題は、異なる知覚タスクを単一のバックボーンに効果的に組み合わせることと、ポイントクラウドシーケンスから直接時空間的特徴を効率的に学習する方法である。 本研究では,ボクセルレベルの点雲内における共同意味セグメンテーションと動き予測のための変圧器自己認識機構に基づく新しい時空間アテンションネットワークを提案する。 ネットワークは、ポイントクラウドデータセットのシーケンスから直接学習することにより、voxelレベルクラスと予測動作を同時に出力するように訓練される。 提案するバックボーンは、時間的注意モジュール(TAM)と空間的注意モジュール(SAM)の両方を含み、複雑な時空間の特徴を学習し抽出する。 このアプローチはnuScenesデータセットで評価されており、有望なパフォーマンスを実現している。

Environment perception including detection, classification, tracking, and motion prediction are key enablers for automated driving systems and intelligent transportation applications. Fueled by the advances in sensing technologies and machine learning techniques, LiDAR-based sensing systems have become a promising solution. The current challenges of this solution are how to effectively combine different perception tasks into a single backbone and how to efficiently learn the spatiotemporal features directly from point cloud sequences. In this research, we propose a novel spatiotemporal attention network based on a transformer self-attention mechanism for joint semantic segmentation and motion prediction within a point cloud at the voxel level. The network is trained to simultaneously outputs the voxel level class and predicted motion by learning directly from a sequence of point cloud datasets. The proposed backbone includes both a temporal attention module (TAM) and a spatial attention module (SAM) to learn and extract the complex spatiotemporal features. This approach has been evaluated with the nuScenes dataset, and promising performance has been achieved.
翻訳日:2022-03-03 01:15:47 公開日:2022-02-28
# (参考訳) Concordance Index decomposition -- 生存予測モデルのより深い理解のための尺度 [全文訳有]

The Concordance Index decomposition -- A measure for a deeper understanding of survival prediction models ( http://arxiv.org/abs/2203.00144v1 )

ライセンス: CC BY 4.0
Abdallah Alabdallah, Mattias Ohlsson, Sepideh Pashami, Thorsteinn R\"ognvaldsson(参考訳) concordance index (c-index) は生存率分析において、予測モデルがどれだけ優れているかを評価するためによく用いられる指標である。 本稿では,c-indexを2種類の重み付き調和平均に分解することを提案する。1つは観測事象を他の観測事象と比較し,もう1つは観測事象を検閲事例と比較した場合の重み付き調和平均である。 この分解により、生存予測法の長所と短所をよりきめ細かい分析が可能となる。 本論文では,3つのベンチマークサバイバル分析モデル(Cox Proportional Hazard,Random Survival Forest,Deep Adversarial Time-to-Event Network)とニューラルネットを用いた新しい変分生成手法(SurVED)を用いて,その実用性を実証する。 デモは、さまざまな検閲レベルを持つ4つの公開データセットで実施される。 C-インデックス分解による分析は、全ての手法が、検閲レベルが高い場合、イベントと検閲ケースのランキングを測る用語の優位性から、本質的に同等に機能することを示している。 対照的に、検閲レベルが低下すると、イベントと他のイベントをうまくランク付けしないため、いくつかの方法が悪化する。

The Concordance Index (C-index) is a commonly used metric in Survival Analysis to evaluate how good a prediction model is. This paper proposes a decomposition of the C-Index into a weighted harmonic mean of two quantities: one for ranking observed events versus other observed events, and the other for ranking observed events versus censored cases. This decomposition allows a more fine-grained analysis of the pros and cons of survival prediction methods. The utility of the decomposition is demonstrated using three benchmark survival analysis models (Cox Proportional Hazard, Random Survival Forest, and Deep Adversarial Time-to-Event Network) together with a new variational generative neural-network-based method (SurVED), which is also proposed in this paper. The demonstration is done on four publicly available datasets with varying censoring levels. The analysis with the C-index decomposition shows that all methods essentially perform equally well when the censoring level is high because of the dominance of the term measuring the ranking of events versus censored cases. In contrast, some methods deteriorate when the censoring level decreases because they do not rank the events versus other events well.
翻訳日:2022-03-03 01:05:31 公開日:2022-02-28
# データの安定化線形力学系のサンプル複雑性について

On the sample complexity of stabilizing linear dynamical systems from data ( http://arxiv.org/abs/2203.00474v1 )

ライセンス: Link先を確認
Steffen W. R. Werner, Benjamin Peherstorfer(参考訳) 動的システムの安定化のためのデータからコントローラを学習することは、通常、まずモデルを識別し、次に同定されたモデルに基づいてコントローラを構築する2段階のプロセスに従う。 しかし、学習モデルは、大量のデータを必要とし、特定の安定化作業に不要な情報を抽出できるシステムのダイナミクスの一般的な記述を識別することを意味する。 この研究の貢献は、線型力学系が次元 (mcmillan degree) $n$ を持つならば、観測状態の表現の次元と入力の数とは無関係に、安定化フィードバックコントローラを構築できる、常に n$ 状態が存在することを示すことである。 この発見は、全ての線形力学系が、力学のモデルを学ぶのに必要な最小の状態数よりも少ない観測状態から安定化できることを示すものである。 モデル学習に必要なデータよりも少ないデータからシリンダー後方の流れの安定化を示す数値実験により理論的知見が得られた。

Learning controllers from data for stabilizing dynamical systems typically follows a two step process of first identifying a model and then constructing a controller based on the identified model. However, learning models means identifying generic descriptions of the dynamics of systems, which can require large amounts of data and extracting information that are unnecessary for the specific task of stabilization. The contribution of this work is to show that if a linear dynamical system has dimension (McMillan degree) $n$, then there always exist $n$ states from which a stabilizing feedback controller can be constructed, independent of the dimension of the representation of the observed states and the number of inputs. By building on previous work, this finding implies that any linear dynamical system can be stabilized from fewer observed states than the minimal number of states required for learning a model of the dynamics. The theoretical findings are demonstrated with numerical experiments that show the stabilization of the flow behind a cylinder from less data than necessary for learning a model.
翻訳日:2022-03-02 15:57:01 公開日:2022-02-28
# 量子サポートベクトルマシンの複雑さ

The complexity of quantum support vector machines ( http://arxiv.org/abs/2203.00031v1 )

ライセンス: Link先を確認
Gian Gentinetta, Arne Thomsen, David Sutter, Stefan Woerner(参考訳) 量子サポートベクターマシンは、カーネル関数を定義するために量子回路を用いる。 このアプローチは、特定のデータセットに対する既知の古典的アルゴリズムと比較して、証明可能な指数的スピードアップを提供する。 そのようなモデルのトレーニングは、原始的あるいは双対な定式化を通じて凸最適化問題を解決することに対応する。 量子力学の確率論的性質のため、トレーニングアルゴリズムは統計的不確実性の影響を受け、その複雑さに大きな影響を及ぼす。 双対問題は$\mathcal{o}(m^{4.67}/\varepsilon^2)$量子回路評価で解くことができ、ここで$m$はデータセットのサイズを表し、$\varepsilon$は解の精度を示す。 経験的動機づけにより、核化された原始問題は、ペガソスと呼ばれる既知の古典的アルゴリズムの一般化を用いて、$\mathcal{o}(\min \{m^2/\varepsilon^6, \, 1/\varepsilon^{10} \})$評価によって代替的に解くことができると証明する。 経験的な結果と合わせて、これらの解析的複雑さは本質的に密であることを示す。 さらに,量子サポートベクトルマシンの変分近似について検討し,そのヒューリスティックトレーニングが実験においてかなり優れたスケーリングを実現することを示す。

Quantum support vector machines employ quantum circuits to define the kernel function. It has been shown that this approach offers a provable exponential speedup compared to any known classical algorithm for certain data sets. The training of such models corresponds to solving a convex optimization problem either via its primal or dual formulation. Due to the probabilistic nature of quantum mechanics, the training algorithms are affected by statistical uncertainty, which has a major impact on their complexity. We show that the dual problem can be solved in $\mathcal{O}(M^{4.67}/\varepsilon^2)$ quantum circuit evaluations, where $M$ denotes the size of the data set and $\varepsilon$ the solution accuracy. We prove under an empirically motivated assumption that the kernelized primal problem can alternatively be solved in $\mathcal{O}(\min \{ M^2/\varepsilon^6, \, 1/\varepsilon^{10} \})$ evaluations by employing a generalization of a known classical algorithm called Pegasos. Accompanying empirical results demonstrate these analytical complexities to be essentially tight. In addition, we investigate a variational approximation to quantum support vector machines and show that their heuristic training achieves considerably better scaling in our experiments.
翻訳日:2022-03-02 15:45:59 公開日:2022-02-28
# 平均場制御 (MFC) は非一様相互作用を伴う協調多エージェント強化学習 (MARL) を可能か?

Can Mean Field Control (MFC) Approximate Cooperative Multi Agent Reinforcement Learning (MARL) with Non-Uniform Interaction? ( http://arxiv.org/abs/2203.00035v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, and Satish V. Ukkusuri(参考訳) 平均場制御(MFC)はマルチエージェント強化学習(MARL)問題を解決する強力なツールである。 近年の研究では、MFCが個体数が大きく、薬剤が交換可能である場合、MARLを適切に適用できることが示されている。 残念ながら、交換可能性の仮定は全てのエージェントが互いに一様に相互作用することを意味するが、多くの実用的なシナリオでは当てはまらない。 本稿では,交換可能性の仮定を緩和し,任意の二重確率行列を介してエージェント間の相互作用をモデル化する。 結果として、我々のフレームワークでは、異なるエージェントによる平均フィールド ‘seen' が異なる。 各エージェントの報酬が、そのエージェントが見た平均フィールドのアフィン関数であるなら、それらの非一様マール問題を、関連するmfc問題を通じて近似することができる。 $e=\mathcal{o}(\frac{1}{\sqrt{n}}[\sqrt{|\mathcal{x}|} + \sqrt{|\mathcal{u}|})$ ここで、$n$ は人口の大きさであり、$|\mathcal{x}|$, $|\mathcal{u}|$$$ はそれぞれ状態空間と行動空間の大きさである。 最後に、誤差$\mathcal{O}(\max\{e,\epsilon\})$と、任意の$\epsilon > 0$に対して$\mathcal{O}(\epsilon^{-3})$のサンプル複雑性を持つ非一様MARLに対する解を提供することができるNatural Policy Gradient (NPG)アルゴリズムを開発する。

Mean-Field Control (MFC) is a powerful tool to solve Multi-Agent Reinforcement Learning (MARL) problems. Recent studies have shown that MFC can well-approximate MARL when the population size is large and the agents are exchangeable. Unfortunately, the presumption of exchangeability implies that all agents uniformly interact with one another which is not true in many practical scenarios. In this article, we relax the assumption of exchangeability and model the interaction between agents via an arbitrary doubly stochastic matrix. As a result, in our framework, the mean-field `seen' by different agents are different. We prove that, if the reward of each agent is an affine function of the mean-field seen by that agent, then one can approximate such a non-uniform MARL problem via its associated MFC problem within an error of $e=\mathcal{O}(\frac{1}{\sqrt{N}}[\sqrt{|\mathcal{X}|} + \sqrt{|\mathcal{U}|}])$ where $N$ is the population size and $|\mathcal{X}|$, $|\mathcal{U}|$ are the sizes of state and action spaces respectively. Finally, we develop a Natural Policy Gradient (NPG) algorithm that can provide a solution to the non-uniform MARL with an error $\mathcal{O}(\max\{e,\epsilon\})$ and a sample complexity of $\mathcal{O}(\epsilon^{-3})$ for any $\epsilon >0$.
翻訳日:2022-03-02 15:45:34 公開日:2022-02-28
# ゲームと改善を両立できる戦略エージェントの分類について

On classification of strategic agents who can both game and improve ( http://arxiv.org/abs/2203.00124v1 )

ライセンス: Link先を確認
Saba Ahmadi, Hedyeh Beyhaghi, Avrim Blum, Keziah Naggita(参考訳) 本研究では,ゲームと改善を両立できるエージェントの分類について検討する。 例えば、ローンを希望する人は、信用価値が高まるような行動や、信用価値が高まる行動を取ることができるかもしれない。 意思決定者は、少ない偽陽性(悪いローンを多く与えない)で分類ルールを定義し、多くの真陽性(良いローンを多く与える)を産み出し、可能であれば真陽性になるようエージェントを奨励する。 この問題に対して, 一般離散モデルと線形モデルという2つのモデルを検討し, それぞれのアルゴリズム, 学習, 硬さを証明した。 一般的な離散モデルでは、偽陽性のない真の正の数を最大化する問題に対する効率的なアルゴリズムを与え、これを部分情報学習環境に拡張する方法を示す。 また、真正の数を偽正の数に非零のバウンドに最大化する問題に対する硬さを示し、この硬さは我々の線形モデルの有限点バージョンでも成り立つことを示した。 また、完全線形モデルでは、偽陽性のない真正数の最大化はNPハードであることが示される。 さらに,すべてのエージェントを的確に分類し,すべての即興エージェントを適格化させる線形分類器が存在するかどうかを判定するアルゴリズムを提供し,低次元データに対して追加結果を与える。

In this work, we consider classification of agents who can both game and improve. For example, people wishing to get a loan may be able to take some actions that increase their perceived credit-worthiness and others that also increase their true credit-worthiness. A decision-maker would like to define a classification rule with few false-positives (does not give out many bad loans) while yielding many true positives (giving out many good loans), which includes encouraging agents to improve to become true positives if possible. We consider two models for this problem, a general discrete model and a linear model, and prove algorithmic, learning, and hardness results for each. For the general discrete model, we give an efficient algorithm for the problem of maximizing the number of true positives subject to no false positives, and show how to extend this to a partial-information learning setting. We also show hardness for the problem of maximizing the number of true positives subject to a nonzero bound on the number of false positives, and that this hardness holds even for a finite-point version of our linear model. We also show that maximizing the number of true positives subject to no false positive is NP-hard in our full linear model. We additionally provide an algorithm that determines whether there exists a linear classifier that classifies all agents accurately and causes all improvable agents to become qualified, and give additional results for low-dimensional data.
翻訳日:2022-03-02 15:44:51 公開日:2022-02-28
# ARVCに特化した人工知能とスペクトル分析法によるデジタルECG信号の解析

Analysis of Digitalized ECG Signals Based on Artificial Intelligence and Spectral Analysis Methods Specialized in ARVC ( http://arxiv.org/abs/2203.00504v1 )

ライセンス: Link先を確認
Vasileios E. Papageorgiou, Thomas Zegkos, Georgios Efthimiadis and George Tsaklidis(参考訳) 不整脈性右心室心筋症 (ARVC) は、35歳未満の突然の心臓死の20%の責任を負い、患者の2年目から4年目に出現する遺伝性心筋疾患である。 心電図(ECGs)に基づくこの疾患の有効かつ時間的診断は、早期の心血管死の減少に重要な役割を担っている。 本稿では,まず,ecg波形に対応しないデータセット画像の暗領域を除去し,望ましくないノイズを発生させる空間フィルタにより拡張された紙ベースのecg信号のディジタル化過程について概説する。 次に, 深層学習法を用いて研究されていない不整脈性心疾患の診断に低複雑性畳み込みニューラルネットワークを用い, 心電図の形態の無限小変動である疾患の同定基準を高い分類精度で達成し, その他の不整脈性心疾患と対比した。 最後に,ARVC患者に対応する正常心電図と心電図の周波数領域における有意な分化について検討した。 本稿では, 様々な疾患の検査と効果的な診断に数学的手法を統合することの重要性を強調し, 治療の成功に大きく貢献することを目的としている。

Arrhythmogenic right ventricular cardiomyopathy (ARVC) is an inherited heart muscle disease that appears between the second and forth decade of a patient's life, being responsible for 20% of sudden cardiac deaths before the age of 35. The effective and punctual diagnosis of this disease based on Electrocardiograms (ECGs) could have a vital role in reducing premature cardiovascular mortality. In our analysis, we firstly outline the digitalization process of paper-based ECG signals enhanced by a spatial filter aiming to eliminate dark regions in the dataset's images that do not correspond to ECG waveform, producing undesirable noise. Next, we propose the utilization of a low-complexity convolutional neural network for the detection of an arrhythmogenic heart disease, that has not been studied through the usage of deep learning methodology to date, achieving high classification accuracy on a disease the major identification criterion of which are infinitesimal millivolt variations in the ECG's morphology, in contrast with other arrhythmogenic abnormalities. Finally, by performing spectral analysis we investigate significant differentiations in the field of frequencies between normal ECGs and ECGs corresponding to patients suffering from ARVC. The overall research carried out in this article highlights the importance of integrating mathematical methods into the examination and effective diagnosis of various diseases, aiming to a substantial contribution to their successful treatment.
翻訳日:2022-03-02 15:39:11 公開日:2022-02-28
# 超高分解能顕微鏡のための時空間視覚トランスフォーマ

Spatio-temporal Vision Transformer for Super-resolution Microscopy ( http://arxiv.org/abs/2203.00030v1 )

ライセンス: Link先を確認
Charles N. Christensen, Meng Lu, Edward N. Ward, Pietro Lio, Clemens F. Kaminski(参考訳) structuredluminumina tion microscope (sim) は、回折限界を超えるライブセルイメージングを可能にする光学的超解像技術である。 SIMデータの再構成は, 試料が静的であるという仮定に依存するため, 高ダイナミックな試料を撮像する場合に問題が発生する。 SIMにおけるビデオ超解像(VSR)問題に対処するチャネルアテンション機構に加えて,シフトした3次元ウィンドウマルチヘッドアテンションを利用するトランスフォーマーベースの新しい再構成手法VSR-SIMを提案する。 注意機構は、光学フローのような一般的な動き推定技術を必要としない連続した動きを捉えることができる。 シミュレートされたデータのみに依存するネットワークをシミュレートする手法として,シミュレート画像生成モデルを用いた自然景観映像を用いて学習する。 そこで本研究では,vsr-sim によるローリング sim イメージング (rolling sim imaging) の応用例を示し,sim の時間分解能を 9。 本手法は, 時間分解能の高いバイオメディカル研究において, 動的プロセスの正確な記録を可能にするSIM設定に適用できる。

Structured illumination microscopy (SIM) is an optical super-resolution technique that enables live-cell imaging beyond the diffraction limit. Reconstruction of SIM data is prone to artefacts, which becomes problematic when imaging highly dynamic samples because previous methods rely on the assumption that samples are static. We propose a new transformer-based reconstruction method, VSR-SIM, that uses shifted 3-dimensional window multi-head attention in addition to channel attention mechanism to tackle the problem of video super-resolution (VSR) in SIM. The attention mechanisms are found to capture motion in sequences without the need for common motion estimation techniques such as optical flow. We take an approach to training the network that relies solely on simulated data using videos of natural scenery with a model for SIM image formation. We demonstrate a use case enabled by VSR-SIM referred to as rolling SIM imaging, which increases temporal resolution in SIM by a factor of 9. Our method can be applied to any SIM setup enabling precise recordings of dynamic processes in biomedical research with high temporal resolution.
翻訳日:2022-03-02 15:38:03 公開日:2022-02-28
# 逆作業者に対する分散ランダム化カッツマルツ

Distributed randomized Kaczmarz for the adversarial workers ( http://arxiv.org/abs/2203.00095v1 )

ライセンス: Link先を確認
Xia Li, Longxiu Huang, Deanna Needell(参考訳) 敵や腐敗した労働者の存在に頑健な大規模分散手法の開発は、現実の問題を解決する上で重要な要素である。 本稿では,最小二乗問題に対して逆耐性の反復的アプローチを提案する。 このアルゴリズムは単純な統計情報を用いて収束を保証し、逆分布を学習することができる。 さらに,提案手法の効率性は,敵の存在下でのシミュレーションで示される。 その結果, 異なるレベルの敵意率を許容し, 精度の高い誤作業者を特定することが可能となった。

Developing large-scale distributed methods that are robust to the presence of adversarial or corrupted workers is an important part of making such methods practical for real-world problems. Here, we propose an iterative approach that is adversary-tolerant for least-squares problems. The algorithm utilizes simple statistics to guarantee convergence and is capable of learning the adversarial distributions. Additionally, the efficiency of the proposed method is shown in simulations in the presence of adversaries. The results demonstrate the great capability of such methods to tolerate different levels of adversary rates and to identify the erroneous workers with high accuracy.
翻訳日:2022-03-02 15:35:52 公開日:2022-02-28
# 非線形システム同定のための神経常微分方程式

Neural Ordinary Differential Equations for Nonlinear System Identification ( http://arxiv.org/abs/2203.00120v1 )

ライセンス: Link先を確認
Aowabin Rahman and J\'an Drgo\v{n}a and Aaron Tuor and Jan Strube(参考訳) ニューラル常微分方程式 (NODE) は非線形システム同定タスクにおいて有望なアプローチとして提案されている。 本研究では,その予測性能と現状の非線形および古典的線形手法を系統的に比較する。 特に,NODEの性能をニューラル状態空間モデルと古典線形システム同定法と比較した定量的研究を提案する。 8種類の力学系における開ループ誤差に対する各手法の予測速度と予測性能を評価する。 実験の結果,ノードはベンチマーク法と比較して予測精度を桁違いに向上できることがわかった。 精度の向上に加えて、ノードは神経状態空間モデルに比べてハイパーパラメータに対する感度が低いことも観察した。 一方、これらの性能向上には、推論時の計算量がわずかに増加する。

Neural ordinary differential equations (NODE) have been recently proposed as a promising approach for nonlinear system identification tasks. In this work, we systematically compare their predictive performance with current state-of-the-art nonlinear and classical linear methods. In particular, we present a quantitative study comparing NODE's performance against neural state-space models and classical linear system identification methods. We evaluate the inference speed and prediction performance of each method on open-loop errors across eight different dynamical systems. The experiments show that NODEs can consistently improve the prediction accuracy by an order of magnitude compared to benchmark methods. Besides improved accuracy, we also observed that NODEs are less sensitive to hyperparameters compared to neural state-space models. On the other hand, these performance gains come with a slight increase of computation at the inference time.
翻訳日:2022-03-02 15:35:43 公開日:2022-02-28
# 改善の最大化のための公正なインセンティブの設定

Setting Fair Incentives to Maximize Improvement ( http://arxiv.org/abs/2203.00134v1 )

ライセンス: Link先を確認
Saba Ahmadi, Hedyeh Beyhaghi, Avrim Blum, Keziah Naggita(参考訳) 我々は,短期目標を設定することでエージェントの改善を支援する問題を考える。 目標スキルレベルのセットが与えられた場合、各エージェントは、最初のスキルレベルから、到達範囲内で最も近いターゲットレベルに改善しようとするだろうし、到達範囲内に目標レベルがなければ何もしないだろうと仮定する。 共通の改善能力モデル(common improvement capacity model)と、エージェントが個別化された制限を持つ個別化改善能力モデル( individualized improvement capacity model)の2つのモデルを検討した。 我々のゴールは、社会福祉を改善の総量として定義する社会福祉と公正目標の目標レベルを最適化することであり、公正目標とは、エージェントが異なる集団に属している場所である。 この問題の主な技術的課題は、目標レベルのセットにおける社会的福祉の非単調性、すなわち、新たな目標レベルの追加は、一部のエージェントが改善しやすくなるにつれて、全体の改善量を減少させる可能性があることである。 これは、複数のグループを分離してターゲットレベルを最適化し、統合をアウトプットすることで、グループに対して任意に改善が低くなり、公平さの目標を損なう可能性があるため、特に難しい。 これらの特性を考慮し,社会福祉と公平性目標の両方に対して,最適および至近的改善のためのアルゴリズムを提案する。 これらのアルゴリズムによる結果は、共通および個別化された改善能力モデルの両方に有効である。 さらに,各グループの社会福祉にほぼ最適な目標レベルの配置が存在することを示す。 アルゴリズム的な結果とは異なり、この構造的ステートメントは共通改善容量モデルにのみ保持され、個別化改善容量モデルに反例を示す。 最後に、アルゴリズムを学習環境に拡張し、エージェントの初期スキルレベルへのサンプルアクセスしかできないようにします。

We consider the problem of helping agents improve by setting short-term goals. Given a set of target skill levels, we assume each agent will try to improve from their initial skill level to the closest target level within reach or do nothing if no target level is within reach. We consider two models: the common improvement capacity model, where agents have the same limit on how much they can improve, and the individualized improvement capacity model, where agents have individualized limits. Our goal is to optimize the target levels for social welfare and fairness objectives, where social welfare is defined as the total amount of improvement, and fairness objectives are considered where the agents belong to different underlying populations. A key technical challenge of this problem is the non-monotonicity of social welfare in the set of target levels, i.e., adding a new target level may decrease the total amount of improvement as it may get easier for some agents to improve. This is especially challenging when considering multiple groups because optimizing target levels in isolation for each group and outputting the union may result in arbitrarily low improvement for a group, failing the fairness objective. Considering these properties, we provide algorithms for optimal and near-optimal improvement for both social welfare and fairness objectives. These algorithmic results work for both the common and individualized improvement capacity models. Furthermore, we show a placement of target levels exists that is approximately optimal for the social welfare of each group. Unlike the algorithmic results, this structural statement only holds in the common improvement capacity model, and we show counterexamples in the individualized improvement capacity model. Finally, we extend our algorithms to learning settings where we have only sample access to the initial skill levels of agents.
翻訳日:2022-03-02 15:35:33 公開日:2022-02-28
# 動的N:M微細粒構造スパースアテンション機構

Dynamic N:M Fine-grained Structured Sparse Attention Mechanism ( http://arxiv.org/abs/2203.00091v1 )

ライセンス: Link先を確認
Zhaodong Chen, Yuying Quan, Zheng Qu, Liu Liu, Yufei Ding, Yuan Xie(参考訳) トランスフォーマーは、NLPやコンピュータビジョンといった様々なタスクのメインストリームのソリューションになりつつある。 その成功にもかかわらず、注意機構の複雑さは、レイテンシに敏感なタスクに適用されることを妨げる。 この問題を軽減するために多大な努力がなされており、その多くが漸近的な複雑さを線形に削減することに成功している。 しかしながら、そのほとんどは、中程度のシーケンス長で元のフルアテンションよりも実用的なスピードアップを達成することができず、微調整には不向きである。 本稿では, n:m細粒度構造スパースパターンに対して, 全注意重み行列を動的にプルーピングするアテンション機構であるdfssについて述べる。 DFSSが完全な注意機構のよい近似であることを示す理論的および経験的証拠の両方を提供する。 我々は,動的プルーニングのオーバーヘッドを完全に排除し,任意のシーケンス長で高速化を実現するcudaカーネル設計を提案する。 1:2と2:4の間隔を異なる構成で評価し、フルアテンション機構上で1.27〜1.89倍のスピードアップを達成する。 384から4096までの異なるシーケンス長の様々なドメインのタスクに対する完全な注意機構でパー精度を達成するには、事前訓練されたモデルからいくつかの微調整エポックしか必要ありません。

Transformers are becoming the mainstream solutions for various tasks like NLP and Computer vision. Despite their success, the high complexity of the attention mechanism hinders them from being applied to latency-sensitive tasks. Tremendous efforts have been made to alleviate this problem, and many of them successfully reduce the asymptotic complexity to linear. Nevertheless, most of them fail to achieve practical speedup over the original full attention under moderate sequence lengths and are unfriendly to finetuning. In this paper, we present DFSS, an attention mechanism that dynamically prunes the full attention weight matrix to N:M fine-grained structured sparse pattern. We provide both theoretical and empirical evidence that demonstrates DFSS is a good approximation of the full attention mechanism. We propose a dedicated CUDA kernel design that completely eliminates the dynamic pruning overhead and achieves speedups under arbitrary sequence length. We evaluate the 1:2 and 2:4 sparsity under different configurations and achieve 1.27~ 1.89x speedups over the full-attention mechanism. It only takes a couple of finetuning epochs from the pretrained model to achieve on par accuracy with full attention mechanism on tasks from various domains under different sequence lengths from 384 to 4096.
翻訳日:2022-03-02 14:54:14 公開日:2022-02-28
# ERF:スクラッチからの放射場再構成

ERF: Explicit Radiance Field Reconstruction From Scratch ( http://arxiv.org/abs/2203.00051v1 )

ライセンス: Link先を確認
Samir Aroudj and Steven Lovegrove and Eddy Ilg and Tanner Schmidt and Michael Goesele and Richard Newcombe(参考訳) センサポーズとキャリブレーションを用いてシーンの一連の画像を処理し,フォトリアルデジタルモデルを推定する,新しい明快な3次元再構成手法を提案する。 重要なイノベーションの1つは、基盤となるボリューム表現が、ニューラルネットワークベースの代替(シンプル)とは対照的に完全に明示的であることです。 最適化変数の明確かつ理解可能なマッピングをシーン幾何学とその外面放射率に用いたシーンを明示的にエンコードする。 疎 voxel octree に格納された階層型ボリュームフィールドを用いて表現する。 登録されたシーン画像から無数の未知変数でそのようなボリュームシーンモデルをロバストに再構築することは、非常に非凸で複雑な最適化問題である。 この目的のために、逆微分可能なレンダラーで操る確率勾配降下(Adam)を用いる。 提案手法は,最先端の暗黙的手法に匹敵する高品質のモデルを再構築できることを実証する。 重要なことは、個々のステップが前の段階からの不完全または信頼できない情報に悩まされるようなシーケンシャルな再構築パイプラインは使用しないが、地上から遠く離れたシーン幾何学と放射率で統一された初期解から最適化を開始する。 我々の方法が一般的で実用的であることを示す。 撮影には高度に制御された実験室のセットアップは必要ないが、屋外の植物や毛皮のような挑戦的なものを含む、幅広い種類の物体でシーンを再構築することができる。 最後に,その明示的な設計により,再構成されたシーンモデルは多用途である。 それらはインタラクティブに編集できるので、暗黙の代替には計算コストがかかりすぎる。

We propose a novel explicit dense 3D reconstruction approach that processes a set of images of a scene with sensor poses and calibrations and estimates a photo-real digital model. One of the key innovations is that the underlying volumetric representation is completely explicit in contrast to neural network-based (implicit) alternatives. We encode scenes explicitly using clear and understandable mappings of optimization variables to scene geometry and their outgoing surface radiance. We represent them using hierarchical volumetric fields stored in a sparse voxel octree. Robustly reconstructing such a volumetric scene model with millions of unknown variables from registered scene images only is a highly non-convex and complex optimization problem. To this end, we employ stochastic gradient descent (Adam) which is steered by an inverse differentiable renderer. We demonstrate that our method can reconstruct models of high quality that are comparable to state-of-the-art implicit methods. Importantly, we do not use a sequential reconstruction pipeline where individual steps suffer from incomplete or unreliable information from previous stages, but start our optimizations from uniformed initial solutions with scene geometry and radiance that is far off from the ground truth. We show that our method is general and practical. It does not require a highly controlled lab setup for capturing, but allows for reconstructing scenes with a vast variety of objects, including challenging ones, such as outdoor plants or furry toys. Finally, our reconstructed scene models are versatile thanks to their explicit design. They can be edited interactively which is computationally too costly for implicit alternatives.
翻訳日:2022-03-02 14:48:50 公開日:2022-02-28
# 3次元網膜oct画像登録のための最適トランスポート型グラフマッチング

Optimal Transport-based Graph Matching for 3D retinal OCT image registration ( http://arxiv.org/abs/2203.00069v1 )

ライセンス: Link先を確認
Xin Tian, Nantheera Anantrasirichai, Lindsay Nicholson, Alin Achim(参考訳) 縦型光コヒーレンス断層撮影(oct)画像の登録は疾患のモニタリングを補助し,画像融合に必須である。 マウス網膜OCT画像は、ぶどう膜炎などの眼疾患モデルの縦断的研究のために収集されることが多いが、人間の画像と比較すると品質は劣っていることが多い。 本稿では、3DマウスOCT画像登録のための最適なトランスポートベースグラフマッチング(OT-GM)手法を含む,斬新だが効率的なフレームワークを提案する。 まず,これらに直交する平面上に,体積のすべてのbスキャンを投影することにより得られるダウス様画像の登録を行う。 適応重み付き容器グラフ記述器 (AWVGD) と3次元立方体記述器 (CD) を導入し, OCT投影画像内のセグメント化された容器から抽出したグラフのノード間の対応を同定する。 AWVGDは、スケーリング、翻訳、回転を含むが、CDは3D空間および周波数領域情報を利用する。 OT-GM法はその後、x-y平面上で正しいアライメントを行う。 最後に、x-y平面(z方向)に直交する方向に沿っての登録は、マウスbスキャンに特有の2つの重要な解剖学的特徴、内部制限膜(ILM)およびヒアロイド残基(HR)のセグメンテーションによって誘導される。 主観的および客観的評価の結果は,本フレームワークがマウスOCT画像上で,適切な実行時間内で,他の確立された手法よりも優れていることを示す。

Registration of longitudinal optical coherence tomography (OCT) images assists disease monitoring and is essential in image fusion applications. Mouse retinal OCT images are often collected for longitudinal study of eye disease models such as uveitis, but their quality is often poor compared with human imaging. This paper presents a novel but efficient framework involving an optimal transport based graph matching (OT-GM) method for 3D mouse OCT image registration. We first perform registration of fundus-like images obtained by projecting all b-scans of a volume on a plane orthogonal to them, hereafter referred to as the x-y plane. We introduce Adaptive Weighted Vessel Graph Descriptors (AWVGD) and 3D Cube Descriptors (CD) to identify the correspondence between nodes of graphs extracted from segmented vessels within the OCT projection images. The AWVGD comprises scaling, translation and rotation, which are computationally efficient, whereas CD exploits 3D spatial and frequency domain information. The OT-GM method subsequently performs the correct alignment in the x-y plane. Finally, registration along the direction orthogonal to the x-y plane (the z-direction) is guided by the segmentation of two important anatomical features peculiar to mouse b-scans, the Internal Limiting Membrane (ILM) and the hyaloid remnant (HR). Both subjective and objective evaluation results demonstrate that our framework outperforms other well-established methods on mouse OCT images within a reasonable execution time.
翻訳日:2022-03-02 14:48:27 公開日:2022-02-28
# BlazeNeo:高速ポリープセグメンテーションと腫瘍検出

BlazeNeo: Blazing fast polyp segmentation and neoplasm detection ( http://arxiv.org/abs/2203.00129v1 )

ライセンス: Link先を確認
Nguyen Sy An, Phan Ngoc Lan, Dao Viet Hang, Dao Van Long, Tran Quang Trung, Nguyen Thi Thuy, Dinh Viet Sang(参考訳) 近年,コンピュータ支援型自動ポリープ分画と腫瘍検出が医療画像解析において新たな話題となり,大腸内視鏡検査に有用である。 ポリープ検出とセグメンテーションの精度を向上させるために注意が払われている。 しかしながら、これらのタスクを専用のデバイスで実行するためのレイテンシとスループットにはあまり注目されていない。 本稿では,精度を維持しつつ,コンパクト性と速度を重視したポリプセグメンテーションと新生物検出の課題として,blazeneoと呼ばれる新しい深層ニューラルネットワークアーキテクチャを提案する。 このモデルは、計算効率のために軽量な受容場ブロックと高効率なハードネットバックボーン、および補助訓練機構を併用して、セグメンテーション品質のトレーニングデータを最大限活用する。 挑戦的なデータセットに関する実験では、blazeneoは最先端のメソッドと同等の精度を維持しながら、レイテンシとモデルサイズの改善を実現しています。 INT8の精度でJetson AGX Xavierエッジデバイスにデプロイすると、BlazeNeoは155fps以上を達成し、比較したすべてのメソッドで最高の精度が得られる。

In recent years, computer-aided automatic polyp segmentation and neoplasm detection have been an emerging topic in medical image analysis, providing valuable support to colonoscopy procedures. Attentions have been paid to improving the accuracy of polyp detection and segmentation. However, not much focus has been given to latency and throughput for performing these tasks on dedicated devices, which can be crucial for practical applications. This paper introduces a novel deep neural network architecture called BlazeNeo, for the task of polyp segmentation and neoplasm detection with an emphasis on compactness and speed while maintaining high accuracy. The model leverages the highly efficient HarDNet backbone alongside lightweight Receptive Field Blocks for computational efficiency, and an auxiliary training mechanism to take full advantage of the training data for the segmentation quality. Our experiments on a challenging dataset show that BlazeNeo achieves improvements in latency and model size while maintaining comparable accuracy against state-of-the-art methods. When deploying on the Jetson AGX Xavier edge device in INT8 precision, our BlazeNeo achieves over 155 fps while yielding the best accuracy among all compared methods.
翻訳日:2022-03-02 14:47:57 公開日:2022-02-28
# 高品質フレーム補間のためのクロスビデオニューラル表現の学習

Learning Cross-Video Neural Representations for High-Quality Frame Interpolation ( http://arxiv.org/abs/2203.00137v1 )

ライセンス: Link先を確認
Wentao Shangguan, Yu Sun, Weijie Gan, Ulugbek S. Kamilov(参考訳) 本稿では,隣接する2種類の映像フレームを合成することを目的として,時間的映像補間の問題を考える。 ニューラルフィールド(NF)に基づく最初のビデオ補間法として、Cross-Video Neural Representation (CURE)を提案する。 NFは、コンピュータビジョン全体で広く成功し応用されている複雑な3Dシーンの神経表現のための最近の手法のクラスを指す。 CUREは、映像を座標ベースニューラルネットワークによってパラメータ化された連続関数として表現し、その入力は時空間座標であり、出力は対応するRGB値である。 CUREは、合成ビデオの時空間一貫性を損なうために、入力フレーム上にニューラルネットワークを条件付ける新しいアーキテクチャを導入する。 これにより、最終的な補間品質が向上するだけでなく、CUREは複数のビデオ間で事前学習が可能になる。 実験的評価により,CUREは複数のベンチマークデータセット上での映像補間における最先端の性能を達成することが示された。

This paper considers the problem of temporal video interpolation, where the goal is to synthesize a new video frame given its two neighbors. We propose Cross-Video Neural Representation (CURE) as the first video interpolation method based on neural fields (NF). NF refers to the recent class of methods for the neural representation of complex 3D scenes that has seen widespread success and application across computer vision. CURE represents the video as a continuous function parameterized by a coordinate-based neural network, whose inputs are the spatiotemporal coordinates and outputs are the corresponding RGB values. CURE introduces a new architecture that conditions the neural network on the input frames for imposing space-time consistency in the synthesized video. This not only improves the final interpolation quality, but also enables CURE to learn a prior across multiple videos. Experimental evaluations show that CURE achieves the state-of-the-art performance on video interpolation on several benchmark datasets.
翻訳日:2022-03-02 14:47:35 公開日:2022-02-28
# コンピュータ断層撮影に先立つ確率的深部画像

A Probabilistic Deep Image Prior for Computational Tomography ( http://arxiv.org/abs/2203.00479v1 )

ライセンス: Link先を確認
Javier Antor\'an, Riccardo Barbano, Johannes Leuschner, Jos\'e Miguel Hern\'andez-Lobato, Bangti Jin(参考訳) 既存のディープラーニングに基づくトモグラフィ画像再構成手法では,再現の不確かさの正確な推定は行わず,実際の展開を妨げている。 この制限に対処するために,古典的全変動(TV)正規化器と現代の深部画像先行処理(DIP)を組み合わせたトモグラフィ再構成のためのベイジアンを構築する。 具体的には、画像tvセミノルム上の以前の信念とディップネットワークのハイパーパラメータを結びつけるために、変数の変更を使用します。 本研究では,高次元設定にスケーラブルな線形ラプラス法(線形ラプラス法)に基づく手法を開発した。 結果として得られるフレームワークは、画素ワイドの不確実性推定と、ハイパーパラメータ最適化の限界的目標を提供する。 合成および実測高分解能$\mu$CTデータを用いて, 従来のDIPの確率的定式化と比較して, 不確実性推定のキャリブレーションが優れていることを示す。

Existing deep-learning based tomographic image reconstruction methods do not provide accurate estimates of reconstruction uncertainty, hindering their real-world deployment. To address this limitation, we construct a Bayesian prior for tomographic reconstruction, which combines the classical total variation (TV) regulariser with the modern deep image prior (DIP). Specifically, we use a change of variables to connect our prior beliefs on the image TV semi-norm with the hyper-parameters of the DIP network. For the inference, we develop an approach based on the linearised Laplace method, which is scalable to high-dimensional settings. The resulting framework provides pixel-wise uncertainty estimates and a marginal likelihood objective for hyperparameter optimisation. We demonstrate the method on synthetic and real-measured high-resolution $\mu$CT data, and show that it provides superior calibration of uncertainty estimates relative to previous probabilistic formulations of the DIP.
翻訳日:2022-03-02 14:29:28 公開日:2022-02-28
# Pseudo-LiDARを用いたディープカメラポース回帰

Deep Camera Pose Regression Using Pseudo-LiDAR ( http://arxiv.org/abs/2203.00080v1 )

ライセンス: Link先を確認
Ali Raza, Lazar Lolic, Shahmir Akhter, Alfonso Dela Cruz, Michael Liut(参考訳) 高精度でロバストな大規模ローカライゼーションシステムは、自動運転車や拡張現実といった研究の活発な領域に不可欠な要素である。 この目的のために、RGBまたはRGB-D画像から6DOFカメラのポーズを予測する多くの学習アルゴリズムが提案されている。 しかし、ディープを組み込んだ従来の方法は、通常、RGBイメージと同じ方法でデータを扱い、しばしば深度マップをRGBイメージに追加のチャネルとして追加し、畳み込みニューラルネットワーク(CNN)に渡す。 本稿では,従来3次元物体検出に有用であった擬似LiDAR信号への深度マップの変換が,6DOFカメラのポーズを正確に決定できる点雲を投影することで,カメラのローカライゼーションタスクのより良い表現であることを示す。 これはまず、擬似LiDAR表現のみで動作するネットワークのローカライズ精度と、深度マップのみで動作するネットワークを比較した。 次に、疑似LiDARを使って6DOFカメラのポーズを回帰する新しいアーキテクチャFusionLocを提案する。 FusionLocはデュアルストリームニューラルネットワークで、RGB-Dイメージで動作する典型的な2D CNNの一般的な問題を改善することを目的としている。 このアーキテクチャの結果は、7シーンのデータセットを使用して、さまざまな最先端のディープポーズ回帰実装と比較される。 その結果、fusionlocは他の多くのカメラローカライズ法よりも性能が良く、rgb-d posenetよりも平均 0.33m と 4.35{\deg} の精度が向上した。 深度マップ上での擬似LiDAR信号のローカライゼーションの有効性を証明することによって,大規模ローカライゼーションシステムの実装において新たな考察がなされた。

An accurate and robust large-scale localization system is an integral component for active areas of research such as autonomous vehicles and augmented reality. To this end, many learning algorithms have been proposed that predict 6DOF camera pose from RGB or RGB-D images. However, previous methods that incorporate depth typically treat the data the same way as RGB images, often adding depth maps as additional channels to RGB images and passing them through convolutional neural networks (CNNs). In this paper, we show that converting depth maps into pseudo-LiDAR signals, previously shown to be useful for 3D object detection, is a better representation for camera localization tasks by projecting point clouds that can accurately determine 6DOF camera pose. This is demonstrated by first comparing localization accuracies of a network operating exclusively on pseudo-LiDAR representations, with networks operating exclusively on depth maps. We then propose FusionLoc, a novel architecture that uses pseudo-LiDAR to regress a 6DOF camera pose. FusionLoc is a dual stream neural network, which aims to remedy common issues with typical 2D CNNs operating on RGB-D images. The results from this architecture are compared against various other state-of-the-art deep pose regression implementations using the 7 Scenes dataset. The findings are that FusionLoc performs better than a number of other camera localization methods, with a notable improvement being, on average, 0.33m and 4.35{\deg} more accurate than RGB-D PoseNet. By proving the validity of using pseudo-LiDAR signals over depth maps for localization, there are new considerations when implementing large-scale localization systems.
翻訳日:2022-03-02 14:28:37 公開日:2022-02-28
# バイナリモデルとアクティブサンプリングを用いた画像データラベリングのリアルタイム戦略

Realtime strategy for image data labelling using binary models and active sampling ( http://arxiv.org/abs/2203.00439v1 )

ライセンス: Link先を確認
Ankush Deshmukh, Bhargava B C, A V Narasimhadhan(参考訳) 機械学習(ML)とディープラーニング(DL)のタスクは、主にデータに依存する。 MLおよびDLアプリケーションのほとんどは、ラベル付きデータを必要とする教師あり学習を含んでいる。 ML領域の初期の段階では、以前はデータ不足が問題だったため、現在ではビッグデータの新しい時代にあります。 教師付きMLアルゴリズムは、ラベル付けされ、高品質なデータを必要とする。 ラベル付け作業には多額の資金と時間的投資が必要です。 データラベリングには、このタスクに高い料金を請求する熟練者が必要であり、医療分野の場合や、ラベルを付けるのに多くの人を必要とするデータが大量に含まれている場合を考える必要がある。 トレーニングに十分な十分なデータ量を知る必要があり、データ全体をラベル付けるためにお金と時間を無駄にすることはできない。 本稿では主に,オラクルとともにリアルタイムにデータのラベル付けを支援する戦略を提案する。 ラベル付けのためのモデルコントリビューションのバランシングは、それぞれ家具タイプとインテルシーン画像データセットの89と81.1である。 さらに, モデル寄与の抑制によるバランスは, 家具の種類別と花データ別では83.47, 78.71であった。

Machine learning (ML) and Deep Learning (DL) tasks primarily depend on data. Most of the ML and DL applications involve supervised learning which requires labelled data. In the initial phases of ML realm lack of data used to be a problem, now we are in a new era of big data. The supervised ML algorithms require data to be labelled and of good quality. Labelling task requires a large amount of money and time investment. Data labelling require a skilled person who will charge high for this task, consider the case of the medical field or the data is in bulk that requires a lot of people assigned to label it. The amount of data that is well enough for training needs to be known, money and time can not be wasted to label the whole data. This paper mainly aims to propose a strategy that helps in labelling the data along with oracle in real-time. With balancing on model contribution for labelling is 89 and 81.1 for furniture type and intel scene image data sets respectively. Further with balancing being kept off model contribution is found to be 83.47 and 78.71 for furniture type and flower data sets respectively.
翻訳日:2022-03-02 14:26:33 公開日:2022-02-28
# 最適化に基づく因果効果の推定 : レビューと経験的比較

Estimating causal effects with optimization-based methods: A review and empirical comparison ( http://arxiv.org/abs/2203.00097v1 )

ライセンス: Link先を確認
Martin Cousineau, Vedat Verter, Susan A. Murphy, Joelle Pineau(参考訳) ランダム化制御と自然実験の欠如においては、対象群と対照群の(観察可能な)共変量の分布をバランスさせ、利害の因果効果の偏りのない推定を得る必要がある。 このバランスを達成するために、様々な方法が存在する。 特に, 因果推論文献において最適化モデルに基づく手法が最近提案されている。 これらの最適化に基づく手法は,共変量分布のバランスと因果効果の見積を行う相対的能力において,限られた数の因果推論法に比較して改善を経験的に示したが,それらが相互に徹底的に比較されたわけではなく,他の注目すべき因果推論法と比較された。 さらに,因果推論ツールを用いた応用研究者の利益のために,運用研究者が最適化に関する高度な知識に貢献できる未対応の機会がいくつか存在すると信じている。 本稿では,因果推論の文献を概観し,最適化に基づく因果推論法の詳細を述べるとともに,広く普及している最適化に基づく手法の比較分析を行い,新しい手法の機会について考察する。

In the absence of randomized controlled and natural experiments, it is necessary to balance the distributions of (observable) covariates of the treated and control groups in order to obtain an unbiased estimate of a causal effect of interest; otherwise, a different effect size may be estimated, and incorrect recommendations may be given. To achieve this balance, there exist a wide variety of methods. In particular, several methods based on optimization models have been recently proposed in the causal inference literature. While these optimization-based methods empirically showed an improvement over a limited number of other causal inference methods in their relative ability to balance the distributions of covariates and to estimate causal effects, they have not been thoroughly compared to each other and to other noteworthy causal inference methods. In addition, we believe that there exist several unaddressed opportunities that operational researchers could contribute with their advanced knowledge of optimization, for the benefits of the applied researchers that use causal inference tools. In this review paper, we present an overview of the causal inference literature and describe in more detail the optimization-based causal inference methods, provide a comparative analysis of the prevailing optimization-based methods, and discuss opportunities for new methods.
翻訳日:2022-03-02 14:26:16 公開日:2022-02-28
# マルチタスク学習は、ヒストロジー画像のセグメンテーションと分類を同時に可能にする

One Model is All You Need: Multi-Task Learning Enables Simultaneous Histology Image Segmentation and Classification ( http://arxiv.org/abs/2203.00077v1 )

ライセンス: Link先を確認
Simon Graham, Quoc Dang Vu, Mostafa Jahanifar, Fayyaz Minhas, David Snead and Nasir Rajpoot(参考訳) 最近のデジタル化病理スライドの画像解析のパフォーマンスの上昇は、深層学習の進歩によるものと考えられる。 深層モデルは、組織内の様々な構造を最初に局在させることで、バイオマーカーの発見のための解釈可能な特徴の抽出を容易にする。 しかしながら、これらのモデルは通常、単一のタスクのためにトレーニングされているため、さまざまなタスクにモデルを適応したいと願っているため、スケールが悪くなります。 また、教師付きディープラーニングモデルは、非常にデータに飢えているため、十分なトレーニングデータに依存している。 本稿では,複数の独立したデータソースからのデータを活用する,核,腺,腔および組織領域の分割と分類のためのマルチタスク学習手法を提案する。 タスクが同じ組織タイプと解像度で一致していることを保証する一方で、単一のネットワークで同時予測を可能にします。 また,特徴共有の結果,核分類やシグナレットリング細胞検出などの下流作業を改善するために,学習した表現が利用できることを示した。 この作業の一環として、セグメント化のための600Kオブジェクトと分類のための440Kパッチからなる大規模なデータセットを使用して、データを公開しています。 599枚の全スライディング画像からなるTCGAの大腸サブセットを,それぞれ377万,900万,2100万の核,腺,ルーメンの局在化に利用した。 計算病理学における説明可能なモデルの開発において,大きな障壁を取り除くために,このリソースを利用できるようにした。

The recent surge in performance for image analysis of digitised pathology slides can largely be attributed to the advance of deep learning. Deep models can be used to initially localise various structures in the tissue and hence facilitate the extraction of interpretable features for biomarker discovery. However, these models are typically trained for a single task and therefore scale poorly as we wish to adapt the model for an increasing number of different tasks. Also, supervised deep learning models are very data hungry and therefore rely on large amounts of training data to perform well. In this paper we present a multi-task learning approach for segmentation and classification of nuclei, glands, lumen and different tissue regions that leverages data from multiple independent data sources. While ensuring that our tasks are aligned by the same tissue type and resolution, we enable simultaneous prediction with a single network. As a result of feature sharing, we also show that the learned representation can be used to improve downstream tasks, including nuclear classification and signet ring cell detection. As part of this work, we use a large dataset consisting of over 600K objects for segmentation and 440K patches for classification and make the data publicly available. We use our approach to process the colorectal subset of TCGA, consisting of 599 whole-slide images, to localise 377 million, 900K and 2.1 million nuclei, glands and lumen respectively. We make this resource available to remove a major barrier in the development of explainable models for computational pathology.
翻訳日:2022-03-02 14:21:30 公開日:2022-02-28
# ステレオビジョンのための正交相同性:最小歪みの解析解

Rectifying homographies for stereo vision: analytical solution for minimal distortion ( http://arxiv.org/abs/2203.00123v1 )

ライセンス: Link先を確認
Pasquale Lafiosca and Marta Ceccaroni(参考訳) ステレオ補正は、2つの画像上の対応する点、つまり3次元空間の同じ点の投影を変換された画像の同じ水平線にマッピングする2つの画像変換(ホモグラフ)を決定したものである。 正則化は、その後のステレオ対応問題を単純化し、マッチングプロセスを高速化するために用いられる。 定形化変換は一般に、得られた画像に視点歪みを導入し、ステレオ対応問題に対処する次のアルゴリズムの精度を向上させるために最小化する。 最適変換の探索は通常、数値最適化に依存する。 本研究は視点歪みを最小化する正則ホモグラフに対する閉形式解を提案する。 実験による比較により,従来の定式化の収束問題を解く能力が確認された。 Pythonの実装が提供されている。

Stereo rectification is the determination of two image transformations (or homographies) that map corresponding points on the two images, projections of the same point in the 3D space, onto the same horizontal line in the transformed images. Rectification is used to simplify the subsequent stereo correspondence problem and speeding up the matching process. Rectifying transformations, in general, introduce perspective distortion on the obtained images, which shall be minimised to improve the accuracy of the following algorithm dealing with the stereo correspondence problem. The search for the optimal transformations is usually carried out relying on numerical optimisation. This work proposes a closed-form solution for the rectifying homographies that minimise perspective distortion. The experimental comparison confirms its capability to solve the convergence issues of the previous formulation. Its Python implementation is provided.
翻訳日:2022-03-02 14:18:59 公開日:2022-02-28
# 医用画像分割のためのマルチスケール変換器:アーキテクチャ,モデル効率,ベンチマーク

A Multi-scale Transformer for Medical Image Segmentation: Architectures, Model Efficiency, and Benchmarks ( http://arxiv.org/abs/2203.00131v1 )

ライセンス: Link先を確認
Yunhe Gao, Mu Zhou, Di Liu, Dimitris Metaxas(参考訳) トランスフォーマーは多くの自然言語処理や視覚タスクで成功しているように見えてきたが、医療画像への潜在的な応用は、この分野の独特な難しさのために、未発見のままである。 本研究では,医用画像セグメンテーションの性能と効率を向上させるために,畳み込みニューラルネットワークとTransformerの強みを組み合わせたシンプルなバックボーンモデルUTNetV2を提案する。 utnetv2のクリティカルな設計には,(1)トランスブロック内の投影とフィードフォワードネットワークに深さ分離可能な畳み込みを導入することで,cnn(translation invariance)の局所的関係モデリングと望ましい特性をトランスフォーマにもたらし,大規模事前トレーニングの必要性をなくす,ハイブリッド階層アーキテクチャを用いた3つの革新が含まれている。 2) 適応的に更新されたセマンティックマップを導入することにより, 自己注意の2次計算複雑性を線形に低減する効率的な双方向注意(B-MHA)を提案する。 効率的な注意により、高解像度のトークンマップにおける長距離関係を捕捉し、きめ細かい誤差を修正することができる。 (3)B-MHAのセマンティックマップは,計算オーバーヘッドを伴わずに,意味的かつ空間的に多スケールな機能融合を実現できる。 さらに,様々な医用画像分割タスクに基づくcnnとtransformerの比較コードベースを提供し,両アーキテクチャのメリットと欠点を評価した。 UTNetV2は、大規模データセット、小規模データセット、2Dおよび3D設定など、さまざまな設定における最先端のパフォーマンスをデモした。

Transformers have emerged to be successful in a number of natural language processing and vision tasks, but their potential applications to medical imaging remain largely unexplored due to the unique difficulties of this field. In this study, we present UTNetV2, a simple yet powerful backbone model that combines the strengths of the convolutional neural network and Transformer for enhancing performance and efficiency in medical image segmentation. The critical design of UTNetV2 includes three innovations: (1) We used a hybrid hierarchical architecture by introducing depthwise separable convolution to projection and feed-forward network in the Transformer block, which brings local relationship modeling and desirable properties of CNNs (translation invariance) to Transformer, thus eliminate the requirement of large-scale pre-training. (2) We proposed efficient bidirectional attention (B-MHA) that reduces the quadratic computation complexity of self-attention to linear by introducing an adaptively updated semantic map. The efficient attention makes it possible to capture long-range relationship and correct the fine-grained errors in high-resolution token maps. (3) The semantic maps in the B-MHA allow us to perform semantically and spatially global multi-scale feature fusion without introducing much computational overhead. Furthermore, we provide a fair comparison codebase of CNN-based and Transformer-based on various medical image segmentation tasks to evaluate the merits and defects of both architectures. UTNetV2 demonstrated state-of-the-art performance across various settings, including large-scale datasets, small-scale datasets, 2D and 3D settings.
翻訳日:2022-03-02 14:18:46 公開日:2022-02-28
# Representation Codebook を用いたマルチモーダルアライメント

Multi-modal Alignment using Representation Codebook ( http://arxiv.org/abs/2203.00048v1 )

ライセンス: Link先を確認
Jiali Duan, Liqun Chen, Son Tran, Jinyu Yang, Yi Xu, Belinda Zeng, Chenyang Tao, Trishul Chilimbi(参考訳) 異なるモダリティからの信号の調整は、クロスモダリティ融合のような後段のパフォーマンスに影響を与えるため、視覚言語表現学習の重要なステップである。 画像とテキストは通常、機能空間の異なる領域に存在するため、特にトレーニング中に機能がまだ進化している場合、インスタンスレベルで直接整列することは困難である。 本稿では,クラスタ表現を用いて,より高い,より安定したレベルに整列することを提案する。 具体的には、画像とテキストを同一エンティティの2つの「ビュー」として扱い、それらをクラスタセンター辞書(コードブック)にまたがる共同視覚言語符号化空間にエンコードする。 クラスタ割り当てを同時に最適化しながら,正と負のサンプルをクラスタ割り当てで比較する。 さらに, 学習プロセスを円滑にするために, 教師・生徒の蒸留パラダイムを採用し, 一つの視点のモーメント教師が生徒の学習を指導する。 我々は,共通ビジョン言語ベンチマークに対するアプローチを評価し,他の様々なトランスファータスクと競合しながら,ゼロショットのクロスモーダル検索において新しいSoTAを得る。

Aligning signals from different modalities is an important step in vision-language representation learning as it affects the performance of later stages such as cross-modality fusion. Since image and text typically reside in different regions of the feature space, directly aligning them at instance level is challenging especially when features are still evolving during training. In this paper, we propose to align at a higher and more stable level using cluster representation. Specifically, we treat image and text as two "views" of the same entity, and encode them into a joint vision-language coding space spanned by a dictionary of cluster centers (codebook). We contrast positive and negative samples via their cluster assignments while simultaneously optimizing the cluster centers. To further smooth out the learning process, we adopt a teacher-student distillation paradigm, where the momentum teacher of one view guides the student learning of the other. We evaluated our approach on common vision language benchmarks and obtain new SoTA on zero-shot cross modality retrieval while being competitive on various other transfer tasks.
翻訳日:2022-03-02 13:56:15 公開日:2022-02-28
# 遠方性時空間グラフ生成モデル

Disentangled Spatiotemporal Graph Generative Models ( http://arxiv.org/abs/2203.00411v1 )

ライセンス: Link先を確認
Yuanqi Du and Xiaojie Guo and Hengning Cao and Yanfang Ye and Liang Zhao(参考訳) 時空間グラフは、ノードとエッジが幾何学空間に埋め込まれ、時間とともに動的に進化できる重要なデータ構造である。 現在、時空間グラフデータは、マイクロスケール(タンパク質の折り畳みなど)から中規模(動的機能接続など)、マクロスケール(人間のモビリティネットワークなど)まで、ますます人気と重要性を増している。 空間的・時間的・グラフ的側面間の相関関係の曖昧化と理解は、ネットワーク科学における長年の重要なトピックであるが、それらは人間の知識によって仮定されたネットワーク処理に依存している。 これは通常、事前に定義できるグラフプロパティにうまく適合するが、ほとんどの場合、特にタンパク質の折りたたみや生物学的ニューロンネットワークのような非常に限られた知識を持っている多くのキードメインではうまく機能しない。 本稿では,新しい非絡み合った深部生成モデルを用いて,時空間グラフのモデリングと理解を推し進めることを目的とする。 具体的には、時空間グラフを空間的、時空間的、グラフ的要素に分解し、それらの相互作用を説明する新しいベイズモデルを提案する。 情報ボトルネック理論によって駆動される変分目的関数と新たな相互情報しきい値決定アルゴリズムが提案され,理論的保証のある要因間の絡み合いを最大化する。 合成と実世界の両方のデータセットの質的および定量的な実験は、提案されたモデルが最先端のモデルよりも69.2%、解釈可能性41.5%まで優れていることを示した。

Spatiotemporal graph represents a crucial data structure where the nodes and edges are embedded in a geometric space and can evolve dynamically over time. Nowadays, spatiotemporal graph data is becoming increasingly popular and important, ranging from microscale (e.g. protein folding), to middle-scale (e.g. dynamic functional connectivity), to macro-scale (e.g. human mobility network). Although disentangling and understanding the correlations among spatial, temporal, and graph aspects have been a long-standing key topic in network science, they typically rely on network processing hypothesized by human knowledge. This usually fit well towards the graph properties which can be predefined, but cannot do well for the most cases, especially for many key domains where the human has yet very limited knowledge such as protein folding and biological neuronal networks. In this paper, we aim at pushing forward the modeling and understanding of spatiotemporal graphs via new disentangled deep generative models. Specifically, a new Bayesian model is proposed that factorizes spatiotemporal graphs into spatial, temporal, and graph factors as well as the factors that explain the interplay among them. A variational objective function and new mutual information thresholding algorithms driven by information bottleneck theory have been proposed to maximize the disentanglement among the factors with theoretical guarantees. Qualitative and quantitative experiments on both synthetic and real-world datasets demonstrate the superiority of the proposed model over the state-of-the-arts by up to 69.2% for graph generation and 41.5% for interpretability.
翻訳日:2022-03-02 13:52:58 公開日:2022-02-28
# 単調制約による解釈可能な分子グラフ生成

Interpretable Molecular Graph Generation via Monotonic Constraints ( http://arxiv.org/abs/2203.00412v1 )

ライセンス: Link先を確認
Yuanqi Du and Xiaojie Guo and Amarda Shehu and Liang Zhao(参考訳) 特定の性質を持つ分子を設計することは長い研究課題であり、創薬や物質科学のような重要な領域の進歩の中心である。 深層グラフ生成モデルの最近の進歩は、分子設計をグラフ生成問題として扱い、この長期的問題の突破口となる新しい機会を提供する。 しかし、既存のモデルには多くの欠点があり、解釈性や所望の分子特性に対する制御性が低い。 本稿では,新しい単調なグラフ変分オートエンコーダを提案することにより,解釈可能かつ制御可能な深部生成モデルを用いた分子生成の新しい手法を提案する。 提案したモデルは、潜伏変数を持つ分子を表現し、多項式関数によってパラメータ化された分子の性質とそれらの対応を学習する。 分子生成の予測可能性と制御性をさらに向上させるため、いくつかの潜在変数と毒性やclogpなどの標的分子特性の関係の単調性をさらに強制する新たな目的を導出する。 広範な実験評価により,提案手法の精度,新規性,不連続性,所望の分子特性に対する制御性が実証された。 コードはhttps://anonymous.4o pen.science/r/MDVAE- FD2Cで公開されている。

Designing molecules with specific properties is a long-lasting research problem and is central to advancing crucial domains such as drug discovery and material science. Recent advances in deep graph generative models treat molecule design as graph generation problems which provide new opportunities toward the breakthrough of this long-lasting problem. Existing models, however, have many shortcomings, including poor interpretability and controllability toward desired molecular properties. This paper focuses on new methodologies for molecule generation with interpretable and controllable deep generative models, by proposing new monotonically-regula rized graph variational autoencoders. The proposed models learn to represent the molecules with latent variables and then learn the correspondence between them and molecule properties parameterized by polynomial functions. To further improve the intepretability and controllability of molecule generation towards desired properties, we derive new objectives which further enforce monotonicity of the relation between some latent variables and target molecule properties such as toxicity and clogP. Extensive experimental evaluation demonstrates the superiority of the proposed framework on accuracy, novelty, disentanglement, and control towards desired molecular properties. The code is open-source at https://anonymous.4o pen.science/r/MDVAE- FD2C.
翻訳日:2022-03-02 13:52:32 公開日:2022-02-28
# 画像生成のためのsemantic-aware upsamplingを用いたローカルおよびグローバルgan

Local and Global GANs with Semantic-Aware Upsampling for Image Generation ( http://arxiv.org/abs/2203.00047v1 )

ライセンス: Link先を確認
Hao Tang, Ling Shao, Philip H.S. Torr, Nicu Sebe(参考訳) 本稿では,セマンティック誘導画像生成の課題について述べる。 既存のイメージレベル生成手法に共通する課題のひとつは、小さなオブジェクトや詳細なローカルテクスチャの生成が難しいことだ。 これに対処するため、本研究ではローカルコンテキストを用いた画像生成について検討する。 そこで我々は、意味マップをガイダンスとして使用した局所クラス固有の生成ネットワークを設計し、異なるクラスに対するサブジェネレータを別々に構築し、学習することにより、より詳細な情報を取得することができる。 局所生成のためのクラス固有の特徴表現をより識別するために,新しい分類モジュールを提案する。 グローバル画像レベルとローカルクラス固有生成の両方の利点を両立させるため、アテンション融合モジュールとデュアル判別器構造を組み込んだジョイントジェネレーションネットワークを設計する。 最後に,より広い受容領域を持ち,機能アップサンプリングにセマンティックに関連のある遠方画素を取り込み,同じセマンティックラベルを持つインスタンスに対するセマンティック一貫性をよりよく維持することのできる,セマンティック・アウェア・アップサンプリング手法を提案する。 2つの画像生成タスクに関する広範囲な実験により,提案手法の性能が向上した。 最先端の結果は、両方のタスクと9つの挑戦的な公開ベンチマークにおいて大きなマージンで確立されている。 ソースコードとトレーニングされたモデルはhttps://github.com/H a0Tang/LGGANで公開されている。

In this paper, we address the task of semantic-guided image generation. One challenge common to most existing image-level generation methods is the difficulty in generating small objects and detailed local textures. To address this, in this work we consider generating images using local context. As such, we design a local class-specific generative network using semantic maps as guidance, which separately constructs and learns subgenerators for different classes, enabling it to capture finer details. To learn more discriminative class-specific feature representations for the local generation, we also propose a novel classification module. To combine the advantages of both global image-level and local class-specific generation, a joint generation network is designed with an attention fusion module and a dual-discriminator structure embedded. Lastly, we propose a novel semantic-aware upsampling method, which has a larger receptive field and can take far-away pixels that are semantically related for feature upsampling, enabling it to better preserve semantic consistency for instances with the same semantic labels. Extensive experiments on two image generation tasks show the superior performance of the proposed method. State-of-the-art results are established by large margins on both tasks and on nine challenging public benchmarks. The source code and trained models are available at https://github.com/H a0Tang/LGGAN.
翻訳日:2022-03-02 13:51:29 公開日:2022-02-28
# 森林死亡率マッピングのための異種リモートセンシング画像を用いた目標変化検出

Towards Targeted Change Detection with Heterogeneous Remote Sensing Images for Forest Mortality Mapping ( http://arxiv.org/abs/2203.00049v1 )

ライセンス: Link先を確認
J{\o}rgen A. Agersborg, Luigi T. Luppino, Stian Normann Anfinsen and Jane Uhd Jepsen(参考訳) 本研究では,不均質センサの衛星データを用いた森林-ツンドラエコトン林の森林死のマッピング手法を開発した。 本研究は,地峡の出現によって引き起こされた森林伐採地における森林死の複雑なパターンを明らかにするために,中高分解能画像を用いた。 具体的には、Landsat-5 Thematic Mapperイメージはイベント前のもので、RADARSAT-2はイベント後のイメージを提供する。 我々は最近開発された2つの領域間の翻訳のための深層学習手法を用いて、マルチスペクトル光と合成開口レーダ(SAR)の差画像を得る。 これらの違いは、変更イベントの前と後の領域がどのように現れるかを学ぶために、元の事前および後の画像と積み重ねられる。 これを行い, 1クラス分類 (occ) による関心の変化のみを学習することで, 訓練データが少なく, 良好な結果を得ることができた。

In this paper we develop a method for mapping forest mortality in the forest-tundra ecotone using satellite data from heterogeneous sensors. We use medium resolution imagery in order to provide the complex pattern of forest mortality in this sparsely forested area, which has been induced by an outbreak of geometrid moths. Specifically, Landsat-5 Thematic Mapper images from before the event are used, with RADARSAT-2 providing the post-event images. We obtain the difference images for both multispectral optical and synthetic aperture radar (SAR) by using a recently developed deep learning method for translating between the two domains. These differences are stacked with the original pre- and post-event images in order to let our algorithm also learn how the areas appear before and after the change event. By doing this, and focusing on learning only the changes of interest with one-class classification (OCC), we obtain good results with very little training data.
翻訳日:2022-03-02 13:51:07 公開日:2022-02-28
# 経時的バランス損失と適応的特徴量生成を用いた長期分類

Long-Tailed Classification with Gradual Balanced Loss and Adaptive Feature Generation ( http://arxiv.org/abs/2203.00452v1 )

ライセンス: Link先を確認
Zihan Zhang and Xiang Xiang(参考訳) 現実世界のデータ分散は本質的にロングテールであり、深層モデルにとって大きな課題となる。 本研究では,不均衡を緩和する新しい手法であるGradual Balanced Loss and Adaptive Feature Generator (GLAG)を提案する。 GLAGはまずGradual Balanced Lossでバランスの取れた、堅牢な機能モデルを学び、その後、機能モデルを修正し、よく表現されたヘッドクラスの知識で、機能レベルで表現されていないテールクラスを拡張します。 そして生成されたサンプルは、トレーニング時代の実際のトレーニングサンプルと混ぜ合わされる。 Gradual Balanced Lossは一般的な損失であり、異なる分離されたトレーニングメソッドを組み合わせることで、元のパフォーマンスを改善することができる。 CIFAR100-LT、ImageNetLT、iNaturalistのような長い尾のデータセットで最先端の結果が得られ、長尾の視覚認識におけるGLAGの有効性を実証している。

The real-world data distribution is essentially long-tailed, which poses great challenge to the deep model. In this work, we propose a new method, Gradual Balanced Loss and Adaptive Feature Generator (GLAG) to alleviate imbalance. GLAG first learns a balanced and robust feature model with Gradual Balanced Loss, then fixes the feature model and augments the under-represented tail classes on the feature level with the knowledge from well-represented head classes. And the generated samples are mixed up with real training samples during training epochs. Gradual Balanced Loss is a general loss and it can combine with different decoupled training methods to improve the original performance. State-of-the-art results have been achieved on long-tail datasets such as CIFAR100-LT, ImageNetLT, and iNaturalist, which demonstrates the effectiveness of GLAG for long-tailed visual recognition.
翻訳日:2022-03-02 13:49:38 公開日:2022-02-28
# 低周波データで訓練可能なテンセグリティロボットのモデル化のためのリカレント微分エンジン

A Recurrent Differentiable Engine for Modeling Tensegrity Robots Trainable with Low-Frequency Data ( http://arxiv.org/abs/2203.00041v1 )

ライセンス: Link先を確認
Kun Wang, Mridul Aanjaneya and Kostas Bekris(参考訳) 剛性のあるロッドと柔軟なケーブルで構成されたテンセグリティロボットは、複雑なダイナミクスと多数のdofが存在するため、正確なモデリングと制御が困難である。 このような複雑なロボットシステムのモデル識別のためのデータ駆動アプローチとして、微分可能な物理エンジンが最近提案されている。 これらのエンジンは、しばしば正確なシミュレーションを達成するために高周波で実行される。 しかし、異なるエンジンを訓練するための地上の真理軌道は、現実のセンサーの限界のため、そのような高周波数では利用できない。 本研究は,この周波数ミスマッチに着目し,モデリング精度に影響を及ぼす。 我々は,低周波トラジェクタでも効果的に訓練できる,tensegrityロボットの微分可能な物理エンジンのリカレント構造を提案する。 この新しいリカレントエンジンを堅牢な方法でトレーニングするために、この作業は、以前の作業と比較して導入される。 (i)新しい暗黙の統合方式 (二)プログレッシブ・トレーニング・パイプライン、及び (iii)微分可能な衝突チェッカー。 MuJoCo 上の NASA の icosahedron SUPERballBot のモデルが、トレーニングデータを収集する基盤真理システムとして使用されている。 模擬実験により、MuJoCoの低周波軌道から再帰的な微分可能なエンジンが訓練されると、MuJoCoのシステムの挙動と一致することを示す。 成功の基準は、微分可能なエンジンで学習した移動戦略を地上のシステムに戻せるかどうかであり、同様の動きを生じさせる。 特に、差別化可能なエンジンの訓練に必要な地上真実データ量(そのポリシーが地上真実システムに転送可能である)は、地上真実システム上で直接ポリシーを訓練するのに必要とされるデータの1%である。

Tensegrity robots, composed of rigid rods and flexible cables, are difficult to accurately model and control given the presence of complex dynamics and high number of DoFs. Differentiable physics engines have been recently proposed as a data-driven approach for model identification of such complex robotic systems. These engines are often executed at a high-frequency to achieve accurate simulation. Ground truth trajectories for training differentiable engines, however, are not typically available at such high frequencies due to limitations of real-world sensors. The present work focuses on this frequency mismatch, which impacts the modeling accuracy. We proposed a recurrent structure for a differentiable physics engine of tensegrity robots, which can be trained effectively even with low-frequency trajectories. To train this new recurrent engine in a robust way, this work introduces relative to prior work: (i) a new implicit integration scheme, (ii) a progressive training pipeline, and (iii) a differentiable collision checker. A model of NASA's icosahedron SUPERballBot on MuJoCo is used as the ground truth system to collect training data. Simulated experiments show that once the recurrent differentiable engine has been trained given the low-frequency trajectories from MuJoCo, it is able to match the behavior of MuJoCo's system. The criterion for success is whether a locomotion strategy learned using the differentiable engine can be transferred back to the ground-truth system and result in a similar motion. Notably, the amount of ground truth data needed to train the differentiable engine, such that the policy is transferable to the ground truth system, is 1% of the data needed to train the policy directly on the ground-truth system.
翻訳日:2022-03-02 13:48:52 公開日:2022-02-28
# ApacheJIT: ジャストインタイムの欠陥予測のための大規模なデータセット

ApacheJIT: A Large Dataset for Just-In-Time Defect Prediction ( http://arxiv.org/abs/2203.00101v1 )

ライセンス: Link先を確認
Hossein Keshavarz and Meiyappan Nagappan(参考訳) 本稿では,ジャストインタイム欠陥予測のための大規模データセットapachejitを提案する。 ApacheJITは、人気のあるApacheプロジェクトでクリーンでバグを誘発するソフトウェア変更で構成されている。 ApacheJITのコミット数は106,674件(28,239件、クリーンコミット78,435件)である。 大量のコミットを持つことで、ApacheJITは機械学習モデル、特に、過去のデータに存在するパターンを将来的なデータに効果的に一般化するために大規模なトレーニングセットを必要とするディープラーニングモデルに適したデータセットになる。 元のデータセットに加えて、慎重に選択されたトレーニングとテストセットを示し、機械学習モデルのトレーニングと評価に使用することを推奨する。

In this paper, we present ApacheJIT, a large dataset for Just-In-Time defect prediction. ApacheJIT consists of clean and bug-inducing software changes in popular Apache projects. ApacheJIT has a total of 106,674 commits (28,239 bug-inducing and 78,435 clean commits). Having a large number of commits makes ApacheJIT a suitable dataset for machine learning models, especially deep learning models that require large training sets to effectively generalize the patterns present in the historical data to future data. In addition to the original dataset, we also present carefully selected training and test sets that we recommend to be used in training and evaluating machine learning models.
翻訳日:2022-03-02 13:48:27 公開日:2022-02-28
# ハイブリッドcnn-rnn-based deep learning modelを用いた単一ウエストウォーンウェアラブルセンサによる歩行イベント予測

Gait Events Prediction using Hybrid CNN-RNN-based Deep Learning models through a Single Waist-worn Wearable Sensor ( http://arxiv.org/abs/2203.00503v1 )

ライセンス: Link先を確認
Muhammad Zeeshan Arshad, Ankhzaya Jamsrandorj, Jinwook Kim, and Kyung-Ryoul Mun(参考訳) 高齢歩行は、身体的および精神的な健康状態に関する豊富な情報源である。 下半身部の複数のセンサーに代わるものとして、骨盤上の1つのセンサーは位置的利点と大量の情報を持っている。 本研究は, 高齢者の歩行イベント検出の精度を, 腰部および深部学習モデルに単一センサを用いて向上させる方法について検討することを目的とした。 歩行中に3つのIMUセンサーを備えた高齢者からデータを収集した。 入力は、CNN、RNN、CNN-RNNハイブリッドを含む16種類のディープラーニングモデルを、双方向・アテンション機構の有無にかかわらずトレーニングするために、腰センサーからのみ取得された。 地上構造はフィートIMUセンサーから抽出された。 99.73%、93.89%の精度はCNN-BiGRU-Attモデルでそれぞれ$\pm$6TS (\pm$6ms) と$\pm$1TS (\pm$1ms) のトレランスウィンドウで達成された。 従来の歩行イベント検出の研究から進化し、予測誤差が6.239msであり、hsと5.24msである予測誤差がそれぞれ$\pm$1tsの許容窓において大きな改善を示した。 その結果,CNN-RNNハイブリッドモデルとアテンションと双方向機構の併用により,単一腰センサを用いた歩行事象の正確な検出が期待できることがわかった。 この研究は歩行検出の負担軽減に寄与し、遠隔健康モニタリング(RHM)やそれに基づく診断に使用できる将来のウェアラブルデバイスへの適用性を高めることができる。

Elderly gait is a source of rich information about their physical and mental health condition. As an alternative to the multiple sensors on the lower body parts, a single sensor on the pelvis has a positional advantage and an abundance of information acquirable. This study aimed to explore a way of improving the accuracy of gait event detection in the elderly using a single sensor on the waist and deep learning models. Data was gathered from elderly subjects equipped with three IMU sensors while they walked. The input was taken only from the waist sensor was used to train 16 deep-learning models including CNN, RNN, and CNN-RNN hybrid with or without the Bidirectional and Attention mechanism. The groundtruth was extracted from foot IMU sensors. Fairly high accuracy of 99.73% and 93.89% was achieved by the CNN-BiGRU-Att model at the tolerance window of $\pm$6TS ($\pm$6ms) and $\pm$1TS ($\pm$1ms) respectively. Advancing from the previous studies exploring gait event detection, the model showed a great improvement in terms of its prediction error having an MAE of 6.239ms and 5.24ms for HS and TO events respectively at the tolerance window of $\pm$1TS. The results showed that the use of CNN-RNN hybrid models with Attention and Bidirectional mechanisms is promising for accurate gait event detection using a single waist sensor. The study can contribute to reducing the burden of gait detection and increase its applicability in future wearable devices that can be used for remote health monitoring (RHM) or diagnosis based thereon.
翻訳日:2022-03-02 13:45:29 公開日:2022-02-28
# 非向グラフ上のロバストマルチエージェントバンディット

Robust Multi-Agent Bandits Over Undirected Graphs ( http://arxiv.org/abs/2203.00076v1 )

ライセンス: Link先を確認
Daniel Vial, Sanjay Shakkottai, R. Srikant(参考訳) マルチエージェントのマルチアームバンディット設定では、$n$の正直なエージェントがネットワーク上で協力して後悔を最小限に抑えるが、$m$の悪意のあるエージェントは、任意の学習を妨害することができる。 ネットワークが完全なグラフであると仮定すると、既存のアルゴリズムは$O( (m + K/n) \log (T) / \Delta )$ regret in this set, where $K$ is the number of arms and $\Delta$ is the arm gap。 m \ll K$の場合、これは$O(K\log(T)/\Delta)$ の単一エージェントベースラインの後悔よりも改善される。 本稿では,完全グラフの場合よりも状況が乱雑であることを示す。 特に、最先端のアルゴリズムが無向線グラフで使われている場合、正直なエージェントは(ほぼ)線形後悔に苦しみ、時間が2倍の指数関数的に$k$と$n$となる。 この負の結果を踏まえて、$i$-th エージェントは任意の連結かつ無向グラフに対して $o((d_{\text{mal}}(i) + k/n) \log(t)/\delta)$ を後悔し、$d_{\text{mal}}(i)$ は悪意のある$i$ の隣人の数である。 したがって、既存の後悔の限度を完全なグラフを超えて一般化し(ここでは$d_{\text{mal}}(i) = m$)、悪意あるエージェントの効果が完全に局所的であることを示す($d_{\text{mal}}(i)$ 悪質なエージェントが$i$に直接接続された場合のみ、その長期的な後悔に影響する)。

We consider a multi-agent multi-armed bandit setting in which $n$ honest agents collaborate over a network to minimize regret but $m$ malicious agents can disrupt learning arbitrarily. Assuming the network is the complete graph, existing algorithms incur $O( (m + K/n) \log (T) / \Delta )$ regret in this setting, where $K$ is the number of arms and $\Delta$ is the arm gap. For $m \ll K$, this improves over the single-agent baseline regret of $O(K\log(T)/\Delta)$ . In this work, we show the situation is murkier beyond the case of a complete graph. In particular, we prove that if the state-of-the-art algorithm is used on the undirected line graph, honest agents can suffer (nearly) linear regret until time is doubly exponential in $K$ and $n$. In light of this negative result, we propose a new algorithm for which the $i$-th agent has regret $O( ( d_{\text{mal}}(i) + K/n) \log(T)/\Delta)$ on any connected and undirected graph, where $d_{\text{mal}}(i)$ is the number of $i$'s neighbors who are malicious. Thus, we generalize existing regret bounds beyond the complete graph (where $d_{\text{mal}}(i) = m$), and show the effect of malicious agents is entirely local (in the sense that only the $d_{\text{mal}}(i)$ malicious agents directly connected to $i$ affect its long-term regret).
翻訳日:2022-03-02 13:43:57 公開日:2022-02-28
# Amortized Proximal Optimization

Amortized Proximal Optimization ( http://arxiv.org/abs/2203.00089v1 )

ライセンス: Link先を確認
Juhan Bae, Paul Vicol, Jeff Z. HaoChen, Roger Grosse(参考訳) amortized proximal optimization (apo) と呼ばれる最適化を管理するパラメータのオンラインメタ最適化フレームワークを提案する。 まず,既存のニューラルネットワークオプティマイザを近似確率的近点法として解釈し,関数空間と重み空間の両方の近接項で電流バッチ損失を除去する。 APOの背景にある考え方は、更新ルールのパラメータをメタラーニングすることで、近点目標の最小化を減らすことである。 APOが学習率や事前条件行列の構造化にどのように使えるかを示す。 適切な仮定の下で、APOは自然勾配降下やKFACのような既存の最適化器を復元することができる。 計算オーバーヘッドが低く、行列逆数のような二階最適化器が必要とする高価な数値に敏感な操作を避ける。 学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニング行列を実証的にテストした。 経験的に、APOが発見した学習率スケジュールは、一般的に最適な固定学習率よりも優れており、手動で調整された減衰スケジュールと競合する。 APOを用いて構造化プレコンディショニング行列を適用すると、一般に二階法と競合する最適化性能が得られる。 さらに,行列反転の欠如は数値的な安定性をもたらし,精度の低い学習に有効である。

We propose a framework for online meta-optimization of parameters that govern optimization, called Amortized Proximal Optimization (APO). We first interpret various existing neural network optimizers as approximate stochastic proximal point methods which trade off the current-batch loss with proximity terms in both function space and weight space. The idea behind APO is to amortize the minimization of the proximal point objective by meta-learning the parameters of an update rule. We show how APO can be used to adapt a learning rate or a structured preconditioning matrix. Under appropriate assumptions, APO can recover existing optimizers such as natural gradient descent and KFAC. It enjoys low computational overhead and avoids expensive and numerically sensitive operations required by some second-order optimizers, such as matrix inverses. We empirically test APO for online adaptation of learning rates and structured preconditioning matrices for regression, image reconstruction, image classification, and natural language translation tasks. Empirically, the learning rate schedules found by APO generally outperform optimal fixed learning rates and are competitive with manually tuned decay schedules. Using APO to adapt a structured preconditioning matrix generally results in optimization performance competitive with second-order methods. Moreover, the absence of matrix inversion provides numerical stability, making it effective for low precision training.
翻訳日:2022-03-02 13:43:20 公開日:2022-02-28
# LISA: 言語から解釈可能なスキル抽象化を学ぶ

LISA: Learning Interpretable Skill Abstractions from Language ( http://arxiv.org/abs/2203.00054v1 )

ライセンス: Link先を確認
Divyansh Garg, Skanda Vaidyanath, Kuno Kim, Jiaming Song, Stefano Ermon(参考訳) 複雑なマルチタスク環境で言語命令を効果的に活用する学習方針は、模倣学習において重要な問題である。 言語命令全体を直接条件付けることは可能であるが、そのようなアプローチは一般化の問題に苦しむ可能性がある。 複雑な命令を認識不能な命令に一般化するスキルにエンコードするため,我々は,多種多様な解釈可能なスキルを言語条件付きデモンストレーションから学習できる階層的模倣学習フレームワークであるlearning interpretable skill abstractions (lisa)を提案する。 LISAはベクトル量子化を用いて、言語命令と高い相関関係を持つ離散スキルコードと学習ポリシーの振る舞いを学習する。 ナビゲーションやロボット操作環境では、LISAは低データ体制において強力な非階層的ベースラインを上回り、学習スキルを構成して、目に見えない長距離命令を含むタスクを解決することができる。 本手法は, 逐次的意思決定問題において, より自然な言語条件付け方法を示し, 学習スキルによる解釈可能な, 制御可能な動作を実現する。

Learning policies that effectually utilize language instructions in complex, multi-task environments is an important problem in imitation learning. While it is possible to condition on the entire language instruction directly, such an approach could suffer from generalization issues. To encode complex instructions into skills that can generalize to unseen instructions, we propose Learning Interpretable Skill Abstractions (LISA), a hierarchical imitation learning framework that can learn diverse, interpretable skills from language-conditioned demonstrations. LISA uses vector quantization to learn discrete skill codes that are highly correlated with language instructions and the behavior of the learned policy. In navigation and robotic manipulation environments, LISA is able to outperform a strong non-hierarchical baseline in the low data regime and compose learned skills to solve tasks containing unseen long-range instructions. Our method demonstrates a more natural way to condition on language in sequential decision-making problems and achieve interpretable and controllable behavior with the learned skills.
翻訳日:2022-03-02 13:01:40 公開日:2022-02-28
# スロットクラスタリングによるタスク指向対話の構造抽出

Structure Extraction in Task-Oriented Dialogues with Slot Clustering ( http://arxiv.org/abs/2203.00073v1 )

ライセンス: Link先を確認
Liang Qiu, Chien-Sheng Wu, Wenhao Liu, Caiming Xiong(参考訳) 対話データから構造情報を抽出することは,ユーザとシステムの動作をより理解する上で有用である。 タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。 しかし、手動での対話は高価で時間を要する。 本稿では,タスク指向対話における構造抽出のための単純かつ効果的な手法を提案する。 まず,対象領域の対話オントロジーを近似するために,事前学習モデルを用いて可能なスロットトークンを検出し,クラスタ化する。 次に、識別されたトークン群の状態を追跡し、状態遷移構造を導出する。 実験の結果,提案手法は対話構造抽出において,教師なしのベースラインモデルよりも優れていることがわかった。 さらに,抽出された構造に基づくデータ拡張がトレーニングデータの表面形式を豊かにし,対話応答生成における大幅な性能向上を実現することを示す。

Extracting structure information from dialogue data can help us better understand user and system behaviors. In task-oriented dialogues, dialogue structure has often been considered as transition graphs among dialogue states. However, annotating dialogue states manually is expensive and time-consuming. In this paper, we propose a simple yet effective approach for structure extraction in task-oriented dialogues. We first detect and cluster possible slot tokens with a pre-trained model to approximate dialogue ontology for a target domain. Then we track the status of each identified token group and derive a state transition structure. Empirical results show that our approach outperforms unsupervised baseline models by far in dialogue structure extraction. In addition, we show that data augmentation based on extracted structures enriches the surface formats of training data and can achieve a significant performance boost in dialogue response generation.
翻訳日:2022-03-02 12:58:48 公開日:2022-02-28
# (参考訳) オンラインインタラクションプラットフォームにおけるsparsity-aware neural user behavior modeling

Sparsity-aware neural user behavior modeling in online interaction platforms ( http://arxiv.org/abs/2202.13491v1 )

ライセンス: CC BY 4.0
Aravind Sankar(参考訳) 現代のオンラインプラットフォームは、ユーザーが様々なコンテンツ作成、ソーシャルネットワーク、ショッピング活動に参加する機会を提供する。 このようなオンラインサービスの急速な普及に伴い、データ駆動のユーザー行動モデルの学習は、パーソナライズされたユーザーエクスペリエンスを実現するために不可欠である。 近年,大量のインタラクションデータをトレーニングしたニューラルネットワークを活用したユーザモデリングの効果的な手法として表現学習が登場している。 巨大な可能性にも関わらず、エンティティやエンティティレベルのインタラクション(コールドスタートユーザ、ロングテールのアイテム、短命グループなど)において、ほとんどのエンティティに対してデータスパーシティというユニークな課題に遭遇します。 本論文では,アプリケーション間の疎性問題に対処するために,ユーザ行動モデリングのための一般化可能なニューラル表現学習フレームワークを開発する。 我々の問題設定は、トレーニング中に見られるトランスダクティブ学習モデルと、推論時にのみ観察されるエンティティを対象とするトランスダクティブ学習シナリオとインダクティブ学習シナリオにまたがる。 ユーザの振る舞いを反映するさまざまな情報(例えばソーシャルネットワークにおける相互接続性、時間的および属性的相互作用情報)を活用して、大規模にパーソナライズされた推論を可能にする。 提案するモデルは,ニューラルなアーキテクチャ選択の同時進行を補完するものであり,オンラインプラットフォームにおける新しいアプリケーションの迅速な追加に対応する。

Modern online platforms offer users an opportunity to participate in a variety of content-creation, social networking, and shopping activities. With the rapid proliferation of such online services, learning data-driven user behavior models is indispensable to enable personalized user experiences. Recently, representation learning has emerged as an effective strategy for user modeling, powered by neural networks trained over large volumes of interaction data. Despite their enormous potential, we encounter the unique challenge of data sparsity for a vast majority of entities, e.g., sparsity in ground-truth labels for entities and in entity-level interactions (cold-start users, items in the long-tail, and ephemeral groups). In this dissertation, we develop generalizable neural representation learning frameworks for user behavior modeling designed to address different sparsity challenges across applications. Our problem settings span transductive and inductive learning scenarios, where transductive learning models entities seen during training and inductive learning targets entities that are only observed during inference. We leverage different facets of information reflecting user behavior (e.g., interconnectivity in social networks, temporal and attributed interaction information) to enable personalized inference at scale. Our proposed models are complementary to concurrent advances in neural architectural choices and are adaptive to the rapid addition of new applications in online platforms.
翻訳日:2022-03-02 08:32:53 公開日:2022-02-28
# (参考訳) StrongSORT: DeepSORTを再び素晴らしいものにする [全文訳有]

StrongSORT: Make DeepSORT Great Again ( http://arxiv.org/abs/2202.13514v1 )

ライセンス: CC BY 4.0
Yunhao Du, Yang Song, Bo Yang, Yanyun Zhao(参考訳) 既存のマルチオブジェクトトラッキング(mot)メソッドは、トラッキングバイ検出とジョイント検出・結合パラダイムに大別することができる。 後者は注意を喚起し,前者と比較して同等の性能を示すが,追跡・検出パラダイムはいまだに追跡精度の面では最適解であると主張する。 本稿では,従来のトラッカーであるDeepSORTを再検討し,検出,埋め込み,アソシエーションといった様々な側面からアップグレードする。 結果、StrongSORTと呼ばれるトラッカーは、MOT17とMOT20に新しいHOTAとIDF1レコードをセットする。 また、追跡結果をさらに改善するために、軽量かつプラグアンドプレイのアルゴリズムを2つ提示する。 まず, 短いトラックレットを完全軌跡に関連付けるために, 外観自由リンクモデル (aflink) を提案する。 私たちの知る限りでは、これは外観情報のない最初のグローバルリンクモデルです。 次に,欠損検出を補うためにガウス平滑補間法(GSI)を提案する。 線形補間のような動き情報を無視する代わりに、GSIはガウス過程回帰アルゴリズムに基づいており、より正確なローカライゼーションを実現することができる。 さらに、AFLink と GSI は、MOT17 上でそれぞれ591.9 と 140.9 Hz)の余分な計算コストで様々なトラッカーに接続することができる。 StrongSORTと2つのアルゴリズムを統合することで、最終トラッカーStrongSORT++は、HOTAとIDF1のメトリクスでMOT17とMOT20にランクインし、第2位を1.3から2.2で上回る。 コードはまもなくリリースされる。

Existing Multi-Object Tracking (MOT) methods can be roughly classified as tracking-by-detectio n and joint-detection-asso ciation paradigms. Although the latter has elicited more attention and demonstrates comparable performance relative to the former, we claim that the tracking-by-detectio n paradigm is still the optimal solution in terms of tracking accuracy. In this paper, we revisit the classic tracker DeepSORT and upgrade it from various aspects, i.e., detection, embedding and association. The resulting tracker, called StrongSORT, sets new HOTA and IDF1 records on MOT17 and MOT20. We also present two lightweight and plug-and-play algorithms to further refine the tracking results. Firstly, an appearance-free link model (AFLink) is proposed to associate short tracklets into complete trajectories. To the best of our knowledge, this is the first global link model without appearance information. Secondly, we propose Gaussian-smoothed interpolation (GSI) to compensate for missing detections. Instead of ignoring motion information like linear interpolation, GSI is based on the Gaussian process regression algorithm and can achieve more accurate localizations. Moreover, AFLink and GSI can be plugged into various trackers with a negligible extra computational cost (591.9 and 140.9 Hz, respectively, on MOT17). By integrating StrongSORT with the two algorithms, the final tracker StrongSORT++ ranks first on MOT17 and MOT20 in terms of HOTA and IDF1 metrics and surpasses the second-place one by 1.3 - 2.2. Code will be released soon.
翻訳日:2022-03-02 08:31:19 公開日:2022-02-28
# (参考訳) CTformer:低用量CT用コンボリューションフリーのToken2TokenDilated Vision Transformer [全文訳有]

CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising ( http://arxiv.org/abs/2202.13517v1 )

ライセンス: CC BY 4.0
Dayang Wang, Fenglei Fan, Zhan Wu, Rui Liu, Fei Wang, Hengyong Yu(参考訳) 低線量CT(LDCT)はCT研究において重要な問題である。 LDCT画像は, 正常線量CT (NDCT) と比較して, 強いノイズやアーティファクトを呈する。 近年の多くの研究で、視覚トランスフォーマーは畳み込みニューラルネットワーク(cnns)よりも優れた特徴表現能力を示している。 しかし、cnnとは異なり、ldctでの視覚トランスフォーマーの可能性はほとんど研究されなかった。 このギャップを埋めるために,低線量CT用コンボリューションフリーのToken2Token Dilated Vision Transformerを提案する。 CTformerは、より強力なトークン再構成を使用して、ローカルなコンテキスト情報を包含し、畳み込みを避ける。 また、長範囲のインタラクションをキャプチャするためにフィーチャーマップを拡張およびシフトする。 内部アテンションマップのパターンを静的に検査し,説明グラフを用いて階層的アテンションフローを動的に追跡することでctformerを解釈する。 さらに、エンコーダデコーダベースのデノイジングモデルに共通する境界アーティファクトを効果的に排除するために重複推論機構が導入された。 Mayo LDCTデータセットの実験結果から、CTformerは計算オーバーヘッドの少ない最先端の復調法よりも優れていることが示唆された。

Low-dose computed tomography (LDCT) denoising is an important problem in CT research. Compared to the normal dose CT (NDCT), LDCT images are subjected to severe noise and artifacts. Recently in many studies, vision transformers have shown superior feature representation ability over convolutional neural networks (CNNs). However, unlike CNNs, the potential of vision transformers in LDCT denoising was little explored so far. To fill this gap, we propose a Convolution-free Token2Token Dilated Vision Transformer for low-dose CT denoising. The CTformer uses a more powerful token rearrangement to encompass local contextual information and thus avoids convolution. It also dilates and shifts feature maps to capture longer-range interaction. We interpret the CTformer by statically inspecting patterns of its internal attention maps and dynamically tracing the hierarchical attention flow with an explanatory graph. Furthermore, an overlapped inference mechanism is introduced to effectively eliminate the boundary artifacts that are common for encoder-decoder-base d denoising models. Experimental results on Mayo LDCT dataset suggest that the CTformer outperforms the state-of-the-art denoising methods with a low computation overhead.
翻訳日:2022-03-02 08:14:03 公開日:2022-02-28
# (参考訳) kmir: 言語モデルの知識記憶・識別・推論能力評価のためのベンチマーク [全文訳有]

KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification and Reasoning Abilities of Language Models ( http://arxiv.org/abs/2202.13529v1 )

ライセンス: CC BY 4.0
Daniel Gao, Yantao Jia, Lei Li, Chengzhen Fu, Zhicheng Dou, Hao Jiang, Xinyu Zhang, Lei Chen, Zhao Cao(参考訳) 先行研究は、大量の事実知識を保存するための事前学習言語モデル(PLM)の大きな可能性を示している。 しかし, PLM が信頼性の高い知識源であり, 代替知識ベース (KB) として利用できるかどうかを理解するためには, PLM の重要な特徴をさらに探求する必要がある。 第一に、知識記憶能力と識別能力: 従来のKBは様々な種類のエンティティや関係を格納できる; PLMは様々な種類の知識を格納できる高い知識能力を持っているか? 第二に、推論能力: 資格のある知識ソースは、事実のコレクションを提供するだけでなく、象徴的な推論をサポートするべきである。 PLMは事実間の相関に基づく新しい知識を導き出すことができるか? PLMのこれらの特徴を評価するために,KMIR(Knowledge Memorization, Identification and Reasoning test)と呼ばれるベンチマークを提案する。 KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。 KMIR上の様々な代表的な事前学習言語モデルを用いた予備実験は、多くの興味深い現象を明らかにしている。 1) PLMの記憶能力はトレーニング方式よりもパラメータの数に依存している。 2)現在のPLMは事実をしっかりと思い出すのに苦労している。 3)モデル圧縮技術は知識の量を十分に保持するが,識別能力や推論能力を損なう。 KMIRが優れた知識源としてPLMの設計を促進できることを願っている。

Previous works show the great potential of pre-trained language models (PLMs) for storing a large amount of factual knowledge. However, to figure out whether PLMs can be reliable knowledge sources and used as alternative knowledge bases (KBs), we need to further explore some critical features of PLMs. Firstly, knowledge memorization and identification abilities: traditional KBs can store various types of entities and relationships; do PLMs have a high knowledge capacity to store different types of knowledge? Secondly, reasoning ability: a qualified knowledge source should not only provide a collection of facts, but support a symbolic reasoner. Can PLMs derive new knowledge based on the correlations between facts? To evaluate these features of PLMs, we propose a benchmark, named Knowledge Memorization, Identification, and Reasoning test (KMIR). KMIR covers 3 types of knowledge, including general knowledge, domain-specific knowledge, and commonsense, and provides 184,348 well-designed questions. Preliminary experiments with various representative pre-training language models on KMIR reveal many interesting phenomenons: 1) The memorization ability of PLMs depends more on the number of parameters than training schemes. 2) Current PLMs are struggling to robustly remember the facts. 3) Model compression technology retains the amount of knowledge well, but hurts the identification and reasoning abilities. We hope KMIR can facilitate the design of PLMs as better knowledge sources.
翻訳日:2022-03-02 07:52:25 公開日:2022-02-28
# (参考訳) 深層学習(PBMR-DP)を用いたパターンベース多変量回帰 [全文訳有]

Pattern Based Multivariate Regression using Deep Learning (PBMR-DP) ( http://arxiv.org/abs/2202.13541v1 )

ライセンス: CC BY 4.0
Jiztom Kavalakkatt Francis, Chandan Kumar, Jansel Herrera-Gerena, Kundan Kumar, Matthew J Darr,(参考訳) 本稿では,センサデータの高速な学習を促すパターン認識に基づく多変量回帰のためのディープラーニング手法を提案する。 我々は,コンピュータビジョンアーキテクチャとトレーニングプロセスを活用するために,センサからイメージへの変換を行った。 このデータ作成手法に加えて,農作物の連続収量情報を予測するための回帰アウトプットを生成するための最先端アーキテクチャの利用について検討する。 最後に、MLCAS2021で報告された上位モデルと比較する。 その結果、簡単なトレーニングプロセスにより、4.394のMAE、5.945のRMSE、0.861のR^2を達成できた。

We propose a deep learning methodology for multivariate regression that is based on pattern recognition that triggers fast learning over sensor data. We used a conversion of sensors-to-image which enables us to take advantage of Computer Vision architectures and training processes. In addition to this data preparation methodology, we explore the use of state-of-the-art architectures to generate regression outputs to predict agricultural crop continuous yield information. Finally, we compare with some of the top models reported in MLCAS2021. We found that using a straightforward training process, we were able to accomplish a MAE of 4.394, RMSE of 5.945, and R^2 of 0.861.
翻訳日:2022-03-02 07:34:10 公開日:2022-02-28
# (参考訳) RawlsGCN: グラフ畳み込みネットワークにおけるRawlsian差分原理を目指して [全文訳有]

RawlsGCN: Towards Rawlsian Difference Principle on Graph Convolutional Network ( http://arxiv.org/abs/2202.13547v1 )

ライセンス: CC BY 4.0
Jian Kang, Yan Zhu, Yinglong Xia, Jiebo Luo, Hanghang Tong(参考訳) グラフ畳み込みネットワーク(gcn)は多くの実世界のアプリケーションで重要な役割を果たす。 gcnデプロイメントの成功にもかかわらず、gcnはしばしばノードの次数に対するパフォーマンスの差を示し、低次ノードの予測精度は低下する。 我々は,分布的正義の理論を起源とするrawlsian difference principleの観点から,gcnの次数関連の性能格差を緩和する問題を定式化する。 数学的には、タスク固有の損失を最小限に抑えながら、低次ノードと高次ノード間のユーティリティのバランスを図る。 具体的には,GCNの重量行列の勾配を解析することにより,この度合い関係の不公平性の根本原因を明らかにする。 重み行列の勾配を導いた前処理法RawlsGCN-Graphと内処理法RawlsGCN-Gradは,GCNアーキテクチャの変更や追加パラメータの導入なしに,低次ノードの正確な予測精度を実現する。 実世界のグラフに対する大規模な実験により,提案したRawlsGCN法の有効性が実証された。

Graph Convolutional Network (GCN) plays pivotal roles in many real-world applications. Despite the successes of GCN deployment, GCN often exhibits performance disparity with respect to node degrees, resulting in worse predictive accuracy for low-degree nodes. We formulate the problem of mitigating the degree-related performance disparity in GCN from the perspective of the Rawlsian difference principle, which is originated from the theory of distributive justice. Mathematically, we aim to balance the utility between low-degree nodes and high-degree nodes while minimizing the task-specific loss. Specifically, we reveal the root cause of this degree-related unfairness by analyzing the gradients of weight matrices in GCN. Guided by the gradients of weight matrices, we further propose a pre-processing method RawlsGCN-Graph and an in-processing method RawlsGCN-Grad that achieves fair predictive accuracy in low-degree nodes without modification on the GCN architecture or introduction of additional parameters. Extensive experiments on real-world graphs demonstrate the effectiveness of our proposed RawlsGCN methods in significantly reducing degree-related bias while retaining comparable overall performance.
翻訳日:2022-03-02 07:28:00 公開日:2022-02-28
# (参考訳) 超音波胎児脳構造の自動分割のためのデバイス非依存型深層学習アプローチ:マルチセンター・マルチデバイス検証 [全文訳有]

Towards A Device-Independent Deep Learning Approach for the Automated Segmentation of Sonographic Fetal Brain Structures: A Multi-Center and Multi-Device Validation ( http://arxiv.org/abs/2202.13553v1 )

ライセンス: CC BY 4.0
Abhi Lad, Adithya Narayan, Hari Shankar, Shefali Jain, Pooja Punjani Vyas, Divya Singh, Nivedita Hegde, Jagruthi Atada, Jens Thang, Saw Shier Nee, Arunkumar Govindarajan, Roopa PS, Muralidhar V Pai, Akhila Vasudeva, Prathima Radhakrishnan and Sripad Krishna Devalla(参考訳) 胎児中枢神経系(CNS)異常のスクリーニングには出生前超音波検査の品質評価が不可欠である。 胎児の脳構造の解釈は非常に主観的で専門性が強く、妊娠中の母親の質の高い出生前ケアを制限し、長年の訓練経験を必要とする。 近年の人工知能(AI)の進歩、特に深層学習(DL)、成長・神経発達の信頼性評価に欠かせない意味的セグメンテーションによる精密解剖診断の支援、構造異常の検出などが提案されている。 しかし、既存の研究は、軸索(経心室、経小脳)から特定の構造(例えば、中隔膜、側室、小脳)を同定し、CNS異常のスクリーニングに必要なプラクティスガイドラインとして、完全な解剖学的評価の範囲を制限している。 さらに、既存の研究は、複数の超音波装置やセンターの画像間のDLアルゴリズムの一般化性を分析しておらず、実際の臨床効果を制限している。 本研究では,胎児脳usg画像 (2d) から2軸面から10個の主要な胎児脳構造の自動分割を行うためのdlベースセグメンテーションフレームワークを提案する。 我々は、inceptionv4ブロックを特徴抽出器として使用するカスタムu-net変種を開発し、カスタムドメイン固有のデータ拡張を利用する。 平均(10構造、テストセット1/2/3/4) ジス係数は0.827, 0.802, 0.731, 0.783である。 usgデバイス/センターに関係なく、dlセグメンテーションは手動セグメンテーションと質的に比較された。 提案するDLシステムは,有望かつ汎用的な性能(マルチセンタ,マルチデバイス)を提供し,UMAP解析による画像品質の変化(一般化性への挑戦)を支持する証拠を提供する。

Quality assessment of prenatal ultrasonography is essential for the screening of fetal central nervous system (CNS) anomalies. The interpretation of fetal brain structures is highly subjective, expertise-driven, and requires years of training experience, limiting quality prenatal care for all pregnant mothers. With recent advancement in Artificial Intelligence (AI), specifically deep learning (DL), assistance in precise anatomy identification through semantic segmentation essential for the reliable assessment of growth and neurodevelopment, and detection of structural abnormalities have been proposed. However, existing works only identify certain structures (e.g., cavum septum pellucidum, lateral ventricles, cerebellum) from either of the axial views (transventricular, transcerebellar), limiting the scope for a thorough anatomical assessment as per practice guidelines necessary for the screening of CNS anomalies. Further, existing works do not analyze the generalizability of these DL algorithms across images from multiple ultrasound devices and centers, thus, limiting their real-world clinical impact. In this study, we propose a DL based segmentation framework for the automated segmentation of 10 key fetal brain structures from 2 axial planes from fetal brain USG images (2D). We developed a custom U-Net variant that uses inceptionv4 block as a feature extractor and leverages custom domain-specific data augmentation. Quantitatively, the mean (10 structures; test sets 1/2/3/4) Dice-coefficients were: 0.827, 0.802, 0.731, 0.783. Irrespective of the USG device/center, the DL segmentations were qualitatively comparable to their manual segmentations. The proposed DL system offered a promising and generalizable performance (multi-centers, multi-device) and also presents evidence in support of device-induced variation in image quality (a challenge to generalizibility) by using UMAP analysis.
翻訳日:2022-03-02 06:51:11 公開日:2022-02-28
# (参考訳) 材料特性予測のための機械学習手法:高分子の適合例 [全文訳有]

A Machine Learning Method for Material Property Prediction: Example Polymer Compatibility ( http://arxiv.org/abs/2202.13554v1 )

ライセンス: CC BY 4.0
Zhilong Liang, Zhiwei Li, Shuo Zhou, Yiwen Sun, Changshui Zhang, Jinying Yuan(参考訳) 材料設計とスクリーニングの重要性から, 材料特性の予測は重要な問題である。 材料特性予測のための新しい汎用機械学習手法を提案する。 代表的な例として, 本手法の有効性を示すために, ポリマーの適合性を選択する。 具体的には, 関連文献から得られたデータを抽出し, 特定のデータベースを構築し, ポリマーのブレンディングの基本分子構造に基づく予測を行い, ブレンディング組成物を補助する。 このモデルは、数千のエントリからなるデータセット上で、少なくとも75%の精度を得る。 機械学習によって構造と特性の関係を学習しシミュレーションできることを実証する。

Prediction of material property is a key problem because of its significance to material design and screening. We present a brand-new and general machine learning method for material property prediction. As a representative example, polymer compatibility is chosen to demonstrate the effectiveness of our method. Specifically, we mine data from related literature to build a specific database and give a prediction based on the basic molecular structures of blending polymers and, as auxiliary, the blending composition. Our model obtains at least 75% accuracy on the dataset consisting of thousands of entries. We demonstrate that the relationship between structure and properties can be learned and simulated by machine learning method.
翻訳日:2022-03-02 06:35:52 公開日:2022-02-28
# (参考訳) マルチグループ属性を用いたKL分散推定 [全文訳有]

KL Divergence Estimation with Multi-group Attribution ( http://arxiv.org/abs/2202.13576v1 )

ライセンス: CC BY 4.0
Parikshit Gopalan, Nina Narodytska, Omer Reingold, Vatsal Sharan, Udi Wieder(参考訳) Kullback-Leibler(KL) の2つの分布間の分散を推定することは、機械学習と情報理論においてよく研究されている。 マルチグループフェアネスを考慮に入れたKL偏差推定法は,全体の偏差に対するサブ集団の寄与を正確に反映する。 我々は、領域の重複部分集合のリッチ(おそらく無限)族である$\mathcal{c}$から生じるサブ人口をモデル化する。 我々は、$\mathcal{C}$ に対する多群帰属の概念を提案し、これは、$\mathcal{C}$ のすべての部分群に対して推定された発散条件が、モデルが2つの分布において有意な発散を予想する部分群が有意に発散することを確実にするなど、ある自然な精度と公平なデシダタを満たすことを要求する。 我々の主な技術的貢献は、最近導入された重みに対する多重校正の概念(HKRR18, GRSW21]から多群属性を導出できることである。 理論的結果を支持する実験的なエビデンスを提示し, マルチグループ属性は, サブポピュレーションの条件が他の一般的なアルゴリズムよりも高いKL分散推定値を提供することを示した。

Estimating the Kullback-Leibler (KL) divergence between two distributions given samples from them is well-studied in machine learning and information theory. Motivated by considerations of multi-group fairness, we seek KL divergence estimates that accurately reflect the contributions of sub-populations to the overall divergence. We model the sub-populations coming from a rich (possibly infinite) family $\mathcal{C}$ of overlapping subsets of the domain. We propose the notion of multi-group attribution for $\mathcal{C}$, which requires that the estimated divergence conditioned on every sub-population in $\mathcal{C}$ satisfies some natural accuracy and fairness desiderata, such as ensuring that sub-populations where the model predicts significant divergence do diverge significantly in the two distributions. Our main technical contribution is to show that multi-group attribution can be derived from the recently introduced notion of multi-calibration for importance weights [HKRR18, GRSW21]. We provide experimental evidence to support our theoretical results, and show that multi-group attribution provides better KL divergence estimates when conditioned on sub-populations than other popular algorithms.
翻訳日:2022-03-02 06:22:21 公開日:2022-02-28
# (参考訳) 100万のエンティティを1100万の名前で評価する意味的質問 [全文訳有]

'Tis but Thy Name: Semantic Question Answering Evaluation with 11M Names for 1M Entities ( http://arxiv.org/abs/2202.13581v1 )

ライセンス: CC BY 4.0
Albert Huang(参考訳) 古典的な語彙マッチングベースのQAメトリクスは、答えが基礎的な真実として提供されていないためではなく、簡潔さや情報的アウトプットを罰するため、徐々に段階的に廃止されている。 最近提案されたニューラルメトリクスは意味的類似性を評価することができるが、外国ドメインから移植された小さなテキスト類似性データセットに基づいて訓練された。 ウィキエンティティ類似度データセット (wiki entity similarity dataset, wes) は、ウィキペディアのリンクテキストから生成される、ドメインを対象とする意味エンティティ類似度データセットである。 例はエンティティとフレーズであり、複数の接地ラベルをシミュレートするためにセマンティッククラスタにグループ化されます。 人間のアノテータは、WESラベルに一貫して同意し、基本的なクロスエンコーダメトリックは、人間の正当性を予測するための4つの古典的な指標よりも優れている。

Classic lexical-matching-bas ed QA metrics are slowly being phased out because they punish succinct or informative outputs just because those answers were not provided as ground truth. Recently proposed neural metrics can evaluate semantic similarity but were trained on small textual similarity datasets grafted from foreign domains. We introduce the Wiki Entity Similarity (WES) dataset, an 11M example, domain targeted, semantic entity similarity dataset that is generated from link texts in Wikipedia. WES is tailored to QA evaluation: the examples are entities and phrases and grouped into semantic clusters to simulate multiple ground-truth labels. Human annotators consistently agree with WES labels, and a basic cross encoder metric is better than four classic metrics at predicting human judgments of correctness.
翻訳日:2022-03-02 05:58:23 公開日:2022-02-28
# (参考訳) LCP-dropout:ニューラルマシン翻訳のための圧縮に基づく複数単語セグメンテーション [全文訳有]

LCP-dropout: Compression-based Multiple Subword Segmentation for Neural Machine Translation ( http://arxiv.org/abs/2202.13590v1 )

ライセンス: CC BY-SA 4.0
Keita Nonaka, Kazutaka Yamanouchi, Tomohiro I, Tsuyoshi Okita, Kazutaka Shimada, Hiroshi Sakamoto(参考訳) 本研究では,データ圧縮アルゴリズムに基づくサブワードセグメンテーションの簡易かつ効果的な前処理手法を提案する。 圧縮に基づくサブワードセグメンテーションはニューラルマシン翻訳におけるトレーニングデータの事前処理手法として注目されている。 このうち、BPE/BPEドロップアウトは従来の手法と比較して最も高速で効果的な手法の1つである。 しかしながら、圧縮に基づくアプローチは、決定論のために複数のセグメンテーションを生成することが難しいという欠点がある。 このような難易度を克服するため,我々は,最適圧縮を達成するために適用された,局所一貫性解析(lcp)と呼ばれる確率的文字列アルゴリズムに着目した。 LCPの確率的メカニズムを用いて,BPE/BPE-dropoutを改善する複数単語セグメンテーションのためのLCP-dropoutを提案する。

In this study, we propose a simple and effective preprocessing method for subword segmentation based on a data compression algorithm. Compression-based subword segmentation has recently attracted significant attention as a preprocessing method for training data in Neural Machine Translation. Among them, BPE/BPE-dropout is one of the fastest and most effective method compared to conventional approaches. However, compression-based approach has a drawback in that generating multiple segmentations is difficult due to the determinism. To overcome this difficulty, we focus on a probabilistic string algorithm, called locally-consistent parsing (LCP), that has been applied to achieve optimum compression. Employing the probabilistic mechanism of LCP, we propose LCP-dropout for multiple subword segmentation that improves BPE/BPE-dropout, and show that it outperforms various baselines in learning from especially small training data.
翻訳日:2022-03-02 05:51:09 公開日:2022-02-28
# (参考訳) 品質に配慮したニュースレコメンデーション [全文訳有]

Quality-aware News Recommendation ( http://arxiv.org/abs/2202.13605v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) ニュースレコメンデーションは多くのオンラインニュースプラットフォームで使われているコアテクニックである。 優れたユーザエクスペリエンスとニュースプラットフォームの評判を維持するためには,高品質なニュースをユーザに推奨することが重要です。 しかし、既存のニュースレコメンデーション手法は、主に、推奨するニュースの品質を無視しながら、ニュースクリックを最適化することを目的としている。 本稿では,推奨ニュースの品質を効果的に向上する品質対応ニュースレコメンデーション手法であるQualityRecを提案する。 そこで本研究では,まず,ニュースに対するユーザの読書時間分布に基づく効果的なニュース品質評価手法を提案する。 次に、ニュースセマンティクスと品質の両方に基づいてクリックしたニュースを選択するために、コンテンツ品質アテンションネットワークを設計し、ニュース品質情報をユーザ関心モデリングに組み込むことを提案する。 さらに,質認識型推薦モデルを学ぶために,補助的なニュース品質予測タスクで推薦モデルを訓練し,さらに,高品質なニュースを推薦するための推奨品質正規化損失を追加する。 2つの実世界のデータセットに対する大規模な実験によると、QualityRecは推奨ニュースの全体的な品質を効果的に改善し、低品質ニュースの推奨を減らすことができる。

News recommendation is a core technique used by many online news platforms. Recommending high-quality news to users is important for keeping good user experiences and news platforms' reputations. However, existing news recommendation methods mainly aim to optimize news clicks while ignoring the quality of news they recommended, which may lead to recommending news with uninformative content or even clickbaits. In this paper, we propose a quality-aware news recommendation method named QualityRec that can effectively improve the quality of recommended news. In our approach, we first propose an effective news quality evaluation method based on the distributions of users' reading dwell time on news. Next, we propose to incorporate news quality information into user interest modeling by designing a content-quality attention network to select clicked news based on both news semantics and qualities. We further train the recommendation model with an auxiliary news quality prediction task to learn quality-aware recommendation model, and we add a recommendation quality regularization loss to encourage the model to recommend higher-quality news. Extensive experiments on two real-world datasets show that QualityRec can effectively improve the overall quality of recommended news and reduce the recommendation of low-quality news, with even slightly better recommendation accuracy.
翻訳日:2022-03-02 05:37:22 公開日:2022-02-28
# (参考訳) PV局の協調的故障診断のための非同期分散フェデレーション学習 [全文訳有]

Asynchronous Decentralized Federated Learning for Collaborative Fault Diagnosis of PV Stations ( http://arxiv.org/abs/2202.13606v1 )

ライセンス: CC BY 4.0
Qi Liu (1, 2 and 3), Bo Yang (1, 2 and 3), Zhaojian Wang (1, 2 and 3), Dafeng Zhu (1, 2 and 3), Xinyi Wang (1, 2 and 3), Kai Ma (4), Xinping Guan (1, 2 and 3) ((1) Department of Automation, Shanghai Jiao Tong University, Shanghai, China, (2) Key Laboratory of System Control and Information Processing, Ministry of Education of China, Shanghai, China, (3) Shanghai Engineering Research Center of Intelligent Control and Management, Shanghai, China, (4) School of Electrical Engineering, Yanshan University, Qinhuangdao, China.)(参考訳) 様々な太陽光発電(pv)アレイの故障による損失が異なるため、故障タイプの正確な診断がますます重要になっている。 複数のPVステーションは1つに比べ、十分な故障サンプルを収集するが、関心の対立があるため、直接データを共有することはできない。 したがって、連合学習を利用して協調的障害診断モデルを訓練することができる。 しかし、各PVステーションは異なる計算能力とデータ量を有するため、モデル更新機構によりモデリング効率は深刻な影響を受ける。 さらに、PVシステムの安全かつ安定した運用には、単に中央サーバで処理されるのではなく、協調モデリングの堅牢性を保証する必要がある。 これらの課題に対処するために,新しい非同期分散連合学習(adfl)フレームワークを提案する。 各PV局は, 局所モデルだけでなく, モデルパラメータの交換による協調的故障診断にも参加し, 精度を損なうことなく一般化を改善する。 グローバルモデルは中央ノードの障害を回避するために分散的に集約される。 非同期更新方式を設計することにより、通信オーバーヘッドとトレーニング時間が大幅に削減される。 提案手法の有効性を検証するため,実験および数値シミュレーションを行った。

Due to the different losses caused by various photovoltaic (PV) array faults, accurate diagnosis of fault types is becoming increasingly important. Compared with a single one, multiple PV stations collect sufficient fault samples, but their data is not allowed to be shared directly due to potential conflicts of interest. Therefore, federated learning can be exploited to train a collaborative fault diagnosis model. However, the modeling efficiency is seriously affected by the model update mechanism since each PV station has a different computing capability and amount of data. Moreover, for the safe and stable operation of the PV system, the robustness of collaborative modeling must be guaranteed rather than simply being processed on a central server. To address these challenges, a novel asynchronous decentralized federated learning (ADFL) framework is proposed. Each PV station not only trains its local model but also participates in collaborative fault diagnosis by exchanging model parameters to improve the generalization without losing accuracy. The global model is aggregated distributedly to avoid central node failure. By designing the asynchronous update scheme, the communication overhead and training time are greatly reduced. Both the experiments and numerical simulations are carried out to verify the effectiveness of the proposed method.
翻訳日:2022-03-02 05:25:36 公開日:2022-02-28
# (参考訳) 大規模グラフに関する半教師付き学習:Poisson Learningはゲームチェンジャーか? [全文訳有]

Semi-supervised Learning on Large Graphs: is Poisson Learning a Game-Changer? ( http://arxiv.org/abs/2202.13608v1 )

ライセンス: CC BY 4.0
Canh Hao Nguyen(参考訳) 本稿では,グラフベース半教師付き学習におけるポアソン学習について,大グラフ上のラプラス型学習法としてのグローバル情報損失問題を回避することができるかを説明する。 我々の分析から、Poissonの学習は単に閾値付きラプラス正規化であり、この問題を克服することはできない。

We explain Poisson learning on graph-based semi-supervised learning to see if it could avoid the problem of global information loss problem as Laplace-based learning methods on large graphs. From our analysis, Poisson learning is simply Laplace regularization with thresholding, cannot overcome the problem.
翻訳日:2022-03-02 04:58:05 公開日:2022-02-28
# (参考訳) 科学論文におけるスタンス検出:最近よりネガティブになったか? [全文訳有]

Detecting Stance in Scientific Papers: Did we get more Negative Recently? ( http://arxiv.org/abs/2202.13610v1 )

ライセンス: CC BY 4.0
Dominik Beese and Beg\"um Altunba\c{s} and G\"orkem G\"uzeler and Steffen Eger(参考訳) 本稿では、自然言語処理(NLP)と機械学習(ML)の分野における科学論文を分類する。 (i)既存モデルに勝る斬新な技術の導入により、現況を拡大しているか (ii)既存の最先端、すなわち、ある性質(間違った評価、誤ったデータセット、誤解を招くタスク仕様など)に関して不足していることを主に批判している。 私たちは下記の貢献について言及する (i)「肯定的な姿勢」と貢献を有すること (ii)関係業務に対して「否定的姿勢」を有すること。 我々はNLPとMLから2k以上の論文に注釈を付け、SciBERTベースのモデルをトレーニングし、そのタイトルと抽象に基づいて論文のスタンスを自動的に予測する。 その後、NLPおよびMLにおける過去35年間の41k以上の論文の大規模傾向を分析し、論文は時間とともに大幅に肯定的になったが、ネガティブな論文もさらに否定的になり、近年ではかなり否定的な論文が観察されている。 否定的な論文は引用の観点でもより影響力がある。

In this paper, we classify scientific articles in the domain of natural language processing (NLP) and machine learning (ML) into whether (i) they extend the current state-of-the-art by introduction of novel techniques which beat existing models or whether (ii) they mainly criticize the existing state-of-the-art, i.e., that it is deficient with respect to some property (e.g., wrong evaluation, wrong datasets, misleading task specification). We refer to contributions under (i) as having a "positive stance" and contributions under (ii) as having a "negative stance" to related work. We annotate over 2k papers from NLP and ML to train a SciBERT based model to automatically predict the stance of a paper based on its title and abstract. We then analyze large-scale trends on over 41k papers from the last ~35 years in NLP and ML, finding that papers have gotten substantially more positive over time, but negative papers also got more negative and we observe considerably more negative papers in recent years. Negative papers are also more influential in terms of citations they receive.
翻訳日:2022-03-02 04:53:30 公開日:2022-02-28
# (参考訳) トラブルに備え、ダブルにする。 anomaly based intrusion detectionのための教師付きおよび教師なしスタック [全文訳有]

Prepare for Trouble and Make it Double. Supervised and Unsupervised Stacking for AnomalyBased Intrusion Detection ( http://arxiv.org/abs/2202.13611v1 )

ライセンス: CC BY 4.0
Tommaso Zoppi, Andrea Ceccarelli(参考訳) 過去数十年間、研究者、実践家、企業は、セキュリティの脅威に起因する悪質な活動を検出するメカニズムの開発に苦労した。 多くのソリューションの中で、ネットワーク侵入検出は、ネットワークトラフィックを分析し、ルールや機械学習(ML)によって進行中の侵入を検出し、そのようなトラフィックを処理し、侵入を疑うモデルを学習する最も一般的な方法の1つである。 監視されたMLは既知の脅威を検出するのに非常に効果的であるが、教師なしMLによって検出されるゼロデイアタック(学習段階では知られていない)を特定するのに苦労する。 残念ながら、ネットワーク侵入検出に両方のアプローチを併用した決定的な答えはない。 本稿では,ゼロデイ攻撃の問題を拡張し,教師付きアルゴリズムと教師なしアルゴリズムを組み合わせる必要性を動機づける。 我々は,2層スタッカという形でメタラーニングの採用を提案し,既知の脅威と未知の脅威の両方を検出するための混合アプローチを提案する。 次に、実験的なキャンペーンを通じてStackerを実装し、実証的に評価します。 一 教師なし基礎レベルの学習者によるメタ機能に関する議論 二 最も有望な監督されたメタレベル分類器の選択及び 三 監督及び監督されていない分類器に関するスタックの分類スコアのベンチマーク 最後に、我々のソリューションを最近の文献の既存の作品と比較する。 全体としては、私たちが検討した7つの公開データセットすべてにおいて、(未)教師付きmlアルゴリズムに対する誤分類を削減し、これらの7つのデータセットのうち6つで既存の研究を上回っています。 特に、教師付きアルゴリズムよりもゼロデイアタックを検出でき、主要な弱点を制限できるが、既知のアタックを検出できる十分な能力を維持している。

In the last decades, researchers, practitioners and companies struggled in devising mechanisms to detect malicious activities originating security threats. Amongst the many solutions, network intrusion detection emerged as one of the most popular to analyze network traffic and detect ongoing intrusions based on rules or by means of Machine Learners (MLs), which process such traffic and learn a model to suspect intrusions. Supervised MLs are very effective in detecting known threats, but struggle in identifying zero-day attacks (unknown during learning phase), which instead can be detected through unsupervised MLs. Unfortunately, there are no definitive answers on the combined use of both approaches for network intrusion detection. In this paper we first expand the problem of zero-day attacks and motivate the need to combine supervised and unsupervised algorithms. We propose the adoption of meta-learning, in the form of a two-layer Stacker, to create a mixed approach that detects both known and unknown threats. Then we implement and empirically evaluate our Stacker through an experimental campaign that allows i) debating on meta-features crafted through unsupervised base-level learners, ii) electing the most promising supervised meta-level classifiers, and iii) benchmarking classification scores of the Stacker with respect to supervised and unsupervised classifiers. Last, we compare our solution with existing works from the recent literature. Overall, our Stacker reduces misclassifications with respect to (un)supervised ML algorithms in all the 7 public datasets we considered, and outperforms existing studies in 6 out of those 7 datasets. In particular, it turns out to be more effective in detecting zero-day attacks than supervised algorithms, limiting their main weakness but still maintaining adequate capabilities in detecting known attacks.
翻訳日:2022-03-02 04:39:19 公開日:2022-02-28
# (参考訳) 深層学習によるRydberg多周波マイクロ波認識 [全文訳有]

Deep learning enhanced Rydberg multifrequency microwave recognition ( http://arxiv.org/abs/2202.13617v1 )

ライセンス: CC BY 4.0
Zong-Kai Liu, Li-Hua Zhang, Bang Liu, Zheng-Yuan Zhang, Guang-Can Guo, Dong-Sheng Ding, and Bao-Sen Shi(参考訳) 多周波マイクロ波(MW)電界の認識は, 多周波電界の複雑な干渉により, 実用化が困難である。 Rydberg原子を用いた多周波MW電界の測定は、MWレーダとMW通信において有望である。 しかし、リドバーグ原子はMW信号だけでなく、原子衝突や環境からのノイズにも敏感であり、光-原子相互作用のリンドブラッド・マスター方程式の解はノイズと高次項の含みによって複雑である。 ここでは、これらの問題を、Rydberg原子とディープラーニングモデルを組み合わせることで解決し、このモデルがRydberg原子の感度を使用し、マスター方程式を解くことなくノイズの影響を低減することを実証する。 原理実証として、深層学習強化Rydberg受信機は、周波数分割多重(FDM)信号の直接復号化を可能にする。 この種のセンシング技術は、RydbergのMWフィールドセンシングと通信の恩恵を受けることが期待されている。

Recognition of multifrequency microwave (MW) electric fields is challenging because of the complex interference of multifrequency fields in practical applications. Rydberg atom-based measurements for multifrequency MW electric fields is promising in MW radar and MW communications. However, Rydberg atoms are sensitive not only to the MW signal but also to noise from atomic collisions and the environment, meaning that solution of the governing Lindblad master equation of light-atom interactions is complicated by the inclusion of noise and high-order terms. Here, we solve these problems by combining Rydberg atoms with deep learning model, demonstrating that this model uses the sensitivity of the Rydberg atoms while also reducing the impact of noise without solving the master equation. As a proof-of-principle demonstration, the deep learning enhanced Rydberg receiver allows direct decoding of the frequency-division multiplexed (FDM) signal. This type of sensing technology is expected to benefit Rydberg-based MW fields sensing and communication.
翻訳日:2022-03-02 04:10:56 公開日:2022-02-28
# (参考訳) ロバストな質問応答のための語彙埋め込みの改善 [全文訳有]

Improving Lexical Embeddings for Robust Question Answering ( http://arxiv.org/abs/2202.13636v1 )

ライセンス: CC BY 4.0
Weiwen Xu, Bowei Zou, Wai Lam, Ai Ti Aw(参考訳) 質問応答(QA)の最近の技術は、人的性能を超越したいくつかのQAモデルにおいて、顕著な性能向上を実現している。 しかし、言語を真に理解する上でのこれらのモデルの能力はいまだに疑わしいままであり、そのモデルは敵対的な例に直面すると限界を明らかにする。 QAモデルのロバスト性と一般化能力を強化するため,語彙埋め込みのロバスト性を改善するためにセマンティックおよびコンテキスト制約(ESC)アプローチによる表現拡張を提案する。 具体的には、意味的制約を伴う摂動を挿入し、文脈制約損失を通じて拡張された文脈表現を訓練し、正しい答えの文脈ヒントをよりよく識別する。 実験の結果,本手法は4つの逆テストセットにおいて有意なロバスト性改善をもたらすことがわかった。

Recent techniques in Question Answering (QA) have gained remarkable performance improvement with some QA models even surpassed human performance. However, the ability of these models in truly understanding the language still remains dubious and the models are revealing limitations when facing adversarial examples. To strengthen the robustness of QA models and their generalization ability, we propose a representation Enhancement via Semantic and Context constraints (ESC) approach to improve the robustness of lexical embeddings. Specifically, we insert perturbations with semantic constraints and train enhanced contextual representations via a context-constraint loss to better distinguish the context clues for the correct answer. Experimental results show that our approach gains significant robustness improvement on four adversarial test sets.
翻訳日:2022-03-02 03:46:28 公開日:2022-02-28
# (参考訳) GausSetExpander: エンティティセット拡張のためのシンプルなアプローチ [全文訳有]

GausSetExpander: A Simple Approach for Entity Set Expansion ( http://arxiv.org/abs/2202.13649v1 )

ライセンス: CC BY 4.0
A\"issatou Diallo and Johannes F\"urnkranz(参考訳) エンティティセットの拡張は、小さなエンティティセットを大きなエンティティに拡張することを目的とした重要なnlpタスクである。 本稿では,最適輸送技術に基づく教師なしアプローチであるgaussetexpanderを提案する。 シードセットを最も完成させるエンティティを選択することで問題を再フレーム化することを提案する。 このため,集合を平均を表すセントロイドとスケールパラメータで表されるスプレッドとの楕円分布として解釈する。 最も優れた実体は、集合の広がりを最小限に増やすものである。 我々は,最先端のアプローチと比較し,このアプローチの有効性を実証する。

Entity Set Expansion is an important NLP task that aims at expanding a small set of entities into a larger one with items from a large pool of candidates. In this paper, we propose GausSetExpander, an unsupervised approach based on optimal transport techniques. We propose to re-frame the problem as choosing the entity that best completes the seed set. For this, we interpret a set as an elliptical distribution with a centroid which represents the mean and a spread that is represented by the scale parameter. The best entity is the one that increases the spread of the set the least. We demonstrate the validity of our approach by comparing to state-of-the art approaches.
翻訳日:2022-03-02 03:36:33 公開日:2022-02-28
# (参考訳) 次世代ヘットネットにおける複数RATアサインメントと動的リソース割り当てのための階層型多エージェントDRLベースフレームワーク [全文訳有]

Hierarchical Multi-Agent DRL-Based Framework for Joint Multi-RAT Assignment and Dynamic Resource Allocation in Next-Generation HetNets ( http://arxiv.org/abs/2202.13652v1 )

ライセンス: CC BY 4.0
Abdulmalik Alwarafy, Bekir Sait Ciftler, Mohamed Abdallah, Mounir Hamdi, and Naofal Al-Dhahir(参考訳) 本稿では,次世代ヘテロジニアス無線ネットワーク(HetNets)における無線アクセス技術(RAT)の割り当てと電力割り当てによるコストアウェアダウンリンク最大化の問題について考察する。 我々は,マルチラットとマルチコネクティビティエッジデバイス (eds) を提供する未来のヘトネットを考えるとともに,この問題を混合整数非線形プログラミング (minp) 問題として定式化する。 この問題の複雑さと組合せ性が高く,従来の手法では解決が困難であったため,DeepRATと呼ばれる階層型マルチエージェント深部強化学習(DRL)ベースのフレームワークを提案し,効率よく解き,システムダイナミクスを学習する。 特に、DeepRATフレームワークはこの問題を、単一エージェントのDeep Q Network(DQN)アルゴリズムを実装するRATs-EDs代入ステージと、マルチエージェントのDeep Deterministic Policy Gradient(DDPG)アルゴリズムを使用するパワー割り当てステージの2つの主要なステージに分解する。 シミュレーションを用いて,様々なDRLエージェントが効率よくシステムダイナミクスを学習し,グローバルな最適ポリシーを導出する方法を実証する。 さらにシミュレーションの結果,提案したDeepRATアルゴリズムはネットワークユーティリティの観点から既存の最先端ヒューリスティックアプローチよりも優れていることがわかった。 最後に、EDsモビリティなどのネットワークダイナミクスの急激な変化に対して、DeepRATモデルが迅速かつ動的に適応できることを定量的に示す。

This paper considers the problem of cost-aware downlink sum-rate maximization via joint optimal radio access technologies (RATs) assignment and power allocation in next-generation heterogeneous wireless networks (HetNets). We consider a future HetNet comprised of multi-RATs and serving multi-connectivity edge devices (EDs), and we formulate the problem as mixed-integer non-linear programming (MINP) problem. Due to the high complexity and combinatorial nature of this problem and the difficulty to solve it using conventional methods, we propose a hierarchical multi-agent deep reinforcement learning (DRL)-based framework, called DeepRAT, to solve it efficiently and learn system dynamics. In particular, the DeepRAT framework decomposes the problem into two main stages; the RATs-EDs assignment stage, which implements a single-agent Deep Q Network (DQN) algorithm, and the power allocation stage, which utilizes a multi-agent Deep Deterministic Policy Gradient (DDPG) algorithm. Using simulations, we demonstrate how the various DRL agents efficiently interact to learn system dynamics and derive the global optimal policy. Furthermore, our simulation results show that the proposed DeepRAT algorithm outperforms existing state-of-the-art heuristic approaches in terms of network utility. Finally, we quantitatively show the ability of the DeepRAT model to quickly and dynamically adapt to abrupt changes in network dynamics, such as EDs mobility.
翻訳日:2022-03-02 03:23:44 公開日:2022-02-28
# (参考訳) Avalanche RL: 継続的強化学習ライブラリ [全文訳有]

Avalanche RL: a Continual Reinforcement Learning Library ( http://arxiv.org/abs/2202.13657v1 )

ライセンス: CC BY 4.0
Nicol\`o Lucchesi, Antonio Carta and Vincenzo Lomonaco(参考訳) 連続的強化学習(continual reinforcement learning, crl)は、エージェントが時間とともに絶えず変化する環境(経験の流れ)と対話することを学ぶ、難しい設定である。 本稿では,連続的なタスクストリーム上でエージェントのトレーニングを容易にする,連続的な強化学習のためのライブラリであるavalanche rlについて述べる。 Avalanche RLはPyTorchをベースにしており、あらゆるOpenAI Gym環境をサポートしている。 その設計は、より人気のある連続学習ライブラリの1つであるavalancheをベースにしており、多くの連続学習戦略を再利用し、強化学習と連続学習研究者とのインタラクションを改善することができる。 さらに,CRL研究のための光実写シミュレータHabitat-Simの利用を可能にする,新しいベンチマークと高レベルライブラリであるContinuous Habitat-Labを提案する。 全体として、Avalanche RLは、継続的な強化学習アプリケーションという共通の枠組みの下で統一しようと試みており、この分野の成長を促進することを願っている。

Continual Reinforcement Learning (CRL) is a challenging setting where an agent learns to interact with an environment that is constantly changing over time (the stream of experiences). In this paper, we describe Avalanche RL, a library for Continual Reinforcement Learning which allows to easily train agents on a continuous stream of tasks. Avalanche RL is based on PyTorch and supports any OpenAI Gym environment. Its design is based on Avalanche, one of the more popular continual learning libraries, which allow us to reuse a large number of continual learning strategies and improve the interaction between reinforcement learning and continual learning researchers. Additionally, we propose Continual Habitat-Lab, a novel benchmark and a high-level library which enables the usage of the photorealistic simulator Habitat-Sim for CRL research. Overall, Avalanche RL attempts to unify under a common framework continual reinforcement learning applications, which we hope will foster the growth of the field.
翻訳日:2022-03-02 02:58:40 公開日:2022-02-28
# (参考訳) ニューラルアダプティブSCEneの追跡 [全文訳有]

Neural Adaptive SCEne Tracing ( http://arxiv.org/abs/2202.13664v1 )

ライセンス: CC BY 4.0
Rui Li, Darius R\"Uckert, Yuanhao Wang, Ramzi Idoughi, Wolfgang Heidrich(参考訳) 暗黙のニューラルネットワークによるニューラルレンダリングは、高計算コストで優れた品質を実現するために、シーン再構築の魅力的な提案として最近登場した。 このような手法の最新の世代はレンダリング(推論)の時間を進歩させてきたが、再構築(トレーニング)の時間を改善するための進展はほとんどなかった。 本研究では,ハイブリッドな明示的ニューラルネットワーク表現を直接トレーニングした最初のニューラルネットワークレンダリング手法であるneural adaptive scene tracing(nascent)を提案する。 NAScenTは、葉ノードごとに1つのニューラルネットワークと階層的なオクツリー表現を使用し、この表現を2段階のサンプリングプロセスと組み合わせて、被写体表面に最も重要な光サンプルを集中させる。 その結果、nascentは、屋外環境を捉えたuavのような、大きくて人口の少ない大きなボリュームと、幾何学的複雑度の高い小さなシーンの両方を含む挑戦的なシーンを再構築することができる。 nascentは、品質とトレーニング時間の両方において、既存のニューラルレンダリングアプローチを上回っている。

Neural rendering with implicit neural networks has recently emerged as an attractive proposition for scene reconstruction, achieving excellent quality albeit at high computational cost. While the most recent generation of such methods has made progress on the rendering (inference) times, very little progress has been made on improving the reconstruction (training) times. In this work, we present Neural Adaptive Scene Tracing (NAScenT), the first neural rendering method based on directly training a hybrid explicit-implicit neural representation. NAScenT uses a hierarchical octree representation with one neural network per leaf node and combines this representation with a two-stage sampling process that concentrates ray samples where they matter most near object surfaces. As a result, NAScenT is capable of reconstructing challenging scenes including both large, sparsely populated volumes like UAV captured outdoor environments, as well as small scenes with high geometric complexity. NAScenT outperforms existing neural rendering approaches in terms of both quality and training time.
翻訳日:2022-03-02 02:42:25 公開日:2022-02-28
# (参考訳) 音声・視覚相関学習の最近の進歩と課題 [全文訳有]

Recent Advances and Challenges in Deep Audio-Visual Correlation Learning ( http://arxiv.org/abs/2202.13673v1 )

ライセンス: CC BY-SA 4.0
Lu\'is Vila\c{c}a, Yi Yu and Paula Viana(参考訳) 音声と視覚の相関学習は,音声と映像の自然な現象を捉えることを目的としている。 ディープラーニングの急速な成長に伴い、この新たな研究課題に注目が集まっている。 過去数年間にわたり,音声と視覚の相関学習のための様々な手法やデータセットが提案されてきた。 本稿では,音声と映像の相関関係を学習するために使用される最新技術(SOTA)モデルに焦点をあてるとともに,AIマルチメディアに適用される定義やパラダイムの課題についても論じる。 また,視聴覚相関学習モデルの最適化に多用される目的関数について検討し,最適化過程における視聴覚データの活用方法について考察する。 最も重要なことは、SOTA音声-視覚相関学習の最近の進歩を広範囲に比較し、要約し、今後の研究方向性について議論することである。

Audio-visual correlation learning aims to capture essential correspondences and understand natural phenomena between audio and video. With the rapid growth of deep learning, an increasing amount of attention has been paid to this emerging research issue. Through the past few years, various methods and datasets have been proposed for audio-visual correlation learning, which motivate us to conclude a comprehensive survey. This survey paper focuses on state-of-the-art (SOTA) models used to learn correlations between audio and video, but also discusses some tasks of definition and paradigm applied in AI multimedia. In addition, we investigate some objective functions frequently used for optimizing audio-visual correlation learning models and discuss how audio-visual data is exploited in the optimization process. Most importantly, we provide an extensive comparison and summarization of the recent progress of SOTA audio-visual correlation learning and discuss future research directions.
翻訳日:2022-03-02 02:25:28 公開日:2022-02-28
# (参考訳) 空間富化グラフニューラルネットワークを用いた関心点関係推定 [全文訳有]

Points-of-Interest Relationship Inference with Spatial-enriched Graph Neural Networks ( http://arxiv.org/abs/2202.13686v1 )

ライセンス: CC BY 4.0
Yile Chen, Xiucheng Li, Gao Cong, Cheng Long, Zhifeng Bao, Shang Liu, Wanli Gu, Fuzheng Zhang(参考訳) 位置情報ベースのサービスの基本コンポーネントであるPOI(point-of-interes ts)の関係を推測することは、サービスプロバイダがビジネスオーナーや顧客に優れたユーザエクスペリエンスを提供する上で非常に重要です。 既存の関係推論手法の多くはPOIを対象としていないため、POIの関係に大きな影響を及ぼす独自の空間特性を捉えることができない。 本研究では,複数の関係型に対するPOI関係推論に取り組むためにPRIMを提案する。 PRIMは、重み付きリレーショナルグラフニューラルネットワーク、カテゴリー分類統合、自己注意型空間文脈抽出器、距離特異的スコアリング機能を含む4つの新しいコンポーネントを備えている。 2つの実世界のデータセットに対する大規模な実験は、PRIMが最先端のベースラインと比較して最高の結果を得ることを示した。

As a fundamental component in location-based services, inferring the relationship between points-of-interests (POIs) is very critical for service providers to offer good user experience to business owners and customers. Most of the existing methods for relationship inference are not targeted at POI, thus failing to capture unique spatial characteristics that have huge effects on POI relationships. In this work we propose PRIM to tackle POI relationship inference for multiple relation types. PRIM features four novel components, including a weighted relational graph neural network, category taxonomy integration, a self-attentive spatial context extractor, and a distance-specific scoring function. Extensive experiments on two real-world datasets show that PRIM achieves the best results compared to state-of-the-art baselines and it is robust against data sparsity and is applicable to unseen cases in practice.
翻訳日:2022-03-02 02:07:18 公開日:2022-02-28
# (参考訳) Monkey Business:強化学習が仮想ネットワークの埋め込みを近隣で検索 [全文訳有]

Monkey Business: Reinforcement learning meets neighborhood search for Virtual Network Embedding ( http://arxiv.org/abs/2202.13706v1 )

ライセンス: CC BY 4.0
Maxime Elkael, Massinissa Ait Aba, Andrea Araldo, Hind Castel, Badii Jouaber(参考訳) 本稿では,5Gネットワークスライシングにおける仮想ネットワーク埋め込み(VNE)問題について考察する。 この問題は、複数の仮想ネットワーク(VN)を基板仮想化物理ネットワークに割り当てると同時に、リソース利用量、VNの最大配置数、ネットワークオペレータのメリットを最大化する必要がある。 時間とともにスライスが到着する問題のオンライン版を解決します。 NEPA(Neighborhood Enhanced Policy Adaptation)と呼ばれるアルゴリズムを提案する。Nested Rollout Policy Adaptation (NRPA)アルゴリズムは、よく知られたモンテカルロ木探索(MCTS)の変種である。 提案アルゴリズムの重要な特徴は,NRPAが状態木の1つの枝から得た知識を,異なるスタートの枝に対して活用できないことである。 nepaは、nrpaとneighentdhood searchをフルガルな方法で組み合わせて学習し、実行時間を低く保ちながら、有望なソリューションのみを改善する。 このテクニックを猿のビジネスと呼んでいるのは、サルが毎回降りるのではなく、木から木へとジャンプするのと同じように、ある興味深い枝から別の枝へとジャンプするからである。 NEPAは、実際のトポロジと合成トポロジの両方で、他の最先端のアルゴリズムと比較して、受入率と収益対コストの比でより良い結果を得る。

In this article, we consider the Virtual Network Embedding (VNE) problem for 5G networks slicing. This problem requires to allocate multiple Virtual Networks (VN) on a substrate virtualized physical network while maximizing among others, resource utilization, maximum number of placed VNs and network operator's benefit. We solve the online version of the problem where slices arrive over time. Inspired by the Nested Rollout Policy Adaptation (NRPA) algorithm, a variant of the well known Monte Carlo Tree Search (MCTS) that learns how to perform good simulations over time, we propose a new algorithm that we call Neighborhood Enhanced Policy Adaptation (NEPA). The key feature of our algorithm is to observe NRPA cannot exploit knowledge acquired in one branch of the state tree for another one which starts differently. NEPA learns by combining NRPA with Neighbordhood Search in a frugal manner which improves only promising solutions while keeping the running time low. We call this technique a monkey business because it comes down to jumping from one interesting branch to the other, similar to how monkeys jump from tree to tree instead of going down everytime. NEPA achieves better results in terms of acceptance ratio and revenue-to-cost ratio compared to other state-of-the-art algorithms, both on real and synthetic topologies.
翻訳日:2022-03-02 01:48:24 公開日:2022-02-28
# (参考訳) フェアネス制約付き高速特徴選択

Fast Feature Selection with Fairness Constraints ( http://arxiv.org/abs/2202.13718v1 )

ライセンス: CC BY 4.0
Francesco Quinzan, Rajiv Khanna, Moshik Hershcovitch, Sarel Cohen, Daniel G. Waddington, Tobias Friedrich, Michael W. Mahoney(参考訳) モデル構築における最適特徴の選択に関する基礎的問題について検討する。 この問題は、greedyアルゴリズムの変種を使用しても、大規模なデータセットで計算的に困難である。 この課題に対処するために,最近提案された部分モジュラ関数のグリーディフォワード選択のための適応クエリモデルを拡張し,非部分モジュラ関数の直交マッチング追跡のより高速なパラダイムに拡張する。 私たちの拡張では、特定の公正基準を特徴選択プロセスにエンコードするために、下向きの制約を使用することもできます。 提案アルゴリズムは、適応型クエリモデルにおいて指数関数的に高速な並列実行を実現する。 提案アルゴリズムは, 一定の公正性制約を設計によって処理する。 我々は,標準仮定に基づくアルゴリズムの強い近似保証を証明した。 これらの保証は一般化線型モデルを含む多くのパラメトリックモデルに適用できる。 最後に,提案アルゴリズムは実世界および合成データセット上で,特徴選択のための最先端技術と良好に競合することを示す。

We study the fundamental problem of selecting optimal features for model construction. This problem is computationally challenging on large datasets, even with the use of greedy algorithm variants. To address this challenge, we extend the adaptive query model, recently proposed for the greedy forward selection for submodular functions, to the faster paradigm of Orthogonal Matching Pursuit for non-submodular functions. Our extension also allows the use of downward-closed constraints, which can be used to encode certain fairness criteria into the feature selection process. The proposed algorithm achieves exponentially fast parallel run time in the adaptive query model, scaling much better than prior work. The proposed algorithm also handles certain fairness constraints by design. We prove strong approximation guarantees for the algorithm based on standard assumptions. These guarantees are applicable to many parametric models, including Generalized Linear Models. Finally, we demonstrate empirically that the proposed algorithm competes favorably with state-of-the-art techniques for feature selection, on real-world and synthetic datasets.
翻訳日:2022-03-02 01:15:48 公開日:2022-02-28
# (参考訳) カーネル法における大規模学習率の利点について [全文訳有]

On the Benefits of Large Learning Rates for Kernel Methods ( http://arxiv.org/abs/2202.13733v1 )

ライセンス: CC BY 4.0
Gaspard Beugnot, Julien Mairal, Alessandro Rudi(参考訳) 本稿では,勾配降下アルゴリズムにおける学習率の大きい推定器の一般化性能に関する興味深い現象について検討する。 深層学習の文献で最初に観察された結果,結果の最適化問題は凸であるにもかかわらず,カーネル手法の文脈で現象を正確に特徴付けることができることがわかった。 具体的には、分離可能なヒルベルト空間における二次目的の最小化を考察し、学習速度の選択がヘッセンの固有ベクトルに対する解のスペクトル分解に影響を与えることを示した。 これは、2次元のおもちゃ問題に関するnakkiran (2020) による直観を、カーネルリッジ回帰のような現実的な学習シナリオにまで拡張する。 列車とテストの目標の間にミスマッチがある場合,大きな学習速度が有益であることが証明されるが,列車とテストデータ分布の特定のミスマッチを仮定することなく,すでに分類タスクで発生している理由をさらに説明する。

This paper studies an intriguing phenomenon related to the good generalization performance of estimators obtained by using large learning rates within gradient descent algorithms. First observed in the deep learning literature, we show that a phenomenon can be precisely characterized in the context of kernel methods, even though the resulting optimization problem is convex. Specifically, we consider the minimization of a quadratic objective in a separable Hilbert space, and show that with early stopping, the choice of learning rate influences the spectral decomposition of the obtained solution on the Hessian's eigenvectors. This extends an intuition described by Nakkiran (2020) on a two-dimensional toy problem to realistic learning scenarios such as kernel ridge regression. While large learning rates may be proven beneficial as soon as there is a mismatch between the train and test objectives, we further explain why it already occurs in classification tasks without assuming any particular mismatch between train and test data distributions.
翻訳日:2022-03-02 01:14:12 公開日:2022-02-28
# (参考訳) クラスタリングと深層学習を用いた複数インプットフレームワークの欠落値推定 [全文訳有]

Missing Value Estimation using Clustering and Deep Learning within Multiple Imputation Framework ( http://arxiv.org/abs/2202.13734v1 )

ライセンス: CC BY-SA 4.0
Manar D Samad, Sakib Abrar, Norou Diawara(参考訳) 表データの欠落値は機械学習の使用と性能を制限し、欠落した値の計算を必要とする。 最も一般的なインプテーションアルゴリズムは、観測値の線形条件付けから欠落した値を推定する連鎖方程式 (chains of equation, mice) を用いた複数のインプテーションである。 本稿では,MICEの線形条件をアンサンブル学習とディープニューラルネットワーク(DNN)に置き換えることで,MICEの計算精度とインプットデータの分類精度の両方を改善する方法を提案する。 トレーニングデータから得られたクラスタラベル(CISCL)を用いて個々のサンプルを特徴付けることにより、計算精度をさらに向上する。 我々は,6つの表形式のデータセット,最大80%の欠落,および3つの欠落型(ランダムに欠落,ランダムに欠落,ランダムに欠落)を網羅的に分析した結果,MICE内のアンサンブルや深層学習は,CISCLより一貫して優れていることがわかった。 その結果, CISCL+b-MICEは, 欠失率, 欠失率でb-MICEを上回った。 提案したDNNベースのMICEと勾配向上MICEとCISCL(GB-MICE-CISCL) は,多くの実験例において,他の7つのベースライン計算アルゴリズムより優れていた。 gb-miceインデュートデータの分類精度は,すべての欠落率でgb-mice-cisclインデュートデータにより向上する。 また,マウスの欠落率 (>50%) と欠落している型がランダムでない場合の欠点も明らかになった。 本稿では、欠落率と型を持つデータセットの最適なインプテーションモデルを特定するための一般化したアプローチを提案する。

Missing values in tabular data restrict the use and performance of machine learning, requiring the imputation of missing values. The most popular imputation algorithm is arguably multiple imputations using chains of equations (MICE), which estimates missing values from linear conditioning on observed values. This paper proposes methods to improve both the imputation accuracy of MICE and the classification accuracy of imputed data by replacing MICE's linear conditioning with ensemble learning and deep neural networks (DNN). The imputation accuracy is further improved by characterizing individual samples with cluster labels (CISCL) obtained from the training data. Our extensive analyses involving six tabular data sets, up to 80% missingness, and three missingness types (missing completely at random, missing at random, missing not at random) reveal that ensemble or deep learning within MICE is superior to the baseline MICE (b-MICE), both of which are consistently outperformed by CISCL. Results show that CISCL plus b-MICE outperforms b-MICE for all percentages and types of missingness. Our proposed DNN based MICE and gradient boosting MICE plus CISCL (GB-MICE-CISCL) outperform seven other baseline imputation algorithms in most experimental cases. The classification accuracy on the data imputed by GB-MICE is improved by proposed GB-MICE-CISCL imputed data across all missingness percentages. Results also reveal a shortcoming of the MICE framework at high missingness (>50%) and when the missing type is not random. This paper provides a generalized approach to identifying the best imputation model for a data set with a missingness percentage and type.
翻訳日:2022-03-02 00:46:32 公開日:2022-02-28
# (参考訳) 適応入力に対するcountsketchのロバスト性について [全文訳有]

On the Robustness of CountSketch to Adaptive Inputs ( http://arxiv.org/abs/2202.13736v1 )

ライセンス: CC BY 4.0
Edith Cohen, Xin Lyu, Jelani Nelson, Tam\'as Sarl\'os, Moshe Shechner, Uri Stemmer(参考訳) CountSketchは、ベクトルをランダム化線形測定を用いて低次元にマッピングする一般的な次元削減手法である。 このスケッチは、ベクトルの$\ell_2$-heavyヒットタの回収をサポートする($v[i]^2 \geq \frac{1}{k}\|\boldsymbol{v}\|^2_2$)。 入力ベクトルが先行入力からの出力に依存する可能性のある適応的設定におけるスケッチのロバスト性について検討する。 適応的な設定は、フィードバックや敵攻撃を伴うプロセスで発生する。 古典的推定器はロバストではなく、スケッチサイズの順序の複数のクエリで攻撃可能であることを示す。 我々は,先行作業よりも$\sqrt{k}$ ($k$ heavy hitters)の改善係数である,スケッチサイズにおけるクエリの二次数を可能にするロバストな推定器を提案する。

CountSketch is a popular dimensionality reduction technique that maps vectors to a lower dimension using randomized linear measurements. The sketch supports recovering $\ell_2$-heavy hitters of a vector (entries with $v[i]^2 \geq \frac{1}{k}\|\boldsymbol{v}\|^2_2$). We study the robustness of the sketch in adaptive settings where input vectors may depend on the output from prior inputs. Adaptive settings arise in processes with feedback or with adversarial attacks. We show that the classic estimator is not robust, and can be attacked with a number of queries of the order of the sketch size. We propose a robust estimator (for a slightly modified sketch) that allows for quadratic number of queries in the sketch size, which is an improvement factor of $\sqrt{k}$ (for $k$ heavy hitters) over prior work.
翻訳日:2022-03-02 00:27:54 公開日:2022-02-28
# (参考訳) ハイブリッド・アドバーサル・トレーニングによるロバスト・スタック・カプセル自動エンコーダの開発 [全文訳有]

Towards Robust Stacked Capsule Autoencoder with Hybrid Adversarial Training ( http://arxiv.org/abs/2202.13755v1 )

ライセンス: CC BY 4.0
Jiazhu Dai, Siwei Xiong(参考訳) カプセルネットワーク(capsnets)は、特徴の空間的関係に基づいて画像を分類する新しいニューラルネットワークである。 特徴のポーズとその相対位置を分析することで、アフィン変換後の画像を認識することができる。 積み重ねられたカプセルオートエンコーダ(SCAE)は最先端のCapsNetであり、CapsNetの教師なしの分類を初めて達成した。 しかし、セキュリティ上の脆弱性やSCAEの堅牢性はめったに調査されていない。 本稿では,画像の本来のカテゴリに関連するオブジェクトカプセルのコントリビューションを減らして,攻撃者が敵の摂動を発生させることができるSCAEに対する回避攻撃を提案する。 逆の摂動は元の画像に適用され、摂動された画像は誤分類される。 さらに,このような回避攻撃に対するHAT(Hybrid Adversarial Training)と呼ばれる防御手法を提案する。 HATは、より良い堅牢性と安定性を達成するために、敵の訓練と敵の蒸留を利用している。 本研究では, 防御法と実験結果から, 改良SCAEモデルが回避攻撃下で82.14%の分類精度を達成できることを示す。 ソースコードはhttps://github.com/F rostbiteXSW/SCAE_Def enseで公開されている。

Capsule networks (CapsNets) are new neural networks that classify images based on the spatial relationships of features. By analyzing the pose of features and their relative positions, it is more capable to recognize images after affine transformation. The stacked capsule autoencoder (SCAE) is a state-of-the-art CapsNet, and achieved unsupervised classification of CapsNets for the first time. However, the security vulnerabilities and the robustness of the SCAE has rarely been explored. In this paper, we propose an evasion attack against SCAE, where the attacker can generate adversarial perturbations based on reducing the contribution of the object capsules in SCAE related to the original category of the image. The adversarial perturbations are then applied to the original images, and the perturbed images will be misclassified. Furthermore, we propose a defense method called Hybrid Adversarial Training (HAT) against such evasion attacks. HAT makes use of adversarial training and adversarial distillation to achieve better robustness and stability. We evaluate the defense method and the experimental results show that the refined SCAE model can achieve 82.14% classification accuracy under evasion attack. The source code is available at https://github.com/F rostbiteXSW/SCAE_Def ense.
翻訳日:2022-03-01 23:42:52 公開日:2022-02-28
# (参考訳) 因果フェアネスによる選択・無視・挑戦 [全文訳有]

Selection, Ignorability and Challenges With Causal Fairness ( http://arxiv.org/abs/2202.13774v1 )

ライセンス: CC BY 4.0
Jake Fawkes, Robin Evans, Dino Sejdinovic(参考訳) 本稿では,因果カウンターファクトを用いた人気フェアネス手法について考察する。 これらの手法は、誰かの人種、性別、宗教が事実上異なる場合の予測と一致する場合、予測が公平であるという直感的な考えを捉えている。 これを達成するためには、反証的にこれらの特徴を変えるためには、誰かの姿をキャプチャできる因果モデルが必要です。 しかし、このようなことが可能なモデルは、フェアネス文学において一般的に考慮される、特によく振る舞うクラスの外にある必要があると論じる。 これは、公平性の設定において、このクラスのモデルは特に強い因果仮定を伴い、通常ランダムに制御されたトライアルでのみ見られるためである。 一般論として、これはありそうにない。 また,より広い個体群からサンプルが選択されていることから,明確に否定されるケースが多い。 このことは, 対実的公正性や, より一般的な因果的公正性手法の適用に困難をもたらすことを示す。

In this paper we look at popular fairness methods that use causal counterfactuals. These methods capture the intuitive notion that a prediction is fair if it coincides with the prediction that would have been made if someone's race, gender or religion were counterfactually different. In order to achieve this, we must have causal models that are able to capture what someone would be like if we were to counterfactually change these traits. However, we argue that any model that can do this must lie outside the particularly well behaved class that is commonly considered in the fairness literature. This is because in fairness settings, models in this class entail a particularly strong causal assumption, normally only seen in a randomised controlled trial. We argue that in general this is unlikely to hold. Furthermore, we show in many cases it can be explicitly rejected due to the fact that samples are selected from a wider population. We show this creates difficulties for counterfactual fairness as well as for the application of more general causal fairness methods.
翻訳日:2022-03-01 23:26:07 公開日:2022-02-28
# (参考訳) 規則に基づく進化ベイズ学習 [全文訳有]

Rule-based Evolutionary Bayesian Learning ( http://arxiv.org/abs/2202.13778v1 )

ライセンス: CC BY 4.0
Themistoklis Botsas, Lachlan R. Mason, Omar K. Matar, Indranil Pan(参考訳) これまでの研究で、ルールベースのベイズ回帰(Bayesian Regression)を導入しました。 (i)一般枠組みと不確実性定量化のためのベイズ推論 (ii)専門知識と直感の体系化のための規則に基づくシステム。 結果として得られる方法は、一般的なベイズ前置値と同等のペナルティを生成するが、標準的なベイズ文脈では利用できない情報も含んでいる。 本研究では, 上記の手法を, 規則の導出の自動化に活用する記号型遺伝的プログラミング手法である文法進化により拡張する。 私たちのモチベーションは、文法的な進化は、専門家の知識と同等の貴重な情報を持つデータからパターンを検出できるということです。 本稿では,実データだけでなく合成データにも適用することで,規則に基づく進化ベイズ学習手法の利用を説明し,ポイント予測と関連する不確実性の観点から結果を検討する。

In our previous work, we introduced the rule-based Bayesian Regression, a methodology that leverages two concepts: (i) Bayesian inference, for the general framework and uncertainty quantification and (ii) rule-based systems for the incorporation of expert knowledge and intuition. The resulting method creates a penalty equivalent to a common Bayesian prior, but it also includes information that typically would not be available within a standard Bayesian context. In this work, we extend the aforementioned methodology with grammatical evolution, a symbolic genetic programming technique that we utilise for automating the rules' derivation. Our motivation is that grammatical evolution can potentially detect patterns from the data with valuable information, equivalent to that of expert knowledge. We illustrate the use of the rule-based Evolutionary Bayesian learning technique by applying it to synthetic as well as real data, and examine the results in terms of point predictions and associated uncertainty.
翻訳日:2022-03-01 23:07:31 公開日:2022-02-28
# (参考訳) 潜在変数学習のための微分方程式と確率インスピレーショングラフニューラルネットワーク [全文訳有]

Differential equation and probability inspired graph neural networks for latent variable learning ( http://arxiv.org/abs/2202.13800v1 )

ライセンス: CC BY 4.0
Zhuangwei Shi(参考訳) 確率論と微分方程式は、特に観測から潜在変数を学習する数学的動機づけを照らすために、機械学習モデルの設計の解釈可能性と指導のための強力なツールである。 状態推定と部分空間学習は、潜在変数学習における古典的な2つの問題である。 状態推定は雑音観測から潜時変数(すなわち状態)の最適値を解く。 部分空間学習は低次元部分空間上の高次元特徴をマッピングし、効率的な表現を捉える。 グラフは潜在変数学習問題のモデリングに広く適用されており、グラフニューラルネットワークはグラフにディープラーニングアーキテクチャを実装する。 本稿では,確率論と微分方程式に着想を得て,状態推定と部分空間学習問題を解くグラフニューラルネットワークを提案する。 本稿では, テキスト分類, タンパク質分類, 在庫予測, 状態推定など, ロボット工学のいくつかの課題について実証研究を行う。 実験により、提案したグラフニューラルネットワークが現在の手法よりも優れていることが示された。 本論文のソースコードはhttps://github.com/z shicode/Latent-varia ble-GNNで公開されている。

Probabilistic theory and differential equation are powerful tools for the interpretability and guidance of the design of machine learning models, especially for illuminating the mathematical motivation of learning latent variable from observation. State estimation and subspace learning are two classical problems in latent variable learning. State estimation solves optimal value for latent variable (i.e. state) from noised observation. Subspace learning maps high-dimensional features on low-dimensional subspace to capture efficient representation. Graphs are widely applied for modeling latent variable learning problems, and graph neural networks implement deep learning architectures on graphs. Inspired by probabilistic theory and differential equations, this paper proposes graph neural networks to solve state estimation and subspace learning problems. This paper conducts theoretical studies, and adopts empirical studies on several tasks, including text classification, protein classification, stock prediction and state estimation for robotics. Experiments illustrate that the proposed graph neural networks are superior to the current methods. Source code of this paper is available at https://github.com/z shicode/Latent-varia ble-GNN.
翻訳日:2022-03-01 22:44:04 公開日:2022-02-28
# (参考訳) 事前学習文埋め込みのための相互強化フレームワーク [全文訳有]

A Mutually Reinforced Framework for Pretrained Sentence Embeddings ( http://arxiv.org/abs/2202.13802v1 )

ライセンス: CC BY 4.0
Junhan Yang, Zheng Liu, Shitao Xiao, Jianxun Lian, Lijun Wu, Defu Lian, Guangzhong Sun, Xing Xie(参考訳) ラベル付きデータの欠如は、高品質な文埋め込みを学ぶ上で大きな障害となる。 近年,scl (self-supervised contrastive learning) は,この問題に対処する有望な方法と考えられている。 しかし、既存の研究は主に、ドメインの専門知識と精巧なチューニングを求めるだけでなく、次のような好ましくないケースを伴って、ポジティブなトレーニングサンプルを生成するために手作りのデータアノテーションヒューリスティックに頼っている。 1)自明な陽性。 2)粗粒度陽性,及び 3)偽陽性。 結果として、自己超越の質は現実的に著しく制限される。 本稿では,上記の問題に対処する新しいフレームワークInfoCSEを提案する。 人間によって定義されたアノテーションのヒューリスティックスに頼る代わりに、文表現モデル自体を利用し、以下の反復的な自己超越プロセスを実現する。一方、文表現の改善は、データアノテーションの品質に寄与する可能性があるが、一方で、より効果的なデータアノテーションは、高品質な正のサンプルを生成するのに役立つため、現在の文表現モデルをさらに改善する。 言い換えれば、表現学習とデータアノテーションは相互に強化され、強力な自己スーパービジョン効果が導出される。 3つのベンチマークデータセットに基づいて広範な実験が行われ、既存のsclベースのメソッドに対して注目すべき改善が達成される。

The lack of labeled data is a major obstacle to learning high-quality sentence embeddings. Recently, self-supervised contrastive learning (SCL) is regarded as a promising way to address this problem. However, the existing works mainly rely on hand-crafted data annotation heuristics to generate positive training samples, which not only call for domain expertise and laborious tuning, but are also prone to the following unfavorable cases: 1) trivial positives, 2) coarse-grained positives, and 3) false positives. As a result, the self-supervision 7;s quality can be severely limited in reality. In this work, we propose a novel framework InfoCSE to address the above problems. Instead of relying on annotation heuristics defined by humans, it leverages the sentence representation model itself and realizes the following iterative self-supervision process: on one hand, the improvement of sentence representation may contribute to the quality of data annotation; on the other hand, more effective data annotation helps to generate high-quality positive samples, which will further improve the current sentence representation model. In other words, the representation learning and data annotation become mutually reinforced, where a strong self-supervision effect can be derived. Extensive experiments are performed based on three benchmark datasets, where notable improvements can be achieved against the existing SCL-based methods.
翻訳日:2022-03-01 22:02:51 公開日:2022-02-28
# (参考訳) マグニチュード対応確率的話者埋め込み [全文訳有]

Magnitude-aware Probabilistic Speaker Embeddings ( http://arxiv.org/abs/2202.13826v1 )

ライセンス: CC BY 4.0
Nikita Kuzmin, Igor Fedorov and Alexey Sholokhov(参考訳) 近年,超球面埋め込みは顔認識や音声認識の主流技術として確立されている。 具体的には、ユークリッド空間ベクトル埋め込みが学習され、大きさを無視しながら人固有の情報をその方向にエンコードする。 しかし、近年の研究では、ディープニューラルネットワークによって抽出された埋め込みの大きさは、対応する入力の品質を示す可能性があることが示されている。 本稿では,品質評価および分布外検出に関連する埋込量の大きさの特性について検討する。 本稿では,埋め込みの規模で符号化された情報を用いて,話者検証パイプラインに組み込む確率的話者埋め込み抽出器を提案する。 また,品質を意識したダイアリゼーション手法をいくつか提案する。 以上の結果から,話者検証とダイアリゼーションの両作業において,大域的ベースラインよりも顕著な改善が見られた。

Recently, hyperspherical embeddings have established themselves as a dominant technique for face and voice recognition. Specifically, Euclidean space vector embeddings are learned to encode person-specific information in their direction while ignoring the magnitude. However, recent studies have shown that the magnitudes of the embeddings extracted by deep neural networks may indicate the quality of the corresponding inputs. This paper explores the properties of the magnitudes of the embeddings related to quality assessment and out-of-distribution detection. We propose a new probabilistic speaker embedding extractor using the information encoded in the embedding magnitude and leverage it in the speaker verification pipeline. We also propose several quality-aware diarization methods and incorporate the magnitudes in those. Our results indicate significant improvements over magnitude-agnostic baselines both in speaker verification and diarization tasks.
翻訳日:2022-03-01 21:47:11 公開日:2022-02-28
# (参考訳) TEScalib:不確実性解析による自動走行車用LiDARとステレオカメラの目標外自己校正 [全文訳有]

TEScalib: Targetless Extrinsic Self-Calibration of LiDAR and Stereo Camera for Automated Driving Vehicles with Uncertainty Analysis ( http://arxiv.org/abs/2202.13847v1 )

ライセンス: CC BY 4.0
Haohao Hu, Fengze Han, Frank Bieder, Jan-Hendrik Pauls and Christoph Stiller(参考訳) 本稿では,自動走行車両のキャリブレーション対象のない周囲環境の幾何学的・測光的情報を用いて,LiDARとステレオカメラの外部自己校正手法であるTEScalibを提案する。 LiDARとステレオカメラは自動走行車のセンサーデータ融合に広く利用されているため、その外装キャリブレーションは非常に重要である。 しかし、LiDARとステレオカメラのキャリブレーションのアプローチのほとんどは主にターゲットベースであり、そのため時間を要する。 過去数年間に新しく開発された目標のないアプローチでさえ、運転プラットフォームに不正確か不適当である。 これらの問題に対処するために、TEScalibを紹介する。 3次元メッシュ再構成に基づくポイントクラウド登録を適用することで、幾何情報を用いて、lidarをステレオカメラの余分なパラメータに正確かつロバストに推定する。 ステレオカメラを校正するためには、測光誤差関数を構築し、LiDAR深度は、あるカメラから別のカメラへキーポイントを変換する。 運転中、この2つの部品は反復的に処理される。 さらに,推定外因性パラメータの信頼性を反映した不確実性解析も提案する。 KITTIデータセットで評価したTEScalibアプローチは非常に有望な結果を得た。

In this paper, we present TEScalib, a novel extrinsic self-calibration approach of LiDAR and stereo camera using the geometric and photometric information of surrounding environments without any calibration targets for automated driving vehicles. Since LiDAR and stereo camera are widely used for sensor data fusion on automated driving vehicles, their extrinsic calibration is highly important. However, most of the LiDAR and stereo camera calibration approaches are mainly target-based and therefore time consuming. Even the newly developed targetless approaches in last years are either inaccurate or unsuitable for driving platforms. To address those problems, we introduce TEScalib. By applying a 3D mesh reconstruction-based point cloud registration, the geometric information is used to estimate the LiDAR to stereo camera extrinsic parameters accurately and robustly. To calibrate the stereo camera, a photometric error function is builded and the LiDAR depth is involved to transform key points from one camera to another. During driving, these two parts are processed iteratively. Besides that, we also propose an uncertainty analysis for reflecting the reliability of the estimated extrinsic parameters. Our TEScalib approach evaluated on the KITTI dataset achieves very promising results.
翻訳日:2022-03-01 21:30:32 公開日:2022-02-28
# (参考訳) 境界治療効果の因果的辺縁ポリトープ [全文訳有]

The Causal Marginal Polytope for Bounding Treatment Effects ( http://arxiv.org/abs/2202.13851v1 )

ライセンス: CC BY 4.0
Jakob Zeitler, Ricardo Silva(参考訳) 不測の共起のため、仮定されたモデルから因果関係を識別することはしばしば不可能である。 それにもかかわらず、部分的識別を求めることは可能であり、それは通常、符号化された構造的仮定と互換性のある全ての解から導かれる利害の因果量の上限の上端と下端を見つけることにつながる。 そのような境界を導出する魅力的な方法の1つは、バルケとパール(1994年)の古典的な離散データで導入されたように、証拠と互換性のあるすべての因果モデルを探索する制約付き最適化法によってそれをキャストすることである。 構成上は厳密な境界が保証されるが、計算上の困難を生じさせる。 この問題に対処するためには、厳密さを保証されないアルゴリズムや、モデルのクラスに制限を導入することで、代替案が含まれる。 本稿では,信念伝播からのアイデアに触発されて,グローバル因果モデルを構築することなく,因果モデルとデータの限界間の互換性を強制する新しい方法を提案する。 我々はこの局所的に一貫した辺縁の集合を因果の辺縁ポリトープと呼ぶ。 小さい次元の移動可能な限界を考えると、世界的独立性の制約が消えてしまうため、因果知識の解明と表現の方法が再検討される。 我々は,この概念の明示的なアルゴリズムと実装を提供し,その実用性を数値実験で評価する。

Due to unmeasured confounding, it is often not possible to identify causal effects from a postulated model. Nevertheless, we can ask for partial identification, which usually boils down to finding upper and lower bounds of a causal quantity of interest derived from all solutions compatible with the encoded structural assumptions. One appealing way to derive such bounds is by casting it in terms of a constrained optimization method that searches over all causal models compatible with evidence, as introduced in the classic work of Balke and Pearl (1994) for discrete data. Although by construction this guarantees tight bounds, it poses a formidable computational challenge. To cope with this issue, alternatives include algorithms that are not guaranteed to be tight, or by introducing restrictions on the class of models. In this paper, we introduce a novel alternative: inspired by ideas coming from belief propagation, we enforce compatibility between marginals of a causal model and data, without constructing a global causal model. We call this collection of locally consistent marginals the causal marginal polytope. As global independence constraints disappear when considering small dimensional tractable marginals, this also leads to a rethinking of how to elicit and express causal knowledge. We provide an explicit algorithm and implementation of this idea, and assess its practicality with numerical experiments.
翻訳日:2022-03-01 21:17:15 公開日:2022-02-28
# (参考訳) 適応的符号付き距離関数を有する自動走行車の大規模3次元セマンティック再構成 [全文訳有]

Large-Scale 3D Semantic Reconstruction for Automated Driving Vehicles with Adaptive Truncated Signed Distance Function ( http://arxiv.org/abs/2202.13855v1 )

ライセンス: CC BY 4.0
Haohao Hu, Hexing Yang, Jian Wu, Xiao Lei, Frank Bieder, Jan-Hendrik Pauls and Christoph Stiller(参考訳) 大規模な3D再構成、テクスチャ、セマンティックマッピングは、現在では自動走行車、バーチャルリアリティ、自動データ生成に広く利用されている。 しかし,RGB-Dカメラには高密度の濃淡点雲が採用されており,疎LiDAR点雲を用いた大規模屋外環境には適していない。 3次元表面は通常、異なるビューポーズを持つ複数のカメラ画像から観察できるため、テクスチャのための最適な画像パッチ選択とセマンティックマッピングのための最適なセマンティッククラス推定は依然として困難である。 そこで本研究では,LiDARとカメラセンサを用いた3次元再構成,テクスチャ,セマンティックマッピングシステムを提案する。 A Adaptive Truncated Signed Distance Functionは、面を暗黙的に記述するために導入され、異なるLiDAR点の間隔に対処し、モデル品質を改善することができる。 この暗黙関数抽出三角形メッシュマップから、最適な画像パッチ選択戦略を適用することにより、一連のカメラ画像からテクスチャ化される。 さらに,マルコフ確率場に基づくデータ融合手法を提案し,各三角形メッシュの最適セマンティッククラスを推定した。 提案手法は, 合成データセット, KITTIデータセット, 実験車両で記録したデータセットを用いて評価する。 その結果,本手法を用いて生成した3次元モデルは,他の最先端手法と比較して精度が高いことがわかった。 テクスチャとセマンティックマッピングは、非常に有望な結果をもたらす。

The Large-scale 3D reconstruction, texturing and semantic mapping are nowadays widely used for automated driving vehicles, virtual reality and automatic data generation. However, most approaches are developed for RGB-D cameras with colored dense point clouds and not suitable for large-scale outdoor environments using sparse LiDAR point clouds. Since a 3D surface can be usually observed from multiple camera images with different view poses, an optimal image patch selection for the texturing and an optimal semantic class estimation for the semantic mapping are still challenging. To address these problems, we propose a novel 3D reconstruction, texturing and semantic mapping system using LiDAR and camera sensors. An Adaptive Truncated Signed Distance Function is introduced to describe surfaces implicitly, which can deal with different LiDAR point sparsities and improve model quality. The from this implicit function extracted triangle mesh map is then textured from a series of registered camera images by applying an optimal image patch selection strategy. Besides that, a Markov Random Field-based data fusion approach is proposed to estimate the optimal semantic class for each triangle mesh. Our approach is evaluated on a synthetic dataset, the KITTI dataset and a dataset recorded with our experimental vehicle. The results show that the 3D models generated using our approach are more accurate in comparison to using other state-of-the-art approaches. The texturing and semantic mapping achieve also very promising results.
翻訳日:2022-03-01 21:03:03 公開日:2022-02-28
# (参考訳) 生3次元点雲の可変レート圧縮 [全文訳有]

Variable Rate Compression for Raw 3D Point Clouds ( http://arxiv.org/abs/2202.13862v1 )

ライセンス: CC BY 4.0
Md Ahmed Al Muzaddid and William J. Beksi(参考訳) 本稿では,生の3Dポイントクラウドデータを用いた新しい可変レート深部圧縮アーキテクチャを提案する。 学習ベースのポイントクラウド圧縮手法の大半は、データのダウンサンプリングされた表現で動作する。 さらに、既存の技術では、異なる圧縮率で複数のネットワークを訓練し、様々な品質の統合ポイントクラウドを生成する必要がある。 対照的に、我々のネットワークは、ポイントクラウドを明示的に処理し、包括的なビットレートで圧縮記述を生成することができる。 さらに,本手法は,酸化処理の結果,情報の損失がなく,点雲の密度がエンコーダ/デコーダの性能に影響を与えないことを保証する。 広範な実験結果から,本モデルは最先端の結果を得ることができ,計算効率が良く,ポイントクラウドデータと直接連携でき,高価なボクセル化表現を回避できることがわかった。

In this paper, we propose a novel variable rate deep compression architecture that operates on raw 3D point cloud data. The majority of learning-based point cloud compression methods work on a downsampled representation of the data. Moreover, many existing techniques require training multiple networks for different compression rates to generate consolidated point clouds of varying quality. In contrast, our network is capable of explicitly processing point clouds and generating a compressed description at a comprehensive range of bitrates. Furthermore, our approach ensures that there is no loss of information as a result of the voxelization process and the density of the point cloud does not affect the encoder/decoder performance. An extensive experimental evaluation shows that our model obtains state-of-the-art results, it is computationally efficient, and it can work directly with point cloud data thus avoiding an expensive voxelized representation.
翻訳日:2022-03-01 20:48:06 公開日:2022-02-28
# (参考訳) 非線形関数近似を用いた高次アクター臨界の確率的収束

Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation ( http://arxiv.org/abs/2202.13863v1 )

ライセンス: CC BY 4.0
Jing Dong, Li Shen, Yinggan Xu, Baoxiang Wang(参考訳) 非線形関数近似を伴うアクタ-クリティックアルゴリズムの非凸-非凸原始-双対定式化による収束について検討する。 確率勾配降下上昇は、頑健な学習率の適応的近位項で適用される。 第一段階のアクター-クリティックによる最初の効率的な収束結果を示す:$\mathcal{o}\left(\sqrt{\frac{\ln \left(n d g^2 \right)}{n}}\right)$ マルコフサンプリングでは、$g$ は勾配の要素回りの最大値、$n$ は反復数、$d$ は勾配の次元である。 この結果は2変数に対してPolyak-\L{}ojasiewicz条件のみで示され、これは検証が容易であり、広範囲の強化学習(RL)シナリオに適用できる。 アルゴリズムと解析は、マルチエージェントRLのような他のRL設定に適用できるほど一般的である。 OpenAI Gym連続制御タスクの実証結果が理論的知見の裏付けとなる。

We study the convergence of the actor-critic algorithm with nonlinear function approximation under a nonconvex-nonconcave primal-dual formulation. Stochastic gradient descent ascent is applied with an adaptive proximal term for robust learning rates. We show the first efficient convergence result with primal-dual actor-critic with a convergence rate of $\mathcal{O}\left(\sqrt{\frac{\ln \left(N d G^2 \right)}{N}}\right)$ under Markovian sampling, where $G$ is the element-wise maximum of the gradient, $N$ is the number of iterations, and $d$ is the dimension of the gradient. Our result is presented with only the Polyak-\L{}ojasiewicz condition for the dual variables, which is easy to verify and applicable to a wide range of reinforcement learning (RL) scenarios. The algorithm and analysis are general enough to be applied to other RL settings, like multi-agent RL. Empirical results on OpenAI Gym continuous control tasks corroborate our theoretical findings.
翻訳日:2022-03-01 20:33:10 公開日:2022-02-28
# (参考訳) PMC-Patients: PubMed Centralの事例報告から抽出した患者ノートと関係の大規模データセット [全文訳有]

PMC-Patients: A Large-scale Dataset of Patient Notes and Relations Extracted from Case Reports in PubMed Central ( http://arxiv.org/abs/2202.13876v1 )

ライセンス: CC BY 4.0
Zhengyun Zhao, Qiao Jin, Sheng Yu(参考訳) PMC-Patientsは167kの患者ノートと3.1Mの関連記事アノテーションと293kの類似の患者アノテーションからなるデータセットである。 患者ノートをPubMed Centralの事例報告から特定して抽出し、少なくともCC BY-NC-SAライセンスを有するものを再配布する。 PubMedにおける患者と患者の関連性および患者と患者の類似性は、引用関係によって定義される。 また,pmc患者に対して,患者ノート認識(pnr),患者-患者類似性(pps),患者-患者検索(ppr),患者-物品検索(par)の4つの課題を行った。 まとめると、pmc患者は、高品質、多様な条件、容易なアクセス、豊富なアノテーションを備えた、最大の患者ノートを提供する。

We present PMC-Patients, a dataset consisting of 167k patient notes with 3.1M relevant article annotations and 293k similar patient annotations. The patient notes are extracted by identifying certain sections from case reports in PubMed Central, and those with at least CC BY-NC-SA license are re-distributed. Patient-article relevance and patient-patient similarity are defined by citation relationships in PubMed. We also perform four tasks with PMC-Patients to demonstrate its utility, including Patient Note Recognition (PNR), Patient-Patient Similarity (PPS), Patient-Patient Retrieval (PPR), and Patient-Article Retrieval (PAR). In summary, PMC-Patients provides the largest-scale patient notes with high quality, diverse conditions, easy access, and rich annotations.
翻訳日:2022-03-01 20:31:40 公開日:2022-02-28
# (参考訳) 対話システムにおける学習メトリクスのロバスト性について [全文訳有]

Probing the Robustness of Trained Metrics for Conversational Dialogue Systems ( http://arxiv.org/abs/2202.13887v1 )

ライセンス: CC BY 4.0
Jan Deriu, Don Tuggener, Pius von D\"aniken and Mark Cieliebak(参考訳) 本稿では,対話システムを評価するために,ストレステストのための逆法を提案する。 この方法は強化学習を利用して、トレーニングされたメトリクスから最適なスコアを導き出す応答戦略を見つける。 提案手法を最近提案した評価基準に適用する。 比較的単純で明らかな欠陥のある戦略が生成した応答に対して高いスコアを与える傾向が,これらすべてにあることが分かりました。 例えば、会話コンテキストの一部をコピーして応答を形成するだけで、競争スコアや、人間が書いた応答よりも優れています。

This paper introduces an adversarial method to stress-test trained metrics to evaluate conversational dialogue systems. The method leverages Reinforcement Learning to find response strategies that elicit optimal scores from the trained metrics. We apply our method to test recently proposed trained metrics. We find that they all are susceptible to giving high scores to responses generated by relatively simple and obviously flawed strategies that our method converges on. For instance, simply copying parts of the conversation context to form a response yields competitive scores or even outperforms responses written by humans.
翻訳日:2022-03-01 20:09:08 公開日:2022-02-28
# (参考訳) 生成フローネットワークを用いたベイズ構造学習 [全文訳有]

Bayesian Structure Learning with Generative Flow Networks ( http://arxiv.org/abs/2202.13903v1 )

ライセンス: CC BY 4.0
Tristan Deleu, Ant\'onio G\'ois, Chris Emezue, Mansi Rankawat, Simon Lacoste-Julien, Stefan Bauer, Yoshua Bengio(参考訳) ベイズ構造学習においては、データからベイズネットワークの有向非巡回グラフ(DAG)構造上の分布を推定することに興味がある。 このような分布を定義することは、組合せ的に大きなサンプル空間のため非常に困難であり、MCMCに基づく近似が要求されることが多い。 近年、グラフなどの離散および複合オブジェクトの生成モデリングの汎用フレームワークとして、ジェネラティブフローネットワーク(gflownets)と呼ばれる新しい確率モデルが導入された。 本研究では,ベイジアンネットワークの構造上の後部分布の近似に,MCMCの代替としてGFlowNetを用いることを提案する。 この近似分布からサンプルDAGを生成することは、学習された遷移確率に基づいてグラフを一度に1つのエッジに構築する逐次決定問題と見なされる。 シミュレーションデータと実データの両方を用いて, DAG-GFlowNet を用いた手法により, DAG よりも後方の正確な近似が得られ, MCMC や変分推論に基づく他の手法と良好に比較できることを示す。

In Bayesian structure learning, we are interested in inferring a distribution over the directed acyclic graph (DAG) structure of Bayesian networks, from data. Defining such a distribution is very challenging, due to the combinatorially large sample space, and approximations based on MCMC are often required. Recently, a novel class of probabilistic models, called Generative Flow Networks (GFlowNets), have been introduced as a general framework for generative modeling of discrete and composite objects, such as graphs. In this work, we propose to use a GFlowNet as an alternative to MCMC for approximating the posterior distribution over the structure of Bayesian networks, given a dataset of observations. Generating a sample DAG from this approximate distribution is viewed as a sequential decision problem, where the graph is constructed one edge at a time, based on learned transition probabilities. Through evaluation on both simulated and real data, we show that our approach, called DAG-GFlowNet, provides an accurate approximation of the posterior over DAGs, and it compares favorably against other methods based on MCMC or variational inference.
翻訳日:2022-03-01 19:58:17 公開日:2022-02-28
# (参考訳) MaMaDroid2.0 -- 制御フローグラフの穴 [全文訳有]

MaMaDroid2.0 -- The Holes of Control Flow Graphs ( http://arxiv.org/abs/2202.13922v1 )

ライセンス: CC BY 4.0
Harel Berger, Chen Hajaj, Enrico Mariconti, Amit Dvir(参考訳) Androidのマルウェアは、世界中の何十億ものモバイルユーザーにとって、継続的な脅威だ。 これらの脅威に対処するため、検出システムは定期的に更新される。 しかし、バックラッシュは回避攻撃の形式をとり、敵が悪意のあるサンプルを変更して、それらのサンプルを良性と誤分類する。 本稿では,アプリケーションの制御フローグラフを解析する,有名なAndroidマルウェア検出システムMaMaDroidについて検討する。 列車セットおよびモデルにおける良性サンプルの一部の変更は、分類器への影響を見いだすと考えられる。 良性サンプルと悪意のあるサンプルの比率の変化は、それぞれのモデルに明確な影響を与え、検出率は40%以上減少する。 さらに、5-NN、Decision Tree、AdaboostといったMLモデルも実装されている。 6つのモデルの探索は、木に基づくモデルと距離に基づくモデルの異なるケースで典型的な挙動を明らかにする。 さらに,対象モデルのそれぞれに対して,CFGを操作する3つの新たな攻撃とその検出率について述べる。 この攻撃により、悪意のあるアプリに対する良性の割合が異なるため、ほとんどのモデルの検出率が0%に低下する。 その結果、MaMaDroidの新バージョンが開発された。 このモデルはアプリのcfgとアプリの機能の静的解析を融合させる。 この改良されたモデルは、CFGベースのモデルと静的解析モデルの両方をターゲットにした回避攻撃に対して堅牢であることが証明され、各攻撃に対して90%以上の検出率を達成する。

Android malware is a continuously expanding threat to billions of mobile users around the globe. Detection systems are updated constantly to address these threats. However, a backlash takes the form of evasion attacks, in which an adversary changes malicious samples such that those samples will be misclassified as benign. This paper fully inspects a well-known Android malware detection system, MaMaDroid, which analyzes the control flow graph of the application. Changes to the portion of benign samples in the train set and models are considered to see their effect on the classifier. The changes in the ratio between benign and malicious samples have a clear effect on each one of the models, resulting in a decrease of more than 40% in their detection rate. Moreover, adopted ML models are implemented as well, including 5-NN, Decision Tree, and Adaboost. Exploration of the six models reveals a typical behavior in different cases, of tree-based models and distance-based models. Moreover, three novel attacks that manipulate the CFG and their detection rates are described for each one of the targeted models. The attacks decrease the detection rate of most of the models to 0%, with regards to different ratios of benign to malicious apps. As a result, a new version of MaMaDroid is engineered. This model fuses the CFG of the app and static analysis of features of the app. This improved model is proved to be robust against evasion attacks targeting both CFG-based models and static analysis models, achieving a detection rate of more than 90% against each one of the attacks.
翻訳日:2022-03-01 19:38:52 公開日:2022-02-28
# (参考訳) precision-medicine-t oolbox: 定量的医用画像解析と放射線分析のためのオープンソースのpythonパッケージ [全文訳有]

Precision-medicine-t oolbox: An open-source python package for facilitation of quantitative medical imaging and radiomics analysis ( http://arxiv.org/abs/2202.13965v1 )

ライセンス: CC BY 4.0
Sergey Primakov, Elizaveta Lavrova, Zohaib Salahuddin, Henry C Woodruff, Philippe Lambin(参考訳) 医用画像解析は、臨床医が解剖学的異常を識別し、臨床評価に日常的に使用されるため、精密医療において重要な役割を担っている。 データキュレーションと医用画像の事前処理は、定量的な医用画像解析において重要なステップであり、その結果のモデル性能に大きな影響を及ぼす可能性がある。 本稿では,pyradiomics によるデータキュレーション,画像前処理,手作りの放射線抽出,python による探索タスクなどを行うための,精密医療ツールボックスを提案する。 このオープンソースのソリューションでは、データ作成と探索の問題に対処し、既存のパッケージ間のギャップを橋渡し、定量的医療画像研究の再現性を向上させることを目指している。

Medical image analysis plays a key role in precision medicine as it allows the clinicians to identify anatomical abnormalities and it is routinely used in clinical assessment. Data curation and pre-processing of medical images are critical steps in the quantitative medical image analysis that can have a significant impact on the resulting model performance. In this paper, we introduce a precision-medicine-t oolbox that allows researchers to perform data curation, image pre-processing and handcrafted radiomics extraction (via Pyradiomics) and feature exploration tasks with Python. With this open-source solution, we aim to address the data preparation and exploration problem, bridge the gap between the currently existing packages, and improve the reproducibility of quantitative medical imaging research.
翻訳日:2022-03-01 19:15:43 公開日:2022-02-28
# (参考訳) 語彙処理と文法処理が自然言語からのコード生成に及ぼす影響 [全文訳有]

The impact of lexical and grammatical processing on generating code from natural language ( http://arxiv.org/abs/2202.13972v1 )

ライセンス: CC BY 4.0
Nathana\"el Beau and Beno\^it Crabb\'e(参考訳) 自然言語からコード翻訳のためのTranXのSeq2seqアーキテクチャを考えると、文法的制約、語彙前処理、入力表現、コピー機構の4つの重要な要素を識別する。 これらのコンポーネントの影響を調べるために、BERTエンコーダと形式化を提供する文法ベースのデコーダに依存する最先端アーキテクチャを用いる。 本稿では,現在の自然言語からコードシステムへの語彙置換コンポーネントの重要性を強調した。

Considering the seq2seq architecture of TranX for natural language to code translation, we identify four key components of importance: grammatical constraints, lexical preprocessing, input representations, and copy mechanisms. To study the impact of these components, we use a state-of-the-art architecture that relies on BERT encoder and a grammar-based decoder for which a formalization is provided. The paper highlights the importance of the lexical substitution component in the current natural language to code systems.
翻訳日:2022-03-01 18:53:42 公開日:2022-02-28
# wslrec: ニューラルネットワークの逐次レコメンデーションモデルのための弱い教師付き学習

WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation Models ( http://arxiv.org/abs/2202.13616v1 )

ライセンス: Link先を確認
Jingwei Zhuo, Bin Liu, Xiang Li, Han Zhu, Xiaoqiang Zhu(参考訳) 暗黙のフィードバックデータに隠されたユーザ関連性を学ぶことは、現代のレコメンデータシステムにおいて重要な役割を果たす。 ニューラルネットワークのシーケンシャルレコメンデーションモデルは,ユーザの過去の行動に基づいて,将来の行動の項目を他者と区別するシーケンシャルな分類問題としてユーザ関連を学習し,その実質的な価値から,産業と学術の両方に大きな関心を惹きつけている。 多くの実践的な成功をおさめながら、暗黙的なフィードバックデータにおけるユーザ行動の内在的不完全性と不完全性は無視され、我々の主張を支持する予備実験が実施される。 行動的リターゲティング(BR)やアイテムベース協調フィルタリング(ItemCF)といったモデルフリー手法が,ニューラルシーケンシャルレコメンデーションモデルと比較して,ユーザとイテムの関係の異なる部分に到達しているという観察に触発されて,WSLRecと呼ばれる新しいモデル非依存トレーニングアプローチを提案する。 WSLRec は、BR や ItemCF のようなモデルフリーな手法から、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確性問題を解決する。 2つのベンチマークデータセットとオンラインA/Bテストの実験は、我々の主張の合理性を検証し、WSLRecの有効性を実証する。

Learning the user-item relevance hidden in implicit feedback data plays an important role in modern recommender systems. Neural sequential recommendation models, which formulates learning the user-item relevance as a sequential classification problem to distinguish items in future behaviors from others based on the user's historical behaviors, have attracted a lot of interest in both industry and academic due to their substantial practical value. Though achieving many practical successes, we argue that the intrinsic {\bf incompleteness} and {\bf inaccuracy} of user behaviors in implicit feedback data is ignored and conduct preliminary experiments for supporting our claims. Motivated by the observation that model-free methods like behavioral retargeting (BR) and item-based collaborative filtering (ItemCF) hit different parts of the user-item relevance compared to neural sequential recommendation models, we propose a novel model-agnostic training approach called WSLRec, which adopts a three-stage framework: pre-training, top-$k$ mining, and fine-tuning. WSLRec resolves the incompleteness problem by pre-training models on extra weak supervisions from model-free methods like BR and ItemCF, while resolves the inaccuracy problem by leveraging the top-$k$ mining to screen out reliable user-item relevance from weak supervisions for fine-tuning. Experiments on two benchmark datasets and online A/B tests verify the rationality of our claims and demonstrate the effectiveness of WSLRec.
翻訳日:2022-03-01 18:28:16 公開日:2022-02-28
# 外因性グローバルマルコフ過程におけるレストレスマルチアームバンディット

Restless Multi-Armed Bandits under Exogenous Global Markov Process ( http://arxiv.org/abs/2202.13665v1 )

ライセンス: Link先を確認
Tomer Gafni, Michal Yemini, Kobi Cohen(参考訳) 我々は、未知の腕力学によるレスレスマルチアームバンディット(RMAB)問題の拡張を検討し、未知の外因性グローバルマルコフ過程が各腕の報酬分布を制御している。 それぞれの世界状態の下では、各腕の報酬過程は未知のマルコフ則に従って進化し、異なる腕の間では識別されない。 毎回、プレイヤーはn個のアームのうちの1つのアームを選択し、有限の報酬状態からランダムな報酬を受け取る。 腕は落ち着かない、つまり、プレイヤーのアクションに関係なく局所的な状態が進化する。 目的は、問題のダイナミクスを知っているプレイヤーに対して報酬損失として定義された後悔を最小限に抑え、期待される即時値を最大化するアームtでプレーするアーム選択ポリシーである。 我々は,時間とともに対数的後悔順序を達成する外部帰属マルコフ過程(lemp)アルゴリズムによる学習を開発し,その後悔に束縛された有限サンプルが確立される。 シミュレーション結果は理論研究を支援し,lempの強力な性能を示す。

We consider an extension to the restless multi-armed bandit (RMAB) problem with unknown arm dynamics, where an unknown exogenous global Markov process governs the rewards distribution of each arm. Under each global state, the rewards process of each arm evolves according to an unknown Markovian rule, which is non-identical among different arms. At each time, a player chooses an arm out of N arms to play, and receives a random reward from a finite set of reward states. The arms are restless, that is, their local state evolves regardless of the player's actions. The objective is an arm-selection policy that minimizes the regret, defined as the reward loss with respect to a player that knows the dynamics of the problem, and plays at each time t the arm that maximizes the expected immediate value. We develop the Learning under Exogenous Markov Process (LEMP) algorithm, that achieves a logarithmic regret order with time, and a finite-sample bound on the regret is established. Simulation results support the theoretical study and demonstrate strong performances of LEMP.
翻訳日:2022-03-01 18:27:42 公開日:2022-02-28
# RouteNet-Erlang: ネットワーク性能評価のためのグラフニューラルネットワーク

RouteNet-Erlang: A Graph Neural Network for Network Performance Evaluation ( http://arxiv.org/abs/2202.13956v1 )

ライセンス: Link先を確認
Miquel Ferriol-Galm\'es, Krzysztof Rusek, Jos\'e Su\'arez-Varela, Shihan Xiao, Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) ネットワークモデリングは、ネットワーク研究、設計、運用における基本的なツールである。 おそらく最も一般的なモデリング手法はキューイング理論(QT)である。 その主な制限は、パケットの到着プロセスに強い仮定を課すことであり、これは通常、実際のネットワークでは持たない。 ディープラーニングの分野では、グラフニューラルネットワーク(GNN)が、複雑で非線形な振る舞いを学習可能なデータ駆動モデルを構築するための新しいテクニックとして登場した。 本稿では,計算機ネットワークをモデル化するGNNアーキテクチャのパイオニアである \emph{RouteNet-Erlang} を紹介する。 RouteNet-Erlangは複雑なトラフィックモデル、マルチキュースケジューリングポリシー、ルーティングポリシーをサポートし、トレーニングフェーズにないネットワークで正確な推定を提供する。 RouteNet-Erlangを最先端のQTモデルと比較した結果、すべてのネットワークシナリオにおいてQTよりも優れています。

Network modeling is a fundamental tool in network research, design, and operation. Arguably the most popular method for modeling is Queuing Theory (QT). Its main limitation is that it imposes strong assumptions on the packet arrival process, which typically do not hold in real networks. In the field of Deep Learning, Graph Neural Networks (GNN) have emerged as a new technique to build data-driven models that can learn complex and non-linear behavior. In this paper, we present \emph{RouteNet-Erlang}, a pioneering GNN architecture designed to model computer networks. RouteNet-Erlang supports complex traffic models, multi-queue scheduling policies, routing policies and can provide accurate estimates in networks not seen in the training phase. We benchmark RouteNet-Erlang against a state-of-the-art QT model, and our results show that it outperforms QT in all the network scenarios.
翻訳日:2022-03-01 18:27:04 公開日:2022-02-28
# 効率的なグラフ表現学習のためのアルゴリズムとシステム共設計

Algorithm and System Co-design for Efficient Subgraph-based Graph Representation Learning ( http://arxiv.org/abs/2202.13538v1 )

ライセンス: Link先を確認
Haoteng Yin, Muhan Zhang, Yanbang Wang, Jianguo Wang, Pan Li(参考訳) subgraph-based graph representation learning (sgrl) は、canonical graph neural networks (gnns)が直面するいくつかの根本的な課題に対処するために最近提案され、リンク、関係、モチーフ予測といった多くの重要なデータサイエンスアプリケーションで利点が示されている。 しかし、現在のSGRLアプローチは、トレーニングとテストのクエリごとにサブグラフを抽出する必要があるため、スケーラビリティの問題に悩まされている。 標準GNNをスケールアップする最近のソリューションは、SGRLには適用できない。 本稿では,学習アルゴリズムとそのシステムサポートを共同設計し,スケーラブルなSGRLのための新しいフレームワークSURELを提案する。 SURELはウォークベースのサブグラフ分解を採用し、ウォークを再利用してサブグラフを形成し、サブグラフ抽出の冗長性を著しく低減し、並列計算をサポートする。 数百万のノードとエッジを持つ7つの均質で異質な高次グラフに関する実験は、surelの有効性と拡張性を示している。 特に、sgrlのベースラインと比較して、sllは10$\times$のスピードアップを達成し、同等またはそれ以上の予測性能を達成している。 また、SURELは脳血管予測タスクにも適用される。 SURELは予測精度と効率の両方で最先端のベースラインを大幅に上回る。

Subgraph-based graph representation learning (SGRL) has been recently proposed to deal with some fundamental challenges encountered by canonical graph neural networks (GNNs), and has demonstrated advantages in many important data science applications such as link, relation and motif prediction. However, current SGRL approaches suffer from a scalability issue since they require extracting subgraphs for each training and testing query. Recent solutions that scale up canonical GNNs may not apply to SGRL. Here, we propose a novel framework SUREL for scalable SGRL by co-designing the learning algorithm and its system support. SUREL adopts walk-based decomposition of subgraphs and reuses the walks to form subgraphs, which substantially reduces the redundancy of subgraph extraction and supports parallel computation. Experiments over seven homogeneous, heterogeneous and higher-order graphs with millions of nodes and edges demonstrate the effectiveness and scalability of SUREL. In particular, compared to SGRL baselines, SUREL achieves 10$\times$ speed-up with comparable or even better prediction performance; while compared to canonical GNNs, SUREL achieves 50% prediction accuracy improvement. SUREL is also applied to the brain vessel prediction task. SUREL significantly outperforms the state-of-the-art baseline in both prediction accuracy and efficiency.
翻訳日:2022-03-01 18:23:26 公開日:2022-02-28
# 実世界制御のためのガウス過程のバッチ自動微分によるGPU高速化政策最適化

GPU-Accelerated Policy Optimization via Batch Automatic Differentiation of Gaussian Processes for Real-World Control ( http://arxiv.org/abs/2202.13638v1 )

ライセンス: Link先を確認
Abdolreza Taheri, Joni Pajarinen, Reza Ghabcheloo(参考訳) パラメトリックモデルのよりサンプル効率の良い代替手段としての力学系の挙動を予測できるガウス過程(GP)の能力は、現実のロボティクス研究に期待できる。 しかし、gpsの計算の複雑さにより、ポリシー検索は、より大きな問題にスケールできない非常に時間とメモリ消費のプロセスとなった。 本研究では,フォワードパス毎に経路のバッチ処理を行う高速予測サンプリング手法を活用し,モンテカルロ評価の自動微分によるポリシーパラメータの勾配更新をgpu上で計算することにより,ポリシー最適化手法を開発した。 本研究では,重機を用いた参照追跡制御実験における訓練方針の有効性を実証する。 ベンチマークの結果、正確な手法よりも大幅に高速化され、より大規模なポリシーネットワーク、より長い地平線、そしてサブ線形の速度低下を伴う数千の軌道に対する我々の手法のスケーラビリティが示される。

The ability of Gaussian processes (GPs) to predict the behavior of dynamical systems as a more sample-efficient alternative to parametric models seems promising for real-world robotics research. However, the computational complexity of GPs has made policy search a highly time and memory consuming process that has not been able to scale to larger problems. In this work, we develop a policy optimization method by leveraging fast predictive sampling methods to process batches of trajectories in every forward pass, and compute gradient updates over policy parameters by automatic differentiation of Monte Carlo evaluations, all on GPU. We demonstrate the effectiveness of our approach in training policies on a set of reference-tracking control experiments with a heavy-duty machine. Benchmark results show a significant speedup over exact methods and showcase the scalability of our method to larger policy networks, longer horizons, and up to thousands of trajectories with a sublinear drop in speed.
翻訳日:2022-03-01 18:23:06 公開日:2022-02-28
# 機械学習アプローチのための数値リンドンに基づくシーケンシング読み取りの特徴埋め込み

Numeric Lyndon-based feature embedding of sequencing reads for machine learning approaches ( http://arxiv.org/abs/2202.13884v1 )

ライセンス: Link先を確認
Paola Bonizzoni (1), Matteo Costantini (1), Clelia De Felice (2), Alessia Petescia (1), Yuri Pirola (1), Marco Previtali (1), Raffaella Rizzi (1), Jens Stoye (3), Rocco Zaccagnino (2), Rosalba Zizza (2) ((1) University of Milano-Bicocca, (2) University of Salerno, (3) University of Bielefeld)(参考訳) 家族分類やタンパク質構造予測などのバイオインフォマティクス研究において、配列を数値ベクトルとして表現するための特徴埋め込み法が文献で提案されている。 最近の理論的結果は、よく知られたリンドン分解が重なり合う弦の共通因子を保存することを示した。 驚くべきことに、リードのリンドン因子分解の変種における連続する因子の長さの列であるシークエンシングリードの指紋は、配列の類似性を保存するのに有効であり、シークエンシングリードの新規表現の定義の基礎となっている。 指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。 我々は,kフィンガーと呼ばれる指紋およびそれから抽出したk-merの挙動を,可能な特徴埋め込みとして推定する理論的,実験的枠組みを提供する。 このような組込みの有効性を評価するためのケーススタディとして、rna-seqの読み出しを表現し、それらの遺伝子が遺伝子の転写産物の断片として起源を持つ最も可能性の高い遺伝子に割り当てるために指紋を用いる。 提案手法をlyn2vecで実装し,シーケンシング読み取りのlyndonに基づく特徴埋め込みを生成する。

Feature embedding methods have been proposed in literature to represent sequences as numeric vectors to be used in some bioinformatics investigations, such as family classification and protein structure prediction. Recent theoretical results showed that the well-known Lyndon factorization preserves common factors in overlapping strings. Surprisingly, the fingerprint of a sequencing read, which is the sequence of lengths of consecutive factors in variants of the Lyndon factorization of the read, is effective in preserving sequence similarities, suggesting it as basis for the definition of novels representations of sequencing reads. We propose a novel feature embedding method for Next-Generation Sequencing (NGS) data using the notion of fingerprint. We provide a theoretical and experimental framework to estimate the behaviour of fingerprints and of the k-mers extracted from it, called k-fingers, as possible feature embeddings for sequencing reads. As a case study to assess the effectiveness of such embeddings, we use fingerprints to represent RNA-Seq reads and to assign them to the most likely gene from which they were originated as fragments of transcripts of the gene. We provide an implementation of the proposed method in the tool lyn2vec, which produces Lyndon-based feature embeddings of sequencing reads.
翻訳日:2022-03-01 18:21:18 公開日:2022-02-28
# (参考訳) サンプリングのための近似アルゴリズム [全文訳有]

A Proximal Algorithm for Sampling ( http://arxiv.org/abs/2202.13975v1 )

ライセンス: CC BY 4.0
Jiaming Liang, Yongxin Chen(参考訳) 非スムースポテンシャル(負対数密度)を持つサンプリング問題を考える。 特に,滑らかな成分と半滑らかな成分の和として,凸電位が半滑らかか複合形状の2つの特定のサンプリング条件について検討した。 非スムースネスに起因する課題を克服するために,これらのサンプリングタスクの最適化において近位法に類似したマルコフ連鎖モンテカルロアルゴリズムを提案する。 本手法の鍵となる要素は, 4次正規化ターゲット電位のサンプリング方式である。 このスキームは、正規化ポテンシャルの近似最小値であるガウス的提案を慎重に設計した拒絶サンプリングに依存する。 我々は, ポテンシャルの非滑らかさに拘わらず, この拒絶サンプリングスキームの複雑性を制限する新しい手法(修正ガウス積分)を開発した。 次に,このスキームを拡張分布上でgibbsサンプリングを使用する交代サンプリングフレームワーク(asf)と組み合わせることで,検討した2つのサンプリングタスクの設定を実現する。 さらに、最近発見されたASFの差分サンプリングの複雑さ境界と顕著な収束特性を組み合わせることで、対象電位の次数クエリの総数の観点から、アルゴリズムに漸近的でないいくつかの複雑さ境界を確立することができる。 提案アルゴリズムは,同じ設定の既存手法と比較して,最先端の複雑性境界を実現する。

We consider sampling problems with possibly non-smooth potentials (negative log-densities). In particular, we study two specific settings of sampling where the convex potential is either semi-smooth or in composite form as the sum of a smooth component and a semi-smooth component. To overcome the challenges caused by the non-smoothness, we propose a Markov chain Monte Carlo algorithm that resembles proximal methods in optimization for these sampling tasks. The key component of our method is a sampling scheme for a quadratically regularized target potential. This scheme relies on rejection sampling with a carefully designed Gaussian proposal whose center is an approximate minimizer of the regularized potential. We develop a novel technique (a modified Gaussian integral) to bound the complexity of this rejection sampling scheme in spite of the non-smoothness in the potentials. We then combine this scheme with the alternating sampling framework (ASF), which uses Gibbs sampling on an augmented distribution, to accomplish the two settings of sampling tasks we consider. Furthermore, by combining the complexity bound of the rejection sampling we develop and the remarkable convergence properties of ASF discovered recently, we are able to establish several non-asymptotic complexity bounds for our algorithm, in terms of the total number of queries of subgradient of the target potential. Our algorithm achieves state-of-the-art complexity bounds compared with all existing methods in the same settings.
翻訳日:2022-03-01 18:19:26 公開日:2022-02-28
# グラフ畳み込みネットワークにおけるスペクトルフィルタトレーニングのための固有gapを用いたスパースグラフ学習

Sparse Graph Learning with Eigen-gap for Spectral Filter Training in Graph Convolutional Networks ( http://arxiv.org/abs/2202.13526v1 )

ライセンス: Link先を確認
Jin Zeng, Saghar Bagheri, Yang Liu, Gene Cheung, Wei Hu(参考訳) 現在、グラフ畳み込みニューラルネット(GCN)の表現力は層数とともに無限に成長していないことが知られている。 代わりに、gcn出力は正規化グラフラプラシアン行列の第1固有ベクトルにまたがる部分空間に接近し、"eigen-gap"(ラプラシアンの最初の2つの異なる固有値の違い)によって特徴づけられる収束率を持つ。 本稿では,観測可能なデータから計算した経験的共分散行列 $\bar{c}$ を与えられた場合,sparse graph laplacian matrix $l$ を$\bar{c}^{-1}$ に近似させながら,収束を遅くする望ましい固有ギャップを維持しながら,より深いgcnアーキテクチャを促進する。 具体的には、まず第一固有ベクトル(最も一般的な信号)と固有ギャップに制約のあるスパースグラフ学習問題を定義する。 半定値計画法(SDP)の高速近似により,局所最適固有ペアを一度に1つずつ計算する。 所望の固有ギャップを持つ計算された$L$はスペクトルとして正規化され、目標タスクに対するGCNの教師付きトレーニングに使用される。 実験の結果,提案手法は明示的な固有ギャップ最適化を伴わない競合方式と比較して,より深いGCNとより小さな誤差を生じることがわかった。

It is now known that the expressive power of graph convolutional neural nets (GCN) does not grow infinitely with the number of layers. Instead, the GCN output approaches a subspace spanned by the first eigenvector of the normalized graph Laplacian matrix with the convergence rate characterized by the "eigen-gap": the difference between the Laplacian's first two distinct eigenvalues. To promote a deeper GCN architecture with sufficient expressiveness, in this paper, given an empirical covariance matrix $\bar{C}$ computed from observable data, we learn a sparse graph Laplacian matrix $L$ closest to $\bar{C}^{-1}$ while maintaining a desirable eigen-gap that slows down convergence. Specifically, we first define a sparse graph learning problem with constraints on the first eigenvector (the most common signal) and the eigen-gap. We solve the corresponding dual problem greedily, where a locally optimal eigen-pair is computed one at a time via a fast approximation of a semi-definite programming (SDP) formulation. The computed $L$ with the desired eigen-gap is normalized spectrally and used for supervised training of GCN for a targeted task. Experiments show that our proposal produced deeper GCNs and smaller errors compared to a competing scheme without explicit eigen-gap optimization.
翻訳日:2022-03-01 17:43:59 公開日:2022-02-28
# 機械学習を活用したインテリジェントデータセンターネットワーク:サーベイ

Machine Learning Empowered Intelligent Data Center Networking: A Survey ( http://arxiv.org/abs/2202.13549v1 )

ライセンス: Link先を確認
Bo Li, Ting Wang, Peng Yang, Mingsong Chen, Shui Yu and Mounir Hamdi(参考訳) 成長を続けるクラウドベースのサービスのニーズをサポートするため、データセンター内のサーバやネットワークデバイスの数は指数関数的に増加し、結果としてネットワーク最適化の複雑さと困難が増している。 これらの課題に対処するために、学界も産業界も、ネットワークインテリジェンスを実現するために人工知能技術に目を向ける。 この目的のために、近年、多くの新規でクリエイティブな機械学習(MLベース)の研究が進められている。 それでも、特に大規模異種サービスとトラフィックデータのオンラインリアルタイム動的処理のシナリオにおいて、データセンターネットワーク(dcns)のインテリジェントな最適化が直面する大きな課題がある。 我々の知識を最大限に活用するために、インテリジェントDCNについて詳細な分析を行う体系的かつオリジナルな調査が欠如している。 そこで本稿では,機械学習のデータセンタネットワークへの応用を総合的に検討し,フロー予測,フロー分類,ロードバランシング,リソース管理,ルーティング最適化,混雑制御などを含む最近の研究の概要と詳細な分析を行う。 種々のソリューションを多次元・多視点で比較するために,REBEL-3Sと呼ばれる品質評価基準を設計し,これらの研究の長所と短所を公平に測定する。 さらに,データセンタネットワークと機械学習の融合技術の発展について,いくつかの課題や将来的な研究機会とともにユニークな知見を提示する。

To support the needs of ever-growing cloud-based services, the number of servers and network devices in data centers is increasing exponentially, which in turn results in high complexities and difficulties in network optimization. To address these challenges, both academia and industry turn to artificial intelligence technology to realize network intelligence. To this end, a considerable number of novel and creative machine learning-based (ML-based) research works have been put forward in recent few years. Nevertheless, there are still enormous challenges faced by the intelligent optimization of data center networks (DCNs), especially in the scenario of online real-time dynamic processing of massive heterogeneous services and traffic data. To best of our knowledge, there is a lack of systematic and original comprehensively investigations with in-depth analysis on intelligent DCN. To this end, in this paper, we comprehensively investigate the application of machine learning to data center networking, and provide a general overview and in-depth analysis of the recent works, covering flow prediction, flow classification, load balancing, resource management, routing optimization, and congestion control. In order to provide a multi-dimensional and multi-perspective comparison of various solutions, we design a quality assessment criteria called REBEL-3S to impartially measure the strengths and weaknesses of these research works. Moreover, we also present unique insights into the technology evolution of the fusion of data center network and machine learning, together with some challenges and potential future research opportunities.
翻訳日:2022-03-01 17:43:37 公開日:2022-02-28
# チップ設計における配置とルーティングのための機械学習に向けて:方法論的概要

Towards Machine Learning for Placement and Routing in Chip Design: a Methodological Overview ( http://arxiv.org/abs/2202.13564v1 )

ライセンス: Link先を確認
Junchi Yan, Xianglong Lyu, Ruoyu Cheng, Yibo Lin(参考訳) 配置とルーティングは、現代のチップ設計フローにおいて必須かつ困難な2つのタスクである。 ヒューリスティックやエキスパートが設計したアルゴリズムを使った従来の解法と比較すると、機械学習はそのデータ駆動性によって有望な見通しを示しており、知識や事前への依存は少なくなり、高度な計算パラダイム(GPUアクセラレーションを備えたディープネットワークなど)によってよりスケーラブルになる可能性がある。 本調査は,従来の学習フリー解法を概説した,配置とルーティングの基礎の導入から始まる。 次に、配置とルーティングのための機械学習の最近の進歩について詳述する。 最後に,今後の研究の課題と機会について論じる。

Placement and routing are two indispensable and challenging (NP-hard) tasks in modern chip design flows. Compared with traditional solvers using heuristics or expert-well-designed algorithms, machine learning has shown promising prospects by its data-driven nature, which can be of less reliance on knowledge and priors, and potentially more scalable by its advanced computational paradigms (e.g. deep networks with GPU acceleration). This survey starts with the introduction of basics of placement and routing, with a brief description on classic learning-free solvers. Then we present detailed review on recent advance in machine learning for placement and routing. Finally we discuss the challenges and opportunities for future research.
翻訳日:2022-03-01 17:43:15 公開日:2022-02-28
# markov chain monte carlo-based machine unlearning - 忘れるべきことの学習

Markov Chain Monte Carlo-Based Machine Unlearning: Unlearning What Needs to be Forgotten ( http://arxiv.org/abs/2202.13585v1 )

ライセンス: Link先を確認
Quoc Phong Nguyen, Ryutaro Oikawa, Dinil Mon Divakaran, Mun Choon Chan, Bryan Kian Hsiang Low(参考訳) 機械学習(ML)モデルの使用は多くの現実世界のアプリケーションで人気が高まっているため、モデルのメンテナンスに対処する必要がある実践的な課題がある。 そのような課題の1つは、モデルのトレーニングに使用されるデータセットの特定のサブセットの効果を「解き放つ」ことである。 この特定のサブセットには、攻撃者が注入した悪意のあるデータや敵対的なデータが含まれ、モデルのパフォーマンスに影響する可能性がある。 もうひとつの理由は、サービスプロバイダがユーザのプライバシを尊重するために、特定のユーザに関連するデータを削除する必要があることだ。 どちらの場合でも、モデル全体をゼロから再トレーニングするコストのかかる手順を伴わずに、トレーニングされたモデルからトレーニングデータの特定のサブセットを解放する。 本研究の目的は,マルコフ連鎖モンテカルロに基づく機械学習(MCU)アルゴリズムを提案することである。 MCUは、トレーニングデータセットのサブセットからトレーニングされたモデルを効率的かつ効率的に解放するのに役立つ。 さらに,mcuでは,トレーニングデータセットのサブセットがモデル予測に与える影響を説明できることを示した。 したがって、MCUは削除すべき敵データを特定するためにデータのサブセットを調べるのに有用である。 同様に、MCUは訓練されたMLモデルからユーザーの個人情報の系統を消去するために使用することができ、それによってユーザの「忘れられる権利」を維持できる。 実世界のフィッシングおよび糖尿病データセットにおけるMCUアルゴリズムの性能を実証的に評価した。 その結果、MCUはトレーニングデータセットのサブセットの効果を効率よく除去し、残りのデータセットを利用する既存のアルゴリズムより優れていることを示す。

As the use of machine learning (ML) models is becoming increasingly popular in many real-world applications, there are practical challenges that need to be addressed for model maintenance. One such challenge is to 'undo' the effect of a specific subset of dataset used for training a model. This specific subset may contain malicious or adversarial data injected by an attacker, which affects the model performance. Another reason may be the need for a service provider to remove data pertaining to a specific user to respect the user's privacy. In both cases, the problem is to 'unlearn' a specific subset of the training data from a trained model without incurring the costly procedure of retraining the whole model from scratch. Towards this goal, this paper presents a Markov chain Monte Carlo-based machine unlearning (MCU) algorithm. MCU helps to effectively and efficiently unlearn a trained model from subsets of training dataset. Furthermore, we show that with MCU, we are able to explain the effect of a subset of a training dataset on the model prediction. Thus, MCU is useful for examining subsets of data to identify the adversarial data to be removed. Similarly, MCU can be used to erase the lineage of a user's personal data from trained ML models, thus upholding a user's "right to be forgotten". We empirically evaluate the performance of our proposed MCU algorithm on real-world phishing and diabetes datasets. Results show that MCU can achieve a desirable performance by efficiently removing the effect of a subset of training dataset and outperform an existing algorithm that utilizes the remaining dataset.
翻訳日:2022-03-01 17:43:03 公開日:2022-02-28
# (参考訳) 人間の価値と不合理性を学ぶアルゴリズムの危険性 [全文訳有]

The dangers in algorithms learning humans' values and irrationalities ( http://arxiv.org/abs/2202.13985v1 )

ライセンス: CC BY 4.0
Rebecca Gormann, Stuart Armstrong(参考訳) 人工知能(AI)が人間の価値観(または人間の好み)に合わせるためには、まずその価値を学ぶ必要がある。 人間の行動に基づいて訓練されたAIシステムは、人間の不合理性を人間の価値と誤分類し、その不合理性を最適化する。 AIを学ぶことは、必然的に人間の不合理性と人間の行動/政治に関する情報を得る。 人間のポリシーを知ることで、AIがより汎用的に(部分的に整合しているかどうかに関わらず)強力になるのに対して、人間の不合理性を学ぶことで、見返りに価値を提供することなく、人間を搾取することができる。 本稿では,人間の不合理性と人的政策を学習する人工知能開発における危険性を分析し,人的バイアス,人的政策,人的価値に関するさまざまなレベルの情報を持つモデルレコメンデーションシステムを構築する。 結論として、AIの力や知識が何であれ、人間の価値よりも人間の不合理性を知ることは危険である。 したがって、AIは人間のバイアスを学び、行動から価値を引き出すよりも、人間の価値を直接学習する方がよい。

For an artificial intelligence (AI) to be aligned with human values (or human preferences), it must first learn those values. AI systems that are trained on human behavior, risk miscategorising human irrationalities as human values -- and then optimising for these irrationalities. Simply learning human values still carries risks: AI learning them will inevitably also gain information on human irrationalities and human behaviour/policy. Both of these can be dangerous: knowing human policy allows an AI to become generically more powerful (whether it is partially aligned or not aligned at all), while learning human irrationalities allows it to exploit humans without needing to provide value in return. This paper analyses the danger in developing artificial intelligence that learns about human irrationalities and human policy, and constructs a model recommendation system with various levels of information about human biases, human policy, and human values. It concludes that, whatever the power and knowledge of the AI, it is more dangerous for it to know human irrationalities than human values. Thus it is better for the AI to learn human values directly, rather than learning human biases and then deducing values from behaviour.
翻訳日:2022-03-01 17:41:27 公開日:2022-02-28
# 核セグメンテーションと分類のためのConvNeXtバックボーンHoVerNet

ConvNeXt-backbone HoVerNet for nuclei segmentation and classification ( http://arxiv.org/abs/2202.13560v1 )

ライセンス: Link先を確認
Jiachen Li, Chixin Wang, Banban Huang, Zekun Zhou(参考訳) この写本は、CoNIC Challenge 2022に参加するために使われたアルゴリズムを簡潔に記述している。 まず、セマンティックセグメンテーションのためにDeeplab-v3+とSwin-Transformerを試す。 ベースラインが利用可能になった後、メソッドに従ってResNetベースラインをConvNeXtoneに置き換える。 検証セットの結果, チャネルオブユーズステージが著しく小さくても, mPQ+は0.04倍, マルチr2は0.0144倍の改善がみられた。

This manuscript gives a brief description of the algorithm used to participate in CoNIC Challenge 2022. We first try out Deeplab-v3+ and Swin-Transformer for semantic segmentation. After the baseline was made available, we follow the method in it and replace the ResNet baseline with ConvNeXtone. Results on validation set shows that even with channel ofeach stage significant smaller in number, it still improves the mPQ+ by 0.04 and multi r2 by 0.0144.
翻訳日:2022-03-01 17:30:12 公開日:2022-02-28
# Name Your Style: 任意アーティストを意識した画像スタイル転送

Name Your Style: An Arbitrary Artist-aware Image Style Transfer ( http://arxiv.org/abs/2202.13562v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Li-Wen Wang, Wan-Chi Siu, Vicky Kalogeiton(参考訳) イメージスタイルの転送はここ数年で広く注目を集めている。 その顕著な結果にもかかわらず、参照として利用可能な追加のスタイルイメージが必要であるため、柔軟性が低く不便である。 テキストの使用は、そのスタイルを記述する最も自然な方法です。 さらに重要なことに、テキストは特定のアーティストのスタイルや芸術運動のような暗黙の抽象的なスタイルを記述できる。 本稿では,高度な画像テキストエンコーダを用いて任意のスタイル転送を制御するテキスト駆動型画像転送(TxST)を提案する。 本稿では,テキスト記述とスタイライゼーションを整合させる画像テキストモデル(クリップ)から,スタイル記述を効果的に抽出するための対比学習戦略を提案する。 この目的のために,スタイルやコンテンツの特徴を融合するための横断的注意を探索する,新規で効率的なアテンションモジュールも提案する。 最後に,ピカソや油絵,粗いスケッチなどの芸術的特徴を学習し,伝達するために,任意のアーティスト意識のイメージスタイルの変換を実現する。 広汎な実験により,本手法は画像とテキストの両スタイルにおいて最先端の手法より優れていることが示された。 さらに、1人または多数のアーティストのスタイルを模倣して魅力的な結果を得ることができ、画像スタイルの転送において有望な方向を強調することができる。

Image style transfer has attracted widespread attention in the past few years. Despite its remarkable results, it requires additional style images available as references, making it less flexible and inconvenient. Using text is the most natural way to describe the style. More importantly, text can describe implicit abstract styles, like styles of specific artists or art movements. In this paper, we propose a text-driven image style transfer (TxST) that leverages advanced image-text encoders to control arbitrary style transfer. We introduce a contrastive training strategy to effectively extract style descriptions from the image-text model (i.e., CLIP), which aligns stylization with the text description. To this end, we also propose a novel and efficient attention module that explores cross-attentions to fuse style and content features. Finally, we achieve an arbitrary artist-aware image style transfer to learn and transfer specific artistic characters such as Picasso, oil painting, or a rough sketch. Extensive experiments demonstrate that our approach outperforms the state-of-the-art methods on both image and textual styles. Moreover, it can mimic the styles of one or many artists to achieve attractive results, thus highlighting a promising direction in image style transfer.
翻訳日:2022-03-01 17:30:03 公開日:2022-02-28
# CoNICチャレンジにおけるデータ拡張によるマルチスケールSwinTransformer-HTCの利用

Using Multi-scale SwinTransformer-HTC with Data augmentation in CoNIC Challenge ( http://arxiv.org/abs/2202.13588v1 )

ライセンス: Link先を確認
Chia-Yen Lee, Hsiang-Chin Chien, Ching-Ping Wang, Hong Yen, Kai-Wen Zhen, Hong-Kun Lin(参考訳) 大腸癌は世界中で最も多いがんの1つであり、早期病理検査は非常に重要である。 しかし、臨床におけるH&E画像上の細胞数とタイプを特定するのに時間と労力がかかる。 そのため、CoNIC Challenge 2022により、病理領域からのH&E画像の自動分割と分類と細胞組成のカウントが提案される。 この課題のために,htc によるマルチスケールスウィントランスを提案し,さらに,既知の正規化法を適用して増補データを生成する。 最後に,マルチスケールが異なるスケールの特徴を識別する上で重要な役割を担い,モデル認識の促進がもたらされた。

Colorectal cancer is one of the most common cancers worldwide, so early pathological examination is very important. However, it is time-consuming and labor-intensive to identify the number and type of cells on H&E images in clinical. Therefore, automatic segmentation and classification task and counting the cellular composition of H&E images from pathological sections is proposed by CoNIC Challenge 2022. We proposed a multi-scale Swin transformer with HTC for this challenge, and also applied the known normalization methods to generate more augmentation data. Finally, our strategy showed that the multi-scale played a crucial role to identify different scale features and the augmentation arose the recognition of model.
翻訳日:2022-03-01 17:29:41 公開日:2022-02-28
# ゴール条件強化学習のための弱教師付きアンタングル表現

Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning ( http://arxiv.org/abs/2202.13624v1 )

ライセンス: Link先を確認
Zhifeng Qian, Mingyu You, Hongjun Zhou, Bin He(参考訳) 目標条件強化学習(goal-conditioned reinforcement learning)は,動的環境におけるスキルセットの学習において,エージェントが複数のユーザ特定目標を達成可能にする,極めて困難なアルゴリズムである。 しかし、通常、サンプル非効率なエージェントによって探索される数百万の環境相互作用を必要とする。 本稿では,Distangled Representation LearningとGoal-conditioned visual Reinforcement Learningを組み合わせることで,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。 本稿では,空間変換オートエンコーダ(stae)を用いて,異なる部品が異なる対象属性(形状,色,位置)に対応するような解釈可能かつ制御可能な表現を学習する。 表現の制御性が高いため、STAEは単に表現を再結合して再コードし、エージェントが自分自身で実行するための見知らぬ目標を生成することができる。 学習された表現の多様体構造は、報酬計算に有利な物理的位置との整合性を維持する。 我々は,dr-grlがサンプル効率と政策の一般化において,これまでの方法を大きく上回っていることを実証的に示す。 さらに、DR-GRLは本物のロボットにも容易に拡張できる。

Goal-conditioned reinforcement learning is a crucial yet challenging algorithm which enables agents to achieve multiple user-specified goals when learning a set of skills in a dynamic environment. However, it typically requires millions of the environmental interactions explored by agents, which is sample-inefficient. In the paper, we propose a skill learning framework DR-GRL that aims to improve the sample efficiency and policy generalization by combining the Disentangled Representation learning and Goal-conditioned visual Reinforcement Learning. In a weakly supervised manner, we propose a Spatial Transform AutoEncoder (STAE) to learn an interpretable and controllable representation in which different parts correspond to different object attributes (shape, color, position). Due to the high controllability of the representations, STAE can simply recombine and recode the representations to generate unseen goals for agents to practice themselves. The manifold structure of the learned representation maintains consistency with the physical position, which is beneficial for reward calculation. We empirically demonstrate that DR-GRL significantly outperforms the previous methods in sample efficiency and policy generalization. In addition, DR-GRL is also easy to expand to the real robot.
翻訳日:2022-03-01 17:29:29 公開日:2022-02-28
# restainnet: 染色正規化のための自己監視型デジタル再ステイン

RestainNet: a self-supervised digital re-stainer for stain normalization ( http://arxiv.org/abs/2202.13804v1 )

ライセンス: Link先を確認
Bingchao Zhao, Jiatai Lin, Changhong Liang, Zongjian Yi, Xin Chen, Bingbing Li, Weihao Qiu, Danyi Li, Li Liang, Chu Han, and Zaiyi Liu(参考訳) 色非一貫性は計算病理学において避けられない課題であり、一般的には染色強度の変化や異なるスキャナーでスキャンされた部分によって起こる。 病理画像解析手法、特に学習に基づくモデルに悪影響を及ぼす。 染色正規化のための一連のアプローチが提案されている。 しかし、そのほとんどは実際には柔軟性を欠いている。 本稿では,ステンド正規化をデジタル再保持プロセスとして定式化し,RestainNetと呼ばれる自己教師型学習モデルを提案する。 我々のネットワークは、未完の(グレースケールの)イメージを再維持する方法を学ぶデジタル・レステイナーとみなされている。 ヘマトキシリン(H)とエオシン(E)の2つのデジタル染色は、ベーア=ランベルトの法則により元の画像から抽出された。 残留過程における染色強度の正しさを維持するため,染色損失を提案した。 自己監督的な性質により、ペアトレーニングのサンプルはもはや不要となり、実用的な使用において大きな柔軟性が示される。 我々のRestainNetは既存のアプローチより優れており、色補正と構造保存に関して最先端のパフォーマンスを実現しています。 さらにセグメンテーションと分類タスクの実験を行い、提案したRestainNetはSOTA法と比較して優れた性能を示した。 自己監督設計により、ネットワークは余分な労力なしでステインスタイルを学べる。

Color inconsistency is an inevitable challenge in computational pathology, which generally happens because of stain intensity variations or sections scanned by different scanners. It harms the pathological image analysis methods, especially the learning-based models. A series of approaches have been proposed for stain normalization. However, most of them are lack flexibility in practice. In this paper, we formulated stain normalization as a digital re-staining process and proposed a self-supervised learning model, which is called RestainNet. Our network is regarded as a digital restainer which learns how to re-stain an unstained (grayscale) image. Two digital stains, Hematoxylin (H) and Eosin (E) were extracted from the original image by Beer-Lambert's Law. We proposed a staining loss to maintain the correctness of stain intensity during the restaining process. Thanks to the self-supervised nature, paired training samples are no longer necessary, which demonstrates great flexibility in practical usage. Our RestainNet outperforms existing approaches and achieves state-of-the-art performance with regard to color correctness and structure preservation. We further conducted experiments on the segmentation and classification tasks and the proposed RestainNet achieved outstanding performance compared with SOTA methods. The self-supervised design allows the network to learn any staining style with no extra effort.
翻訳日:2022-03-01 17:29:08 公開日:2022-02-28
# 畳み込みニューラルネットワークと手作りテクスチャ特徴を有するコラーゲンvi関連ミオパチーの重症度分類

Severity classification in cases of Collagen VI-related myopathy with Convolutional Neural Networks and handcrafted texture features ( http://arxiv.org/abs/2202.13853v1 )

ライセンス: Link先を確認
Rafael Rodrigues, Susana Quijano-Roy, Robert-Yves Carlier, and Antonio M. G. Pinheiro(参考訳) MRIは低頻度神経筋疾患の臨床評価のための非侵襲的ツールである。 自動診断法は、生検の必要性を減らし、疾患追跡に関する貴重な情報を提供する。 本稿では,その関与度,特に畳み込みニューラルネットワーク,テクスチャ特徴を分類する完全連結ネットワーク,これら2つの特徴点を組み合わせたハイブリッド手法に基づいて,コラーゲンvi関連ミオパチー症例の目標筋を分類する3つの方法を提案する。 先天性筋ジストロフィーやベスレム・ミオパチー患者を含む26例の軸方向t1強調ターボスピンエコーmriを用いた検討を行った。 その結果, 健康, 軽度, 中等度, 中等度, 中等度および中等度において, 最高値が93.8\%, f-スコアが0.99, 0.82, 0.95であった。

Magnetic Resonance Imaging (MRI) is a non-invasive tool for the clinical assessment of low-prevalence neuromuscular disorders. Automated diagnosis methods might reduce the need for biopsies and provide valuable information on disease follow-up. In this paper, three methods are proposed to classify target muscles in Collagen VI-related myopathy cases, based on their degree of involvement, notably a Convolutional Neural Network, a Fully Connected Network to classify texture features, and a hybrid method combining the two feature sets. The proposed methods was evaluated on axial T1-weighted Turbo Spin-Echo MRI from 26 subjects, including Ullrich Congenital Muscular Dystrophy or Bethlem Myopathy patients at different evolution stages. The best results were obtained with the hybrid model, resulting in a global accuracy of 93.8\%, and F-scores of 0.99, 0.82, and 0.95, for healthy, mild and moderate/severe cases, respectively.
翻訳日:2022-03-01 17:28:47 公開日:2022-02-28
# 魚眼ビデオのための新しいビューポート適応型モーション補償技術

A Novel Viewport-Adaptive Motion Compensation Technique for Fisheye Video ( http://arxiv.org/abs/2202.13892v1 )

ライセンス: Link先を確認
Andy Regensky, Christian Herglotz, Andr\'e Kaup(参考訳) 魚眼カメラはその視野が大きいため多くの応用分野において需要が高いが、動き補償などの画像・映像信号処理タスクは強力な放射歪みに悩まされている。 最近提案された投射に基づくアプローチは、魚眼運動補償を改善するために魚眼投射を考慮に入れている。 しかし,本手法では3次元空間における異なる運動面の考慮を必要とする魚眼レンズの広い視野を考慮しない。 本研究では,これらの動き面を実現するために,異なる視点の視点で動きベクトルを適用する新しいビューポート適応運動補償手法を提案する。 これにより、一部の画素はいわゆる仮想画像平面にマッピングされ、視点ビューポートと元の魚眼画像との間の信頼できるマッピングを得るために特別な処理が必要となる。 最先端の超広角補償は十分精度が高いが,完全なマッピングを実現する仮想画像平面補償を提案する。 総じて、魚眼運動補償の技量と比較すると、PSNRでは+2.40dBの平均利得が得られる。

Although fisheye cameras are in high demand in many application areas due to their large field of view, many image and video signal processing tasks such as motion compensation suffer from the introduced strong radial distortions. A recently proposed projection-based approach takes the fisheye projection into account to improve fisheye motion compensation. However, the approach does not consider the large field of view of fisheye lenses that requires the consideration of different motion planes in 3D space. We propose a novel viewport-adaptive motion compensation technique that applies the motion vectors in different perspective viewports in order to realize these motion planes. Thereby, some pixels are mapped to so-called virtual image planes and require special treatment to obtain reliable mappings between the perspective viewports and the original fisheye image. While the state-of-the-art ultra wide-angle compensation is sufficiently accurate, we propose a virtual image plane compensation that leads to perfect mappings. All in all, we achieve average gains of +2.40 dB in terms of PSNR compared to the state of the art in fisheye motion compensation.
翻訳日:2022-03-01 17:28:29 公開日:2022-02-28
# ReCasNet: 2段階ミトーシス検出フレームワークにおける一貫性の改善

ReCasNet: Improving consistency within the two-stage mitosis detection framework ( http://arxiv.org/abs/2202.13912v1 )

ライセンス: Link先を確認
Chawan Piansaddhayanon, Sakun Santisukwongchote, Shanop Shuangshoti, Qingyi Tao, Sira Sriswasdi, Ekapol Chuangsuwanich(参考訳) 有糸分裂数 (mitotic count, mc) は, 癌診断および診断における重要な組織学的パラメータであるが, 病理組織学的画像からmcを得るための手作業は非常に時間を要するため, 誤差を生じやすい。 そのため、このプロセスを促進するためにディープラーニングモデルが提案されている。 既存のアプローチでは、2段階のパイプラインを使用しており、潜在的な分裂細胞の場所を識別する検出段階と、予測の信頼性を高めるための分類段階である。 しかし、このパイプラインの定式化は、検出段階の予測品質の低さと、2段階間のデータ分布のトレーニングミスマッチにより、分類段階の矛盾を招く可能性がある。 本研究では,先述した問題を3つの改善で緩和する改良されたディープラーニングパイプラインであるRefine Cascade Network(ReCasNet)を提案する。 まず,検出段階で発生する品質の悪い偽陽性の数を減らすため,ウィンドウ転位を用いた。 第2に,別のディープラーニングモデルを用いて,不偏中心オブジェクトの調整を行った。 第3に,トレーニングデータ分布のミスマッチを低減するため,分類段階で改良されたデータ選択戦略が導入された。 ReCasNetは、犬皮膚マスト細胞腫瘍(CCMCT)と犬乳腺癌(CMC)の2つの大規模な有糸分裂型人物認識データセットで評価され、その結果、分裂型細胞検出のためのF1スコアが4.8%向上し、MC予測のための平均絶対パーセンテージ誤差(MAPE)が44.1%減少した。 ReCasNetの根底にある技術は、他の2段階のオブジェクト検出ネットワークに一般化することができ、幅広いデジタル病理学応用におけるディープラーニングモデルの性能向上に寄与する。

Mitotic count (MC) is an important histological parameter for cancer diagnosis and grading, but the manual process for obtaining MC from whole-slide histopathological images is very time-consuming and prone to error. Therefore, deep learning models have been proposed to facilitate this process. Existing approaches utilize a two-stage pipeline: the detection stage for identifying the locations of potential mitotic cells and the classification stage for refining prediction confidences. However, this pipeline formulation can lead to inconsistencies in the classification stage due to the poor prediction quality of the detection stage and the mismatches in training data distributions between the two stages. In this study, we propose a Refine Cascade Network (ReCasNet), an enhanced deep learning pipeline that mitigates the aforementioned problems with three improvements. First, window relocation was used to reduce the number of poor quality false positives generated during the detection stage. Second, object re-cropping was performed with another deep learning model to adjust poorly centered objects. Third, improved data selection strategies were introduced during the classification stage to reduce the mismatches in training data distributions. ReCasNet was evaluated on two large-scale mitotic figure recognition datasets, canine cutaneous mast cell tumor (CCMCT) and canine mammary carcinoma (CMC), which resulted in up to 4.8% percentage point improvements in the F1 scores for mitotic cell detection and 44.1% reductions in mean absolute percentage error (MAPE) for MC prediction. Techniques that underlie ReCasNet can be generalized to other two-stage object detection networks and should contribute to improving the performances of deep learning models in broad digital pathology applications.
翻訳日:2022-03-01 17:28:12 公開日:2022-02-28
# 「目を通して私を見ることができたら」--歩行者知覚の予測

"If you could see me through my eyes": Predicting Pedestrian Perception ( http://arxiv.org/abs/2202.13981v1 )

ライセンス: Link先を確認
Julian Petzold, Mostafa Wahby, Franek Stark, Ulrich Behrje, Heiko Hamann(参考訳) 歩行者は特に都市交通の脆弱な道路利用者である。 自動運転の登場により、歩行者を保護するための新しい技術が開発される。 歩行者行動のモデルとして,ニューラルネットワークを学習する機械学習ツールチェーンを提案する。 先行研究では,歩行者横断シナリオのシミュレーションから合成データを用いて,可変オートエンコーダと短期記憶ネットワークの訓練を行い,ペデストリアンの将来の視覚知覚を予測する。 a~pedestrianの将来的な知覚を関連する時間軸内で正確に予測することができる。 これらの予測されたフレームをこれらのネットワークに反復的に供給することで、歩行者のシミュレーションとして利用することができる。 このような訓練されたネットワークは、後に自動運転車の観点からも歩行者の行動を予測するために使用できる。 もう1つの将来の拡張は、これらのネットワークを現実世界のビデオデータで再訓練することだ。

Pedestrians are particularly vulnerable road users in urban traffic. With the arrival of autonomous driving, novel technologies can be developed specifically to protect pedestrians. We propose a~machine learning toolchain to train artificial neural networks as models of pedestrian behavior. In a~preliminary study, we use synthetic data from simulations of a~specific pedestrian crossing scenario to train a~variational autoencoder and a~long short-term memory network to predict a~pedestrian's future visual perception. We can accurately predict a~pedestrian's future perceptions within relevant time horizons. By iteratively feeding these predicted frames into these networks, they can be used as simulations of pedestrians as indicated by our results. Such trained networks can later be used to predict pedestrian behaviors even from the perspective of the autonomous car. Another future extension will be to re-train these networks with real-world video data.
翻訳日:2022-03-01 17:27:32 公開日:2022-02-28
# BARTによる深層学習

Deep, Deep Learning with BART ( http://arxiv.org/abs/2202.14005v1 )

ライセンス: Link先を確認
Moritz Blumenthal and Guanxiong Luo and Martin Schilling and H. Christian M. Holme and Martin Uecker(参考訳) 目的:mriで再現可能な研究のための深層学習に基づく画像再構成フレームワークの開発。 方法: BARTツールボックスは、並列イメージングと圧縮センシングのためのキャリブレーションと再構成アルゴリズムの豊富な実装を提供する。 この作業において、BARTは、勾配の計算を可能にする自動微分を提供する非線形演算子フレームワークによって拡張された。 非一様高速フーリエ変換のような既存のMRI固有の演算子は、このフレームワークに直接統合され、ニューラルネットワークで使用される一般的なビルディングブロックによって補完される。 高度深層学習に基づく再構築のためのフレームワークの利用を評価するために,2つの最先端の未学習再構築ネットワーク,すなわち変分ネットワーク[1]とMoDL[2]を実装した。 結果:BARTの勾配に基づく最適化アルゴリズムを用いて,最先端の深層画像再構成ネットワークを構築し,訓練することができる。 BARTの実装は、TensorFlowベースのオリジナルの実装と比較して、トレーニング時間と再構築品質の点で、同様のパフォーマンスを実現している。 結論: 非線形演算子とニューラルネットワークをBARTに統合することにより,MRIにおけるディープラーニングに基づく再構築のための一般的なフレームワークを提供する。

Purpose: To develop a deep-learning-based image reconstruction framework for reproducible research in MRI. Methods: The BART toolbox offers a rich set of implementations of calibration and reconstruction algorithms for parallel imaging and compressed sensing. In this work, BART was extended by a non-linear operator framework that provides automatic differentiation to allow computation of gradients. Existing MRI-specific operators of BART, such as the non-uniform fast Fourier transform, are directly integrated into this framework and are complemented by common building blocks used in neural networks. To evaluate the use of the framework for advanced deep-learning-based reconstruction, two state-of-the-art unrolled reconstruction networks, namely the Variational Network [1] and MoDL [2], were implemented. Results: State-of-the-art deep image-reconstruction networks can be constructed and trained using BART's gradient based optimization algorithms. The BART implementation achieves a similar performance in terms of training time and reconstruction quality compared to the original implementations based on TensorFlow. Conclusion: By integrating non-linear operators and neural networks into BART, we provide a general framework for deep-learning-based reconstruction in MRI.
翻訳日:2022-03-01 17:27:20 公開日:2022-02-28
# アンチマルウェアサンドボックスゲーム

Anti-Malware Sandbox Games ( http://arxiv.org/abs/2202.13520v1 )

ライセンス: Link先を確認
Sujoy Sikdar, Sikai Ruan, Qishen Han, Paween Pitimanaaree, Jeremy Blackthorne, Bulent Yener, Lirong Xia(参考訳) 我々は,最先端サンドボックス法を用いたマルウェア保護のゲーム理論モデルを開発し,マルウェア対策の最適防御戦略を特徴付け,計算する。 我々は、マルウェア(M)とアンチマルウェア(AM)の開発者間の戦略的相互作用を2つのプレイヤーゲームとしてモデル化し、AMはサンドボックス環境を生成する戦略にコミットし、Mは検知した環境に基づいて悪意あるアクティビティを攻撃または隠蔽するかを選択することで応答する。 我々は、AMが全マシンを保護する条件を特徴付け、最適なAM戦略を効率的に計算できる条件を特定する。 他のケースでは、最適am戦略を計算するために二次制約付き二次プログラム(qcqp)ベースの最適化フレームワークを提供する。 さらに、実験的に示すように、最適な AM ユーティリティに近い AM ユーティリティを平衡で達成する AM の自然で容易に計算できる戦略を同定する。

We develop a game theoretic model of malware protection using the state-of-the-art sandbox method, to characterize and compute optimal defense strategies for anti-malware. We model the strategic interaction between developers of malware (M) and anti-malware (AM) as a two player game, where AM commits to a strategy of generating sandbox environments, and M responds by choosing to either attack or hide malicious activity based on the environment it senses. We characterize the condition for AM to protect all its machines, and identify conditions under which an optimal AM strategy can be computed efficiently. For other cases, we provide a quadratically constrained quadratic program (QCQP)-based optimization framework to compute the optimal AM strategy. In addition, we identify a natural and easy to compute strategy for AM, which as we show empirically, achieves AM utility that is close to the optimal AM utility, in equilibrium.
翻訳日:2022-03-01 17:26:24 公開日:2022-02-28
# 単発自己監督粒子追跡

Single-shot self-supervised particle tracking ( http://arxiv.org/abs/2202.13546v1 )

ライセンス: Link先を確認
Benjamin Midtvedt and Jes\'us Pineda and Fredrik Sk\"arberg and Erik Ols\'en and Harshith Bachimanchi and Emelie Wes\'en and Elin K. Esbj\"orner and Erik Selander and Fredrik H\"o\"ok and Daniel Midtvedt and Giovanni Volpe(参考訳) 粒子追跡はデジタル顕微鏡の基本課題である。 近年、機械学習アプローチは、より古典的なアプローチの限界を克服するために大きな進歩を遂げている。 最先端の機械学習手法の訓練はほとんど普遍的に、大量のラベル付き実験データか、現実的なデータセットを数値的にシミュレートする能力に依存する。 しかし、実験によって生成されたデータはしばしばラベル付けが難しく、容易に数値的に再現できない。 本稿では,1枚のラベルのない実験画像からサブピクセル精度で物体の追跡を学習する,LodeSTAR(Low-shot Deep Symmetric Tracking And Regression)という新しいディープラーニング手法を提案する。 これは、データの固有のroto-translational symmetriesを利用して実現されている。 LodeSTARは従来の手法よりも精度が高いことを示す。 さらに,密集した細胞や雑音の背景を含む実験データを解析した。 また、フーリエ空間における信号の伝播と信号強度のスケーリングによる偏光性により、測定可能な粒子特性を粒子の垂直位置まで拡張するために追加の対称性を利用する。 単一のラベルのないイメージでディープラーニングモデルをトレーニングする機能のおかげで、LodeSTARはエンジニアリング、生物学、医学のための高品質な顕微鏡分析パイプラインの開発を加速することができる。

Particle tracking is a fundamental task in digital microscopy. Recently, machine-learning approaches have made great strides in overcoming the limitations of more classical approaches. The training of state-of-the-art machine-learning methods almost universally relies on either vast amounts of labeled experimental data or the ability to numerically simulate realistic datasets. However, the data produced by experiments are often challenging to label and cannot be easily reproduced numerically. Here, we propose a novel deep-learning method, named LodeSTAR (Low-shot deep Symmetric Tracking And Regression), that learns to tracks objects with sub-pixel accuracy from a single unlabeled experimental image. This is made possible by exploiting the inherent roto-translational symmetries of the data. We demonstrate that LodeSTAR outperforms traditional methods in terms of accuracy. Furthermore, we analyze challenging experimental data containing densely packed cells or noisy backgrounds. We also exploit additional symmetries to extend the measurable particle properties to the particle's vertical position by propagating the signal in Fourier space and its polarizability by scaling the signal strength. Thanks to the ability to train deep-learning models with a single unlabeled image, LodeSTAR can accelerate the development of high-quality microscopic analysis pipelines for engineering, biology, and medicine.
翻訳日:2022-03-01 17:25:48 公開日:2022-02-28
# (参考訳) サイバーセキュリティのための人工知能(AICS)

Artificial Intelligence for Cyber Security (AICS) ( http://arxiv.org/abs/2202.14010v1 )

ライセンス: CC BY 4.0
James Holt, Edward Raff, Ahmad Ridley, Dennis Ross, Arunesh Sinha, Diane Staheli, William Streilen, Milind Tambe, Yevgeniy Vorobeychik, Allan Wollaber(参考訳) ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。 サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超える。 さらに、敵は新たな攻撃を継続する。 したがって、AI手法はサイバードメインを理解し保護するために必要となる。 これらの課題は、企業ネットワークにおいて広く研究されているが、研究と実践には多くのギャップがあり、他の領域では新たな問題がある。 一般的に、AI技術は現実世界では広く採用されていない。 1)セキュリティのためのAI認証の欠如 (2) サイバードメイン内のAIシステムに対する実践的制約(例えば、電力、メモリ、ストレージ)の影響に関する公式な研究の欠如 (3) 回避、中毒攻撃などの既知の脆弱性 (4) セキュリティアナリストにとって意味のある説明の欠如 (5) AIソリューションに対するアナリスト信頼の欠如 など。 これらの課題に対して,研究コミュニティが新たなソリューションを開発する必要がある。

The workshop will focus on the application of AI to problems in cyber security. Cyber systems generate large volumes of data, utilizing this effectively is beyond human capabilities. Additionally, adversaries continue to develop new attacks. Hence, AI methods are required to understand and protect the cyber domain. These challenges are widely studied in enterprise networks, but there are many gaps in research and practice as well as novel problems in other domains. In general, AI techniques are still not widely adopted in the real world. Reasons include: (1) a lack of certification of AI for security, (2) a lack of formal study of the implications of practical constraints (e.g., power, memory, storage) for AI systems in the cyber domain, (3) known vulnerabilities such as evasion, poisoning attacks, (4) lack of meaningful explanations for security analysts, and (5) lack of analyst trust in AI solutions. There is a need for the research community to develop novel solutions for these practical issues.
翻訳日:2022-03-01 17:23:59 公開日:2022-02-28
# フェデレーション学習におけるホームIoTサービスの応答時間の改善

Improving Response Time of Home IoT Services in Federated Learning ( http://arxiv.org/abs/2202.13626v1 )

ライセンス: Link先を確認
Dongjun Hwang, Hyunsu Mun, Youngseok Lee(参考訳) センサと機械学習を備えたインテリジェントなホームIoTサービスには、トレーニング用にプライベートデータを共有できないIoTデータをクラウドサーバにアップロードする必要があります。 フェデレーション学習と呼ばれる最近の機械学習アプローチは、分散コンピューティング環境でデバイス上のユーザデータを保持している。 フェデレーション学習はプライバシ保護に有用だが、IoTデバイスは通常、クラウド内のリモートサーバによって制御されるため、ホームIoTサービスにおけるエンドツーエンドのレスポンス時間の面ではパフォーマンスが劣る。 また,データ問題やモデル反転攻撃が不十分なため,フェデレーション学習モデルの高精度化は困難である。 本稿では,ホームネットワークにおけるユーザの動作を迅速かつ正確に認識する,フェデレーション学習ホームサービスのためのローカルiot制御手法を提案する。 本稿では,データ不足とデータモデル反転攻撃問題を解決するために,転送学習と差分プライバシを備えたフェデレーション学習クライアントを提案する。 実験から,ユーザ認証のためのホームIoTデバイスのローカル制御と,フェデレート学習クライアントによるメッセージ送信が,応答時間を1秒未満に改善することを示す。 さらに,移乗学習による連合学習は9,000例のサンプルで97%の精度を達成し,中央集中学習との差は2%に過ぎなかった。

For intelligent home IoT services with sensors and machine learning, we need to upload IoT data to the cloud server which cannot share private data for training. A recent machine learning approach, called federated learning, keeps user data on the device in the distributed computing environment. Though federated learning is useful for protecting privacy, it experiences poor performance in terms of the end-to-end response time in home IoT services, because IoT devices are usually controlled by remote servers in the cloud. In addition, it is difficult to achieve the high accuracy of federated learning models due to insufficient data problems and model inversion attacks. In this paper, we propose a local IoT control method for a federated learning home service that recognizes the user behavior in the home network quickly and accurately. We present a federated learning client with transfer learning and differential privacy to solve data scarcity and data model inversion attack problems. From experiments, we show that the local control of home IoT devices for user authentication and control message transmission by the federated learning clients improves the response time to less than 1 second. Moreover, we demonstrate that federated learning with transfer learning achieves 97% of accuracy under 9,000 samples, which is only 2% of the difference from centralized learning.
翻訳日:2022-03-01 17:21:46 公開日:2022-02-28
# Knapsacksによるオンライン学習 - 両方の世界のベスト

Online Learning with Knapsacks: the Best of Both Worlds ( http://arxiv.org/abs/2202.13710v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Christian Kroer(参考訳) 意思決定者は,リソース制約の有限セットに違反することなく,期待する報酬を最大化しようとするオンライン学習問題を考察する。 戦略混合の適切な定義空間上に学習プロセスをキャストすることで、非凸報酬と資源消費関数を持つ一般的な設定であっても、基礎となる最適化問題のラグランジュ緩和において強い双対性を回復する。 そして,この設定に対して,確率的および対角的入力の両方で保証されない,初めてのベスト・オブ・ワールド型フレームワークを提供する。 我々の枠組みは、確率的な場合の先行作業に対する同じ後悔の保証をもたらす。 一方、予算が少なくとも時間軸で線形に増加すると、逆の場合には一定の競争比率が与えられ、al. (2019) におけるimmorlica の$o(m \log t)$ の競争比率が向上する。 さらに、このフレームワークにより、意思決定者が非凸報酬やコスト関数を処理できる。 このフレームワークの2つのゲーム理論的な応用を提供し、柔軟性のさらなる証拠を与えます。

We study online learning problems in which a decision maker wants to maximize their expected reward without violating a finite set of $m$ resource constraints. By casting the learning process over a suitably defined space of strategy mixtures, we recover strong duality on a Lagrangian relaxation of the underlying optimization problem, even for general settings with non-convex reward and resource-consumption functions. Then, we provide the first best-of-both-worlds type framework for this setting, with no-regret guarantees both under stochastic and adversarial inputs. Our framework yields the same regret guarantees of prior work in the stochastic case. On the other hand, when budgets grow at least linearly in the time horizon, it allows us to provide a constant competitive ratio in the adversarial case, which improves over the $O(m \log T)$ competitive ratio of Immorlica at al. (2019). Moreover, our framework allows the decision maker to handle non-convex reward and cost functions. We provide two game-theoretic applications of our framework to give further evidence of its flexibility.
翻訳日:2022-03-01 17:21:26 公開日:2022-02-28
# Hyperbolic Graph Neural Networks: 手法と応用のレビュー

Hyperbolic Graph Neural Networks: A Review of Methods and Applications ( http://arxiv.org/abs/2202.13852v1 )

ライセンス: Link先を確認
Menglin Yang, Min Zhou, Zhihao Li, Jiahong Liu, Lujia Pan, Hui Xiong, Irwin King(参考訳) グラフニューラルネットワークは、従来のニューラルネットワークをグラフ構造化データに一般化し、その印象的な表現能力によって広く注目を集めている。 卓越した成果にもかかわらず、グラフ関連学習におけるユークリッドモデルの性能は、特に非ユークリッド潜在解剖学のデータセットにおいて、ユークリッド幾何学の表現能力によって制限されている。 近年,その指数的成長特性から,木のような構造を持つグラフデータ処理や,ゆるい分布の処理において,双曲空間が人気が高まっている。 本研究では,現在の双曲グラフニューラルネットワークの技術的詳細を包括的に検討し,それらを汎用フレームワークに統合し,各コンポーネントの変種を要約する。 さらに,HGNN関連アプリケーションについても紹介する。 最後に,双曲空間におけるグラフ学習の成果をさらに高めるためのガイドラインとして,いくつかの課題も挙げる。

Graph neural networks generalize conventional neural networks to graph-structured data and have received widespread attention due to their impressive representation ability. In spite of the remarkable achievements, the performance of Euclidean models in graph-related learning is still bounded and limited by the representation ability of Euclidean geometry, especially for datasets with highly non-Euclidean latent anatomy. Recently, hyperbolic space has gained increasing popularity in processing graph data with tree-like structure and power-law distribution, owing to its exponential growth property. In this survey, we comprehensively revisit the technical details of the current hyperbolic graph neural networks, unifying them into a general framework and summarizing the variants of each component. More importantly, we present various HGNN-related applications. Last, we also identify several challenges, which potentially serve as guidelines for further flourishing the achievements of graph learning in hyperbolic spaces.
翻訳日:2022-03-01 17:19:59 公開日:2022-02-28
# スポンサー検索広告におけるキーワード最適化:マルチレベル計算フレームワーク

Keyword Optimization in Sponsored Search Advertising: A Multi-Level Computational Framework ( http://arxiv.org/abs/2202.13506v1 )

ライセンス: Link先を確認
Yanwu Yang, Bernard J. Jansen, Yinghui Yang, Xunhua Guo, Daniel Zeng(参考訳) スポンサー付き検索広告では、キーワードは広告主、検索ユーザー、検索エンジンを繋ぐ重要な橋として機能する。 広告主は、検索広告キャンペーンのライフサイクル全体を通して、一連のキーワード決定に対処しなければならない。 本稿では,キーワード最適化のためのマルチレベル・クローズドフォーム計算フレームワーク(MKOF)を提案する。 この枠組みに基づき,キーワードのターゲティング,キーワードの割り当て,キーワードのグルーピング(マーケット,キャンペーン,アドグループなど)に対応する最適化戦略を開発する。 過去の検索広告キャンペーンから得られた2つの実世界データセットを用いて,キーワード最適化フレームワークとインスタンス化戦略を評価するための計算実験を行う。 実験の結果,本手法は最適解に一定の方法でアプローチできることが示され,実際は2つのベースラインキーワード戦略よりも優れていた。 提案するmkofフレームワークは、スポンサー付き検索広告における様々なキーワード戦略を実装し評価するための有効な実験環境を提供する。

In sponsored search advertising, keywords serve as an essential bridge linking advertisers, search users and search engines. Advertisers have to deal with a series of keyword decisions throughout the entire lifecycle of search advertising campaigns. This paper proposes a multi-level and closed-form computational framework for keyword optimization (MKOF) to support various keyword decisions. Based on this framework, we develop corresponding optimization strategies for keyword targeting, keyword assignment and keyword grouping at different levels (e.g., market, campaign and adgroup). With two real-world datasets obtained from past search advertising campaigns, we conduct computational experiments to evaluate our keyword optimization framework and instantiated strategies. Experimental results show that our method can approach the optimal solution in a steady way, and it outperforms two baseline keyword strategies commonly used in practice. The proposed MKOF framework also provides a valid experimental environment to implement and assess various keyword strategies in sponsored search advertising.
翻訳日:2022-03-01 17:15:58 公開日:2022-02-28
# フィルタ強化型MLPは、シークエンシャルレコメンデーションに必要なもの

Filter-enhanced MLP is All You Need for Sequential Recommendation ( http://arxiv.org/abs/2202.13556v1 )

ライセンス: Link先を確認
Kun Zhou, Hui Yu, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 近年,RNN,CNN,Transformer などのディープニューラルネットワークがシーケンシャルレコメンデーションのタスクに応用され,ログ化されたユーザ行動データから動的リコメンデーション特性をキャプチャして,正確なレコメンデーションを実現している。 しかし、オンラインプラットフォームでは、ログされたユーザの行動データがノイズを含まないことは避けられず、詳細なレコメンデーションモデルはこれらのログされたデータに簡単に適合する。 この問題に対処するために、周波数領域の雑音を減衰させる信号処理からアルゴリズムをフィルタリングするアイデアを借用する。 実証実験では,フィルタアルゴリズムは逐次レコメンデーションモデルを大幅に改善し,単純なフィルタリングアルゴリズム(例えばBand-Stop Filter)をオールMLPアーキテクチャと組み合わせることで,競合するTransformerベースのモデルよりも優れることがわかった。 そこで我々は, 逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである \textbf{FMLP-Rec} を提案する。 全mlpアーキテクチャは、より少ない時間複雑性でモデルを内包し、学習可能なフィルタは、周波数領域のノイズ情報を適応的に減衰させることができる。 8つの実世界のデータセットを用いた広範囲な実験により,提案手法が競合型rnn,cnn,gnnおよびtransformerベースの手法よりも優れていることを示した。 コードとデータはリンクで公開されている。 \textcolor{blue}{\url{https://github.com/R UCAIBox/FMLP-Rec}}。

Recently, deep neural networks such as RNN, CNN and Transformer have been applied in the task of sequential recommendation, which aims to capture the dynamic preference characteristics from logged user behavior data for accurate recommendation. However, in online platforms, logged user behavior data is inevitable to contain noise, and deep recommendation models are easy to overfit on these logged data. To tackle this problem, we borrow the idea of filtering algorithms from signal processing that attenuates the noise in the frequency domain. In our empirical experiments, we find that filtering algorithms can substantially improve representative sequential recommendation models, and integrating simple filtering algorithms (eg Band-Stop Filter) with an all-MLP architecture can even outperform competitive Transformer-based models. Motivated by it, we propose \textbf{FMLP-Rec}, an all-MLP model with learnable filters for sequential recommendation task. The all-MLP architecture endows our model with lower time complexity, and the learnable filters can adaptively attenuate the noise information in the frequency domain. Extensive experiments conducted on eight real-world datasets demonstrate the superiority of our proposed method over competitive RNN, CNN, GNN and Transformer-based methods. Our code and data are publicly available at the link: \textcolor{blue}{\url{https://github.com/R UCAIBox/FMLP-Rec}}.
翻訳日:2022-03-01 17:15:42 公開日:2022-02-28
# 人間のデモビデオからの一般化可能なタスク表現学習 : 幾何学的アプローチ

Generalizable task representation learning from human demonstration videos: a geometric approach ( http://arxiv.org/abs/2202.13604v1 )

ライセンス: Link先を確認
Jun Jin, Martin Jagersand(参考訳) 本研究では,ロボットやロボットの動きを訓練することなく,人間のデモビデオからタスク学習を一般化する問題について検討する。 異なるオブジェクト/ツール(分類対象)のタスクを示す人間のデモビデオのセットを前提に,分類対象に一般化し,効率的な制御設計を可能にする視覚的観察の表現を学習することを目指す。 本稿では、人間のデモビデオからタスク仕様を幾何学的に符号化し、分類対象間のタスク仕様対応を構築することで一般化を可能にする表現学習問題に幾何学的タスク構造を導入することを提案する。 具体的には,グラフ構造タスク関数を用いて構造制約下でタスク表現を学習するcovgs-ilを提案する。 内部接続関係が同じタスクを幾何学的制約で定義している異なるオブジェクトから幾何学的特徴を選択することで,タスクの一般化を可能にする。 学習したタスク表現は、uncalibrated visual servoing (UVS)を使用してロボットコントローラに転送されるため、追加のロボットトレーニングや事前記録されたロボット動作の必要性が除去される。

We study the problem of generalizable task learning from human demonstration videos without extra training on the robot or pre-recorded robot motions. Given a set of human demonstration videos showing a task with different objects/tools (categorical objects), we aim to learn a representation of visual observation that generalizes to categorical objects and enables efficient controller design. We propose to introduce a geometric task structure to the representation learning problem that geometrically encodes the task specification from human demonstration videos, and that enables generalization by building task specification correspondence between categorical objects. Specifically, we propose CoVGS-IL, which uses a graph-structured task function to learn task representations under structural constraints. Our method enables task generalization by selecting geometric features from different objects whose inner connection relationships define the same task in geometric constraints. The learned task representation is then transferred to a robot controller using uncalibrated visual servoing (UVS); thus, the need for extra robot training or pre-recorded robot motions is removed.
翻訳日:2022-03-01 17:15:03 公開日:2022-02-28
# ネットワークAIOpsのためのデプロイ深層学習モデルの品質モニタリングと評価

Quality Monitoring and Assessment of Deployed Deep Learning Models for Network AIOps ( http://arxiv.org/abs/2202.13642v1 )

ライセンス: Link先を確認
Lixuan Yang, Dario Rossi(参考訳) 人工知能(ai)は最近、多くの注目を集めており、研究所からさまざまな分野の幅広いデプロイに移行している。 最終的に、DLモデルはソフトウェアアーティファクトであり、定期的なメンテナンスと更新が必要である。 AIOpsは、ネットワーク操作と管理に適用されるAIソフトウェアへのDevOpsソフトウェア開発プラクティスの論理的拡張である。 DLモデルデプロイメントのライフサイクルでは、デプロイされたモデルの品質を評価し、"静的"モデルを検出し、アップデートを優先順位付けすることが重要です。 本稿では,ネットワーク管理の文脈における課題を取り上げ,単純かつ効果的な手法を提案する。 (i)個別推論の品質評価等 (2)複数の推論に対するモデル品質の総合的追跡を行い、ネットワーク管理と画像認識の分野を代表する2つのユースケースに適用する。

Artificial Intelligence (AI) has recently attracted a lot of attention, transitioning from research labs to a wide range of successful deployments in many fields, which is particularly true for Deep Learning (DL) techniques. Ultimately, DL models being software artifacts, they need to be regularly maintained and updated: AIOps is the logical extension of the DevOps software development practices to AI-software applied to network operation and management. In the lifecycle of a DL model deployment, it is important to assess the quality of deployed models, to detect "stale" models and prioritize their update. In this article, we cover the issue in the context of network management, proposing simple yet effective techniques for (i) quality assessment of individual inference, and for (ii) overall model quality tracking over multiple inferences, that we apply to two use cases, representative of the network management and image recognition fields.
翻訳日:2022-03-01 17:14:46 公開日:2022-02-28
# NSTX-Uにおける平衡のニューラルネットモデル

Neural net modeling of equilibria in NSTX-U ( http://arxiv.org/abs/2202.13915v1 )

ライセンス: Link先を確認
J.T. Wai, M.D. Boyer, E. Kolemen(参考訳) ニューラルネットワーク(nns)は、従来の物理計算モデルよりも高速な時間スケールでデータを合成し解釈するための経路を提供する。 本研究では,NSTX-U(National Spherical Torus Experiment-Upgrade)のためのツールスイートの一部として,平衡モデルと形状制御モデルに関連する2つのニューラルネットワークを開発し,プラズマシナリオの高速予測,最適化,可視化を行う。 ネットワークには、EFIT01再構成アルゴリズムで訓練された自由境界均衡解法であるEqnetと、Gspert符号で訓練され、形状制御モデルで発生する非線形項である非剛性プラズマ応答を予測するPertnetが含まれる。 均衡ニューラルネットワークは、ユースケースの柔軟性を提供するために、入力と出力の異なる組み合わせで訓練される。 特に、NNは、磁気診断を平衡予測の入力として使用して再構成符号として機能したり、プロファイルや外部電流を入力として使用して、従来のフリーバウンダリーなグラッドシャフラノフ解法として機能させることができる。 本報告では,これらのモデルが閉ループシミュレーションで確実に使用できることを示す。 一般化性と雑音に関するいくつかの制限について論じる。

Neural networks (NNs) offer a path towards synthesizing and interpreting data on faster timescales than traditional physics-informed computational models. In this work we develop two neural networks relevant to equilibrium and shape control modeling, which are part of a suite of tools being developed for the National Spherical Torus Experiment-Upgrade (NSTX-U) for fast prediction, optimization, and visualization of plasma scenarios. The networks include Eqnet, a free-boundary equilibrium solver trained on the EFIT01 reconstruction algorithm, and Pertnet, which is trained on the Gspert code and predicts the non-rigid plasma response, a nonlinear term that arises in shape control modeling. The equilibrium neural network is trained with different combinations of inputs and outputs in order to offer flexibility in use cases. In particular, the NN can use magnetic diagnostics as inputs for equilibrium prediction thus acting as a reconstruction code, or can use profiles and external currents as inputs to act as a traditional free-boundary Grad-Shafranov solver. We report strong performance for both networks indicating that these models could reliably be used within closed-loop simulations. Some limitations regarding generalizability and noise are discussed.
翻訳日:2022-03-01 17:12:06 公開日:2022-02-28
# (参考訳) 節間クロージャによる記述論理EL++埋め込み [全文訳有]

Description Logic EL++ Embeddings with Intersectional Closure ( http://arxiv.org/abs/2202.14018v1 )

ライセンス: CC BY 4.0
Xi Peng, Zhenwei Tang, Maxat Kulmanov, Kexin Niu, Robert Hoehndorf(参考訳) 特に生物医学領域における多くのオントロジーはDescription Logic EL++に基づいている。 分散表現学習によるEL++オントロジーの解釈と活用にいくつかの取り組みがなされている。 特に、el++理論内の概念は n-次元埋め込み空間内の n-球体として表現されている。 しかし、2つのn-球の交叉がn-球ではないため、n-球を用いて概念を表現する場合、交叉閉包は満足できない。 これは、概念間の距離を計測し、概念間の同値性を推測する場合の課題につながる。 そこで我々は, ELBE (EL Box Embedding) を開発し, 軸パラレルボックスを用いた記述論理EL++の埋め込みを学習した。 モデルトレーニングのためのEL++公理から,特殊設計のボックスベースの幾何学的制約を生成する。 箱の交叉は箱として残るので、交叉閉包は満足される。 提案手法の有効性を実証するために,3つのデータセットの広範な実験結果について報告する。

Many ontologies, in particular in the biomedical domain, are based on the Description Logic EL++. Several efforts have been made to interpret and exploit EL++ ontologies by distributed representation learning. Specifically, concepts within EL++ theories have been represented as n-balls within an n-dimensional embedding space. However, the intersectional closure is not satisfied when using n-balls to represent concepts because the intersection of two n-balls is not an n-ball. This leads to challenges when measuring the distance between concepts and inferring equivalence between concepts. To this end, we developed EL Box Embedding (ELBE) to learn Description Logic EL++ embeddings using axis-parallel boxes. We generate specially designed box-based geometric constraints from EL++ axioms for model training. Since the intersection of boxes remains as a box, the intersectional closure is satisfied. We report extensive experimental results on three datasets and present a case study to demonstrate the effectiveness of the proposed method.
翻訳日:2022-03-01 17:06:02 公開日:2022-02-28
# 多言語蒸留とゼロショットアウェアトレーニングによる言語間テキスト分類

Cross-Lingual Text Classification with Multilingual Distillation and Zero-Shot-Aware Training ( http://arxiv.org/abs/2202.13654v1 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Zhigang Chen, Shijin Wang(参考訳) 多言語事前学習言語モデル(mplm)は、異なる言語でのタスクを処理できるだけでなく、驚くべきゼロショット言語間転送性を示す。 しかし、mplmは通常、最先端のモノリンガル事前学習モデルと比較して、リッチリソース言語で同等の性能を達成できない。 本稿では,多言語モデルの教師付きおよびゼロショット性能と教師付き言語からのリソースのみを同時に改善することを目的とする。 提案手法は,教師学習フレームワークを用いた高性能モノリンガルモデルからの知識の伝達に基づく。 複数の単言語モデルから多言語モデルを同時に学習させる。 本研究では,複数の言語枝を持つmplm上に構築したモデルであるmblm(multi-branch multilingual language model)を提案する。 各ブランチは変換器のスタックである。 mblmは、すべてのブランチからゼロショット表現の混合からモデルを学ぶことを奨励するゼロショット認識トレーニング戦略でトレーニングされる。 2つの言語間分類タスクの結果から,タスクの教師付きデータのみを用いて,MPLMの教師付き性能とゼロショット性能を改善した。

Multilingual pre-trained language models (MPLMs) not only can handle tasks in different languages but also exhibit surprising zero-shot cross-lingual transferability. However, MPLMs usually are not able to achieve comparable supervised performance on rich-resource languages compared to the state-of-the-art monolingual pre-trained models. In this paper, we aim to improve the multilingual model's supervised and zero-shot performance simultaneously only with the resources from supervised languages. Our approach is based on transferring knowledge from high-performance monolingual models with a teacher-student framework. We let the multilingual model learn from multiple monolingual models simultaneously. To exploit the model's cross-lingual transferability, we propose MBLM (multi-branch multilingual language model), a model built on the MPLMs with multiple language branches. Each branch is a stack of transformers. MBLM is trained with the zero-shot-aware training strategy that encourages the model to learn from the mixture of zero-shot representations from all the branches. The results on two cross-lingual classification tasks show that, with only the task's supervised data used, our method improves both the supervised and zero-shot performance of MPLMs.
翻訳日:2022-03-01 16:51:44 公開日:2022-02-28
# LiLT: 構造化文書理解のためのシンプルで効果的な言語に依存しないレイアウト変換器

LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding ( http://arxiv.org/abs/2202.13669v1 )

ライセンス: Link先を確認
Jiapeng Wang, Lianwen Jin, Kai Ding(参考訳) 構造化文書理解は、知的な文書処理において重要な役割を担っているため、近年大きな進歩を遂げている。 しかし、既存のほとんどの関連モデルは、事前学習コレクションに含まれる特定の言語(典型的には英語)の文書データのみを扱うことができ、非常に限定的である。 この問題に対処するため,構造化文書理解のための単純な言語非依存型レイアウト変換器(LiLT)を提案する。 LiLTは、単一の言語の構造化ドキュメント上で事前トレーニングを行い、それに対応するオフザシェルフモノリンガル/マルチティンガル事前トレーニングされたテキストモデルで、他の言語を直接微調整することができる。 8つの言語での実験結果から、LiLTは様々なダウンストリームベンチマークで競争力や性能に優れており、文書レイアウトの事前学習による言語に依存しない利点が期待できることがわかった。 コードとモデルはhttps://github.com/j pWang/LiLT.comで公開されている。

Structured document understanding has attracted considerable attention and made significant progress recently, owing to its crucial role in intelligent document processing. However, most existing related models can only deal with the document data of specific language(s) (typically English) included in the pre-training collection, which is extremely limited. To address this issue, we propose a simple yet effective Language-independent Layout Transformer (LiLT) for structured document understanding. LiLT can be pre-trained on the structured documents of a single language and then directly fine-tuned on other languages with the corresponding off-the-shelf monolingual/multilin gual pre-trained textual models. Experimental results on eight languages have shown that LiLT can achieve competitive or even superior performance on diverse widely-used downstream benchmarks, which enables language-independent benefit from the pre-training of document layout structure. Code and model are publicly available at https://github.com/j pWang/LiLT.
翻訳日:2022-03-01 16:51:12 公開日:2022-02-28
# タスク指向対話政策学習における強化学習手法の最近の進歩と課題

A Survey on Recent Advances and Challenges in Reinforcement LearningMethods for Task-Oriented Dialogue Policy Learning ( http://arxiv.org/abs/2202.13675v1 )

ライセンス: Link先を確認
Wai-Chung Kwan, Hongru Wang, Huimin Wang, Kam-Fai Wong(参考訳) 対話政策学習はタスク指向対話システム(tds)における重要な構成要素であり、各ターンにおける対話状態が与えられたシステムの次の動作を決定する。 強化学習(rl)は、ユーザが環境として、システムがエージェントとして、対話ポリシーを学ぶために選択される。 RLに基づく対話ポリシーの開発と評価を容易にするため,多くのベンチマークデータセットとアルゴリズムが作成されている。 本稿では,RLの規範に基づく対話政策の最近の進歩と課題について調査する。 より具体的には、RLに基づく対話ポリシー学習における主要な問題を特定し、対応するソリューションを要約する。 さらに,最近の手法をRLの基本要素に分類することで,対話政策学習にRLを適用するための総合的な調査を行う。 この調査は,対話管理における今後の研究に光を当てることができると考えている。

Dialogue Policy Learning is a key component in a task-oriented dialogue system (TDS) that decides the next action of the system given the dialogue state at each turn. Reinforcement Learning (RL) is commonly chosen to learn the dialogue policy, regarding the user as the environment and the system as the agent. Many benchmark datasets and algorithms have been created to facilitate the development and evaluation of dialogue policy based on RL. In this paper, we survey recent advances and challenges in dialogue policy from the prescriptive of RL. More specifically, we identify the major problems and summarize corresponding solutions for RL-based dialogue policy learning. Besides, we provide a comprehensive survey of applying RL to dialogue policy learning by categorizing recent methods into basic elements in RL. We believe this survey can shed a light on future research in dialogue management.
翻訳日:2022-03-01 16:50:48 公開日:2022-02-28
# 変分順序計画を用いたデータ・テキスト生成

Data-to-text Generation with Variational Sequential Planning ( http://arxiv.org/abs/2202.13756v1 )

ライセンス: Link先を確認
Ratish Puduppully and Yao Fu and Mirella Lapata(参考訳) 非言語的入力からテキスト出力を作成することを目的としたデータ対テキスト生成の課題について考察する。 我々は,複数段落の文書を長文で生成することに集中し,高レベル情報をコヒーレントで有意義な方法で整理する計画コンポーネントを付加したニューラルモデルを提案する。 我々は,計画と生成のステップをインターリーブしながら,構造化変分モデルを用いて潜在計画の逐次推定を行う。 テキストは、前の変分決定と以前に生成されたテキストの条件付けによって生成される。 2つのデータ・トゥ・テキスト・ベンチマーク(RotoWire と MLB)の実験では、我々のモデルは強いベースラインを上回り、限られたトレーニングデータ(例:数百のインスタンス)に直面してサンプル効率が良い。

We consider the task of data-to-text generation, which aims to create textual output from non-linguistic input. We focus on generating long-form text, i.e., documents with multiple paragraphs, and propose a neural model enhanced with a planning component responsible for organizing high-level information in a coherent and meaningful way. We infer latent plans sequentially with a structured variational model, while interleaving the steps of planning and generation. Text is generated by conditioning on previous variational decisions and previously generated text. Experiments on two data-to-text benchmarks (RotoWire and MLB) show that our model outperforms strong baselines and is sample efficient in the face of limited training data (e.g., a few hundred instances).
翻訳日:2022-03-01 16:50:37 公開日:2022-02-28
# 単語レベルの敵攻撃に対するロバストテキスト埋め込み

Robust Textual Embedding against Word-level Adversarial Attacks ( http://arxiv.org/abs/2202.13817v1 )

ライセンス: Link先を確認
Yichen Yang, Xiaosen Wang, Kun He(参考訳) 自然言語処理モデルの脆弱性は、類似した入力が埋め込み空間における異種表現に変換され、一貫性のない出力につながるという事実に起因し、Fast Triplet Metric Learning(FTML)と呼ばれる新しい堅牢なトレーニング手法を提案する。 具体的には、元のサンプルはその逆のサンプルと類似した表現を持つべきであり、その表現を他のサンプルと区別してより堅牢性を高めるべきであると論じる。 この目的のために、私たちは三重項メトリック学習を標準訓練に採用し、単語を正のサンプル(すなわち同義語)に近づけ、負のサンプル(すなわち非シンジニム)を埋め込み空間に押し出す。 大規模な実験により、FTMLは様々な高度な敵攻撃に対するモデルロバスト性を著しく促進し、元のサンプルに対して競合的な分類精度を維持することができることが示された。 さらに,本手法は組込み調整のみが必要で,標準トレーニングのオーバーヘッドが極めて少ないため,効率的である。 我々の研究は、堅牢な単語埋め込みによってテキストの堅牢性を改善する大きな可能性を示している。

We attribute the vulnerability of natural language processing models to the fact that similar inputs are converted to dissimilar representations in the embedding space, leading to inconsistent outputs, and propose a novel robust training method, termed Fast Triplet Metric Learning (FTML). Specifically, we argue that the original sample should have similar representation with its adversarial counterparts and distinguish its representation from other samples for better robustness. To this end, we adopt the triplet metric learning into the standard training to pull the words closer to their positive samples (i.e., synonyms) and push away their negative samples (i.e., non-synonyms) in the embedding space. Extensive experiments demonstrate that FTML can significantly promote the model robustness against various advanced adversarial attacks while keeping competitive classification accuracy on original samples. Besides, our method is efficient as it only needs to adjust the embedding and introduces very little overhead on the standard training. Our work shows the great potential of improving the textual robustness through robust word embedding.
翻訳日:2022-03-01 16:50:22 公開日:2022-02-28
# テキストの平滑化:テキスト分類作業における各種データ拡張手法の強化

Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks ( http://arxiv.org/abs/2202.13840v1 )

ライセンス: Link先を確認
Xing Wu, Chaochen Gao, Meng Lin, Liangjun Zang, Zhongyuan Wang, Songlin Hu(参考訳) ニューラルネットワークに入る前に、トークンは一般に、語彙の離散分布である対応する1つのホット表現に変換される。 スムース表現は、事前訓練されたマスク付き言語モデルから得られる候補トークンの確率であり、これはワンホット表現のより情報的な置換と見なすことができる。 本研究では,テキストの平滑化という効率的なデータ拡張手法を提案し,文を1ホット表現から制御可能な平滑表現に変換する。 低リソース方式で異なるベンチマークでテキストの平滑化を評価する。 実験の結果,テキスト平滑化は様々な主流データ拡張手法をかなり上回っていることがわかった。 さらに、テキストの平滑化とこれらのデータ拡張手法を組み合わせることで、パフォーマンスが向上する。

Before entering the neural network, a token is generally converted to the corresponding one-hot representation, which is a discrete distribution of the vocabulary. Smoothed representation is the probability of candidate tokens obtained from a pre-trained masked language model, which can be seen as a more informative substitution to the one-hot representation. We propose an efficient data augmentation method, termed text smoothing, by converting a sentence from its one-hot representation to a controllable smoothed representation. We evaluate text smoothing on different benchmarks in a low-resource regime. Experimental results show that text smoothing outperforms various mainstream data augmentation methods by a substantial margin. Moreover, text smoothing can be combined with those data augmentation methods to achieve better performance.
翻訳日:2022-03-01 16:50:04 公開日:2022-02-28
# フレキシブル適応弾性とワード・オブ・ムートをもつ一般化ビデール・ウルフ応答モデルの学習パラメータ

Learning Parameters for a Generalized Vidale-Wolfe Response Model with Flexible Ad Elasticity and Word-of-Mouth ( http://arxiv.org/abs/2202.13566v1 )

ライセンス: Link先を確認
Yanwu Yang, Baozhu Feng, Daniel Zeng(参考訳) 本研究では,Vidale-Wolfeモデル(GVW)の一般化形式について検討する。 我々のモデリング研究の重要な要素は、GVWモデルが広告主の弾力性を表す2つの有用な指標と、ワード・オブ・マウス(WoM)効果を含んでいることである。 さらに,GVWモデルの望ましい性質について考察し,そのパラメータを学習するためのディープニューラルネットワーク(DNN)に基づく推定手法を提案する。 さらに,3つの実世界のデータセットに基づいて,GVWモデルの検証と特性の同定を行う。 さらに,econometricモデルに対するgvwモデルの潜在的利点についても論じる。 調査の結果,広告の弾力性指数とWoM指数の両方が広告反応に有意な影響を与え,GVWモデルは実用的な広告状況から引き起こされるいくつかの興味深い現象の観点から,広告の計量モデルよりも潜在的に有利であることが示された。 GVWモデルとその深層学習に基づく評価手法は,ビッグデータによる広告分析と意思決定を支援する基盤を提供する。

In this research, we investigate a generalized form of Vidale-Wolfe (GVW) model. One key element of our modeling work is that the GVW model contains two useful indexes representing advertiser's elasticity and the word-of-mouth (WoM) effect, respectively. Moreover, we discuss some desirable properties of the GVW model, and present a deep neural network (DNN)-based estimation method to learn its parameters. Furthermore, based on three realworld datasets, we conduct computational experiments to validate the GVW model and identified properties. In addition, we also discuss potential advantages of the GVW model over econometric models. The research outcome shows that both the ad elasticity index and the WoM index have significant influences on advertising responses, and the GVW model has potential advantages over econometric models of advertising, in terms of several interesting phenomena drawn from practical advertising situations. The GVW model and its deep learning-based estimation method provide a basis to support big data-driven advertising analytics and decision makings; in the meanwhile, identified properties and experimental findings of this research illuminate critical managerial insights for advertisers in various advertising forms.
翻訳日:2022-03-01 16:46:53 公開日:2022-02-28
# inkorrect: オンライン手書きスペル修正

Inkorrect: Online Handwriting Spelling Correction ( http://arxiv.org/abs/2202.13794v1 )

ライセンス: Link先を確認
Andrii Maksai, Henry Rowley, Jesse Berent and Claudiu Musat(参考訳) Inkorrectは、オンライン手書き(デジタルインク)スペル訂正のためのデータおよびラベル効率のよいアプローチである。 従来の作業とは異なり、提案手法では同一のライタからの複数のサンプルや文字レベルのセグメンテーションへのアクセスは不要である。 既存の自動評価指標は, 完全には捉えられず, 綴り補正の質の人間の知覚と相関しないことを示すとともに, 人間の知覚と相関する新たな指標を提案する。 さらに,スペル補正したインクの類似性と認識可能性とのトレードオフという,興味深い現象が浮かび上がっている。 さらに,これら2つの軸間のパレートフロンティアの異なる点に対応するモデル群を作成する。 InkorrectのParetoフロンティアが先行作業に対応する点を支配していることを示す。

We introduce Inkorrect, a data- and label-efficient approach for online handwriting (Digital Ink) spelling correction - DISC. Unlike previous work, the proposed method does not require multiple samples from the same writer, or access to character level segmentation. We show that existing automatic evaluation metrics do not fully capture and are not correlated with the human perception of the quality of the spelling correction, and propose new ones that correlate with human perception. We additionally surface an interesting phenomenon: a trade-off between the similarity and recognizability of the spell-corrected inks. We further create a family of models corresponding to different points on the Pareto frontier between those two axes. We show that Inkorrect's Pareto frontier dominates the points that correspond to prior work.
翻訳日:2022-03-01 16:46:31 公開日:2022-02-28
# UAV-LiDARシステムのグローバル最適ボレストアライメント

Globally Optimal Boresight Alignment of UAV-LiDAR Systems ( http://arxiv.org/abs/2202.13501v1 )

ライセンス: Link先を確認
Smitha Gopinath, Hassan L. Hijazi, Adam Collins, Julian Dann Nathan Lemons, Emily Schultz-Fellenz, Russell Bent, Amira Hijazi, Gert Riemersma(参考訳) 空中光検出・測光システム(LiDAR)では、LiDARスキャナーと無人航空機(UAV)のフレームに搭載された慣性航法システム(inertial navigation system、INS)とのミスアライメントが不正確な3D点雲を引き起こす可能性がある。 多くのLiDARベースのアプリケーションでは、オリエンテーションオフセットの決定やボアセットエラーが重要である。 本研究では,このミスアライメント問題を世界規模で解決できるMIQCQP(mixed-integer ally constrained quadratatic Program)を提案する。 また,計算性能を向上させるnested spatial branch and bound (nsbb)アルゴリズムを提案する。 nsBBは、問題のサイズを徐々に小さくする新しい前処理ステップに依存している。 さらに,高速なヒューリスティックな解が得られる適応格子探索(aGS)を提案する。 我々のアルゴリズムはオープンソース、マルチスレッド、マルチマシン互換です。

In airborne light detection and ranging (LiDAR) systems, misalignments between the LiDAR-scanner and the inertial navigation system (INS) mounted on an unmanned aerial vehicle (UAV)'s frame can lead to inaccurate 3D point clouds. Determining the orientation offset, or boresight error is key to many LiDAR-based applications. In this work, we introduce a mixed-integer quadratically constrained quadratic program (MIQCQP) that can globally solve this misalignment problem. We also propose a nested spatial branch and bound (nsBB) algorithm that improves computational performance. The nsBB relies on novel preprocessing steps that progressively reduce the problem size. In addition, an adaptive grid search (aGS) allowing us to obtain quick heuristic solutions is presented. Our algorithms are open-source, multi-threaded and multi-machine compatible.
翻訳日:2022-03-01 16:38:34 公開日:2022-02-28
# ESWエッジウェイト : ハイパースペクトル画像分類のための確率的流域エッジウェイト

ESW Edge-Weights : Ensemble Stochastic Watershed Edge-Weights for Hyperspectral Image Classification ( http://arxiv.org/abs/2202.13502v1 )

ライセンス: Link先を確認
Rohan Agarwal, Aman Aziz, Aditya Suraj Krishnan, Aditya Challa, Sravan Danda(参考訳) hyperspectral image (hsi) 分類は活発な研究のトピックである。 HSI分類の主な課題の1つは、信頼できるラベル付きサンプルの欠如である。 低数のラベル付きサンプルを扱うために,様々な半教師付きおよび教師なし分類法を提案する。 主なものは、グラフ畳み込みネットワーク(GCN)とその変種である。 これらのアプローチは、半教師なし分類と教師なし分類のグラフ構造を利用する。 これらのメソッドのいくつかは暗黙的にエッジウェイトを構築していますが、私たちの知識では、エッジウェイトを明示的に見積もる作業はあまり行われていません。 本稿では、エッジウェイトを明示的に推定し、半教師なしと教師なしの両方の下流分類タスクに使用する。 提案するエッジウェイトは2つの重要な洞察に基づいています。 a)アンサンブルは分散を減少させ、 b)HSIデータセットのクラスと特徴類似性は一方的な意味しか持たない。 つまり、同じクラスが同じ機能を持つが、同様の機能は必ずしも同じクラスを意味するとは限らない。 実験では, 特徴量のサブサンプル上の流域の集合体を用いて, エッジウェイトを推定する。 これらのエッジ重みは、半教師なしと非教師なしの分類タスクの両方で評価される。 半教師付きタスクの評価はランダムウォークに基づくアプローチを用いる。 教師なしの場合、グラフ畳み込みネットワーク(GCN)を用いた単純なフィルタを用いる。 いずれの場合においても、提案されるエッジウェイトは、ユークリッド距離とコサイン類似性という、エッジウェイトを計算する従来のアプローチを上回っている。 興味深いことに、提案されているエッジウェイトにより、最も単純なgcnは最新技術に匹敵する結果を得た。

Hyperspectral image (HSI) classification is a topic of active research. One of the main challenges of HSI classification is the lack of reliable labelled samples. Various semi-supervised and unsupervised classification methods are proposed to handle the low number of labelled samples. Chief among them are graph convolution networks (GCN) and their variants. These approaches exploit the graph structure for semi-supervised and unsupervised classification. While several of these methods implicitly construct edge-weights, to our knowledge, not much work has been done to estimate the edge-weights explicitly. In this article, we estimate the edge-weights explicitly and use them for the downstream classification tasks - both semi-supervised and unsupervised. The proposed edge-weights are based on two key insights - (a) Ensembles reduce the variance and (b) Classes in HSI datasets and feature similarity have only one-sided implications. That is, while same classes would have similar features, similar features do not necessarily imply the same classes. Exploiting these, we estimate the edge-weights using an aggregate of ensembles of watersheds over subsamples of features. These edge weights are evaluated for both semi-supervised and unsupervised classification tasks. The evaluation for semi-supervised tasks uses Random-Walk based approach. For the unsupervised case, we use a simple filter using a graph convolution network (GCN). In both these cases, the proposed edge weights outperform the traditional approaches to compute edge-weights - Euclidean distances and cosine similarities. Fascinatingly, with the proposed edge-weights, the simplest GCN obtained results comparable to the recent state-of-the-art.
翻訳日:2022-03-01 16:38:20 公開日:2022-02-28
# cyber mobility mirror: 道路サイドライダーを用いたディープラーニングに基づくリアルタイム3次元物体認識と再構成

Cyber Mobility Mirror: Deep Learning-based Real-time 3D Object Perception and Reconstruction Using Roadside LiDAR ( http://arxiv.org/abs/2202.13505v1 )

ライセンス: Link先を確認
Zhengwei Bai, Saswat Priyadarshi Nayak, Xuanpeng Zhao, Guoyuan Wu, Matthew J. Barth, Xuewei Qi, Yongkang Liu, Kentaro Oguchi(参考訳) Enabling Cooperative Driving Automation (CDA) は、オンボードセンサーやV2X通信から利用できる高忠実でリアルタイムな知覚情報を必要とする。 それにもかかわらず、この情報のアクセシビリティは、知覚の範囲や閉塞、接続の浸透率の制限に苦しむ可能性がある。 本稿では,3次元物体検出,分類,追跡,再構築のための次世代リアルタイム交通監視システムであるCyber Mobility Mirror(CMM)のプロトタイプを紹介し,混合交通環境における広帯域高忠実性知覚情報を提供する。 CMMシステムは6つの主要コンポーネントから構成される。 1) 道路側LiDARから生データを検索して前処理するデータ前処理装置 2) 点雲データに基づく3次元拘束箱を生成する3次元物体検出器 3) 検出対象にユニークなIDを付与し,その動的状態を推定するマルチオブジェクトトラッカー 4)座標変換を用いたlidar座標から地理座標への測位情報をマッピングするグローバル測位器 5)道路センサから車両に知覚情報を伝達するクラウドベースの通信装置 6)gui(graphical user interface)によるリアルタイムトラフィック条件の再構築と表示を行うオンボードアドバイザ。 本研究では,カリフォルニア州リバーサイドのユニバーシティ・アベニューとアイオワ・アベニューの交差点にフィールド・オペレーショナル・プロトタイプ・システムを構築し,CMMシステムの実現可能性と性能を評価する。 フィールドテストの結果、我々のCMMプロトタイプシステムは96.99%の精度と83.62%のリコールで良好な認識性能を提供できることが示された。 高忠実なリアルタイム交通条件(オブジェクトレベル)は、搭載車両のGUIに3-4Hzの周波数で表示することができる。

Enabling Cooperative Driving Automation (CDA) requires high-fidelity and real-time perception information, which is available from onboard sensors or vehicle-to-everythin g (V2X) communications. Nevertheless, the accessibility of this information may suffer from the range and occlusion of perception or limited penetration rates in connectivity. In this paper, we introduce the prototype of Cyber Mobility Mirror (CMM), a next-generation real-time traffic surveillance system for 3D object detection, classification, tracking, and reconstruction, to provide CAVs with wide-range high-fidelity perception information in a mixed traffic environment. The CMM system consists of six main components: 1) the data pre-processor to retrieve and pre-process raw data from the roadside LiDAR; 2) the 3D object detector to generate 3D bounding boxes based on point cloud data; 3) the multi-objects tracker to endow unique IDs to detected objects and estimate their dynamic states; 4) the global locator to map positioning information from the LiDAR coordinate to geographic coordinate using coordinate transformation; 5) the cloud-based communicator to transmit perception information from roadside sensors to equipped vehicles; and 6) the onboard advisor to reconstruct and display the real-time traffic conditions via Graphical User Interface (GUI). In this study, a field-operational prototype system is deployed at a real-world intersection, University Avenue and Iowa Avenue in Riverside, California to assess the feasibility and performance of our CMM system. Results from field tests demonstrate that our CMM prototype system can provide satisfactory perception performance with 96.99% precision and 83.62% recall. High-fidelity real-time traffic conditions (at the object level) can be displayed on the GUI of the equipped vehicle with a frequency of 3-4 Hz.
翻訳日:2022-03-01 16:37:59 公開日:2022-02-28
# PartAfford: 3Dオブジェクトからのパートレベルのアフォーマンスディスカバリ

PartAfford: Part-level Affordance Discovery from 3D Objects ( http://arxiv.org/abs/2202.13519v1 )

ライセンス: Link先を確認
Chao Xu, Yixin Chen, He Wang, Song-Chun Zhu, Yixin Zhu, Siyuan Huang(参考訳) 物体が人間にとって何をもたらすかを理解することは、知覚と行動の橋渡しとなる。 ビジョンコミュニティでは、先行研究は主に、高密度な(例えばピクセル単位の)監督でオブジェクトの余裕を学習することに焦点を当てている。 対照的に、人間は高密度ラベルなしで物体の余裕を学ぶ。 このように、計算モデルを考案する上での根本的な疑問は、 視覚的な外観や幾何学からオブジェクトの余裕を学ぶための自然な方法は何か? 本研究では,オブジェクト毎のアフォーマンスラベルのみを与えられた場合,そのマシンにタスクを課す,part-level affordance discovery (partafford) という新しいタスクを提案する。 (i)3d形状を部品に分解する (ii)対象のそれぞれの部分が特定の空き圏に対応する方法を発見する。 本稿では,高密度な監督を伴わずに,手頃な集合の監督と幾何学的原始正規化のみを活用することで,部分レベルの表現を発見する新しい学習フレームワークを提案する。 提案手法は2つの主成分から構成される。 (i)教師なしクラスタリングと抽象化のためのスロットアテンションを備えた抽象化エンコーダ (ii)部分復元、代価予測、立方体プリミティブ正規化のための分枝付き代価復号器 PartAffordを学習し、評価するために、25,000件のオブジェクト間で24種類のアノテートカテゴリをアノテートしたパートレベルの3Dオブジェクトアプライアンスデータセットを構築した。 本手法は3dオブジェクトの抽象化と部品レベルのアフォーアンス発見を両立させ,難易度とクロスカテゴリの例を一般化できることを実証する。 さらに、各コンポーネントの貢献を明らかにします。

Understanding what objects could furnish for humans-namely, learning object affordance-is the crux to bridge perception and action. In the vision community, prior work primarily focuses on learning object affordance with dense (e.g., at a per-pixel level) supervision. In stark contrast, we humans learn the object affordance without dense labels. As such, the fundamental question to devise a computational model is: What is the natural way to learn the object affordance from visual appearance and geometry with humanlike sparse supervision? In this work, we present a new task of part-level affordance discovery (PartAfford): Given only the affordance labels per object, the machine is tasked to (i) decompose 3D shapes into parts and (ii) discover how each part of the object corresponds to a certain affordance category. We propose a novel learning framework for PartAfford, which discovers part-level representations by leveraging only the affordance set supervision and geometric primitive regularization, without dense supervision. The proposed approach consists of two main components: (i) an abstraction encoder with slot attention for unsupervised clustering and abstraction, and (ii) an affordance decoder with branches for part reconstruction, affordance prediction, and cuboidal primitive regularization. To learn and evaluate PartAfford, we construct a part-level, cross-category 3D object affordance dataset, annotated with 24 affordance categories shared among >25, 000 objects. We demonstrate that our method enables both the abstraction of 3D objects and part-level affordance discovery, with generalizability to difficult and cross-category examples. Further ablations reveal the contribution of each component.
翻訳日:2022-03-01 16:37:30 公開日:2022-02-28
# 点群における特徴デコレーションを用いたクラス非依存追跡に向けて

Towards Class-agnostic Tracking Using Feature Decorrelation in Point Clouds ( http://arxiv.org/abs/2202.13524v1 )

ライセンス: Link先を確認
Shengjing Tian, Jun Liu, and Xiuping Liu(参考訳) 点雲における単一物体追跡は、LiDARセンサーが3次元視界に存在するため、ますます注目を集めている。 しかし、ディープニューラルネットワークに基づく既存の手法は、主に異なるカテゴリの異なるモデルのトレーニングに重点を置いているため、トレーニングフェーズ中にクラスが見えない場合に現実世界のアプリケーションでうまく機能しない。 そこで本研究では,LiDARポイントクラウド,クラスに依存しないトラッキングにおいて,観測対象と見えないカテゴリの任意の特定のターゲットに対して,一般的なモデルを学習することが求められている。 特に,テスト中に未確認のカテゴリを露出させることにより,最先端トラッカーのクラス非依存のパフォーマンスを調査し,クラス非依存のトラッキングの鍵となる要素は,その分布が観察されたクラスから未確認クラスに移行した際の一般化を維持するために,テンプレートと検索領域の間で融合した特徴を制約する方法であることを確認した。 そこで本研究では,複数の学習重みの組を通して融合特徴のスプリアス相関を解消し,さらに探索領域を前景点間で一貫性を持たせ,前景と背景点を区別する特徴非相関法を提案する。 KITTI と NuScenes の実験により,提案手法は高度なトラッカー P2B と BAT とのベンチマークにより,特に未確認物体の追跡において,大幅な改善が達成できることを示した。

Single object tracking in point clouds has been attracting more and more attention owing to the presence of LiDAR sensors in 3D vision. However, the existing methods based on deep neural networks focus mainly on training different models for different categories, which makes them unable to perform well in real-world applications when encountering classes unseen during the training phase. In this work, we thus turn our thoughts to a more challenging task in the LiDAR point clouds, class-agnostic tracking, where a general model is supposed to be learned for any specified targets of both observed and unseen categories. In particular, we first investigate the class-agnostic performances of the state-of-the-art trackers via exposing the unseen categories to them during testing, finding that a key factor for class-agnostic tracking is how to constrain fused features between the template and search region to maintain generalization when the distribution is shifted from observed to unseen classes. Therefore, we propose a feature decorrelation method to address this problem, which eliminates the spurious correlations of the fused features through a set of learned weights and further makes the search region consistent among foreground points and distinctive between foreground and background points. Experiments on the KITTI and NuScenes demonstrate that the proposed method can achieve considerable improvements by benchmarking against the advanced trackers P2B and BAT, especially when tracking unseen objects.
翻訳日:2022-03-01 16:37:02 公開日:2022-02-28
# 点集合自己埋め込み

Point Set Self-Embedding ( http://arxiv.org/abs/2202.13577v1 )

ライセンス: Link先を確認
Ruihui Li, Xianzhi Li, Tien-Tsin Wong, and Chi-Wing Fu(参考訳) 本研究は, 高密度な点集合の構造情報をスパルサー版に符号化する, 点集合自己埋め込みのための革新的な手法を提案する。 自己埋め込みポイントセットは、通常のダウンサンプルとして機能し、モバイルデバイス上で効率的に視覚化することができる。 特に,リモートサーバ上で詳細な解析を行うために,自己埋め込み情報を利用して,元のポイントセットを完全に復元することができる。 このタスクは、自己埋め込みの点集合と復元された点集合の両方が元の点に似なければならないため、難しい。 学習可能な自己埋め込み方式を実現するために,入力点集合を自己埋め込みスパース点集合に符号化し,組込み情報を利用して元の点集合を逆転させる2つの共同学習ネットワークを用いた新しいフレームワークを設計する。 さらに、2つのネットワークで2つのアップシャッフルおよびダウンシャッフルユニットを開発し、損失項を定式化し、その結果の形状の類似性と点分布を奨励する。 本手法は, 合成データと実データの両方において, 広範囲な質的, 定量的な結果が得られた。

This work presents an innovative method for point set self-embedding, that encodes the structural information of a dense point set into its sparser version in a visual but imperceptible form. The self-embedded point set can function as the ordinary downsampled one and be visualized efficiently on mobile devices. Particularly, we can leverage the self-embedded information to fully restore the original point set for detailed analysis on remote servers. This task is challenging since both the self-embedded point set and the restored point set should resemble the original one. To achieve a learnable self-embedding scheme, we design a novel framework with two jointly-trained networks: one to encode the input point set into its self-embedded sparse point set and the other to leverage the embedded information for inverting the original point set back. Further, we develop a pair of up-shuffle and down-shuffle units in the two networks, and formulate loss terms to encourage the shape similarity and point distribution in the results. Extensive qualitative and quantitative results demonstrate the effectiveness of our method on both synthetic and real-scanned datasets.
翻訳日:2022-03-01 16:36:09 公開日:2022-02-28
# FusionCount: マルチスケールフィーチャーフュージョンによる効率的な群衆カウント

FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion ( http://arxiv.org/abs/2202.13660v1 )

ライセンス: Link先を確認
Yiming Ma, Victor Sanchez and Tanaya Guha(参考訳) 最先端のクラウドカウントモデルはエンコーダ-デコーダアプローチに従う。 画像はまずエンコーダによって処理され、特徴を抽出する。 次に、視点歪みを考慮し、最高レベルの特徴マップを余分なコンポーネントに供給して、デコーダへの入力である多スケール特徴を抽出することで、群衆密度を生成する。 しかし、これらの方法では、符号化の初期段階で抽出された特徴は未利用であり、マルチスケールモジュールは、計算コストがかなり高いにもかかわらず、限られた範囲の受容場しか取得できない。 本稿では,多元的特徴量を得るために,追加抽出成分に頼るのではなく,多くの符号化特徴量の適応的融合を利用する,新しいクラウドカウントアーキテクチャ (fusioncount) を提案する。 したがって、レセプティブフィールドサイズのより広い範囲をカバーし、計算コストを下げることができる。 また,復号化時の唾液度情報を抽出し,モデルの性能をさらに向上する新しいチャネルリダクションブロックを導入する。 2つのベンチマークデータベースの実験により、我々のモデルは計算複雑性を減らして最先端の結果が得られることを示した。

State-of-the-art crowd counting models follow an encoder-decoder approach. Images are first processed by the encoder to extract features. Then, to account for perspective distortion, the highest-level feature map is fed to extra components to extract multiscale features, which are the input to the decoder to generate crowd densities. However, in these methods, features extracted at earlier stages during encoding are underutilised, and the multiscale modules can only capture a limited range of receptive fields, albeit with considerable computational cost. This paper proposes a novel crowd counting architecture (FusionCount), which exploits the adaptive fusion of a large majority of encoded features instead of relying on additional extraction components to obtain multiscale features. Thus, it can cover a more extensive scope of receptive field sizes and lower the computational cost. We also introduce a new channel reduction block, which can extract saliency information during decoding and further enhance the model's performance. Experiments on two benchmark databases demonstrate that our model achieves state-of-the-art results with reduced computational complexity.
翻訳日:2022-03-01 16:35:51 公開日:2022-02-28
# Bina-Rep Event Frames: イベントベースカメラのシンプルで効果的な表現

Bina-Rep Event Frames: a Simple and Effective Representation for Event-based cameras ( http://arxiv.org/abs/2202.13662v1 )

ライセンス: Link先を確認
Sami Barchid, Jos\'e Mennesson and Chaabane Dj\'eraba(参考訳) 本稿では、イベントの非同期ストリームをイベントカメラからスパースで表現豊かなイベントフレームのシーケンスに変換するシンプルな表現手法であるbina-repを提案する。 複数のバイナリイベントイメージを1フレームの$N$-bitの数値で表現することにより、元のストリームにおけるイベント順序に関する保持情報により、より表現力のあるイベントフレームを得ることができる。 畳み込みニューラルネットワークに基づく提案モデルと組み合わせて、報告した結果が最先端の性能を達成し、他の一般的なイベント表現手法を何度も上回ります。 我々のアプローチは、他の表現技法と比較して、一般的な画像の破損に対する競争力を示す。

This paper presents "Bina-Rep", a simple representation method that converts asynchronous streams of events from event cameras to a sequence of sparse and expressive event frames. By representing multiple binary event images as a single frame of $N$-bit numbers, our method is able to obtain sparser and more expressive event frames thanks to the retained information about event orders in the original stream. Coupled with our proposed model based on a convolutional neural network, the reported results achieve state-of-the-art performance and repeatedly outperforms other common event representation methods. Our approach also shows competitive robustness against common image corruptions, compared to other representation techniques.
翻訳日:2022-03-01 16:35:32 公開日:2022-02-28
# feddrive:自律運転における連合学習から意味セグメンテーションへの一般化

FedDrive: Generalizing Federated Learning to Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2202.13670v1 )

ライセンス: Link先を確認
Lidia Fantauzzo, Eros Fani', Debora Caldarola, Antonio Tavera, Fabio Cermelli, Marco Ciccone, Barbara Caputo(参考訳) セマンティックセグメンテーション(Semantic Segmentation)は、自動運転車を自律的にし、個々のピクセルを既知のカテゴリに割り当てることで周囲を理解できるようにする。 しかし、ユーザの車から収集した賢明なデータに基づいており、クライアントのプライバシ保護が主要な関心事となっている。 同様の理由から、フェデレートラーニング(Federated Learning)は、プライバシを保持し、数百万のリモートデバイス上のデータを活用しながら、グローバルモデルを学ぶことを目的とした、新たな機械学習パラダイムとして最近導入された。 このトピックに対するいくつかの取り組みにもかかわらず、これまでの運転における意味セグメンテーションにおける連合学習の課題を明示的に取り組んだものはない。 このギャップを埋めるために,我々は,統計的異質性とドメインの一般化という現実世界の課題を取り入れた,3つの設定と2つのデータセットからなる新しいベンチマークであるfeeddriveを提案する。 我々は,その一般化能力を向上させるために,そのスタイル伝達手法と組み合わせ,深層分析により,フェデレートされた学習文献から得られた最先端のアルゴリズムをベンチマークする。 上記の課題に対処するためには,正規化統計を正しく扱うことが重要であることを実証する。 さらに、スタイル転送は、大きな外観シフトを扱う際のパフォーマンスを向上させる。 コードとベンチマークの両方を研究コミュニティに公開する予定です。

Semantic Segmentation is essential to make self-driving vehicles autonomous, enabling them to understand their surroundings by assigning individual pixels to known categories. However, it operates on sensible data collected from the users' cars; thus, protecting the clients' privacy becomes a primary concern. For similar reasons, Federated Learning has been recently introduced as a new machine learning paradigm aiming to learn a global model while preserving privacy and leveraging data on millions of remote devices. Despite several efforts on this topic, no work has explicitly addressed the challenges of federated learning in semantic segmentation for driving so far. To fill this gap, we propose FedDrive, a new benchmark consisting of three settings and two datasets, incorporating the real-world challenges of statistical heterogeneity and domain generalization. We benchmark state-of-the-art algorithms from the federated learning literature through an in-depth analysis, combining them with style transfer methods to improve their generalization ability. We demonstrate that correctly handling normalization statistics is crucial to deal with the aforementioned challenges. Furthermore, style transfer improves performance when dealing with significant appearance shifts. We plan to make both the code and the benchmark publicly available to the research community.
翻訳日:2022-03-01 16:35:21 公開日:2022-02-28
# TC-Net: 自動ストローク病変分割のための三重コンテキストネットワーク

TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation ( http://arxiv.org/abs/2202.13687v1 )

ライセンス: Link先を確認
Xiuquan Du, Kunpeng Ma(参考訳) 正確な病変分割は脳卒中の臨床マッピングにおいて重要な役割を果たす。 U字型構造に基づく畳み込みニューラルネットワーク(CNN)アプローチはこの課題において顕著なパフォーマンスを達成した。 しかし, 単一段エンコーダ・デコーダは, コンテクスト情報の不十分な利用により, クラス間の類似性を解消できない。 さらに、ほとんどのアプローチでは、空間的文脈情報を取り込むために細かな空間的注意を用いるが、符号化段階で正確な注意マップを生成することができず、効果的な正規化が欠如している。 本研究では,空間的文脈情報を中心として,新たなネットワークであるTriple Context Network (TC-Net)を提案する。 まず,粒度の粗いパッチアテンションモジュールを設計し,パッチレベルのアテンションマップを生成することで,ターゲットとパッチを区別し,ターゲット固有の詳細な特徴を学習する。 次に、これらの特徴の境界情報の表現を豊かにするために、2d特徴マップと3d特徴マップの選択的集約を導くために、グローバル文脈情報を備えたクロスフィーチャー融合モジュールを探索し、2d畳み込みにおける境界学習能力の欠如を補う。 最後に,線形補間の代わりにマルチスケールのデコンボリューションを用い,デコード段階での目標空間と境界情報の復元性を高める。 提案手法はオープンデータセットアトラス上で評価され,最大dscスコアは0.594,ハウスドルフ距離27.005 mm,平均対称性表面距離7.137 mmであり,提案手法は他の最先端手法よりも優れている。

Accurate lesion segmentation plays a key role in the clinical mapping of stroke. Convolutional neural network (CNN) approaches based on U-shaped structures have achieved remarkable performance in this task. However, the single-stage encoder-decoder unresolvable the inter-class similarity due to the inadequate utilization of contextual information, such as lesion-tissue similarity. In addition, most approaches use fine-grained spatial attention to capture spatial context information, yet fail to generate accurate attention maps in encoding stage and lack effective regularization. In this work, we propose a new network, Triple Context Network (TC-Net), with the capture of spatial contextual information as the core. We firstly design a coarse-grained patch attention module to generate patch-level attention maps in the encoding stage to distinguish targets from patches and learn target-specific detail features. Then, to enrich the representation of boundary information of these features, a cross-feature fusion module with global contextual information is explored to guide the selective aggregation of 2D and 3D feature maps, which compensates for the lack of boundary learning capability of 2D convolution. Finally, we use multi-scale deconvolution instead of linear interpolation to enhance the recovery of target space and boundary information in the decoding stage. Our network is evaluated on the open dataset ATLAS, achieving the highest DSC score of 0.594, Hausdorff distance of 27.005 mm, and average symmetry surface distance of 7.137 mm, where our proposed method outperforms other state-of-the-art methods.
翻訳日:2022-03-01 16:35:01 公開日:2022-02-28
# DropIT: メモリ効率の良いDNNトレーニングのための中間テンソルのドロップ

DropIT: Dropping Intermediate Tensors for Memory-Efficient DNN Training ( http://arxiv.org/abs/2202.13808v1 )

ライセンス: Link先を確認
Joya Chen, Kai Xu, Yifei Cheng, Angela Yao(参考訳) ディープニューラルネットワークをトレーニングする際の標準的なハードウェアボトルネックは、GPUメモリである。 メモリの大部分は、逆行の勾配計算のために中間テンソルをキャッシュすることで占有される。 勾配計算のための中間テンソルの部分の選択とキャッシングにより,このフットプリントを削減する新しい手法を提案する。 我々の中間テンソルドロップ法(DropIT)は、中間テンソルの成分を適応的に落とし、後方通過の残りの要素からスパーシファイドテンソルを回収して勾配を計算する。 実験の結果、中間テンソルの最大90%を畳み込み層と完全接続層に落とし、トレーニング中に20%のGPUメモリを節約し、ResNetやVision Transformerといった標準的なバックボーンのテスト精度を向上できることがわかった。 私たちのコードはhttps://github.com/c henjoya/dropitで入手できます。

A standard hardware bottleneck when training deep neural networks is GPU memory. The bulk of memory is occupied by caching intermediate tensors for gradient computation in the backward pass. We propose a novel method to reduce this footprint by selecting and caching part of intermediate tensors for gradient computation. Our Intermediate Tensor Drop method (DropIT) adaptively drops components of the intermediate tensors and recovers sparsified tensors from the remaining elements in the backward pass to compute the gradient. Experiments show that we can drop up to 90% of the elements of the intermediate tensors in convolutional and fully-connected layers, saving 20% GPU memory during training while achieving higher test accuracy for standard backbones such as ResNet and Vision Transformer. Our code is available at https://github.com/C henJoya/dropit.
翻訳日:2022-03-01 16:34:10 公開日:2022-02-28
# 表現学習におけるFuse Local and Global Semantics

Fuse Local and Global Semantics in Representation Learning ( http://arxiv.org/abs/2202.13837v1 )

ライセンス: Link先を確認
Yuchi Zhao, Yuhao Zhou(参考訳) より豊かな表現を生成するためにFLAGS(Fuse Local and Global Semantics in Representation Learning)を提案する。 flagsは、画像からグローバルセマンティクスとローカルセマンティクスの両方を抽出することを目的としている。 共通線形評価プロトコルで有望な結果を示す。 また,FLAGSによって抽出された表現が転送可能であることを示すため,PASCALVOCとCOCOで検出・セグメンテーションを行う。

We propose Fuse Local and Global Semantics in Representation Learning (FLAGS) to generate richer representations. FLAGS aims at extract both global and local semantics from images to benefit various downstream tasks. It shows promising results under common linear evaluation protocol. We also conduct detection and segmentation on PASCAL VOC and COCO to show the representations extracted by FLAGS are transferable.
翻訳日:2022-03-01 16:33:54 公開日:2022-02-28
# Deepfakeネットワークアーキテクチャの貢献

Deepfake Network Architecture Attribution ( http://arxiv.org/abs/2202.13843v1 )

ライセンス: Link先を確認
Tianyun Yang, Ziyao Huang, Juan Cao, Lei Li, Xirong Li(参考訳) 世代技術が急速に進歩するにつれて、偽画像の起源を考慮に入れる必要がある。 既存の偽画像帰属研究は、複数のGAN(Generative Adversarial Network)モデルでマルチクラス分類を行い、高い精度を得る。 奨励される一方で、これらの作品はモデルレベルの属性に制限されており、特定のシード、損失、データセットで見たモデルによって生成された画像のみを扱うことができる。 これにより、異なる構成下で微調整されたり再訓練されたりしても、偽画像をソースモデルのアーキテクチャに属性付けることができるかどうかを問うことができる。 本稿では,偽画像をアーキテクチャレベルで属性付けする \textit{deepfake network architecture attribution} に関する最初の研究を行う。 GANアーキテクチャはグローバルに一貫した指紋を残す傾向があり、モデル重みによる痕跡は地域によって異なるため、この問題に対してDNA-Detという名前の単純で効果的なソリューションを提供する。 複数のクロステストセットアップと大規模なデータセットに関する大規模な実験は、DNA-Detの有効性を示している。

With the rapid progress of generation technology, it has become necessary to attribute the origin of fake images. Existing works on fake image attribution perform multi-class classification on several Generative Adversarial Network (GAN) models and obtain high accuracies. While encouraging, these works are restricted to model-level attribution, only capable of handling images generated by seen models with a specific seed, loss and dataset, which is limited in real-world scenarios when fake images may be generated by privately trained models. This motivates us to ask whether it is possible to attribute fake images to the source models' architectures even if they are finetuned or retrained under different configurations. In this work, we present the first study on \textit{Deepfake Network Architecture Attribution} to attribute fake images on architecture-level. Based on an observation that GAN architecture is likely to leave globally consistent fingerprints while traces left by model weights vary in different regions, we provide a simple yet effective solution named DNA-Det for this problem. Extensive experiments on multiple cross-test setups and a large-scale dataset demonstrate the effectiveness of DNA-Det.
翻訳日:2022-03-01 16:33:46 公開日:2022-02-28
# ラベルシフトを用いた複数データセットからのセマンティックセグメンテーションの学習

Learning Semantic Segmentation from Multiple Datasets with Label Shifts ( http://arxiv.org/abs/2202.14030v1 )

ライセンス: Link先を確認
Dongwan Kim, Yi-Hsuan Tsai, Yumin Suh, Masoud Faraki, Sparsh Garg, Manmohan Chandraker, Bohyung Han(参考訳) セマンティックセグメンテーションの応用が進むにつれて、過去数年間に多くのデータセットが提案されている。 しかし、ラベリングは依然として高価であり、データボリュームと多様性を高めるためにデータセットの集約をまたいだモデルを共同でトレーニングすることが望ましい。 しかし、ラベル空間はデータセットによって異なり、互いに衝突することもある。 本論文では,ラベル空間が異なる複数のデータセットにまたがるモデルを自動的に学習する手法であるUniSegを提案する。 具体的には,不確定領域におけるより優れた一般化性能を達成するために,競合するラベルと共起ラベルを考慮した2つの損失を提案する。 まず、不一致ラベル空間によるトレーニングにおける勾配衝突を特定し、そのようなラベル衝突を軽減するためにクラス非依存なバイナリクロスエントロピー損失を提案する。 第二に、より優れたマルチデータセットトレーニングスキームのために、データセット間のクラス関係を考慮した損失関数を提案する。 ロードシーンデータセットの大規模な定量的および定性的な分析は、UniSegがマルチデータセットベースライン、特にKITTI上のIoUにおける8%以上のゲインを達成するなど、すべての設定で改善していることを示している。

With increasing applications of semantic segmentation, numerous datasets have been proposed in the past few years. Yet labeling remains expensive, thus, it is desirable to jointly train models across aggregations of datasets to enhance data volume and diversity. However, label spaces differ across datasets and may even be in conflict with one another. This paper proposes UniSeg, an effective approach to automatically train models across multiple datasets with differing label spaces, without any manual relabeling efforts. Specifically, we propose two losses that account for conflicting and co-occurring labels to achieve better generalization performance in unseen domains. First, a gradient conflict in training due to mismatched label spaces is identified and a class-independent binary cross-entropy loss is proposed to alleviate such label conflicts. Second, a loss function that considers class-relationships across datasets is proposed for a better multi-dataset training scheme. Extensive quantitative and qualitative analyses on road-scene datasets show that UniSeg improves over multi-dataset baselines, especially on unseen datasets, e.g., achieving more than 8% gain in IoU on KITTI averaged over all the settings.
翻訳日:2022-03-01 16:33:10 公開日:2022-02-28
# Attribute Descent: コンテンツレベルとそれ以上のオブジェクト中心データセットのシミュレーション

Attribute Descent: Simulating Object-Centric Datasets on the Content Level and Beyond ( http://arxiv.org/abs/2202.14034v1 )

ライセンス: Link先を確認
Yue Yao, Liang Zheng, Xiaodong Yang, Milind Napthade, and Tom Gedeon(参考訳) この記事では、無料のアノテーションを持ち、おそらく現実世界のデータに強く似ている大量のトレーニングデータをシミュレートするために、グラフィックエンジンを使用します。 合成と現実の間には、コンテンツレベルと外観レベルを含む2段階のドメインギャップが存在する。 後者は外観スタイルに関するものであるが、以前の問題は、カメラ視点、物体配置、照明条件などの属性におけるコンテンツミスマッチという、異なるメカニズムから生じる。 広く研究されている外観レベルのギャップとは対照的に、内容レベルの差は広く研究されていない。 コンテンツレベルの不一致に対処するために,エンジン属性を自動的に最適化し,合成データを実世界のデータを近似する属性降下手法を提案する。 我々は,オブジェクトが画像の大部分を占めるオブジェクト中心のタスクに対して,その手法を検証する。 これらのタスクでは、探索空間は比較的小さく、各属性の最適化によって十分に明確な監視信号が得られる。 我々は,新しい合成アセットである vehiclex を収集し,既存の合成アセット objectx と personx を再構成し,再利用する。 画像分類とオブジェクト再同定に関する広範囲な実験により、適応型合成データは、合成データのみによるトレーニング、データ拡張のトレーニング、データセットの内容の数値理解という3つのシナリオで効果的に使用できることが確認された。

This article aims to use graphic engines to simulate a large number of training data that have free annotations and possibly strongly resemble to real-world data. Between synthetic and real, a two-level domain gap exists, involving content level and appearance level. While the latter is concerned with appearance style, the former problem arises from a different mechanism, i.e., content mismatch in attributes such as camera viewpoint, object placement and lighting conditions. In contrast to the widely-studied appearance-level gap, the content-level discrepancy has not been broadly studied. To address the content-level misalignment, we propose an attribute descent approach that automatically optimizes engine attributes to enable synthetic data to approximate real-world data. We verify our method on object-centric tasks, wherein an object takes up a major portion of an image. In these tasks, the search space is relatively small, and the optimization of each attribute yields sufficiently obvious supervision signals. We collect a new synthetic asset VehicleX, and reformat and reuse existing the synthetic assets ObjectX and PersonX. Extensive experiments on image classification and object re-identification confirm that adapted synthetic data can be effectively used in three scenarios: training with synthetic data only, training data augmentation and numerically understanding dataset content.
翻訳日:2022-03-01 16:32:49 公開日:2022-02-28
# (参考訳) StyleGANのアーキテクチャ、方法、応用における現状 [全文訳有]

State-of-the-Art in the Architecture, Methods and Applications of StyleGAN ( http://arxiv.org/abs/2202.14020v1 )

ライセンス: CC BY-SA 4.0
Amit H. Bermano and Rinon Gal and Yuval Alaluf and Ron Mokady and Yotam Nitzan and Omer Tov and Or Patashnik and Daniel Cohen-Or(参考訳) GAN(Generative Adversarial Networks)は、画像合成の一般的なアプローチとして確立されている。 StyleGANは、その目覚ましい視覚的品質と、大量の下流タスクをサポートする能力のために、興味深いケーススタディを提供している。 この最先端のレポートは、StyleGANアーキテクチャと、その概念以来採用されてきた方法と、その厳しい制限を分析している。 この分野を把握したい新参者と、現在の研究動向や既存のツールの紹介から恩恵を受ける経験豊富な読者の両方に利用できるようにすることを目的としている。 StyleGANの最も興味深い側面は学習された潜在空間である。 監督なしでは学ばれるものの、驚くほどよく出来ており、著しく絡み合っている。 StyleGANの視覚的品質と組み合わせることで、これらの特性は非並列な編集機能を生み出した。 しかし、StyleGANが提供する制御は本質的にはジェネレータの学習分布に限られており、StyleGAN自身で生成された画像にのみ適用できる。 StyleGANの潜伏制御を現実のシナリオに持ち込もうとして、GANの反転と潜伏空間の埋め込みの研究が急速に人気を集めている。 一方、この研究はStyleGANの内部構造や限界に光を当てるのに役立っている。 これらの調査を通して、StyleGANの印象的なストーリーをマップし、StyleGANをGo-toジェネレータにした詳細について論じる。 我々はさらにvisual priors styleganの構成について詳しく述べ、下流の判別タスクでの使用について論じる。 今後,StyleGANの限界を指摘し,今後の課題や特定の微調整の目標など,今後の研究動向や今後の方向性を推察する。

Generative Adversarial Networks (GANs) have established themselves as a prevalent approach to image synthesis. Of these, StyleGAN offers a fascinating case study, owing to its remarkable visual quality and an ability to support a large array of downstream tasks. This state-of-the-art report covers the StyleGAN architecture, and the ways it has been employed since its conception, while also analyzing its severe limitations. It aims to be of use for both newcomers, who wish to get a grasp of the field, and for more experienced readers that might benefit from seeing current research trends and existing tools laid out. Among StyleGAN's most interesting aspects is its learned latent space. Despite being learned with no supervision, it is surprisingly well-behaved and remarkably disentangled. Combined with StyleGAN's visual quality, these properties gave rise to unparalleled editing capabilities. However, the control offered by StyleGAN is inherently limited to the generator's learned distribution, and can only be applied to images generated by StyleGAN itself. Seeking to bring StyleGAN's latent control to real-world scenarios, the study of GAN inversion and latent space embedding has quickly gained in popularity. Meanwhile, this same study has helped shed light on the inner workings and limitations of StyleGAN. We map out StyleGAN's impressive story through these investigations, and discuss the details that have made StyleGAN the go-to generator. We further elaborate on the visual priors StyleGAN constructs, and discuss their use in downstream discriminative tasks. Looking forward, we point out StyleGAN's limitations and speculate on current trends and promising directions for future research, such as task and target specific fine-tuning.
翻訳日:2022-03-01 16:29:16 公開日:2022-02-28
# デジタルハードウェアにおける逆問題に対するディープラーニングの限界

Limitations of Deep Learning for Inverse Problems on Digital Hardware ( http://arxiv.org/abs/2202.13490v1 )

ライセンス: Link先を確認
Holger Boche, Adalbert Fono and Gitta Kutyniok(参考訳) ディープニューラルネットワークはここ数年で大きな成功を収めている。 このトレーニングは,デジタルハードウェア上で行われるので,本論文では,チューリングマシンとしてモデル化された現在のハードウェアプラットフォーム上で,実際に何が計算可能かを分析する。 そこで本研究では,特に測定値からデータを再構成するタスクを含む,逆問題の種類に着目した。 有限次元逆問題は小さな緩和パラメータに対してバナッハ・マズール計算可能でないことを証明した。 実際、我々の結果はボレル・チューリング計算可能性にも当てはまる。 すなわち、任意の精度でデジタルハードウェア上でニューラルネットワークのトレーニングを実行するアルゴリズムは存在しない。 このことは、計算がデジタルハードウェア上で実行されることを考えると、有限次元逆問題に対するニューラルネットワークの能力に対する概念的障壁を確立する。

Deep neural networks have seen tremendous success over the last years. Since the training is performed on digital hardware, in this paper, we analyze what actually can be computed on current hardware platforms modeled as Turing machines, which would lead to inherent restrictions of deep learning. For this, we focus on the class of inverse problems, which, in particular, encompasses any task to reconstruct data from measurements. We prove that finite-dimensional inverse problems are not Banach-Mazur computable for small relaxation parameters. In fact, our result even holds for Borel-Turing computability., i.e., there does not exist an algorithm which performs the training of a neural network on digital hardware for any given accuracy. This establishes a conceptual barrier on the capabilities of neural networks for finite-dimensional inverse problems given that the computations are performed on digital hardware.
翻訳日:2022-03-01 15:48:51 公開日:2022-02-28
# 自律システムの動的保証のためのリスク対応シーンサンプリング

Risk-Aware Scene Sampling for Dynamic Assurance of Autonomous Systems ( http://arxiv.org/abs/2202.13510v1 )

ライセンス: Link先を確認
Shreyas Ramakrishna, Baiting Luo, Yogesh Barve, Gabor Karsai, and Abhishek Dubey(参考訳) 自律型サイバー物理システムは、しばしばセンサー劣化や運転条件の変化などの不確実性の下で運用されなければならない。 これらのシステムの動的保証には、分散検出器やリスク推定器のようなランタイムの安全コンポーネントを設計することが必要であり、システムの異なる操作モードからのラベル付きデータが必要となる。 これらのシーンの現実世界のデータ収集は高価であり、時には実現不可能である。 したがって、ランダムやグリッド検索のようなサンプルを用いたシナリオ記述言語は、シミュレータから合成データを生成し、これらの実世界のシーンを複製する。 しかし,これらのサンプルを用いた場合の限界は3つある。 第一に、それらはパッシブサンプリングであり、サンプリングプロセスで以前の結果のフィードバックを使用しない。 第二に、サンプルされる変数は、しばしば含まれない制約を持つ可能性がある。 第3に、彼らは探索と搾取の間のトレードオフのバランスをとっていない。 本稿では,ランダム近傍探索 (rns) と誘導ベイズ最適化 (gbo) と呼ばれる2つのサンプルを用いたシーン生成手法を提案する。 また,サンプル作成の促進のために,システムに対する危険度を評価するリスクベースの指標を用いる。 CARLAシミュレーションにおける自律走行車例を用いたアプローチの実証を行った。 サンプルについて,ランダム探索,グリッド探索,ハルトンシーケンス探索の基準値と比較した。 rnsとgboの検体は,56%,66%,71%のグリッド,ランダム,ハルトン検体に対して,ハイリスクシーンの83%,92%の検体率が高い。

Autonomous Cyber-Physical Systems must often operate under uncertainties like sensor degradation and shifts in the operating conditions, which increases its operational risk. Dynamic Assurance of these systems requires designing runtime safety components like Out-of-Distribution detectors and risk estimators, which require labeled data from different operating modes of the system that belong to scenes with adverse operating conditions, sensors, and actuator faults. Collecting real-world data of these scenes can be expensive and sometimes not feasible. So, scenario description languages with samplers like random and grid search are available to generate synthetic data from simulators, replicating these real-world scenes. However, we point out three limitations in using these conventional samplers. First, they are passive samplers, which do not use the feedback of previous results in the sampling process. Second, the variables to be sampled may have constraints that are often not included. Third, they do not balance the tradeoff between exploration and exploitation, which we hypothesize is necessary for better search space coverage. We present a scene generation approach with two samplers called Random Neighborhood Search (RNS) and Guided Bayesian Optimization (GBO), which extend the conventional random search and Bayesian Optimization search to include the limitations. Also, to facilitate the samplers, we use a risk-based metric that evaluates how risky the scene was for the system. We demonstrate our approach using an Autonomous Vehicle example in CARLA simulation. To evaluate our samplers, we compared them against the baselines of random search, grid search, and Halton sequence search. Our samplers of RNS and GBO sampled a higher percentage of high-risk scenes of 83% and 92%, compared to 56%, 66% and 71% of the grid, random and Halton samplers, respectively.
翻訳日:2022-03-01 15:48:40 公開日:2022-02-28
# 一般機能クラスを用いた帯域学習:ヘテロセダスティックノイズと分散依存性レグレト境界

Bandit Learning with General Function Classes: Heteroscedastic Noise and Variance-dependent Regret Bounds ( http://arxiv.org/abs/2202.13603v1 )

ライセンス: Link先を確認
Heyang Zhao and Dongruo Zhou and Jiafan He and Quanquan Gu(参考訳) 我々は、報酬関数が一様有界関数の一般クラスに属し、付加雑音がヘテロシドスティックである確率的バンディットモデルを学ぶことを検討する。 本モデルは,文脈線形バンディットと一般化線形バンディットを特殊ケースとして捉える。 重み付きリッジ回帰に基づくこれまでの研究(kirschner and krause, 2018; zhou et al., 2021)は、ヘテロ科学的ノイズを伴う線形バンディットを扱うことができるが、非線形性の呪いのため、我々の一般的なモデルには直接適用できない。 そこで本研究では,一般バンドイットモデルのための多レベル学習フレームワークを提案する。 我々のフレームワークの核となる考え方は、観察したデータをそれぞれの報酬のばらつきに応じて異なるレベルに分割し、協調してオンライン学習を行うことです。 本手法では,実験的リスク最小化に基づく分散認識信頼セットを構成するアルゴリズムをまず設計し,分散依存の後悔を証明した。 一般化線形ブレイディットに対しては、従順化リーダ(FTRL)サブルーチンとオンライン信頼セット変換に基づくアルゴリズムを提案し、特定の条件下でより厳密な分散依存的後悔を実現する。

We consider learning a stochastic bandit model, where the reward function belongs to a general class of uniformly bounded functions, and the additive noise can be heteroscedastic. Our model captures contextual linear bandits and generalized linear bandits as special cases. While previous works (Kirschner and Krause, 2018; Zhou et al., 2021) based on weighted ridge regression can deal with linear bandits with heteroscedastic noise, they are not directly applicable to our general model due to the curse of nonlinearity. In order to tackle this problem, we propose a multi-level learning framework for the general bandit model. The core idea of our framework is to partition the observed data into different levels according to the variance of their respective reward and perform online learning at each level collaboratively. Under our framework, we first design an algorithm that constructs the variance-aware confidence set based on empirical risk minimization and prove a variance-dependent regret bound. For generalized linear bandits, we further propose an algorithm based on follow-the-regulariz ed-leader (FTRL) subroutine and online-to-confidence -set conversion, which can achieve a tighter variance-dependent regret under certain conditions.
翻訳日:2022-03-01 15:47:04 公開日:2022-02-28
# 限られた統計的特性から外部サンプルのモデル性能の推定

Estimating Model Performance on External Samples from Their Limited Statistical Characteristics ( http://arxiv.org/abs/2202.13683v1 )

ライセンス: Link先を確認
Tal El-Hay and Chen Yanover(参考訳) データシフトに対処するメソッドは通常、複数のデータセットへのフルアクセスを前提とします。 しかしヘルスケア分野では、プライバシー保護規則と商業的利益はデータの可用性を制限し、その結果、研究者はごく少数のデータセットしか調査できない。 対照的に、特定の患者サンプルの限られた統計特性は共有しやすく、以前に出版された文献や共同研究から利用できる。 本稿では,その限られた統計特性から外部サンプルのモデル性能を推定する手法を提案する。 外部と類似した内部統計を誘導する重みを探索し、一様に近い重みを探索する。 次に、重み付けされた内部サンプルのモデル性能を、外部サンプルの見積もりとして使用する。 心房細動と診断された女性の潰瘍性大腸炎と脳卒中の合併症を予測し,シミュレーションデータと電子カルテデータを用いて2つのリスクモデルについて検討した。 ほとんどのケースでは、推定された外部パフォーマンスは、内部パフォーマンスよりも実際のパフォーマンスにずっと近い。 提案手法は,頑健なモデルのトレーニングや,外部環境における潜在的なモデル故障の検出において重要なビルディングブロックとなる可能性がある。

Methods that address data shifts usually assume full access to multiple datasets. In the healthcare domain, however, privacy-preserving regulations as well as commercial interests limit data availability and, as a result, researchers can typically study only a small number of datasets. In contrast, limited statistical characteristics of specific patient samples are much easier to share and may be available from previously published literature or focused collaborative efforts. Here, we propose a method that estimates model performance in external samples from their limited statistical characteristics. We search for weights that induce internal statistics that are similar to the external ones; and that are closest to uniform. We then use model performance on the weighted internal sample as an estimation for the external counterpart. We evaluate the proposed algorithm on simulated data as well as electronic medical record data for two risk models, predicting complications in ulcerative colitis patients and stroke in women diagnosed with atrial fibrillation. In the vast majority of cases, the estimated external performance is much closer to the actual one than the internal performance. Our proposed method may be an important building block in training robust models and detecting potential model failures in external environments.
翻訳日:2022-03-01 15:45:14 公開日:2022-02-28
# 学習の仕方と方法:機械学習のモード

How and what to learn:The modes of machine learning ( http://arxiv.org/abs/2202.13829v1 )

ライセンス: Link先を確認
Sihan Feng, Yong Zhang, Fuming Wang, Hong Zhao(参考訳) 本稿では, 重み経路解析(WPA)と呼ばれる新しい手法を提案し, 多層ニューラルネットワークのメカニズムについて検討する。 入力ニューロンから出力ニューロンへニューロンを縦方向につなぐ重み経路は、ニューラルネットワークの基本単位と見なされる。 我々は、ニューラルネットワークを一連の重み経路のサブネットワークに分解し、これらのサブネットワークの特徴マップを確立する。 特徴マップのパラメータを可視化することができ、ネットワークの縦方向の視点を提供し、ニューラルネットワークを説明可能にする。 wpaを用いて、ニューラルネットワークが情報を「ホログラフィック」な方法で保存し、活用すること、すなわち、ネットワークはすべてのトレーニングサンプルをコヒーレントな構造でエンコードすることを発見した。 入力ベクターは、この「ホログラフィック」構造と相互作用して、入力サンプルを認識する出力ニューロンの正しい活動を生成するために協調する各サブネットワークを強化または抑制する。 さらに,wpaを用いて,線形学習モードと非線形学習モードという,ニューラルネットワークの基本学習モードを明らかにする。 前者は線形分離可能な特徴を抽出し、後者は線形分離可能な特徴を抽出する。 隠れた層状ニューロンは学習過程の後半で異なるクラスに自己組織化することが判明した。 さらに、ニューラルネットワークの性能を向上させるための重要な戦略は、線形および非線形特徴と一致する2つの学習モードの比率を制御することであり、ニューラルネットワークの幅または深さを増やすことは、この比率制御プロセスに役立つことが判明した。 これにより、ニューラルネットワークの幅や深さを最大化することで、理論的基盤を提供する。 WPAで得られた知識は、何を学ぶか、どのように学ぶか、どのようにうまく学ぶかといった基本的な質問を理解するのに役立ちます。

We proposal a new approach, namely the weight pathway analysis (WPA), to study the mechanism of multilayer neural networks. The weight pathways linking neurons longitudinally from input neurons to output neurons are considered as the basic units of a neural network. We decompose a neural network into a series of subnetworks of weight pathways, and establish characteristic maps for these subnetworks. The parameters of a characteristic map can be visualized, providing a longitudinal perspective of the network and making the neural network explainable. Using WPA, we discover that a neural network stores and utilizes information in a "holographic" way, that is, the network encodes all training samples in a coherent structure. An input vector interacts with this "holographic" structure to enhance or suppress each subnetwork which working together to produce the correct activities in the output neurons to recognize the input sample. Furthermore, with WPA, we reveal fundamental learning modes of a neural network: the linear learning mode and the nonlinear learning mode. The former extracts linearly separable features while the latter extracts linearly inseparable features. It is found that hidden-layer neurons self-organize into different classes in the later stages of the learning process. It is further discovered that the key strategy to improve the performance of a neural network is to control the ratio of the two learning modes to match that of the linear and the nonlinear features, and that increasing the width or the depth of a neural network helps this ratio controlling process. This provides theoretical ground for the practice of optimizing a neural network via increasing its width or its depth. The knowledge gained with WPA enables us to understand the fundamental questions such as what to learn, how to learn, and how can learn well.
翻訳日:2022-03-01 15:44:56 公開日:2022-02-28
# モデルアーキテクチャによる逆例のエンハンス転送可能性

Enhance transferability of adversarial examples with model architecture ( http://arxiv.org/abs/2202.13625v1 )

ライセンス: Link先を確認
Mingyuan Fan, Wenzhong Guo, Shengxing Yu, Zuobin Ying, Ximeng Liu(参考訳) 敵のサンプルの転送性は、攻撃者がターゲットモデルの出力にしかアクセスできないブラックボックスの敵攻撃を起動する上で非常に重要である。 しかし、このような困難な現実的な状況下では、製作された敵の例は、常に採用されるプロキシモデルに過度に適合する傾向にあり、転送性が劣る。 本稿では,新しい視点,すなわち適合型モデルアーキテクチャの設計から,オーバーフィット問題を軽減することを提案する。 具体的には、転送可能性の低下の原因の底を掘り下げて、既存のモデルアーキテクチャを効果的モデルアーキテクチャ、すなわちマルチトラックモデルアーキテクチャ(MMA)に分解して再構築する。 MMAで作られた敵の例は、様々なアーキテクチャで採用されている脆弱な方向に対するモデル特定特徴の影響を最大限に軽減することができる。 大規模な実験的評価により、MMAに基づく敵対的な例の転送可能性は他の最先端モデルアーキテクチャを40%以上上回った。

Transferability of adversarial examples is of critical importance to launch black-box adversarial attacks, where attackers are only allowed to access the output of the target model. However, under such a challenging but practical setting, the crafted adversarial examples are always prone to overfitting to the proxy model employed, presenting poor transferability. In this paper, we suggest alleviating the overfitting issue from a novel perspective, i.e., designing a fitted model architecture. Specifically, delving the bottom of the cause of poor transferability, we arguably decompose and reconstruct the existing model architecture into an effective model architecture, namely multi-track model architecture (MMA). The adversarial examples crafted on the MMA can maximumly relieve the effect of model-specified features to it and toward the vulnerable directions adopted by diverse architectures. Extensive experimental evaluation demonstrates that the transferability of adversarial examples based on the MMA significantly surpass other state-of-the-art model architectures by up to 40% with comparable overhead.
翻訳日:2022-03-01 15:41:31 公開日:2022-02-28
# 適応的テスト時間防御の対向ロバスト性の評価

Evaluating the Adversarial Robustness of Adaptive Test-time Defenses ( http://arxiv.org/abs/2202.13711v1 )

ライセンス: Link先を確認
Francesco Croce, Sven Gowal, Thomas Brunner, Evan Shelhamer, Matthias Hein, Taylan Cemgil(参考訳) テスト時間最適化を使用する適応防御は、逆の例に対するロバスト性を改善することを約束する。 このような適応的なテストタイム防御を分類し、その潜在的なメリットと欠点を説明します。 この過程で、我々は、最新の適応的防御(ほとんどがピアレビューされた会議で公開された)について評価する。 残念ながら、適切に評価された場合、静的モデルで大幅に改善されることはない。 推論コストを同時に増加しながら、基盤となる静的モデルを弱めるものもあります。 これらの結果は残念な結果だが,我々は依然として,適応型テストタイムディフェンスが研究の有望な道であると信じており,そのようなディフェンスを評価するための推奨事項を提供している。 我々は、カルリーニら(2019年)が提供するチェックリストを超えて、この種の防衛に特有の具体的なステップを提供しています。

Adaptive defenses that use test-time optimization promise to improve robustness to adversarial examples. We categorize such adaptive test-time defenses and explain their potential benefits and drawbacks. In the process, we evaluate some of the latest proposed adaptive defenses (most of them published at peer-reviewed conferences). Unfortunately, none significantly improve upon static models when evaluated appropriately. Some even weaken the underlying static model while simultaneously increasing inference cost. While these results are disappointing, we still believe that adaptive test-time defenses are a promising avenue of research and, as such, we provide recommendations on evaluating such defenses. We go beyond the checklist provided by Carlini et al. (2019) by providing concrete steps that are specific to this type of defense.
翻訳日:2022-03-01 15:41:05 公開日:2022-02-28
# OUR-GAN: ワンショット超解像生成対向ネットワーク

OUR-GAN: One-shot Ultra-high-Resolutio n Generative Adversarial Networks ( http://arxiv.org/abs/2202.13799v1 )

ライセンス: Link先を確認
Donghwee Yoon, Junseok Oh, Hayeong Choi, Minjae Yi and Injung Kim(参考訳) 本稿では,1つの訓練画像から4k以上の非繰り返し画像を生成する,最初の1ショット超高解像度(uhr)画像合成フレームワークであるour-ganを提案する。 OUR-GANは低解像度で視覚的にコヒーレントな画像を生成し、超解像度で徐々に解像度を増大させる。 OUR-GANは実際のUHR画像から学習するため、比較的小さな画像から学習したパッチ分布に基づいて大きな画像を生成する従来の生成モデルでは困難である長距離コヒーレンスを維持しながら、細部まで微細な形状を合成することができる。 OUR-GANは、4k以上のUHR画像を限られたメモリで合成し、境界における不連続を防止する。 さらに、機能マップに垂直位置埋め込みを追加することで、多様性を維持するビジュアルコヒーレンスも改善します。 st4k と raise データセットの実験では、既存の手法に比べて忠実性、視覚的な一貫性、多様性が向上した。 合成画像はhttps://anonymous-62 348.github.ioで公開されている。

We propose OUR-GAN, the first one-shot ultra-high-resolutio n (UHR) image synthesis framework that generates non-repetitive images with 4K or higher resolution from a single training image. OUR-GAN generates a visually coherent image at low resolution and then gradually increases the resolution by super-resolution. Since OUR-GAN learns from a real UHR image, it can synthesize large-scale shapes with fine details while maintaining long-range coherence, which is difficult with conventional generative models that generate large images based on the patch distribution learned from relatively small images. OUR-GAN applies seamless subregion-wise super-resolution that synthesizes 4k or higher UHR images with limited memory, preventing discontinuity at the boundary. Additionally, OUR-GAN improves visual coherence maintaining diversity by adding vertical positional embeddings to the feature maps. In experiments on the ST4K and RAISE datasets, OUR-GAN exhibited improved fidelity, visual coherency, and diversity compared with existing methods. The synthesized images are presented at https://anonymous-62 348.github.io.
翻訳日:2022-03-01 15:40:48 公開日:2022-02-28
# SUNet:イメージデノーミングのためのスイニングトランスフォーマーUNet

SUNet: Swin Transformer UNet for Image Denoising ( http://arxiv.org/abs/2202.14009v1 )

ライセンス: Link先を確認
Chi-Mao Fan, Tsung-Jung Liu, Kuan-Hsien Liu(参考訳) 画像復元は不適切な問題であり、長年の課題でもある。 過去数年間、畳み込みニューラルネットワーク(CNN)はほとんどコンピュータビジョンを支配しており、画像復元を含む様々なレベルの視覚タスクでかなりの成功を収めた。 しかし最近では、swain transformerベースのモデルも印象的なパフォーマンスを示しており、cnnベースの手法を上回って、ハイレベルなビジョンタスクの最先端技術となっている。 本稿では,swainトランスフォーマー層を基本ブロックとし,unetアーキテクチャに適用した,sunetと呼ばれる復元モデルを提案する。 ソースコードと事前学習されたモデルはhttps://github.com/f anchimao/sunetで入手できる。

Image restoration is a challenging ill-posed problem which also has been a long-standing issue. In the past few years, the convolution neural networks (CNNs) almost dominated the computer vision and had achieved considerable success in different levels of vision tasks including image restoration. However, recently the Swin Transformer-based model also shows impressive performance, even surpasses the CNN-based methods to become the state-of-the-art on high-level vision tasks. In this paper, we proposed a restoration model called SUNet which uses the Swin Transformer layer as our basic block and then is applied to UNet architecture for image denoising. The source code and pre-trained models are available at https://github.com/F anChiMao/SUNet.
翻訳日:2022-03-01 15:40:29 公開日:2022-02-28
# リスク中立市場シミュレーション

Risk-Neutral Market Simulation ( http://arxiv.org/abs/2202.13996v1 )

ライセンス: Link先を確認
Magnus Wiese, Phillip Murray(参考訳) リスクニュートラルなスポットとエクイティオプションの市場シミュレータを1つの基盤として開発し、共同市場プロセスはマーチンゲールである。 我々は,静的な仲裁を伴わない効率的な市場の低次元表現を活用し,条件付きドリフトのないサンプルをシミュレートするニューラルスプラインフローを用いて,すべてのリスクニュートラルシミュレータにおいて得られたリスクニュートラルシミュレータが,kullback-leiblerダイバージェンスに関して歴史的データに最も近いという観点から,高い現実性を有する。 数値実験により, 校正シミュレータのドリフト除去と精度の両立が実証された。

We develop a risk-neutral spot and equity option market simulator for a single underlying, under which the joint market process is a martingale. We leverage an efficient low-dimensional representation of the market which preserves no static arbitrage, and employ neural spline flows to simulate samples which are free from conditional drifts and are highly realistic in the sense that among all possible risk-neutral simulators, the obtained risk-neutral simulator is the closest to the historical data with respect to the Kullback-Leibler divergence. Numerical experiments demonstrate the effectiveness and highlight both drift removal and fidelity of the calibrated simulator.
翻訳日:2022-03-01 15:40:18 公開日:2022-02-28
# CINO: 中国のマイノリティ事前訓練型言語モデル

CINO: A Chinese Minority Pre-trained Language Model ( http://arxiv.org/abs/2202.13558v1 )

ライセンス: Link先を確認
Ziqing Yang, Zihang Xu, Yiming Cui, Baoxin Wang, Min Lin, Dayong Wu, Zhigang Chen(参考訳) 多言語事前学習された言語モデルは、言語横断タスクにおいて印象的なパフォーマンスを示している。 低リソース言語への自然言語処理の応用を大いに促進する。 しかし、既存の多言語モデルではうまく機能しない言語もある。 本稿では,中国語マイノリティ言語のための多言語事前学習言語モデル cino ( chinese minority pre-trained language model) を提案する。 標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。 少数言語における多言語モデルの言語間能力を評価するため,ウィキペディアから文書を収集し,テキスト分類データセットWCM(Wiki- Chinese-Minority)を構築した。 wcmと他の2つのテキスト分類タスクでcinoをテストする。 実験の結果、CINOは明らかにベースラインを上回っている。 CINOモデルとWCMデータセットはhttp://cino.hfl-rc.c omで公開されている。

Multilingual pre-trained language models have shown impressive performance on cross-lingual tasks. It greatly facilitates the applications of natural language processing on low-resource languages. However, there are still some languages that the existing multilingual models do not perform well on. In this paper, we propose CINO (Chinese Minority Pre-trained Language Model), a multilingual pre-trained language model for Chinese minority languages. It covers Standard Chinese, Cantonese, and six other Chinese minority languages. To evaluate the cross-lingual ability of the multilingual models on the minority languages, we collect documents from Wikipedia and build a text classification dataset WCM (Wiki-Chinese-Minori ty). We test CINO on WCM and two other text classification tasks. Experiments show that CINO outperforms the baselines notably. The CINO model and the WCM dataset are available at http://cino.hfl-rc.c om.
翻訳日:2022-03-01 15:35:11 公開日:2022-02-28
# マンモグラフィーレポートの要約と報告された発見の一致を検出する機械学習アルゴリズム

Supervised Machine Learning Algorithm for Detecting Consistency between Reported Findings and the Conclusions of Mammography Reports ( http://arxiv.org/abs/2202.13618v1 )

ライセンス: Link先を確認
Alexander Berdichevsky, Mor Peleg, and Daniel L. Rubin(参考訳) 目的。 マンモグラフィーは患者の病態の診断を文書化する。 しかし、多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでおり、報告された結果によく支持されていない結論につながる可能性がある。 本研究の目的は, 報告された結論と, 報告された放射線学的所見に基づいて期待される結論を比較して, それらの不一致を検出するツールを開発することである。 材料と方法。 ウェブで発見された120件の報告を補足した258件のマンモグラフィーレポートを含む大学病院の特定データを用いて,トレーニングと評価を行った。 スペルチェックと項正規化は、報告されたBI-RADS記述子を曖昧に決定するために使用された。 得られたデータは7つの分類器に入力され, マンモグラフィーレポートを検索セクションに基づいて7つのBI-RADS最終評価カテゴリに分類した。 最後に、各BI-RADSカテゴリに対するレポートの意味的類似度スコアを報告する。 結果だ マンモグラフィでは, BI-RADS記述子の97%が正しく同定された。 本システムでは,BI-RADS最終評価カテゴリーに従って,精度76%,リコール83%を正しく分類した。 議論だ 本手法の強みは, 要約フェーズにおけるBI-RADS用語の重要度, 複雑なデータ表現を考慮した意味的類似度, BI-RADSの7つのカテゴリに分類することにある。 結論だ bi-radsディスクリプタと最終的な評価カテゴリは、かなり精度の高いアプローチによって自動的に検出され、報告された結果が結論に合っていないことをユーザーに認識させるのに使用できる。

Objective. Mammography reports document the diagnosis of patients' conditions. However, many reports contain non-standard terms (non-BI-RADS descriptors) and incomplete statements, which can lead to conclusions that are not well-supported by the reported findings. Our aim was to develop a tool to detect such discrepancies by comparing the reported conclusions to those that would be expected based on the reported radiology findings. Materials and Methods. A deidentified data set from an academic hospital containing 258 mammography reports supplemented by 120 reports found on the web was used for training and evaluation. Spell checking and term normalization was used to unambiguously determine the reported BI-RADS descriptors. The resulting data were input into seven classifiers that classify mammography reports, based on their Findings sections, into seven BI-RADS final assessment categories. Finally, the semantic similarity score of a report to each BI-RADS category is reported. Results. Our term normalization algorithm correctly identified 97% of the BI-RADS descriptors in mammography reports. Our system provided 76% precision and 83% recall in correctly classifying the reports according to BI-RADS final assessment category. Discussion. The strength of our approach relies on providing high importance to BI-RADS terms in the summarization phase, on the semantic similarity that considers the complex data representation, and on the classification into all seven BI-RADs categories. Conclusion. BI-RADS descriptors and expected final assessment categories could be automatically detected by our approach with fairly good accuracy, which could be used to make users aware that their reported findings do not match well with their conclusion.
翻訳日:2022-03-01 15:34:59 公開日:2022-02-28
# MSCTD:マルチモーダル感性チャット翻訳データセット

MSCTD: A Multimodal Sentiment Chat Translation Dataset ( http://arxiv.org/abs/2202.13645v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinan Xu, Yufeng Chen and Jie Zhou(参考訳) 近年,マルチモーダル機械翻訳とテキストチャット翻訳が注目されている。 自然な形式の会話は、通常マルチモーダルであるが、会話におけるマルチモーダル機械翻訳の作業が不足している。 本稿では,対話履歴と視覚的コンテキストの助けを借りて,より正確な翻訳を実現するための,MCT(Multimodal Chat Translation)というタスクを紹介する。 そこで我々はまず,14,762のバイリンガル対話で142,871の英和発話対,30,370の英独発話対をバイリンガル対話で3,079のマルチモーダル感性チャット翻訳データセット(MSCTD)を構築した。 現在の会話シーンを反映した視覚的コンテキストに対応する各発話ペアには、感情ラベルが付記される。 次に,マルチモーダルと感情を組み込んだマルチベースラインシステムを構築し,タスクのベンチマークを行う。 4つの言語方向(英語、中国語、英語、ドイツ語)に関する予備実験は、文脈情報融合やマルチモーダル情報融合の可能性を検証し、MDTタスクに対する感情のポジティブな影響を検証する。 さらに、MSCTDの副産物として、マルチモーダルな対話感情分析に関する2つの新しいベンチマークも提供する。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を促進する。

Multimodal machine translation and textual chat translation have received considerable attention in recent years. Although the conversation in its natural form is usually multimodal, there still lacks work on multimodal machine translation in conversations. In this work, we introduce a new task named Multimodal Chat Translation (MCT), aiming to generate more accurate translations with the help of the associated dialogue history and visual context. To this end, we firstly construct a Multimodal Sentiment Chat Translation Dataset (MSCTD) containing 142,871 English-Chinese utterance pairs in 14,762 bilingual dialogues and 30,370 English-German utterance pairs in 3,079 bilingual dialogues. Each utterance pair, corresponding to the visual context that reflects the current conversational scene, is annotated with a sentiment label. Then, we benchmark the task by establishing multiple baseline systems that incorporate multimodal and sentiment features for MCT. Preliminary experiments on four language directions (English-Chinese and English-German) verify the potential of contextual and multimodal information fusion and the positive impact of sentiment on the MCT task. Additionally, as a by-product of the MSCTD, it also provides two new benchmarks on multimodal dialogue sentiment analysis. Our work can facilitate research on both multimodal chat translation and multimodal dialogue sentiment analysis.
翻訳日:2022-03-01 15:34:28 公開日:2022-02-28
# (参考訳) 暗黙の後方モデルによるラベルの不確かさの解消 [全文訳有]

Resolving label uncertainty with implicit posterior models ( http://arxiv.org/abs/2202.14000v1 )

ライセンス: CC BY 4.0
Esther Rolf, Nikolay Malkin, Alexandros Graikos, Ana Jojic, Caleb Robinson, Nebojsa Jojic(参考訳) 本稿では,各サンプルが観測とラベルに関する事前の信念から構成されるデータサンプルの集合からラベルを共同で推定する手法を提案する。 異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。 この定式化は、様々な機械学習設定を統一する。弱い信念は、ノイズや不完全ラベル、補助的な入力に関する異なる予測メカニズムによって与えられる可能性、あるいは、目の前の問題の構造に関する知識を反映する常識的先行性である。 提案アルゴリズムは, 負のトレーニング例による分類, ランキングからの学習, 弱小かつ自己監督型空中画像セグメンテーション, ビデオフレームの協調分割, 粗大に教師付きテキスト分類など, 様々な問題に関するアルゴリズムを実証する。

We propose a method for jointly inferring labels across a collection of data samples, where each sample consists of an observation and a prior belief about the label. By implicitly assuming the existence of a generative model for which a differentiable predictor is the posterior, we derive a training objective that allows learning under weak beliefs. This formulation unifies various machine learning settings; the weak beliefs can come in the form of noisy or incomplete labels, likelihoods given by a different prediction mechanism on auxiliary input, or common-sense priors reflecting knowledge about the structure of the problem at hand. We demonstrate the proposed algorithms on diverse problems: classification with negative training examples, learning from rankings, weakly and self-supervised aerial imagery segmentation, co-segmentation of video frames, and coarsely supervised text classification.
翻訳日:2022-03-01 15:32:22 公開日:2022-02-28
# 多視点データからの変分解釈可能学習

Variational Interpretable Learning from Multi-view Data ( http://arxiv.org/abs/2202.13503v1 )

ライセンス: Link先を確認
Lin Qiu, Lynn Lin, Vernon M. Chinchilli(参考訳) 標準相関解析(CCA)の主な考え方は、異なるビューを最大相関を持つ共通の潜在空間にマッピングすることである。 多視点学習のためのDICCA(Deep Interpretable Variational Canonical correlation analysis)を提案する。 開発したモデルでは, 線形CCAの潜在変数モデルから非線形モデルまで, 深層生成ネットワークを用いて拡張する。 DICCAは、多視点データの共有とビュー固有のバリエーションの両方を分離するように設計されている。 さらに,モデルをより解釈しやすくするため,ビュー固有生成器からなる構造的変分オートエンコーダを用いて,潜在重量に先立ってスパーシティ誘導を行う。 実世界のデータセットにおける実証的な結果は、我々の手法がドメイン間で競合していることを示している。

The main idea of canonical correlation analysis (CCA) is to map different views onto a common latent space with maximum correlation. We propose a deep interpretable variational canonical correlation analysis (DICCA) for multi-view learning. The developed model extends the existing latent variable model for linear CCA to nonlinear models through the use of deep generative networks. DICCA is designed to disentangle both the shared and view-specific variations for multi-view data. To further make the model more interpretable, we place a sparsity-inducing prior on the latent weight with a structured variational autoencoder that is comprised of view-specific generators. Empirical results on real-world datasets show that our methods are competitive across domains.
翻訳日:2022-03-01 14:55:09 公開日:2022-02-28
# ベイズ最適化のための修正最大値エントロピー探索

Rectified Max-Value Entropy Search for Bayesian Optimization ( http://arxiv.org/abs/2202.13597v1 )

ライセンス: Link先を確認
Quoc Phong Nguyen, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) 既存の最大値エントロピー探索 (mes) は広く知られた相互情報の概念に基づいているが, その経験的性能は, 探索と探索のトレードオフに影響を及ぼす2つの誤解から生じる。 これらの問題は,本研究で展開する修正MES(RMES)取得機能などの相互情報の正確な測定を促進するため,将来的な獲得機能の開発や既存のものの改善に不可欠である。 MESの評価とは異なり、最大値に条件付き観測値に対する閉形式確率密度を導出し、再パラメータ化による確率勾配上昇を用いてRMESを効率的に最適化する。 より原理化された取得関数の結果、RMESはいくつかの合成関数ベンチマークと実世界の最適化問題においてMESよりも一貫した改善を示す。

Although the existing max-value entropy search (MES) is based on the widely celebrated notion of mutual information, its empirical performance can suffer due to two misconceptions whose implications on the exploration-exploita tion trade-off are investigated in this paper. These issues are essential in the development of future acquisition functions and the improvement of the existing ones as they encourage an accurate measure of the mutual information such as the rectified MES (RMES) acquisition function we develop in this work. Unlike the evaluation of MES, we derive a closed-form probability density for the observation conditioned on the max-value and employ stochastic gradient ascent with reparameterization to efficiently optimize RMES. As a result of a more principled acquisition function, RMES shows a consistent improvement over MES in several synthetic function benchmarks and real-world optimization problems.
翻訳日:2022-03-01 14:54:58 公開日:2022-02-28
# オフライン強化学習のための悲観的なQ-Learning:最適サンプル複雑度を目指して

Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity ( http://arxiv.org/abs/2202.13890v1 )

ライセンス: Link先を確認
Laixi Shi, Gen Li, Yuting Wei, Yuxin Chen, Yuejie Chi(参考訳) オフラインもしくはバッチ強化学習は、環境を積極的に探索することなく、履歴データを用いてほぼ最適ポリシーを学習しようとする。 多くのオフラインデータセットのカバー不足とサンプル不足に対応するため、最近、推定値の高いバイアスを軽減するために悲観主義の原則が導入された。 モデルに基づくアルゴリズムの悲観的な変種(例えば、信頼性の低い値反復)は理論的に研究されているが、モデル無しなアルゴリズムは(明示的なモデル推定を必要としない)、特にサンプル効率の観点からは十分に研究されていない。 この問題に対処するために,有限ホリゾンマルコフ決定過程の文脈でq-ラーニングの悲観的変種を研究し,そのサンプル複雑性を,状態作用空間を完全にカバーする必要のない単一政治集中性仮定の下で特徴づける。 さらに, 差分再現型悲観的Q-ラーニングアルゴリズムを提案し, ほぼ最適サンプル複雑性を実現する。 この研究は、ペシミズムと分散還元と組み合わせて、オフラインRLにおけるモデルフリーアルゴリズムの効率性を強調している。

Offline or batch reinforcement learning seeks to learn a near-optimal policy using history data without active exploration of the environment. To counter the insufficient coverage and sample scarcity of many offline datasets, the principle of pessimism has been recently introduced to mitigate high bias of the estimated values. While pessimistic variants of model-based algorithms (e.g., value iteration with lower confidence bounds) have been theoretically investigated, their model-free counterparts -- which do not require explicit model estimation -- have not been adequately studied, especially in terms of sample efficiency. To address this inadequacy, we study a pessimistic variant of Q-learning in the context of finite-horizon Markov decision processes, and characterize its sample complexity under the single-policy concentrability assumption which does not require the full coverage of the state-action space. In addition, a variance-reduced pessimistic Q-learning algorithm is proposed to achieve near-optimal sample complexity. Altogether, this work highlights the efficiency of model-free algorithms in offline RL when used in conjunction with pessimism and variance reduction.
翻訳日:2022-03-01 14:54:43 公開日:2022-02-28
# (参考訳) ワークアウト形式評価のためのドメイン知識インフォームドセルフスーパービジョン表現 [全文訳有]

Domain Knowledge-Informed Self-Supervised Representations for Workout Form Assessment ( http://arxiv.org/abs/2202.14019v1 )

ライセンス: CC BY-SA 4.0
Paritosh Parmar, Amol Gharat, Helge Rhodin(参考訳) 運動中の適切な形態を維持することは、怪我を予防し、筋肉の質量増加を最大化するために重要である。 フィットネスアプリは人気があるが、ワークアウトフォームのエラーを検出する機能が欠けている。 このようなエラーを検出するには,ユーザの体位を推定する必要がある。 しかし、カメラアングル、体育館の機器からの排除、照明、衣服などの要因により、体育館のシナリオで録画されたビデオの撮影に苦労している。 問題を悪化させるために、ワークアウトで検出するエラーは非常に微妙です。 そこで本稿では,専門家が注釈付けした小さなデータセットを教師付きエラー検出に役立てるように,ラベルのないサンプルから演習固有の表現を学習することを提案する。 特に,我々のドメイン知識が有する自己教師付きアプローチは,運動行動の調和運動を利用し,カメラアングル,服,照明の大きなばらつきを活かし,強力な表現を学習する。 自己教師付き事前トレーニングと教師付き微調整を容易にするために、backsquat、barbellrow、overheadpressという3つのエクササイズデータセット、fitness-aqaをキュレーションしました。 専門家のトレーナーは、複数の重要かつ典型的なエクササイズエラーについて注釈を付けている。 実験結果から, 自己教師による表現は, 既成の2D-および3D-目的推定器や, その他のベースラインよりも優れていた。

Maintaining proper form while exercising is important for preventing injuries and maximizing muscle mass gains. While fitness apps are becoming popular, they lack the functionality to detect errors in workout form. Detecting such errors naturally requires estimating users' body pose. However, off-the-shelf pose estimators struggle to perform well on the videos recorded in gym scenarios due to factors such as camera angles, occlusion from gym equipment, illumination, and clothing. To aggravate the problem, the errors to be detected in the workouts are very subtle. To that end, we propose to learn exercise-specific representations from unlabeled samples such that a small dataset annotated by experts suffices for supervised error detection. In particular, our domain knowledge-informed self-supervised approaches exploit the harmonic motion of the exercise actions, and capitalize on the large variances in camera angles, clothes, and illumination to learn powerful representations. To facilitate our self-supervised pretraining, and supervised finetuning, we curated a new exercise dataset, Fitness-AQA, comprising of three exercises: BackSquat, BarbellRow, and OverheadPress. It has been annotated by expert trainers for multiple crucial and typically occurring exercise errors. Experimental results show that our self-supervised representations outperform off-the-shelf 2D- and 3D-pose estimators and several other baselines.
翻訳日:2022-03-01 14:46:01 公開日:2022-02-28
# 手動・接触検出のための背景混合データ拡張

Background Mixup Data Augmentation for Hand and Object-in-Contact Detection ( http://arxiv.org/abs/2202.13941v1 )

ライセンス: Link先を確認
Koya Tango, Takehiko Ohkawa, Ryosuke Furuta, Yoichi Sato(参考訳) ビデオフレーム内の人間の手の位置と物体の接触(手動物体の検出)を検知することは、ビデオから人間の活動を理解するのに不可欠である。 オブジェクト検出器のトレーニングでは、データバイアスを軽減するために2つのトレーニングイメージをオーバーレイするMixupと呼ばれる手法が実証的にデータ拡張に有効であることが示されている。 しかし、ハンドオブジェクト検出では、2つのハンドマニピュレーション画像が混合されると意図しないバイアスが発生し、例えば、特定の領域における手とオブジェクトの集中は、ハンドオブジェクト検出器のオブジェクト境界を識別する能力が低下する。 本研究では,手動物体検出における意図しない効果を低減しつつ,データ混合正則化を利用した背景混合法を提案する。 手と被写体が接触する2つの画像とを混合する代わりに、対象画像と手のない背景画像と、外部画像から抽出された被写体とを混合し、この混合画像を用いて検出器を訓練する。 提案手法は,教師付き学習と半教師付き学習の両方において,偽陽性を効果的に低減し,手対象検出の性能を向上させることを実証した。

Detecting the positions of human hands and objects-in-contact (hand-object detection) in each video frame is vital for understanding human activities from videos. For training an object detector, a method called Mixup, which overlays two training images to mitigate data bias, has been empirically shown to be effective for data augmentation. However, in hand-object detection, mixing two hand-manipulation images produces unintended biases, e.g., the concentration of hands and objects in a specific region degrades the ability of the hand-object detector to identify object boundaries. We propose a data-augmentation method called Background Mixup that leverages data-mixing regularization while reducing the unintended effects in hand-object detection. Instead of mixing two images where a hand and an object in contact appear, we mix a target training image with background images without hands and objects-in-contact extracted from external image sources, and use the mixed images for training the detector. Our experiments demonstrated that the proposed method can effectively reduce false positives and improve the performance of hand-object detection in both supervised and semi-supervised learning settings.
翻訳日:2022-03-01 14:30:20 公開日:2022-02-28
# 論理的誤認検出

Logical Fallacy Detection ( http://arxiv.org/abs/2202.13758v1 )

ライセンス: Link先を確認
Zhijing Jin, Abhinav Lalwani, Tejas Vaidhya, Xiaoyu Shen, Yiwen Ding, Zhiheng Lyu, Mrinmaya Sachan, Rada Mihalcea, Bernhard Sch\"olkopf(参考訳) 推論は人間の知性の中心である。 しかし、悪質な議論が一般的であり、気候変動に関する誤報を広めるなど、悪化する問題もある。 本稿では,論理的誤り検出の課題を提案し,テキストに一般的に見られる論理的誤りの新たなデータセット(ロジック)と,気候変動の主張(LogicClimate)における論理的誤りの検出のための追加の課題を提案する。 モデルが議論の根底にある論理構造を理解する必要があるため、論理的誤りの検出は難しい問題である。 既存の事前学習済みの大規模言語モデルは、このタスクでパフォーマンスが悪いことが分かりました。 対照的に、単純な構造認識型分類器は論理学では5.46%、論理学では3.86%の言語モデルを上回る。 私たちは今後この課題を探求することを奨励します (a)言語モデルの新たな推論課題として機能し、 (b)誤情報の拡散に取り組むための潜在的な応用がある可能性がある。

Reasoning is central to human intelligence. However, fallacious arguments are common, and some exacerbate problems such as spreading misinformation about climate change. In this paper, we propose the task of logical fallacy detection, and provide a new dataset (Logic) of logical fallacies generally found in text, together with an additional challenge set for detecting logical fallacies in climate change claims (LogicClimate). Detecting logical fallacies is a hard problem as the model must understand the underlying logical structure of the argument. We find that existing pretrained large language models perform poorly on this task. In contrast, we show that a simple structure-aware classifier outperforms the best language model by 5.46% on Logic and 3.86% on LogicClimate. We encourage future work to explore this task as (a) it can serve as a new reasoning challenge for language models, and (b) it can have potential applications in tackling the spread of misinformation.
翻訳日:2022-03-01 14:30:00 公開日:2022-02-28
# 個別メートル法の再考と精錬

Rethinking and Refining the Distinct Metric ( http://arxiv.org/abs/2202.13587v1 )

ライセンス: Link先を確認
Siyang Liu, Sahand Sabour, Yinhe Zheng, Pei Ke, Xiaoyan Zhu, Minlie Huang(参考訳) Distinctは、言語生成タスクの多様性を評価するために広く使われている自動メトリクスである。 しかし,異なるスコアを計算する元来のアプローチは,長い列に高いペナルティを課す傾向のある明らかなバイアスを持つ。 本稿では,その期待値に基づいて異なるトークン数を再スケーリングすることで,異なるスコアの計算を洗練する。 実験と理論の両方の証拠を提供し,本手法が元のスコアで示されるバイアスを効果的に除去することを示す。 さらなる分析により、改良されたスコアは人間の評価と相関することが示された。

Distinct is a widely used automatic metric for evaluating the diversity of language generation tasks. However, we observe that the original approach to calculating distinct scores has evident biases that tend to add higher penalties to longer sequences. In this paper, we refine the calculation of distinct scores by re-scaling the number of distinct tokens based on its expectation. We provide both empirical and theoretical evidence to show that our method effectively removes the biases exhibited in the original distinct score. Further analyses also demonstrate that the refined score correlates better with human evaluations.
翻訳日:2022-03-01 14:27:25 公開日:2022-02-28
# 信頼度に基づくニューラルマシン翻訳のための双方向グローバルコンテキスト認識トレーニングフレームワーク

Confidence Based Bidirectional Global Context Aware Training Framework for Neural Machine Translation ( http://arxiv.org/abs/2202.13663v1 )

ライセンス: Link先を確認
Chulun Zhou, Fandong Meng, Jie Zhou, Min Zhang, Hongji Wang and Jinsong Su(参考訳) ほとんどの支配的なニューラルマシン翻訳(nmt)モデルは、先行する単語の局所的文脈のみに左右に反応して予測を行うように制限されている。 これまでの多くの研究では、NMTモデルにグローバル情報を組み込もうとしたが、双方向のグローバルコンテキストを効果的に活用する方法には制限がある。 本稿では,nmtモデルと補助条件付きマスキング言語モデル(cmlm)を共同で学習する,nmtのための信頼度に基づく双方向グローバルコンテキスト認識(cbbgca)トレーニングフレームワークを提案する。 訓練は,(1)多課題共同訓練,(2)自信に基づく知識蒸留の2段階からなる。 最初の段階では、エンコーダパラメータを共有することで、NMTモデルは双方向のグローバルコンテキストを含むCMLMデコーダからの信号によってさらに制御される。 さらに,第2段階では,CMLMを教師として使用し,NMTモデルに双方向のグローバルコンテキストを,知識蒸留による不確実な予測対象語に組み込む。 実験結果から,提案したCBBGCAトレーニングフレームワークは,WMT'14,WMT'19,WMT'14,WMT'14,WMT'14,WMT'14の3つの大規模翻訳データセットに対して,NMTモデルを+1.02,+1.30,+0.57 BLEUスコアで大幅に改善することがわかった。

Most dominant neural machine translation (NMT) models are restricted to make predictions only according to the local context of preceding words in a left-to-right manner. Although many previous studies try to incorporate global information into NMT models, there still exist limitations on how to effectively exploit bidirectional global context. In this paper, we propose a Confidence Based Bidirectional Global Context Aware (CBBGCA) training framework for NMT, where the NMT model is jointly trained with an auxiliary conditional masked language model (CMLM). The training consists of two stages: (1) multi-task joint training; (2) confidence based knowledge distillation. At the first stage, by sharing encoder parameters, the NMT model is additionally supervised by the signal from the CMLM decoder that contains bidirectional global contexts. Moreover, at the second stage, using the CMLM as teacher, we further pertinently incorporate bidirectional global context to the NMT model on its unconfidently-predic ted target words via knowledge distillation. Experimental results show that our proposed CBBGCA training framework significantly improves the NMT model by +1.02, +1.30 and +0.57 BLEU scores on three large-scale translation datasets, namely WMT'14 English-to-German, WMT'19 Chinese-to-English and WMT'14 English-to-French, respectively.
翻訳日:2022-03-01 14:27:15 公開日:2022-02-28
# TraceNet: 知覚分析における重要な要素の追跡と配置

TraceNet: Tracing and Locating the Key Elements in Sentiment Analysis ( http://arxiv.org/abs/2202.13812v1 )

ライセンス: Link先を確認
Qinghua Zhao, Shuai Ma(参考訳) 本稿では,入力のいくつかの重要な要素が成果を主に寄与する感情分析タスクについて検討する。 この2ストリーム仮説に触発されて、我々はTraceNetというニューラルアーキテクチャを提案し、このタイプのタスクに対処する。 対象タスクの識別表現をエンコーダを通じて学習するだけでなく、ロケータを通じて重要な要素を同時にトレースする。 tracenetでは、エンコーダとロケータの両方を階層的に構成し、隣接するエンコーダとロケータの組み合わせで滑らかさを正規化する。 さらに、追跡目的のロケータにスパーシリティ制約を課し、ロケータが出力する項目量に応じてアイテムを積極的にマスクする。 また、ロケータの指導の下では、鍵要素やプロアクティブマスキング訓練戦略に重点を置いているため、攻撃に対してより堅牢である。 実験結果から感情分類の有効性が示された。 さらに,その堅牢性と解釈可能性を示すために,いくつかのケーススタディを提供する。

In this paper, we study sentiment analysis task where the outcomes are mainly contributed by a few key elements of the inputs. Motivated by the two-streams hypothesis, we propose a neural architecture, named TraceNet, to address this type of task. It not only learns discriminative representations for the target task via its encoders, but also traces key elements at the same time via its locators. In TraceNet, both encoders and locators are organized in a layer-wise manner, and a smoothness regularization is employed between adjacent encoder-locator combinations. Moreover, a sparsity constraints are enforced on locators for tracing purposes and items are proactively masked according to the item weights output by locators.A major advantage of TraceNet is that the outcomes are easier to understand, since the most responsible parts of inputs are identified. Also, under the guidance of locators, it is more robust to attacks due to its focus on key elements and the proactive masking training strategy. Experimental results show its effectiveness for sentiment classification. Moreover, we provide several case studies to demonstrate its robustness and interpretability.
翻訳日:2022-03-01 14:26:19 公開日:2022-02-28
# ParaNames: 非常に多言語なエンティティ名コーパス

ParaNames: A Massively Multilingual Entity Name Corpus ( http://arxiv.org/abs/2202.14035v1 )

ライセンス: Link先を確認
Jonne S\"alev\"a and Constantine Lignos(参考訳) このプレプリントでは、約1400万のエンティティの名前からなる多言語並列ネームリソースであるParaNamesに関する作業が進行中である。 含まれる名前は400以上の言語にまたがっており、ほとんどのエンティティは標準化されたエンティティタイプ(PER/LOC/ORG)にマッピングされる。 Wikidataをソースとして、私たちはこのタイプの最大のリソースを作成します。 可能な限り最高の品質を提供するために、データをフィルタリングし、標準化するアプローチについて説明します。 ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。 私たちのリソースはCreative Commonsライセンス(CC BY 4.0)の下でGitHub(https://githu b.com/bltlab/paranam es)でリリースされています。

This preprint describes work in progress on ParaNames, a multilingual parallel name resource consisting of names for approximately 14 million entities. The included names span over 400 languages, and almost all entities are mapped to standardized entity types (PER/LOC/ORG). Using Wikidata as a source, we create the largest resource of this type to-date. We describe our approach to filtering and standardizing the data to provide the best quality possible. ParaNames is useful for multilingual language processing, both in defining tasks for name translation/translit eration and as supplementary data for tasks such as named entity recognition and linking. Our resource is released on GitHub (https://github.com/ bltlab/paranames) under a Creative Commons license (CC BY 4.0).
翻訳日:2022-03-01 14:26:03 公開日:2022-02-28
# 画像キャプションのためのインタラクティブ機械学習

Interactive Machine Learning for Image Captioning ( http://arxiv.org/abs/2202.13623v1 )

ライセンス: Link先を確認
Mareike Hartmann, Aliki Anagnostopoulou, Daniel Sonntag(参考訳) 画像キャプションモデルのための対話型学習手法を提案する。 人間のフィードバックは高価であり、現代のニューラルネットワークベースのアプローチでは、トレーニングに大量の教師付きデータを必要とすることが多いため、私たちは、データ拡張方法を使用してフィードバックを乗算し、結果のトレーニング例をスマートな方法でモデルに統合することで、人間のフィードバックを可能な限り活用するシステムを構想します。 このアプローチには3つの重要なコンポーネントがあり、フィードバック収集、データ拡張、モデル更新という、適切な実用的な実装を見つける必要があります。 我々は、これらの課題に取り組むための様々な可能性について概説し、検討する。

We propose an approach for interactive learning for an image captioning model. As human feedback is expensive and modern neural network based approaches often require large amounts of supervised data to be trained, we envision a system that exploits human feedback as good as possible by multiplying the feedback using data augmentation methods, and integrating the resulting training examples into the model in a smart way. This approach has three key components, for which we need to find suitable practical implementations: feedback collection, data augmentation, and model update. We outline our idea and review different possibilities to address these tasks.
翻訳日:2022-03-01 14:25:50 公開日:2022-02-28
# ポイントクラウドのための教師なし表現学習:調査

Unsupervised Representation Learning for Point Clouds: A Survey ( http://arxiv.org/abs/2202.13589v1 )

ライセンス: Link先を確認
Aoran Xiao, Jiaxing Huang, Dayan Guan, Shijian Lu(参考訳) ポイントクラウドデータは、様々な状況下での精度と堅牢性から、広く研究されている。 一方、ディープニューラルネットワーク(DNN)は、監視や自律運転など、さまざまなアプリケーションで非常に大きな成功を収めています。 ポイントクラウドとDNNの収束は、大規模で密度の高いポイントクラウドデータの監視の下で主に訓練された多くのディープポイントクラウドモデルにつながった。 教師なしのポイントクラウド表現学習(unsupervised point cloud representation learning)は、ラベルなしのポイントクラウドデータから汎用的で有用なポイントクラウド表現を学習することを目的としている。 本稿では,DNNを用いた非教師なしのクラウド表現学習について概観する。 まず、モチベーション、一般的なパイプライン、そして最近の研究の用語について説明する。 広く採用されているポイントクラウドデータセットやDNNアーキテクチャを含む関連する背景を簡潔に示す。 続いて、既存の教師なしのポイントクラウド表現学習方法に関する技術的アプローチに関する広範な議論が行われる。 また、複数の広く採用されているポイントクラウドデータセットに対して、レビューされた手法を定量的にベンチマークし、議論する。 最後に、教師なしのクラウド表現学習における将来の研究で追求されるいくつかの課題と課題について、謙虚な意見を共有します。 この調査に関連するプロジェクトはhttps://github.com/x iaoaoran/3d_url_surv eyで構築されている。

Point cloud data have been widely explored due to its superior accuracy and robustness under various adverse situations. Meanwhile, deep neural networks (DNNs) have achieved very impressive success in various applications such as surveillance and autonomous driving. The convergence of point cloud and DNNs has led to many deep point cloud models, largely trained under the supervision of large-scale and densely-labelled point cloud data. Unsupervised point cloud representation learning, which aims to learn general and useful point cloud representations from unlabelled point cloud data, has recently attracted increasing attention due to the constraint in large-scale point cloud labelling. This paper provides a comprehensive review of unsupervised point cloud representation learning using DNNs. It first describes the motivation, general pipelines as well as terminologies of the recent studies. Relevant background including widely adopted point cloud datasets and DNN architectures is then briefly presented. This is followed by an extensive discussion of existing unsupervised point cloud representation learning methods according to their technical approaches. We also quantitatively benchmark and discuss the reviewed methods over multiple widely adopted point cloud datasets. Finally, we share our humble opinion about several challenges and problems that could be pursued in the future research in unsupervised point cloud representation learning. A project associated with this survey has been built at https://github.com/x iaoaoran/3d_url_surv ey.
翻訳日:2022-03-01 14:23:26 公開日:2022-02-28
# EdgeMixup: 皮膚疾患の分類と分類の公平性を改善する

EdgeMixup: Improving Fairness for Skin Disease Classification and Segmentation ( http://arxiv.org/abs/2202.13883v1 )

ライセンス: Link先を確認
Haolin Yuan, Armin Hadzic, William Paul, Daniella Villegas de Flores, Philip Mathew, John Aucott, Yinzhi Cao, Philippe Burlina(参考訳) 皮膚病変は、幅広い感染症や他の疾患の早期の指標となりうる。 皮膚病変の診断におけるdeep learning(dl)モデルの使用は,前スクリーニング患者に対する臨床医の補助に大いに有用である。 しかし、これらのモデルはしばしばトレーニングデータに固有のバイアスを学習し、明暗の肌色を持つ人々の診断におけるパフォーマンスのギャップを生じさせる。 私たちの知る限りでは、皮膚疾患の分類と分節におけるバイアスを識別、軽減、モデル化する作業は限られています。 本稿では,皮膚色が暗く,肌色が薄い個体に比べて,ライム,ティネア・コーポリス,ヘルペス・ゾスターなどの特定の疾患に対する分類・区分モデルにおいて,dlの公平性を検証し,バイアスの存在を実証する。 そこで本研究では,入力皮膚病変画像とそれに対応するエッジ検出マスクと,彩度変化を併用したモデルフェアネスを改善するために,EdgeMixupと呼ばれる新しい前処理,データ修正手法を提案する。 皮膚疾患分類のタスクでは、EdgeMixupは、敵のアプローチのようなより複雑な競合方法よりも優れており、光と暗い皮膚のトーンサンプルの精度ギャップを10.99%削減し、人口密度の低いサブポレーションのパフォーマンスを8.4%向上させた。

Skin lesions can be an early indicator of a wide range of infectious and other diseases. The use of deep learning (DL) models to diagnose skin lesions has great potential in assisting clinicians with prescreening patients. However, these models often learn biases inherent in training data, which can lead to a performance gap in the diagnosis of people with light and/or dark skin tones. To the best of our knowledge, limited work has been done on identifying, let alone reducing, model bias in skin disease classification and segmentation. In this paper, we examine DL fairness and demonstrate the existence of bias in classification and segmentation models for subpopulations with darker skin tones compared to individuals with lighter skin tones, for specific diseases including Lyme, Tinea Corporis and Herpes Zoster. Then, we propose a novel preprocessing, data alteration method, called EdgeMixup, to improve model fairness with a linear combination of an input skin lesion image and a corresponding a predicted edge detection mask combined with color saturation alteration. For the task of skin disease classification, EdgeMixup outperforms much more complex competing methods such as adversarial approaches, achieving a 10.99% reduction in accuracy gap between light and dark skin tone samples, and resulting in 8.4% improved performance for an underrepresented subpopulation.
翻訳日:2022-03-01 14:23:08 公開日:2022-02-28
# Detectron2フレームワークを用いたマグネシウム合金鋳物のX線像における欠陥検出とセグメンテーション

Defect detection and segmentation in X-Ray images of magnesium alloy castings using the Detectron2 framework ( http://arxiv.org/abs/2202.13945v1 )

ライセンス: Link先を確認
Francisco Javier Yag\"ue, Jose Francisco Diez-Pastor, Pedro Latorre-Carmona, Cesar Ignacio Garcia Osorio(参考訳) 新しい製造技術が登場し、より複雑な形状の金属部品を生産できるようになり、品質管理プロセスが困難になった。 これは、視覚的および表面的分析がさらに非効率になったことを意味する。 その上、これらの部品が持つ可能性のある内部欠陥を検出することも不可能である。 X線画像を使用することで、表面欠陥をずっと簡単に検出できるだけでなく、金属部品の物理的完全性にとって深刻な危険性を示す溶接欠陥や鋳造欠陥も検出できるようになった。 一方,欠陥検出に自動セグメンテーション手法を用いることで,工場作業者の主観性や時間依存性の変動に対する欠陥検出の依存性を低減できる。 本研究の目的は,画像中の物体検出およびセグメンテーションに応用される最先端ライブラリである detectionron2 に基づく深層学習システムを適用し,自動車部品を中心に得られたx線画像における欠陥の同定とセグメンテーションを行うことである。

New production techniques have emerged that have made it possible to produce metal parts with more complex shapes, making the quality control process more difficult. This implies that the visual and superficial analysis has become even more inefficient. On top of that, it is also not possible to detect internal defects that these parts could have. The use of X-Ray images has made this process much easier, allowing not only to detect superficial defects in a much simpler way, but also to detect welding or casting defects that could represent a serious hazard for the physical integrity of the metal parts. On the other hand, the use of an automatic segmentation approach for detecting defects would help diminish the dependence of defect detection on the subjectivity of the factory operators and their time dependence variability. The aim of this paper is to apply a deep learning system based on Detectron2, a state-of-the-art library applied to object detection and segmentation in images, for the identification and segmentation of these defects on X-Ray images obtained mainly from automotive parts
翻訳日:2022-03-01 14:22:41 公開日:2022-02-28
# マルチタスク学習におけるモジュールスキルの組み合わせ

Combining Modular Skills in Multitask Learning ( http://arxiv.org/abs/2202.13914v1 )

ライセンス: Link先を確認
Edoardo M. Ponti, Alessandro Sordoni and Siva Reddy(参考訳) モジュール設計は、神経モデルに対して、異なる知識の面を分離し、再結合し、より体系的に新しいタスクに一般化することを奨励する。 この研究において、各タスクは(潜在的に小さい)在庫から潜在的な離散スキルのサブセットと関連づけられていると仮定する。 すると、スキルはパラメータ効率(スパース/ローランク)モデルのパラメータ化に対応する。 これらとタスクスキル割り当て行列を共同で学習することにより、各タスクのネットワークをアクティブスキルのパラメータの平均としてインスタンス化する。 タスク間での非自明なソフトなスキル分割を好むために、インドのビュッフェプロセスや2速学習率といった一連の帰納的バイアスを試す。 我々は2つの主要な設定で潜在スキルモデルを評価する。 1)BabyAIプラットフォーム8レベルに追従した接地指導のためのマルチタスク強化学習 2)160nlpタスクからなるベンチマークであるcrossfit上での事前学習されたテキストからテキストへの生成モデルの数少ない適応。 ネットワークのモジュラー設計は強化学習におけるサンプル効率と教師あり学習における限定的一般化を著しく向上させ、知識がタスク間で絡み合うような完全共有、タスク固有、あるいは条件付き生成パラメータを持つベースラインと比較した。 さらに,タスクの階層構造を明示するため,個々のスキルが解釈可能性にどのように役立つかを示す。

A modular design encourages neural models to disentangle and recombine different facets of knowledge to generalise more systematically to new tasks. In this work, we assume that each task is associated with a subset of latent discrete skills from a (potentially small) inventory. In turn, skills correspond to parameter-efficient (sparse / low-rank) model parameterisations. By jointly learning these and a task-skill allocation matrix, the network for each task is instantiated as the average of the parameters of active skills. To favour non-trivial soft partitions of skills across tasks, we experiment with a series of inductive biases, such as an Indian Buffet Process prior and a two-speed learning rate. We evaluate our latent-skill model on two main settings: 1) multitask reinforcement learning for grounded instruction following on 8 levels of the BabyAI platform; and 2) few-shot adaptation of pre-trained text-to-text generative models on CrossFit, a benchmark comprising 160 NLP tasks. We find that the modular design of a network significantly increases sample efficiency in reinforcement learning and few-shot generalisation in supervised learning, compared to baselines with fully shared, task-specific, or conditionally generated parameters where knowledge is entangled across tasks. In addition, we show how discrete skills help interpretability, as they yield an explicit hierarchy of tasks.
翻訳日:2022-03-01 14:21:24 公開日:2022-02-28
# 各種皮膚および軟部組織感染症患者における抗生物質耐性の機械学習による同定

Machine learning techniques to identify antibiotic resistance in patients diagnosed with various skin and soft tissue infections ( http://arxiv.org/abs/2202.13496v1 )

ライセンス: Link先を確認
Farnaz H. Foomani, Shahzad Mirza, Sahjid Mukhida, Kannuri Sriram, Zeyun Yu, Aayush Gupta, and Sandeep Gopalakrishnan(参考訳) 皮膚および軟部組織感染症(SSTIs)は、最も頻度の高い疾患の1つである。 多様な細菌性病原体の抗生物質に対する耐性は重篤なSSTIの重大な原因であり、治療失敗は死亡率、死亡率、入院費用の増加をもたらす。 したがって、抗生物質耐性の傾向を予測し、医療介入の結果を監視するためには、抗菌監視が不可欠である。 そこで本研究では, 臨床診断患者から採取した薬剤感受性試験(ABST)データを用いて, 1年間の抗菌抵抗を予測するための機械学習モデル(深部および従来のアルゴリズム)を開発した。 我々は,グラム陽性菌 (GPC) とグラム陰性菌 (GNB) が対応する抗生物質に抵抗するかどうかを判定するために, 各抗菌系で個別のMLアルゴリズムを訓練した。 この目的で,臨床および統計学的特徴とABSTのデータを用いてトレーニングを行った。 また,gpcでは0.68-0.98,gnb菌では0.56-0.93であった。 また,各種細菌における各特徴と抗菌ファミリーの線形関係を解析するために相関解析を行った。 ML法は, 患者の臨床症状と薬剤耐性との間には, 予測可能な非線形関係があることを示唆するが, この予測の精度は抗菌ファミリーの種類によって異なる。

Skin and soft tissue infections (SSTIs) are among the most frequently observed diseases in ambulatory and hospital settings. Resistance of diverse bacterial pathogens to antibiotics is a significant cause of severe SSTIs, and treatment failure results in morbidity, mortality, and increased cost of hospitalization. Therefore, antimicrobial surveillance is essential to predict antibiotic resistance trends and monitor the results of medical interventions. To address this, we developed machine learning (ML) models (deep and conventional algorithms) to predict antimicrobial resistance using antibiotic susceptibility testing (ABST) data collected from patients clinically diagnosed with primary and secondary pyoderma over a period of one year. We trained an individual ML algorithm on each antimicrobial family to determine whether a Gram-Positive Cocci (GPC) or Gram-Negative Bacilli (GNB) bacteria will resist the corresponding antibiotic. For this purpose, clinical and demographic features from the patient and data from ABST were employed in training. We achieved an Area Under the Curve (AUC) of 0.68-0.98 in GPC and 0.56-0.93 in GNB bacteria, depending on the antimicrobial family. We also conducted a correlation analysis to determine the linear relationship between each feature and antimicrobial families in different bacteria. ML techniques suggest that a predictable nonlinear relationship exists between patients' clinical-demographic characteristics and antibiotic resistance; however, the accuracy of this prediction depends on the type of the antimicrobial family.
翻訳日:2022-03-01 14:19:39 公開日:2022-02-28
# LobsDICE: 定常分布補正推定による観測からのオフライン模倣学習

LobsDICE: Offline Imitation Learning from Observation via Stationary Distribution Correction Estimation ( http://arxiv.org/abs/2202.13536v1 )

ライセンス: Link先を確認
Geon-Hyeong Kim, Jongmin Lee, Youngsoo Jang, Hongseok Yang, Kee-Eung Kim(参考訳) エージェントは、専門家による状態限定のデモンストレーションから専門家の行動を模倣することを目的とした、観察からの模倣(ifo)の問題を考える。 さらに,エージェントは環境と相互作用できないが,未知の品質のエージェントによって収集された動作ラベルの遷移データにアクセスできると仮定する。 IfOのオフライン設定は、現実の多くのシナリオにおいて、真真正な専門家のアクションがアクセス不能であり、任意の環境相互作用がコストがかかるか、危険である場合にアピールします。 本稿では、定常分布空間における最適化を通じて、エキスパートポリシーを模倣することを学ぶオフラインifOアルゴリズムであるLobsDICEを提案する。 本アルゴリズムは,エキスパートとエージェントポリシーによって引き起こされる2つの状態遷移分布の発散を最小限に抑える単一の凸最小化問題を解く。 オフラインのifOタスクの広範なセットでは、LobsDICEは有望な結果を示し、強力なベースラインアルゴリズムを上回っている。

We consider the problem of imitation from observation (IfO), in which the agent aims to mimic the expert's behavior from the state-only demonstrations by experts. We additionally assume that the agent cannot interact with the environment but has access to the action-labeled transition data collected by some agent with unknown quality. This offline setting for IfO is appealing in many real-world scenarios where the ground-truth expert actions are inaccessible and the arbitrary environment interactions are costly or risky. In this paper, we present LobsDICE, an offline IfO algorithm that learns to imitate the expert policy via optimization in the space of stationary distributions. Our algorithm solves a single convex minimization problem, which minimizes the divergence between the two state-transition distributions induced by the expert and the agent policy. On an extensive set of offline IfO tasks, LobsDICE shows promising results, outperforming strong baseline algorithms.
翻訳日:2022-03-01 14:19:13 公開日:2022-02-28
# インダクティブビアーゼを取り入れたコントラスト学習の理解

Understanding Contrastive Learning Requires Incorporating Inductive Biases ( http://arxiv.org/abs/2202.14037v1 )

ライセンス: Link先を確認
Nikunj Saunshi, Jordan Ash, Surbhi Goel, Dipendra Misra, Cyril Zhang, Sanjeev Arora, Sham Kakade, Akshay Krishnamurthy(参考訳) コントラスト学習(Contrastive Learning)は、同じ入力の強化(ビュー)を奨励し、異なる入力の増強よりも類似した表現を持つ自己教師型学習の一般的な形式である。 下流分類タスクにおけるコントラスト学習の成功を理論的に説明する最近の試みは、"em拡張"の性質と表現の"emコントラスト損失"の値に依存する保証を証明している。 関数クラスと学習アルゴリズムの帰納的バイアスを無視するそのような分析は、コントラスト学習の成功を適切に説明できないこと、そして、ある設定において不確実な保証をもたらすことを実証する。 画像とテキストドメインに関する広範囲な実験は、この問題の普遍性を強調している。異なる関数クラスとアルゴリズムは、同じ拡張と対照的な損失があるにもかかわらず、下流のタスクで非常に異なる振る舞いをする。 線形表現のクラスに対して理論的解析が提示され、関数クラスの帰納的バイアスを組み込むことで、事前解析と比較して制約のない条件で対照的な学習ができる。

Contrastive learning is a popular form of self-supervised learning that encourages augmentations (views) of the same input to have more similar representations compared to augmentations of different inputs. Recent attempts to theoretically explain the success of contrastive learning on downstream classification tasks prove guarantees depending on properties of {\em augmentations} and the value of {\em contrastive loss} of representations. We demonstrate that such analyses, that ignore {\em inductive biases} of the function class and training algorithm, cannot adequately explain the success of contrastive learning, even {\em provably} leading to vacuous guarantees in some settings. Extensive experiments on image and text domains highlight the ubiquity of this problem -- different function classes and algorithms behave very differently on downstream tasks, despite having the same augmentations and contrastive losses. Theoretical analysis is presented for the class of linear representations, where incorporating inductive biases of the function class allows contrastive learning to work with less stringent conditions compared to prior analyses.
翻訳日:2022-03-01 14:18:26 公開日:2022-02-28
# (参考訳) 過パラメータ化によるラベル雑音下でのロバストトレーニング [全文訳有]

Robust Training under Label Noise by Over-parameterizatio n ( http://arxiv.org/abs/2202.14026v1 )

ライセンス: CC BY 4.0
Sheng Liu and Zhihui Zhu and Qing Qu and Chong You(参考訳) 近年、トレーニングサンプルよりもネットワークパラメータが増えている過パラメータのディープネットワークが、現代の機械学習の性能を支配している。 しかし、トレーニングデータが破損すると、過パラメータ化されたネットワークは過度に適合し、一般化しない傾向にあることが知られている。 本研究では,トレーニングラベルが破損する分類タスクにおいて,過パラメータ深層ネットワークのロバストなトレーニングを行うための原則的アプローチを提案する。 ラベルノイズはクリーンなデータから学んだネットワークと疎結合なので、ノイズをモデル化し、データから分離することを学びます。 具体的には、ラベルノイズを別のスパースオーバーパラメーターの項でモデル化し、暗黙のアルゴリズム正規化を利用して、基盤となる腐敗の回復と分離を行う。 驚くべきことに、実際にこのような単純な方法でトレーニングする場合、様々な実際のデータセットのラベルノイズに対する最先端のテスト精度を示す。 さらに, 簡易線形モデルの理論により, スパースノイズと低ランクデータとの厳密な分離が不整合な条件下で達成できることを示す。 この研究は、スパースオーバーパラメータ化と暗黙の正規化を用いて、過パラメータ化モデルを改善するための多くの興味深い方向を開く。

Recently, over-parameterized deep networks, with increasingly more network parameters than training samples, have dominated the performances of modern machine learning. However, when the training data is corrupted, it has been well-known that over-parameterized networks tend to overfit and do not generalize. In this work, we propose a principled approach for robust training of over-parameterized deep networks in classification tasks where a proportion of training labels are corrupted. The main idea is yet very simple: label noise is sparse and incoherent with the network learned from clean data, so we model the noise and learn to separate it from the data. Specifically, we model the label noise via another sparse over-parameterizatio n term, and exploit implicit algorithmic regularizations to recover and separate the underlying corruptions. Remarkably, when trained using such a simple method in practice, we demonstrate state-of-the-art test accuracy against label noise on a variety of real datasets. Furthermore, our experimental results are corroborated by theory on simplified linear models, showing that exact separation between sparse noise and low-rank data can be achieved under incoherent conditions. The work opens many interesting directions for improving over-parameterized models by using sparse over-parameterizatio n and implicit regularization.
翻訳日:2022-03-01 14:14:42 公開日:2022-02-28
# ディープラーニングにおける高次予測分布の評価

Evaluating High-Order Predictive Distributions in Deep Learning ( http://arxiv.org/abs/2202.13509v1 )

ライセンス: Link先を確認
Ian Osband, Zheng Wen, Seyed Mohammad Asghari, Vikranth Dwaracherla, Xiuyuan Lu, Benjamin Van Roy(参考訳) 教師付き学習研究のほとんどが限界予測に注目している。 意思決定問題では、共同予測分布は優れた性能に不可欠である。 先行研究ではテスト分布からサンプルした入力を用いて低次予測分布を評価する手法を開発した。 低次元入力では、これらの手法は不確実性を効果的に推定するエージェントと、そうでないエージェントとを区別する。 このような微分に必要な予測分布順序は入力次元によって大きく増大し、これらの手法は非現実的になる。 高次元の入力に対応するために、入力のランダムな \textit{pairs} に関連する予測分布に焦点を当てた \textit{dyadic sampling} を導入する。 本手法は, 単純なロジスティック回帰を含む高次元のエージェントと, 複雑な合成データと経験データとを効率的に区別する。

Most work on supervised learning research has focused on marginal predictions. In decision problems, joint predictive distributions are essential for good performance. Previous work has developed methods for assessing low-order predictive distributions with inputs sampled i.i.d. from the testing distribution. With low-dimensional inputs, these methods distinguish agents that effectively estimate uncertainty from those that do not. We establish that the predictive distribution order required for such differentiation increases greatly with input dimension, rendering these methods impractical. To accommodate high-dimensional inputs, we introduce \textit{dyadic sampling}, which focuses on predictive distributions associated with random \textit{pairs} of inputs. We demonstrate that this approach efficiently distinguishes agents in high-dimensional examples involving simple logistic regression as well as complex synthetic and empirical data.
翻訳日:2022-03-01 13:31:56 公開日:2022-02-28
# 機能混合物の分類

Functional mixture-of-experts for classification ( http://arxiv.org/abs/2202.13934v1 )

ライセンス: Link先を確認
Nhat Thien Pham and Faicel Chamroukhi(参考訳) 予測器が単変量関数である多クラス分類に対して,Mixs-of-experts(ME) アプローチを開発する。 ゲーティングネットワークとエキスパートネットワークの両方が機能入力を持つ多項ロジスティック活性化関数に基づいて構築されるmeモデルで構成されている。 係数関数が対象導関数に対して解釈可能なスパーシティ制約を享受する正則化最大度推定を行う。 正規化mleを計算し,シミュレーションおよび実データに対する提案手法を評価するem-lasso様アルゴリズムを開発した。

We develop a mixtures-of-experts (ME) approach to the multiclass classification where the predictors are univariate functions. It consists of a ME model in which both the gating network and the experts network are constructed upon multinomial logistic activation functions with functional inputs. We perform a regularized maximum likelihood estimation in which the coefficient functions enjoy interpretable sparsity constraints on targeted derivatives. We develop an EM-Lasso like algorithm to compute the regularized MLE and evaluate the proposed approach on simulated and real data.
翻訳日:2022-03-01 13:31:44 公開日:2022-02-28
# (参考訳) CLEVRnessの測定:ビジュアル推論モデルのブラックボックステスト

Measuring CLEVRness: Blackbox testing of Visual Reasoning Models ( http://arxiv.org/abs/2202.12162v2 )

ライセンス: CC BY 4.0
Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski(参考訳) インテリジェンスシステムの推論能力をどのように測定するか。 視覚的な質問応答は、シーンに関する質問を通じてモデルを問うことによって、モデルの能力をテストするための便利なフレームワークを提供する。 しかし、様々な視覚的なQAデータセットやアーキテクチャのスコアが超人的なパフォーマンスをもたらすこともあるにもかかわらず、これらのアーキテクチャが実際に理由付けできるかどうかという問題は議論の余地がある。 そこで本研究では,視覚質問応答フレームワークを拡張し,2人のプレイヤーによるゲーム形式で次の行動テストを提案する。 CLEVRのブラックボックスニューラルモデルを考える。 これらのモデルは、診断データセットのベンチマーク推論でトレーニングされる。 次に、CLEVRモデルを騙すためにシーンを再設定する敵プレイヤーを訓練する。 我々は、clevrモデルが人間レベルで動作可能でなければ、エージェントによって簡単に騙される可能性があることを示します。 我々の結果は、データ駆動アプローチがこれらのデータセットにしばしば存在する多くのバイアスを活用せずに推論できるかどうかを疑った。 最後に,そのようなモデルの学習と推論を行うための効率を測定する制御実験を提案する。

How can we measure the reasoning capabilities of intelligence systems? Visual question answering provides a convenient framework for testing the model's abilities by interrogating the model through questions about the scene. However, despite scores of various visual QA datasets and architectures, which sometimes yield even a super-human performance, the question of whether those architectures can actually reason remains open to debate. To answer this, we extend the visual question answering framework and propose the following behavioral test in the form of a two-player game. We consider black-box neural models of CLEVR. These models are trained on a diagnostic dataset benchmarking reasoning. Next, we train an adversarial player that re-configures the scene to fool the CLEVR model. We show that CLEVR models, which otherwise could perform at a human level, can easily be fooled by our agent. Our results put in doubt whether data-driven approaches can do reasoning without exploiting the numerous biases that are often present in those datasets. Finally, we also propose a controlled experiment measuring the efficiency of such models to learn and perform reasoning.
翻訳日:2022-03-01 11:56:00 公開日:2022-02-28
# factorizer: 医用画像分割のためのコンテキストモデリングへのスケーラブルな解釈可能なアプローチ

Factorizer: A Scalable Interpretable Approach to Context Modeling for Medical Image Segmentation ( http://arxiv.org/abs/2202.12295v2 )

ライセンス: Link先を確認
Pooya Ashtari, Diana Sima, Lieven De Lathauwer, Dominique Sappey-Marinierd, Frederik Maes, and Sabine Van Huffel(参考訳) U字型アーキテクチャを用いた畳み込みニューラルネットワーク(CNN)は,様々な臨床目的に欠かせない医療画像セグメンテーションを支配している。 しかし、畳み込みの固有の局所性により、cnnは脳病変のようないくつかの構造をよりよく認識するために必要となるグローバルコンテキストを完全に活用できない。 トランスフォーマーは最近、セマンティックセグメンテーションを含む視覚タスクにおける有望なパフォーマンスを証明した。 それでも、注意の二次的な複雑さにより、既存のTransformerベースのモデルは、画像解像度を何らかの方法で削減した後にのみ、自己注意層を使用する。 そこで本研究では,エンド・ツー・エンドのセグメンテーションモデルを構築するために,低ランク行列分解のパワーを活用したファクタライザと呼ばれるモデル群を導入する。 具体的には,非負行列分解(nmf)をu字型アーキテクチャに組み込んだ微分可能な層として定式化する,線形にスケーラブルなコンテキストモデリング手法を提案する。 シフトウインドウ技術はNMFと組み合わせてローカル情報を効果的に集約する。 因子化剤は、正確性、拡張性、解釈性の観点からcnnやトランスフォーマーと有利に競合し、脳腫瘍セグメンテーションのためのbratsデータセットで最新結果を達成し、それぞれ79.33%、83.14%、および90.16%のdiceスコアで腫瘍、腫瘍コア、および全腫瘍を増強する。 非常に有意義なNMFコンポーネントは、CNNやTransformerよりもFactizerにさらなる解釈可能性の優位性を与える。 さらに, アブレーション研究により, 追加のステップを要せず, 精度を犠牲にすることなく, 訓練された因子化器の推論を大幅に高速化できる因子化器の特徴が明らかになった。

Convolutional Neural Networks (CNNs) with U-shaped architectures have dominated medical image segmentation, which is crucial for various clinical purposes. However, the inherent locality of convolution makes CNNs fail to fully exploit global context, essential for better recognition of some structures, e.g., brain lesions. Transformers have recently proved promising performance on vision tasks, including semantic segmentation, mainly due to their capability of modeling long-range dependencies. Nevertheless, the quadratic complexity of attention makes existing Transformer-based models use self-attention layers only after somehow reducing the image resolution, which limits the ability to capture global contexts present at higher resolutions. Therefore, this work introduces a family of models, dubbed Factorizer, which leverages the power of low-rank matrix factorization for constructing an end-to-end segmentation model. Specifically, we propose a linearly scalable approach to context modeling, formulating Nonnegative Matrix Factorization (NMF) as a differentiable layer integrated into a U-shaped architecture. The shifted window technique is also utilized in combination with NMF to effectively aggregate local information. Factorizers compete favorably with CNNs and Transformers in terms of accuracy, scalability, and interpretability, achieving state-of-the-art results on the BraTS dataset for brain tumor segmentation, with Dice scores of 79.33%, 83.14%, and 90.16% for enhancing tumor, tumor core, and whole tumor, respectively. Highly meaningful NMF components give an additional interpretability advantage to Factorizers over CNNs and Transformers. Moreover, our ablation studies reveal a distinctive feature of Factorizers that enables a significant speed-up in inference for a trained Factorizer without any extra steps and without sacrificing much accuracy.
翻訳日:2022-03-01 11:53:53 公開日:2022-02-28
# JParaCrawl v3.0: 大規模な日英パラレルコーパス

JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus ( http://arxiv.org/abs/2202.12607v2 )

ライセンス: Link先を確認
Makoto Morishita, Katsuki Chousa, Jun Suzuki, Masaaki Nagata(参考訳) 現在の機械翻訳モデルは、主に並列コーパスで訓練されており、その翻訳精度はコーパスの品質と量に大きく依存している。 いくつかの言語ペアには何十億もの並列文があるが、公に利用可能な並列コーパスがないため、ほとんどの言語ペアを効果的に扱うのは困難である。 本稿では,英語-ドイツ語のような資源豊富な言語と比較して,限られた資源しか利用できない言語対である英語-日本語の並列コーパスを作成する。 JParaCrawl v3.0という新しいウェブベースの英語-日本語並列コーパスを導入した。 新しいコーパスには2100万以上のユニークな並列文ペアが含まれており、これは以前のjparacrawl v2.0コーパスの2倍以上である。 実験により,新しいコーパスが様々な領域の機械翻訳モデルの精度をいかに向上させるかを実証的に示す。 jparacrawl v3.0コーパスは最終的に研究目的でオンラインで公開されている。

Most current machine translation models are mainly trained with parallel corpora, and their translation accuracy largely depends on the quality and quantity of the corpora. Although there are billions of parallel sentences for a few language pairs, effectively dealing with most language pairs is difficult due to a lack of publicly available parallel corpora. This paper creates a large parallel corpus for English-Japanese, a language pair for which only limited resources are available, compared to such resource-rich languages as English-German. It introduces a new web-based English-Japanese parallel corpus named JParaCrawl v3.0. Our new corpus contains more than 21 million unique parallel sentence pairs, which is more than twice as many as the previous JParaCrawl v2.0 corpus. Through experiments, we empirically show how our new corpus boosts the accuracy of machine translation models on various domains. The JParaCrawl v3.0 corpus will eventually be publicly available online for research purposes.
翻訳日:2022-03-01 11:53:06 公開日:2022-02-28
# ニューラルフュージョン:人間と物体の相互作用によるニューラルボリュームレンダリング

NeuralFusion: Neural Volumetric Rendering under Human-object Interactions ( http://arxiv.org/abs/2202.12825v2 )

ライセンス: Link先を確認
Yuheng Jiang, Suyi Jiang, Guoxing Sun, Zhuo Su, Kaiwen Guo, Minye Wu, Jingyi Yu, Lan Xu(参考訳) 人-物体相互作用の4次元モデリングは多くの応用において重要である。 しかし、複雑な相互作用シナリオ、特にスパース入力の効率的なボリュームキャプチャとレンダリングは依然として困難である。 本稿では,sparse consumer rgbdセンサーを用いた量的ヒューマンオブジェクトキャプチャとレンダリングのためのニューラル・アプローチであるneuralfusionを提案する。 従来の非剛体融合と最近のニューラル暗黙のモデリングとブレンディングの進歩を融合させ、捕獲された人間と物体は階層的に切り離されている。 幾何学的モデリングでは,非厳密な鍵体積融合を用いた暗黙的推論手法と,テンプレートエイドの頑健なオブジェクト追跡パイプラインを提案する。 複雑な相互作用と閉塞下での詳細なかつ完全な幾何生成が可能となる。 さらに,空間領域と時間領域の両方においてボリュームレンダリングとイメージベースレンダリングを組み合わせて,フォトリアリスティックな結果を得る階層型ヒューマンオブジェクトテクスチャレンダリングスキームを提案する。 複雑な人・物間相互作用下でのフォトリアリスティックなフリービュー結果の合成におけるアプローチの有効性と有効性を示す。

4D modeling of human-object interactions is critical for numerous applications. However, efficient volumetric capture and rendering of complex interaction scenarios, especially from sparse inputs, remain challenging. In this paper, we propose NeuralFusion, a neural approach for volumetric human-object capture and rendering using sparse consumer RGBD sensors. It marries traditional non-rigid fusion with recent neural implicit modeling and blending advances, where the captured humans and objects are layerwise disentangled. For geometry modeling, we propose a neural implicit inference scheme with non-rigid key-volume fusion, as well as a template-aid robust object tracking pipeline. Our scheme enables detailed and complete geometry generation under complex interactions and occlusions. Moreover, we introduce a layer-wise human-object texture rendering scheme, which combines volumetric and image-based rendering in both spatial and temporal domains to obtain photo-realistic results. Extensive experiments demonstrate the effectiveness and efficiency of our approach in synthesizing photo-realistic free-view results under complex human-object interactions.
翻訳日:2022-03-01 11:52:52 公開日:2022-02-28
# 個別処理効果推定のためのアンサンブル法

Ensemble Method for Estimating Individualized Treatment Effects ( http://arxiv.org/abs/2202.12445v2 )

ライセンス: Link先を確認
Kevin Wu Han and Han Wu(参考訳) 多くの医学・ビジネス応用において、研究者はランダム化実験のデータを用いて個別化された治療効果を推定することに興味を持っている。 例えば医療分野では、医師は臨床試験や技術企業から治療効果を学び、研究者はa/bテスト実験からそれを学ぶ。 この課題に対して、数十の機械学習モデルが提案されているが、地道処理効果が観測不可能であるため、どのモデルが問題に最適かを決定することは困難である。 競合するモデルの1つを選択する方法を提案する最近の論文とは対照的に,多種多様なモデルライブラリから推定値を集約するアルゴリズムを提案する。 我々は、43のベンチマークデータセットのモデル選択と比較し、ほぼ毎回、ensemblingが勝つことを発見した。 理論的には、我々のアンサンブルモデルが、たとえ候補モデルの数がサンプルサイズで増大しても、検討中の最良のモデルと同じくらい(漸近的に)正確であることを証明している。

In many medical and business applications, researchers are interested in estimating individualized treatment effects using data from a randomized experiment. For example in medical applications, doctors learn the treatment effects from clinical trials and in technology companies, researchers learn them from A/B testing experiments. Although dozens of machine learning models have been proposed for this task, it is challenging to determine which model will be best for the problem at hand because ground-truth treatment effects are unobservable. In contrast to several recent papers proposing methods to select one of these competing models, we propose an algorithm for aggregating the estimates from a diverse library of models. We compare ensembling to model selection on 43 benchmark datasets, and find that ensembling wins almost every time. Theoretically, we prove that our ensemble model is (asymptotically) at least as accurate as the best model under consideration, even if the number of candidate models is allowed to grow with the sample size.
翻訳日:2022-03-01 11:52:33 公開日:2022-02-28