このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220603となっている論文です。

PDF登録状況(公開日: 20220603)

TitleAuthorsAbstract論文公表日・翻訳日
# 時変共変量を用いた生存関数推定のためのアンサンブル法

Ensemble methods for survival function estimation with time-varying covariates ( http://arxiv.org/abs/2006.00567v7 )

ライセンス: Link先を確認
Weichi Yao and Halina Frydman and Denis Larocque and Jeffrey S. Simonoff(参考訳) 時変共変量による生存データは、実際には一般的である。 関連する場合は、生存機能の見積もりを改善することができる。 しかし、伝統的な生存林(条件推論林、相対リスク林、ランダムサバイバル林)は、時間不変の共変種のみを許容している。 条件推論と相対リスク森林を一般化し、時間変化の共変を許容する。 また,時間変動共変量の存在下での生存関数推定のための一般的な枠組みを提案する。 本稿では,カプラン・マイアーの推定値がベンチマークとして機能する包括的シミュレーション研究を通じて,Coxモデルと変換林の性能を比較し,実際の生存関数と推定された生存関数のL2差を用いた性能の比較を行った。 概して、2つの提案された森林の性能はカプラン・マイアー推定よりも大幅に向上する。 他のすべての要因を考慮に入れると、比例ハザード(ph)設定下では、最善の方法は、常に提案された2つの森林のうちの1つであり、非ph設定では、適応した変換森林である。 K-foldクロスバリデーションは、実際の方法を選択する効果的なツールとして使用される。

Survival data with time-varying covariates are common in practice. If relevant, they can improve on the estimation of survival function. However, the traditional survival forests - conditional inference forest, relative risk forest and random survival forest - have accommodated only time-invariant covariates. We generalize the conditional inference and relative risk forests to allow time-varying covariates. We also propose a general framework for estimation of a survival function in the presence of time-varying covariates. We compare their performance with that of the Cox model and transformation forest, adapted here to accommodate time-varying covariates, through a comprehensive simulation study in which the Kaplan-Meier estimate serves as a benchmark, and performance is compared using the integrated L2 difference between the true and estimated survival functions. In general, the performance of the two proposed forests substantially improves over the Kaplan-Meier estimate. Taking into account all other factors, under the proportional hazard (PH) setting, the best method is always one of the two proposed forests, while under the non-PH setting, it is the adapted transformation forest. K-fold cross-validation is used as an effective tool to choose between the methods in practice.
翻訳日:2022-11-26 13:07:03 公開日:2022-06-03
# 再生カーネルを用いたロバスト永続図

Robust Persistence Diagrams using Reproducing Kernels ( http://arxiv.org/abs/2006.10012v2 )

ライセンス: Link先を確認
Siddharth Vishwanath and Kenji Fukumizu and Satoshi Kuriki and Bharath Sriperumbudur(参考訳) 永続ホモロジーは、データから幾何的および位相的特徴を抽出する重要なツールとなり、その多スケール特徴は永続化図にまとめられている。 しかし、統計的観点から見ると、永続図形は入力空間の摂動に非常に敏感である。 本研究では,再生カーネルを用いて構築したロバスト密度推定器の超レベルフィルタから頑健な永続化図を構築するためのフレームワークを開発した。 持続性ダイアグラムの空間における影響関数のアナログを用いて、提案したフレームワークは、外れ値に敏感でないように確立する。 頑健な永続図は、カーネルの滑らかさによって制御される収束率とともに、ボトルネック距離における一貫した推定子であることが示されている。 これにより、永続化ダイアグラムの空間に均一な信頼バンドを構築することができる。 最後に,ベンチマークデータセットに対する提案手法の優位性を示す。

Persistent homology has become an important tool for extracting geometric and topological features from data, whose multi-scale features are summarized in a persistence diagram. From a statistical perspective, however, persistence diagrams are very sensitive to perturbations in the input space. In this work, we develop a framework for constructing robust persistence diagrams from superlevel filtrations of robust density estimators constructed using reproducing kernels. Using an analogue of the influence function on the space of persistence diagrams, we establish the proposed framework to be less sensitive to outliers. The robust persistence diagrams are shown to be consistent estimators in bottleneck distance, with the convergence rate controlled by the smoothness of the kernel. This, in turn, allows us to construct uniform confidence bands in the space of persistence diagrams. Finally, we demonstrate the superiority of the proposed approach on benchmark datasets.
翻訳日:2022-11-19 20:44:55 公開日:2022-06-03
# 線形力学系における高速安定化による強化学習

Reinforcement Learning with Fast Stabilization in Linear Dynamical Systems ( http://arxiv.org/abs/2007.12291v2 )

ライセンス: Link先を確認
Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar(参考訳) 本研究では,未知安定化線形力学系におけるモデルベース強化学習(rl)について検討する。 力学系を学ぶとき、システムの爆破を避けるために未知の力学を安定させる必要がある。 本研究では,環境を効果的に探索することで,基礎システムの高速安定化を証明できるアルゴリズムを提案する。 提案アルゴリズムはエージェント環境相互作用の時間ステップで$T$の後に$\tilde{\mathcal{O}}(\sqrt{T})$の後悔が得られることを示す。 また,提案アルゴリズムの後悔は問題次元に多項式依存性しか持たず,従来の手法よりも指数関数的に改善できることを示した。 改良された探査法は単純かつ効率的であり,RLの洗練された探査方針と等方的探査戦略を組み合わせ,高速な安定化と後悔の改善を図っている。 提案アルゴリズムは,いくつかの適応制御タスクにおいて,他の一般的な手法よりも優れていることを示す。

In this work, we study model-based reinforcement learning (RL) in unknown stabilizable linear dynamical systems. When learning a dynamical system, one needs to stabilize the unknown dynamics in order to avoid system blow-ups. We propose an algorithm that certifies fast stabilization of the underlying system by effectively exploring the environment with an improved exploration strategy. We show that the proposed algorithm attains $\tilde{\mathcal{O}}(\sqrt{T})$ regret after $T$ time steps of agent-environment interaction. We also show that the regret of the proposed algorithm has only a polynomial dependence in the problem dimensions, which gives an exponential improvement over the prior methods. Our improved exploration method is simple, yet efficient, and it combines a sophisticated exploration policy in RL with an isotropic exploration strategy to achieve fast stabilization and improved regret. We empirically demonstrate that the proposed algorithm outperforms other popular methods in several adaptive control tasks.
翻訳日:2022-11-07 12:22:23 公開日:2022-06-03
# ラベル付きデータを用いた関連画像と非関連画像の低ショット分類精度の向上

Using Unlabeled Data for Increasing Low-Shot Classification Accuracy of Relevant and Open-Set Irrelevant Images ( http://arxiv.org/abs/2010.00721v2 )

ライセンス: Link先を確認
Spiridon Kasapis, Geng Zhang, Jonathon Smereka and Nickolas Vlahopoulos(参考訳) 自律地上車両による探索、探査、偵察のタスクでは、対象対象(関連クラス)を特異的に識別すると同時に、候補画像が関連クラス(関連しない画像)の誰に属さない場合にも認識する画像分類能力が必要である。 本稿では,学習期間中に,関連クラス毎にラベル付き画像のモデスト数(40未満)と,トレーニングプロセスの各エポックでランダムに選択される無関係画像を用いて,オープンセットのローショット分類器を提案する。 新たな分類器は、関連するクラスから画像を識別し、候補画像が無関係であるかを判断し、トレーニングに含まれていない無関係画像のカテゴリをさらに認識することができる。 提案するローショット分類器は、畳み込みニューラルネットワークを構築する際に、事前訓練された特徴抽出器の上位層としてアタッチできる。

In search, exploration, and reconnaissance tasks performed with autonomous ground vehicles, an image classification capability is needed for specifically identifying targeted objects (relevant classes) and at the same time recognize when a candidate image does not belong to anyone of the relevant classes (irrelevant images). In this paper, we present an open-set low-shot classifier that uses, during its training, a modest number (less than 40) of labeled images for each relevant class, and unlabeled irrelevant images that are randomly selected at each epoch of the training process. The new classifier is capable of identifying images from the relevant classes, determining when a candidate image is irrelevant, and it can further recognize categories of irrelevant images that were not included in the training (unseen). The proposed low-shot classifier can be attached as a top layer to any pre-trained feature extractor when constructing a Convolutional Neural Network.
翻訳日:2022-10-12 07:36:05 公開日:2022-06-03
# テキスト分類RNNにおける統合の幾何学

The geometry of integration in text classification RNNs ( http://arxiv.org/abs/2010.15114v2 )

ライセンス: Link先を確認
Kyle Aitken, Vinay V. Ramasesh, Ankush Garg, Yuan Cao, David Sussillo, Niru Maheswaranathan(参考訳) さまざまなタスクにリカレントニューラルネットワーク(RNN)が広く適用されているにもかかわらず、これらのタスクをRNNがどのように解決するかの統一的な理解はいまだ解明されていない。 特に、トレーニングされたRNNにどのような動的パターンが生じるのか、これらのパターンがトレーニングデータセットやタスクに依存するのかは不明だ。 この研究は、これらの疑問に、特定の自然言語処理タスク(テキスト分類)のコンテキストで対処する。 動的システム解析のツールを用いて,自然および合成のテキスト分類タスクのバッテリでトレーニングされたリカレントネットワークについて検討した。 これらの訓練されたRNNの力学は、解釈可能かつ低次元である。 具体的には、アーキテクチャやデータセットを通じて、RNNは各クラスがテキストを処理する際に証拠を蓄積し、下層のメカニズムとして低次元のアトラクタ多様体を使用する。 さらに、アトラクタ多様体の次元と幾何学は、トレーニングデータセットの構造によって決定されるが、特に、トレーニングデータセットで計算された単純な単語数統計を用いて、これらの特性を予測する方法について述べる。 我々の観測は複数のアーキテクチャとデータセットにまたがっており、RNNがテキスト分類を行うのに使用する共通メカニズムを反映している。 決定に対する証拠の統合が一般的な計算プリミティブである程度に、この研究は、動的システム技術を用いてRNNの内部動作を研究するための基礎となる。

Despite the widespread application of recurrent neural networks (RNNs) across a variety of tasks, a unified understanding of how RNNs solve these tasks remains elusive. In particular, it is unclear what dynamical patterns arise in trained RNNs, and how those patterns depend on the training dataset or task. This work addresses these questions in the context of a specific natural language processing task: text classification. Using tools from dynamical systems analysis, we study recurrent networks trained on a battery of both natural and synthetic text classification tasks. We find the dynamics of these trained RNNs to be both interpretable and low-dimensional. Specifically, across architectures and datasets, RNNs accumulate evidence for each class as they process the text, using a low-dimensional attractor manifold as the underlying mechanism. Moreover, the dimensionality and geometry of the attractor manifold are determined by the structure of the training dataset; in particular, we describe how simple word-count statistics computed on the training dataset can be used to predict these properties. Our observations span multiple architectures and datasets, reflecting a common mechanism RNNs employ to perform text classification. To the degree that integration of evidence towards a decision is a common computational primitive, this work lays the foundation for using dynamical systems techniques to study the inner workings of RNNs.
翻訳日:2022-10-02 04:27:57 公開日:2022-06-03
# 対向摂動に対するトップk予測のほぼタイトなl0-norm認定ロバスト性

Almost Tight L0-norm Certified Robustness of Top-k Predictions against Adversarial Perturbations ( http://arxiv.org/abs/2011.07633v2 )

ライセンス: Link先を確認
Jinyuan Jia, Binghui Wang, Xiaoyu Cao, Hongbin Liu, Neil Zhenqiang Gong(参考訳) top-k予測は、マシンラーニング・アズ・ア・サービス、レコメンダシステム、web検索など、多くの現実世界のアプリケーションで使用されている。 $\ell_0$-norm 逆摂動は、入力のいくつかの特徴を任意に修正する攻撃を特徴付け、分類器が摂動入力の誤った予測を行う。 $\ell_0$-norm 逆摂動は容易に解釈でき、物理的な世界で実装できる。 したがって、$\ell_0$-norm逆摂動に対する上位k$予測の堅牢性を証明することが重要である。 しかし、既存の研究は、上位1$予測の$\ell_0$-normロバスト性または上位1$予測の$\ell_2$-normロバスト性を証明することに焦点を当てている。 この作業では、ギャップを埋めることを目指しています。 提案手法はランダム化平滑化に基づいており,入力をランダム化することで任意の分類器から確固とした分類器を構築する。 私たちの理論上の大きな貢献は、トップ$k$予測に対するほぼ厳密な$\ell_0$-norm認定ロバスト性保証です。 CIFAR10 と ImageNet の手法を実証的に評価した。 例えば、攻撃者がテスト画像の5ピクセルを任意に摂動できる場合に、imagenet上で認定top-3精度69.2\%を達成する分類器を構築することができる。

Top-k predictions are used in many real-world applications such as machine learning as a service, recommender systems, and web searches. $\ell_0$-norm adversarial perturbation characterizes an attack that arbitrarily modifies some features of an input such that a classifier makes an incorrect prediction for the perturbed input. $\ell_0$-norm adversarial perturbation is easy to interpret and can be implemented in the physical world. Therefore, certifying robustness of top-$k$ predictions against $\ell_0$-norm adversarial perturbation is important. However, existing studies either focused on certifying $\ell_0$-norm robustness of top-$1$ predictions or $\ell_2$-norm robustness of top-$k$ predictions. In this work, we aim to bridge the gap. Our approach is based on randomized smoothing, which builds a provably robust classifier from an arbitrary classifier via randomizing an input. Our major theoretical contribution is an almost tight $\ell_0$-norm certified robustness guarantee for top-$k$ predictions. We empirically evaluate our method on CIFAR10 and ImageNet. For instance, our method can build a classifier that achieves a certified top-3 accuracy of 69.2\% on ImageNet when an attacker can arbitrarily perturb 5 pixels of a testing image.
翻訳日:2022-09-25 07:50:33 公開日:2022-06-03
# RADAR-X: 対照的な説明と修正計画の提案を取り入れたインタラクティブな混合構想計画インターフェース

RADAR-X: An Interactive Mixed Initiative Planning Interface Pairing Contrastive Explanations and Revised Plan Suggestions ( http://arxiv.org/abs/2011.09644v2 )

ライセンス: Link先を確認
Karthik Valmeekam, Sarath Sreedharan, Sailik Sengupta, Subbarao Kambhampati(参考訳) 意思決定支援システムは、インフォームド意思決定を可能にする。 近年では、自動的な計画手法が活用され、そのようなシステムがより人道支援に役立てられている。 このような意思決定支援システムの中心的な考え方は、自動計画技術で人道支援の能力を増強し、意思決定の質を高めることである。 プランニングサポートの提供に加えて、効果的な意思決定支援システムは、特定のユーザークエリに基づいた直感的な説明をエンドユーザに提供できなければならない。 そこで本研究では,提案する意思決定の代替案(フォイルと呼ぶ)を提示し,その代替案が選択された理由(もしくはフォイル)をユーザが理解するための対照的な説明を行うことにより,対話的な説明対話にユーザを参加させる能力を示す意思決定支援システムであるradar-xを提案する。 さらに,この対話を用いてユーザの潜在嗜好を解明し,3つの異なるインタラクション戦略による修正計画の提案を行う。

Decision support systems seek to enable informed decision-making. In the recent years, automated planning techniques have been leveraged to empower such systems to better aid the human-in-the-loop. The central idea for such decision support systems is to augment the capabilities of the human-in-the-loop with automated planning techniques and enhance the quality of decision-making. In addition to providing planning support, effective decision support systems must be able to provide intuitive explanations based on specific user queries for proposed decisions to its end users. Using this as motivation, we present our decision support system RADAR-X that showcases the ability to engage the user in an interactive explanatory dialogue by first enabling them to specify an alternative to a proposed decision (which we refer to as foils), and then providing contrastive explanations to these user-specified foils which helps the user understand why a specific plan was chosen over the alternative (or foil). Furthermore, the system uses this dialogue to elicit the user's latent preferences and provides revised plan suggestions through three different interaction strategies.
翻訳日:2022-09-23 21:00:02 公開日:2022-06-03
# (参考訳) ニューラルネットワークのための不揮発性要素を用いた計算インメモリの共設計

A Co-design view of Compute in-Memory with Non-Volatile Elements for Neural Networks ( http://arxiv.org/abs/2206.08735v1 )

ライセンス: CC BY 4.0
Wilfried Haensch, Anand Raghunathan, Kaushik Roy, Bhaswar Chakrabarti, Charudatta M. Phatak, Cheng Wang and Supratik Guha(参考訳) ディープラーニングニューラルネットワークは広く普及しているが、従来のコンピュータアーキテクチャは、今日の大規模ワークロードで効率的に実行できる限界に達している。 これはvon neumannのボトルネックによって制限されている: メモリと計算エンジン間のデータ移動に発生するエネルギーとレイテンシの高コスト。 今日、特殊なCMOS設計がこのボトルネックに対処しています。 次世代のコンピューティングハードウェアは、このボトルネックを排除または劇的に軽減する必要がある。 我々は、この開発において、コンピュート・イン・メモリがどのように重要な役割を果たすかについて議論する。 ここでは、不揮発性メモリベースのクロスバーアーキテクチャが、すべてのニューラルネットワークワークロードで繰り返し使用される行列ベクトル乗算演算を並列化するためにアナログプロセスを使用するエンジンの心臓を形成する。 クロスバーアーキテクチャ(cross-bar architecture)は、ニューロモルフィックアプローチと呼ばれることもあるが、将来のコンピューティングマシンにおいて重要なハードウェア要素となる。 このレビューの最初の部分では、クロスバーアーキテクチャをアンカーする新しい材料とメモリデバイスに課される設計上の制約と要求について、共同設計の視点を取っています。 第2部では,インメモリ計算に適した新しい不揮発性メモリ材料とデバイスについて何を知っているのかをレビューし,その展望と課題について論じる。

Deep Learning neural networks are pervasive, but traditional computer architectures are reaching the limits of being able to efficiently execute them for the large workloads of today. They are limited by the von Neumann bottleneck: the high cost in energy and latency incurred in moving data between memory and the compute engine. Today, special CMOS designs address this bottleneck. The next generation of computing hardware will need to eliminate or dramatically mitigate this bottleneck. We discuss how compute-in-memory can play an important part in this development. Here, a non-volatile memory based cross-bar architecture forms the heart of an engine that uses an analog process to parallelize the matrix vector multiplication operation, repeatedly used in all neural network workloads. The cross-bar architecture, at times referred to as a neuromorphic approach, can be a key hardware element in future computing machines. In the first part of this review we take a co-design view of the design constraints and the demands it places on the new materials and memory devices that anchor the cross-bar architecture. In the second part, we review what is knows about the different new non-volatile memory materials and devices suited for compute in-memory, and discuss the outlook and challenges.
翻訳日:2022-06-27 02:52:48 公開日:2022-06-03
# 制約処理とサロゲート支援を考慮した電動機の最適設計

Optimal Design of Electric Machine with Efficient Handling of Constraints and Surrogate Assistance ( http://arxiv.org/abs/2206.01695v1 )

ライセンス: Link先を確認
Bhuvan Khoshoo, Julian Blank, Thang Q. Pham, Kalyanmoy Deb, Shanelle N. Foster(参考訳) 電気機械設計最適化は計算コストの高い多目的最適化問題である。 目的は時間を要する有限要素分析を必要とするが、最適化の制約はしばしば幾何学的制約のような数学的表現に基づいている。 本稿では、広く使われている進化的多目的最適化アルゴリズムNSGA-IIに組み込んだ最適化手法を提案することにより、混合計算コストのこの最適化問題を考察する。 提案手法は,幾何制約の安価さを活かし,カスタム修理オペレータを用いて実現可能な設計を生成する。 提案手法は,機械性能予測のための代理モデルを組み込むことで,時間を要する目的関数にも対処する。 本論文は,従来の最適化手法よりも優れた手法の確立に成功している。 本研究は,複雑な工学的設計を複数の目的や制約に対して最適化し,不均一な評価時間と最適解を解析し,一つの望ましい解を選定し,設計原理として最適解に共通する重要な設計特徴を明らかにすることを可能にする。

Electric machine design optimization is a computationally expensive multi-objective optimization problem. While the objectives require time-consuming finite element analysis, optimization constraints can often be based on mathematical expressions, such as geometric constraints. This article investigates this optimization problem of mixed computationally expensive nature by proposing an optimization method incorporated into a popularly-used evolutionary multi-objective optimization algorithm - NSGA-II. The proposed method exploits the inexpensiveness of geometric constraints to generate feasible designs by using a custom repair operator. The proposed method also addresses the time-consuming objective functions by incorporating surrogate models for predicting machine performance. The article successfully establishes the superiority of the proposed method over the conventional optimization approach. This study clearly demonstrates how a complex engineering design can be optimized for multiple objectives and constraints requiring heterogeneous evaluation times and optimal solutions can be analyzed to select a single preferred solution and importantly harnessed to reveal vital design features common to optimal solutions as design principles.
翻訳日:2022-06-26 14:47:04 公開日:2022-06-03
# バイオインスパイアされた中心パターン発生器におけるラピッドリズミカル・エントレインメント

Rapid rhythmic entrainment in bio-inspired central pattern generators ( http://arxiv.org/abs/2206.01638v1 )

ライセンス: Link先を確認
Alex Szorkovszky, Frank Veenstra and Kyrre Glette(参考訳) 周期的刺激への運動の訓練は、人間の特徴的な知的行動であり、適応ロボティクスの重要な目標である。 本研究では,松岡ニューロンの周期的な入力信号の振動周期を自然に調節する4重結合型中央パターン生成器(CPG)について述べる。 これは単純な強制によって行われ、フィルタリングネットワークとトニック入力依存振動周期を持つニューラルモデルによって実現される。 まず, nsga3アルゴリズムを用いてcpgパラメータを進化させ, 周期可変性, 四肢均質性, 歩行安定性などの適応関数を分離した。 次に、フィットネス関数の重み付け平均を最大化する4つのCPGをパレートフロントから選択し、それぞれをフィルタネットワークの最適化の基盤として使用する。 フィルタネットワーク毎に異なる数のニューロンがテストされる。 特に周期可変性はロバストなエントレーメントが容易であり,バウンディング歩行は歩行歩行よりも容易であり,フィルタネットワークのニューロンは入力信号の前処理に有益であることがわかった。 このシステムは,歩行ロボットの低レベル適応性と頑健な動作を可能にするために,感覚フィードバックと併用することができる。

Entrainment of movement to a periodic stimulus is a characteristic intelligent behaviour in humans and an important goal for adaptive robotics. We demonstrate a quadruped central pattern generator (CPG), consisting of modified Matsuoka neurons, that spontaneously adjusts its period of oscillation to that of a periodic input signal. This is done by simple forcing, with the aid of a filtering network as well as a neural model with tonic input-dependent oscillation period. We first use the NSGA3 algorithm to evolve the CPG parameters, using separate fitness functions for period tunability, limb homogeneity and gait stability. Four CPGs, maximizing different weighted averages of the fitness functions, are then selected from the Pareto front and each is used as a basis for optimizing a filter network. Different numbers of neurons are tested for each filter network. We find that period tunability in particular facilitates robust entrainment, that bounding gaits entrain more easily than walking gaits, and that more neurons in the filter network are beneficial for pre-processing input signals. The system that we present can be used in conjunction with sensory feedback to allow low-level adaptive and robust behaviour in walking robots.
翻訳日:2022-06-26 14:46:10 公開日:2022-06-03
# 大規模言語モデルを用いたプログラミング演習の自動生成とコード説明

Automatic Generation of Programming Exercises and Code Explanations with Large Language Models ( http://arxiv.org/abs/2206.11861v1 )

ライセンス: Link先を確認
Sami Sarsa, Paul Denny, Arto Hellas, Juho Leinonen(参考訳) OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。 Codexの最近の調査では、典型的なプログラミング演習問題文を入力として考慮すれば、モデルは平均的な学生よりもはるかに高いレベルのコードソリューションを生成することができる。 本稿では,プログラミング演習の2つの異なる段階において,Codexの自然言語生成能力について検討し,プログラム演習(サンプルソリューションやテストケースを含む)と記述コードの説明を自動的に生成し,質的かつ定量的に評価する。 この自動生成コンテンツの大部分は、ノベルとセンシブルの両方で、多くの場合、そのまま使う準備ができています。 さらに,生成したプログラミング演習の内容に影響を及ぼすことは,入力に小さな修正を加えることで非常に容易であることが分かりました。 分析の結果,インストラクターのツールとして大量生成型機械学習モデルに有意な価値があることが示唆された。 我々はさらに,openai codex とその類似ツールが導入プログラミング教育に与える影響を議論し,教師と学生の両方にとっての教育体験の質を向上させる可能性を持つ今後の研究ストリームを強調する。

OpenAI Codex is a recent large language model from the GPT-3 family for translating code into natural language and vice versa. Recent explorations of Codex have highlighted that given typical introductory programming exercise problem statements as input, the model can generate code solutions well above the level of an average student. In this article, we explore the natural language generation capabilities of Codex in two different phases of the life of a programming exercise; automatically creating programming exercises (including sample solutions and test cases) and explanations of written code, assessing these qualitatively and quantitatively. We find the majority of this automatically generated content both novel and sensible, and in many cases ready to use as is. We further find that influencing the content of the created programming exercises is remarkably easy with minor modifications to the input. Our analysis suggests that there is significant value in massive generative machine learning models as a tool for instructors, although some oversight might be needed to ensure the quality of the generated content before it is delivered to students. We further discuss the implications of OpenAI Codex and similar tools for introductory programming education and highlight future research streams that have the potential to improve the quality of the educational experience for both teachers and students alike.
翻訳日:2022-06-26 12:14:12 公開日:2022-06-03
# ディープ多層対話言語分析に向けて:アフリカ系アメリカ人英語を事例として

Towards a Deep Multi-layered Dialectal Language Analysis: A Case Study of African-American English ( http://arxiv.org/abs/2206.08978v1 )

ライセンス: Link先を確認
Jamell Dacon(参考訳) 現在、自然言語処理(NLP)モデルは、偏見のある結果の結果、潜在的に有害な社会的影響をもたらす言語の識別を促進する。 例えば、メインストリーム・アメリカン・イングリッシュ(MAE)で訓練された音声タグは、トレーニング中に見られない言語特徴の結果、アフリカ・アメリカン・イングリッシュ(AAE)に適用されると非解釈可能な結果をもたらす。 本研究では,AAE話者の行動と言語使用の理解を深め,ネイティブなAAE話者がNLPシステムと広範囲に対話できるように,方言のアクティビティの必要性を強調した。

Currently, natural language processing (NLP) models proliferate language discrimination leading to potentially harmful societal impacts as a result of biased outcomes. For example, part-of-speech taggers trained on Mainstream American English (MAE) produce non-interpretable results when applied to African American English (AAE) as a result of language features not seen during training. In this work, we incorporate a human-in-the-loop paradigm to gain a better understanding of AAE speakers' behavior and their language use, and highlight the need for dialectal language inclusivity so that native AAE speakers can extensively interact with NLP systems while reducing feelings of disenfranchisement.
翻訳日:2022-06-26 12:13:49 公開日:2022-06-03
# バッチ処理可能なエッジサーバを備えたマルチユーザ会議

Multi-user Co-inference with Batch Processing Capable Edge Server ( http://arxiv.org/abs/2206.06304v1 )

ライセンス: Link先を確認
Wenqi Shi, Sheng Zhou, Zhisheng Niu, Miao Jiang, Lu Geng(参考訳) gpu(graphics processing unit)は、複数のタスクが同時に処理されるバッチ処理を通じて、ディープニューラルネットワークの推論スループットを向上させる。 エネルギー制約のあるモバイルデバイスが推論タスクをGPUでエッジサーバにオフロードするという,新たなシナリオに注目した。 推論タスクをオフロードとスケジューリングの粒度を細かくするためにサブタスクに分割し、推論遅延制約下でのユーザエネルギー消費最小化問題を調査する。 並列バッチ処理によって引き起こされる結合オフロードとスケジューリングに対処するために,我々はまず,エッジ推論の遅延が一定であり,レイテンシの制約が同じオフライン問題を考える。 各ユーザのオフロードポリシを独立して最適化し,すべてのサブタスクをひとつのバッチで集約することが最適であることが証明され,独立分割と同一サブタスク集約(IP-SSA)アルゴリズムが着想を得た。 さらに、遅延制約が異なるタスクを最適にグループ化するために、最適グループ化(OG)アルゴリズムを提案する。 最後に、将来のタスク到着を正確に予測できない場合、深い決定論的ポリシー勾配(DDPG)エージェントがOGを呼び出すように訓練される。 実験の結果、オフライン環境ではIP-SSAが94.9 %まで削減され、オンライン環境ではDDPG-IP-SSAが最大8.92 %向上した。

Graphics processing units (GPUs) can improve deep neural network inference throughput via batch processing, where multiple tasks are concurrently processed. We focus on novel scenarios that the energy-constrained mobile devices offload inference tasks to an edge server with GPU. The inference task is partitioned into sub-tasks for a finer granularity of offloading and scheduling, and the user energy consumption minimization problem under inference latency constraints is investigated. To deal with the coupled offloading and scheduling introduced by concurrent batch processing, we first consider an offline problem with a constant edge inference latency and the same latency constraint. It is proven that optimizing the offloading policy of each user independently and aggregating all the same sub-tasks in one batch is optimal, and thus the independent partitioning and same sub-task aggregating (IP-SSA) algorithm is inspired. Further, the optimal grouping (OG) algorithm is proposed to optimally group tasks when the latency constraints are different. Finally, when future task arrivals cannot be precisely predicted, a deep deterministic policy gradient (DDPG) agent is trained to call OG. Experiments show that IP-SSA reduces up to 94.9\% user energy consumption in the offline setting, while DDPG-OG outperforms DDPG-IP-SSA by up to 8.92\% in the online setting.
翻訳日:2022-06-19 23:35:27 公開日:2022-06-03
# LSTMリカレントニューラルネットワークを用いた時系列加速度センサデータの人間の活動認識

Human Activity Recognition on Time Series Accelerometer Sensor Data using LSTM Recurrent Neural Networks ( http://arxiv.org/abs/2206.07654v1 )

ライセンス: Link先を確認
Chrisogonas O. Odhiambo, Sanjoy Saha, Corby K. Martin, Homayoun Valafar(参考訳) スマートデバイスによるセンサの利用は、ヒューマンアクティビティモニタリング、ヘルスケア、ソーシャルネットワークなど、いくつかのアプリケーションで日常生活に浸透している。 本研究では,スマートウォッチの加速度センサによる摂食行動の認識に着目した。 具体的には、ピザを食べながら10人の被験者からセンサーデータを収集した。 この情報や,喫煙や薬物服用などの類似したイベントやジョギングの異なる活動に利用できる他のデータを用いて,我々は,パフや薬物服用,ジョギング活動と比較して,個々の噛みを識別する上で90%の成功を収めたLSTM-ANNアーキテクチャを開発した。

The use of sensors available through smart devices has pervaded everyday life in several applications including human activity monitoring, healthcare, and social networks. In this study, we focus on the use of smartwatch accelerometer sensors to recognize eating activity. More specifically, we collected sensor data from 10 participants while consuming pizza. Using this information, and other comparable data available for similar events such as smoking and medication-taking, and dissimilar activities of jogging, we developed a LSTM-ANN architecture that has demonstrated 90% success in identifying individual bites compared to a puff, medication-taking or jogging activities.
翻訳日:2022-06-19 23:35:03 公開日:2022-06-03
# (参考訳) グループ学習に向けて:専門家の分散重み付け

Towards Group Learning: Distributed Weighting of Experts ( http://arxiv.org/abs/2206.02566v1 )

ライセンス: CC BY 4.0
Ben Abramowitz, Nicholas Mattei(参考訳) クラウドソーシング、マルチエージェント計画、センサネットワーク、信号処理、投票、アンサンブル学習、フェデレーション学習など多くの分野において、ノイズの多いソースの集合からの信号の集約は根本的な問題である。 核となる問題は、基礎となる真実を明らかにするために複数の情報源(例えば専門家)からの信号を収集する方法である。 完全な答えは信号の種類、信号の相関関係、所望の出力に依存するが、これら全ての応用に共通する問題は、それらの品質に基づいて微分源の分解と重み付けである。 この分化と凝集は、単一の正確な中央機構またはエージェント(例えば、審査員)によって行われるとしばしば仮定される。 このモデルを2つの方法で複雑化する。 まず,1人の裁判官と複数の裁判官の二人で設定について検討する。 第2に、裁判官のマルチエージェント相互作用を考慮し、裁判官の報告空間における様々な制約について検討する。 我々は、専門家の最適重み付けのための既知の結果に基づいて、サブ最適機構のアンサンブルが特定の条件下で最適に動作できることを証明する。 次に,より広い範囲の条件下での最適機構の性能を,アンサンブルが近似することを実証的に示す。

Aggregating signals from a collection of noisy sources is a fundamental problem in many domains including crowd-sourcing, multi-agent planning, sensor networks, signal processing, voting, ensemble learning, and federated learning. The core question is how to aggregate signals from multiple sources (e.g. experts) in order to reveal an underlying ground truth. While a full answer depends on the type of signal, correlation of signals, and desired output, a problem common to all of these applications is that of differentiating sources based on their quality and weighting them accordingly. It is often assumed that this differentiation and aggregation is done by a single, accurate central mechanism or agent (e.g. judge). We complicate this model in two ways. First, we investigate the setting with both a single judge, and one with multiple judges. Second, given this multi-agent interaction of judges, we investigate various constraints on the judges' reporting space. We build on known results for the optimal weighting of experts and prove that an ensemble of sub-optimal mechanisms can perform optimally under certain conditions. We then show empirically that the ensemble approximates the performance of the optimal mechanism under a broader range of conditions.
翻訳日:2022-06-12 20:12:56 公開日:2022-06-03
# (参考訳) 無限レコメンデーションネットワーク:データ中心のアプローチ

Infinite Recommendation Networks: A Data-Centric Approach ( http://arxiv.org/abs/2206.02626v1 )

ライセンス: CC BY 4.0
Noveen Sachdeva, Mehak Preet Dhaliwal, Carole-Jean Wu, Julian McAuley(参考訳) 我々はNeural Tangent Kernelとその等価性を利用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダである$\infty$-AEを考案する。 結果は、非常に表現力が高く、単純なレコメンデーションモデルであり、単一のハイパーパラメータとクローズドフォームのソリューションである。 また,$\infty$-ae の単純さを活かし,超大規模かつスパースなユーザ-テーマインタラクションマトリックスから最も重要な知識を抽出し,モデルトレーニングや推論,アーキテクチャ検索など,その後のデータ利用を効率的かつ正確なものにする,小型で忠実なデータ要約を合成する distill-cf を開発した。 これはデータ中心のアプローチを推奨し、学習アルゴリズムとは独立して、その後のモデリングのためにログ化されたユーザフィードバックデータの品質を改善することを目的としています。 特に差別化可能なGumbel-samplingという概念を利用して、数億のユーザとイテムのインタラクションを持つデータセットにスケーラブルでありながら、データ固有の均一性、疎性、半構造化を扱う。 提案されたアプローチはいずれもそれぞれの最先端を著しく上回り、同時に使用すると、元のデータセットサイズの0.1%に満たないフルデータセット上での$\infty$-AEのパフォーマンスの96~105%が観察されます。

We leverage the Neural Tangent Kernel and its equivalence to training infinitely-wide neural networks to devise $\infty$-AE: an autoencoder with infinitely-wide bottleneck layers. The outcome is a highly expressive yet simplistic recommendation model with a single hyper-parameter and a closed-form solution. Leveraging $\infty$-AE's simplicity, we also develop Distill-CF for synthesizing tiny, high-fidelity data summaries which distill the most important knowledge from the extremely large and sparse user-item interaction matrix for efficient and accurate subsequent data-usage like model training, inference, architecture search, etc. This takes a data-centric approach to recommendation, where we aim to improve the quality of logged user-feedback data for subsequent modeling, independent of the learning algorithm. We particularly utilize the concept of differentiable Gumbel-sampling to handle the inherent data heterogeneity, sparsity, and semi-structuredness, while being scalable to datasets with hundreds of millions of user-item interactions. Both of our proposed approaches significantly outperform their respective state-of-the-art and when used together, we observe 96-105% of $\infty$-AE's performance on the full dataset with as little as 0.1% of the original dataset size, leading us to explore the counter-intuitive question: Is more data what you need for better recommendation?
翻訳日:2022-06-12 20:01:28 公開日:2022-06-03
# (参考訳) サイバーセキュリティのためのxai - 最先端技術,課題,オープンイシュー,今後の方向性

XAI for Cybersecurity: State of the Art, Challenges, Open Issues and Future Directions ( http://arxiv.org/abs/2206.03585v1 )

ライセンス: CC BY 4.0
Gautam Srivastava, Rutvij H Jhaveri, Sweta Bhattacharya, Sharnil Pandya, Rajeswari, Praveen Kumar Reddy Maddikunta, Gokul Yenduri, Jon G. Hall, Mamoun Alazab, Thippa Reddy Gadekallu(参考訳) 過去数年間、人工知能(AI)の技術は、ほぼすべての人間の生活に実装されてきた。 しかし、aiモデルから得られた結果は説明可能性に遅れることが多い。 AIモデルは、開発者が特定の決定の背後にある理由の説明や追跡ができないブラックボックスとして現れることが多い。 説明可能なAI(XAI)は、情報を抽出し、最適な透明性で生成された結果を視覚化するのに役立つ、急速に成長する研究分野である。 本研究は,サイバーセキュリティにおけるxaiの利用を概観するものである。 サイバーセキュリティは、異なるタイプの攻撃からシステム、ネットワーク、プログラムを保護することができる。 XAIの使用は、そのような攻撃を予測する大きな可能性を秘めている。 この論文は、サイバーセキュリティと様々な攻撃形態についての概要を提供する。 次に、従来のAI技術の使用とその関連する課題について議論し、様々なアプリケーションでXAIを使用するための扉を開く。 各種研究プロジェクトや産業のXAI実装も紹介されている。 最後に、これらのアプリケーションから学んだ教訓が強調され、将来の研究範囲のガイドとして機能する。

In the past few years, artificial intelligence (AI) techniques have been implemented in almost all verticals of human life. However, the results generated from the AI models often lag explainability. AI models often appear as a blackbox wherein developers are unable to explain or trace back the reasoning behind a specific decision. Explainable AI (XAI) is a rapid growing field of research which helps to extract information and also visualize the results generated with an optimum transparency. The present study provides and extensive review of the use of XAI in cybersecurity. Cybersecurity enables protection of systems, networks and programs from different types of attacks. The use of XAI has immense potential in predicting such attacks. The paper provides a brief overview on cybersecurity and the various forms of attack. Then the use of traditional AI techniques and its associated challenges are discussed which opens its doors towards use of XAI in various applications. The XAI implementations of various research projects and industry are also presented. Finally, the lessons learnt from these applications are highlighted which act as a guide for future scope of research.
翻訳日:2022-06-12 19:28:48 公開日:2022-06-03
# (参考訳) 高速x線蛍光ラスタースキャンによる絵画の観察

Denoising Fast X-Ray Fluorescence Raster Scans of Paintings ( http://arxiv.org/abs/2206.01740v1 )

ライセンス: CC BY 4.0
Henry Chopp, Alicia McGeachy, Matthias Alfeld, Oliver Cossairt, Marc Walton, Aggelos Katsaggelos(参考訳) 文化遺産のマクロX線蛍光画像(XRF)は, 元素分布図を提供するための非侵襲的手法として人気があるが, 高信号-雑音比XRFボリュームの取得には遅い。 通常、1ピクセルあたりの10分の1のオーダーで、ラスター走査プローブは、x線照明下で物体から放出される異なるエネルギーの光子数をカウントする。 元素マップやXRFボリュームの品質を犠牲にすることなく,スキャン時間を短縮するために,ノイズを復元する前のカラー画像とポアソンノイズモデルを用いた辞書学習を提案する。

Macro x-ray fluorescence (XRF) imaging of cultural heritage objects, while a popular non-invasive technique for providing elemental distribution maps, is a slow acquisition process in acquiring high signal-to-noise ratio XRF volumes. Typically on the order of tenths of a second per pixel, a raster scanning probe counts the number of photons at different energies emitted by the object under x-ray illumination. In an effort to reduce the scan times without sacrificing elemental map and XRF volume quality, we propose using dictionary learning with a Poisson noise model as well as a color image-based prior to restore noisy, rapidly acquired XRF data.
翻訳日:2022-06-12 19:27:49 公開日:2022-06-03
# (参考訳) 列生成のための深層強化学習フレームワーク

A Deep Reinforcement Learning Framework For Column Generation ( http://arxiv.org/abs/2206.02568v1 )

ライセンス: CC BY 4.0
Cheng Chi, Amine Mohamed Aboussalah, Elias B. Khalil, Juyoung Wang, Zoha Sherkat-Masoumi(参考訳) カラム生成(CG)は、非常に多数の変数(カラム)を持つ線形プログラム(LP)を解くための反復アルゴリズムである。 CGは、分岐および有界アルゴリズム内のLP緩和を解決するためにCGに依存する大規模な整数線形プログラムを扱うための作業場である。 CSP(Cutting Stock Problem)とVRPTW(Vine Routing Problem with Time Windows)の2つの標準的な応用例がある。 例えば、VRPTWでは、各バイナリ変数は、指数関数的に多くの経路を包含または除外する決定を表し、CGは使われる列のサブセットを徐々に増加させ、最終的には最適解に収束する。 CGのための最初の強化学習(RL)手法であるRCCGを提案する。 各繰り返しの局所情報に基づいて列をミオプティックに選択する典型的な列選択ルールとは異なり、反復で選択した列がアルゴリズムのその後の反復に影響を与えるため、CGを逐次決定問題として扱う。 この観点は、関心のLPにおける可変制約構造を表現するためにグラフニューラルネットワーク(GNN)を使用するDeep Reinforcement Learningアプローチにつながります。 我々は、CSP用のBPPLIBベンチマークとVRPTW用のSolomonベンチマークを用いて、幅広い実験を行う。 RLCGはより早く収束し、CSPは22.4%、VRPTWは40.9%削減される。

Column Generation (CG) is an iterative algorithm for solving linear programs (LPs) with an extremely large number of variables (columns). CG is the workhorse for tackling large-scale integer linear programs, which rely on CG to solve LP relaxations within a branch and bound algorithm. Two canonical applications are the Cutting Stock Problem (CSP) and Vehicle Routing Problem with Time Windows (VRPTW). In VRPTW, for example, each binary variable represents the decision to include or exclude a route, of which there are exponentially many; CG incrementally grows the subset of columns being used, ultimately converging to an optimal solution. We propose RLCG, the first Reinforcement Learning (RL) approach for CG. Unlike typical column selection rules which myopically select a column based on local information at each iteration, we treat CG as a sequential decision-making problem, as the column selected in an iteration affects subsequent iterations of the algorithm. This perspective lends itself to a Deep Reinforcement Learning approach that uses Graph Neural Networks (GNNs) to represent the variable-constraint structure in the LP of interest. We perform an extensive set of experiments using the publicly available BPPLIB benchmark for CSP and Solomon benchmark for VRPTW. RLCG converges faster and reduces the number of CG iterations by 22.4% for CSP and 40.9% for VRPTW on average compared to a commonly used greedy policy.
翻訳日:2022-06-12 19:19:26 公開日:2022-06-03
# (参考訳) ガウスのプロセス回帰のデータから"ベスト"カーネルを学ぶ。 空気力学への応用

Learning "best" kernels from data in Gaussian process regression. With application to aerodynamics ( http://arxiv.org/abs/2206.02563v1 )

ライセンス: CC BY 4.0
Jean-Luc Akian and Luc Bonnet and Houman Owhadi and \'Eric Savin(参考訳) 本稿では,ガウス過程の回帰/クリギングサロゲートモデリング手法におけるカーネルの選択/設計アルゴリズムを提案する。 そこで本研究では,アドホック関数空間におけるカーネル法解の設定,すなわちカーネルヒルベルト空間(rkhs)の再現を行い,その観察を与えられた正規対象関数,すなわち教師付き学習の近似問題を解く。 アルゴリズムの最初のクラスはカーネルフローであり、機械学習の分類の文脈で導入された。 ネストされたクロスバリデーションの手順として、データセットの一部(典型的には半分)を削除して発生する精度の損失を最小限に抑える「ベスト」カーネルを選択することができる。 第2のアルゴリズムはスペクトル核リッジ回帰と呼ばれ、関連するRKHSにおいて、近似される関数のノルムが最小となるような「最良の」カーネルを選択することを目的としている。 マーサーの定理の枠組みの中で、対象関数の主要な特徴の観点から、その「最良の」カーネルの明示的な構成を得る。 データからカーネルを学習する両方のアプローチは、合成テスト関数の数値例と、2次元翼まわりの超音速流れの乱流モデリング検証における古典的なテストケースによって示される。

This paper introduces algorithms to select/design kernels in Gaussian process regression/kriging surrogate modeling techniques. We adopt the setting of kernel method solutions in ad hoc functional spaces, namely Reproducing Kernel Hilbert Spaces (RKHS), to solve the problem of approximating a regular target function given observations of it, i.e. supervised learning. A first class of algorithms is kernel flow, which was introduced in a context of classification in machine learning. It can be seen as a nested cross-validation procedure whereby a "best" kernel is selected such that the loss of accuracy incurred by removing some part of the dataset (typically half of it) is minimized. A second class of algorithms is called spectral kernel ridge regression, and aims at selecting a "best" kernel such that the norm of the function to be approximated is minimal in the associated RKHS. Within Mercer's theorem framework, we obtain an explicit construction of that "best" kernel in terms of the main features of the target function. Both approaches of learning kernels from data are illustrated by numerical examples on synthetic test functions, and on a classical test case in turbulence modeling validation for transonic flows about a two-dimensional airfoil.
翻訳日:2022-06-12 18:59:36 公開日:2022-06-03
# (参考訳) CMS実験におけるシリコン検出器の自動視覚検査

Automated visual inspection of silicon detectors in CMS experiment ( http://arxiv.org/abs/2206.02572v1 )

ライセンス: CC BY 4.0
Dr. Nupur Giri, Dr. Shashi Dugad, Amit Chhabria, Rashmi Manwani, Priyanka Asrani(参考訳) CERNのCMS実験では、多くのHGCALセンサーモジュールが世界中の先進的な研究所で製造されている。 各センサーモジュールには、視覚検査のための約700のチェックポイントが含まれているため、手動で検査を行うことはほぼ不可能である。 人工知能が製造業でますます広く使われているため、従来の検出技術は徐々にインテリジェントになりつつある。 チェックポイントをより正確に評価するために,多数のモジュールの自動テストにおける製造欠陥の検出にディープラーニングを用いたオブジェクト検出手法を提案する。

In the CMS experiment at CERN, Geneva, a large number of HGCAL sensor modules are fabricated in advanced laboratories around the world. Each sensor module contains about 700 checkpoints for visual inspection thus making it almost impossible to carry out such inspection manually. As artificial intelligence is more and more widely used in manufacturing, traditional detection technologies are gradually being intelligent. In order to more accurately evaluate the checkpoints, we propose to use deep learning-based object detection techniques to detect manufacturing defects in testing large numbers of modules automatically.
翻訳日:2022-06-12 18:58:30 公開日:2022-06-03
# (参考訳) 貯水池計算におけるパラメータ選択の制約

Constraints on parameter choices for successful reservoir computing ( http://arxiv.org/abs/2206.02575v1 )

ライセンス: CC BY 4.0
L. Storm, K. Gustavsson, B. Mehlig(参考訳) エコー状態ネットワークは、時系列によって駆動される離散力学系の単純なモデルである。 ネットワークのダイナミクスが負の最大リアプノフ指数によって特徴づけられるようなネットワークパラメータを選択することにより、ネットワークは駆動信号と同期することができる。 この同期を実行すると、エコー状態ネットワークは入力ダイナミクスを自律的に再現するように訓練され、時系列予測が可能である。 しかし、同期は予測に必要な条件であるが、十分ではない。 本稿では,時系列予測に他の条件が必要かを検討する。 予測性能のための2つの重要なパラメータを特定し、予測が成功した領域を見つけるためにパラメータスイープを行う。 これらの領域は、トレーニング中に入力に関する情報がネットワークに提供されるかどうかによって大きく異なる。 これらの地域がどのように出現するかを説明する。

Echo-state networks are simple models of discrete dynamical systems driven by a time series. By selecting network parameters such that the dynamics of the network is contractive, characterized by a negative maximal Lyapunov exponent, the network may synchronize with the driving signal. Exploiting this synchronization, the echo-state network may be trained to autonomously reproduce the input dynamics, enabling time-series prediction. However, while synchronization is a necessary condition for prediction, it is not sufficient. Here, we study what other conditions are necessary for successful time-series prediction. We identify two key parameters for prediction performance, and conduct a parameter sweep to find regions where prediction is successful. These regions differ significantly depending on whether full or partial phase space information about the input is provided to the network during training. We explain how these regions emerge.
翻訳日:2022-06-12 18:50:46 公開日:2022-06-03
# (参考訳) 人工知能を用いたシネmri画像中の線維化の検出

Detection of Fibrosis in Cine Magnetic Resonance Images Using Artificial Intelligence Techniques ( http://arxiv.org/abs/2206.01745v1 )

ライセンス: CC BY 4.0
Ariel. H. Curiale, Facundo Cabrera, Pablo Jimenez, Jorgelina Medus, Germ\'An Mato, Mat\'Ias E. Calandrelli(参考訳) 背景: 人工知能技術は、特に人間の目の知覚できないパターンを検出するために、心臓学において大きな可能性を証明している。 この意味では、これらの技術は、線維化の特性と定量化につながる可能性がある心筋のテクスチャのパターンを特定するのに適していると思われる。 目的: 本研究の目的は, 心臓磁気共鳴(CMR)画像における線維化を同定する新しい人工知能手法を仮定することであった。 方法: サン・カルロス・デ・バリロシュの臨床センターから75名の被験者を対象に振り返り観察を行った。 コンボリューションニューラルネットワークを用いてCMR画像中の心筋のテクスチャを分析し,局所的な心筋組織損傷を判定する。 結果: 検証データセットでは局所組織損傷の定量化に89%, 検査データセットでは70%の精度が得られた。 また, 定性的解析では病変部位の空間的相関が高かった。 結論:ポピュレーション法では,シネ核磁気共鳴法による情報のみを用いて線維化を空間的に同定し,将来性心筋の生存率の定量化や病変の病因研究の可能性を示す。

Background: Artificial intelligence techniques have demonstrated great potential in cardiology, especially to detect imperceptible patterns for the human eye. In this sense, these techniques seem to be adequate to identify patterns in the myocardial texture which could lead to characterize and quantify fibrosis. Purpose: The aim of this study was to postulate a new artificial intelligence method to identify fibrosis in cine cardiac magnetic resonance (CMR) imaging. Methods: A retrospective observational study was carried out in a population of 75 subjects from a clinical center of San Carlos de Bariloche. The proposed method analyzes the myocardial texture in cine CMR images using a convolutional neural network to determine local myocardial tissue damage. Results: An accuracy of 89% for quantifying local tissue damage was observed for the validation data set and 70% for the test set. In addition, the qualitative analysis showed a high spatial correlation in lesion location. Conclusions: The postulated method enables to spatially identify fibrosis using only the information from cine nuclear magnetic resonance studies, demonstrating the potential of this technique to quantify myocardial viability in the future or to study the lesions etiology
翻訳日:2022-06-12 18:36:42 公開日:2022-06-03
# (参考訳) 心臓共鳴における体積と心室機能の自動定量化 新しい人工知能アプローチの検証

Automatic Quantification of Volumes and Biventricular Function in Cardiac Resonance. Validation of a New Artificial Intelligence Approach ( http://arxiv.org/abs/2206.01746v1 )

ライセンス: CC BY 4.0
Ariel H. Curiale, Mat\'Ias E. Calandrelli, Lucca Dellazoppa, Mariano Trevisan, Jorge Luis Boci\'An, Juan Pablo Bonifacio, Germ\'An Mato(参考訳) 背景: 人工知能技術は心臓学、特に心室機能、容積、質量、放出率(EF)の定量化に大きな可能性を示している。 しかし, 日常診療による症例の再現性に乏しいことから, 臨床実践における使用は容易ではない。 目的:心室機能(容積、質量、EF)を定量化するために、新しい人工知能ツールを検証すること。 臨床領域におけるロバスト性、および従来の方法と比較して計算時間を分析する。 方法】地域センターから89例,公共センターから100例,計189例を対象に分析を行った。 本手法では,心臓の解剖学的情報を含む2つの畳み込みネットワークを提案し,分類誤差を低減する。 結果: 手指の定量化と心機能の定量化 (0.98, 0.92, 0.96, 0.8) の間に高い一致 (ピアソン係数) が認められた。 結論: この方法は専門医のものと同等の精度で秒単位の心室機能と容積を定量化する。

Background: Artificial intelligence techniques have shown great potential in cardiology, especially in quantifying cardiac biventricular function, volume, mass, and ejection fraction (EF). However, its use in clinical practice is not straightforward due to its poor reproducibility with cases from daily practice, among other reasons. Objectives: To validate a new artificial intelligence tool in order to quantify the cardiac biventricular function (volume, mass, and EF). To analyze its robustness in the clinical area, and the computational times compared with conventional methods. Methods: A total of 189 patients were analyzed: 89 from a regional center and 100 from a public center. The method proposes two convolutional networks that include anatomical information of the heart to reduce classification errors. Results: A high concordance (Pearson coefficient) was observed between manual quantification and the proposed quantification of cardiac function (0.98, 0.92, 0.96 and 0.8 for volumes and biventricular EF) in about 5 seconds per study. Conclusions: This method quantifies biventricular function and volumes in seconds with an accuracy equivalent to that of a specialist.
翻訳日:2022-06-12 18:29:04 公開日:2022-06-03
# (参考訳) 補助知識が連続学習に及ぼす影響

Effects of Auxiliary Knowledge on Continual Learning ( http://arxiv.org/abs/2206.02577v1 )

ライセンス: CC BY 4.0
Giovanni Bellitto, Matteo Pennisi, Simone Palazzo, Lorenzo Bonicelli, Matteo Boschini, Simone Calderara, Concetto Spampinato(参考訳) 連続学習(cl)において、ニューラルネットワークは、時間とともに分布が変化するデータのストリームで訓練される。 この文脈において、主要な問題は、古い知識(すなわち破滅的な知識)を忘れずに新しい情報を学ぶ方法である。 既存のCLアプローチのほとんどは、獲得した知識を保存するソリューションを見つけることに重点を置いている。 しかし、モデルが新しいタスクを継続的に学習する必要があるため、タスク学習の後に改善する可能性のある現在の知識に焦点を合わせることも重要であると論じる。 本稿では,現在の課題を,次の課題の学習を容易にする方法で解くことに焦点を当てた,新しい,シンプルなCLアルゴリズムを提案する。 より具体的には、本手法では、メインデータストリームと、ネットワークが補助的な知識を引き出すことのできる、二次的で多様で非相関なストリームを組み合わせる。 補助データには現在のタスクと次のタスクに有用な機能が含まれており、入力されるタスククラスは補助クラスにマッピングできる。 さらに、現在のタスクにデータを追加することで、より識別的な特徴の抽出を強制するため、分類器がより堅牢になる。 本手法は,cl画像分類ベンチマークにおいて,既存の最先端モデルよりも優れる。

In Continual Learning (CL), a neural network is trained on a stream of data whose distribution changes over time. In this context, the main problem is how to learn new information without forgetting old knowledge (i.e., Catastrophic Forgetting). Most existing CL approaches focus on finding solutions to preserve acquired knowledge, so working on the past of the model. However, we argue that as the model has to continually learn new tasks, it is also important to put focus on the present knowledge that could improve following tasks learning. In this paper we propose a new, simple, CL algorithm that focuses on solving the current task in a way that might facilitate the learning of the next ones. More specifically, our approach combines the main data stream with a secondary, diverse and uncorrelated stream, from which the network can draw auxiliary knowledge. This helps the model from different perspectives, since auxiliary data may contain useful features for the current and the next tasks and incoming task classes can be mapped onto auxiliary classes. Furthermore, the addition of data to the current task is implicitly making the classifier more robust as we are forcing the extraction of more discriminative features. Our method can outperform existing state-of-the-art models on the most common CL Image Classification benchmarks.
翻訳日:2022-06-12 18:21:11 公開日:2022-06-03
# (参考訳) [re]バダー種子:バイアス測定のための語彙法の評価を再現する

[Re] Badder Seeds: Reproducing the Evaluation of Lexical Methods for Bias Measurement ( http://arxiv.org/abs/2206.01767v1 )

ライセンス: CC BY 4.0
Jille van der Togt, Lea Tiyavorabun, Matteo Rosati, Giulio Starace(参考訳) NLPの燃焼バイアスはバイアス測定を必要とする。 偏りの測定は、ほとんど常にシード項のレキシコン(例えば、ステレオタイプや関心の次元を特定する単語の集合)を用いて行われる。 この再現性の研究は、バイアス測定に使用される種がバイアスを示す可能性があるため、これらのレキシコンの構築の根拠は使用前に徹底的な検査が必要であるという原著者の主な主張に焦点を当てている。 本研究は,論文に提示された量的および質的結果の再現性とその結論を評価することを目的とする。 シードセットは、しばしばバイアスメトリクスのベースラインとしてのパフォーマンスに影響を与えるバイアスに悩まされる。 概して、私たちの結果は原論文を反映している。 特定の場面では若干異なるが、シードセットの脆弱さを示すという論文の一般的な意図を損なうものではない。

Combating bias in NLP requires bias measurement. Bias measurement is almost always achieved by using lexicons of seed terms, i.e. sets of words specifying stereotypes or dimensions of interest. This reproducibility study focuses on the original authors' main claim that the rationale for the construction of these lexicons needs thorough checking before usage, as the seeds used for bias measurement can themselves exhibit biases. The study aims to evaluate the reproducibility of the quantitative and qualitative results presented in the paper and the conclusions drawn thereof. We reproduce most of the results supporting the original authors' general claim: seed sets often suffer from biases that affect their performance as a baseline for bias metrics. Generally, our results mirror the original paper's. They are slightly different on select occasions, but not in ways that undermine the paper's general intent to show the fragility of seed sets.
翻訳日:2022-06-12 17:57:21 公開日:2022-06-03
# (参考訳) Monkeypoxイメージデータ収集

Monkeypox Image Data collection ( http://arxiv.org/abs/2206.01774v1 )

ライセンス: CC0 1.0
Md Manjurul Ahsan, Muhammad Ramiz Uddin, and Shahana Akter Luna(参考訳) 本稿では,最初のモンキーポックスオープン画像データ収集手順について述べる。 ウェブサイト、新聞、オンラインポータルから収集した画像を組み立てて作成され、データ拡張後の1905年頃の画像を含んでいる。

This paper explains the initial Monkeypox Open image data collection procedure. It was created by assembling images collected from websites, newspapers, and online portals and currently contains around 1905 images after data augmentation.
翻訳日:2022-06-12 17:43:24 公開日:2022-06-03
# (参考訳) 最適競合比制御

Optimal Competitive-Ratio Control ( http://arxiv.org/abs/2206.01782v1 )

ライセンス: CC BY 4.0
Oron Sabag, Sahin Lale, Babak Hassibi(参考訳) オンライン学習における競合政策設計のアプローチに触発され、古典的な$\mathcal{H}_2$や$\mathcal{H}_\infty$の代替として、競争率や後悔最適制御といった新しい制御パラダイムが提案されている。 これらの競合指標は、設計したコントローラの制御コストと、それぞれ比率と差の点で過去、現在、将来の障害にアクセス可能な透視性コントローラのコストを比較する。 先行研究は、後悔最適制御問題に対する最適解を提供する一方で、競争比制御においては、この解は準最適問題に対してのみ提供される。 本研究では,競争比制御問題に対する最適解を導出する。 最適競争比式は, 単純な行列の最大固有値として計算できることを示し, 最適競争比を達成する状態空間制御器を提供する。 本研究では,この解析解を検証し,最適競争比制御器が複数の大規模実用システムにおいて他の制御器よりも優れていることを示す。 我々の明示的な解の基盤となる重要な技術は、制御問題をネハリ問題に還元することであり、また、透視制御器のコストの新たな因子化である。 本稿では,現在競合制御パラダイムに存在している明示的な解の相互関係を,実用目的にも利用可能な重み関数付き後悔最適制御フレームワークを定式化することによって明らかにする。

Inspired by competitive policy designs approaches in online learning, new control paradigms such as competitive-ratio and regret-optimal control have been recently proposed as alternatives to the classical $\mathcal{H}_2$ and $\mathcal{H}_\infty$ approaches. These competitive metrics compare the control cost of the designed controller against the cost of a clairvoyant controller, which has access to past, present, and future disturbances in terms of ratio and difference, respectively. While prior work provided the optimal solution for the regret-optimal control problem, in competitive-ratio control, the solution is only provided for the sub-optimal problem. In this work, we derive the optimal solution to the competitive-ratio control problem. We show that the optimal competitive ratio formula can be computed as the maximal eigenvalue of a simple matrix, and provide a state-space controller that achieves the optimal competitive ratio. We conduct an extensive numerical study to verify this analytical solution, and demonstrate that the optimal competitive-ratio controller outperforms other controllers on several large scale practical systems. The key techniques that underpin our explicit solution is a reduction of the control problem to a Nehari problem, along with a novel factorization of the clairvoyant controller's cost. We reveal an interesting relation between the explicit solutions that now exist for both competitive control paradigms by formulating a regret-optimal control framework with weight functions that can also be utilized for practical purposes.
翻訳日:2022-06-12 17:41:01 公開日:2022-06-03
# (参考訳) R2U++:医療画像セグメンテーションのためのDense Skip Connection付きマルチスケールリカレント残差U-Net

R2U++: A Multiscale Recurrent Residual U-Net with Dense Skip Connections for Medical Image Segmentation ( http://arxiv.org/abs/2206.01793v1 )

ライセンス: CC BY-SA 4.0
Mehreen Mubashar, Hazrat Ali, Christer Gronlund, Shoaib Azmat(参考訳) U-Netは医療画像セグメンテーションの分野で広く採用されているニューラルネットワークである。 医療画像コミュニティから素早く受け入れられたものの、そのパフォーマンスは複雑なデータセットに悩まされている。 この問題は、エンコーダ/デコーダという単純な特徴抽出ブロックと、エンコーダとデコーダのセマンティックギャップによって説明できる。 U-Netの変数(R2U-Netなど)は、ネットワークをより深くすることで単純な特徴抽出ブロックの問題に対処するために提案されているが、意味的ギャップの問題には対処しない。 一方、UNET++の別の変種は、深いスキップ接続を導入することでセマンティックギャップの問題に対処するが、単純な特徴抽出ブロックがある。 これらの問題を解決するために,U-Netベースの医用画像セグメンテーションアーキテクチャR2U++を提案する。 提案したアーキテクチャでは,バニラU-Netからの適応的な変更は,(1)平らな畳み込みバックボーンはより深い再帰的な畳み込みブロックに置き換えられる。 これらのブロックによる視野の増大は、ネットワーク全体の性能の向上によって証明されたセグメンテーションの重要な特徴の抽出に役立つ。 2) エンコーダとデコーダのセマンティックギャップは, 濃密なスキップ経路によって減少する。 これらの経路は複数のスケールから来る特徴を蓄積し、それに応じて結合を適用する。 修正されたアーキテクチャは多深度モデルが組み込まれており、様々な深さから得られた出力のアンサンブルにより、画像の様々なスケールに現れる前景オブジェクトのパフォーマンスが向上する。 R2U++の性能は、電子顕微鏡(EM)、X線、眼底、CT(CT)の4つの異なる医用画像で評価される。 IoUスコアの平均利得は1.5+-0.37%、ダイススコアは0.9+-0.33%、IoUスコアは4.21+-2.72、R2U-Netスコアは3.47+-1.89である。

U-Net is a widely adopted neural network in the domain of medical image segmentation. Despite its quick embracement by the medical imaging community, its performance suffers on complicated datasets. The problem can be ascribed to its simple feature extracting blocks: encoder/decoder, and the semantic gap between encoder and decoder. Variants of U-Net (such as R2U-Net) have been proposed to address the problem of simple feature extracting blocks by making the network deeper, but it does not deal with the semantic gap problem. On the other hand, another variant UNET++ deals with the semantic gap problem by introducing dense skip connections but has simple feature extraction blocks. To overcome these issues, we propose a new U-Net based medical image segmentation architecture R2U++. In the proposed architecture, the adapted changes from vanilla U-Net are: (1) the plain convolutional backbone is replaced by a deeper recurrent residual convolution block. The increased field of view with these blocks aids in extracting crucial features for segmentation which is proven by improvement in the overall performance of the network. (2) The semantic gap between encoder and decoder is reduced by dense skip pathways. These pathways accumulate features coming from multiple scales and apply concatenation accordingly. The modified architecture has embedded multi-depth models, and an ensemble of outputs taken from varying depths improves the performance on foreground objects appearing at various scales in the images. The performance of R2U++ is evaluated on four distinct medical imaging modalities: electron microscopy (EM), X-rays, fundus, and computed tomography (CT). The average gain achieved in IoU score is 1.5+-0.37% and in dice score is 0.9+-0.33% over UNET++, whereas, 4.21+-2.72 in IoU and 3.47+-1.89 in dice score over R2U-Net across different medical imaging segmentation datasets.
翻訳日:2022-06-12 17:14:29 公開日:2022-06-03
# (参考訳) 監督力低減による行動誘導型因果表現学習

Do-Operation Guided Causal Representation Learning with Reduced Supervision Strength ( http://arxiv.org/abs/2206.01802v1 )

ライセンス: CC BY 4.0
Jiageng Zhu, Hanchen Xie, Wael AbdAlmageed(参考訳) 高次元データで提示される因子間の関係をエンコードするために因果表現学習が提案されている。 しかし、既存の手法では単に大量のラベル付きデータを使用し、同じ因果メカニズムによって生成されたサンプルが同じ因果関係に従うという事実を無視している。 本稿では,監視力の低減にドーパレーションを活用することで,そのような情報を探究する。 本稿では,1対の入力から符号化された潜在原因と影響因子を交換し,実行動作を実現するフレームワークを提案する。 さらに,既存の因果表現メトリクスの不備を実証的および理論的に同定し,評価のために新たなメトリクスを導入する。 合成データと実データの両方で行った実験は,最先端の手法と比較して,本手法の優位性を示した。

Causal representation learning has been proposed to encode relationships between factors presented in the high dimensional data. However, existing methods suffer from merely using a large amount of labeled data and ignore the fact that samples generated by the same causal mechanism follow the same causal relationships. In this paper, we seek to explore such information by leveraging do-operation for reducing supervision strength. We propose a framework which implements do-operation by swapping latent cause and effect factors encoded from a pair of inputs. Moreover, we also identify the inadequacy of existing causal representation metrics empirically and theoretically, and introduce new metrics for better evaluation. Experiments conducted on both synthetic and real datasets demonstrate the superiorities of our method compared with state-of-the-art methods.
翻訳日:2022-06-12 16:55:01 公開日:2022-06-03
# (参考訳) 組み合わさった長期RL課題の解決への挑戦

Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks ( http://arxiv.org/abs/2206.01812v1 )

ライセンス: CC BY 4.0
Andrew C. Li, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith(参考訳) 深層強化学習は、チェス、go、hanabiなどのゲームを含む複雑な推論を必要とする個別領域で期待されている。 しかし、このタイプの推論は、長方形の連続した高次元の領域ではあまり観測されず、rl研究は主に単純な高レベルな構造(例えば引き出しを開くかロボットをできるだけ速く動かすか)の問題に焦点を当てている。 コンビネータリー・ハードな最適化問題に触発されて,高レベルに多くの異なるソリューションを許容するが,状態に関する推論が必要となり,最高のパフォーマンスのために数千ステップのステップを振り返るロボットタスクのセットを提案する。 批判的に、rlは伝統的に、わずかな報酬のために複雑で長いホリゾンのタスクに苦しめられているが、我々のタスクは、特別な探索なしに解決できるよう慎重に設計されている。 しかしながら,本研究では,従来のRL手法はディスカウントによる長期的影響を無視することが多いが,汎用的階層的RL手法では,抽象的なドメイン知識を活用できない場合が多い。

Deep reinforcement learning has shown promise in discrete domains requiring complex reasoning, including games such as Chess, Go, and Hanabi. However, this type of reasoning is less often observed in long-horizon, continuous domains with high-dimensional observations, where instead RL research has predominantly focused on problems with simple high-level structure (e.g. opening a drawer or moving a robot as fast as possible). Inspired by combinatorially hard optimization problems, we propose a set of robotics tasks which admit many distinct solutions at the high-level, but require reasoning about states and rewards thousands of steps into the future for the best performance. Critically, while RL has traditionally suffered on complex, long-horizon tasks due to sparse rewards, our tasks are carefully designed to be solvable without specialized exploration. Nevertheless, our investigation finds that standard RL methods often neglect long-term effects due to discounting, while general-purpose hierarchical RL approaches struggle unless additional abstract domain knowledge can be exploited.
翻訳日:2022-06-12 16:35:20 公開日:2022-06-03
# (参考訳) 記号知識の自律的生成のためのオプション発見

Option Discovery for Autonomous Generation of Symbolic Knowledge ( http://arxiv.org/abs/2206.01815v1 )

ライセンス: CC BY 4.0
Gabriele Sartor, Davide Zollo, Marta Cialdea Mayer, Angelo Oddi, Riccardo Rasconi and Vieri Giuliano Santucci(参考訳) 本研究では,実験シナリオを自律的に探索できる人工エージェントの開発の可能性を示す実証的研究を紹介する。 調査中、エージェントは事前に割り当てられた目標なしに環境と対話できる興味深い選択肢を発見して学習し、獲得した知識を抽象化して再利用することで、元投稿に割り当てられたタスクを解決できる。 近年の文献で述べられているいわゆる宝ゲームドメインにおいて,本システムは実証的に検証され,発見された選択肢を確率的シンボリックプランニングモデル(PDDL言語を用いた)で抽象化し,エージェントが外在的目標を達成するためのシンボリックプランを生成することができることを示した。

In this work we present an empirical study where we demonstrate the possibility of developing an artificial agent that is capable to autonomously explore an experimental scenario. During the exploration, the agent is able to discover and learn interesting options allowing to interact with the environment without any pre-assigned goal, then abstract and re-use the acquired knowledge to solve possible tasks assigned ex-post. We test the system in the so-called Treasure Game domain described in the recent literature and we empirically demonstrate that the discovered options can be abstracted in an probabilistic symbolic planning model (using the PPDDL language), which allowed the agent to generate symbolic plans to achieve extrinsic goals.
翻訳日:2022-06-12 16:15:41 公開日:2022-06-03
# (参考訳) Kallima: テキストバックドア攻撃のためのクリーンなラベルフレームワーク

Kallima: A Clean-label Framework for Textual Backdoor Attacks ( http://arxiv.org/abs/2206.01832v1 )

ライセンス: CC BY 4.0
Xiaoyi Chen, Yinpeng Dong, Zeyu Sun, Shengfang Zhai, Qingni Shen, Zhonghai Wu(参考訳) ディープニューラルネットワーク(DNN)は、様々な自然言語処理(NLP)タスクにおいて前例のない進歩を遂げてきたが、ディープモデルがバックドア攻撃に対して極めて脆弱であることを示している。 既存のバックドア攻撃は主に少数の有毒なサンプルをトレーニングデータセットに注入し、ラベルはターゲットのものに変更された。 このような誤記されたサンプルは、人間の検査に疑いを抱き、攻撃が発覚する可能性がある。 テキストバックドア攻撃のステルス性を改善するために,ミメシススタイルのバックドアサンプルを合成する最初のクリーンラベルフレームワークKallimaを提案する。 我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。 私たちのフレームワークは、既存のバックドアトリガーと互換性があります。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。

Although Deep Neural Network (DNN) has led to unprecedented progress in various natural language processing (NLP) tasks, research shows that deep models are extremely vulnerable to backdoor attacks. The existing backdoor attacks mainly inject a small number of poisoned samples into the training dataset with the labels changed to the target one. Such mislabeled samples would raise suspicion upon human inspection, potentially revealing the attack. To improve the stealthiness of textual backdoor attacks, we propose the first clean-label framework Kallima for synthesizing mimesis-style backdoor samples to develop insidious textual backdoor attacks. We modify inputs belonging to the target class with adversarial perturbations, making the model rely more on the backdoor trigger. Our framework is compatible with most existing backdoor triggers. The experimental results on three benchmark datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-06-12 16:08:10 公開日:2022-06-03
# (参考訳) 微分プライベートモデル圧縮

Differentially Private Model Compression ( http://arxiv.org/abs/2206.01838v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Arturs Backurs, Huseyin A Inan, Lukas Wutschitz, Janardhan Kulkarni(参考訳) 近年の研究では、BERTやGPT-2のような大規模事前学習言語モデル(LLM)は、多くの下流自然言語処理(NLP)タスクの非プライベートモデルに匹敵する性能を達成するために、プライベートデータ上で微調整できると同時に、差分プライバシーを同時に保証できることが示されている。 しかし、これらのモデルの推論コスト(数億のパラメータを含む)は、禁止的に大きい可能性がある。 したがって、多くの場合、LLMは特定のアプリケーションにデプロイする前に圧縮される。 本稿では,微分プライベートモデル圧縮の研究を開始し,ほぼフルパフォーマンスを維持しながら50%のスパーシティレベルを達成するためのフレームワークを提案する。 BERTモデルを用いた標準GLUEベンチマークでこれらのアイデアを実証し、今後の研究のためのベンチマークを設定する。

Recent papers have shown that large pre-trained language models (LLMs) such as BERT, GPT-2 can be fine-tuned on private data to achieve performance comparable to non-private models for many downstream Natural Language Processing (NLP) tasks while simultaneously guaranteeing differential privacy. The inference cost of these models -- which consist of hundreds of millions of parameters -- however, can be prohibitively large. Hence, often in practice, LLMs are compressed before they are deployed in specific applications. In this paper, we initiate the study of differentially private model compression and propose frameworks for achieving 50% sparsity levels while maintaining nearly full performance. We demonstrate these ideas on standard GLUE benchmarks using BERT models, setting benchmarks for future research on this topic.
翻訳日:2022-06-12 15:49:41 公開日:2022-06-03
# (参考訳) コーヒーローストインテリジェンス

Coffee Roast Intelligence ( http://arxiv.org/abs/2206.01841v1 )

ライセンス: CC BY-SA 4.0
Sakdipat Ontoum, Thitaree Khemanantakul, Pornphat Sroison, Tuul Triyason, Bunthit Watanapa(参考訳) コーヒー産業が成長するにつれて、ローストコーヒー豆の需要が高まり、コーヒーの販売や客の惹きつけに対する競争力も高まる。 各種類のコーヒーの風味は、コーヒー豆のローストの程度に依存するため、ローストの程度に関する一貫した品質を維持することが不可欠である。 各バリスタには、ローストの度合いを決定する独自の方法がある。 しかし、光、疲労、その他の要因といった外因的な状況は、その判断を変える可能性がある。 その結果、コーヒーの品質は制御できない。 coffee roast intelligence application(コーヒーローストインテリジェンスアプリケーション)は、ロースト中のコーヒー豆の色を撮影またはアップロードして識別するandroidアプリケーションプラットフォームとして作成されるローストコーヒー豆次数分類の機械学習による研究である。 このアプリケーションは、コーヒー豆がローストされたレベルを示すテキストを表示し、クラス予測の確率を消費者に通知する。 また、コーヒー豆のローストレベルに関する予測結果を追跡することもできる。

As the coffee industry has grown, there would be more demand for roasted coffee beans, as well as increased rivalry for selling coffee and attracting customers. As the flavor of each variety of coffee is dependent on the degree of roasting of the coffee beans, it is vital to maintain a consistent quality related to the degree of roasting. Each barista has their own method for determining the degree of roasting. However, extrinsic circumstances such as light, fatigue, and other factors may alter their judgment. As a result, the quality of the coffee cannot be controlled. The Coffee Roast Intelligence application is a machine learning-based study of roasted coffee bean degrees classification produced as an Android application platform that identifies the color of coffee beans by photographing or uploading them while roasting. This application displays the text showing at what level the coffee beans have been roasted, as well as informs the percent chance of class prediction to the consumers. Users may also keep track of the result of the predictions related to the roasting level of coffee beans.
翻訳日:2022-06-12 15:30:04 公開日:2022-06-03
# (参考訳) Visual Clues: イメージパラグラフキャプションのためのブリッジングビジョンと言語基盤

Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning ( http://arxiv.org/abs/2206.01843v1 )

ライセンス: CC BY 4.0
Yujia Xie, Luowei Zhou, Xiyang Dai, Lu Yuan, Nguyen Bach, Ce Liu, Michael Zeng(参考訳) 人々は「絵は千語の価値があります」と言う。 では、どのようにしてリッチな情報をイメージから取り出すのか? 我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。 基礎モデルの強力なゼロショット機能のおかげで、視覚基盤モデルを使用して、構造化されたテキストプロンプトとして、画像(画像タグ、オブジェクト属性/場所、キャプションなど)の豊かな意味表現を構築することから始めます。 視覚的手がかりに基づいて視覚的コンテンツに関する一連の包括的記述を生成するために,大規模言語モデルを使用し,視覚モデルによって再度検証され,画像に最適な候補を選択する。 定量的および定性的な測定により生成した記述の品質を評価する。 その結果,このような構造的意味表現の有効性が示された。

People say, "A picture is worth a thousand words". Then how can we get the rich information out of the image? We argue that by using visual clues to bridge large pretrained vision foundation models and language models, we can do so without any extra cross-modal training. Thanks to the strong zero-shot capability of foundation models, we start by constructing a rich semantic representation of the image (e.g., image tags, object attributes / locations, captions) as a structured textual prompt, called visual clues, using a vision foundation model. Based on visual clues, we use large language model to produce a series of comprehensive descriptions for the visual content, which is then verified by the vision model again to select the candidate that aligns best with the image. We evaluate the quality of generated descriptions by quantitative and qualitative measurement. The results demonstrate the effectiveness of such a structured semantic representation.
翻訳日:2022-06-12 15:18:38 公開日:2022-06-03
# (参考訳) BiGANとMDLを用いたアウト・オブ・ディストリビューション検出

Out-of-Distribution Detection using BiGAN and MDL ( http://arxiv.org/abs/2206.01851v1 )

ライセンス: CC BY 4.0
Mojtaba Abolfazli, Mohammad Zaeri Arimani, Anders Host-Madsen, June Zhang, Andras Bratincsak(参考訳) 通常のデータの大規模なデータセットが利用可能です。 私たちは現在、非常に小さな新しいデータセットを与えられており、これらが正常なデータなのか、あるいは新しい現象を示しているのかを判断します。 これは、新規検出または分散検出の問題である。 例えば医学では、通常のデータは疾患のない人のためのもので、新しいデータセットは症状を持つ人のためのものです。 他の例としてはセキュリティがある。 本研究では,通常のデータに基づいて双方向生成逆数ネットワーク(BiGAN)をトレーニングし,ガウス図形モデルを用いて出力をモデル化する。 次に、出力の最小記述長(MDL)を用いて、KolmogorovとMartin-L\"{o}fランダム性の実装において、それが新しい分布であるかどうかを決定する。 本手法を健常者および川崎病患者のMNISTデータと心電図(ECG)データセットに応用し,同様の方法よりもROC曲線の方が優れた性能を示した。

We consider the following problem: we have a large dataset of normal data available. We are now given a new, possibly quite small, set of data, and we are to decide if these are normal data, or if they are indicating a new phenomenon. This is a novelty detection or out-of-distribution detection problem. An example is in medicine, where the normal data is for people with no known disease, and the new dataset people with symptoms. Other examples could be in security. We solve this problem by training a bidirectional generative adversarial network (BiGAN) on the normal data and using a Gaussian graphical model to model the output. We then use universal source coding, or minimum description length (MDL) on the output to decide if it is a new distribution, in an implementation of Kolmogorov and Martin-L\"{o}f randomness. We apply the methodology to both MNIST data and a real-world electrocardiogram (ECG) dataset of healthy and patients with Kawasaki disease, and show better performance in terms of the ROC curve than similar methods.
翻訳日:2022-06-12 14:57:44 公開日:2022-06-03
# アルゴリズムインプリント

The Algorithmic Imprint ( http://arxiv.org/abs/2206.03275v1 )

ライセンス: Link先を確認
Upol Ehsan, Ranjit Singh, Jacob Metcalf, Mark O. Riedl(参考訳) アルゴリズムに害が及ぶと、公正性、説明責任、透明性、倫理(FATE)に関する懸念を解決するためにアルゴリズムを使うのをやめる。 しかし、アルゴリズムが削除されたからといって、FATE関連の問題は存在しない。 本稿では,アルゴリズムを単に取り除いただけでは必ずしもその影響を和らげたり軽減したりしないことを示すために,アルゴリズムインプリントの概念を紹介する。 我々は、この概念とその意味を、160か国以上で実施されている、国際的に認められたイギリスの高校卒業試験である、GCE(General Certificate of Education)Advanced (A) Level Testingsのアルゴリズムグレーティングを取り巻く2020年の出来事を通じて運用する。 アルゴリズムの標準化は最終的にグローバルな抗議活動によって取り除かれたが、学生、教師、そして両親の生活を形作る社会技術基盤にアルゴリズムのインプリントを解き放たなかったことを示す。 これらの出来事は、アルゴリズムの仲介なしに世界の状態を解析する稀な機会を提供する。 バングラデシュのケーススタディでは、グローバル・ノースにおけるアルゴリズムが、グローバル・サウスの利害関係者に不釣り合いに影響を与えていることを説明しています。 47のインタービューからなる1年以上にわたるコミュニティの関与を慢性的に記録し、バングラデシュで起こった「なぜ」と「どのように」がアルゴリズムのインプリントと位置するアルゴリズムの公正さのレンズを通して起こったかという、最初のコヒーレントなタイムラインを提示する。 これらの事象を分析し, アルゴリズム的インプリントの輪郭がインフラ, 社会的, 個人レベルでどのように推測されるかを強調する。 インプリント認識に関する概念的および実践的意味を共有します。 a) アルゴリズムの影響についての考え方の境界を広げる。 b) アルゴリズムの設計方法を知らせる, c) aiガバナンスにおいて私たちを導く。

When algorithmic harms emerge, a reasonable response is to stop using the algorithm to resolve concerns related to fairness, accountability, transparency, and ethics (FATE). However, just because an algorithm is removed does not imply its FATE-related issues cease to exist. In this paper, we introduce the notion of the "algorithmic imprint" to illustrate how merely removing an algorithm does not necessarily undo or mitigate its consequences. We operationalize this concept and its implications through the 2020 events surrounding the algorithmic grading of the General Certificate of Education (GCE) Advanced (A) Level exams, an internationally recognized UK-based high school diploma exam administered in over 160 countries. While the algorithmic standardization was ultimately removed due to global protests, we show how the removal failed to undo the algorithmic imprint on the sociotechnical infrastructures that shape students', teachers', and parents' lives. These events provide a rare chance to analyze the state of the world both with and without algorithmic mediation. We situate our case study in Bangladesh to illustrate how algorithms made in the Global North disproportionately impact stakeholders in the Global South. Chronicling more than a year-long community engagement consisting of 47 inter-views, we present the first coherent timeline of "what" happened in Bangladesh, contextualizing "why" and "how" they happened through the lenses of the algorithmic imprint and situated algorithmic fairness. Analyzing these events, we highlight how the contours of the algorithmic imprints can be inferred at the infrastructural, social, and individual levels. We share conceptual and practical implications around how imprint-awareness can (a) broaden the boundaries of how we think about algorithmic impact, (b) inform how we design algorithms, and (c) guide us in AI governance.
翻訳日:2022-06-08 16:03:29 公開日:2022-06-03
# ガンマ一般化正規分布:SAR画像の記述

The Gamma Generalized Normal Distribution: A Descriptor of SAR Imagery ( http://arxiv.org/abs/2206.01826v1 )

ライセンス: Link先を確認
G. M. Cordeiro, R. J. Cintra, L. C. R\^ego, A. D. C. Nascimento(参考訳) 本稿では,ガンマ一般化正規分布と一般化正規分布を組み合わせた合成開口レーダ(sar)画像のモデル化のための新しい4パラメータ分布を提案する。 新しい分布の数学的キャラクタリゼーションは、極限挙動を特定し、密度とモーメント展開を計算することによって提供される。 GGNモデルの性能は、合成データと実データの両方で評価され、そのために最大推定と乱数生成について議論する。 提案した分布は,すでにSAR画像が適切に表現されているベータ一般化正規分布(BGN)と比較される。 これらの2つの分布のパフォーマンスは、GGNがいくつかの文脈でBGN分布より優れていることを示す統計によって測定される。

We propose a new four-parameter distribution for modeling synthetic aperture radar (SAR) imagery named the gamma generalized normal (GGN) by combining the gamma and generalized normal distributions. A mathematical characterization of the new distribution is provided by identifying the limit behavior and by calculating the density and moment expansions. The GGN model performance is evaluated on both synthetic and actual data and, for that, maximum likelihood estimation and random number generation are discussed. The proposed distribution is compared with the beta generalized normal distribution (BGN), which has already shown to appropriately represent SAR imagery. The performance of these two distributions are measured by means of statistics which provide evidence that the GGN can outperform the BGN distribution in some contexts.
翻訳日:2022-06-07 18:26:01 公開日:2022-06-03
# 安定推定器のサンプルスプリッティングを伴わないデバイアス機械学習

Debiased Machine Learning without Sample-Splitting for Stable Estimators ( http://arxiv.org/abs/2206.01825v1 )

ライセンス: Link先を確認
Qizhao Chen, Vasilis Syrgkanis, Morgane Austern(参考訳) 因果パラメータの推定と推論は通常、回帰問題や分類問題の解に対応する補助関数を含むモーメント問題の一般化された方法に還元される。 debiased machine learningに関する最近の研究は、補助的問題に対して汎用的な機械学習推定器をいかに利用できるかを示しつつ、対象パラメータの漸近的正規性とルート=n$一貫性を維持しながら、補助的推定アルゴリズムから平均二乗誤差保証を要求できることを示した。 典型的には、これらの補助的な問題は別のサンプルやクロスフィッティングの方法で適合するよう要求される。 これらの補助的推定アルゴリズムが自然に残留する安定性特性を満たす場合、サンプル分割は不要であることを示す。 これによりサンプルの再使用が可能となり、適度なサイズのサンプルレギュレーションで有用となる。 例えば,我々が提案する安定性特性は,機械学習の実践で一般的な手法である副サンプリングで構築した袋入り推定器で満足できることを示す。

Estimation and inference on causal parameters is typically reduced to a generalized method of moments problem, which involves auxiliary functions that correspond to solutions to a regression or classification problem. Recent line of work on debiased machine learning shows how one can use generic machine learning estimators for these auxiliary problems, while maintaining asymptotic normality and root-$n$ consistency of the target parameter of interest, while only requiring mean-squared-error guarantees from the auxiliary estimation algorithms. The literature typically requires that these auxiliary problems are fitted on a separate sample or in a cross-fitting manner. We show that when these auxiliary estimation algorithms satisfy natural leave-one-out stability properties, then sample splitting is not required. This allows for sample re-use, which can be beneficial in moderately sized sample regimes. For instance, we show that the stability properties that we propose are satisfied for ensemble bagged estimators, built via sub-sampling without replacement, a popular technique in machine learning practice.
翻訳日:2022-06-07 18:25:49 公開日:2022-06-03
# Federated Deep Learning: 自動運転車の認識: 設計と検証

Federated Deep Learning Meets Autonomous Vehicle Perception: Design and Verification ( http://arxiv.org/abs/2206.01748v1 )

ライセンス: Link先を確認
Shuai Wang, Chengyang Li, Qi Hao, Chengzhong Xu, Derrick Wing Kwan Ng, Yonina C. Eldar, and H. Vincent Poor(参考訳) 人間のような知覚を実現することは、コーナーケースや視覚的閉塞によるオープンな運転シナリオの課題である。 希少かつ難解なインスタンスの知識を集めるために,車両と道路センサが収集した分散データから,車両網を活用した連合型深層ニューラルネットワーク(federated deep neural network, dnns)の確立を目的とした,連合学習エンパワード・コネクテッド・自律車両(federated learning empowered connected autonomous vehicle:flcav)が提案されている。 データアグリゲーションを必要とせずに、FLCAVは従来の集中型学習と比較して通信コストとアノテーションコストを削減しながらプライバシを保存する。 しかし,マルチモーダルデータセットを用いた多段階学習では,ネットワーク資源や道路センサの活用が困難である。 本稿では、FLCAV知覚のためのネットワークおよびトレーニングフレームワークについて述べる。 ネットワーク管理とセンサポーズ問題に対処するために,多層グラフリソース割り当てと車道配置の対比手法を提案する。 また,上記のシステムと手法を実装したソフトウェアプラットフォームcarlaflcavを開発した。 実験により,提案手法の優位性について,各種ベンチマークと比較した。

Realizing human-like perception is a challenge in open driving scenarios due to corner cases and visual occlusions. To gather knowledge of rare and occluded instances, federated learning empowered connected autonomous vehicle (FLCAV) has been proposed, which leverages vehicular networks to establish federated deep neural networks (DNNs) from distributed data captured by vehicles and road sensors. Without the need of data aggregation, FLCAV preserves privacy while reducing communication and annotation costs compared with conventional centralized learning. However, it is challenging to determine the network resources and road sensor poses for multi-stage training with multi-modal datasets in multi-variant scenarios. This article presents networking and training frameworks for FLCAV perception. Multi-layer graph resource allocation and vehicle-road pose contrastive methods are proposed to address the network management and sensor pose problems, respectively. We also develop CarlaFLCAV, a software platform that implements the above system and methods. Experimental results confirm the superiority of the proposed techniques compared with various benchmarks.
翻訳日:2022-06-07 17:39:08 公開日:2022-06-03
# 内部再帰による粗い観測からの微視的ダイナミクスの学習

Learning Fine Scale Dynamics from Coarse Observations via Inner Recurrence ( http://arxiv.org/abs/2206.01807v1 )

ライセンス: Link先を確認
Victor Churchill, Dongbin Xiu(参考訳) 近年の研究では、未知システムのダイナミクスの長期予測を目標として、ディープニューラルネットワーク(dnn)による未知システムの進化に関するデータ駆動学習に焦点を当てている。 多くの実世界のアプリケーションでは、時間に依存したシステムからのデータは、データ取得プロセスの様々な制限のため、要求よりも粗い時間スケールで収集されることが多い。 その結果、観測されたダイナミクスはひどくアンダーサンプリングされ、基礎となるシステムの真のダイナミクスを反映しない。 本稿では,このような粗い観測データから微視的なダイナミクスを学ぶための計算手法を提案する。 この方法は、DNNの内部再発を利用して、基盤システムの微細な進化演算子を復元する。 数学的正当性に加えて, 常微分方程式および偏微分方程式の未知系を含むいくつかの難解な数値例を示し, 提案手法の有効性を実証した。

Recent work has focused on data-driven learning of the evolution of unknown systems via deep neural networks (DNNs), with the goal of conducting long term prediction of the dynamics of the unknown system. In many real-world applications, data from time-dependent systems are often collected on a time scale that is coarser than desired, due to various restrictions during the data acquisition process. Consequently, the observed dynamics can be severely under-sampled and do not reflect the true dynamics of the underlying system. This paper presents a computational technique to learn the fine-scale dynamics from such coarsely observed data. The method employs inner recurrence of a DNN to recover the fine-scale evolution operator of the underlying system. In addition to mathematical justification, several challenging numerical examples, including unknown systems of both ordinary and partial differential equations, are presented to demonstrate the effectiveness of the proposed method.
翻訳日:2022-06-07 17:38:50 公開日:2022-06-03
# コントラスト学習は$t$-SNEとUMAPを統一する

Contrastive learning unifies $t$-SNE and UMAP ( http://arxiv.org/abs/2206.01816v1 )

ライセンス: Link先を確認
Sebastian Damrich (1), Jan Niklas B\"ohm (2), Fred A. Hamprecht (1), Dmitry Kobak (2) ((1) IWR at Heidelberg University, (2) University of T\"ubingen)(参考訳) 隣接する埋め込みメソッド $t$-SNE と UMAP は、高次元データセットを視覚化するためのデファクトスタンダードである。 彼らは異なるモチベーションを持つ全く異なる損失関数を使用しており、それらの間の正確な関係ははっきりしていない。 ここでは,UMAPが$t$-SNE損失関数に対して効果的に負のサンプリングであることを示す。 NCVis という名前で$t$-SNE を最適化するために用いられている負サンプリングとノイズコントラスト推定(NCE)の違いを説明する。 NCEとは異なり、負のサンプリングはスケールしたデータ分布を学習する。 隣の埋め込み設定で適用されると、umapと$t$-sneの外観の違いを説明し、アトラクションが増大するよりコンパクトな埋め込みが得られる。 さらに, 負サンプリングの概念を一般化し, $t$-sne, ncvis, umap のような可視化を包含する埋め込みスペクトルを得る。 最後に, simclr 設定における表現学習と隣接埋め込みの関係を考察し, そのことを示す。 (i)$t$-sne は情報損失とパラメトリック設定を用いて最適化することができる。 (ii)simclrのセットアップでは,ノイズサンプルの少ない様々なコントラスト損失が競合性能をもたらす可能性がある。

Neighbor embedding methods $t$-SNE and UMAP are the de facto standard for visualizing high-dimensional datasets. They appear to use very different loss functions with different motivations, and the exact relationship between them has been unclear. Here we show that UMAP is effectively negative sampling applied to the $t$-SNE loss function. We explain the difference between negative sampling and noise-contrastive estimation (NCE), which has been used to optimize $t$-SNE under the name NCVis. We prove that, unlike NCE, negative sampling learns a scaled data distribution. When applied in the neighbor embedding setting, it yields more compact embeddings with increased attraction, explaining differences in appearance between UMAP and $t$-SNE. Further, we generalize the notion of negative sampling and obtain a spectrum of embeddings, encompassing visualizations similar to $t$-SNE, NCVis, and UMAP. Finally, we explore the connection between representation learning in the SimCLR setting and neighbor embeddings, and show that (i) $t$-SNE can be optimized using the InfoNCE loss and in a parametric setting; (ii) various contrastive losses with only few noise samples can yield competitive performance in the SimCLR setup.
翻訳日:2022-06-07 17:38:33 公開日:2022-06-03
# 画像のロバストなバックプロパゲーションフリーフレームワーク

A Robust Backpropagation-Free Framework for Images ( http://arxiv.org/abs/2206.01820v1 )

ライセンス: Link先を確認
Timothy Zee, Alexander G. Ororbia, Ankur Mali, Ifeoma Nwogu(参考訳) 現在のディープラーニングアルゴリズムは、構造化画像データを含む多種多様な人工知能(AI)タスクで成功しているが、それらは、エラー(バックプロップ)のバックプロパゲーションによって計算される勾配に依存しているため、深い神経生理学的概念問題を提示し、シナプス的な重量調整を得る。 より生物学的に妥当なアプローチとして、エラーカーネル駆動型アクティベーションアライメントアライメント(EKDAA)アルゴリズムを提案し、局所的に導出されたエラートランスミッションカーネルとエラーマップを用いて畳み込みニューラルネットワーク(CNN)を訓練する。 我々は,Fashion MNIST, CIFAR-10, SVHNベンチマークにおける視覚認識のタスクを実施, およびこれらのデータセットから得られた敵の例に対するブラックボックスロバストネステストを行うことにより, EKDAAの有効性を実証した。 さらに,非微分アクティベーション関数を用いて訓練したCNNの結果も提示する。 すべての認識結果がバックプロップとほぼ一致し、バックプロップに比べて敵意が強い。

While current deep learning algorithms have been successful for a wide variety of artificial intelligence (AI) tasks, including those involving structured image data, they present deep neurophysiological conceptual issues due to their reliance on the gradients computed by backpropagation of errors (backprop) to obtain synaptic weight adjustments; hence are biologically implausible. We present a more biologically plausible approach, the error-kernel driven activation alignment (EKDAA) algorithm, to train convolution neural networks (CNNs) using locally derived error transmission kernels and error maps. We demonstrate the efficacy of EKDAA by performing the task of visual-recognition on the Fashion MNIST, CIFAR-10 and SVHN benchmarks as well as conducting blackbox robustness tests on adversarial examples derived from these datasets. Furthermore, we also present results for a CNN trained using a non-differentiable activation function. All recognition results nearly matches that of backprop and exhibit greater adversarial robustness compared to backprop.
翻訳日:2022-06-07 17:38:14 公開日:2022-06-03
# 過パラメータスムース凸最適化のためのdp-sgdの次元独立一般化

Dimension Independent Generalization of DP-SGD for Overparameterized Smooth Convex Optimization ( http://arxiv.org/abs/2206.01836v1 )

ライセンス: Link先を確認
Yi-An Ma, Teodor Vanislavov Marinov, Tong Zhang(参考訳) 本稿では,差分プライベート凸学習の一般化性能について考察する。 本稿では,Langevinアルゴリズムの収束解析を用いて,DP-SGDの差分プライバシー保証を伴う新たな一般化境界を得ることを示す。 より具体的には、最近得られた凸目的関数を持つ確率的ランジュバンアルゴリズムの次元独立収束結果を用いて、超パラメータの滑らかな凸最適化問題のあるクラスに対して、最適な超一般化誤差である$\tilde{o}(n^{-1/2})$のdp-sgdに対するプライバシ保証を得る。 これにより、明示的な次元依存を含むような問題に対する以前のDP-SGD結果を改善することができ、その結果の一般化境界は実用用途で使用される過度パラメータ化モデルには適さない。

This paper considers the generalization performance of differentially private convex learning. We demonstrate that the convergence analysis of Langevin algorithms can be used to obtain new generalization bounds with differential privacy guarantees for DP-SGD. More specifically, by using some recently obtained dimension-independent convergence results for stochastic Langevin algorithms with convex objective functions, we obtain $O(n^{-1/4})$ privacy guarantees for DP-SGD with the optimal excess generalization error of $\tilde{O}(n^{-1/2})$ for certain classes of overparameterized smooth convex optimization problems. This improves previous DP-SGD results for such problems that contain explicit dimension dependencies, so that the resulting generalization bounds become unsuitable for overparameterized models used in practical applications.
翻訳日:2022-06-07 17:37:54 公開日:2022-06-03
# 半教師付き医用画像分割のための相互および自己プロトタイプアライメント

Mutual- and Self- Prototype Alignment for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2206.01739v1 )

ライセンス: Link先を確認
Zhenxi Zhang, Chunna Tian, Zhicheng Jiao(参考訳) 医用画像分割作業において,実シナリオにおける画素レベルのアノテーションの不足により,半教師付き学習手法が検討されている。 プロト型アライメントに基づく一貫性制約は、ラベルなしデータの有用な情報を調べるための直観的かつ妥当なソルルメントである。 本稿では、ラベルのないデータをよりよく活用するための相互・自己プロトタイプアライメント(MSPA)フレームワークを提案する。 具体的には、相互プロトタイプアライメントはラベル付きデータとラベルなしデータの間の情報相互作用を強化する。 相互プロトタイプアライメントはラベルなしデータとラベル付きデータの逆方向に2つの一貫性制約を課し、ラベルなしデータに対する一貫性のある埋め込みとモデルの識別を可能にする。 提案した自己プロトタイプアライメントは、半教師付きセグメンテーションにおける分類マージンを最適化し、特徴空間上のクラス内コンパクト性を高め、クラス間分離する。 3つの医療データセットに関する広範な実験の結果は、少量のラベル付きデータによって、mspaがラベル付きデータを活用することで大きな改善を達成していることを示している。 また,提案手法は,3つのデータセットに対して,最先端の半教師付きセグメンテーション手法を7つ上回っている。

Semi-supervised learning methods have been explored in medical image segmentation tasks due to the scarcity of pixel-level annotation in the real scenario. Proto-type alignment based consistency constraint is an intuitional and plausible solu-tion to explore the useful information in the unlabeled data. In this paper, we propose a mutual- and self- prototype alignment (MSPA) framework to better utilize the unlabeled data. In specific, mutual-prototype alignment enhances the information interaction between labeled and unlabeled data. The mutual-prototype alignment imposes two consistency constraints in reverse directions between the unlabeled and labeled data, which enables the consistent embedding and model discriminability on unlabeled data. The proposed self-prototype alignment learns more stable region-wise features within unlabeled images, which optimizes the classification margin in semi-supervised segmentation by boosting the intra-class compactness and inter-class separation on the feature space. Extensive experimental results on three medical datasets demonstrate that with a small amount of labeled data, MSPA achieves large improvements by leveraging the unlabeled data. Our method also outperforms seven state-of-the-art semi-supervised segmentation methods on all three datasets.
翻訳日:2022-06-07 17:15:12 公開日:2022-06-03
# Patcher: 精密な医用画像分割のためのエキスパートの混在したパッチ変換器

Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation ( http://arxiv.org/abs/2206.01741v1 )

ライセンス: Link先を確認
Yanglan Ou, Ye Yuan, Xiaolei Huang, Stephen T.C. Wong, John Volpi, James Z. Wang, Kelvin Wong(参考訳) 本稿では,医療画像分割のための新しいエンコーダ・デコーダビジョントランスフォーマアーキテクチャであるpatcherを提案する。 通常のVision Transformersとは異なり、Pacherブロックを使用して画像を大きなパッチに分割し、それぞれを小さなパッチに分割する。 トランスフォーマーは、大きなパッチ内の小さなパッチに適用され、各ピクセルの受信フィールドが制限される。 故意にパッチを重複させてパッチ内通信を強化する。 エンコーダはPacherブロックのカスケードを使用し、受信フィールドを増やしてローカルからグローバルレベルまで特徴を抽出する。 この設計により、cnnで一般的な粗い特徴抽出とトランスフォーマの優れた空間関係モデリングの両方の恩恵を受けることができる。 また、エンコーダから特徴マップを専門家として扱い、各ピクセルのラベルを予測するための適切な専門家機能を選択する新しいmixed-of-experts(moe)ベースのデコーダを提案する。 MoEを使用することで、エキスパート機能のより優れた特殊化が可能になり、推論中にそれら間の干渉を減らすことができる。 パッチャーは脳卒中病変のセグメンテーションやポリープのセグメンテーションにおいて、最先端のトランスフォーマーやCNNベースのアプローチよりも優れていた。 今後の研究を促進するために、code for patcherが公開される予定だ。

We present a new encoder-decoder Vision Transformer architecture, Patcher, for medical image segmentation. Unlike standard Vision Transformers, it employs Patcher blocks that segment an image into large patches, each of which is further divided into small patches. Transformers are applied to the small patches within a large patch, which constrains the receptive field of each pixel. We intentionally make the large patches overlap to enhance intra-patch communication. The encoder employs a cascade of Patcher blocks with increasing receptive fields to extract features from local to global levels. This design allows Patcher to benefit from both the coarse-to-fine feature extraction common in CNNs and the superior spatial relationship modeling of Transformers. We also propose a new mixture-of-experts (MoE) based decoder, which treats the feature maps from the encoder as experts and selects a suitable set of expert features to predict the label for each pixel. The use of MoE enables better specializations of the expert features and reduces interference between them during inference. Extensive experiments demonstrate that Patcher outperforms state-of-the-art Transformer- and CNN-based approaches significantly on stroke lesion segmentation and polyp segmentation. Code for Patcher will be released with publication to facilitate future research.
翻訳日:2022-06-07 17:14:52 公開日:2022-06-03
# 生体画像分割のための確率的構造表現の学習

Learning Probabilistic Structural Representation for Biomedical Image Segmentation ( http://arxiv.org/abs/2206.01742v1 )

ライセンス: Link先を確認
Xiaoling Hu, Dimitris Samaras and Chao Chen(参考訳) バイオメディカル画像からの様々な微細構造の正確なセグメンテーションは、非常に重要かつ困難な問題である。 既存の手法では、トポロジカルな情報を追加のトレーニング損失として使用するが、最終的にはピクセル単位の表現を学習している。 本稿では,構造表現を学習するための最初の深層学習法を提案する。 離散モース理論と永続ホモロジーを用いて、構造表現空間として構造の1パラメータ族を構成する。 さらに、そのような構造的表現空間上で推論タスクを実行できる確率モデルを学習する。 提案手法の強み,すなわち,トポロジ的整合性に優れた画素マップよりも真の構造を生成すること,構造と構造認識の不確かさのサンプリングを応用した人間のループ内アノテーションパイプラインの実現を実証的に示す。

Accurate segmentation of various fine-scale structures from biomedical images is a very important yet challenging problem. Existing methods use topological information as an additional training loss, but are ultimately learning a pixel-wise representation. In this paper, we propose the first deep learning method to learn a structural representation. We use discrete Morse theory and persistent homology to construct an one-parameter family of structures as the structural representation space. Furthermore, we learn a probabilistic model that can do inference tasks on such a structural representation space. We empirically demonstrate the strength of our method, i.e., generating true structures rather than pixel-maps with better topological integrity, and facilitating a human-in-the-loop annotation pipeline using the sampling of structures and structure-aware uncertainty.
翻訳日:2022-06-07 17:14:28 公開日:2022-06-03
# モバイルデバイス上の実世界画像のリアルタイム超解像

Real-Time Super-Resolution for Real-World Images on Mobile Devices ( http://arxiv.org/abs/2206.01777v1 )

ライセンス: Link先を確認
Jie Cai, Zibo Meng, Jiaming Ding, and Chiu Man Ho(参考訳) Image Super-Resolution (ISR) は、高分解能(HR)画像を対応する低分解能(LR)画像から復元することを目的としている。 isrの最近の進歩は注目に値する。 しかし、最近のアプローチのほとんどはディープラーニングに基づくため、エッジデバイスにデプロイするには計算集約的すぎる。 さらに、これらの手法は常に現実世界のシーンで失敗するが、ほとんどの場合、高画質の画像から固定された「理想的」バイキュビックなダウンサンプリングカーネルを採用してLR/HRトレーニングペアを構築し、周波数関連の詳細の追跡を失う可能性がある。 本研究では,モバイルデバイス上でのリアルタイムIDRに対するアプローチについて述べる。 従来の超高解像度データセット(set5, set14, bsd100, urban100, manga109, div2k)と実世界画像の広範な実験により,この手法は最先端の手法よりも優れており,psnr, ssim, 低ノイズ, 視覚品質が向上した。 最も重要な点は,モバイルおよびエッジデバイス上でのリアルタイムパフォーマンスを実現することだ。

Image Super-Resolution (ISR), which aims at recovering High-Resolution (HR) images from the corresponding Low-Resolution (LR) counterparts. Although recent progress in ISR has been remarkable. However, they are way too computationally intensive to be deployed on edge devices, since most of the recent approaches are deep learning-based. Besides, these methods always fail in real-world scenes, since most of them adopt a simple fixed "ideal" bicubic downsampling kernel from high-quality images to construct LR/HR training pairs which may lose track of frequency-related details. In this work, an approach for real-time ISR on mobile devices is presented, which is able to deal with a wide range of degradations in real-world scenarios. Extensive experiments on traditional super-resolution datasets (Set5, Set14, BSD100, Urban100, Manga109, DIV2K) and real-world images with a variety of degradations demonstrate that our method outperforms the state-of-art methods, resulting in higher PSNR and SSIM, lower noise and better visual quality. Most importantly, our method achieves real-time performance on mobile or edge devices.
翻訳日:2022-06-07 17:14:13 公開日:2022-06-03
# コンテンツ認識メタデータを用いたSRGB-to-Raw-RGBデレンダリングの学習

Learning sRGB-to-Raw-RGB De-rendering with Content-Aware Metadata ( http://arxiv.org/abs/2206.01813v1 )

ライセンス: Link先を確認
Seonghyeon Nam, Abhijith Punnappurath, Marcus A. Brubaker, Michael S. Brown(参考訳) ほとんどのカメライメージは、カメラのハードウェアによって標準RGB(sRGB)フォーマットでレンダリングされ、保存される。 カメラ内フォトフィニッシュルーチンのため、非線形sRGB画像は、ピクセル値とシーンラディアンスとの直接的な関係を仮定するコンピュータビジョンタスクには望ましくない。 このような用途では、線形生RGBセンサイメージが好まれる。 生のRGBフォーマットでのイメージの保存は、大きなストレージ要件と多くのイメージングアプリケーションによるサポート不足のため、依然として珍しくない。 生RGB画像から抽出したメタデータをキャプチャ時にsRGB画像に埋め込んだ「生再構成」手法が提案されている。 このメタデータはマッピング関数をパラメータ化して、必要に応じてsRGBイメージを元のraw-RGBフォーマットに戻します。 既存の生の復元手法は、デレンダリングを行うための単純なサンプリング戦略とグローバルマッピングに依存している。 本稿では,サンプリングと再構成を共同で学習することで,デレンダリング結果を改善する方法を示す。 実験の結果,既存の手法よりも画像内容に適応し,生の再現性を向上できることがわかった。 また,復元ネットワークにおけるオンラインの微調整戦略について述べる。

Most camera images are rendered and saved in the standard RGB (sRGB) format by the camera's hardware. Due to the in-camera photo-finishing routines, nonlinear sRGB images are undesirable for computer vision tasks that assume a direct relationship between pixel values and scene radiance. For such applications, linear raw-RGB sensor images are preferred. Saving images in their raw-RGB format is still uncommon due to the large storage requirement and lack of support by many imaging applications. Several "raw reconstruction" methods have been proposed that utilize specialized metadata sampled from the raw-RGB image at capture time and embedded in the sRGB image. This metadata is used to parameterize a mapping function to de-render the sRGB image back to its original raw-RGB format when needed. Existing raw reconstruction methods rely on simple sampling strategies and global mapping to perform the de-rendering. This paper shows how to improve the de-rendering results by jointly learning sampling and reconstruction. Our experiments show that our learned sampling can adapt to the image content to produce better raw reconstructions than existing methods. We also describe an online fine-tuning strategy for the reconstruction network to improve results further.
翻訳日:2022-06-07 17:12:51 公開日:2022-06-03
# 外れ値の存在下でのロバストな位相推論

Robust Topological Inference in the Presence of Outliers ( http://arxiv.org/abs/2206.01795v1 )

ライセンス: Link先を確認
Siddharth Vishwanath, Bharath K. Sriperumbudur, Kenji Fukumizu and Satoshi Kuriki(参考訳) コンパクト集合への距離関数は、位相データ解析のパラダイムにおいて重要な役割を果たす。 特に、距離関数の部分レベル集合は、位相的データ解析パイプラインのバックボーンである永続ホモロジーの計算に使用される。 ハウスドルフ距離の摂動に対する安定性にもかかわらず、永続ホモロジーは外れ値に対して非常に敏感である。 本研究では,外乱の存在下での持続的ホモロジーに対する統計的推論の枠組みを開発する。 最近の統計学の発展から着想を得て、距離関数の$\textit{median-of-means}$変種($\textsf{MoM Dist}$)を提案し、その統計的性質を確立する。 特に、外れ値が存在する場合でも、$\textsf{mom dist}$ によって引き起こされる下位レベルの濾過と重み付き濾過は、どちらも真に根底にある人口の一貫した推定値であり、ボトルネックメトリックにおける収束率はデータの外れ値の分数によって制御される。 最後に,シミュレーションと応用を通して提案手法の利点を実証する。

The distance function to a compact set plays a crucial role in the paradigm of topological data analysis. In particular, the sublevel sets of the distance function are used in the computation of persistent homology -- a backbone of the topological data analysis pipeline. Despite its stability to perturbations in the Hausdorff distance, persistent homology is highly sensitive to outliers. In this work, we develop a framework of statistical inference for persistent homology in the presence of outliers. Drawing inspiration from recent developments in robust statistics, we propose a $\textit{median-of-means}$ variant of the distance function ($\textsf{MoM Dist}$), and establish its statistical properties. In particular, we show that, even in the presence of outliers, the sublevel filtrations and weighted filtrations induced by $\textsf{MoM Dist}$ are both consistent estimators of the true underlying population counterpart, and their rates of convergence in the bottleneck metric are controlled by the fraction of outliers in the data. Finally, we demonstrate the advantages of the proposed methodology through simulations and applications.
翻訳日:2022-06-07 16:34:57 公開日:2022-06-03
# 対話の関連性: より少ないか? 既存のメトリクスと新しい単純なメトリクスの実証的な比較

Relevance in Dialogue: Is Less More? An Empirical Comparison of Existing Metrics, and a Novel Simple Metric ( http://arxiv.org/abs/2206.01823v1 )

ライセンス: Link先を確認
Ian Berlot-Attwell and Frank Rudzicz(参考訳) 本研究では,既存の対話関連メトリクスを評価し,データセットへの強い依存度を見出すとともに,人間関係のスコアとの相関度が低い場合が多く,相関性を改善しながらデータ要求とドメイン感度を低減するための修正を提案する。 提案手法は,humodデータセットにおける最先端性能を実現し,データセットに対する感度を37%-66%削減する。 事前学習された言語モデルを微調整することなくこれを実現し,3,750個の無注釈の人間の対話と1つの否定的な例のみを用いた。 これらの制限にもかかわらず、異なるドメインの4つのデータセットで競合性能を示す。 メトリクスや実験を含む私たちのコードは、オープンソースです。

In this work, we evaluate various existing dialogue relevance metrics, find strong dependency on the dataset, often with poor correlation with human scores of relevance, and propose modifications to reduce data requirements and domain sensitivity while improving correlation. Our proposed metric achieves state-of-the-art performance on the HUMOD dataset while reducing measured sensitivity to dataset by 37%-66%. We achieve this without fine-tuning a pretrained language model, and using only 3,750 unannotated human dialogues and a single negative example. Despite these limitations, we demonstrate competitive performance on four datasets from different domains. Our code, including our metric and experiments, is open sourced.
翻訳日:2022-06-07 16:33:58 公開日:2022-06-03
# HDDL 2.1: 時間とともにHTN形式を定義する

HDDL 2.1: Towards Defining an HTN Formalism with Time ( http://arxiv.org/abs/2206.01822v1 )

ライセンス: Link先を確認
D. Pellier and H. Fiorino and M. Grand and A. Albore and R. Bailon-Ruiz(参考訳) 産業やロボティクスなどの計画の現実的な応用には、リッチで多様なシナリオをモデル化する必要がある。 彼らの解決は通常、協調的かつ同時実行を必要とする。 いくつかのケースでは、そのような計画問題は階層的な方法で自然に分解され、階層的なタスクネットワーク(HTN)によって表現される。 計画ドメインの指定に使用されるpddl言語は、異なる計画パラダイムをカバーするために進化してきた。 しかし、数値的および時間的制約が解を定義する際に生じる実シナリオと複素シナリオの定式化は依然として課題である。 私たちの提案は、既存の計画言語と運用ニーズのギャップを埋めることを目的としています。 そこで我々は, PDDL 2.1 と ANML からインスピレーションを得て HDDL を拡張し, 時間的および数値的表現を表現することを提案する。 本稿では,HDDLの拡張に必要なセマンティクスと構文について論じるとともに,地球観測衛星計画問題のモデル化について述べる。

Real world applications of planning, like in industry and robotics, require modelling rich and diverse scenarios. Their resolution usually requires coordinated and concurrent action executions. In several cases, such planning problems are naturally decomposed in a hierarchical way and expressed by a Hierarchical Task Network (HTN) formalism. The PDDL language used to specify planning domains has evolved to cover the different planning paradigms. However, formulating real and complex scenarios where numerical and temporal constraints concur in defining a solution is still a challenge. Our proposition aims at filling the gap between existing planning languages and operational needs. To do so, we propose to extend HDDL taking inspiration from PDDL 2.1 and ANML to express temporal and numerical expressions. This paper opens discussions on the semantics and the syntax needed to extend HDDL, and illustrate these needs with the modelling of an Earth Observing Satellite planning problem.
翻訳日:2022-06-07 16:27:57 公開日:2022-06-03
# eaanet:効率的な注意強化畳み込みネットワーク

EAANet: Efficient Attention Augmented Convolutional Networks ( http://arxiv.org/abs/2206.01821v1 )

ライセンス: Link先を確認
Runqing Zhang, Tianshu Zhu(参考訳) 人間は複雑な場面で健全な領域を効果的に見つけることができる。 自己注意機構をコンピュータビジョン(CV)に導入して実現した。 Attention Augmented Convolutional Network (AANet)は、畳み込みと自己アテンションの混合であり、典型的なResNetの精度を高める。 しかし、自己注意の複雑さは、入力トークンの数に関する計算とメモリ使用量の観点から O(n2) である。 本稿では,eaanet: efficient attention augmented convolutional networkを提案する。これは,コンボリューションと自己アテンションのハイブリッドアーキテクチャに効率的な自己アテンション機構を組み込んで,モデルのメモリフットプリントを削減する。 我々の最良のモデルは、AA-NetとResNet18の性能改善を示す。 また,畳み込みネットワークを自己着脱機構で強化する様々な手法を検討し,resnetと比較し,その訓練の難しさを示す。 最後に,ResNetによる効率的な自己認識機構の強化は,通常の自己認識機構よりも入力サイズに優れることを示す。 したがって、eaanetは高解像度の画像を扱うことができる。

Humans can effectively find salient regions in complex scenes. Self-attention mechanisms were introduced into Computer Vision (CV) to achieve this. Attention Augmented Convolutional Network (AANet) is a mixture of convolution and self-attention, which increases the accuracy of a typical ResNet. However, The complexity of self-attention is O(n2) in terms of computation and memory usage with respect to the number of input tokens. In this project, we propose EAANet: Efficient Attention Augmented Convolutional Networks, which incorporates efficient self-attention mechanisms in a convolution and self-attention hybrid architecture to reduce the model's memory footprint. Our best model show performance improvement over AA-Net and ResNet18. We also explore different methods to augment Convolutional Network with self-attention mechanisms and show the difficulty of training those methods compared to ResNet. Finally, we show that augmenting efficient self-attention mechanisms with ResNet scales better with input size than normal self-attention mechanisms. Therefore, our EAANet is more capable of working with high-resolution images.
翻訳日:2022-06-07 16:27:01 公開日:2022-06-03
# 6次元物体ポーズ推定のための空間特徴マッピング

Spatial Feature Mapping for 6DoF Object Pose Estimation ( http://arxiv.org/abs/2206.01831v1 )

ライセンス: Link先を確認
Jianhan Mei, Xudong Jiang, Henghui Ding(参考訳) この研究は、6Dof (6D)オブジェクトのポーズを背景クラッタで推定することを目的としている。 強い咬合と背景雑音を考慮し,この課題に取り組むために空間構造を活用することを提案する。 グラフによって自然に3dメッシュを抽象化できることを観察し、3dポイントを頂点とし、メッシュ接続をエッジとしてグラフを構築します。 2次元画像特徴から3次元点への対応マッピングを構築し,2次元特徴と3次元特徴の融合処理を行う。 その後、グラフ畳み込みネットワーク(gcn)を適用し、3次元空間におけるオブジェクトの点間の特徴交換を支援する。 物体の回転対称性の曖昧性の問題に対処するために、球面畳み込みを利用して、球面の特徴とグラフにマッピングされた畳み込み特徴とを組み合わせる。 予め定義された3Dキーポイントが投票され、フィッティング最適化により6DoFポーズが得られる。 深度情報を持つ2つの推論シナリオとそれを持たない2つのシナリオについて論じる。 YCB-VideoとLINEMODのデータセットを用いて実験を行い,提案手法の有効性を実証した。

This work aims to estimate 6Dof (6D) object pose in background clutter. Considering the strong occlusion and background noise, we propose to utilize the spatial structure for better tackling this challenging task. Observing that the 3D mesh can be naturally abstracted by a graph, we build the graph using 3D points as vertices and mesh connections as edges. We construct the corresponding mapping from 2D image features to 3D points for filling the graph and fusion of the 2D and 3D features. Afterward, a Graph Convolutional Network (GCN) is applied to help the feature exchange among objects' points in 3D space. To address the problem of rotation symmetry ambiguity for objects, a spherical convolution is utilized and the spherical features are combined with the convolutional features that are mapped to the graph. Predefined 3D keypoints are voted and the 6DoF pose is obtained via the fitting optimization. Two scenarios of inference, one with the depth information and the other without it are discussed. Tested on the datasets of YCB-Video and LINEMOD, the experiments demonstrate the effectiveness of our proposed method.
翻訳日:2022-06-07 16:25:51 公開日:2022-06-03
# 画像デハジングのための直交変換に基づく生成逆ネットワーク

Orthogonal Transform based Generative Adversarial Network for Image Dehazing ( http://arxiv.org/abs/2206.01743v1 )

ライセンス: Link先を確認
Ahlad Kumar, Mantra Sanathra, Manish Khare, and Vijeta Khare(参考訳) 画像デハジングは、あらゆるコンピュータビジョンタスクにおいて重要な前処理ステップの1つとなっている。 ほとんどのデハジング手法は、大気光とともに送信マップを推定し、デハジングされた画像を画像領域に取得しようとする。 本稿では,Krawtchouk変換領域におけるデハズ画像を直接推定する,新しいエンドツーエンドアーキテクチャを提案する。 これにより、アーキテクチャにカスタマイズされたKrawtchouk Convolution Layer (KCL)が追加される。 kclは、空間領域からkrawtchouk変換領域へ画像を変換するkrawtchouk基底関数を用いて構築される。 もう一つの畳み込み層は逆クラチョーク畳み込み層 (inverse krawtchouk convolution layer,ikcl) と呼ばれるアーキテクチャの最後に付加され、画像は変換領域から空間領域に変換される。 hazeは主にhazy画像の低周波に存在し、krawtchouk変換は画像の高周波と低周波を別々に解析するのに役立つことが観測されている。 アーキテクチャを2つのブランチに分割し、上位ブランチは高周波数を扱い、下位ブランチは低周波数を扱っています。 下位の分岐は、下位の周波数に存在するヘイズに対処するため、上位の分岐と比較して層の観点からより深くなされる。 画像デハジングのための直交変換に基づく生成逆ネットワーク (otgan) アーキテクチャを用いて, 現状の手法と比較して, 競合する結果を得ることができた。

Image dehazing has become one of the crucial preprocessing steps for any computer vision task. Most of the dehazing methods try to estimate the transmission map along with the atmospheric light to get the dehazed image in the image domain. In this paper, we propose a novel end-to-end architecture that directly estimates dehazed image in Krawtchouk transform domain. For this a customized Krawtchouk Convolution Layer (KCL) in the architecture is added. KCL is constructed using Krawtchouk basis functions which converts the image from the spatial domain to the Krawtchouk transform domain. Another convolution layer is added at the end of the architecture named as Inverse Krawtchouk Convolution Layer (IKCL) which converts the image back to the spatial domain from the transform domain. It has been observed that the haze is mainly present in lower frequencies of hazy images, wherein the Krawtchouk transform helps to analyze the high and low frequencies of the images separately. We have divided our architecture into two branches, the upper branch deals with the higher frequencies while the lower branch deals with the lower frequencies of the image. The lower branch is made deeper in terms of the layers as compared to the upper branch to address the haze present in the lower frequencies. Using the proposed Orthogonal Transform based Generative Adversarial Network (OTGAN) architecture for image dehazing, we were able to achieve competitive results when compared to the present state-of-the-art methods.
翻訳日:2022-06-07 15:20:01 公開日:2022-06-03
# 付加的MIL: 病理の本質的解釈可能性

Additive MIL: Intrinsic Interpretability for Pathology ( http://arxiv.org/abs/2206.01794v1 )

ライセンス: Link先を確認
Syed Ashar Javed, Dinkar Juyal, Harshith Padigela, Amaro Taylor-Weiner, Limin Yu and Aaditya Prakash(参考訳) MIL(Multiple Instance Learning)は、がん診断やグレーディングの自動化、患者の予後予測、治療反応などの重要な問題の解決に広く応用されている。 これらのモデルを臨床環境でデプロイするには、障害を特定し、医師の信頼を維持するために、開発とデプロイメント中にこれらのブラックボックスを慎重に検査する必要がある。 本研究では,同様の予測性能を維持しつつ,解釈可能性を実現するMILモデルの簡単な定式化を提案する。 付加型MILモデルは、画像内の各領域の寄与を正確に計算し視覚化できるように、空間クレジット割り当てを可能にする。 本研究は,病理医が診断に用いた地域と空間クレジットの割り当てが一致し,注意MILモデルによる古典的注意熱マップの改善を示す。 既存のMILモデルは,関数合成の簡単な変更で付加可能であることを示す。 また、これらのモデルがモデルの失敗をデバッグし、スプリアスな特徴を特定し、関心のあるクラス毎の領域をハイライトし、臨床的な意思決定のような高度な環境での使用を可能にする方法を示します。

Multiple Instance Learning (MIL) has been widely applied in pathology towards solving critical problems such as automating cancer diagnosis and grading, predicting patient prognosis, and therapy response. Deploying these models in a clinical setting requires careful inspection of these black boxes during development and deployment to identify failures and maintain physician trust. In this work, we propose a simple formulation of MIL models, which enables interpretability while maintaining similar predictive performance. Our Additive MIL models enable spatial credit assignment such that the contribution of each region in the image can be exactly computed and visualized. We show that our spatial credit assignment coincides with regions used by pathologists during diagnosis and improves upon classical attention heatmaps from attention MIL models. We show that any existing MIL model can be made additive with a simple change in function composition. We also show how these models can debug model failures, identify spurious features, and highlight class-wise regions of interest, enabling their use in high-stakes environments such as clinical decision-making.
翻訳日:2022-06-07 14:44:35 公開日:2022-06-03
# コントラスト学習と非コントラスト学習の双対性について

On the duality between contrastive and non-contrastive self-supervised learning ( http://arxiv.org/abs/2206.02574v1 )

ライセンス: Link先を確認
Quentin Garrido (FAIR, LIGM), Yubei Chen (FAIR), Adrien Bardes (FAIR, WILLOW), Laurent Najman (LIGM), Yann Lecun (FAIR, CIMS)(参考訳) 画像表現の自己教師付き学習における最近のアプローチは、異なる種類の手法に分類することができ、特に、対比的および非矛盾的アプローチに分類できる。 両者の相違は, 新たなアプローチを動機付けるために徹底的に議論されてきたが, 両者の理論的類似性に焦点が当てられている。 代数的に関連し、限られた仮定の下で同値であることが示される対照的で非対照的な基準を設計することにより、それらの族がどれほど近いかを示す。 一般的な手法をさらに研究し、それらのバリエーションを導入し、この理論結果と現在のプラクティスを関連づけ、基準における設計選択が最適化プロセスと下流のパフォーマンスにどのように影響するかを示す。 また、コントラスト法と非コントラスト法がそれぞれ大きなバッチサイズと出力次元を必要とするという一般的な仮定にも挑戦する。 理論的,定量的な結果から,コントラスト法と非コントラスト法との差は,より優れたネットワーク設計選択とハイパーパラメータチューニングによって著しく減少する可能性が示唆された。

Recent approaches in self-supervised learning of image representations can be categorized into different families of methods and, in particular, can be divided into contrastive and non-contrastive approaches. While differences between the two families have been thoroughly discussed to motivate new approaches, we focus more on the theoretical similarities between them. By designing contrastive and non-contrastive criteria that can be related algebraically and shown to be equivalent under limited assumptions, we show how close those families can be. We further study popular methods and introduce variations of them, allowing us to relate this theoretical result to current practices and show how design choices in the criterion can influence the optimization process and downstream performance. We also challenge the popular assumptions that contrastive and non-contrastive methods, respectively, need large batch sizes and output dimensions. Our theoretical and quantitative results suggest that the numerical gaps between contrastive and noncontrastive methods in certain regimes can be significantly reduced given better network design choice and hyperparameter tuning.
翻訳日:2022-06-07 14:15:10 公開日:2022-06-03
# ニューロシンボリック生成モデルを用いた分布の抽出

Drawing out of Distribution with Neuro-Symbolic Generative Models ( http://arxiv.org/abs/2206.01829v1 )

ライセンス: Link先を確認
Yichao Liang, Joshua B. Tenenbaum, Tuan Anh Le, N. Siddharth(参考訳) 知覚入力から汎用表現を学ぶことは、人間の知能の目印である。 例えば、数字や文字を書いたり、落書きを描いても、これらのタスクを同じ一般的なプロセスの異なるインスタンス化、すなわち異なる形式のペンストロークの合成配置として特徴づけることができる。 重要なのは、あるタスク、例えば書くことを学ぶことは、この共有プロセスを考慮して、別のタスク、例えば描画において合理的な能力を意味する。 このような汎用表現を学習できる脳卒中型描画のニューロシンボリック生成モデルであるdraw out distribution (dood)を提案する。 以前の作業とは対照的に、doodは画像上で直接動作し、監督や高価なテストタイム推論を必要としない。 私たちは、データとタスクの両方を一般化する能力についてdoodを評価します。 まず、あるデータセット(例:mnist)から別のデータセット(例:quickdraw)へのゼロショット転送を5つのデータセットで行い、doodが異なるベースラインを明らかに上回っていることを示す。 学習した表現の分析は、シンボリックストロークモデルを採用する利点をさらに強調する。 次に、Omniglotチャレンジタスクのサブセットを採用し、新しい例(条件付きと条件付きの両方)を生成する能力を評価し、ワンショット分類を行い、DooDがアートの状態を一致させることを示す。 総合すると、doodは実際にデータとタスクの両方にまたがる汎用表現をキャプチャし、汎用的で堅牢な概念学習システムを構築するためのさらなる一歩を踏み出します。

Learning general-purpose representations from perceptual inputs is a hallmark of human intelligence. For example, people can write out numbers or characters, or even draw doodles, by characterizing these tasks as different instantiations of the same generic underlying process -- compositional arrangements of different forms of pen strokes. Crucially, learning to do one task, say writing, implies reasonable competence at another, say drawing, on account of this shared process. We present Drawing out of Distribution (DooD), a neuro-symbolic generative model of stroke-based drawing that can learn such general-purpose representations. In contrast to prior work, DooD operates directly on images, requires no supervision or expensive test-time inference, and performs unsupervised amortised inference with a symbolic stroke model that better enables both interpretability and generalization. We evaluate DooD on its ability to generalise across both data and tasks. We first perform zero-shot transfer from one dataset (e.g. MNIST) to another (e.g. Quickdraw), across five different datasets, and show that DooD clearly outperforms different baselines. An analysis of the learnt representations further highlights the benefits of adopting a symbolic stroke model. We then adopt a subset of the Omniglot challenge tasks, and evaluate its ability to generate new exemplars (both unconditionally and conditionally), and perform one-shot classification, showing that DooD matches the state of the art. Taken together, we demonstrate that DooD does indeed capture general-purpose representations across both data and task, and takes a further step towards building general and robust concept-learning systems.
翻訳日:2022-06-07 14:11:58 公開日:2022-06-03
# 資源効率の良いRGBオブジェクト検出のためのレーダ誘導動的ビジュアルアテンション

Radar Guided Dynamic Visual Attention for Resource-Efficient RGB Object Detection ( http://arxiv.org/abs/2206.01772v1 )

ライセンス: Link先を確認
Hemant Kumawat and Saibal Mukhopadhyay(参考訳) 自律システムの知覚エンジンは、意思決定を行うための環境の正確な理解を提供する必要がある。 ディープラーニングに基づくオブジェクト検出ネットワークは、ネットワークの上位層に移行すると、オブジェクトの特徴マップが減少するため、小・遠方のオブジェクトの性能と堅牢性が低下する。 本研究では,RGB画像に対するレーダ誘導型空間アテンションを新たに提案し,ダイナミック環境で動作する自動運転車の知覚品質を向上させることを目的とする。 特に,本手法は,RGBモードの物体検出器では検出されない小・長距離物体の知覚を向上させる。 提案手法は2つのRGBオブジェクト検出器,すなわちプライマリ検出器と軽量二次検出器から構成される。 主検出器は完全なRGB画像を取得し、一次検出を生成する。 次に、レーダ提案フレームワークは、レーダポイントクラウドを2D RGBイメージに投影することにより、オブジェクト提案の関心領域(ROI)を作成する。 これらのroisは切り抜かれ、二次検出器に供給され、二次検出を生成し、非最大抑制によって一次検出と融合する。 本手法は, 物体の空間的特徴を受容場の増加を通じて保持することにより, 小物体の回収を支援する。 また,ssd-liteを1次および2次検出器とする融合手法は,計算資源を3倍削減しつつ,基礎となる1次ヨーロフ3検出器のリコールを14%向上させることを示した。

An autonomous system's perception engine must provide an accurate understanding of the environment for it to make decisions. Deep learning based object detection networks experience degradation in the performance and robustness for small and far away objects due to a reduction in object's feature map as we move to higher layers of the network. In this work, we propose a novel radar-guided spatial attention for RGB images to improve the perception quality of autonomous vehicles operating in a dynamic environment. In particular, our method improves the perception of small and long range objects, which are often not detected by the object detectors in RGB mode. The proposed method consists of two RGB object detectors, namely the Primary detector and a lightweight Secondary detector. The primary detector takes a full RGB image and generates primary detections. Next, the radar proposal framework creates regions of interest (ROIs) for object proposals by projecting the radar point cloud onto the 2D RGB image. These ROIs are cropped and fed to the secondary detector to generate secondary detections which are then fused with the primary detections via non-maximum suppression. This method helps in recovering the small objects by preserving the object's spatial features through an increase in their receptive field. We evaluate our fusion method on the challenging nuScenes dataset and show that our fusion method with SSD-lite as primary and secondary detector improves the baseline primary yolov3 detector's recall by 14% while requiring three times fewer computational resources.
翻訳日:2022-06-07 14:08:00 公開日:2022-06-03
# EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021 参加報告

Team VI-I2R Technical Report on EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021 ( http://arxiv.org/abs/2206.02573v1 )

ライセンス: Link先を確認
Yi Cheng, Fen Fang, Ying Sun(参考訳) 本稿では、epic-kitchens-100unsupervised domain adaptation (uda) challenge for action recognitionに関する技術的詳細を紹介する。 EPIC-KITCHENS-100データセットは、人間の手と周囲の物体との相互作用に焦点を当てた日常的なキッチン活動で構成されている。 オブジェクトや視覚的に類似したアクションクラスが存在するため、特に乱れのないターゲットドメインにおいて、これらのきめ細かいアクティビティを正確に認識することは非常に困難である。 ビデオ領域適応のための既存の手法,すなわちTA3Nに基づいて,UDAのハンドバウンディングボックス情報を微細な動作認識に活用して手中心の特徴を学習することを提案する。 これは背景からの気晴らしを減らし、ドメイン不変の機能の学習を促進するのに役立つ。 高品質なハンドローカライズを実現するために,不確実性認識型ドメイン適応ネットワーク,すなわちmeaaを用いて,ソースドメイン内で非常に限定されたハンドバウンディングボックスアノテーションのみを使用するが,ラベルなしのターゲットドメインにうまく一般化可能なドメイン適応型ハンド検出器を訓練する。 提案手法は,RGBと光フローモードのみを入力として,トップ1の動作認識精度で第1位を達成した。

In this report, we present the technical details of our approach to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation (UDA) Challenge for Action Recognition. The EPIC-KITCHENS-100 dataset consists of daily kitchen activities focusing on the interaction between human hands and their surrounding objects. It is very challenging to accurately recognize these fine-grained activities, due to the presence of distracting objects and visually similar action classes, especially in the unlabelled target domain. Based on an existing method for video domain adaptation, i.e., TA3N, we propose to learn hand-centric features by leveraging the hand bounding box information for UDA on fine-grained action recognition. This helps reduce the distraction from background as well as facilitate the learning of domain-invariant features. To achieve high quality hand localization, we adopt an uncertainty-aware domain adaptation network, i.e., MEAA, to train a domain-adaptive hand detector, which only uses very limited hand bounding box annotations in the source domain but can generalize well to the unlabelled target domain. Our submission achieved the 1st place in terms of top-1 action recognition accuracy, using only RGB and optical flow modalities as input.
翻訳日:2022-06-07 14:03:56 公開日:2022-06-03
# 機械学習における不確実性推定

Uncertainty Estimation in Machine Learning ( http://arxiv.org/abs/2206.01749v1 )

ライセンス: Link先を確認
Valentin Arkov(参考訳) ほとんどの機械学習技術は統計学習理論に基づいており、計算速度のために単純化されることが多い。 本稿では,機械学習における数学的モデリングの不確実性に着目した。 回帰分析は、モデル係数の不確かさの評価側面と、さらに重要なことに、出力特徴値予測についてさらに検討するために選択される。 回帰モデルの作成に対する従来の最小二乗法の主要な段階とその不確実性の推定を示す。 一方,機械学習においては,モデルの複雑さと厳密な非線形性は不確実性評価の重大な障害となる。 さらに、マシンモデルトレーニングのプロセスは、パーソナルコンピュータのレベルでは利用できない高い計算能力を必要とする。 そのため、自然言語処理のような機械学習の分野で、いわゆる事前学習モデルが広く使われている。 事前トレーニングモデルの最新の例は、数十億のパラメータと半テラバイトのトレーニングデータセットを備えたGenerative Pre-trained Transformer 3である。 同様に、実データから構築された数学モデルは、トレーニングデータの量の増加に伴う複雑さが増大しています。 しかし、マシンモデルとその予測が意思決定に使用される場合、不確実性を推定し、関連するリスクを評価する必要がある。 この問題は、従来の中央プロセッサとともにグラフィカルおよびテンソル処理ユニットを利用するものを含む、現代のスーパーコンピュータが提供できる計算パワーの需要を犠牲にして、非パラメトリック技術で解決することができる。

Most machine learning techniques are based upon statistical learning theory, often simplified for the sake of computing speed. This paper is focused on the uncertainty aspect of mathematical modeling in machine learning. Regression analysis is chosen to further investigate the evaluation aspect of uncertainty in model coefficients and, more importantly, in the output feature value predictions. A survey demonstrates major stages in the conventional least squares approach to the creation of the regression model, along with its uncertainty estimation. On the other hand, it is shown that in machine learning the model complexity and severe nonlinearity become serious obstacles to uncertainty evaluation. Furthermore, the process of machine model training demands high computing power, not available at the level of personal computers. This is why so-called pre-trained models are widely used in such areas of machine learning as natural language processing. The latest example of a pre-trained model is the Generative Pre-trained Transformer 3 with hundreds of billions of parameters and a half-terabyte training dataset. Similarly, mathematical models built from real data are growing in complexity which is accompanied by the growing amount of training data. However, when machine models and their predictions are used in decision-making, one needs to estimate uncertainty and evaluate accompanying risks. This problem could be resolved with non-parametric techniques at the expense of greater demand for computing power, which can be offered by modern supercomputers available, including those utilizing graphical and tensor processing units along with the conventional central processors.
翻訳日:2022-06-07 14:02:10 公開日:2022-06-03
# QAGCN: グラフ畳み込みネットワークに基づくマルチリレーション質問応答システム

QAGCN: A Graph Convolutional Network-based Multi-Relation Question Answering System ( http://arxiv.org/abs/2206.01818v1 )

ライセンス: Link先を確認
Ruijie Wang, Luca Rossetto, Michael Cochez, Abraham Bernstein(参考訳) 知識グラフに対するマルチリレーショナルな疑問に答えることは、膨大な数の経路に対する多段階の推論を必要とするため、難しい課題である。 強化学習に基づくシーケンシャル意思決定などの複雑な推論機構を持つ推論に基づく手法が,この課題のデフォルトパスとみなされてきた。 しかし、これらのメカニズムは実装や訓練が難しいため、再現性と新しいドメインへの転送性が損なわれる。 本稿では,知識グラフのエンコーディング中にマルチステップ推論が可能な注意グラフ畳み込みネットワークを活用した,単純かつ効果的で斬新なモデルであるqagcnを提案する。 その結果、複雑な推論機構は避けられる。 さらに,効率を向上させるために,高効率な埋め込み計算を用いて解を抽出し,解答に対する解釈可能な経路を抽出する。 広く採用されているベンチマークデータセットでは、提案されたモデルは複雑な推論メカニズムに依存する最先端のメソッドと競合することが示されている。 また,モデルの各コンポーネントの効率と貢献度を調べるため,広範囲にわたる実験を行った。

Answering multi-relation questions over knowledge graphs is a challenging task as it requires multi-step reasoning over a huge number of possible paths. Reasoning-based methods with complex reasoning mechanisms, such as reinforcement learning-based sequential decision making, have been regarded as the default pathway for this task. However, these mechanisms are difficult to implement and train, which hampers their reproducibility and transferability to new domains. In this paper, we propose QAGCN - a simple but effective and novel model that leverages attentional graph convolutional networks that can perform multi-step reasoning during the encoding of knowledge graphs. As a consequence, complex reasoning mechanisms are avoided. In addition, to improve efficiency, we retrieve answers using highly-efficient embedding computations and, for better interpretability, we extract interpretable paths for returned answers. On widely adopted benchmark datasets, the proposed model has been demonstrated competitive against state-of-the-art methods that rely on complex reasoning mechanisms. We also conducted extensive experiments to scrutinize the efficiency and contribution of each component of our model.
翻訳日:2022-06-07 12:51:08 公開日:2022-06-03
# (参考訳) multihiertt: multi hierarchy tabular and textual data による数値推論

MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data ( http://arxiv.org/abs/2206.01347v1 )

ライセンス: CC BY 4.0
Yilun Zhao, Yunxiang Li, Chenying Li, Rui Zhang(参考訳) テキストと表形式のコンテンツ(例えば財務報告)を含むハイブリッドデータに対する数値推論は、最近NLPコミュニティで注目を集めている。 しかし、既存のハイブリッドデータに対する質問応答(QA)ベンチマークでは、各文書に1つのフラットテーブルしか含まれておらず、複数の階層テーブルにまたがる多段階の数値推論の例が欠如している。 データ解析の進展を容易にするため,マルチ階層タブラリおよびテキストデータ上でQAペアを用いた大規模ベンチマークであるMultiHierttを構築した。 multihierttは豊富な財務報告から成り立っており、次のような特徴を持っている。 1) 各書類には,複数の表と長文を含む。 2) 表のほとんどが階層構造である。 3)各質問に必要な推論プロセスは,既存のベンチマークよりも複雑かつ困難である。 4) 複雑な数値推論を明らかにするために, 推論プロセスの微粒化アノテーションと支援事実を提供する。 さらに、MT2Netと呼ばれる新しいQAモデルを導入し、まず、テーブルとテキストの両方から関連する支援事実を抽出し、その後、検索された事実に対してシンボリック推論を行うために推論モジュールを使用する。 各種ベースラインの総合的な実験を行う。 実験の結果,マルチhierttは,既存のベースラインにおいて,人間専門家のパフォーマンスにはるかに遅れている,強い課題を呈することが示された。 データセットとコードはhttps://github.com/psunlpgroup/multihierttで公開されている。

Numerical reasoning over hybrid data containing both textual and tabular content (e.g., financial reports) has recently attracted much attention in the NLP community. However, existing question answering (QA) benchmarks over hybrid data only include a single flat table in each document and thus lack examples of multi-step numerical reasoning across multiple hierarchical tables. To facilitate data analytical progress, we construct a new large-scale benchmark, MultiHiertt, with QA pairs over Multi Hierarchical Tabular and Textual data. MultiHiertt is built from a wealth of financial reports and has the following unique characteristics: 1) each document contain multiple tables and longer unstructured texts; 2) most of tables contained are hierarchical; 3) the reasoning process required for each question is more complex and challenging than existing benchmarks; and 4) fine-grained annotations of reasoning processes and supporting facts are provided to reveal complex numerical reasoning. We further introduce a novel QA model termed MT2Net, which first applies facts retrieving to extract relevant supporting facts from both tables and text and then uses a reasoning module to perform symbolic reasoning over retrieved facts. We conduct comprehensive experiments on various baselines. The experimental results show that MultiHiertt presents a strong challenge for existing baselines whose results lag far behind the performance of human experts. The dataset and code are publicly available at https://github.com/psunlpgroup/MultiHiertt.
翻訳日:2022-06-07 03:31:06 公開日:2022-06-03
# (参考訳) 人間の視覚に対する敵対的攻撃

Adversarial Attacks on Human Vision ( http://arxiv.org/abs/2206.01365v1 )

ライセンス: CC BY 4.0
Victor A. Mateescu and Ivan V. Baji\'c(参考訳) この記事では、視覚注意再ターゲティングの紹介、視覚的なサリエンシーとの関係、それに関連する課題、どのようにアプローチするかのアイデアを紹介する。 サリエンシー・インバージョン問題としての注意再ターゲティングの難しさは、サリエンシーと画像ドメインの1対1のマッピングの欠如と、サリエンシーの変化が画像美学に悪影響を及ぼす可能性があることにある。 この課題を解決するための最近の文献からのいくつかのアプローチを概説し、今後の発展に向けたいくつかの提案を述べる。

This article presents an introduction to visual attention retargeting, its connection to visual saliency, the challenges associated with it, and ideas for how it can be approached. The difficulty of attention retargeting as a saliency inversion problem lies in the lack of one-to-one mapping between saliency and the image domain, in addition to the possible negative impact of saliency alterations on image aesthetics. A few approaches from recent literature to solve this challenging problem are reviewed, and several suggestions for future development are presented.
翻訳日:2022-06-07 03:12:13 公開日:2022-06-03
# (参考訳) システム不均一性を考慮したフェデレーション画像分類のためのスーパーネットトレーニング

Supernet Training for Federated Image Classification under System Heterogeneity ( http://arxiv.org/abs/2206.01366v1 )

ライセンス: CC BY 4.0
Taehyeon Kim, Se-Young Yun(参考訳) 多くのデバイスにまたがるディープニューラルネットワークの効率的なデプロイと、特にエッジデバイスにおけるリソース制約は、データプライバシ保護問題の存在において最も難しい問題の1つである。 従来のアプローチは、各ローカルトレーニングデータを分散化(すなわちデータヘテロゲニティ)しながら単一のグローバルモデルを改善するか、異なる計算能力(すなわちモデルヘテロゲニティ)を備えた異種システムに対処するために、さまざまなアーキテクチャ設定をサポートする1回限りのネットワークをトレーニングするために進化してきた。 しかし、両方向を同時に考える研究はほとんどない。 本研究では,クライアントがスーパーネットを送信して受信するFedSup(Federation of Supernet Training)という,両方のシナリオを検討するための新しいフレームワークを提案する。 これは、フェデレーション学習(fl)のモデル集約段階における平均パラメータがスーパーネットトレーニングにおけるウェイトシェアリングにどのように似ているかに着想を得ている。 具体的には、FedSupフレームワークでは、トレーニングシングルショットモデルで広く使用されているウェイトシェアリングアプローチと、フェデレートラーニング(FedAvg)の平均値を組み合わせる。 本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。 FL環境におけるスーパーネットトレーニングを強化し,広範な経験的評価を行うためのいくつかの戦略を実証する。 結果として得られたフレームワークは、いくつかの標準ベンチマークにおいて、データとモデルヘテロジネスの両方の堅牢性の道を開く。

Efficient deployment of deep neural networks across many devices and resource constraints, especially on edge devices, is one of the most challenging problems in the presence of data-privacy preservation issues. Conventional approaches have evolved to either improve a single global model while keeping each local training data decentralized (i.e., data-heterogeneity) or to train a once-for-all network that supports diverse architectural settings to address heterogeneous systems equipped with different computational capabilities (i.e., model-heterogeneity). However, little research has considered both directions simultaneously. In this work, we propose a novel framework to consider both scenarios, namely Federation of Supernet Training (FedSup), where clients send and receive a supernet whereby it contains all possible architectures sampled from itself. It is inspired by how averaging parameters in the model aggregation stage of Federated Learning (FL) is similar to weight-sharing in supernet training. Specifically, in the FedSup framework, a weight-sharing approach widely used in the training single shot model is combined with the averaging of Federated Learning (FedAvg). Under our framework, we present an efficient algorithm (E-FedSup) by sending the sub-model to clients in the broadcast stage for reducing communication costs and training overhead. We demonstrate several strategies to enhance supernet training in the FL environment and conduct extensive empirical evaluations. The resulting framework is shown to pave the way for the robustness of both data- and model-heterogeneity on several standard benchmarks.
翻訳日:2022-06-07 03:00:29 公開日:2022-06-03
# (参考訳) 敵意のない学習: 敵意に沿った信頼の低下

Adversarial Unlearning: Reducing Confidence Along Adversarial Directions ( http://arxiv.org/abs/2206.01367v1 )

ライセンス: CC BY 4.0
Amrith Setlur, Benjamin Eysenbach, Virginia Smith, Sergey Levine(参考訳) 最大確率目標でトレーニングされた教師付き学習方法は、しばしばトレーニングデータに過剰に適合する。 過剰フィッティングを防止するほとんどのレギュレータは、追加の例(データ拡張、敵意トレーニングなど)への信頼を高めたり、トレーニングデータ(ラベル平滑化など)でそれを削減したりする。 本研究では,自己生成例に対する信頼度を低下させる補完的正規化戦略を提案する。 rcad (reducing confidence along adversarial direction) と呼ぶこの手法は、方向に沿って横たわる分散例に対する信頼性を低下させ、トレーニング損失を増大させることを目的としています。 敵意トレーニングとは対照的に、rcadはモデルを堅牢化して元のラベルを出力するのではなく、従来の敵意トレーニングよりも大きな摂動を用いて生成される点に対する信頼度を低下させるように規則化する。 RCADは、数行のコードで簡単にトレーニングパイプラインに統合できる。 その単純さにもかかわらず、rcadが既存の技術(例えばラベルスムーシング、ミックスアップトレーニング)に追加できるという多くの分類ベンチマークでは、絶対値が1~3%向上し、低データレジームではさらに大きな改善が見られた。 また、これらの利点を簡易な設定で説明するための理論的分析を行い、RCADがトレーニングデータ内の素早い特徴を学習するのに役立つことを示す。

Supervised learning methods trained with maximum likelihood objectives often overfit on training data. Most regularizers that prevent overfitting look to increase confidence on additional examples (e.g., data augmentation, adversarial training), or reduce it on training data (e.g., label smoothing). In this work we propose a complementary regularization strategy that reduces confidence on self-generated examples. The method, which we call RCAD (Reducing Confidence along Adversarial Directions), aims to reduce confidence on out-of-distribution examples lying along directions adversarially chosen to increase training loss. In contrast to adversarial training, RCAD does not try to robustify the model to output the original label, but rather regularizes it to have reduced confidence on points generated using much larger perturbations than in conventional adversarial training. RCAD can be easily integrated into training pipelines with a few lines of code. Despite its simplicity, we find on many classification benchmarks that RCAD can be added to existing techniques (e.g., label smoothing, MixUp training) to increase test accuracy by 1-3% in absolute value, with more significant gains in the low data regime. We also provide a theoretical analysis that helps to explain these benefits in simplified settings, showing that RCAD can provably help the model unlearn spurious features in the training data.
翻訳日:2022-06-07 02:39:08 公開日:2022-06-03
# (参考訳) インクリメンタルラーニングとトランスファーラーニング:多地点MRIセグメンテーションへの応用

Incremental Learning Meets Transfer Learning: Application to Multi-site Prostate MRI Segmentation ( http://arxiv.org/abs/2206.01369v1 )

ライセンス: CC BY 4.0
Chenyu You, Jinlin Xiang, Kun Su, Xiaoran Zhang, Siyuan Dong, John Onofrey, Lawrence Staib, James S. Duncan(参考訳) 近年,医療画像のセグメンテーションタスクのために多くの医療データセットが作成されており,(1)これらのデータセットの精度を向上し,(2)正常に一般化し,未知のサイトドメインに転送する単一モデルを逐次訓練できるかどうかに疑問が呈されている。 従来の作業では、平均的な競合性能を達成するマルチサイトデータセットで1つのモデルを共同トレーニングすることで、この目標を達成していたが、そのような方法は、すべてのトレーニングデータの可用性に関する仮定に依存しているため、実際のデプロイメントでの有効性が制限される。 本稿では,マルチサイトデータセットからエンドツーエンドシーケンシャルにモデルを学習するインクリメンタル・トランスファー・ラーニング(itl)と呼ばれる新しいマルチサイトセグメンテーションフレームワークを提案する。 具体的には、インクリメンタル(incremental)とは、シーケンシャルに構築されたデータセットをトレーニングすることであり、各データセットに埋め込み機能の線形結合から有用な情報を活用することで、"トランスファー(transfer)"を実現する。 さらに,事前にトレーニングした重み付きサイト非依存エンコーダと,少なくとも2つのセグメンテーションデコーダヘッドを含むネットワークをトレーニングする ITL フレームワークを導入する。 ターゲットドメインをうまく一般化するために、新しいサイトレベルのインクリメンタルな損失も設計します。 第2に, itlの学習方法を活用することで, 漸進的学習における難解な難題を軽減できることを初めて示す。 5つの挑戦的なベンチマークデータセットを用いて実験を行い、インクリメンタルトランスファー学習アプローチの有効性を検証する。 本手法は計算資源とドメイン固有の専門知識の仮定を最小化し,多地点医用画像セグメンテーションにおいて強固な出発点となる。

Many medical datasets have recently been created for medical image segmentation tasks, and it is natural to question whether we can use them to sequentially train a single model that (1) performs better on all these datasets, and (2) generalizes well and transfers better to the unknown target site domain. Prior works have achieved this goal by jointly training one model on multi-site datasets, which achieve competitive performance on average but such methods rely on the assumption about the availability of all training data, thus limiting its effectiveness in practical deployment. In this paper, we propose a novel multi-site segmentation framework called incremental-transfer learning (ITL), which learns a model from multi-site datasets in an end-to-end sequential fashion. Specifically, "incremental" refers to training sequentially constructed datasets, and "transfer" is achieved by leveraging useful information from the linear combination of embedding features on each dataset. In addition, we introduce our ITL framework, where we train the network including a site-agnostic encoder with pre-trained weights and at most two segmentation decoder heads. We also design a novel site-level incremental loss in order to generalize well on the target domain. Second, we show for the first time that leveraging our ITL training scheme is able to alleviate challenging catastrophic forgetting problems in incremental learning. We conduct experiments using five challenging benchmark datasets to validate the effectiveness of our incremental-transfer learning approach. Our approach makes minimal assumptions on computation resources and domain-specific expertise, and hence constitutes a strong starting point in multi-site medical image segmentation.
翻訳日:2022-06-07 02:37:46 公開日:2022-06-03
# (参考訳) 構成場面理解のためのスロットオーダー事項

Slot Order Matters for Compositional Scene Understanding ( http://arxiv.org/abs/2206.01370v1 )

ライセンス: CC BY 4.0
Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan(参考訳) 環境の構成的理解によるエージェントの強化は、長期計画問題の解決に向けた有望な次のステップである。 一方で,非構造的なシーン観測からオブジェクト中心の潜在表現集合(「スロット」)を得るための変分推論アルゴリズムの進歩を奨励している。 一方で、スロットからのシーン生成は、標準的なオブジェクト順序の欠如が複雑であることから、あまり注目されていない。 正準オブジェクト順序は、ピクセルレベルの自己回帰画像生成のためのピクセル相関の学習を容易にするラスタースキャン順序に似た物理的に妥当なシーンを生成するのに必要なオブジェクト相関の学習に有用である。 本研究では,単一レベルの自己回帰スロットとグローバルなシーンを持つ階層的変分オートエンコーダの固定オブジェクト順序を学習することで,この問題に対処する。 自己回帰スロット推論をセット・トゥ・シーケンス・モデリング問題として採用した。 固定順序でオブジェクトを生成する前にスロットをトレーニングするために補助的損失を導入する。 推論中は、スロット先行ロールアウトから得られたオブジェクト順序に、一連の推論スロットをアライメントする。 ロールアウトされたオブジェクトが所定のシーンで意味のあるものであることを保証するため、インプットの推論されたグローバルサマリーに事前条件を定める。 合成環境とアブレーションの実験により,グローバルプリエントによるモデル,スロット順序の整合による推論,補助損失が最先端のサンプル品質を達成することを実証した。

Empowering agents with a compositional understanding of their environment is a promising next step toward solving long-horizon planning problems. On the one hand, we have seen encouraging progress on variational inference algorithms for obtaining sets of object-centric latent representations ("slots") from unstructured scene observations. On the other hand, generating scenes from slots has received less attention, in part because it is complicated by the lack of a canonical object order. A canonical object order is useful for learning the object correlations necessary to generate physically plausible scenes similar to how raster scan order facilitates learning pixel correlations for pixel-level autoregressive image generation. In this work, we address this lack by learning a fixed object order for a hierarchical variational autoencoder with a single level of autoregressive slots and a global scene prior. We cast autoregressive slot inference as a set-to-sequence modeling problem. We introduce an auxiliary loss to train the slot prior to generate objects in a fixed order. During inference, we align a set of inferred slots to the object order obtained from a slot prior rollout. To ensure the rolled out objects are meaningful for the given scene, we condition the prior on an inferred global summary of the input. Experiments on compositional environments and ablations demonstrate that our model with global prior, inference with aligned slot order, and auxiliary loss achieves state-of-the-art sample quality.
翻訳日:2022-06-07 02:23:24 公開日:2022-06-03
# (参考訳) Falconn++: 近似近傍探索のための局所性に敏感なフィルタリング手法

Falconn++: A Locality-sensitive Filtering Approach for Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2206.01382v1 )

ライセンス: CC BY 4.0
Ninh Pham and Tao Liu(参考訳) 角距離近傍探索のための新しい局所性感性フィルタリング(LSF)手法であるFalconn++を提案する。 Falconn++はクエリの前に任意のハッシュバケット内の潜在的遠方点をフィルタリングすることができるため、他のハッシュベースのソリューションと比較して高品質な候補が生まれる。 理論的には、falconn++は角距離の最適局所性に敏感なハッシュスキームであるfalconnよりもクエリ時間の複雑さを漸近的に向上させる。 経験上、falconn++は多くの現実世界のデータセットでfalconnよりも高いリコール速度のトレードオフを達成している。 Falconn++はまた、高検索リコール方式におけるグラフベースのソリューションの効率的な代表であるHNSWと競合している。

We present Falconn++, a novel locality-sensitive filtering (LSF) approach for approximate nearest neighbor search on angular distance. Falconn++ can filter out potential far away points in any hash bucket before querying, which results in higher quality candidates compared to other hashing-based solutions. Theoretically, Falconn++ asymptotically achieves lower query time complexity than Falconn, an optimal locality-sensitive hashing scheme on angular distance. Empirically, Falconn++ achieves a higher recall-speed tradeoff than Falconn on many real-world data sets. Falconn++ is also competitive against HNSW, an efficient representative of graph-based solutions on high search recall regimes.
翻訳日:2022-06-07 01:41:35 公開日:2022-06-03
# (参考訳) メタLR: 適応的微調整医療予習モデルのためのメタラーニングに基づく階層学習率

MetaLR: Layer-wise Learning Rate based on Meta-Learning for Adaptively Fine-tuning Medical Pre-trained Models ( http://arxiv.org/abs/2206.01408v1 )

ライセンス: CC BY 4.0
Yixiong Chen, Jingxian Li, Hua Jiang, Li Liu, Chris Ding(参考訳) 医用画像解析に転写学習を適用する場合、下流タスクはトレーニング前のタスクと大きなギャップを持つことが多い。 従来の方法は、主にギャップを埋めるために事前訓練されたモデルの転送能力を改善することに重点を置いていた。 実際、モデルの微調整はこの問題に取り組む上で非常に重要な役割を果たす。 従来の微調整手法では、異なるレイヤのユニークな転送能力を無視した1つの学習レート(LR)で、ディープニューラルネットワーク(DNN)層を更新する。 本研究では,微調整段階における異なる層の挙動について検討する。 より正確には、我々はまず、下位層はよりドメイン固有であり、上位層はよりタスク固有であると仮定し、単純な双方向微調整方式で検証する。 トレーニング済みの特定のレイヤが一般的なレイヤよりも新しいタスクに移行するのは困難です。 そこで本研究では,各層にLRを自動的に割り当てるメタ学習型LR学習器,メタLRを提案する。 様々な医療応用(pocus, busi, chest x-ray, lits)に関する広範囲な実験により,提案手法が従来法よりも優れた性能を示した。

When applying transfer learning for medical image analysis, downstream tasks often have significant gaps with the pre-training tasks. Previous methods mainly focus on improving the transferabilities of the pre-trained models to bridge the gaps. In fact, model fine-tuning can also play a very important role in tackling this problem. A conventional fine-tuning method is updating all deep neural networks (DNNs) layers by a single learning rate (LR), which ignores the unique transferabilities of different layers. In this work, we explore the behaviors of different layers in the fine-tuning stage. More precisely, we first hypothesize that lower-level layers are more domain-specific while higher-level layers are more task-specific, which is verified by a simple bi-directional fine-tuning scheme. It is harder for the pre-trained specific layers to transfer to new tasks than general layers. On this basis, to make different layers better co-adapt to the downstream tasks according to their transferabilities, a meta-learning-based LR learner, namely MetaLR, is proposed to assign LRs for each layer automatically. Extensive experiments on various medical applications (i.e., POCUS, BUSI, Chest X-ray, and LiTS) well confirm our hypothesis and show the superior performance of the proposed methods to previous state-of-the-art fine-tuning methods.
翻訳日:2022-06-07 01:25:07 公開日:2022-06-03
# (参考訳) トランスフォーマーニューラルネットワークによる公正分類:教育領域を事例として

Fair Classification via Transformer Neural Networks: Case Study of an Educational Domain ( http://arxiv.org/abs/2206.01410v1 )

ライセンス: CC BY 4.0
Modar Sulaiman, Kallol Roy(参考訳) 近年、教育技術はデータと機械学習(ML)モデルの利用が増えている。 これにより、学生、インストラクター、管理者が最適な政策を支援することができる。 しかし、MLモデルが偏見の対象であることはよく知られており、これら自動化MLアルゴリズムを教育に使用する公平性、偏見、差別性や、意図しない、予期せぬ負の結果に懸念が生じる。 意思決定におけるバイアスの寄与は、MLモデルとモデルアーキテクチャのトレーニングに使用されるデータセットから来ています。 本稿では,Law SchoolとStudent-Mathematicsデータセットにおけるトランスフォーマーニューラルネットワークの公正性制約に関する予備的検討を行う。 使用するトランスフォーマーモデルは、フェアネス分類を解きながら、これらの生データセットを自然言語処理(nlp)のよりリッチな表現空間に変換する。 評価のために公正度指標を採用し、公正度と正確性の間のトレードオフをチェックした。 我々は、F1、SPD、EDDの様々な測定値と、トランスフォーマーモデルクラスから異なるアーキテクチャの精度を報告した。

Educational technologies nowadays increasingly use data and Machine Learning (ML) models. This gives the students, instructors, and administrators support and insights for the optimum policy. However, it is well acknowledged that ML models are subject to bias, which raises concern about the fairness, bias, and discrimination of using these automated ML algorithms in education and its unintended and unforeseen negative consequences. The contribution of bias during the decision-making comes from datasets used for training ML models and the model architecture. This paper presents a preliminary investigation of fairness constraint in transformer neural networks on Law School and Student-Mathematics datasets. The used transformer models transform these raw datasets into a richer representation space of natural language processing (NLP) while solving fairness classification. We have employed fairness metrics for evaluation and check the trade-off between fairness and accuracy. We have reported the various metrics of F1, SPD, EOD, and accuracy for different architectures from the transformer model class.
翻訳日:2022-06-07 01:14:10 公開日:2022-06-03
# (参考訳) 自律空中操作のためのワンショット学習

One-shot Learning for Autonomous Aerial Manipulation ( http://arxiv.org/abs/2206.01411v1 )

ライセンス: CC BY 4.0
Claudio Zito and Eliseo Ferrante(参考訳) 本稿では,航空操作タスクにおける移動可能な接触モデルの学習について述べる。 本研究では,無人航空機とケーブル吊り下げ式受動グリップを用いた接触型アプローチにより,航空輸送用の新しいペイロードのアタッチポイントを計算する。 このようなタスクに対して自律的にコンタクトポイントを生成する問題は、これが初めてである。 我々のアプローチは、1つのデモンストレーションから物体の表面上の接触の確率密度を学習できるという基盤となるアイデアに基づいている。 提案手法は,単発学習パラダイムを維持しつつ,手作業に依存しない機能やアドホックなヒューリスティックスを用いることなく,航空輸送タスクを符号化するための定式化を強化する。 我々のモデルは、ポイントクラウドから計算されたペイロードの幾何学的性質にのみ依存しており、部分的なビューに対して堅牢である。 提案手法の有効性をシミュレーションで評価し, 既往のペイロードを所望の軌道に沿って輸送することを要求した。 接触点と四極子構成は,本研究で行った各試験で計算し,ベースライン法と比較し,文献の修正学習アルゴリズムと比較した。 実験の結果,提案手法が生成する接触により,輸送タスクのペイロードの制御性が向上することが示された。 本論文は,提案する概念の強みと限界,今後の研究方向性について考察した。

This paper is concerned with learning transferable contact models for aerial manipulation tasks. We investigate a contact-based approach for enabling unmanned aerial vehicles with cable-suspended passive grippers to compute the attach points on novel payloads for aerial transportation. This is the first time that the problem of autonomously generating contact points for such tasks has been investigated. Our approach builds on the underpinning idea that we can learn a probability density of contacts over objects' surfaces from a single demonstration. We enhance this formulation for encoding aerial transportation tasks while maintaining the one-shot learning paradigm without handcrafting task-dependent features or employing ad-hoc heuristics; the only prior is extrapolated directly from a single demonstration. Our models only rely on the geometrical properties of the payloads computed from a point cloud, and they are robust to partial views. The effectiveness of our approach is evaluated in simulation, in which one or three quadropters are requested to transport previously unseen payloads along a desired trajectory. The contact points and the quadroptors configurations are computed on-the-fly for each test by our apporach and compared with a baseline method, a modified grasp learning algorithm from the literature. Empirical experiments show that the contacts generated by our approach yield a better controllability of the payload for a transportation task. We conclude this paper with a discussion on the strengths and limitations of the presented idea, and our suggested future research directions.
翻訳日:2022-06-07 01:06:28 公開日:2022-06-03
# (参考訳) 医療不正検出における特徴抽出とクラスサンプリングの組成の影響

Impact of the composition of feature extraction and class sampling in medicare fraud detection ( http://arxiv.org/abs/2206.01413v1 )

ライセンス: CC BY 4.0
Akrity Kumari, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 医療が重要な側面であるため、医療保険は医療費を最小化するための重要なスキームとなっている。 その後、医療業界は保険の増加によって不正行為が著しく増加しており、詐欺は医療費の増加に大きく寄与するが、その影響は詐欺検出技術を使って軽減することができる。 不正を検出するために、機械学習技術が使用される。 米国連邦政府のメディケイド・メディケア・サービスセンター(CMS)が「メディケア・パートD」の保険請求を公表し,不正検出システムの開発に利用した。 クラス不均衡で高次元の医療データセットに機械学習アルゴリズムを採用することは難しい課題である。 このような課題をコンパクト化するために,本研究は,データサンプリング後に特徴抽出を行い,その後,様々な分類アルゴリズムを適用し,より良い性能を得ることを目的とする。 特徴抽出(英: feature extraction)は、属性を実際の属性の線形または非線形の組み合わせに変換し、より小さくより多様化した属性の集合を生成し、次元を減らす次元還元アプローチである。 データサンプリングは、マイノリティクラスの頻度を拡大したり、多数派クラスの頻度を減らして、両方のクラスのほぼ同数の出現数を得ることによって、クラス不均衡に対処するために一般的に使用される。 提案手法は標準性能指標を用いて評価される。 そこで,本研究では,特徴抽出手法としてオートエンコーダ,データサンプリング手法として合成マイノリティオーバサンプリング手法(SMOTE),分類アルゴリズムとして各種勾配決定木に基づく分類器を適用した。 実験結果から,LightGBM分類器におけるオートエンコーダとSMOTEの組み合わせが最適であることがわかった。

With healthcare being critical aspect, health insurance has become an important scheme in minimizing medical expenses. Following this, the healthcare industry has seen a significant increase in fraudulent activities owing to increased insurance, and fraud has become a significant contributor to rising medical care expenses, although its impact can be mitigated using fraud detection techniques. To detect fraud, machine learning techniques are used. The Centers for Medicaid and Medicare Services (CMS) of the United States federal government released "Medicare Part D" insurance claims is utilized in this study to develop fraud detection system. Employing machine learning algorithms on a class-imbalanced and high dimensional medicare dataset is a challenging task. To compact such challenges, the present work aims to perform feature extraction following data sampling, afterward applying various classification algorithms, to get better performance. Feature extraction is a dimensionality reduction approach that converts attributes into linear or non-linear combinations of the actual attributes, generating a smaller and more diversified set of attributes and thus reducing the dimensions. Data sampling is commonlya used to address the class imbalance either by expanding the frequency of minority class or reducing the frequency of majority class to obtain approximately equal numbers of occurrences for both classes. The proposed approach is evaluated through standard performance metrics. Thus, to detect fraud efficiently, this study applies autoencoder as a feature extraction technique, synthetic minority oversampling technique (SMOTE) as a data sampling technique, and various gradient boosted decision tree-based classifiers as a classification algorithm. The experimental results show the combination of autoencoders followed by SMOTE on the LightGBM classifier achieved best results.
翻訳日:2022-06-07 00:53:21 公開日:2022-06-03
# (参考訳) プライバシー保護型レンズレス画像分類のためのリッチ光埋め込み学習

Learning rich optical embeddings for privacy-preserving lensless image classification ( http://arxiv.org/abs/2206.01429v1 )

ライセンス: CC BY-SA 4.0
Eric Bezzam, Martin Vetterli, Matthieu Simeoni(参考訳) レンズを薄い光学素子に置き換えることで、レンズレスイメージングは、コンパクトで軽量なフォームファクタや視覚プライバシなど、従来のカメラ設計やポストプロセッシングでサポートされているものを超えて、新しい応用とソリューションを可能にする。 後者は、認識可能な画像の復元に撮像システムの知識を必要とするレンズレスカメラの高度に多重化された測定から生じる。 本研究では、光学をエンコーダとしてキャストし、カメラセンサに直接直接埋め込みを生成するという、このユニークな多重化特性を利用する。 我々は、エンコーダのパラメータと画像分類器のパラメータをエンドツーエンドの方法で共同で最適化する画像分類の文脈でそうする。 我々の実験は、レンズレス光エンコーダとデジタル処理を共同で学習することで、センサーに低解像度の埋め込みが可能であることを示し、その結果、これらの測定から有意義な画像の復元がはるかに困難であることから、プライバシーが向上することを示している。 さらなる実験により、このような最適化により、通常の実世界の画像変換よりも堅牢なレンズレス計測が可能になることが示されている。 この研究は分類に重点を置いているが、提案するプログラマブルレンズレスカメラとエンドツーエンドの最適化は他の計算画像処理タスクにも適用できる。

By replacing the lens with a thin optical element, lensless imaging enables new applications and solutions beyond those supported by traditional camera design and post-processing, e.g. compact and lightweight form factors and visual privacy. The latter arises from the highly multiplexed measurements of lensless cameras, which require knowledge of the imaging system to recover a recognizable image. In this work, we exploit this unique multiplexing property: casting the optics as an encoder that produces learned embeddings directly at the camera sensor. We do so in the context of image classification, where we jointly optimize the encoder's parameters and those of an image classifier in an end-to-end fashion. Our experiments show that jointly learning the lensless optical encoder and the digital processing allows for lower resolution embeddings at the sensor, and hence better privacy as it is much harder to recover meaningful images from these measurements. Additional experiments show that such an optimization allows for lensless measurements that are more robust to typical real-world image transformations. While this work focuses on classification, the proposed programmable lensless camera and end-to-end optimization can be applied to other computational imaging tasks.
翻訳日:2022-06-07 00:39:50 公開日:2022-06-03
# (参考訳) LenslessPiCam:Raspberry Piによるレンズレス計算イメージングのためのハードウェアとソフトウェアプラットフォーム

LenslessPiCam: A Hardware and Software Platform for Lensless Computational Imaging with a Raspberry Pi ( http://arxiv.org/abs/2206.01430v1 )

ライセンス: CC BY 4.0
Eric Bezzam, Sepand Kashani, Martin Vetterli, Matthieu Simeoni(参考訳) レンズレスイメージングは、従来の撮像システムでレンズを取り替えたり取り外したりしようとする。 初期のカメラはレンズレスで、暗い部屋/コンテナ(カメラ・オブスキュラ)の小さな開口部の反対側に画像を形成するために長時間露光時間に依存していた。 レンズの導入は、シャープな焦点を保ちながら、より多くの光スループットとより短い露光時間を可能にした。 デジタルセンサーの組み込みにより、計算画像技術を使用して、原画像の加工と拡張が容易になった(デブラリング、インパインティング、デノライゼーション、シャープニングなど)。 近年、画像科学者は、レンズレスイメージングシステムにおいて、計算イメージングを不可欠な部分として活用し始めており、レンズレスカメラの高多重化生画像から可視画像を作成することができるようになっている([5]と参照)。 これはカメラシステム設計における真のパラダイムシフトであり、手元にあるアプリケーション(例えば軽量またはフラットデザイン)にハードウェアを組み込む柔軟性が増している。 しかし、この柔軟性の増大は、生のデジタル記録のより要求された後処理と、センサーと計算のより緊密な統合によって生じる。 LenslessPiCamでは、研究者、ホビイスト、学生がレンズレスイメージングの実践的および計算的側面を実装、探索できるように、容易にアクセス可能なハードウェアおよびソフトウェアフレームワークを提供する。 また、LenslessPiCamを教育資源として使用できるように詳細なガイドや演習も提供し、大学院レベルの信号処理コースの結果を示す。

Lensless imaging seeks to replace/remove the lens in a conventional imaging system. The earliest cameras were in fact lensless, relying on long exposure times to form images on the other end of a small aperture in a darkened room/container (camera obscura). The introduction of a lens allowed for more light throughput and therefore shorter exposure times, while retaining sharp focus. The incorporation of digital sensors readily enabled the use of computational imaging techniques to post-process and enhance raw images (e.g. via deblurring, inpainting, denoising, sharpening). Recently, imaging scientists have started leveraging computational imaging as an integral part of lensless imaging systems, allowing them to form viewable images from the highly multiplexed raw measurements of lensless cameras (see [5] and references therein for a comprehensive treatment of lensless imaging). This represents a real paradigm shift in camera system design as there is more flexibility to cater the hardware to the application at hand (e.g. lightweight or flat designs). This increased flexibility comes however at the price of a more demanding post-processing of the raw digital recordings and a tighter integration of sensing and computation, often difficult to achieve in practice due to inefficient interactions between the various communities of scientists involved. With LenslessPiCam, we provide an easily accessible hardware and software framework to enable researchers, hobbyists, and students to implement and explore practical and computational aspects of lensless imaging. We also provide detailed guides and exercises so that LenslessPiCam can be used as an educational resource, and point to results from our graduate-level signal processing course.
翻訳日:2022-06-07 00:11:41 公開日:2022-06-03
# (参考訳) Wasserstein Robust Federated Learningの一般化について

On the Generalization of Wasserstein Robust Federated Learning ( http://arxiv.org/abs/2206.01432v1 )

ライセンス: CC BY 4.0
Tung-Anh Nguyen, Tuan Dung Nguyen, Long Tan Le, Canh T. Dinh and Nguyen H. Tran(参考訳) フェデレーション学習では、参加するクライアントは通常非i.i.d.データを持ち、非知覚分布への一般化にとって大きな課題となる。 そこで本研究では,WAFLと呼ばれる分散ロバストな最適化手法を提案する。 その双対性を利用して、WAFLを実証的なサロゲートリスク最小化問題とみなし、収束保証付き局所SGDアルゴリズムを用いて解決する。 WAFLのロバスト性は関連するアプローチよりも一般的であることを示し、一般化境界はワッサーシュタイン球内のすべての逆分布に対して堅牢であること(曖昧性集合)を示す。 ワッサースタイン球の中心位置と半径は好適に修正できるため、waflはロバスト性だけでなくドメイン適応においても適用性を示している。 実験的な評価により、WAFLは非I.d.設定のバニラFedAvgよりも一般化され、分布シフト設定の他の関連手法よりも堅牢であることを示す。 さらに、ベンチマークデータセットを用いて、WAFLがターゲットドメインの見えない領域に一般化可能であることを示す。

In federated learning, participating clients typically possess non-i.i.d. data, posing a significant challenge to generalization to unseen distributions. To address this, we propose a Wasserstein distributionally robust optimization scheme called WAFL. Leveraging its duality, we frame WAFL as an empirical surrogate risk minimization problem, and solve it using a local SGD-based algorithm with convergence guarantees. We show that the robustness of WAFL is more general than related approaches, and the generalization bound is robust to all adversarial distributions inside the Wasserstein ball (ambiguity set). Since the center location and radius of the Wasserstein ball can be suitably modified, WAFL shows its applicability not only in robustness but also in domain adaptation. Through empirical evaluation, we demonstrate that WAFL generalizes better than the vanilla FedAvg in non-i.i.d. settings, and is more robust than other related methods in distribution shift settings. Further, using benchmark datasets we show that WAFL is capable of generalizing to unseen target domains.
翻訳日:2022-06-07 00:05:56 公開日:2022-06-03
# (参考訳) XPASC:弱スーパービジョンにおける一般化の測定

XPASC: Measuring Generalization in Weak Supervision ( http://arxiv.org/abs/2206.01444v1 )

ライセンス: CC BY 4.0
Luisa M\"arz, Ehsaneddin Asgari, Fabienne Braune, Franziska Zimmermann, Benjamin Roth(参考訳) 弱い監督は広範囲のドメインやタスクで活用されており、大量のラベル付きデータを作成できるため、手作業は少ない。 標準的なアプローチではラベル機能を使用してラベルに関連する信号を指定する。 弱い教師付きモデルはこれらの信号に過度に反応し、結果として過度に適合すると推測されている。 この仮定を検証するために、弱い教師付きデータセットで訓練されたモデルの一般化を測定する新しい手法XPASC(eXPlainability-Association SCore)を導入する。 データセットの特徴, クラス, ラベル付け関数の発生を考慮し, XPASCは, モデル予測における各特徴と, クラスとラベル付け関数との関係を考慮に入れた。 XPASC-CHI SQAUREはそれらの統計的重要性に対して関連性を測定するが、XPASC-PPMIはより一般的に関連性を測定する。 我々はXPASCを用いて、ラベリング関数から一般化の度合いを制御し、オーバーフィッティングの問題を緩和する敵対的アーキテクチャであるノウマンを解析する。 一方、KnowMANはハイパーパラメータを通して一般化の度合いを制御可能であることを示す。 一方, 結果と質的分析により, 一般化と性能は一対一に関係せず, 最高汎化度が必ずしも最高の性能を意味するとは限らないことが示された。 したがって、一般化量の制御を可能にする手法は、良性オーバーフィッティングの適切な度合いを達成することができる。 この研究への私たちの貢献は 一 弱監督モデルにおける一般化を測定するためのXPASCスコア 二 データセット及びモデルにおけるXPASCの評価及び評価 iii) xpasc 実装のリリース。

Weak supervision is leveraged in a wide range of domains and tasks due to its ability to create massive amounts of labeled data, requiring only little manual effort. Standard approaches use labeling functions to specify signals that are relevant for the labeling. It has been conjectured that weakly supervised models over-rely on those signals and as a result suffer from overfitting. To verify this assumption, we introduce a novel method, XPASC (eXPlainability-Association SCore), for measuring the generalization of a model trained with a weakly supervised dataset. Considering the occurrences of features, classes and labeling functions in a dataset, XPASC takes into account the relevance of each feature for the predictions of the model as well as the associations of the feature with the class and the labeling function, respectively. The association in XPASC can be measured in two variants: XPASC-CHI SQAURE measures associations relative to their statistical significance, while XPASC-PPMI measures association strength more generally. We use XPASC to analyze KnowMAN, an adversarial architecture intended to control the degree of generalization from the labeling functions and thus to mitigate the problem of overfitting. On one hand, we show that KnowMAN is able to control the degree of generalization through a hyperparameter. On the other hand, results and qualitative analysis show that generalization and performance do not relate one-to-one, and that the highest degree of generalization does not necessarily imply the best performance. Therefore methods that allow for controlling the amount of generalization can achieve the right degree of benign overfitting. Our contributions in this study are i) the XPASC score to measure generalization in weakly-supervised models, ii) evaluation of XPASC across datasets and models and iii) the release of the XPASC implementation.
翻訳日:2022-06-06 23:10:39 公開日:2022-06-03
# (参考訳) 間接的アクティブラーニング

Indirect Active Learning ( http://arxiv.org/abs/2206.01454v1 )

ライセンス: CC BY 4.0
Shashank Singh(参考訳) 従来のアクティブラーニングモデルでは、学習者は共変量$X$を直接操作したり、クエリしたりすることで、その応答とY$の関係を研究することができる。 しかし、もし$X$が複雑なシステムの機能であるなら、制御変数$Z$を操作することで、間接的に$X$に影響を与えるだけでよい。 一定予算の間接的アクティブラーニングの非パラメトリックモデルの下で,局所的にy$x$とy$y$の関係を推定するミニマックス収束率を調べ,z$とy$の関係の複雑度とノイズレベル,およびy$x$とy$との相関関係について検討した。 また、同じ仮定の下で受動的学習のためのミニマックスレートを同定する。 多くの場合,アクティブラーニングには漸近的な利点があるが,この利点は2段階のパッシブ実験を連続的に実行する単純な2段階学習者によって完全に実現されている。

Traditional models of active learning assume a learner can directly manipulate or query a covariate $X$ in order to study its relationship with a response $Y$. However, if $X$ is a feature of a complex system, it may be possible only to indirectly influence $X$ by manipulating a control variable $Z$, a scenario we refer to as Indirect Active Learning. Under a nonparametric model of Indirect Active Learning with a fixed budget, we study minimax convergence rates for estimating the relationship between $X$ and $Y$ locally at a point, obtaining different rates depending on the complexities and noise levels of the relationships between $Z$ and $X$ and between $X$ and $Y$. We also identify minimax rates for passive learning under comparable assumptions. In many cases, our results show that, while there is an asymptotic benefit to active learning, this benefit is fully realized by a simple two-stage learner that runs two passive experiments in sequence.
翻訳日:2022-06-06 22:51:02 公開日:2022-06-03
# (参考訳) 離散時間および連続時間mdpにおける平均ペイオフのpac統計モデル検証

PAC Statistical Model Checking of Mean Payoff in Discrete- and Continuous-Time MDP ( http://arxiv.org/abs/2206.01465v1 )

ライセンス: CC BY 4.0
Chaitanya Agarwal, Shibashis Guha, Jan K\v{r}et\'insk\'y, M. Pazhamalai(参考訳) マルコフ決定過程 (MDP) と連続時間 MDP (CTMDP) は確率的不確実性を持つ非決定論的システムの基本モデルである。 平均ペイオフ(英: Mean payoff、英: long-run average reward)は、その文脈において最も古典的な目的の一つ。 我々は、未知のMDPにおいて平均ペイオフを計算する最初のアルゴリズムを提供し、さらに、未知のCTMDPに拡張する。 状態空間に関する知識は一切必要とせず、文献で提唱されている最小遷移確率の低い境界のみである。 提案アルゴリズムは, ほぼ正しいPAC境界を提供するだけでなく, 標準ベンチマークで実験を行うことにより, その実用性を実証する。

Markov decision processes (MDP) and continuous-time MDP (CTMDP) are the fundamental models for non-deterministic systems with probabilistic uncertainty. Mean payoff (a.k.a. long-run average reward) is one of the most classic objectives considered in their context. We provide the first algorithm to compute mean payoff probably approximately correctly in unknown MDP; further, we extend it to unknown CTMDP. We do not require any knowledge of the state space, only a lower bound on the minimum transition probability, which has been advocated in literature. In addition to providing probably approximately correct (PAC) bounds for our algorithm, we also demonstrate its practical nature by running experiments on standard benchmarks.
翻訳日:2022-06-06 21:59:50 公開日:2022-06-03
# (参考訳) フィールドガイドからの学習によるゼロショット鳥種認識

Zero-Shot Bird Species Recognition by Learning from Field Guides ( http://arxiv.org/abs/2206.01466v1 )

ライセンス: CC BY-SA 4.0
Andr\'es C. Rodr\'iguez, Stefano D'Aronco, Rodrigo Caye Daudt, Jan D. Wegner, Konrad Schindler(参考訳) フィールドガイドを用いて鳥種認識,特に未発見種のゼロショット認識を学習する。 フィールドガイドに含まれるイラストは、故意に種の識別特性に焦点を当てており、目に見えないクラスに知識を移すためのサイド情報として機能することができる。 筆者らは,(1)ゼロショット学習方式に入力可能な画像のコントラスト符号化,(2)イラストも画像であり,他の種類の側情報よりも写真と構造的に類似しているという事実を活用する新しい手法について検討した。 以上の結果から,多種多様な種を対象とするフィールドガイドによるイラストレーションは,競争的側面情報の源泉であることが示された。 inaturalist2021 の部分集合上では、749 が見た調和平均と、739 の未発見のクラスは$45\%$ (@top-10) と$15\%$ (@top-1) より大きい。 これは、フィールドガイドは多くの種で現実世界のシナリオに挑戦するための貴重な選択肢であることを示している。

We exploit field guides to learn bird species recognition, in particular zero-shot recognition of unseen species. The illustrations contained in field guides deliberately focus on discriminative properties of a species, and can serve as side information to transfer knowledge from seen to unseen classes. We study two approaches: (1) a contrastive encoding of illustrations that can be fed into zero-shot learning schemes; and (2) a novel method that leverages the fact that illustrations are also images and as such structurally more similar to photographs than other kinds of side information. Our results show that illustrations from field guides, which are readily available for a wide range of species, are indeed a competitive source of side information. On the iNaturalist2021 subset, we obtain a harmonic mean from 749 seen and 739 unseen classes greater than $45\%$ (@top-10) and $15\%$ (@top-1). Which shows that field guides are a valuable option for challenging real-world scenarios with many species.
翻訳日:2022-06-06 21:58:52 公開日:2022-06-03
# (参考訳) 因果構造世界モデルを用いたオフライン強化学習

Offline Reinforcement Learning with Causal Structured World Models ( http://arxiv.org/abs/2206.01474v1 )

ライセンス: CC BY 4.0
Zheng-Mao Zhu, Xiong-Hui Chen, Hong-Long Tian, Kun Zhang, Yang Yu(参考訳) モデルに基づく手法は, 環境と対話することなく, 過去のデータから優れたポリシーを学習することを目的として, オフライン強化学習(RL)を約束している。 従来のモデルベースオフラインRL手法は、状態とアクションを次のステップ状態にマッピングするワールドモデルとして、完全に接続されたネットを学習する。 しかし、世界モデルは、見知らぬ国でよく一般化された効果的な政策の学習を支援するように、根底にある因果効果に固執すべきである。 本稿では、因果構造を一般化誤差境界に組み込むことで、因果世界モデルがオフラインRLのプレーンワールドモデルより優れているという理論的結果を提供する。 次に,オフラインrlにおける因果構造を活用し,学習の可能性を説明するために,因果構造を用いたオフラインモデルに基づく強化学習を提案する。 2つのベンチマーク実験の結果、FOCUSは根底にある因果構造を正確かつ堅牢に再構築した。 その結果、通常のモデルベースオフラインRLアルゴリズムや他の因果モデルベースRLアルゴリズムよりも性能が良くなった。

Model-based methods have recently shown promising for offline reinforcement learning (RL), aiming to learn good policies from historical data without interacting with the environment. Previous model-based offline RL methods learn fully connected nets as world-models that map the states and actions to the next-step states. However, it is sensible that a world-model should adhere to the underlying causal effect such that it will support learning an effective policy generalizing well in unseen states. In this paper, We first provide theoretical results that causal world-models can outperform plain world-models for offline RL by incorporating the causal structure into the generalization error bound. We then propose a practical algorithm, oFfline mOdel-based reinforcement learning with CaUsal Structure (FOCUS), to illustrate the feasibility of learning and leveraging causal structure in offline RL. Experimental results on two benchmarks show that FOCUS reconstructs the underlying causal structure accurately and robustly. Consequently, it performs better than the plain model-based offline RL algorithms and other causal model-based RL algorithms.
翻訳日:2022-06-06 21:35:05 公開日:2022-06-03
# (参考訳) Wasserstein生成逆数ネットワークを用いた因果学習

Causality Learning With Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2206.01496v1 )

ライセンス: CC BY 4.0
Hristo Petkov, Colin Hanley and Feng Dong(参考訳) データから因果構造学習を行う従来の方法は,組合せ探索空間による大きな課題に直面している。 近年,この問題はDAG(Directed Acyclic Graphs)を学習するための非巡回性制約付き連続最適化フレームワークに定式化されている。 このようなフレームワークは、データサンプル分布とdagの関係をよりよく捉えるために、因果構造学習に深い生成モデルの活用を可能にする。 しかし, 因果構造学習の文脈において, ワッサースタイン距離を用いた実験は行われていない。 我々のモデルであるDAG-WGANは、ワッサーシュタインに基づく対向損失と、オートエンコーダアーキテクチャにおける非巡回性制約を組み合わせたものである。 データ生成能力を改善しながら、因果構造を同時に学習する。 本稿では,DAG-WGAN と Wsserstein 計量を含まない他のモデルとの比較を行い,その因果構造学習への寄与を明らかにする。 実験により,高濃度データを用いたモデルの性能が向上した。

Conventional methods for causal structure learning from data face significant challenges due to combinatorial search space. Recently, the problem has been formulated into a continuous optimization framework with an acyclicity constraint to learn Directed Acyclic Graphs (DAGs). Such a framework allows the utilization of deep generative models for causal structure learning to better capture the relations between data sample distributions and DAGs. However, so far no study has experimented with the use of Wasserstein distance in the context of causal structure learning. Our model named DAG-WGAN combines the Wasserstein-based adversarial loss with an acyclicity constraint in an auto-encoder architecture. It simultaneously learns causal structures while improving its data generation capability. We compare the performance of DAG-WGAN with other models that do not involve the Wasserstein metric in order to identify its contribution to causal structure learning. Our model performs better with high cardinality data according to our experiments.
翻訳日:2022-06-06 20:59:13 公開日:2022-06-03
# (参考訳) 要求工学は説明可能な人工知能をサポートするか? 説明可能性要件に対するユーザ中心アプローチに向けて

Can Requirements Engineering Support Explainable Artificial Intelligence? Towards a User-Centric Approach for Explainability Requirements ( http://arxiv.org/abs/2206.01507v1 )

ライセンス: CC BY-SA 4.0
Umm-e-Habiba, Justus Bogner, and Stefan Wagner(参考訳) 近年、人工知能システムの普及に伴い、これらのシステムの説明可能性に対する需要が急増している。 説明はシステムの不透明度を減らし、透明性をサポートし、ステークホルダーの信頼を高めるのに役立つ。 本稿では,要求工学(RE)と説明可能なAI(XAI)の相乗効果について議論する。 我々は、XAIの分野における課題を強調し、これらの課題を緩和するためにREプラクティスがどのように役立つかに関するフレームワークと研究の方向性を提案します。

With the recent proliferation of artificial intelligence systems, there has been a surge in the demand for explainability of these systems. Explanations help to reduce system opacity, support transparency, and increase stakeholder trust. In this position paper, we discuss synergies between requirements engineering (RE) and Explainable AI (XAI). We highlight challenges in the field of XAI, and propose a framework and research directions on how RE practices can help to mitigate these challenges.
翻訳日:2022-06-06 20:48:30 公開日:2022-06-03
# (参考訳) 文脈表現理解のための潜在トポロジー誘導

Latent Topology Induction for Understanding Contextualized Representations ( http://arxiv.org/abs/2206.01512v1 )

ライセンス: CC BY 4.0
Yao Fu and Mirella Lapata(参考訳) 本研究では,コンテキスト化埋め込みの表現空間を研究し,大規模言語モデルの隠れたトポロジーについて考察する。 文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。 既存のよく定義されたアノテーションにアライメントを求める代わりに、構造化変分オートエンコーダを使用して、完全に教師なしの方法でこの潜在ネットワークを推測します。 誘導状態は表現多様体のトポロジー(近さと接続性)を示すアンカーとして機能するだけでなく、文を符号化する内部機構も明らかにする。 誘導ネットワークでは、(1)。 表現空間を、語彙的、形態的、構文的、意味的情報できめ細かい単語の意味をエンコードする潜伏状態のスペクトルに分解する。(2) 状態遷移はリッチな句構成をエンコードし、潜在空間のバックボーンとして機能する。 これら2つをまとめると、文は、状態遷移チェーンが構文テンプレートをコードし、ステートワードのエミッションがコンテンツを満たす潜在ネットワーク上のトラバースとして表現されることを示す。 これらの知見を広範な実験と可視化で実証する。

In this work, we study the representation space of contextualized embeddings and gain insight into the hidden topology of large language models. We show there exists a network of latent states that summarize linguistic properties of contextualized representations. Instead of seeking alignments to existing well-defined annotations, we infer this latent network in a fully unsupervised way using a structured variational autoencoder. The induced states not only serve as anchors that mark the topology (neighbors and connectivity) of the representation manifold but also reveal the internal mechanism of encoding sentences. With the induced network, we: (1). decompose the representation space into a spectrum of latent states which encode fine-grained word meanings with lexical, morphological, syntactic and semantic information; (2). show state-state transitions encode rich phrase constructions and serve as the backbones of the latent space. Putting the two together, we show that sentences are represented as a traversal over the latent network where state-state transition chains encode syntactic templates and state-word emissions fill in the content. We demonstrate these insights with extensive experiments and visualizations.
翻訳日:2022-06-06 20:40:20 公開日:2022-06-03
# (参考訳) 変圧器ベースアテンションモデルを用いた監視ビデオの異常検出

Anomaly detection in surveillance videos using transformer based attention model ( http://arxiv.org/abs/2206.01524v1 )

ライセンス: CC BY 4.0
Kapil Deshpande, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 監視映像は、さまざまな現実的な異常を捉えることができる。 本研究は,時間を要するトレーニングビデオにおける異常セグメントの注釈付けを避けるために,弱教師付き戦略を用いることを提案する。 このアプローチでは、フレームレベルの異常スコアを得るためにビデオレベルラベルのみを使用する。 弱教師付きビデオ異常検出(WSVAD)は、トレーニングプロセス中に異常および正常な症例の誤識別に悩まされる。 したがって、利用可能なビデオから高品質な特徴を抽出することが重要である。 このモチベーションは,ビデオスウィン機能と呼ばれる高品質なトランスフォーマーベース機能を用いて,拡張畳み込みと自己注意に基づく注意層を用いて,時間領域における長短の依存関係をキャプチャする。 これにより、利用可能なビデオの理解を深めることができます。 提案するフレームワークは,現在の最先端手法よりも競争力のある,実世界のデータセットであるShanghaiTech Campusデータセット上で検証されている。 モデルとコードはhttps://github.com/kapildeshpande/Anomaly-Detection-in-Surveillance-Videosで公開されている。

Surveillance footage can catch a wide range of realistic anomalies. This research suggests using a weakly supervised strategy to avoid annotating anomalous segments in training videos, which is time consuming. In this approach only video level labels are used to obtain frame level anomaly scores. Weakly supervised video anomaly detection (WSVAD) suffers from the wrong identification of abnormal and normal instances during the training process. Therefore it is important to extract better quality features from the available videos. WIth this motivation, the present paper uses better quality transformer-based features named Videoswin Features followed by the attention layer based on dilated convolution and self attention to capture long and short range dependencies in temporal domain. This gives us a better understanding of available videos. The proposed framework is validated on real-world dataset i.e. ShanghaiTech Campus dataset which results in competitive performance than current state-of-the-art methods. The model and the code are available at https://github.com/kapildeshpande/Anomaly-Detection-in-Surveillance-Videos
翻訳日:2022-06-06 20:10:18 公開日:2022-06-03
# (参考訳) グラフコントラスト学習の再考とスケールアップ:グループ識別による極めて効率的なアプローチ

Rethinking and Scaling Up Graph Contrastive Learning: An Extremely Efficient Approach with Group Discrimination ( http://arxiv.org/abs/2206.01535v1 )

ライセンス: CC BY 4.0
Yizhen Zheng, Shirui Pan, Vincent Cs Lee, Yu Zheng, Philip S. Yu(参考訳) グラフコントラスト学習(GCL)は、グラフ表現学習(GRL)のラベル情報への依存度を、自己教師付き学習方式により緩和する。 コアとなるアイデアは、2つのノードインスタンス間の類似性計算を必要とする類似インスタンスの相互情報を最大化することで学習することだ。 しかし、この操作は計算量的に高価である。 例えば、ノードに対して一般的に採用されている2つの対照的な損失関数(例えばInfoNCEとJSD推定器)の時間複雑性は、それぞれ$O(ND)$と$O(D)$であり、$N$はノードの数、$D$は埋め込み次元である。 加えて、GCLは通常、大規模なデータセットで十分にトレーニングするために、多数のトレーニングエポックを必要とする。 DGIとMVGRLの2つの代表的GCL作品で一般的に使われている技術的欠陥(すなわち、シグモイド関数の不適切な使用)に着想を得て、GCLを再検討し、グループ識別(GD)と呼ばれる自己教師型GRLのための新しい学習パラダイムを導入し、グラフグループ識別(GGD)と呼ばれる新しいGDベースの手法を提案する。 類似性計算の代わりに、ggdは単純なバイナリクロスエントロピー損失を持つ2つの要約ノードインスタンス群を直接判別する。 そのため、ggdはノードの損失計算に$o(1)$しか必要としない。 さらにggdは、大規模データセットのgclメソッドに比べて、競争力のあるパフォーマンスを得るためには、トレーニング期間が非常に少ない。 これら2つの利点は、ggdに非常に効率的な特性を与える。 大規模な実験により、GGDは8つのデータセット上で最先端の自己管理手法より優れていることが示された。 特に GGD は ogbn-arxiv 上で 0.18 秒 (データ前処理を含む 6.44 秒) でトレーニングすることができる。 GGDは、数十億のエッジを持つogbn-papers100Mで9時間訓練され、精度と効率の両方でGCLよりも優れている。

Graph contrastive learning (GCL) alleviates the heavy reliance on label information for graph representation learning (GRL) via self-supervised learning schemes. The core idea is to learn by maximising mutual information for similar instances, which requires similarity computation between two node instances. However, this operation can be computationally expensive. For example, the time complexity of two commonly adopted contrastive loss functions (i.e., InfoNCE and JSD estimator) for a node is $O(ND)$ and $O(D)$, respectively, where $N$ is the number of nodes, and $D$ is the embedding dimension. Additionally, GCL normally requires a large number of training epochs to be well-trained on large-scale datasets. Inspired by an observation of a technical defect (i.e., inappropriate usage of Sigmoid function) commonly used in two representative GCL works, DGI and MVGRL, we revisit GCL and introduce a new learning paradigm for self-supervised GRL, namely, Group Discrimination (GD), and propose a novel GD-based method called Graph Group Discrimination (GGD). Instead of similarity computation, GGD directly discriminates two groups of summarised node instances with a simple binary cross-entropy loss. As such, GGD only requires $O(1)$ for loss computation of a node. In addition, GGD requires much fewer training epochs to obtain competitive performance compared with GCL methods on large-scale datasets. These two advantages endow GGD with the very efficient property. Extensive experiments show that GGD outperforms state-of-the-art self-supervised methods on 8 datasets. In particular, GGD can be trained in 0.18 seconds (6.44 seconds including data preprocessing) on ogbn-arxiv, which is orders of magnitude (10,000+ faster than GCL baselines} while consuming much less memory. Trained with 9 hours on ogbn-papers100M with billion edges, GGD outperforms its GCL counterparts in both accuracy and efficiency.
翻訳日:2022-06-06 20:01:12 公開日:2022-06-03
# (参考訳) トルーリーメッシュフリー物理インフォームドニューラルネットワーク

Truly Mesh-free Physics-Informed Neural Networks ( http://arxiv.org/abs/2206.01545v1 )

ライセンス: CC BY-SA 4.0
Fabricio Arend Torres, Marcello Massimo Negri, Monika Nagy-Huber, Maxim Samarin, Volker Roth(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近、ニューラルネットワークに偏微分方程式(PDE)の形で事前の物理知識を組み込む原則的な方法として登場した。 一般にメッシュフリーと見なされるが、現在のアプローチは、空間的に疎い信号の設定であっても、境界領域内で得られるコロケーションポイントに依存している。 さらに、境界が分かっていない場合、そのような領域の選択は任意のものであり、その結果、相対関係の低い領域でコロケーションポイントが選択される。 そこで本研究では,流体力学の微視的視点に触発された粒子密度ピン(pdpinn)と呼ばれるメッシュフリー適応アプローチを提案する。 境界領域からサンプリングする代わりに、(流体)粒子の位置の分布から直接サンプリングし、最も関連する領域に適応的に焦点を合わせながら境界を導入する必要性を排除することを提案する。 これは, モデル流体密度を非正規化確率分布として再構成し, 動的モンテカルロ法を用いて解析した。 さらに, 熱方程式における温度変化など, 正のスカラー量を粒子密度として解釈できるように, pdpinnsを異なる設定に一般化する。 本手法の有用性は,従来のピンの精密化法と比較して高い柔軟性と試料効率を示す2次元拡散問題と最大3次元の(非定常)圧縮性流体をモデル化する実験で実証された。

Physics-informed Neural Networks (PINNs) have recently emerged as a principled way to include prior physical knowledge in form of partial differential equations (PDEs) into neural networks. Although generally viewed as being mesh-free, current approaches still rely on collocation points obtained within a bounded region, even in settings with spatially sparse signals. Furthermore, if the boundaries are not known, the selection of such a region may be arbitrary, resulting in a large proportion of collocation points being selected in areas of low relevance. To resolve this, we present a mesh-free and adaptive approach termed particle-density PINN (pdPINN), which is inspired by the microscopic viewpoint of fluid dynamics. Instead of sampling from a bounded region, we propose to sample directly from the distribution over the (fluids) particle positions, eliminating the need to introduce boundaries while adaptively focusing on the most relevant regions. This is achieved by reformulating the modeled fluid density as an unnormalized probability distribution from which we sample with dynamic Monte Carlo methods. We further generalize pdPINNs to different settings that allow interpreting a positive scalar quantity as a particle density, such as the evolution of the temperature in the heat equation. The utility of our approach is demonstrated on experiments for modeling (non-steady) compressible fluids in up to three dimensions and a two-dimensional diffusion problem, illustrating the high flexibility and sample efficiency compared to existing refinement methods for PINNs.
翻訳日:2022-06-06 19:59:54 公開日:2022-06-03
# (参考訳) tce at qur'an qa 2022: アラビア語のqur'anに対する質問に答える。

TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy Qur'an Using a Post-Processed Ensemble of BERT-based Models ( http://arxiv.org/abs/2206.01550v1 )

ライセンス: CC BY 4.0
Mohammed ElKomy, Amany M. Sarhan(参考訳) 近年,機械学習を用いた自然言語理解のタスクにおいて,大きな進歩が見られた。 質問応答は、検索エンジンやソーシャルメディアプラットフォームがユーザエクスペリエンスを改善するために使用しているタスクの1つです。 アラビア語は、世界中の18億人の人々の神聖なテキストである聖クルアーンの言語である。 アラビア語は複雑な構造のため、自然言語処理(NLP)にとって困難な言語である。 本稿では,OACT5 QA 2022共有課題の試行について述べる。 本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。 さらに,モデル予測を強化するために後処理を行う。 本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。

In recent years, we witnessed great progress in different tasks of natural language understanding using machine learning. Question answering is one of these tasks which is used by search engines and social media platforms for improved user experience. Arabic is the language of the Holy Qur'an; the sacred text for 1.8 billion people across the world. Arabic is a challenging language for Natural Language Processing (NLP) due to its complex structures. In this article, we describe our attempts at OSACT5 Qur'an QA 2022 Shared Task, which is a question answering challenge on the Holy Qur'an in Arabic. We propose an ensemble learning model based on Arabic variants of BERT models. In addition, we perform post-processing to enhance the model predictions. Our system achieves a Partial Reciprocal Rank (pRR) score of 56.6% on the official test set.
翻訳日:2022-06-06 19:34:23 公開日:2022-06-03
# (参考訳) エンコーダは手元にありますか?

Is an encoder within reach? ( http://arxiv.org/abs/2206.01552v1 )

ライセンス: CC BY 4.0
Helene Hauschultz, Rasmus Berg Palm. Pablo Moreno-Mu\~nos, Nicki Skafte Detlefsen, Andrew Allan du Plessis, S{\o}ren Hauberg(参考訳) オートエンコーダのエンコーダネットワークは、デコーダにまたがる多様体への最寄りの点射影の近似である。 この近似に対する懸念は、エンコーダの出力は常に一意であるが、射影は無限に多くの値を持つ可能性があることである。 これはオートエンコーダが学習した潜在表現が誤解を招く可能性があることを意味する。 幾何学的測度理論から,デコーダが有する多様体のリーチを用いて,与えられたデータセットとデコーダに対して最適なエンコーダが存在するかどうかを決定する。 このリーチの局所的一般化を開発し,その数値推定器を提案する。 これにより、どの観察がユニークで信頼性の高い潜在表現を持つと期待できるかを決定することができることを実証する。 局所到達推定器は微分可能であるため、その正規化としての使用法を調べ、これが正規化なしでは射影がより一意であるような学習多様体へと導くことを示した。

The encoder network of an autoencoder is an approximation of the nearest point projection onto the manifold spanned by the decoder. A concern with this approximation is that, while the output of the encoder is always unique, the projection can possibly have infinitely many values. This implies that the latent representations learned by the autoencoder can be misleading. Borrowing from geometric measure theory, we introduce the idea of using the reach of the manifold spanned by the decoder to determine if an optimal encoder exists for a given dataset and decoder. We develop a local generalization of this reach and propose a numerical estimator thereof. We demonstrate that this allows us to determine which observations can be expected to have a unique, and thereby trustworthy, latent representation. As our local reach estimator is differentiable, we investigate its usage as a regularizer and show that this leads to learned manifolds for which projections are more often unique than without regularization.
翻訳日:2022-06-06 19:24:08 公開日:2022-06-03
# (参考訳) 因果機械学習による規範的メンテナンス

Prescriptive maintenance with causal machine learning ( http://arxiv.org/abs/2206.01562v1 )

ライセンス: CC BY 4.0
Toon Vanderschueren, Robert Boute, Tim Verdonck, Bart Baesens, Wouter Verbeke(参考訳) マシンのメンテナンスは、マシンの障害やオーバーホールを避けるために十分な予防的メンテナンスを計画することを目的としている。 メンテナンスは現実的には不完全であり、新しい資産ほど良いものではない。 文献では様々な不完全な保守方針が提案されているが, 機械の状態に対する保守の影響については, 1) 既知確率分布による決定的・支配的効果と(2) 機械独立性の仮定に強く依存している。 本研究は,既存の因果推論手法を用いた類似機械の観測データから,保守条件が機械特性に与える影響を学習することにより,両方の仮定を緩和することを提案する。 メンテナンス効果を予測することにより,メンテナンスレベルの異なるオーバーホールや障害の数を推定し,その結果,予防的メンテナンス頻度を最適化し,総コストを最小化することができる。 産業パートナーの4000以上の保守契約において,実生活データを用いて提案手法を検証する。 実験の結果, 提案手法は, 保守効果を正確に予測し, 管理や非個別化アプローチよりも正確かつコスト効率の高い個別化メンテナンススケジュールを実現できることがわかった。

Machine maintenance is a challenging operational problem, where the goal is to plan sufficient preventive maintenance to avoid machine failures and overhauls. Maintenance is often imperfect in reality and does not make the asset as good as new. Although a variety of imperfect maintenance policies have been proposed in the literature, these rely on strong assumptions regarding the effect of maintenance on the machine's condition, assuming the effect is (1) deterministic or governed by a known probability distribution, and (2) machine-independent. This work proposes to relax both assumptions by learning the effect of maintenance conditional on a machine's characteristics from observational data on similar machines using existing methodologies for causal inference. By predicting the maintenance effect, we can estimate the number of overhauls and failures for different levels of maintenance and, consequently, optimize the preventive maintenance frequency to minimize the total estimated cost. We validate our proposed approach using real-life data on more than 4,000 maintenance contracts from an industrial partner. Empirical results show that our novel, causal approach accurately predicts the maintenance effect and results in individualized maintenance schedules that are more accurate and cost-effective than supervised or non-individualized approaches.
翻訳日:2022-06-06 19:12:06 公開日:2022-06-03
# (参考訳) ロシアにおける人工テキスト検出におけるRuATD共有タスク2022の発見

Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian ( http://arxiv.org/abs/2206.01583v1 )

ライセンス: CC BY 4.0
Tatiana Shamardina, Vladislav Mikhailov, Daniil Chernianskii, Alena Fenogenova, Marat Saidov, Anastasiya Valeeva, Tatiana Shavrina, Ivan Smurov, Elena Tutubalina, Ekaterina Artemova(参考訳) 2022年に行われた対話評価イニシアチブの一環として組織されたロシア語における人工テキスト検出の共有タスクについて述べる。 共有タスクデータセットは、14のテキストジェネレータ、すなわち、機械翻訳、パラフレーズ生成、テキスト要約、テキスト単純化の1つ以上のタスクに対して微調整された1つの人間ライターと13のテキスト生成モデルからのテキストを含む。 バックトランスレーションとゼロショット生成のアプローチも検討する。 人書きテキストは、複数のドメインにわたる公開リソースから収集される。 共有タスクは2つのサブタスクで構成される。 (i) あるテキストが自動生成されているか、又は人間が書いたものであるかを決定すること。 (ii)所定のテキストの著者を特定すること。 最初のタスクはバイナリ分類問題としてフレーム化される。 第2のタスクは、マルチクラス分類問題である。 カウントベースおよびBERTベースのベースラインと,第1サブタスクに対する人間による評価を提供する。 合計30と8のシステムがバイナリとマルチクラスのサブタスクに送信され、対応する。 ほとんどのチームは、ベースラインを大きく上回っている。 GitHubリポジトリ(https://github.com/dialogue-evaluation/RuATD)にコードベース、人間評価結果、その他の資料を公開しています。

We present the shared task on artificial text detection in Russian, which is organized as a part of the Dialogue Evaluation initiative, held in 2022. The shared task dataset includes texts from 14 text generators, i.e., one human writer and 13 text generative models fine-tuned for one or more of the following generation tasks: machine translation, paraphrase generation, text summarization, text simplification. We also consider back-translation and zero-shot generation approaches. The human-written texts are collected from publicly available resources across multiple domains. The shared task consists of two sub-tasks: (i) to determine if a given text is automatically generated or written by a human; (ii) to identify the author of a given text. The first task is framed as a binary classification problem. The second task is a multi-class classification problem. We provide count-based and BERT-based baselines, along with the human evaluation on the first sub-task. A total of 30 and 8 systems have been submitted to the binary and multi-class sub-tasks, correspondingly. Most teams outperform the baselines by a wide margin. We publicly release our codebase, human evaluation results, and other materials in our GitHub repository (https://github.com/dialogue-evaluation/RuATD).
翻訳日:2022-06-06 18:57:16 公開日:2022-06-03
# (参考訳) 偏集中型楽観的超ポリシーミラー降下:マルコフゲームにおける証明可能非回帰学習

Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret Learning in Markov Games ( http://arxiv.org/abs/2206.01588v1 )

ライセンス: CC0 1.0
Wenhao Zhan, Jason D. Lee, Zhuoran Yang(参考訳) 我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊ぶために単一のエージェントを制御する分散ポリシー学習を研究する。 私たちのゴールは、未学習のオンライン学習アルゴリズムを開発することです。 (i)代理人が観察した地域情報に基づいて行動をとる (二)後見の最良の政策を見つけることができる。 このような問題に対して、異なる相手による非定常状態遷移は大きな課題となる。 近年の難易度結果である「citep{liu2022learning}」を踏まえ, 意思決定エージェントに対して, 相手の以前の方針を明らかにする設定に焦点を当てた。 このような情報構造を用いて,一般関数近似の文脈で$\sqrt{K}$-regretを達成する新しいアルゴリズム, \underline{D}ecentralized \underline{O}ptimistic hype\underline{R}policy m\underline{I}rror de\underline{S}cent (DORIS)を提案する。 さらに、全てのエージェントがDORISを採用すると、それらの混合ポリシーが近似粗相関平衡を構成することが証明される。 特に、DORISは政策空間上の分布である「textit{hyperpolicy}」を維持している。 ハイパーポリシーはミラー降下により更新され、更新方向は最小二乗政策評価の楽観的な変種によって得られる。 さらに,本手法のパワーを説明するために,制約付きおよびベクトル値のMDPにDORISを適用し,虚偽の相手を持つゼロサムマルコフゲームとして定式化することができる。

We study decentralized policy learning in Markov games where we control a single agent to play with nonstationary and possibly adversarial opponents. Our goal is to develop a no-regret online learning algorithm that (i) takes actions based on the local information observed by the agent and (ii) is able to find the best policy in hindsight. For such a problem, the nonstationary state transitions due to the varying opponent pose a significant challenge. In light of a recent hardness result \citep{liu2022learning}, we focus on the setting where the opponent's previous policies are revealed to the agent for decision making. With such an information structure, we propose a new algorithm, \underline{D}ecentralized \underline{O}ptimistic hype\underline{R}policy m\underline{I}rror de\underline{S}cent (DORIS), which achieves $\sqrt{K}$-regret in the context of general function approximation, where $K$ is the number of episodes. Moreover, when all the agents adopt DORIS, we prove that their mixture policy constitutes an approximate coarse correlated equilibrium. In particular, DORIS maintains a \textit{hyperpolicy} which is a distribution over the policy space. The hyperpolicy is updated via mirror descent, where the update direction is obtained by an optimistic variant of least-squares policy evaluation. Furthermore, to illustrate the power of our method, we apply DORIS to constrained and vector-valued MDPs, which can be formulated as zero-sum Markov games with a fictitious opponent.
翻訳日:2022-06-06 18:40:30 公開日:2022-06-03
# (参考訳) 最大平均差分法による一致した平均値のないペアの仮説検証:連続グルコースモニタリングへの応用

Hypothesis testing for matched pairs with missing data by maximum mean discrepancy: An application to continuous glucose monitoring ( http://arxiv.org/abs/2206.01590v1 )

ライセンス: CC0 1.0
Marcos Matabuena, Paulo F\'elix, Marc Ditzhaus, Juan Vidal and Francisco Gude(参考訳) 統計科学における頻繁な問題は、一致したペアの観測で欠落したデータを適切に扱う方法である。 ユニバリケート事件に対処する大量の文献がある。 しかし、生物学的システムを測定する技術進歩により、グラフ、文字列、確率分布など、より複雑なデータを扱う必要性が高まっている。 このギャップを埋めるため,データ不足を伴う複雑なマッチングペアを扱うために,MMD (maxum mean discrepancy) の新たな推定法を提案する。 これらの推定器は、異なる欠損機構の下でデータ分布の差を検出することができる。 本手法の有効性を実証し,広範囲なシミュレーション研究でさらなる研究を行い,統計的一貫性の成果を得た。 縦断型糖尿病研究における連続グルコースモニタリングのデータを用いて、このアプローチの適用例を示した。 新たな分布表現とクラスター分析を併用することにより,5年間にわたる分布レベルでのグルコース変化の変動に関する新たな臨床基準を検討することができる。

A frequent problem in statistical science is how to properly handle missing data in matched paired observations. There is a large body of literature coping with the univariate case. Yet, the ongoing technological progress in measuring biological systems raises the need for addressing more complex data, e.g., graphs, strings and probability distributions, among others. In order to fill this gap, this paper proposes new estimators of the maximum mean discrepancy (MMD) to handle complex matched pairs with missing data. These estimators can detect differences in data distributions under different missingness mechanisms. The validity of this approach is proven and further studied in an extensive simulation study, and results of statistical consistency are provided. Data from continuous glucose monitoring in a longitudinal population-based diabetes study are used to illustrate the application of this approach. By employing the new distributional representations together with cluster analysis, new clinical criteria on how glucose changes vary at the distributional level over five years can be explored.
翻訳日:2022-06-06 18:39:09 公開日:2022-06-03
# (参考訳) MCD:条件密度推定のためのMarginal Contrastive Discrimination

MCD: Marginal Contrastive Discrimination for conditional density estimation ( http://arxiv.org/abs/2206.01592v1 )

ライセンス: CC BY 4.0
Benjamin Riu(参考訳) 本稿では,統計学と機械学習の分野における関心の中心となる条件密度推定の問題について考察する。 本手法は境界コントラスト弁別法(mcd)と呼ばれ,条件密度関数を2つの因子,対象変数の限界密度関数,二元分類により推定可能な密度関数の比率に再構成する。 ノイズコントラスト法と同様に、MCDは最先端の教師付き学習技術を利用してニューラルネットワークを含む条件密度推定を行うことができる。 提案手法は,ほとんどの密度モデルや回帰データセットにおいて,既存の手法よりも優れていた。

We consider the problem of conditional density estimation, which is a major topic of interest in the fields of statistical and machine learning. Our method, called Marginal Contrastive Discrimination, MCD, reformulates the conditional density function into two factors, the marginal density function of the target variable and a ratio of density functions which can be estimated through binary classification. Like noise-contrastive methods, MCD can leverage state-of-the-art supervised learning techniques to perform conditional density estimation, including neural networks. Our benchmark reveals that our method significantly outperforms in practice existing methods on most density models and regression datasets.
翻訳日:2022-06-06 17:38:37 公開日:2022-06-03
# (参考訳) Beyond Tabula Rasa: 強化学習の再導入

Beyond Tabula Rasa: Reincarnating Reinforcement Learning ( http://arxiv.org/abs/2206.01626v1 )

ライセンス: CC BY 4.0
Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, Marc G. Bellemare(参考訳) 事前知識のないtabula rasaの学習は、強化学習(rl)研究における一般的なワークフローである。 しかし、大規模な設定に適用されたRLシステムは、タブララザを操作することは滅多にない。 このような大規模なシステムは開発サイクル中に複数の設計やアルゴリズムの変更を施し、これらの変更をスクラッチから再トレーニングすることなく導入するためのアドホックなアプローチを使用する。 さらに、ディープRLの非効率性は、通常、産業規模のリソースにアクセスできない研究者が計算要求問題に取り組むことを排除している。 これらの問題に対処するため,我々はrlエージェントの設計イテレーション間やrlエージェントから別のrlエージェントへ,事前の計算作業(例えば学習されたポリシー)を再利用または転送するワークフローとしてrlを再導入する。 任意のエージェントから他のエージェントにRLを再導入するためのステップとして、既存のサブ最適ポリシーをスタンドアロンの値ベースのRLエージェントに効率的に転送する特定の設定に焦点を当てる。 既存のアプローチはこの設定で失敗し、制限に対処するための単純なアルゴリズムを提案する。 このアルゴリズムを応用して,Atari 2600ゲーム上でのタブラララザRLよりもRLの利得,難易度の高いロコモーションタスク,成層圏バルーンを航行する実世界の問題を再現した。 全体として、この研究は、現実のRLの採用を大幅に改善し、さらなる民主化に役立つと信じているRL研究に代わるアプローチを提案する。

Learning tabula rasa, that is without any prior knowledge, is the prevalent workflow in reinforcement learning (RL) research. However, RL systems, when applied to large-scale settings, rarely operate tabula rasa. Such large-scale systems undergo multiple design or algorithmic changes during their development cycle and use ad hoc approaches for incorporating these changes without re-training from scratch, which would have been prohibitively expensive. Additionally, the inefficiency of deep RL typically excludes researchers without access to industrial-scale resources from tackling computationally-demanding problems. To address these issues, we present reincarnating RL as an alternative workflow, where prior computational work (e.g., learned policies) is reused or transferred between design iterations of an RL agent, or from one RL agent to another. As a step towards enabling reincarnating RL from any agent to any other agent, we focus on the specific setting of efficiently transferring an existing sub-optimal policy to a standalone value-based RL agent. We find that existing approaches fail in this setting and propose a simple algorithm to address their limitations. Equipped with this algorithm, we demonstrate reincarnating RL's gains over tabula rasa RL on Atari 2600 games, a challenging locomotion task, and the real-world problem of navigating stratospheric balloons. Overall, this work argues for an alternative approach to RL research, which we believe could significantly improve real-world RL adoption and help democratize it further.
翻訳日:2022-06-06 17:37:40 公開日:2022-06-03
# (参考訳) カーネルを用いたコントラスト学習におけるポジティブサンプリングの再考

Rethinking Positive Sampling for Contrastive Learning with Kernel ( http://arxiv.org/abs/2206.01646v1 )

ライセンス: CC BY 4.0
Benoit Dufumier, Carlo Alberto Barbano, Robin Louiset, Edouard Duchesnay, Pietro Gori(参考訳) データ強化は教師なしコントラスト学習(CL)において重要な要素である。 正のサンプルがどのように定義され、最終的に表現の品質が決定される。 imagenetのような標準的なビジョンデータセットでは、効率的な拡張が発見されているが、医療画像などの他のアプリケーションや、分かりやすいが無関係な画像機能を持つデータセットでは、まだ未解決の問題である。 そこで本研究では,カーネル理論を用いて正のサンプルを新たに定義する手法と,分離均一性(decoupled uniformity)と呼ばれる新たな損失を提案する。 本研究では,生成モデルから学習した先行情報や補助属性を対比学習に統合し,データ拡張への依存を減らすことを提案する。 本研究では, コントラスト学習と条件付き平均埋め込み理論との関係を描き, 下流分類損失の厳密な境界を導出する。 教師なしの環境では、データ拡張に頼らないために、VAEやGANのような生成モデルによるCLの利点を実証的に実証する。 CIFAR10, CIFAR100, STL10, ImageNet100などの視覚データセットと脳MRIデータセットの枠組みを検証する。 弱教師付き環境では、我々の定式化が最先端の結果をもたらすことを示す。

Data augmentation is a crucial component in unsupervised contrastive learning (CL). It determines how positive samples are defined and, ultimately, the quality of the representation. While efficient augmentations have been found for standard vision datasets, such as ImageNet, it is still an open problem in other applications, such as medical imaging, or in datasets with easy-to-learn but irrelevant imaging features. In this work, we propose a new way to define positive samples using kernel theory along with a novel loss called decoupled uniformity. We propose to integrate prior information, learnt from generative models or given as auxiliary attributes, into contrastive learning, to make it less dependent on data augmentation. We draw a connection between contrastive learning and the conditional mean embedding theory to derive tight bounds on the downstream classification loss. In an unsupervised setting, we empirically demonstrate that CL benefits from generative models, such as VAE and GAN, to less rely on data augmentations. We validate our framework on vision datasets including CIFAR10, CIFAR100, STL10 and ImageNet100 and a brain MRI dataset. In the weakly supervised setting, we demonstrate that our formulation provides state-of-the-art results.
翻訳日:2022-06-06 17:06:07 公開日:2022-06-03
# (参考訳) 連続学習規則によるニューラルネットプログラミングのためのニューラルディファレンシャル方程式

Neural Differential Equations for Learning to Program Neural Nets Through Continuous Learning Rules ( http://arxiv.org/abs/2206.01649v1 )

ライセンス: CC BY 4.0
Kazuki Irie, Francesco Faccio, J\"urgen Schmidhuber(参考訳) ニューラル常微分方程式 (ODE) は、ディープ残差ニューラルネットワーク (NN) の連続時間対応として多くの注目を集めており、再帰的 NN の拡張が多数提案されている。 1980年代以降、ODEは、例えばOjaの規則と主成分分析との有名な関連性のようなNN学習規則の理論結果の導出にも用いられてきた。 このようなルールは、通常、直接 ode に対応する付加的な反復更新プロセスとして表現される。 本稿では,学習ルールとニューラルODEを組み合わせて,他のネットのシナプス接続を急速に変化させることで,短期記憶の操作を学習する連続時間シーケンス処理ネットを構築する。 これにより、Fast Weight Programmers と linear Transformer の連続時間版が生成される。 提案手法は,様々な時系列分類タスクに基づく既存のニューラル制御微分方程式モデルよりも優れており,スケーラビリティの限界にも対処している。 私たちのコードは公開されています。

Neural ordinary differential equations (ODEs) have attracted much attention as continuous-time counterparts of deep residual neural networks (NNs), and numerous extensions for recurrent NNs have been proposed. Since the 1980s, ODEs have also been used to derive theoretical results for NN learning rules, e.g., the famous connection between Oja's rule and principal component analysis. Such rules are typically expressed as additive iterative update processes which have straightforward ODE counterparts. Here we introduce a novel combination of learning rules and Neural ODEs to build continuous-time sequence processing nets that learn to manipulate short-term memory in rapidly changing synaptic connections of other nets. This yields continuous-time counterparts of Fast Weight Programmers and linear Transformers. Our novel models outperform the best existing Neural Controlled Differential Equation based models on various time series classification tasks, while also addressing their scalability limitations. Our code is public.
翻訳日:2022-06-06 16:18:40 公開日:2022-06-03
# (参考訳) ゼロショットスケッチ・ツー・イメージ合成のための言語-画像事前学習表現におけるスタイルコンテントの絡み合い

Style-Content Disentanglement in Language-Image Pretraining Representations for Zero-Shot Sketch-to-Image Synthesis ( http://arxiv.org/abs/2206.01661v1 )

ライセンス: CC BY 4.0
Jan Zuiderveld(参考訳) 本研究では,ゼロショットスケッチ画像合成のための言語画像事前学習表現を利用するフレームワークの提案と検証を行う。 パラメータを(再)学習することなく,画像生成器をスケッチ・ツー・イメージ生成器として利用するために,コンテンツとスタイル表現のアンタングル化が可能であることを示す。 本手法は,入力スケッチの表現における情報の合成性を仮定した初等算術からなる簡易な手法である。 提案手法は,既訓練のオフ・ザ・シェルフモデルと少数のデータにのみ依存しながら,最先端のインスタンスレベルのオープンドメインスケッチ・ツー・イメージモデルと競合することを示す。

In this work, we propose and validate a framework to leverage language-image pretraining representations for training-free zero-shot sketch-to-image synthesis. We show that disentangled content and style representations can be utilized to guide image generators to employ them as sketch-to-image generators without (re-)training any parameters. Our approach for disentangling style and content entails a simple method consisting of elementary arithmetic assuming compositionality of information in representations of input sketches. Our results demonstrate that this approach is competitive with state-of-the-art instance-level open-domain sketch-to-image models, while only depending on pretrained off-the-shelf models and a fraction of the data.
翻訳日:2022-06-06 15:55:37 公開日:2022-06-03
# (参考訳) 小児新型コロナウイルス(covid-19)患者の重篤な健康リスクの深層学習予測 : 2021年のbardaデータ課題を中心に

Deep Learning Prediction of Severe Health Risks for Pediatric COVID-19 Patients with a Large Feature Set in 2021 BARDA Data Challenge ( http://arxiv.org/abs/2206.01696v1 )

ライセンス: CC BY 4.0
Sajid Mahmud, Elham Soltanikazemi, Frimpong Boadu, Ashwin Dhakal, Jianlin Cheng(参考訳) 新型コロナウイルスに感染したほとんどの子供たちは、軽度または軽度な症状を伴わず、自分で自動的に回復できるが、一部の小児科の患者は入院や集中治療を受ける必要がある(例えば、侵襲的な機械換気や心臓血管サポートなど)。 したがって、新型コロナウイルス感染が小児にもたらした深刻な健康リスクを予測し、脆弱な小児感染症患者に対して正確かつタイムリーな医療を提供することが重要である。 しかし、子どもを含む新型コロナウイルス患者の深刻な健康リスクを予測することは依然として大きな課題であり、その影響の根底にある多くの医学的要因はいまだに不明である。 本研究では, 予測に最も有用な機能を探す代わりに, 各種の医療状況と新型コロナウイルス患者の測定値を表現するための, 単語の大規模化手法を考案した。 論理的回帰に基づく簡易な特徴フィルタリングの後、深層学習法を用いて、新型コロナウイルス感染児の入院リスクと、入院した小児の合併症リスクの両方を予測する。 2021年9月15日から12月17日まで行われたBARDA(Biomedical Advanced Research and Development Authority)小児COVID-19データチャレンジのデータセットで、この手法をトレーニングし、テストした。 その結果,小児の新型コロナウイルス患者の入院リスクや重篤な合併症を正確に予測することが可能であり,ディープラーニングは他の機械学習手法よりも正確であることが示唆された。

Most children infected with COVID-19 have no or mild symptoms and can recover automatically by themselves, but some pediatric COVID-19 patients need to be hospitalized or even to receive intensive medical care (e.g., invasive mechanical ventilation or cardiovascular support) to recover from the illnesses. Therefore, it is critical to predict the severe health risk that COVID-19 infection poses to children to provide precise and timely medical care for vulnerable pediatric COVID-19 patients. However, predicting the severe health risk for COVID-19 patients including children remains a significant challenge because many underlying medical factors affecting the risk are still largely unknown. In this work, instead of searching for a small number of most useful features to make prediction, we design a novel large-scale bag-of-words like method to represent various medical conditions and measurements of COVID-19 patients. After some simple feature filtering based on logistical regression, the large set of features is used with a deep learning method to predict both the hospitalization risk for COVID-19 infected children and the severe complication risk for the hospitalized pediatric COVID-19 patients. The method was trained and tested on the datasets of the Biomedical Advanced Research and Development Authority (BARDA) Pediatric COVID-19 Data Challenge held from Sept. 15 to Dec. 17, 2021. The results show that the approach can rather accurately predict the risk of hospitalization and severe complication for pediatric COVID-19 patients and deep learning is more accurate than other machine learning methods.
翻訳日:2022-06-06 15:41:47 公開日:2022-06-03
# GINK: 自動走行のための強化学習によるグラフベースインタラクション対応動力学的計画

GINK: Graph-based Interaction-aware Kinodynamic Planning via Reinforcement Learning for Autonomous Driving ( http://arxiv.org/abs/2206.01488v1 )

ライセンス: Link先を確認
Se-Wook Yoo, Seung-Woo Seo(参考訳) 都市部などの構造環境下での自律運転に深部強化学習(DRL)を適用するには,多くの課題がある。 これは、道路網に沿って移動する大量の交通の流れが動的に変化するためである。 これは、周囲の車両の意図の変化を検出し、迅速に対応戦略を見つけるための重要な要素である。 本稿では,グラフに基づく意図表現学習と強化学習を効率的に組み合わせた新しい枠組みを提案する。 具体的には、動的エージェントの動きをグラフとして表現する。 ノード特徴の時空間的局所性を保存し、隣接ノード間の相互作用を考慮して特徴を集約する。 我々は、安全なRLフレームワークを介して集約された情報を共有するモーションプランナーとコントローラを同時に学習する。 我々は、予測軌跡で与えられた状況を直感的に解釈し、追加のコスト信号を生成する。 高いコスト信号は、ポリシーが動的リスクに対して安全であることを促す。 さらに,学習方針の直接的なロールアウトによって得られたデータを利用することで,学習中のさまざまな状況に対して頑健な意図推論を実現する。 都市運転シミュレータであるCARLAを用いて,様々な状況が存在するナビゲーションシナリオを構築した。 実験では,既存のベースラインと比較して最先端の性能を示す。

There are many challenges in applying deep reinforcement learning (DRL) to autonomous driving in a structured environment such as an urban area. This is because the massive traffic flows moving along the road network change dynamically. It is a key factor to detect changes in the intentions of surrounding vehicles and quickly find a response strategy. In this paper, we suggest a new framework that effectively combines graph-based intention representation learning and reinforcement learning for kinodynamic planning. Specifically, the movement of dynamic agents is expressed as a graph. The spatio-temporal locality of node features is conserved and the features are aggregated by considering the interaction between adjacent nodes. We simultaneously learn motion planner and controller that share the aggregated information via a safe RL framework. We intuitively interpret a given situation with predicted trajectories to generate additional cost signals. The dense cost signals encourage the policy to be safe for dynamic risk. Moreover, by utilizing the data obtained through the direct rollout of learned policy, robust intention inference is achieved for various situations encountered in training. We set up a navigation scenario in which various situations exist by using CARLA, an urban driving simulator. The experiments show the state-of-the-art performance of our approach compared to the existing baselines.
翻訳日:2022-06-06 15:31:37 公開日:2022-06-03
# 行動バイオメトリックスのための変圧器探索 : 歩行認識の事例研究

Exploring Transformers for Behavioural Biometrics: A Case Study in Gait Recognition ( http://arxiv.org/abs/2206.01441v1 )

ライセンス: Link先を確認
Paula Delgado-Santos, Ruben Tolosana, Richard Guest, Farzin Deravi, Ruben Vera-Rodriguez(参考訳) モバイルデバイス上の生体認証は,近年,ユーザフレンドリーな認証手法として注目されている。 この関心は、Deep Learning (DL)の成功にも動機づけられている。 畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づくアーキテクチャは、従来の機械学習技術と比較してパフォーマンスと堅牢性を向上し、タスクに便利なように確立されている。 しかし、いくつかの側面は再検討され、改善されなければならない。 私たちの知る限りでは、本稿はトランスフォーマーに基づく新しい歩行生体認証システムを探求し、提案する最初の記事であり、現在多くのアプリケーションで最先端のパフォーマンスを得ている。 いくつかの最先端アーキテクチャ(vanilla、informer、autoformer、block-recurrent transformerなど)は、実験フレームワークで検討されている。 さらに、さらなる性能向上のためにトランスフォーマーの新しい構成が提案されている。 代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。 その結果、提案したTransformerの高機能性を証明し、最先端のCNNおよびRNNアーキテクチャより優れていた。

Biometrics on mobile devices has attracted a lot of attention in recent years as it is considered a user-friendly authentication method. This interest has also been motivated by the success of Deep Learning (DL). Architectures based on Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) have been established to be convenient for the task, improving the performance and robustness in comparison to traditional machine learning techniques. However, some aspects must still be revisited and improved. To the best of our knowledge, this is the first article that intends to explore and propose novel gait biometric recognition systems based on Transformers, which currently obtain state-of-the-art performance in many applications. Several state-of-the-art architectures (Vanilla, Informer, Autoformer, Block-Recurrent Transformer, and THAT) are considered in the experimental framework. In addition, new configurations of the Transformers are proposed to further increase the performance. Experiments are carried out using the two popular public databases whuGAIT and OU-ISIR. The results achieved prove the high ability of the proposed Transformer, outperforming state-of-the-art CNN and RNN architectures.
翻訳日:2022-06-06 15:28:42 公開日:2022-06-03
# 畳み込みニューラルネットワーク回帰のための分布損失とGNSSマルチパス推定への応用

Distributional loss for convolutional neural network regression and application to GNSS multi-path estimation ( http://arxiv.org/abs/2206.01473v1 )

ライセンス: Link先を確認
Thomas Gonzalez, Antoine Blais, Nicolas Cou\"ellan and Christian Ruiz(参考訳) 畳み込みニューラルネットワーク(CNN)は画像分類に広く用いられている。 長年にわたり、それらは様々な機能強化の恩恵を受けてきたが、現在ではデータのような画像のための最先端の技術と見なされている。 しかし、画像から関数値を推定するために回帰に使用される場合、より少ないレコメンデーションが利用できる。 本研究では,新しいcnn回帰モデルを提案する。 畳み込みニューラルネットワーク層を結合し、画像から高レベルの特徴表現をソフトラベリング技術で抽出する。 より具体的には、ディープレグレッションタスクが困難なため、その考え方は、ターゲットの周囲の分布と見なされるいくつかの不確実性を考慮することである。 推定はモデルによって分布の形で実行される。 初期の研究から、KL(Kulback-Leibler)の発散に基づく特定のヒストグラム損失関数を訓練中に適用した。 このモデルはCNNの特徴表現を生かし、マルチチャネル入力画像から推定を行うことができる。 本手法を評価・説明するために,本手法をGNSS(Global Navigation Satellite System)マルチパス推定に適用し,I,Qチャネルからの相関器出力画像からマルチパス信号パラメータを推定する必要がある。 衛星信号の合成生成データセットから、マルチパス信号遅延、大きさ、ドップラーシフト周波数、位相パラメータを推定する。 評価性能とロバスト性をテストするため,様々な受信条件と各種入力画像解像度を用いて実験を行った。 その結果, 分散損失を用いたソフトラベリングCNN手法は, 全ての条件下での古典的CNN回帰よりも優れていた。 さらに、モデルにより得られる余分な学習性能により、入力画像解像度を80x80から40x40、時には20x20に削減することができる。

Convolutional Neural Network (CNN) have been widely used in image classification. Over the years, they have also benefited from various enhancements and they are now considered as state of the art techniques for image like data. However, when they are used for regression to estimate some function value from images, fewer recommendations are available. In this study, a novel CNN regression model is proposed. It combines convolutional neural layers to extract high level features representations from images with a soft labelling technique. More specifically, as the deep regression task is challenging, the idea is to account for some uncertainty in the targets that are seen as distributions around their mean. The estimations are carried out by the model in the form of distributions. Building from earlier work, a specific histogram loss function based on the Kullback-Leibler (KL) divergence is applied during training. The model takes advantage of the CNN feature representation and is able to carry out estimation from multi-channel input images. To assess and illustrate the technique, the model is applied to Global Navigation Satellite System (GNSS) multi-path estimation where multi-path signal parameters have to be estimated from correlator output images from the I and Q channels. The multi-path signal delay, magnitude, Doppler shift frequency and phase parameters are estimated from synthetically generated datasets of satellite signals. Experiments are conducted under various receiving conditions and various input images resolutions to test the estimation performances quality and robustness. The results show that the proposed soft labelling CNN technique using distributional loss outperforms classical CNN regression under all conditions. Furthermore, the extra learning performance achieved by the model allows the reduction of input image resolution from 80x80 down to 40x40 or sometimes 20x20.
翻訳日:2022-06-06 15:28:23 公開日:2022-06-03
# Markov Potentia Gameとしてのネットワークロードバランシングのための分散および公正なポリシの学習

Learning Distributed and Fair Policies for Network Load Balancing as Markov Potentia Game ( http://arxiv.org/abs/2206.01451v1 )

ライセンス: Link先を確認
Zhiyuan Yao, Zihan Ding(参考訳) 本稿では,マルチエージェント強化学習(marl)フレームワークを用いて,複数のロードバランサ(lbs)をデプロイするデータセンタ(dcs)におけるネットワークロードバランシング問題を検討する。 この問題の課題は、異種処理アーキテクチャと動的環境、および分散ネットワークシステムにおける各LBエージェントの限定的かつ部分的な可観測性からなり、実環境における実運用負荷分散アルゴリズムの性能を大幅に低下させることができる。 集中学習-分散実行(CTDE) RL スキームは MARL の性能を改善するために提案されているが、特に分散ネットワークシステムでは、エージェント間の通信と管理のオーバーヘッドが増大する。 マルチエージェント負荷分散問題をマルコフポテンシャルゲームとして定式化し、そのポテンシャル関数としてのワークロード分布の公平さを慎重に適切に設計する。 ゲームのナッシュ平衡を近似するために,完全分散MARLアルゴリズムを提案する。 実験による評価には,実世界システムとイベント駆動シミュレータの両方があり,提案するmarl負荷分散アルゴリズムはシミュレーションにおいて最適に近い性能を示し,実世界システムにおける実運用lbsよりも優れた結果を示す。

This paper investigates the network load balancing problem in data centers (DCs) where multiple load balancers (LBs) are deployed, using the multi-agent reinforcement learning (MARL) framework. The challenges of this problem consist of the heterogeneous processing architecture and dynamic environments, as well as limited and partial observability of each LB agent in distributed networking systems, which can largely degrade the performance of in-production load balancing algorithms in real-world setups. Centralised-training-decentralised-execution (CTDE) RL scheme has been proposed to improve MARL performance, yet it incurs -- especially in distributed networking systems, which prefer distributed and plug-and-play design scheme -- additional communication and management overhead among agents. We formulate the multi-agent load balancing problem as a Markov potential game, with a carefully and properly designed workload distribution fairness as the potential function. A fully distributed MARL algorithm is proposed to approximate the Nash equilibrium of the game. Experimental evaluations involve both an event-driven simulator and real-world system, where the proposed MARL load balancing algorithm shows close-to-optimal performance in simulations, and superior results over in-production LBs in the real-world system.
翻訳日:2022-06-06 15:27:37 公開日:2022-06-03
# ロボット神経リハビリテーショントレーニングにおける対話型エージェントの活用

Employing Socially Interactive Agents for Robotic Neurorehabilitation Training ( http://arxiv.org/abs/2206.01587v1 )

ライセンス: Link先を確認
Rhythm Arora, Matteo Lavit Nicora, Pooja Prajod, Daniele Panzeri, Elisabeth Andr\'e, Patrick Gebhard, Matteo Malosio(参考訳) 今日の世界では、認知障害や運動障害を持つ多くの患者が、状況を改善するために特定の従来の治療を行う専門家の注意を向けている。 しかし、神経リハビリテーションの専門家が不足しているため、患者は症状を悪化させる重篤な影響を被る。 本稿では,新しいロボット神経リハビリテーショントレーニングシステムのための技術的アプローチを提案する。 リハビリテーション装置、信号分類方法、トレーニング適応のための教師付き機械学習モデル、トレーニング演習、ユーザーインターフェースとしての社会的対話型エージェントの組み合わせに依存している。 専門家と一緒に、システムは患者の特定のニーズに向けて訓練することができる。 さらに、トレーニングフェーズの後、患者は、コーチングアシスタントの役割において、社会的にインタラクティブなエージェントと身体療法士の助けなしに、自宅での自立的なトレーニングが可能になる。

In today's world, many patients with cognitive impairments and motor dysfunction seek the attention of experts to perform specific conventional therapies to improve their situation. However, due to a lack of neurorehabilitation professionals, patients suffer from severe effects that worsen their condition. In this paper, we present a technological approach for a novel robotic neurorehabilitation training system. It relies on a combination of a rehabilitation device, signal classification methods, supervised machine learning models for training adaptation, training exercises, and socially interactive agents as a user interface. Together with a professional, the system can be trained towards the patient's specific needs. Furthermore, after a training phase, patients are enabled to train independently at home without the assistance of a physical therapist with a socially interactive agent in the role of a coaching assistant.
翻訳日:2022-06-06 15:27:15 公開日:2022-06-03
# 大規模不均一データセットを用いた脳波バイオメトリックスの関数接続法

Functional Connectivity Methods for EEG-based Biometrics on a Large, Heterogeneous Dataset ( http://arxiv.org/abs/2206.01475v1 )

ライセンス: Link先を確認
Pradeep Kumar G and Utsav Dutta and Kanishka Sharma and Ramakrishnan Angarai Ganesan(参考訳) 本研究は,心電図(eeg)に基づく生体計測に用いる支援ベクターマシン分類器を用いて,機能的接続(fc)およびグラフベース(gb)測定の有用性を検討する。 FCベースの特徴は生体計測の応用に使われてきたが、異種および大規模データセットの識別アルゴリズムを評価する研究は少ない。 本研究は,異なるプロトコルおよび取得システム下で記録された3つのデータセットをプールして構成した184項目のデータセット上でのFCおよびGBメトリクスの性能について検討する。 その結果, gbメトリクスよりもfcの判別能力が高かった。 高い周波数の脳波バンドによって識別精度が向上し、β帯とガンマ帯の神経信号の特異性が向上したことを示している。 3つのデータベースに共通する56のEEGチャネル全てを用いて、位相同期値(PLV)に基づいて、97.4%の識別精度をガンマ周波数帯域から抽出する。 さらに,分析時間の長さの影響を調査し,適切な識別精度を得るのに必要なデータ取得時間を決定する。 チャネル数を56から21に減らすと、ガンマバンドのPLV特徴を用いた識別精度が2.4%に低下する。 被験者の認知状態と不一致した列車・テスト条件がシステムの性能に及ぼす影響について検討する実験も行われている。

This study examines the utility of functional connectivity (FC) and graph-based (GB) measures with a support vector machine classifier for use in electroencephalogram (EEG) based biometrics. Although FC-based features have been used in biometric applications, studies assessing the identification algorithms on heterogeneous and large datasets are scarce. This work investigates the performance of FC and GB metrics on a dataset of 184 subjects formed by pooling three datasets recorded under different protocols and acquisition systems. The results demonstrate the higher discriminatory power of FC than GB metrics. The identification accuracy increases with higher frequency EEG bands, indicating the enhanced uniqueness of the neural signatures in beta and gamma bands. Using all the 56 EEG channels common to the three databases, the best identification accuracy of 97.4% is obtained using phase-locking value (PLV) based measures extracted from the gamma frequency band. Further, we investigate the effect of the length of the analysis epoch to determine the data acquisition time required to obtain satisfactory identification accuracy. When the number of channels is reduced to 21 from 56, there is a marginal reduction of 2.4% only in the identification accuracy using PLV features in the gamma band. Additional experiments have been conducted to study the effect of the cognitive state of the subject and mismatched train/test conditions on the performance of the system.
翻訳日:2022-06-06 15:23:51 公開日:2022-06-03
# サーロゲートを用いた効率的なニューラルネットワーク探索に関する研究

A Survey on Surrogate-assisted Efficient Neural Architecture Search ( http://arxiv.org/abs/2206.01520v1 )

ライセンス: Link先を確認
Shiqing Liu, Haoyu Zhang and Yaochu Jin(参考訳) ニューラルアーキテクチャサーチ(NAS)は、ディープニューラルネットワーク(DNN)の成功の恩恵を受けるために、豊富な専門知識のない興味のあるユーザを許可する機会を提供するため、近年、ディープラーニングコミュニティで人気が高まっている。 しかし、NASの探索過程において大量の性能推定が必要であり、DNNの訓練は計算集約的であるため、NASは依然として精力的で時間を要する。 NASの大きな限界を解決するためには、NASの設計においてNASの効率を向上させることが不可欠である。 本稿は、NASの一般的な枠組みの簡単な紹介から始まる。 次に、プロキシメトリクスに基づくネットワーク候補を評価する手法を体系的に検討する。 次に、GASのベイズ最適化(Bayesian Optimization)、NASのサロゲート支援進化アルゴリズム(surrogate-assisted evolution algorithm)、NASのMOP(MOP)の3つのカテゴリに分けられる。 最後に、未解決の課題とオープンリサーチの課題を議論し、この新興分野で有望な研究トピックを提案する。

Neural architecture search (NAS) has become increasingly popular in the deep learning community recently, mainly because it can provide an opportunity to allow interested users without rich expertise to benefit from the success of deep neural networks (DNNs). However, NAS is still laborious and time-consuming because a large number of performance estimations are required during the search process of NAS, and training DNNs is computationally intensive. To solve the major limitation of NAS, improving the efficiency of NAS is essential in the design of NAS. This paper begins with a brief introduction to the general framework of NAS. Then, the methods for evaluating network candidates under the proxy metrics are systematically discussed. This is followed by a description of surrogate-assisted NAS, which is divided into three different categories, namely Bayesian optimization for NAS, surrogate-assisted evolutionary algorithms for NAS, and MOP for NAS. Finally, remaining challenges and open research questions are discussed, and promising research topics are suggested in this emerging field.
翻訳日:2022-06-06 15:23:26 公開日:2022-06-03
# 線形収束を伴うマルコフ決定過程の制約アルゴリズム

Algorithm for Constrained Markov Decision Process with Linear Convergence ( http://arxiv.org/abs/2206.01666v1 )

ライセンス: Link先を確認
Egor Gladin, Maksim Lavrik-Karmazin, Karina Zainullina, Varvara Rudenko, Alexander Gasnikov, Martin Tak\'a\v{c}(参考訳) 拘束されたマルコフ決定過程の問題は考慮される。 エージェントは、そのコストに対する複数の制約(制約の数は比較的少ない)の対象となる期待の累積割引報酬を最大化する。 エントロピー正規化ポリシーオプティマイザ(entropy regularized policy optimizer)とvaidyaのデュアルオプティマイザ(dual optimizer)の2つの要素を統合した新しいデュアルアプローチが提案されている。 提案手法の有限時間誤差境界について述べる。 非凹面対象の非凹面制約に対する挑戦にもかかわらず、提案手法は(線形速度で)大域的最適値に収束することが示されている。 最適性ギャップと制約違反の観点から表される複雑さは、既存の原始双対アプローチによって大幅に改善される。

The problem of constrained Markov decision process is considered. An agent aims to maximize the expected accumulated discounted reward subject to multiple constraints on its costs (the number of constraints is relatively small). A new dual approach is proposed with the integration of two ingredients: entropy regularized policy optimizer and Vaidya's dual optimizer, both of which are critical to achieve faster convergence. The finite-time error bound of the proposed approach is provided. Despite the challenge of the nonconcave objective subject to nonconcave constraints, the proposed approach is shown to converge (with linear rate) to the global optimum. The complexity expressed in terms of the optimality gap and the constraint violation significantly improves upon the existing primal-dual approaches.
翻訳日:2022-06-06 15:20:58 公開日:2022-06-03
# ニューラル時空間モデルを用いた動的構造イルミネーション顕微鏡

Dynamic Structured Illumination Microscopy with a Neural Space-time Model ( http://arxiv.org/abs/2206.01397v1 )

ライセンス: Link先を確認
Ruiming Cao, Fanglin Linda Liu, Li-Hao Yeh, Laura Waller(参考訳) 構造化照明顕微鏡(SIM)は複数の原画像から超解像を再構成するので、取得速度は制限され、ダイナミックなシーンには適さない。 超解像で動的シーンを再現するために,データキャプチャ中のサンプル動作をモデル化する新しい手法であるspeckle flow simを提案する。 speckle flow simは固定されたスペックル照明を使用し、サンプルの動きを利用して生画像のシーケンスをキャプチャする。 次に、座標系多層パーセプトロン(MLP)を用いたニューラル時空間モデルを用いて動的シーンの時空間関係をモデル化し、運動力学と超解像シーンを共同で復元する。 シミュレーションでSpeckle Flow SIMを検証し,市販部品を用いた簡易で安価な実験装置を構築した。 変形可能な動きと1.88倍の回折解像度を持つ動的シーンを実験で再現できることを実証した。

Structured illumination microscopy (SIM) reconstructs a super-resolved image from multiple raw images; hence, acquisition speed is limited, making it unsuitable for dynamic scenes. We propose a new method, Speckle Flow SIM, that models sample motion during the data capture in order to reconstruct dynamic scenes with super-resolution. Speckle Flow SIM uses fixed speckle illumination and relies on sample motion to capture a sequence of raw images. Then, the spatio-temporal relationship of the dynamic scene is modeled using a neural space-time model with coordinate-based multi-layer perceptrons (MLPs), and the motion dynamics and the super-resolved scene are jointly recovered. We validated Speckle Flow SIM in simulation and built a simple, inexpensive experimental setup with off-the-shelf components. We demonstrated that Speckle Flow SIM can reconstruct a dynamic scene with deformable motion and 1.88x the diffraction-limited resolution in experiment.
翻訳日:2022-06-06 15:20:44 公開日:2022-06-03
# レートスプリット伝送を用いたFog-RAN支援フェデレーション学習の完了時間最小化

Completion Time Minimization of Fog-RAN-Assisted Federated Learning With Rate-Splitting Transmission ( http://arxiv.org/abs/2206.01373v1 )

ライセンス: Link先を確認
Seok-Hwan Park and Hoon Lee(参考訳) 本研究は,複数のIoTデバイスが分散アクセスポイント(AP)を介してクラウドサーバ(CS)と通信することで,共有機械学習モデルを協調的に学習するフォグラジオアクセスネットワーク上でのフェデレーション学習(FL)を研究する。 APとCSを接続するフロントハウルリンクの容量が有限であると仮定して、分割アップリンクメッセージのハイブリッドエッジとクラウドデコードを可能にするIoTデバイス(ID)におけるレートスプリット伝送を提案する。 FLの完了時間最小化の問題は、精度やイテレーション数などのトレーニングハイパーパラメータとともに、レートスプリット伝送とフロントホール量子化戦略を最適化することで解決される。 数値計算の結果,提案手法はエッジやクラウドデコードのみに依存するベンチマーク方式に比べて著しく向上することがわかった。

This work studies federated learning (FL) over a fog radio access network, in which multiple internet-of-things (IoT) devices cooperatively learn a shared machine learning model by communicating with a cloud server (CS) through distributed access points (APs). Under the assumption that the fronthaul links connecting APs to CS have finite capacity, a rate-splitting transmission at IoT devices (IDs) is proposed which enables hybrid edge and cloud decoding of split uplink messages. The problem of completion time minimization for FL is tackled by optimizing the rate-splitting transmission and fronthaul quantization strategies along with training hyperparameters such as precision and iteration numbers. Numerical results show that the proposed rate-splitting transmission achieves notable gains over benchmark schemes which rely solely on edge or cloud decoding.
翻訳日:2022-06-06 15:19:34 公開日:2022-06-03
# 知識グラフ埋め込みトピックモデルを用いた電子健康記録データのモデル化

Modeling electronic health record data using a knowledge-graph-embedded topic model ( http://arxiv.org/abs/2206.01436v1 )

ライセンス: Link先を確認
Yuesong Zou, Ahmad Pesaranghader, Aman Verma, David Buckeridge and Yue Li(参考訳) 電子健康記録(EHR)データセットの急速な成長は、人間の病気を体系的に理解する有望な機会を開く。 しかし,ERHデータから有効な臨床知識の抽出は,その疎度とノイズ情報によって妨げられている。 エンド・ツー・エンドの知識グラフに基づくマルチモーダル組込みトピックモデルであるKG-ETMを提案する。 KG-ETMは、医療知識グラフから埋め込みを学習することで、HRデータから潜伏病トピックを抽出する。 我々はKG-ETMを100万人以上の患者からなる大規模EHRデータセットに適用した。 ehrの再構成と薬物注入による性能評価を行った。 KG-ETMは両タスクの代替手法よりも優れた性能を示した。 さらに,EHR符号のグラフインフォームド埋め込みを臨床的に学習した。 さらに,本モデルでは,患者層化と薬剤推奨のための解釈可能かつ正確な患者表現も発見できる。

The rapid growth of electronic health record (EHR) datasets opens up promising opportunities to understand human diseases in a systematic way. However, effective extraction of clinical knowledge from the EHR data has been hindered by its sparsity and noisy information. We present KG-ETM, an end-to-end knowledge graph-based multimodal embedded topic model. KG-ETM distills latent disease topics from EHR data by learning the embedding from the medical knowledge graphs. We applied KG-ETM to a large-scale EHR dataset consisting of over 1 million patients. We evaluated its performance based on EHR reconstruction and drug imputation. KG-ETM demonstrated superior performance over the alternative methods on both tasks. Moreover, our model learned clinically meaningful graph-informed embedding of the EHR codes. In additional, our model is also able to discover interpretable and accurate patient representations for patient stratification and drug recommendations.
翻訳日:2022-06-06 15:19:18 公開日:2022-06-03
# 神経バリア関数を用いた確率システムの安全性証明

Safety Certification for Stochastic Systems via Neural Barrier Functions ( http://arxiv.org/abs/2206.01463v1 )

ライセンス: Link先を確認
Frederik Baymler Mathiesen, Simeon Calvert, Luca Laurenti(参考訳) 非線形確率システムに対する非自明な安全性証明書の提供は、安全クリティカルなアプリケーションにおける自律システムの普及を制限する重要なオープン問題である。 この問題を解決する有望な解決策は障壁関数である。 確率的システムを持つ障壁関数の合成はスーパーマーチンゲールを形成し、マルティンゲールの不等式を介して有限時間軸上の安全な集合にシステムが留まる確率の計算を可能にする。 しかし、確率システムの障壁関数を見つけるための既存のアプローチは、一般に、低次SoS多項式のような小さな種類の関数に対する障壁の探索を制限する凸最適化プログラムに依存しており、計算コストがかかる。 本稿では,ニューラルネットワークとしてバリア関数をパラメータ化し,ニューラルネットワークの堅牢なトレーニング技術を用いてニューラルネットワークのバリア関数を探索する手法を提案する。 具体的には,ニューラルネットワークが線形プログラミングによる障壁関数である条件を満たすことを証明し,トレーニング時に得られた境界を用いて,これらの条件の満足度を強制する。 また,認証フレームワークをスケーラブルにするためのブランチ・アンド・バウンドスキームも提示する。 提案手法は,いくつかのケーススタディにおいて既存の手法よりも優れており,桁違いに大きい安全証明書を返すことが多い。

Providing non-trivial certificates of safety for non-linear stochastic systems is an important open problem that limits the wider adoption of autonomous systems in safety-critical applications. One promising solution to address this problem is barrier functions. The composition of a barrier function with a stochastic system forms a supermartingale, thus enabling the computation of the probability that the system stays in a safe set over a finite time horizon via martingale inequalities. However, existing approaches to find barrier functions for stochastic systems generally rely on convex optimization programs that restrict the search of a barrier to a small class of functions such as low degree SoS polynomials and can be computationally expensive. In this paper, we parameterize a barrier function as a neural network and show that techniques for robust training of neural networks can be successfully employed to find neural barrier functions. Specifically, we leverage bound propagation techniques to certify that a neural network satisfies the conditions to be a barrier function via linear programming and then employ the resulting bounds at training time to enforce the satisfaction of these conditions. We also present a branch-and-bound scheme that makes the certification framework scalable. We show that our approach outperforms existing methods in several case studies and often returns certificates of safety that are orders of magnitude larger.
翻訳日:2022-06-06 15:19:06 公開日:2022-06-03
# 物理インフォームド音響放射マッピングのためのガウス過程の制約

Constraining Gaussian processes for physics-informed acoustic emission mapping ( http://arxiv.org/abs/2206.01495v1 )

ライセンス: Link先を確認
Matthew R Jones, Timothy J Rogers and Elizabeth J Cross(参考訳) 構造物の損傷の自動局所化は、高価値構造物の予測的あるいは条件に基づく維持への道のりにおいて、難しいが重要な要素である。 到着地図の音響放射時間の利用は、この課題に対して有望なアプローチであるが、構造全体にわたって密集した人工的な音響放射測定の集合を収集する必要があるため、結果として長く、しばしば非現実的なデータ取得プロセスが困難である。 本稿では,この問題を緩和するために,物理インフォームドガウス過程を用いてこれらの地図を学習する。 このアプローチでは、ガウス過程は物理領域に拘束され、構造の幾何学と境界条件に関する情報が学習プロセスに直接埋め込まれ、任意の予測が境界における物理的に一貫性のある振る舞いを満たすことを保証するモデルを返す。 トレーニングデータが少ない場所や興味の構造に関して限定的なカバレッジを含む、トレーニング測定取得時に発生するいくつかのシナリオが制限されている。 実験ケーススタディとして複雑板状構造を用いた場合,本手法はデータ収集の負担を著しく低減するが, 境界条件知識の導入は, トレーニング観測の低減とともに予測精度を著しく向上させる。

The automated localisation of damage in structures is a challenging but critical ingredient in the path towards predictive or condition-based maintenance of high value structures. The use of acoustic emission time of arrival mapping is a promising approach to this challenge, but is severely hindered by the need to collect a dense set of artificial acoustic emission measurements across the structure, resulting in a lengthy and often impractical data acquisition process. In this paper, we consider the use of physics-informed Gaussian processes for learning these maps to alleviate this problem. In the approach, the Gaussian process is constrained to the physical domain such that information relating to the geometry and boundary conditions of the structure are embedded directly into the learning process, returning a model that guarantees that any predictions made satisfy physically-consistent behaviour at the boundary. A number of scenarios that arise when training measurement acquisition is limited, including where training data are sparse, and also of limited coverage over the structure of interest. Using a complex plate-like structure as an experimental case study, we show that our approach significantly reduces the burden of data collection, where it is seen that incorporation of boundary condition knowledge significantly improves predictive accuracy as training observations are reduced, particularly when training measurements are not available across all parts of the structure.
翻訳日:2022-06-06 15:18:46 公開日:2022-06-03
# (参考訳) ランダム化平滑化限界の回避に向けて : 理論的解析

Towards Evading the Limits of Randomized Smoothing: A Theoretical Analysis ( http://arxiv.org/abs/2206.01715v1 )

ライセンス: CC BY 4.0
Raphael Ettedgui, Alexandre Araujo, Rafael Pinot, Yann Chevaleyre, Jamal Atif(参考訳) ランダム化平滑化は、敵の例に対する証明可能な防御の主要な標準である。 にもかかわらず、この手法は情報理論上の重要な制限に苦しむことが最近証明されている。 本稿では、これらの制限は本質的ではなく、単に現在の認証方法の副産物であると主張する。 まず、これらの証明書は分類器に関する情報が少なすぎることを示し、特に決定境界の局所曲率に盲目である。 このことは、問題の次元が大きくなるにつれて、非常に準最適ロバスト性を保証する。 次に,分類器に関する情報を収集することで,この問題を回避できることを理論的に示す。 より正確には、複数の雑音分布を持つ決定境界を探索することにより、任意の精度で最適な証明を近似できることが示される。 このプロセスはテスト時間ではなく認証時に実行されるので、証明書の品質を高めながら、自然な精度の損失は伴わない。 この結果は、分類器固有の認証に関するさらなる研究を促進し、ランダム化平滑化が依然として調査に値することを実証する。 分類器固有の認証は計算コストを増大させる可能性があるが、その緩和方法に関する理論的洞察を提供する。

Randomized smoothing is the dominant standard for provable defenses against adversarial examples. Nevertheless, this method has recently been proven to suffer from important information theoretic limitations. In this paper, we argue that these limitations are not intrinsic, but merely a byproduct of current certification methods. We first show that these certificates use too little information about the classifier, and are in particular blind to the local curvature of the decision boundary. This leads to severely sub-optimal robustness guarantees as the dimension of the problem increases. We then show that it is theoretically possible to bypass this issue by collecting more information about the classifier. More precisely, we show that it is possible to approximate the optimal certificate with arbitrary precision, by probing the decision boundary with several noise distributions. Since this process is executed at certification time rather than at test time, it entails no loss in natural accuracy while enhancing the quality of the certificates. This result fosters further research on classifier-specific certification and demonstrates that randomized smoothing is still worth investigating. Although classifier-specific certification may induce more computational cost, we also provide some theoretical insight on how to mitigate it.
翻訳日:2022-06-06 15:17:15 公開日:2022-06-03
# YOLOv5s-GTB:橋梁割れ検出のための軽量化および改良型YOLOv5s

YOLOv5s-GTB: light-weighted and improved YOLOv5s for bridge crack detection ( http://arxiv.org/abs/2206.01498v1 )

ライセンス: Link先を確認
Xiao Ruiqiang(参考訳) 本研究は,従来の橋のひび割れ検出手法が大量の人的・材料的資源を無駄にしている状況に対して,モバイルデバイスのシナリオに展開可能な軽量で高精度で深層学習に基づく橋の目に見える亀裂認識モデルを提案する。 YOLOv5の性能を向上させるために、まずデータ拡張法を補足し、次にYOLOv5系列のアルゴリズムを訓練して、適切な基本フレームワークを選択する。 The YOLOv5s is identified as the basic framework for the light-weighted crack detection model through experiments for comparison and validation.By replacing the traditional DarkNet backbone network of YOLOv5s with GhostNet backbone network, introducing Transformer multi-headed self-attention mechanism and bi-directional feature pyramid network (BiFPN) to replace the commonly used feature pyramid network, the improved model not only has 42% fewer parameters and faster inference response, but also significantly outperforms the original model in terms of accuracy and mAP (8.5% and 1.1% improvement, respectively). 幸運にも、改善した各部分が結果にポジティブな影響を与えています。 本稿では,今後,高速道路と橋梁の分野におけるデジタル運用管理システムの確立と,中国の公共インフラのライフサイクル構造全体の健康モニタリングを実現するための実現可能性について述べる。

In response to the situation that the conventional bridge crack manual detection method has a large amount of human and material resources wasted, this study is aimed to propose a light-weighted, high-precision, deep learning-based bridge apparent crack recognition model that can be deployed in mobile devices' scenarios. In order to enhance the performance of YOLOv5, firstly, the data augmentation methods are supplemented, and then the YOLOv5 series algorithm is trained to select a suitable basic framework. The YOLOv5s is identified as the basic framework for the light-weighted crack detection model through experiments for comparison and validation.By replacing the traditional DarkNet backbone network of YOLOv5s with GhostNet backbone network, introducing Transformer multi-headed self-attention mechanism and bi-directional feature pyramid network (BiFPN) to replace the commonly used feature pyramid network, the improved model not only has 42% fewer parameters and faster inference response, but also significantly outperforms the original model in terms of accuracy and mAP (8.5% and 1.1% improvement, respectively). Luckily each improved part has a positive impact on the result. This paper provides a feasible idea to establish a digital operation management system in the field of highway and bridge in the future and to implement the whole life cycle structure health monitoring of civil infrastructure in China.
翻訳日:2022-06-06 14:43:58 公開日:2022-06-03
# D'ARTAGNAN: 対戦型ビデオ生成

D'ARTAGNAN: Counterfactual Video Generation ( http://arxiv.org/abs/2206.01651v1 )

ライセンス: Link先を確認
Hadrien Reynaud, Athanasios Vlontzos, Mischa Dombrowski, Ciar\'an Lee, Arian Beqiri, Paul Leeson, Bernhard Kainz(参考訳) 因果的対応の機械学習フレームワークは、臨床医が対実的な質問に答えることで治療の最良のコースを特定するのに役立つ。 心エコー図の場合,左室射出率の変動について検討し,本検査で得られた最も重要な臨床指標である左室射出率の変化を検討した。 我々は、D'ARTAGNAN(Deep ARtificial Twin-Architecture GeNerAtive Networks)を構築するために、ディープニューラルネットワーク、ツイン因果ネットワーク、ジェネレーティブ逆行手法を初めて組み合わせた。 このエコー心電図は、患者が異なる放出率を持つ場合、どのように見えるか?」という疑問に答えることで、心エコービデオに適用する前に、合成データセットにアプローチの健全性を示す。 そこで我々は,所定の入力に条件付けされたEjection Fractionのバリエーションを用いて,患者のビデオスタイルと解剖を維持できる新しい超音波ビデオを生成する。 SSIMスコアは0.79、R2スコアは0.51となる。 コードとモデルはhttps://github.com/hreynaud/dartagnanで入手できる。

Causally-enabled machine learning frameworks could help clinicians to identify the best course of treatments by answering counterfactual questions. We explore this path for the case of echocardiograms by looking into the variation of the Left Ventricle Ejection Fraction, the most essential clinical metric gained from these examinations. We combine deep neural networks, twin causal networks and generative adversarial methods for the first time to build D'ARTAGNAN (Deep ARtificial Twin-Architecture GeNerAtive Networks), a novel causal generative model. We demonstrate the soundness of our approach on a synthetic dataset before applying it to cardiac ultrasound videos by answering the question: "What would this echocardiogram look like if the patient had a different ejection fraction?". To do so, we generate new ultrasound videos, retaining the video style and anatomy of the original patient, with variations of the Ejection Fraction conditioned on a given input. We achieve an SSIM score of 0.79 and an R2 score of 0.51 on the counterfactual videos. Code and models are available at https://github.com/HReynaud/dartagnan.
翻訳日:2022-06-06 14:43:37 公開日:2022-06-03
# メトリクスの再ロード:画像解析検証のための落とし穴と推奨

Metrics reloaded: Pitfalls and recommendations for image analysis validation ( http://arxiv.org/abs/2206.01653v1 )

ライセンス: Link先を確認
Lena Maier-Hein, Annika Reinke, Evangelia Christodoulou, Ben Glocker, Patrick Godau, Fabian Isensee, Jens Kleesiek, Michal Kozubek, Mauricio Reyes, Michael A. Riegler, Manuel Wiesenfarth, Michael Baumgartner, Matthias Eisenmann, Doreen Heckmann-N\"otzel, A. Emre Kavur, Tim R\"adsch, Minu D. Tizabi, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Peter Bankhead, Arriel Benis, M. Jorge Cardoso, Veronika Cheplygina, Beth Cimini, Gary S. Collins, Keyvan Farahani, Bram van Ginneken, Daniel A. Hashimoto, Michael M. Hoffman, Merel Huisman, Pierre Jannin, Charles E. Kahn, Alexandros Karargyris, Alan Karthikesalingam, Hannes Kenngott, Annette Kopp-Schneider, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, David Moher, Karel G.M. Moons, Henning M\"uller, Felix Nickel, Brennan Nichyporuk, Jens Petersen, Nasir Rajpoot, Nicola Rieke, Julio Saez-Rodriguez, Clarisa S\'anchez Guti\'errez, Shravya Shetty, Maarten van Smeden, Carole H. Sudre, Ronald M. Summers, Abdel A. Taha, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Paul F. J\"ager(参考訳) 自動バイオメディカル画像解析の分野は、アルゴリズム検証のためのロバストで有意義なパフォーマンス指標に依存する。 しかし、現在のメートル法の使用はしばしば不正であり、基礎となるドメインの関心を反映していない。 本稿では、研究者が問題意識でパフォーマンス指標を選択するための包括的なフレームワークを提案する。 具体的には,画像,物体,画素レベルでの分類課題として解釈できる生体画像解析問題に焦点を当てる。 このフレームワークはまず、与えられた問題のドメイン関心、対象構造、データセット、アルゴリズム出力関連特性を問題指紋にコンパイルすると同時に、イメージレベルの分類、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出といった適切な問題カテゴリにマッピングする。 次に、ユーザに対して、適切な検証メトリクスを選択して適用するプロセスを通じて、個々の選択に関連する潜在的な落とし穴を認識させる。 本稿では,画像解析コミュニティからコンストラクティブなフィードバックを得ることを目的として,メトリクスリロードされたレコメンデーションフレームワークの現状について述べる。 現在のバージョンは60人以上の画像分析専門家による国際コンソーシアムで開発されており、コミュニティ主導の最適化の後、ユーザフレンドリーなツールキットとして公開される予定だ。

The field of automatic biomedical image analysis crucially depends on robust and meaningful performance metrics for algorithm validation. Current metric usage, however, is often ill-informed and does not reflect the underlying domain interest. Here, we present a comprehensive framework that guides researchers towards choosing performance metrics in a problem-aware manner. Specifically, we focus on biomedical image analysis problems that can be interpreted as a classification task at image, object or pixel level. The framework first compiles domain interest-, target structure-, data set- and algorithm output-related properties of a given problem into a problem fingerprint, while also mapping it to the appropriate problem category, namely image-level classification, semantic segmentation, instance segmentation, or object detection. It then guides users through the process of selecting and applying a set of appropriate validation metrics while making them aware of potential pitfalls related to individual choices. In this paper, we describe the current status of the Metrics Reloaded recommendation framework, with the goal of obtaining constructive feedback from the image analysis community. The current version has been developed within an international consortium of more than 60 image analysis experts and will be made openly available as a user-friendly toolkit after community-driven optimization.
翻訳日:2022-06-06 14:43:15 公開日:2022-06-03
# LBPとHOGを併用した網膜血管の同定

Identification via Retinal Vessels Combining LBP and HOG ( http://arxiv.org/abs/2206.01658v1 )

ライセンス: Link先を確認
Ali Noori(参考訳) 情報技術の発展と高度なセキュリティの必要性により、異なる識別方法の使用が重要になっている。 各生体認証機能には独自のメリットとデメリットがあり、それぞれが使用方法に依存しています。 網膜スキャンはバイオスケールの同定方法である。 網膜は血管と光ディスクから構成される。 血管分布パターンは目覚ましい網膜識別法の一つである。 本稿では, lbp法とhog法を用いて網膜画像の同定を行う新しい手法を提案する。 提案手法では, 回転, サイズ変化の持続性に優れた機械ビジョン技術を用いて, 網膜血管を正確に分離する試みを行う。 hogベースまたはlppベースの方法またはそれらの組み合わせは分離に使用され、hsv色空間も使用できる。 特徴を抽出し、類似性基準を識別に使用することができる。 提案手法の実装と,新たに提示した手法との比較により,提案手法の性能が向上した。

With development of information technology and necessity for high security, using different identification methods has become very important. Each biometric feature has its own advantages and disadvantages and choosing each of them depends on our usage. Retinal scanning is a bio scale method for identification. The retina is composed of vessels and optical disk. The vessels distribution pattern is one the remarkable retinal identification methods. In this paper, a new approach is presented for identification via retinal images using LBP and hog methods. In the proposed method, it will be tried to separate the retinal vessels accurately via machine vision techniques which will have good sustainability in rotation and size change. HOG-based or LBP-based methods or their combination can be used for separation and also HSV color space can be used too. Having extracted the features, the similarity criteria can be used for identification. The implementation of proposed method and its comparison with one of the newly-presented methods in this area shows better performance of the proposed method.
翻訳日:2022-06-06 14:42:53 公開日:2022-06-03
# 勾配難読化チェックリストテストはセキュリティの誤った感覚をもたらす

Gradient Obfuscation Checklist Test Gives a False Sense of Security ( http://arxiv.org/abs/2206.01705v1 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Thomas Probst, Luc Van Gool(参考訳) 敵攻撃に対する防御手法の一般的なグループは、ネットワークに確率的ノイズを注入することに基づいている。 しかし、そのような確率的防御の堅牢性の主な源は、しばしば勾配の難解さによるものであり、誤ったセキュリティの感覚を与える。 一般的な敵攻撃のほとんどは最適化に基づくものであるため、難解な勾配は攻撃能力を低下させ、一方でモデルがより強く、特別に調整された敵攻撃の影響を受けやすい。 近年, 強靭性向上は, 主に勾配難燃化によって引き起こされる5つの特徴が確認されている。 この5つの特徴を十分なテストとして利用し、勾配難読化がロバスト性の主要な源であるかどうかを判断する傾向が強まっている。 しかし、これらの特徴は既存の勾配難読化のすべてのケースを完璧に特徴づけるものではなく、したがって決定的なテストの基礎として機能することができない。 本研究では, 強靭性向上の主因には勾配難読化が欠如していることを結論する上で, 本試験は不十分であることを示す。

One popular group of defense techniques against adversarial attacks is based on injecting stochastic noise into the network. The main source of robustness of such stochastic defenses however is often due to the obfuscation of the gradients, offering a false sense of security. Since most of the popular adversarial attacks are optimization-based, obfuscated gradients reduce their attacking ability, while the model is still susceptible to stronger or specifically tailored adversarial attacks. Recently, five characteristics have been identified, which are commonly observed when the improvement in robustness is mainly caused by gradient obfuscation. It has since become a trend to use these five characteristics as a sufficient test, to determine whether or not gradient obfuscation is the main source of robustness. However, these characteristics do not perfectly characterize all existing cases of gradient obfuscation, and therefore can not serve as a basis for a conclusive test. In this work, we present a counterexample, showing this test is not sufficient for concluding that gradient obfuscation is not the main cause of improvements in robustness.
翻訳日:2022-06-06 14:42:41 公開日:2022-06-03
# Plumber: 情報抽出パイプラインを作成するためのモジュールフレームワーク

Plumber: A Modular Framework to Create Information Extraction Pipelines ( http://arxiv.org/abs/2206.01442v1 )

ライセンス: Link先を確認
Mohamad Yaser Jaradeh and Kuldeep Singh and Markus Stocker and S\"oren Auer(参考訳) 情報抽出(IE)タスクは、様々な研究領域で一般的に研究されている。 したがってコミュニティは、そのようなタスクを実行するための複数のテクニック、ソリューション、ツールを継続的に作成します。 しかしながら、これらのツールを実行して既存のインフラストラクチャに統合するには、時間、専門知識、リソースが必要です。 ここでの関連するタスクはトリプル抽出とリンクで、構造化トリプルはテキストから抽出され、既存の知識グラフ(kg)にアラインされる。 本稿では,コミュニティが作成したツールのプールから,ユーザが手動で自動で適切なIEパイプラインを作成し,非構造化テキストのトリプル抽出とアライメントを行う,PLUMBERを提案する。 我々のアプローチは、パイプラインを変更してIEタスクを実行するインタラクティブな媒体を提供する。 さまざまなユースケースのためのフレームワークの動作を示す短いビデオは、https://www.youtube.com/watch? v=XC9rJNIUv8g

Information Extraction (IE) tasks are commonly studied topics in various domains of research. Hence, the community continuously produces multiple techniques, solutions, and tools to perform such tasks. However, running those tools and integrating them within existing infrastructure requires time, expertise, and resources. One pertinent task here is triples extraction and linking, where structured triples are extracted from a text and aligned to an existing Knowledge Graph (KG). In this paper, we present PLUMBER, the first framework that allows users to manually and automatically create suitable IE pipelines from a community-created pool of tools to perform triple extraction and alignment on unstructured text. Our approach provides an interactive medium to alter the pipelines and perform IE tasks. A short video to show the working of the framework for different use-cases is available online under: https://www.youtube.com/watch?v=XC9rJNIUv8g
翻訳日:2022-06-06 14:41:08 公開日:2022-06-03
# 動的グラフのためのインスタントグラフニューラルネットワーク

Instant Graph Neural Networks for Dynamic Graphs ( http://arxiv.org/abs/2206.01379v1 )

ライセンス: Link先を確認
Yanping Zheng, Hanzhi Wang, Zhewei Wei, Jiajun Liu, Sibo Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データのモデリングに広く利用されている。 多数のGNN変異体の開発に伴い、近年、数百万ノードの静的グラフを扱うためのGNNのスケーラビリティを改善するという、画期的な成果が見られた。 しかし、GNNによる大規模動的グラフの連続的な変化を即座に表現する方法は、まだ未解決の問題である。 既存の動的gnnは、しばしばスナップショットベースで、グラフの周期的進化のモデル化に焦点を当てている。 このような手法には2つの欠点がある: まず、グラフ表現に反映されるグラフの変更が大幅に遅延し、結果としてモデルの精度が低下する; 次に、各スナップショットにおけるグラフ全体の表現行列を繰り返し計算することは、主に時間を要するものであり、スケーラビリティを著しく制限する。 本稿では,動的グラフのグラフ表現行列に対するインクリメンタルな計算手法であるInstant Graph Neural Network (InstantGNN)を提案する。 エッジ領域モデルで動的グラフを扱うように設定することで,時間を要する反復計算を回避し,表現の即時更新と瞬時予測を可能にする。 動的構造と動的属性を持つグラフもサポートされている。 これらの更新の時間的複雑さの上限も提供される。 さらに,本手法は適応的学習戦略を提供し,最高の性能向上を達成できる瞬間にモデルの再訓練を誘導する。 いくつかの実世界および合成データセットについて広範な実験を行う。 実験結果から,既存手法よりも高次精度で精度を向上できることを示す。

Graph Neural Networks (GNNs) have been widely used for modeling graph-structured data. With the development of numerous GNN variants, recent years have witnessed groundbreaking results in improving the scalability of GNNs to work on static graphs with millions of nodes. However, how to instantly represent continuous changes of large-scale dynamic graphs with GNNs is still an open problem. Existing dynamic GNNs focus on modeling the periodic evolution of graphs, often on a snapshot basis. Such methods suffer from two drawbacks: first, there is a substantial delay for the changes in the graph to be reflected in the graph representations, resulting in losses on the model's accuracy; second, repeatedly calculating the representation matrix on the entire graph in each snapshot is predominantly time-consuming and severely limits the scalability. In this paper, we propose Instant Graph Neural Network (InstantGNN), an incremental computation approach for the graph representation matrix of dynamic graphs. Set to work with dynamic graphs with the edge-arrival model, our method avoids time-consuming, repetitive computations and allows instant updates on the representation and instant predictions. Graphs with dynamic structures and dynamic attributes are both supported. The upper bounds of time complexity of those updates are also provided. Furthermore, our method provides an adaptive training strategy, which guides the model to retrain at moments when it can make the greatest performance gains. We conduct extensive experiments on several real-world and synthetic datasets. Empirical results demonstrate that our model achieves state-of-the-art accuracy while having orders-of-magnitude higher efficiency than existing methods.
翻訳日:2022-06-06 14:40:32 公開日:2022-06-03
# 規則解釈可能な非負データ表現の探索

Finding Rule-Interpretable Non-Negative Data Representation ( http://arxiv.org/abs/2206.01483v1 )

ライセンス: Link先を確認
Matej Mihel\v{c}i\'c and Pauli Miettinen(参考訳) 非負行列分解 (non-negative matrix factorization, nmf) は、非負データの部分ベース、低次元、非負表現を得るための集中的に使用される手法である。 様々な研究分野において一般的な方法である。 生物学、医学、薬学の分野で研究を行う科学者は、アプローチの非負性性がドメインの問題の特徴に自然に適合し、その結果を解析し理解しやすくするため、他の次元還元アプローチ(PCAなど)よりもNMFを好むことが多い。 これらの利点にもかかわらず、NMFの数値的性質によって生じる潜在因子の正確な特徴と解釈を得るのは難しい。 一方、ルールベースのアプローチは、しばしばより解釈可能であると考えられているが、部品ベースの解釈が欠如している。 本研究では,ルールベース記述とNMFアプローチが提供する部分ベース表現の利点を融合したNMFアプローチを提案する。 非負のエントリと高いエンティティカバレッジを持つ一連のルールを持つ数値入力データを考えると、このアプローチは入力データの低次元非負表現を、その要素が入力ルールの適切なサブセットによって記述されるように生成する。 潜在要因の重要な属性を明らかにすることに加えて、これらの属性間の関係を分析し、それらが持つ正確な数値間隔またはカテゴリー値を提供する。 提案手法は集中埋め込みや教師付きマルチラベルnmfの実行といったタスクにおいて多くの利点を提供する。

Non-negative Matrix Factorization (NMF) is an intensively used technique for obtaining parts-based, lower dimensional and non-negative representation of non-negative data. It is a popular method in different research fields. Scientists performing research in the fields of biology, medicine and pharmacy often prefer NMF over other dimensionality reduction approaches (such as PCA) because the non-negativity of the approach naturally fits the characteristics of the domain problem and its result is easier to analyze and understand. Despite these advantages, it still can be hard to get exact characterization and interpretation of the NMF's resulting latent factors due to their numerical nature. On the other hand, rule-based approaches are often considered more interpretable but lack the parts-based interpretation. In this work, we present a version of the NMF approach that merges rule-based descriptions with advantages of part-based representation offered by the NMF approach. Given the numerical input data with non-negative entries and a set of rules with high entity coverage, the approach creates the lower-dimensional non-negative representation of the input data in such a way that its factors are described by the appropriate subset of the input rules. In addition to revealing important attributes for latent factors, it allows analyzing relations between these attributes and provides the exact numerical intervals or categorical values they take. The proposed approach provides numerous advantages in tasks such as focused embedding or performing supervised multi-label NMF.
翻訳日:2022-06-06 14:40:07 公開日:2022-06-03
# ハイブリッド幾何散乱ネットワークは最大斜め問題の解決に役立つか?

Can Hybrid Geometric Scattering Networks Help Solve the Maximal Clique Problem? ( http://arxiv.org/abs/2206.01506v1 )

ライセンス: Link先を確認
Yimeng Min, Frederik Wenkel, Michael Perlmutter, Guy Wolf(参考訳) NP-hard maximal clique (MC) 問題の近似解に対する幾何散乱に基づくグラフニューラルネットワーク(GNN)を提案する。 損失関数を2つの項で構成し、1つはネットワークにノードの大規模な集合を見つけるよう促し、もう1つはノードがクライクを形成する制約の代理として振る舞う。 この損失を利用してGNNアーキテクチャをトレーニングし、各ノードがMCの一部である確率を表すベクトルを出力し、ルールベースのデコーダを適用して最終的な予測を行う。 散乱変換の組み入れは、GNNでしばしば発生するいわゆる過平滑化問題を緩和し、提案したセットアップの性能を低下させる。 実験の結果,提案手法は時間予算に制限のあるGUROBIのような従来の解法と同様に,解の精度と推論速度において代表的GNNベースラインよりも優れていた。

We propose a geometric scattering-based graph neural network (GNN) for approximating solutions of the NP-hard maximal clique (MC) problem. We construct a loss function with two terms, one which encourages the network to find a large set of nodes and the other which acts as a surrogate for the constraint that the nodes form a clique. We then use this loss to train a novel GNN architecture that outputs a vector representing the probability for each node to be part of the MC and apply a rule-based decoder to make our final prediction. The incorporation of the scattering transform alleviates the so-called oversmoothing problem that is often encountered in GNNs and would degrade the performance of our proposed setup. Our empirical results demonstrate that our method outperforms representative GNN baselines in terms of solution accuracy and inference speed as well as conventional solvers like GUROBI with limited time budgets.
翻訳日:2022-06-06 14:39:37 公開日:2022-06-03
# 正準畳み込みニューラルネットワーク

Canonical convolutional neural networks ( http://arxiv.org/abs/2206.01509v1 )

ライセンス: Link先を確認
Lokesh Veeramacheneni and Moritz Wolter and Reinhard Klein and Jochen Garcke(参考訳) 畳み込みニューラルネットワークの標準重み正規化を提案する。 正準テンソル分解に触発されて、いわゆる正準ネットワークの重みテンソルを外部ベクトル積のスケール和として表現する。 特に,ネットワーク重みを分割した形でトレーニングし,各モードごとにスケール重みを別々に最適化する。 さらに、重み正規化と同様に、グローバルなスケーリングパラメータを含む。 パワー法を実行し,ガウス分布や一様分布からランダムに描画することにより,正準形式の初期化について検討する。 以上の結果から,標準分布から導かれるより安価な初期化法をパワー法に置き換えることができた。 標準的再パラメータ化は、MNIST、CIFAR10、SVHNデータセット上での競合正規化性能をもたらす。 さらに、この定式化はネットワーク圧縮を単純化する。 トレーニングが収束すると、標準形式はパラメータ和を切断することで便利なモデル圧縮を可能にする。

We introduce canonical weight normalization for convolutional neural networks. Inspired by the canonical tensor decomposition, we express the weight tensors in so-called canonical networks as scaled sums of outer vector products. In particular, we train network weights in the decomposed form, where scale weights are optimized separately for each mode. Additionally, similarly to weight normalization, we include a global scaling parameter. We study the initialization of the canonical form by running the power method and by drawing randomly from Gaussian or uniform distributions. Our results indicate that we can replace the power method with cheaper initializations drawn from standard distributions. The canonical re-parametrization leads to competitive normalization performance on the MNIST, CIFAR10, and SVHN data sets. Moreover, the formulation simplifies network compression. Once training has converged, the canonical form allows convenient model-compression by truncating the parameter sums.
翻訳日:2022-06-06 14:39:22 公開日:2022-06-03
# 自己注意に基づく高性能顧客チャーン予測システム

A High-Performance Customer Churn Prediction System based on Self-Attention ( http://arxiv.org/abs/2206.01523v1 )

ライセンス: Link先を確認
Haotian Wu(参考訳) 顧客チャーン予測は、顧客の維持戦略に寄与する研究の挑戦的な領域である。 チャーンコミュニティによってしばしば採用されている既存の機械学習モデルの予測性能は、モデルの特徴抽出能力の低さによってボトルネックになっているように見える。 そこで,本論文では,特徴抽出と特徴抽出の効率を向上し,モデルの予測性能を向上させるために,セルフアテンションエンハンスメント(hnnsae)を用いたハイブリッドニューラルネットワークを提案する。 このモデルは3つの主要ブロックから構成される。 最初のブロックはエンティティ埋め込み層で、0-1コードに変換されたカテゴリ変数を処理するために使用される。 第2のブロックは機能抽出器で、マルチヘッドのセルフアテンション機構を通じて重要な特徴を抽出する。 さらに,特徴抽出効果を向上させるために,マルチヘッド自己アテンションモジュール上に残差接続ニューラルネットワークを積み重ねる。 3つ目のブロックは3層多層パーセプトロンである分類器である。 本研究は,商業銀行顧客に関する公開データセットの実験を行う。 その結果、HNNSAEは、他の個人機械学習(IML)、エンサンブル機械学習(EML)、深層学習(DL)メソッドよりも大幅に優れていることが示された。 さらに,本論文で提案する特徴抽出器の性能を,他の3つの特徴抽出器の性能と比較し,本論文で提案する手法が他の手法を大きく上回ることを示す。 さらに、モデル予測性能と過適合リスクに関する4つの仮説を、公開データセット上でテストする。

Customer churn prediction is a challenging domain of research that contributes to customer retention strategy. The predictive performance of existing machine learning models, which are often adopted by churn communities, appear to be at a bottleneck, partly due to models' poor feature extraction capability. Therefore, a novel algorithm, a hybrid neural network with self-attention enhancement (HNNSAE), is proposed in this paper to improve the efficiency of feature screening and feature extraction, consequently improving the model's predictive performance. This model consists of three main blocks. The first block is the entity embedding layer, which is employed to process the categorical variables transformed into 0-1 code. The second block is the feature extractor, which extracts the significant features through the multi-head self-attention mechanism. In addition, to improve the feature extraction effect, we stack the residual connection neural network on multi-head self-attention modules. The third block is a classifier, which is a three-layer multilayer perceptron. This work conducts experiments on publicly available dataset related to commercial bank customers. The result demonstrates that HNNSAE significantly outperforms the other Individual Machine Learning (IML), Ensemble Machine Learning (EML), and Deep Learning (DL) methods tested in this paper. Furthermore, we compare the performance of the feature extractor proposed in this paper with that of other three feature extractors and find that the method proposed in this paper significantly outperforms other methods. In addition, four hypotheses about model prediction performance and overfitting risk are tested on the publicly available dataset.
翻訳日:2022-06-06 14:37:57 公開日:2022-06-03
# 強化学習における不確かさの解消

Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement Learning ( http://arxiv.org/abs/2206.01558v1 )

ライセンス: Link先を確認
Bertrand Charpentier, Ransalu Senanayake, Mykel Kochenderfer, Stephan G\"unnemann(参考訳) 予測された報酬に対する動脈的およびてんかん的不確実性を特徴付けることは、信頼できる強化学習(RL)システムを構築するのに役立つ。 不確実性は、本質的にリスクの高い状態や行動につながる既約環境の確率性から生じる。 認識の不確実性は、学習中に蓄積された限られた情報から得られる。 訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックおよびエピステマティックな不確実性を特徴づけることができる。 本研究では,RLにおける動脈硬化とてんかんの不確かさを解消する枠組みを提案する。 1) 学習時間とテスト時間の両方において, 学習時と認識的不確実性推定のための所望の動作をキャプチャする4つのデシデラタを定義する。 2)教師付き学習(モンテカルロ・ドロップアウト、アンサンブル、ディープカーネル学習モデル、証拠ネットワーク)に触発された4つのrlモデルを用いて、アレエータ的・認識的不確かさをインスタンス化する。 最後に,非分布環境の検出と摂動環境への一般化に基づくモデルフリーRLの不確実性評価の実践的評価手法を提案する。 モデルフリーなRLエージェントと教師付き学習不確実性手法を慎重に装備することでデシデラタを満足できることを示す理論的および実験的証拠を提示する。

Characterizing aleatoric and epistemic uncertainty on the predicted rewards can help in building reliable reinforcement learning (RL) systems. Aleatoric uncertainty results from the irreducible environment stochasticity leading to inherently risky states and actions. Epistemic uncertainty results from the limited information accumulated during learning to make informed decisions. Characterizing aleatoric and epistemic uncertainty can be used to speed up learning in a training environment, improve generalization to similar testing environments, and flag unfamiliar behavior in anomalous testing environments. In this work, we introduce a framework for disentangling aleatoric and epistemic uncertainty in RL. (1) We first define four desiderata that capture the desired behavior for aleatoric and epistemic uncertainty estimation in RL at both training and testing time. (2) We then present four RL models inspired by supervised learning (i.e. Monte Carlo dropout, ensemble, deep kernel learning models, and evidential networks) to instantiate aleatoric and epistemic uncertainty. Finally, (3) we propose a practical evaluation method to evaluate uncertainty estimation in model-free RL based on detection of out-of-distribution environments and generalization to perturbed environments. We present theoretical and experimental evidence to validate that carefully equipping model-free RL agents with supervised learning uncertainty methods can fulfill our desiderata.
翻訳日:2022-06-06 14:37:34 公開日:2022-06-03
# ノード分類のためのグラフニューラルネットワークの校正について

On Calibration of Graph Neural Networks for Node Classification ( http://arxiv.org/abs/2206.01570v1 )

ライセンス: Link先を確認
Tong Liu, Yushan Liu, Marcel Hildebrandt, Mitchell Joblin, Hang Li, Volker Tresp(参考訳) グラフは、実体とその相互作用をノードとエッジの観点から表現することで、現実世界の複雑なシステムをモデル化することができる。 グラフ構造をよりうまく活用するために、ノード分類やリンク予測などのタスクのためのエンティティとエッジ埋め込みを学習するグラフニューラルネットワークが開発された。 これらのモデルは精度で優れた性能を発揮するが、予測に関連する信頼性スコアは校正されないかもしれない。 つまり、スコアは予測された事象の真正の確率を反映していないかもしれない。 グラフニューラルネットワークは幅広いタスクに使用されているが、そのキャリブレーションはまだ十分に検討されていない。 本研究では,ノード分類のためのグラフニューラルネットワークのキャリブレーション,既存処理後のキャリブレーション手法の効果,モデル容量,グラフ密度,新しい損失関数の影響について検討した。 さらに,隣接ノードを考慮したトポロジー対応キャリブレーション手法を提案する。

Graphs can model real-world, complex systems by representing entities and their interactions in terms of nodes and edges. To better exploit the graph structure, graph neural networks have been developed, which learn entity and edge embeddings for tasks such as node classification and link prediction. These models achieve good performance with respect to accuracy, but the confidence scores associated with the predictions might not be calibrated. That means that the scores might not reflect the ground-truth probabilities of the predicted events, which would be especially important for safety-critical applications. Even though graph neural networks are used for a wide range of tasks, the calibration thereof has not been sufficiently explored yet. We investigate the calibration of graph neural networks for node classification, study the effect of existing post-processing calibration methods, and analyze the influence of model capacity, graph density, and a new loss function on calibration. Further, we propose a topology-aware calibration method that takes the neighboring nodes into account and yields improved calibration compared to baseline methods.
翻訳日:2022-06-06 14:37:09 公開日:2022-06-03
# ニューラルネットワークにおける特徴学習の理論的分析:入力からの創発と固定特徴に対するアドバンテージ

A Theoretical Analysis on Feature Learning in Neural Networks: Emergence from Inputs and Advantage over Fixed Features ( http://arxiv.org/abs/2206.01717v1 )

ライセンス: Link先を確認
Zhenmei Shi, Junyi Wei, Yingyu Liang(参考訳) ニューラルネットワークの重要な特徴は、予測のための効果的な特徴を持つ入力データの表現を学習する能力である。 ニューラルネットワークにおける特徴学習の源泉と利点をよりよく理解するために、ラベルが一連のクラス関連パターンによって決定され、背景パターンとともに入力が生成される、実践的なデータによって動機付けられた学習問題を考察する。 勾配降下によって訓練されたニューラルネットワークがこれらの問題に成功できることを実証する。 この成功は、データ(特に入力分布の構造)を利用して指数関数的に多くの候補の中から効率よく学習される効果的な特徴の出現と改善に依存している。 対照的に、多項式サイズのデータ非依存的な特徴に関する線形モデルは良い誤りを学習できない。 さらに、特定の入力構造が取り除かれた場合、統計的クエリーモデルの多項式アルゴリズムはさらに弱く学習することができない。 これらの結果は、ニューラルネットワークの機能学習が入力構造に強く依存し、優れた性能をもたらすことを示す理論的証拠を与える。 合成および実データに関する予備的な実験結果も肯定的な支持を与える。

An important characteristic of neural networks is their ability to learn representations of the input data with effective features for prediction, which is believed to be a key factor to their superior empirical performance. To better understand the source and benefit of feature learning in neural networks, we consider learning problems motivated by practical data, where the labels are determined by a set of class relevant patterns and the inputs are generated from these along with some background patterns. We prove that neural networks trained by gradient descent can succeed on these problems. The success relies on the emergence and improvement of effective features, which are learned among exponentially many candidates efficiently by exploiting the data (in particular, the structure of the input distribution). In contrast, no linear models on data-independent features of polynomial sizes can learn to as good errors. Furthermore, if the specific input structure is removed, then no polynomial algorithm in the Statistical Query model can learn even weakly. These results provide theoretical evidence showing that feature learning in neural networks depends strongly on the input structure and leads to the superior performance. Our preliminary experimental results on synthetic and real data also provide positive support.
翻訳日:2022-06-06 14:36:50 公開日:2022-06-03
# (参考訳) 予測:ニューラルネットワークにおける欠落値のプルーニング

PROMISSING: Pruning Missing Values in Neural Networks ( http://arxiv.org/abs/2206.01640v1 )

ライセンス: CC BY-SA 4.0
Seyed Mostafa Kia, Nastaran Mohammadian Rad, Daniel van Opstal, Bart van Schie, Andre F. Marquand, Josien Pluim, Wiepke Cahn, Hugo G. Schnack(参考訳) データは機械学習モデルの主要な燃料であるが、特に現実世界のシナリオで収集された場合、不足する値に悩まされることが多い。 しかし、人工ニューラルネットワークモデルを含む多くの市販機械学習モデルは、これらの欠落した値を直接処理できない。 したがって、学習や予測プロセスの前に、データインプテーションのような追加のデータ前処理やキュレーションステップは避けられない。 本研究では,ニューラルネットワークの学習と推論の段階において,不足値(PROMISSing)を抽出する,単純かつ直感的かつ効果的な手法を提案する。 この方法では、欠落した値を削除またはインデュートする必要はなく、欠落した値は、新しい情報ソースとして扱われる(我々が知らないことを表す)。 シミュレーションデータ,いくつかの分類および回帰ベンチマーク,およびマルチモーダル臨床データセットを用いた実験により, ProMISSing は様々な計算手法と比較して予測性能が良くなった。 さらに,PROMISSING技術を用いてトレーニングしたモデルが,未知の未完成サンプルに直面した場合,予測精度が低下していることを示す。 この発見は、機械学習モデルを純粋に予測するマシンから、不完全な情報ソースに直面する際に「私は知らない」と言うことができるより現実的な思考者へと発展させることを願っている。

While data are the primary fuel for machine learning models, they often suffer from missing values, especially when collected in real-world scenarios. However, many off-the-shelf machine learning models, including artificial neural network models, are unable to handle these missing values directly. Therefore, extra data preprocessing and curation steps, such as data imputation, are inevitable before learning and prediction processes. In this study, we propose a simple and intuitive yet effective method for pruning missing values (PROMISSING) during learning and inference steps in neural networks. In this method, there is no need to remove or impute the missing values; instead, the missing values are treated as a new source of information (representing what we do not know). Our experiments on simulated data, several classification and regression benchmarks, and a multi-modal clinical dataset show that PROMISSING results in similar prediction performance compared to various imputation techniques. In addition, our experiments show models trained using PROMISSING techniques are becoming less decisive in their predictions when facing incomplete samples with many unknowns. This finding hopefully advances machine learning models from being pure predicting machines to more realistic thinkers that can also say "I do not know" when facing incomplete sources of information.
翻訳日:2022-06-06 14:34:05 公開日:2022-06-03
# ミラーモジュラークローニングと高速量子連想検索

Mirror modular cloning and fast quantum associative retrieval ( http://arxiv.org/abs/2206.01644v1 )

ライセンス: Link先を確認
M. C. Diamantini and C. A. Trugenberger(参考訳) 量子状態は1つのパラメータに依存するユニタリ変換を伴う大域的ミラーリングまで完全にクローンできることを示す。 これは量子連想記憶の「完全」クローニングと等価であり、その結果、古典的記憶よりも指数関数的に多くの情報を保持できることを示した。 最後に、劣化した入力を補正し、Groverアルゴリズムよりも指数関数的に高速な量子連想探索アルゴリズムを提案する。

We show that a quantum state can be perfectly cloned up to global mirroring with a unitary transformation that depends on one single parameter. We then show that this is equivalent to "perfect" cloning for quantum associative memories which, as a consequence efficiently hold exponentially more information than their classical counterparts. Finally, we present a quantum associative retrieval algorithm which can correct corrupted inputs and is exponentially faster than the Grover algorithm.
翻訳日:2022-06-06 14:08:28 公開日:2022-06-03
# GAN生成試料のプライバシー特性について

On the Privacy Properties of GAN-generated Samples ( http://arxiv.org/abs/2206.01349v1 )

ライセンス: Link先を確認
Zinan Lin, Vyas Sekar, Giulia Fanti(参考訳) GAN(Generative Adversarial Network)のプライバシ含意は大きな関心事であり、プライバシ保証付きGANをトレーニングするためのアルゴリズムがいくつか提案されている。 GANの一般化特性への接続を描くことにより、いくつかの仮定の下では、GAN生成サンプルが本質的にいくつかの(弱い)プライバシー保証を満たすことが証明される。 まず, GAN を m 個のサンプルで訓練して n 個のサンプルを生成する場合, 生成したサンプルは (エプシロン, デルタ) 対に対して (エプシロン, デルタ) 差分プライベートであり, デルタは O(n/m) となる。 いくつかの特別な条件下では、この上限は厳密であることを示す。 次に,GAN生成サンプルのメンバシップ推論攻撃に対する堅牢性について検討する。 我々は,あるサンプルがトレーニングデータセットから引き出されたのか,あるいは基礎となるデータ分布から引き出されたのかを,敵が判断しなければならない仮説テストとして,メンバシップ推論をモデル化する。 この敵は、O(m^{-1/4}) に匹敵するスケールの領域をROC曲線の下で達成できることを示す。

The privacy implications of generative adversarial networks (GANs) are a topic of great interest, leading to several recent algorithms for training GANs with privacy guarantees. By drawing connections to the generalization properties of GANs, we prove that under some assumptions, GAN-generated samples inherently satisfy some (weak) privacy guarantees. First, we show that if a GAN is trained on m samples and used to generate n samples, the generated samples are (epsilon, delta)-differentially-private for (epsilon, delta) pairs where delta scales as O(n/m). We show that under some special conditions, this upper bound is tight. Next, we study the robustness of GAN-generated samples to membership inference attacks. We model membership inference as a hypothesis test in which the adversary must determine whether a given sample was drawn from the training dataset or from the underlying data distribution. We show that this adversary can achieve an area under the ROC curve that scales no better than O(m^{-1/4}).
翻訳日:2022-06-06 14:08:21 公開日:2022-06-03
# 深層強化学習に基づくマイクログリッドにおける共同エネルギー派遣とユニットコミットメント

Joint Energy Dispatch and Unit Commitment in Microgrids Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2206.01663v1 )

ライセンス: Link先を確認
Jiaju Qi, Lei Lei, Kan Zheng, Simon X. Yang(参考訳) 近年, 再生可能エネルギーへのマイクログリッド(MG)の適用がますます広まり, 動的エネルギー管理の必要性が高まっている。 本稿では,電力需給バランスの確保を前提とした発電コストの削減を目的とした,統合エネルギー派遣(ED)と単位コミットメント(UC)の決定を孤立したMGで行うための最適な政策を学習するために,深層強化学習(DRL)を適用した。 結合EDとUCによる離散連続ハイブリッドアクション空間の課題を克服するために,有限水平動的プログラミング(DP)フレームワークに基づく2つの古典的DRLアルゴリズム,すなわち深部Qネットワーク(DQN)と深部決定論的ポリシー勾配(DDPG)をシームレスに統合するDRLアルゴリズム(HAFH-DDPG)を提案する。 さらに、このアルゴリズムの計算複雑性を低減するため、簡易な動作空間をサポートするためにディーゼル発電機(DG)選択戦略を示す。 最後に,実世界データセットを用いた実験により,提案アルゴリズムの有効性を複数のベースラインアルゴリズムと比較し検証した。

Nowadays, the application of microgrids (MG) with renewable energy is becoming more and more extensive, which creates a strong need for dynamic energy management. In this paper, deep reinforcement learning (DRL) is applied to learn an optimal policy for making joint energy dispatch (ED) and unit commitment (UC) decisions in an isolated MG, with the aim for reducing the total power generation cost on the premise of ensuring the supply-demand balance. In order to overcome the challenge of discrete-continuous hybrid action space due to joint ED and UC, we propose a DRL algorithm, i.e., the hybrid action finite-horizon DDPG (HAFH-DDPG), that seamlessly integrates two classical DRL algorithms, i.e., deep Q-network (DQN) and deep deterministic policy gradient (DDPG), based on a finite-horizon dynamic programming (DP) framework. Moreover, a diesel generator (DG) selection strategy is presented to support a simplified action space for reducing the computation complexity of this algorithm. Finally, the effectiveness of our proposed algorithm is verified through comparison with several baseline algorithms by experiments with real-world data set.
翻訳日:2022-06-06 14:08:01 公開日:2022-06-03
# Scalarは不十分: ベクタライゼーションに基づくアンバイアスドラーニングのランク付け

Scalar is Not Enough: Vectorization-based Unbiased Learning to Rank ( http://arxiv.org/abs/2206.01702v1 )

ライセンス: Link先を確認
Mouxiang Chen, Chenghao Liu, Zemin Liu, Jianling Sun(参考訳) Unbiased Learning to rank (ULTR)は、バイアスのあるユーザクリックログからバイアスのないランキングモデルをトレーニングすることを目的としている。 現在のULTR法の多くは、クリック確率を2つのスカラー関数に分解できると仮定する試験仮説(EH)に基づいている。 残念ながら、機能、バイアス要因、クリック間の相互作用は実際には複雑であり、通常はこの独立した方法では分解できない。 クリックデータをehに適合させることで、モデルの誤特定と近似誤差をもたらす可能性がある。 本稿では,ベクトルベースのEHを提案し,クリック確率を2つのベクトル関数のドット積として定式化する。 この解は任意のクリック関数に適合する普遍性のため完備である。 そこで本研究では,ベースベクトルへの埋め込みを投影することで文書の埋め込みとソートを適応的に学習するベクトル化という新しいモデルを提案する。 大規模な実験により,本手法は複雑な実クリックや単純なシミュレートされたクリックにおいて,最先端のULTR法よりも優れていた。

Unbiased learning to rank (ULTR) aims to train an unbiased ranking model from biased user click logs. Most of the current ULTR methods are based on the examination hypothesis (EH), which assumes that the click probability can be factorized into two scalar functions, one related to ranking features and the other related to bias factors. Unfortunately, the interactions among features, bias factors and clicks are complicated in practice, and usually cannot be factorized in this independent way. Fitting click data with EH could lead to model misspecification and bring the approximation error. In this paper, we propose a vector-based EH and formulate the click probability as a dot product of two vector functions. This solution is complete due to its universality in fitting arbitrary click functions. Based on it, we propose a novel model named Vectorization to adaptively learn the relevance embeddings and sort documents by projecting embeddings onto a base vector. Extensive experiments show that our method significantly outperforms the state-of-the-art ULTR methods on complex real clicks as well as simple simulated clicks.
翻訳日:2022-06-06 14:07:41 公開日:2022-06-03
# fanoos xaiシステムにおける自動オペレータ選択のための学習ベース手法

A Learning-Based Method for Automatic Operator Selection in the Fanoos XAI System ( http://arxiv.org/abs/2206.01722v1 )

ライセンス: Link先を確認
David Bayani(参考訳) 本稿では,ユーザの記述要求を多かれ少なかれ抽象化するために,適切なアクションを学習できるfanoos xaiシステム [bayani et al 2022]の拡張について述べる。 具体的には、分析対象のシステムの記述は状態に格納され、記述を多かれ少なかれ抽象的にするために、Fanoosは大きなライブラリからオペレータを選択して状態に適用し、新しい記述を生成する。 この作業により、fanoosは経験を活用して、特定の状況に適用する最良のオペレータを学習し、探索と搾取のバランスをとり、利用可能な時に専門家の洞察を活用し、現在の状態と過去の状態の類似性を活用することができる。 さらに、学習プロセス(例えばカリキュラム学習)をブートストラップするために、我々が実装したシミュレーションユーザについて述べる。このシミュレーションにより、fanoosは、人間と完全にスクラッチから対話するのではなく、後に実際のユーザとの経験によって洗練された洞察を提供する、合理的なアクションコースを可能にする一般的な洞察を得ることができる。 論文で記述されたメソッドを実装するコードは、https://github/DBay-ani/Operator_Selection_Learning_Extensions_For_Fanoosにある。

We describe an extension of the Fanoos XAI system [Bayani et al 2022] which enables the system to learn the appropriate action to take in order to satisfy a user's request for description to be made more or less abstract. Specifically, descriptions of systems under analysis are stored in states, and in order to make a description more or less abstract, Fanoos selects an operator from a large library to apply to the state and generate a new description. Prior work on Fanoos predominately used hand-written methods for operator-selection; this current work allows Fanoos to leverage experience to learn the best operator to apply in a particular situation, balancing exploration and exploitation, leveraging expert insights when available, and utilizing similarity between the current state and past states. Additionally, in order to bootstrap the learning process (i.e., like in curriculum learning), we describe a simulated user which we implemented; this simulation allows Fanoos to gain general insights that enable reasonable courses of action, insights which later can be refined by experience with real users, as opposed to interacting with humans completely from scratch. Code implementing the methods described in the paper can be found at https://github/DBay-ani/Operator_Selection_Learning_Extensions_For_Fanoos.
翻訳日:2022-06-06 14:07:23 公開日:2022-06-03
# ベイズ最適化における混合変数のハイブリッドモデル

Hybrid Models for Mixed Variables in Bayesian Optimization ( http://arxiv.org/abs/2206.01409v1 )

ライセンス: Link先を確認
Hengrui Luo, Younghyun Cho, James W. Demmel, Xiaoye S. Li, Yang Liu(参考訳) ベイズ最適化(bo)文脈における混合変数(例えば、連続変数、整数変数、カテゴリ変数)の同時サロゲートモデリングの問題を体系的に記述する。 我々はモンテカルロ木探索 (MCTS) とガウス過程 (GP) を併用した統合ハイブリッドモデルを提案する。 このアーキテクチャに基づき、非定常カーネルと関連するファミリーを含む共分散カーネルの新しい候補ファミリー間での新しい動的モデル選択基準を適用することを提案する。 モデルの優越性をサポートするために,様々なベンチマーク問題を検討・提示し,boにおける最先端の混合変数法と比較して,提案手法の有効性を強調する結果を得た。

We systematically describe the problem of simultaneous surrogate modeling of mixed variables (i.e., continuous, integer and categorical variables) in the Bayesian optimization (BO) context. We provide a unified hybrid model using both Monte-Carlo tree search (MCTS) and Gaussian processes (GP) that encompasses and generalizes multiple state-of-the-art mixed BO surrogates. Based on the architecture, we propose applying a new dynamic model selection criterion among novel candidate families of covariance kernels, including non-stationary kernels and associated families. Different benchmark problems are studied and presented to support the superiority of our model, along with results highlighting the effectiveness of our method compared to most state-of-the-art mixed-variable methods in BO.
翻訳日:2022-06-06 14:05:43 公開日:2022-06-03
# 適応線形制御におけるレート最適オンライン凸最適化

Rate-Optimal Online Convex Optimization in Adaptive Linear Control ( http://arxiv.org/abs/2206.01426v1 )

ライセンス: Link先を確認
Asaf Cassel (1), Alon Cohen (2 and 3), Tomer Koren (1 and 3) ((1) School of Computer Science, Tel Aviv University, (2) School of Electrical Engineering, Tel Aviv University, (3) Google Research, Tel Aviv)(参考訳) 対流コストの逆変化と状態とコスト関数の完全なフィードバックの下で未知の線形力学系を制御する問題を考える。 本稿では,後見における最適安定化線形制御器と比較して最適な$\smash{\sqrt{t}}$-regret率を達成する最初の計算効率アルゴリズムを提案する。 提案手法は, オンラインコストに対する非凸低信頼境界を慎重に設計し, 特定の非凸構造を利用した, 計算効率のよい最小化のための新しい手法を用いる。

We consider the problem of controlling an unknown linear dynamical system under adversarially changing convex costs and full feedback of both the state and cost function. We present the first computationally-efficient algorithm that attains an optimal $\smash{\sqrt{T}}$-regret rate compared to the best stabilizing linear controller in hindsight, while avoiding stringent assumptions on the costs such as strong convexity. Our approach is based on a careful design of non-convex lower confidence bounds for the online costs, and uses a novel technique for computationally-efficient regret minimization of these bounds that leverages their particular non-convex structure.
翻訳日:2022-06-06 14:05:28 公開日:2022-06-03
# bacadi: 未知の介入によるベイズ因果発見

BaCaDI: Bayesian Causal Discovery with Unknown Interventions ( http://arxiv.org/abs/2206.01665v1 )

ライセンス: Link先を確認
Alexander H\"agele, Jonas Rothfuss, Lars Lorch, Vignesh Ram Somnath, Bernhard Sch\"olkopf, Andreas Krause(参考訳) 観察と実験から因果構造を学ぶことは、多くの領域において中心的な課題である。 例えば、生物学では、最近の進歩により、薬物や遺伝子ノックアウトのような複数の介入の下で単一細胞の発現データを得ることができる。 しかし、重要な課題は、多くの場合、介入のターゲットが不確かまたは不明であることです。 したがって、標準的な因果発見法はもはや使用できない。 このギャップを埋めるために、未知の実験的・インターベンショナルな条件下で生成されたデータの基盤となる因果構造を発見するためのBaCaDIフレームワークを提案する。 BaCaDIは完全に分化可能であり、因果構造と介入の両方の潜在確率的表現の連続空間で機能する。 これにより、勾配に基づく変分推論により複素後流を近似し、予測した構造における認識論的不確かさを推論することができる。 BaCaDIは、合成因果発見タスクとシミュレートされた遺伝子発現データの実験において、因果構造と介入ターゲットを識別する関連手法より優れている。 最後に,その厳密なベイズ的アプローチにより,不確実性の推定精度が向上することを示す。

Learning causal structures from observation and experimentation is a central task in many domains. For example, in biology, recent advances allow us to obtain single-cell expression data under multiple interventions such as drugs or gene knockouts. However, a key challenge is that often the targets of the interventions are uncertain or unknown. Thus, standard causal discovery methods can no longer be used. To fill this gap, we propose a Bayesian framework (BaCaDI) for discovering the causal structure that underlies data generated under various unknown experimental/interventional conditions. BaCaDI is fully differentiable and operates in the continuous space of latent probabilistic representations of both causal structures and interventions. This enables us to approximate complex posteriors via gradient-based variational inference and to reason about the epistemic uncertainty in the predicted structure. In experiments on synthetic causal discovery tasks and simulated gene-expression data, BaCaDI outperforms related methods in identifying causal structures and intervention targets. Finally, we demonstrate that, thanks to its rigorous Bayesian approach, our method provides well-calibrated uncertainty estimates.
翻訳日:2022-06-06 14:05:16 公開日:2022-06-03
# 畳み込みニューラルネットワークを用いたCTによる肺塞栓の検出

Detecting Pulmonary Embolism from Computed Tomography Using Convolutional Neural Network ( http://arxiv.org/abs/2206.01344v1 )

ライセンス: Link先を確認
Chia-Hung Yang, Yun-Chien Cheng, Chin Kuo(参考訳) 肺塞栓症(pe)の臨床症状は非常に多様で非特異的であり、診断が困難である。 加えて、肺塞栓症は複数のトリガーを持ち、血管死の主要な原因の1つである。 したがって、迅速かつ迅速に検出・治療できれば、入院患者の死亡リスクを著しく低減することができる。 検出プロセスではCTPA(CTPA)のコストが高く,造影剤を投与する必要があるため,患者にダメージを与える恐れがある。 そこで本研究では, 畳み込みニューラルネットワークを用いて胸部CT像を撮影するすべての症例において, 肺塞栓症を検出するための深層学習アプローチを提案する。 肺塞栓症検出システムを用いて,患者の第1のCT画像と同時に肺塞栓症の可能性を検出し,CTPA検査を即時実施し,1週間以上のCT画像スクリーニング時間を節約し,タイムリーな診断と治療を行う。

The clinical symptoms of pulmonary embolism (PE) are very diverse and non-specific, which makes it difficult to diagnose. In addition, pulmonary embolism has multiple triggers and is one of the major causes of vascular death. Therefore, if it can be detected and treated quickly, it can significantly reduce the risk of death in hospitalized patients. In the detection process, the cost of computed tomography pulmonary angiography (CTPA) is high, and angiography requires the injection of contrast agents, which increase the risk of damage to the patient. Therefore, this study will use a deep learning approach to detect pulmonary embolism in all patients who take a CT image of the chest using a convolutional neural network. With the proposed pulmonary embolism detection system, we can detect the possibility of pulmonary embolism at the same time as the patient's first CT image, and schedule the CTPA test immediately, saving more than a week of CT image screening time and providing timely diagnosis and treatment to the patient.
翻訳日:2022-06-06 14:04:36 公開日:2022-06-03
# 人的判断に基づく実世界のコンピュータビジョンシステムに対する移動型対向的摂動の評価

Evaluating Transfer-based Targeted Adversarial Perturbations against Real-World Computer Vision Systems based on Human Judgments ( http://arxiv.org/abs/2206.01467v1 )

ライセンス: Link先を確認
Zhengyu Zhao and Nga Dang and Martha Larson(参考訳) コンピュータビジョンシステムは敵の摂動に対して極めて脆弱である。 転送ベースの敵画像は、ある(ソース)システム上で生成され、別の(ターゲット)システムを攻撃するために使用される。 本稿では,移動型対向画像に対して,意味ラベルの在庫が公開されていない私的データに基づいて,対象システムを訓練する現実的なシナリオで,最初のステップを踏み出す。 主なコントリビューションには、Google Cloud Vision API上での攻撃成功に対する人的判断に基づく広範な評価と、オリジナル画像と逆画像との対面におけるGoogle Cloud Visionのさまざまな振る舞いの分析が含まれています。 リソースは \url{https://github.com/ZhengyuZhao/Targeted-Tansfer/blob/main/google_results.zip} で公開されている。

Computer vision systems are remarkably vulnerable to adversarial perturbations. Transfer-based adversarial images are generated on one (source) system and used to attack another (target) system. In this paper, we take the first step to investigate transfer-based targeted adversarial images in a realistic scenario where the target system is trained on some private data with its inventory of semantic labels not publicly available. Our main contributions include an extensive human-judgment-based evaluation of attack success on the Google Cloud Vision API and additional analysis of the different behaviors of Google Cloud Vision in face of original images vs. adversarial images. Resources are publicly available at \url{https://github.com/ZhengyuZhao/Targeted-Tansfer/blob/main/google_results.zip}.
翻訳日:2022-06-06 14:02:43 公開日:2022-06-03
# ニューラルネットワークを用いた強化学習

Reinforcement Learning with Neural Radiance Fields ( http://arxiv.org/abs/2206.01634v1 )

ライセンス: Link先を確認
Danny Driess, Ingmar Schubert, Pete Florence, Yunzhu Li, Marc Toussaint(参考訳) 強化学習(RL)エージェントを訓練するための効果的な表現を見つけることは長年の課題である。 本稿では,Neural Radiance Fields (NeRF) の指導による学習状態表現が,他の学習状態情報や低次元手動状態情報と比較してRLの性能を向上させることを示す。 具体的には,複数の画像観察をシーン内の物体を記述する潜在空間にマップするエンコーダの訓練を行う。 潜伏条件付きNeRFで構築されたデコーダは潜伏空間を学習するための監視信号として機能する。 RLアルゴリズムは学習された潜在空間を状態表現として操作する。 これをNeRF-RLと呼ぶ。 我々の実験は、NeRFが監督として、フックにマグカップを掛けたり、オブジェクトを押したり、ドアを開けたりといったロボット操作を含む下流のRLタスクに、より適したスペースをもたらすことを示唆している。 ビデオ: https://dannydriess.github.io/nerf-rl

It is a long-standing problem to find effective representations for training reinforcement learning (RL) agents. This paper demonstrates that learning state representations with supervision from Neural Radiance Fields (NeRFs) can improve the performance of RL compared to other learned representations or even low-dimensional, hand-engineered state information. Specifically, we propose to train an encoder that maps multiple image observations to a latent space describing the objects in the scene. The decoder built from a latent-conditioned NeRF serves as the supervision signal to learn the latent space. An RL algorithm then operates on the learned latent space as its state representation. We call this NeRF-RL. Our experiments indicate that NeRF as supervision leads to a latent space better suited for the downstream RL tasks involving robotic object manipulations like hanging mugs on hooks, pushing objects, or opening doors. Video: https://dannydriess.github.io/nerf-rl
翻訳日:2022-06-06 14:02:29 公開日:2022-06-03
# 実施形態間の研究の伝達:混乱検出における事例研究

Transferring Studies Across Embodiments: A Case Study in Confusion Detection ( http://arxiv.org/abs/2206.01493v1 )

ライセンス: Link先を確認
Na Li and Robert Ross(参考訳) 人間-ロボットの研究は行動しやすく、制御が難しいため、研究者はロボットドメインに転送できるより高速で安価なデータ収集を期待して、人間-ロボットのインタラクションに切り替えることもある。 本研究は,ユーザ間のインタラクションにおける混乱の検出とモデル化という課題に特に関心を寄せており,本研究プログラムの一環として,物理環境と仮想環境の両方で与える混乱シナリオにおいて,ユーザの反応を調査する位置ダイアログ調査を行った。 本稿では,これら2つの実施形態を合わせて,これらの研究と結果について概説する。 物理的実施にはPepper Robotを使用し、仮想モードには3Dアバターを使用しました。 本研究は, 時間的差異と技術的コントロールの限界にもかかわらず, ユーザの行動や自己申告結果に類似点が多数見出されたことを示唆する。 この研究は、アバターの相互作用はロボットの相互作用研究の真の代用ではないものの、研究設計における十分な注意が、より困難な人間とロボットの研究を補完するために、適切に実行される人間とアバターの研究を可能にすることを示唆している。

Human-robot studies are expensive to conduct and difficult to control, and as such researchers sometimes turn to human-avatar interaction in the hope of faster and cheaper data collection that can be transferred to the robot domain. In terms of our work, we are particularly interested in the challenge of detecting and modelling user confusion in interaction, and as part of this research programme, we conducted situated dialogue studies to investigate users' reactions in confusing scenarios that we give in both physical and virtual environments. In this paper, we present a combined review of these studies and the results that we observed across these two embodiments. For the physical embodiment, we used a Pepper Robot, while for the virtual modality, we used a 3D avatar. Our study shows that despite attitudinal differences and technical control limitations, there were a number of similarities detected in user behaviour and self-reporting results across embodiment options. This work suggests that, while avatar interaction is no true substitute for robot interaction studies, sufficient care in study design may allow well executed human-avatar studies to supplement more challenging human-robot studies.
翻訳日:2022-06-06 14:02:12 公開日:2022-06-03
# KCRL:非線形力学系における安定なクラソフスキー制約強化学習

KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems ( http://arxiv.org/abs/2206.01704v1 )

ライセンス: Link先を確認
Sahin Lale, Yuanyuan Shi, Guannan Qu, Kamyar Azizzadenesheli, Adam Wierman, Anima Anandkumar(参考訳) 動的システムを学ぶには、状態の爆発を避けるために未知のダイナミクスを安定化する必要がある。 しかし、現在の強化学習(rl)法は安定化保証が欠如しており、安全クリティカルシステムの制御への適用性が制限されている。 本稿では,クラソフスキー関数の安定性制約としてクラソフスキー制約付きrl (kcrl) を用いたモデルベースのrlフレームワークを提案する。 提案手法は,例えばランダムフーリエ特徴量などの特徴表現を用いて,信頼区間までシステムダイナミクスを学習する。 次に、安定化ポリシーを回復するための原始双対アプローチを用いて、クラソフスキーの手法に基づく安定性制約による制約付きポリシー最適化問題を解く。 KCRLは、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。 また、KCRLフレームワークを介して未知の非線形力学系の安定化のためのサンプル複雑性上限を導出する。

Learning a dynamical system requires stabilizing the unknown dynamics to avoid state blow-ups. However, current reinforcement learning (RL) methods lack stabilization guarantees, which limits their applicability for the control of safety-critical systems. We propose a model-based RL framework with formal stability guarantees, Krasovskii Constrained RL (KCRL), that adopts Krasovskii's family of Lyapunov functions as a stability constraint. The proposed method learns the system dynamics up to a confidence interval using feature representation, e.g. Random Fourier Features. It then solves a constrained policy optimization problem with a stability constraint based on Krasovskii's method using a primal-dual approach to recover a stabilizing policy. We show that KCRL is guaranteed to learn a stabilizing policy in a finite number of interactions with the underlying unknown system. We also derive the sample complexity upper bound for stabilization of unknown nonlinear dynamical systems via the KCRL framework.
翻訳日:2022-06-06 14:00:50 公開日:2022-06-03
# 雑音ラベルを用いた学習促進のためのタスク適応型事前学習:アフリカ語テキスト分類に関する研究

Task-Adaptive Pre-Training for Boosting Learning With Noisy Labels: A Study on Text Classification for African Languages ( http://arxiv.org/abs/2206.01476v1 )

ライセンス: Link先を確認
Dawei Zhu, Michael A. Hedderich, Fangzhou Zhai, David Ifeoluwa Adelani, Dietrich Klakow(参考訳) 英語のような高リソース言語では、テキスト分類はよく研究されているタスクです。 現代のNLPモデルの性能は、英語のテキスト分類のための標準データセット(Xie et al., 2019; Yang et al., 2019; Zaheer et al., 2020)の90%以上の精度を容易に達成できる。 しかし、注釈付きデータがないため、低リソース言語でのテキスト分類は依然として難しい。 弱い監督やクラウドソーシングのような手法はアノテーションのボトルネックを緩和するのに役立つが、これらのメソッドによって得られるアノテーションはラベルノイズを含んでいる。 ラベルノイズで訓練されたモデルは、うまく一般化できないかもしれない。 この目的のために、アノテーションの誤りによる悪影響を軽減するために、様々なノイズハンドリング技術が提案されている(広範な調査については(hedderich et al., 2021; algan & ulusoy, 2021)。 本研究では,雑音ラベル付きテキスト分類タスクにおいて,標準雑音処理手法の一群を実験する。 弱制御による実環境騒音とシミュレート雑音の両方について検討した。 また,タスク適応型事前学習技術(Gururangan et al., 2020)は,ノイズラベルの学習に有用である。

For high-resource languages like English, text classification is a well-studied task. The performance of modern NLP models easily achieves an accuracy of more than 90% in many standard datasets for text classification in English (Xie et al., 2019; Yang et al., 2019; Zaheer et al., 2020). However, text classification in low-resource languages is still challenging due to the lack of annotated data. Although methods like weak supervision and crowdsourcing can help ease the annotation bottleneck, the annotations obtained by these methods contain label noise. Models trained with label noise may not generalize well. To this end, a variety of noise-handling techniques have been proposed to alleviate the negative impact caused by the errors in the annotations (for extensive surveys see (Hedderich et al., 2021; Algan & Ulusoy, 2021)). In this work, we experiment with a group of standard noisy-handling methods on text classification tasks with noisy labels. We study both simulated noise and realistic noise induced by weak supervision. Moreover, we find task-adaptive pre-training techniques (Gururangan et al., 2020) are beneficial for learning with noisy labels.
翻訳日:2022-06-06 14:00:35 公開日:2022-06-03
# CF-YOLO:高品質実雪データを用いた逆気象観測用クロスフュージョンYOLO

CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather with a High-quality Real Snow Dataset ( http://arxiv.org/abs/2206.01381v1 )

ライセンス: Link先を確認
Qiqi Ding, Peng Li, Xuefeng Yan, Ding Shi, Luming Liang, Weiming Wang, Haoran Xie, Jonathan Li, Mingqiang Wei(参考訳) 雪はオブジェクト検出(od)にとって最も厳しい悪天候条件の1つである。 現在、最先端検出器を訓練するための雪のODデータセットが不足しているだけでなく、これらの検出器は雪の検出に有用な潜伏情報を学ぶのが困難である。 上記の2つの問題を緩和するために、我々はまず、RSODという実世界の雪崩データセットを構築した。 さらに,各物体に対する雪の影響を定量的に評価するために,アクティベーション機能を備えた非教師なしトレーニング戦略である$Peak \ Act$を開発した。 peak actはrsodの画像を4次元レベルに分解するのに役立つ。 我々の知る限り、RSODは初めて定量的に評価され、評価された雪のODデータセットである。 そこで我々は,YOLOv5s(CF-YOLO)に基づく軽量なODネットワークを構築するために,新しいCFブロックを提案する。 CFはプラグアンドプレイの機能集約モジュールで、Feature Pyramid NetworkとPath Aggregation Networkの利点をよりシンプルで柔軟な形で統合します。 実雪におけるODの最適化能力は, RSODとCFが共にCF-YOLOをリードする。 すなわち、CF-YOLOは、雪の曖昧さ、歪み、覆いといった、好ましくない検出問題に対処することができる。 実験の結果, CF-YOLOはSOTAと比較して, RSODの検出精度がよいことがわかった。 コードとデータセットはhttps://github.com/qqding77/CF-YOLO-and-RSODで公開されている。

Snow is one of the toughest adverse weather conditions for object detection (OD). Currently, not only there is a lack of snowy OD datasets to train cutting-edge detectors, but also these detectors have difficulties learning latent information beneficial for detection in snow. To alleviate the two above problems, we first establish a real-world snowy OD dataset, named RSOD. Besides, we develop an unsupervised training strategy with a distinctive activation function, called $Peak \ Act$, to quantitatively evaluate the effect of snow on each object. Peak Act helps grading the images in RSOD into four-difficulty levels. To our knowledge, RSOD is the first quantitatively evaluated and graded snowy OD dataset. Then, we propose a novel Cross Fusion (CF) block to construct a lightweight OD network based on YOLOv5s (call CF-YOLO). CF is a plug-and-play feature aggregation module, which integrates the advantages of Feature Pyramid Network and Path Aggregation Network in a simpler yet more flexible form. Both RSOD and CF lead our CF-YOLO to possess an optimization ability for OD in real-world snow. That is, CF-YOLO can handle unfavorable detection problems of vagueness, distortion and covering of snow. Experiments show that our CF-YOLO achieves better detection results on RSOD, compared to SOTAs. The code and dataset are available at https://github.com/qqding77/CF-YOLO-and-RSOD.
翻訳日:2022-06-06 13:57:44 公開日:2022-06-03
# ステレオカメラによるエンドツーエンド3次元ハンドポース推定

End-to-End 3D Hand Pose Estimation from Stereo Cameras ( http://arxiv.org/abs/2206.01384v1 )

ライセンス: Link先を確認
Yuncheng Li, Zehao Xue, Yingying Wang, Liuhao Ge, Zhou Ren, Jonathan Rodriguez(参考訳) 本研究は,ステレオカメラから全3Dハンドポーズを推定するためのエンドツーエンドアプローチを提案する。 ステレオカメラから手ポーズを推定する方法の多くは、ステレオマッチングを用いて深度マップを取得し、深度に基づく解を用いて手ポーズを推定する。 対照的に、ステレオマッチングを回避し、ステレオ画像対から直接3Dハンドポーズを推定する。 提案したニューラルネットワークアーキテクチャは、キーポイント予測器から手関節のスパース格差を推定するために拡張される。 モデルを効果的に訓練するために,ステレオ画像ペアと地上の真理3Dハンドポーズアノテーションからなる大規模合成データセットを提案する。 実験により,提案手法が既存手法をステレオ深度で上回ることを示した。

This work proposes an end-to-end approach to estimate full 3D hand pose from stereo cameras. Most existing methods of estimating hand pose from stereo cameras apply stereo matching to obtain depth map and use depth-based solution to estimate hand pose. In contrast, we propose to bypass the stereo matching and directly estimate the 3D hand pose from the stereo image pairs. The proposed neural network architecture extends from any keypoint predictor to estimate the sparse disparity of the hand joints. In order to effectively train the model, we propose a large scale synthetic dataset that is composed of stereo image pairs and ground truth 3D hand pose annotations. Experiments show that the proposed approach outperforms the existing methods based on the stereo depth.
翻訳日:2022-06-06 13:57:20 公開日:2022-06-03
# 画像の類似性を評価する適応関数の学習

Learning an Adaptation Function to Assess Image Visual Similarities ( http://arxiv.org/abs/2206.01417v1 )

ライセンス: Link先を確認
Olivier Risser-Maroix (LIPADE), Amine Marzouki (LIPADE), Hala Djeghim (LIPADE), Camille Kurtz (LIPADE), Nicolas Lomenie (LIPADE)(参考訳) 人間の知覚は、意思決定と創造的思考の両方において、画像間の類似性を評価する。 しかし、基礎となる認知過程はまだよく理解されていないため、コンピュータビジョンシステムによって模倣されることは困難である。 ディープアーキテクチャを用いた最先端のアプローチは、しばしば画像分類タスクで学んだ特徴ベクトルとして記述された画像の比較に基づいている。 その結果、これらの特徴は意味的に関連のある画像を比較するのに強力であるが、視覚的に類似しているが意味的に無関係な画像を比較するのは非常に効率的ではない。 神経特徴を心理認知表現に適応させる以前の研究に触発されて、類推が重要なときの視覚的イメージ類似性学習の特定のタスクに焦点を当てた。 本稿では,視覚野の近似に最適なモデルと,霊長類IT大脳皮質の近似に対応する適応関数のみをメトリック学習フレームワークを介して学習するために,異なるスケールとコンテンツデータセット(ImageNet-21k, ImageNet-1K, VGGFace2)で事前学習された異なる教師付き,半教師付き,自己教師付きネットワークを比較することを提案する。 画像データセットで行った実験では,ベストモデル@1の検索スコアを2.25倍に増やすことで,本手法の興味を浮き彫りにした。 この研究はICIP 2021国際会議(ICIP 2021 International Conference [1])で発表された。 本稿では,この前の研究を,事前学習した特徴抽出器を他のデータセットで使用・比較することで拡張する。

Human perception is routinely assessing the similarity between images, both for decision making and creative thinking. But the underlying cognitive process is not really well understood yet, hence difficult to be mimicked by computer vision systems. State-of-the-art approaches using deep architectures are often based on the comparison of images described as feature vectors learned for image categorization task. As a consequence, such features are powerful to compare semantically related images but not really efficient to compare images visually similar but semantically unrelated. Inspired by previous works on neural features adaptation to psycho-cognitive representations, we focus here on the specific task of learning visual image similarities when analogy matters. We propose to compare different supervised, semi-supervised and self-supervised networks, pre-trained on distinct scales and contents datasets (such as ImageNet-21k, ImageNet-1K or VGGFace2) to conclude which model may be the best to approximate the visual cortex and learn only an adaptation function corresponding to the approximation of the the primate IT cortex through the metric learning framework. Our experiments conducted on the Totally Looks Like image dataset highlight the interest of our method, by increasing the retrieval scores of the best model @1 by 2.25x. This research work was recently accepted for publication at the ICIP 2021 international conference [1]. In this new article, we expand on this previous work by using and comparing new pre-trained feature extractors on other datasets.
翻訳日:2022-06-06 13:57:07 公開日:2022-06-03
# (参考訳) CNNにおける解釈・特徴保存回路のプルーニング

Pruning for Interpretable, Feature-Preserving Circuits in CNNs ( http://arxiv.org/abs/2206.01627v1 )

ライセンス: CC BY 4.0
Chris Hamblin and Talia Konkle and George Alvarez(参考訳) 深層畳み込みニューラルネットワークは様々なコンピュータビジョン問題に対する強力なモデルクラスであるが、その大きさを考えると、実装する画像フィルタリングプロセスの解釈は困難である。 本研究では,深いCNNから「機能保存回路」を抽出する手法を提案する。 これらの回路はモジュラーサブ関数であり、ネットワーク内に埋め込まれ、ターゲット機能に関連する畳み込みカーネルのサブセットのみを含む。 これらのスパース回路を抽出するための3つのサリエンシ基準の有効性を比較した。 さらに,特定の画像に対する特徴の応答を保存し,その特徴をスペーサーフィルタリングプロセスに分割する「サブ機能」回路の抽出方法を示す。 また,回路によって実装された画像フィルタリングプロセス全体を解析可能な形式でレンダリングする「回路図」の可視化ツールを開発した。

Deep convolutional neural networks are a powerful model class for a range of computer vision problems, but it is difficult to interpret the image filtering process they implement, given their sheer size. In this work, we introduce a method for extracting 'feature-preserving circuits' from deep CNNs, leveraging methods from saliency-based neural network pruning. These circuits are modular sub-functions, embedded within the network, containing only a subset of convolutional kernels relevant to a target feature. We compare the efficacy of 3 saliency-criteria for extracting these sparse circuits. Further, we show how 'sub-feature' circuits can be extracted, that preserve a feature's responses to particular images, dividing the feature into even sparser filtering processes. We also develop a tool for visualizing 'circuit diagrams', which render the entire image filtering process implemented by circuits in a parsable format.
翻訳日:2022-06-06 13:56:09 公開日:2022-06-03
# 正規化に関する2重降下の理由と除去方法

Regularization-wise double descent: Why it occurs and how to eliminate it ( http://arxiv.org/abs/2206.01378v1 )

ライセンス: Link先を確認
Fatih Furkan Yilmaz, Reinhard Heckel(参考訳) 過度にパラメータ化されたモデル、特にディープニューラルネットワークのリスクは、しばしばモデルサイズの関数として二重発色である。 近年,早期停止時間の関数としてのリスクも二重発振型であり,バイアス分散トレードオフのスーパーポジションとして説明できることが明らかとなった。 本稿では,L2正規化モデルのリスクが,理論と実践の両方において正則化強度の関数として二重降下挙動を示すことを示す。 線形回帰では,モデルの異なる部分に対応するバイアス分散トレードオフの重ね合わせによって二重降下型リスクが発生し,各部分の正則化強度を適切にスケーリングすることで軽減できることがわかった。 この結果から,第1層と第2層の正則化強度を調整することにより,2層ニューラルネットワークの研究を行い,二重降下を除去できることを示す。 最後に、ラベルノイズのないCIFAR-10とCIFAR-100を訓練した5層CNNとResNet-18について検討し、正則化強度の関数として二重降下挙動を示すことを示した。

The risk of overparameterized models, in particular deep neural networks, is often double-descent shaped as a function of the model size. Recently, it was shown that the risk as a function of the early-stopping time can also be double-descent shaped, and this behavior can be explained as a super-position of bias-variance tradeoffs. In this paper, we show that the risk of explicit L2-regularized models can exhibit double descent behavior as a function of the regularization strength, both in theory and practice. We find that for linear regression, a double descent shaped risk is caused by a superposition of bias-variance tradeoffs corresponding to different parts of the model and can be mitigated by scaling the regularization strength of each part appropriately. Motivated by this result, we study a two-layer neural network and show that double descent can be eliminated by adjusting the regularization strengths for the first and second layer. Lastly, we study a 5-layer CNN and ResNet-18 trained on CIFAR-10 with label noise, and CIFAR-100 without label noise, and demonstrate that all exhibit double descent behavior as a function of the regularization strength.
翻訳日:2022-06-06 13:32:55 公開日:2022-06-03
# 過パラメータ線形モデルを用いた多クラス分類の一般化

Generalization for multiclass classification with overparameterized linear models ( http://arxiv.org/abs/2206.01399v1 )

ライセンス: Link先を確認
Vignesh Subramanian, Rahul Arya and Anant Sahai(参考訳) ガウス的特徴を持つ過度パラメータ化線形モデルを用いて、基礎となる特徴の数と学習点数の両方がスケールする漸近的条件下で、最小ノルム補間解の多重クラス分類を適切に一般化する条件を提供する。 過剰パラメータ学習問題の振る舞いを理解するためのサバイバル/汚染分析フレームワークは、この設定に適合しており、マルチクラス分類は、(論文で正確に記述されている)クラスが多すぎる限り、対応する回帰タスクが一般化しないいくつかの設定でもうまく一般化することができる。 様々な技術的課題に加えて、バイナリ分類設定との主な違いは、クラス数が増加するにつれて、マルチクラス設定における各クラスのポジティブなトレーニング例が比較的少ないことであり、マルチクラス問題はバイナリ設定よりも「困難」である。

Via an overparameterized linear model with Gaussian features, we provide conditions for good generalization for multiclass classification of minimum-norm interpolating solutions in an asymptotic setting where both the number of underlying features and the number of classes scale with the number of training points. The survival/contamination analysis framework for understanding the behavior of overparameterized learning problems is adapted to this setting, revealing that multiclass classification qualitatively behaves like binary classification in that, as long as there are not too many classes (made precise in the paper), it is possible to generalize well even in some settings where the corresponding regression tasks would not generalize. Besides various technical challenges, it turns out that the key difference from the binary classification setting is that there are relatively fewer positive training examples of each class in the multiclass setting as the number of classes increases, making the multiclass problem "harder" than the binary one.
翻訳日:2022-06-06 13:32:36 公開日:2022-06-03
# 強力な学習のための最適弱み

Optimal Weak to Strong Learning ( http://arxiv.org/abs/2206.01563v1 )

ライセンス: Link先を確認
Kasper Green Larsen, Martin Ritzert(参考訳) 古典的なアルゴリズムであるAdaBoostは、確率よりもわずかに優れた仮説を生成する弱い学習者を、十分なトレーニングデータを与えると任意の精度で学習者に変換するアルゴリズムである。 弱い学習者から強力な学習者を構築する新しいアルゴリズムを提案するが、AdaBoostや他の弱い学習者よりも少ない学習データを用いて同じ一般化境界を達成する。 サンプルの複雑さの低さは、新しいアルゴリズムが最小のトレーニングデータの量を使用しており、最適であることを示している。 そこで本研究では,弱い学習者から強い学習者を構築するという古典的な問題のサンプル複雑性を解消する。

The classic algorithm AdaBoost allows to convert a weak learner, that is an algorithm that produces a hypothesis which is slightly better than chance, into a strong learner, achieving arbitrarily high accuracy when given enough training data. We present a new algorithm that constructs a strong learner from a weak learner but uses less training data than AdaBoost and all other weak to strong learners to achieve the same generalization bounds. A sample complexity lower bound shows that our new algorithm uses the minimum possible amount of training data and is thus optimal. Hence, this work settles the sample complexity of the classic problem of constructing a strong learner from a weak learner.
翻訳日:2022-06-06 13:29:28 公開日:2022-06-03
# メタ学習における一般化と記憶効率向上のための動的カーネル選択

Dynamic Kernel Selection for Improved Generalization and Memory Efficiency in Meta-learning ( http://arxiv.org/abs/2206.01690v1 )

ライセンス: Link先を確認
Arnav Chavan, Rishabh Tiwari, Udbhav Bamba, Deepak K. Gupta(参考訳) 勾配に基づくメタ学習手法は、メタトレーニングセットに過剰に適合しがちであり、この振る舞いは大規模で複雑なネットワークでより顕著である。 さらに、大規模ネットワークは低消費電力エッジデバイスへのメタラーニングモデルの適用を制限する。 より小さなネットワークを選択すると、これらの問題はある程度回避されるが、全体的な一般化によって性能が低下する。 明らかに、あらゆるメタ学習問題に最も適したネットワークアーキテクチャには、ほぼ最適な選択があるが、事前に識別することは簡単ではない。 本稿では,タスク固有の動的カーネル選択戦略であるMetaDOCKを提案する。 提案手法は,与えられたタスク群に対して,ネットワークのすべてのカーネルが個々のタスクで必要とされるわけではないという仮説に基づいている。 むしろ、各タスクはカーネルのほんの一部しか使用せず、各タスクごとのカーネルの選択はインナー更新ステップの一部として動的に学習することができる。 MetaDOCKはメタモデルとタスク固有の内部モデルを圧縮し、各タスクのモデルサイズを大幅に削減し、各タスクのアクティブカーネル数を制限することで、メタオーバーフィッティングの問題を暗黙的に緩和する。 提案手法を用いて得られた大容量CNNモデルの同一の推論予算に対して,従来のCNNモデルよりも常に優れていることを示す。 MetaDOCKは、iMAMLのような一般的なメタ学習アプローチとよく合っている。 本手法の有効性はcifar-fsおよびmini-imagenetデータセット上で検証され,本手法は標準メタラーニングベンチマークにおいて最大2%の精度向上を実現するとともに,モデルサイズを75%以上削減できることを確認した。

Gradient based meta-learning methods are prone to overfit on the meta-training set, and this behaviour is more prominent with large and complex networks. Moreover, large networks restrict the application of meta-learning models on low-power edge devices. While choosing smaller networks avoid these issues to a certain extent, it affects the overall generalization leading to reduced performance. Clearly, there is an approximately optimal choice of network architecture that is best suited for every meta-learning problem, however, identifying it beforehand is not straightforward. In this paper, we present MetaDOCK, a task-specific dynamic kernel selection strategy for designing compressed CNN models that generalize well on unseen tasks in meta-learning. Our method is based on the hypothesis that for a given set of similar tasks, not all kernels of the network are needed by each individual task. Rather, each task uses only a fraction of the kernels, and the selection of the kernels per task can be learnt dynamically as a part of the inner update steps. MetaDOCK compresses the meta-model as well as the task-specific inner models, thus providing significant reduction in model size for each task, and through constraining the number of active kernels for every task, it implicitly mitigates the issue of meta-overfitting. We show that for the same inference budget, pruned versions of large CNN models obtained using our approach consistently outperform the conventional choices of CNN models. MetaDOCK couples well with popular meta-learning approaches such as iMAML. The efficacy of our method is validated on CIFAR-fs and mini-ImageNet datasets, and we have observed that our approach can provide improvements in model accuracy of up to 2% on standard meta-learning benchmark, while reducing the model size by more than 75%.
翻訳日:2022-06-06 13:29:17 公開日:2022-06-03
# (参考訳) 自己教師型学習による脳内音声処理の現実的モデルに向けて

Toward a realistic model of speech processing in the brain with self-supervised learning ( http://arxiv.org/abs/2206.01685v1 )

ライセンス: CC BY 4.0
Juliette Millet, Charlotte Caucheteux, Pierre Orhan, Yves Boubenec, Alexandre Gramfort, Ewan Dunbar, Christophe Pallier, Jean-Remi King(参考訳) 最近、いくつかのディープニューラルネットワークは、同じ入力に反応して脳のものと類似した活性化を生成することが示されている。 しかし、これらのアルゴリズムは、(1)極端に大量のデータ、(2)観測不能なラベル、(3)生の感覚入力ではなくテキスト、(4)信じられないほど大きなメモリ(例えば、数千の文脈単語)を必要とする。 これらの要素は、これらの制限の下で、行動と脳の反応の両方を考慮に入れなければならないアルゴリズムを特定する必要性を強調している。 本稿では,音声処理の問題に着目し,生波形で学習した自己教師付きアルゴリズムが有望な候補となることを仮定する。 具体的には,最近の自己監督型アーキテクチャであるwav2vec 2.0と,機能的磁気共鳴画像(fmri)で記録された412名の英語,フランス語,マンダリンの脳活動を比較し,オーディオブックの約1hを聴いた。 結果は4倍です。 まず、このアルゴリズムは、言語習得中に幼児が露出できる量に匹敵する、600時間ももたない音声で脳に似た表現を学習することを示す。 第二に、その機能階層は音声処理の皮質階層と整合する。 wav2vec 2.0は前頭前頭葉と側頭葉の皮質に類似した音声、音声、言語固有の表現を学習する。 第4に,この専門化と386人の追加参加者の行動の類似性を確認した。 これらの要素は、これまでで最大のニューロイメージング・ベンチマークから生まれたもので、自己教師付き学習が脳内の音声処理の豊富な組織をいかに説明できるかを示し、人間の脳を形作る言語習得の法則を特定するための道筋を示す。

Several deep neural networks have recently been shown to generate activations similar to those of the brain in response to the same input. These algorithms, however, remain largely implausible: they require (1) extraordinarily large amounts of data, (2) unobtainable supervised labels, (3) textual rather than raw sensory input, and / or (4) implausibly large memory (e.g. thousands of contextual words). These elements highlight the need to identify algorithms that, under these limitations, would suffice to account for both behavioral and brain responses. Focusing on the issue of speech processing, we here hypothesize that self-supervised algorithms trained on the raw waveform constitute a promising candidate. Specifically, we compare a recent self-supervised architecture, Wav2Vec 2.0, to the brain activity of 412 English, French, and Mandarin individuals recorded with functional Magnetic Resonance Imaging (fMRI), while they listened to ~1h of audio books. Our results are four-fold. First, we show that this algorithm learns brain-like representations with as little as 600 hours of unlabelled speech -- a quantity comparable to what infants can be exposed to during language acquisition. Second, its functional hierarchy aligns with the cortical hierarchy of speech processing. Third, different training regimes reveal a functional specialization akin to the cortex: Wav2Vec 2.0 learns sound-generic, speech-specific and language-specific representations similar to those of the prefrontal and temporal cortices. Fourth, we confirm the similarity of this specialization with the behavior of 386 additional participants. These elements, resulting from the largest neuroimaging benchmark to date, show how self-supervised learning can account for a rich organization of speech processing in the brain, and thus delineate a path to identify the laws of language acquisition which shape the human brain.
翻訳日:2022-06-06 13:25:25 公開日:2022-06-03
# (参考訳) ArgRewrite V.2: Annotated Argumentative Revisions Corpus

ArgRewrite V.2: an Annotated Argumentative Revisions Corpus ( http://arxiv.org/abs/2206.01677v1 )

ライセンス: CC BY 4.0
Omid Kashefi, Tazin Afrin, Meghan Dale, Christopher Olshefski, Amanda Godley, Diane Litman, Rebecca Hwa(参考訳) 人間がどのように書き直したかを分析することは、教育の観点からだけでなく、人工知能の観点からも興味深い研究課題である。 このプロセスのより良い理解は、インテリジェントなチュータリングシステムから支援的で協調的な書き込み環境まで、多くのNLPアプリケーションを促進する可能性がある。 しかし、これらのアプリケーションの開発にはリビジョンコーパスが必要であり、広くは利用できない。 本稿では,2サイクルのリビジョンから収集した注釈付き議論的リビジョンのコーパスであるArgRewrite V.2を,自動運転車に関する議論的エッセイとして紹介する。 アノテーションは目的の粒度の異なるレベル(粗さと細さ)とスコープ(意味と下位)で提供される。 さらに、コーパスには、各著者に与えられるリビジョンゴール、エッセイスコア、アノテーション検証、メタデータとして参加者から収集された事前および後調査が含まれている。 ArgRewriteのさまざまなリビジョン単位の範囲と目的の粒度レベルは、新しいタイプのメタデータを含むとともに、リビジョン分析を含む研究やアプリケーションに有用なリソースとなります。 本稿では,ArgRewrite V.2をトレーニングソースおよびベンチマークとして,自動修正目的予測器の開発に適用する可能性を示す。

Analyzing how humans revise their writings is an interesting research question, not only from an educational perspective but also in terms of artificial intelligence. Better understanding of this process could facilitate many NLP applications, from intelligent tutoring systems to supportive and collaborative writing environments. Developing these applications, however, requires revision corpora, which are not widely available. In this work, we present ArgRewrite V.2, a corpus of annotated argumentative revisions, collected from two cycles of revisions to argumentative essays about self-driving cars. Annotations are provided at different levels of purpose granularity (coarse and fine) and scope (sentential and subsentential). In addition, the corpus includes the revision goal given to each writer, essay scores, annotation verification, pre- and post-study surveys collected from participants as meta-data. The variety of revision unit scope and purpose granularity levels in ArgRewrite, along with the inclusion of new types of meta-data, can make it a useful resource for research and applications that involve revision analysis. We demonstrate some potential applications of ArgRewrite V.2 in the development of automatic revision purpose predictors, as a training source and benchmark.
翻訳日:2022-06-06 13:04:41 公開日:2022-06-03
# 構成可能拡散モデルによる合成視覚生成

Compositional Visual Generation with Composable Diffusion Models ( http://arxiv.org/abs/2206.01714v1 )

ライセンス: Link先を確認
Nan Liu, Shuang Li, Yilun Du, Antonio Torralba, Joshua B. Tenenbaum(参考訳) dalle-2のような大きなテキスト誘導拡散モデルは、自然言語記述によって素晴らしいフォトリアリスティックな画像を生成することができる。 このようなモデルは非常に柔軟であるが、異なるオブジェクトの属性やオブジェクト間の関係を混乱させるような特定の概念の構成を理解するのに苦労する。 本稿では,拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。 画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。 そこで我々は拡散モデルをエネルギーベースモデルとして解釈し、エネルギー関数によって定義されたデータ分布を明示的に組み合わせることができる。 提案手法は, 実世界ではほとんど見られない新しい組み合わせまで一般化することさえ可能であり, 学習中の文章記述, 対象関係, 人間の顔属性を合成し, テスト時間にかなり複雑なシーンを生成できる。 さらに,本手法を用いて事前学習したテキスト誘導拡散モデルを構築し,DALLE-2では困難であった特定のオブジェクト属性の結合を含む,入力記述に記述されたすべての詳細を含むフォトリアリスティック画像を生成する方法について述べる。 これらの結果は、視覚生成のための構造化一般化を促進するための提案手法の有効性を示している。

Large text-guided diffusion models, such as DALLE-2, are able to generate stunning photorealistic images given natural language descriptions. While such models are highly flexible, they struggle to understand the composition of certain concepts, such as confusing the attributes of different objects or relations between objects. In this paper, we propose an alternative structured approach for compositional generation using diffusion models. An image is generated by composing a set of diffusion models, with each of them modeling a certain component of the image. To do this, we interpret diffusion models as energy-based models in which the data distributions defined by the energy functions may be explicitly combined. The proposed method can generate scenes at test time that are substantially more complex than those seen in training, composing sentence descriptions, object relations, human facial attributes, and even generalizing to new combinations that are rarely seen in the real world. We further illustrate how our approach may be used to compose pre-trained text-guided diffusion models and generate photorealistic images containing all the details described in the input descriptions, including the binding of certain object attributes that have been shown difficult for DALLE-2. These results point to the effectiveness of the proposed method in promoting structured generalization for visual generation.
翻訳日:2022-06-06 13:00:16 公開日:2022-06-03
# 概念化による抽象常識知識の獲得とモデル化

Acquiring and Modelling Abstract Commonsense Knowledge via Conceptualization ( http://arxiv.org/abs/2206.01532v1 )

ライセンス: Link先を確認
Mutian He, Tianqing Fang, Weiqi Wang, Yangqiu Song(参考訳) 概念化(conceptization)、あるいは、概念を念頭に置いた抽象概念の例としてエンティティや状況を見ること、それに基づく推論を行うことは、常識推論において人間の知性において不可欠な要素である。 最近の人工知能は、大規模なニューラルネットワークモデルとコモンセンス知識グラフ(CKG)によるコモンセンスの獲得とモデル化に進歩しているが、概念化はまだ完全には導入されていない。 この問題に対処するために,コモンセンス推論における概念化の役割を徹底的に検討し,抽象概念に関する抽象的知識を得ることから人間の概念誘導を再現する枠組みを定式化する。 そこで本研究では,ヒトの大規模注釈付きCKGであるATOMICの文脈的概念化ツールを開発した。 我々は,ATOMICの概念化の妥当性を示すデータセットをイベントレベルとトリプルレベルの両方でアノテートし,言語的特徴に基づく一連のヒューリスティックルールを開発し,抽象知識の生成と検証のために一連のニューラルネットワークを訓練する。 これらのコンポーネントに基づいて、抽象知識を取得するパイプラインを構築する。 ATOMIC上の大きな抽象CKGが誘導され、未確認の実体や状況について推論するようにインスタンス化される。 さらに、実験では、抽象三重項によるデータを直接拡張することで、コモンセンスモデリングに役立ちます。

Conceptualization, or viewing entities and situations as instances of abstract concepts in mind and making inferences based on that, is a vital component in human intelligence for commonsense reasoning. Although recent artificial intelligence has made progress in acquiring and modelling commonsense, attributed to large neural language models and commonsense knowledge graphs (CKGs), conceptualization is yet to thoroughly be introduced, making current approaches ineffective to cover knowledge about countless diverse entities and situations in the real world. To address the problem, we thoroughly study the possible role of conceptualization in commonsense reasoning, and formulate a framework to replicate human conceptual induction from acquiring abstract knowledge about abstract concepts. Aided by the taxonomy Probase, we develop tools for contextualized conceptualization on ATOMIC, a large-scale human annotated CKG. We annotate a dataset for the validity of conceptualizations for ATOMIC on both event and triple level, develop a series of heuristic rules based on linguistic features, and train a set of neural models, so as to generate and verify abstract knowledge. Based on these components, a pipeline to acquire abstract knowledge is built. A large abstract CKG upon ATOMIC is then induced, ready to be instantiated to infer about unseen entities or situations. Furthermore, experiments find directly augmenting data with abstract triples to be helpful in commonsense modelling.
翻訳日:2022-06-06 12:59:54 公開日:2022-06-03
# 自然発生型ビジネス会話から同様の質問を抽出する

Extracting Similar Questions From Naturally-occurring Business Conversations ( http://arxiv.org/abs/2206.01585v1 )

ライセンス: Link先を確認
Xiliang Zhu, David Rossouw, Shayna Gardiner, Simon Corston-Oliver(参考訳) BERTのような事前訓練されたコンテキスト型埋め込みモデルは、多くの自然言語処理システムにおいて標準のビルディングブロックである。 実世界の英語ビジネス会話において意味論的に類似した質問を識別する作業において,既成の文脈埋め込みモデルによって生成された文レベルの表現が,埋め込み空間に狭い分布を持つことを示す。 本稿では,データ探索や従業員のコーチングに使用可能な可視化手法として,適切に調整された表現と,ビジネスユーザに対する関心の質問をグループ化するための少数の例を挙げる。

Pre-trained contextualized embedding models such as BERT are a standard building block in many natural language processing systems. We demonstrate that the sentence-level representations produced by some off-the-shelf contextualized embedding models have a narrow distribution in the embedding space, and thus perform poorly for the task of identifying semantically similar questions in real-world English business conversations. We describe a method that uses appropriately tuned representations and a small set of exemplars to group questions of interest to business users in a visualization that can be used for data exploration or employee coaching.
翻訳日:2022-06-06 12:59:29 公開日:2022-06-03
# A-OKVQA:世界知識を用いた視覚質問応答ベンチマーク

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge ( http://arxiv.org/abs/2206.01718v1 )

ライセンス: Link先を確認
Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, Roozbeh Mottaghi(参考訳) VQA(Visual Question Answering)タスクは、視覚と自然言語の入力を共同で推論できるAIモデルの開発に意味のあるテストベッドを提供することを目指している。 VQAデータセットの急増にもかかわらず、この目標には共通の制限が伴う。 これらには、概念と言語構造の両方において反復的な比較的単純化された質問への依存、ペア画像の外に必要な世界の知識の不足、正しい答えに到達するために必要な限定的な推論が含まれる。 A-OKVQA(A-OKVQA)は,広義のコモンセンスと世界知識を必要とする,約25万の質問からなるクラウドソーシングデータセットである。 既存の知識ベースのvqaデータセットとは対照的に、一般的に質問は、単に知識ベースをクエリするだけでは答えられない。 本稿では,その内容の詳細な分析と,最先端の視覚言語モデル上でのベースライン性能測定を通じて,この新しいデータセットの可能性を示す。 プロジェクトページ: http://a-okvqa.allenai.org/

The Visual Question Answering (VQA) task aspires to provide a meaningful testbed for the development of AI models that can jointly reason over visual and natural language inputs. Despite a proliferation of VQA datasets, this goal is hindered by a set of common limitations. These include a reliance on relatively simplistic questions that are repetitive in both concepts and linguistic structure, little world knowledge needed outside of the paired image, and limited reasoning required to arrive at the correct answer. We introduce A-OKVQA, a crowdsourced dataset composed of a diverse set of about 25K questions requiring a broad base of commonsense and world knowledge to answer. In contrast to the existing knowledge-based VQA datasets, the questions generally cannot be answered by simply querying a knowledge base, and instead require some form of commonsense reasoning about the scene depicted in the image. We demonstrate the potential of this new dataset through a detailed analysis of its contents and baseline performance measurements over a variety of state-of-the-art vision-language models. Project page: http://a-okvqa.allenai.org/
翻訳日:2022-06-06 12:59:19 公開日:2022-06-03
# Egocentric Video-Language Pretraining

Egocentric Video-Language Pretraining ( http://arxiv.org/abs/2206.01670v1 )

ライセンス: Link先を確認
Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou(参考訳) 近年,動画テキスト下流タスクを広範囲に進めるため,転送可能な表現を学習することを目的としたVLP (Video-Language Pretraining) が注目されている。 強力なパフォーマンスを実現する主要な作品は、howto100mのような大規模な3人称ビデオテキストデータセットに依存している。 本研究では,最近リリースされた ego4d データセット を利用して 3 つの方向に沿って egocentric vlp を開拓する。 (i)ego4dから3.8mのクリップテキスト対の well-chosen からなる1人目のビデオテキストプリトレーニングデータセットであるegoclip を作成し、多種多様な人間の日常活動をカバーする。 (ii)エゴセントリック・アウェアの正と負のサンプルをマイニングすることで、ビデオテキストのコントラスト学習をエゴセントリック領域に適応させる、エゴセンスと呼ばれる新しい事前学習目標を提案する。 (iii)egoclipに近い開発ベンチマークであるegomcqを導入することで,egoclipとegonceに関する設計判断の効果的な検証と迅速な探索を支援する。 さらに,EPIC-KITCHENS-100の動画テキスト検索,Charades-Egoのアクション認識,自然言語クエリ,モーメントクエリ,Ego4Dチャレンジベンチマークのオブジェクト状態変化分類という,3つのデータセットにまたがる5つのエゴセントリックなダウンストリームタスクの性能を示す。 データセットとコードはhttps://github.com/showlab/EgoVLPで入手できる。

Video-Language Pretraining (VLP), aiming to learn transferable representation to advance a wide range of video-text downstream tasks, has recently received increasing attention. Dominant works that achieve strong performance rely on large-scale, 3rd-person video-text datasets, such as HowTo100M. In this work, we exploit the recently released Ego4D dataset to pioneer Egocentric VLP along three directions. (i) We create EgoClip, a 1st-person video-text pretraining dataset comprising 3.8M clip-text pairs well-chosen from Ego4D, covering a large variety of human daily activities. (ii) We propose a novel pretraining objective, dubbed as EgoNCE, which adapts video-text contrastive learning to egocentric domain by mining egocentric-aware positive and negative samples. (iii) We introduce EgoMCQ, a development benchmark that is close to EgoClip and hence can support effective validation and fast exploration of our design decisions regarding EgoClip and EgoNCE. Furthermore, we demonstrate strong performance on five egocentric downstream tasks across three datasets: video-text retrieval on EPIC-KITCHENS-100; action recognition on Charades-Ego; and natural language query, moment query, and object state change classification on Ego4D challenge benchmarks. The dataset and code will be available at https://github.com/showlab/EgoVLP.
翻訳日:2022-06-06 12:58:59 公開日:2022-06-03
# SNAKE:形状認識型ニューラル3Dキーポイントフィールド

SNAKE: Shape-aware Neural 3D Keypoint Field ( http://arxiv.org/abs/2206.01724v1 )

ライセンス: Link先を確認
Chengliang Zhong, Peixing You, Xiaoxue Chen, Hao Zhao, Fuchun Sun, Guyue Zhou, Xiaodong Mu, Chuang Gan, Wenbing Huang(参考訳) 点雲からの3Dキーポイントの検出は形状再構成において重要であるが、この研究は2つの疑問を調査する。 既存の手法は、異なる順序の統計に従って健全な特徴を求めるか、変換に不変なキーポイントを予測することを学ぶ。 しかし, 形状再構成を3次元キーポイント検出に組み込むという考え方は未検討である。 これは以前の問題定式化によって制限されていると我々は主張する。 この目的のために、形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという新しい教師なしパラダイムを提案する。 近年の座標に基づく放射率や距離場と同様に、我々のネットワークは3次元座標を入力として取り、暗黙の形状指標とキーポイント・サリエンシを同時に予測し、3次元のキーポイント検出と形状再構成を自然に絡み合わせる。 スタンドアロンオブジェクトデータセットmodelnet40,keypointnet,smplメッシュ,シーンレベルのデータセット3dmatch,redwoodなど,さまざまなベンチマークで優れたパフォーマンスを実現しています。 固有の形状認識には次のような利点がある。 1)SNAKEは人間の意味的アノテーションと整合した3Dキーポイントを生成する。 2)SNAKEは、特に入力点雲がダウンサンプリングされた場合、リピータビリティという点で相手よりも優れる。 (3) 生成されたキーポイントは正確な幾何学的登録を可能にする。 コードはhttps://github.com/zhongcl-thu/snakeで入手できる。

Detecting 3D keypoints from point clouds is important for shape reconstruction, while this work investigates the dual question: can shape reconstruction benefit 3D keypoint detection? Existing methods either seek salient features according to statistics of different orders or learn to predict keypoints that are invariant to transformation. Nevertheless, the idea of incorporating shape reconstruction into 3D keypoint detection is under-explored. We argue that this is restricted by former problem formulations. To this end, a novel unsupervised paradigm named SNAKE is proposed, which is short for shape-aware neural 3D keypoint field. Similar to recent coordinate-based radiance or distance field, our network takes 3D coordinates as inputs and predicts implicit shape indicators and keypoint saliency simultaneously, thus naturally entangling 3D keypoint detection and shape reconstruction. We achieve superior performance on various public benchmarks, including standalone object datasets ModelNet40, KeypointNet, SMPL meshes and scene-level datasets 3DMatch and Redwood. Intrinsic shape awareness brings several advantages as follows. (1) SNAKE generates 3D keypoints consistent with human semantic annotation, even without such supervision. (2) SNAKE outperforms counterparts in terms of repeatability, especially when the input point clouds are down-sampled. (3) the generated keypoints allow accurate geometric registration, notably in a zero-shot setting. Codes are available at https://github.com/zhongcl-thu/SNAKE
翻訳日:2022-06-06 12:58:29 公開日:2022-06-03
# (参考訳) 意見マイニングを超えて:顧客レビューの意見を要約する

Beyond Opinion Mining: Summarizing Opinions of Customer Reviews ( http://arxiv.org/abs/2206.01543v1 )

ライセンス: CC BY 4.0
Reinald Kim Amplayo, Arthur Bra\v{z}inskas, Yoshi Suhara, Xiaolan Wang, Bing Liu(参考訳) 顧客レビューは、情報時代における購入決定に不可欠である。 このようなレビューは自動的に要約され、ユーザに意見の概要を提供する。 本稿では,研究者や実践者にとって有用な意見要約のさまざまな側面を紹介する。 まず、タスクと主要な課題を紹介します。 次に、前神経と神経の両方の既存の意見要約ソリューションを示す。 我々は,非教師,少数,監督された体制において要約者をいかに訓練するかについて議論する。 各レジームは、自動エンコーディング、制御可能なテキスト生成、変分推論など、さまざまな機械学習手法にルーツを持つ。 最後に,資源と評価手法を議論し,今後の方向性で結論づける。 この3時間のチュートリアルでは、意見要約の大幅な進歩について概観する。 リスナーは、研究と実践の両方に有用な知識を十分に備えています。

Customer reviews are vital for making purchasing decisions in the Information Age. Such reviews can be automatically summarized to provide the user with an overview of opinions. In this tutorial, we present various aspects of opinion summarization that are useful for researchers and practitioners. First, we will introduce the task and major challenges. Then, we will present existing opinion summarization solutions, both pre-neural and neural. We will discuss how summarizers can be trained in the unsupervised, few-shot, and supervised regimes. Each regime has roots in different machine learning methods, such as auto-encoding, controllable text generation, and variational inference. Finally, we will discuss resources and evaluation methods and conclude with the future directions. This three-hour tutorial will provide a comprehensive overview over major advances in opinion summarization. The listeners will be well-equipped with the knowledge that is both useful for research and practical applications.
翻訳日:2022-06-06 12:56:52 公開日:2022-06-03
# ビデオ言語理解における「ビデオ」の再考

Revisiting the "Video" in Video-Language Understanding ( http://arxiv.org/abs/2206.01720v1 )

ライセンス: Link先を確認
Shyamal Buch, Crist\'obal Eyzaguirre, Adrien Gaidon, Jiajun Wu, Li Fei-Fei, Juan Carlos Niebles(参考訳) ひとつの画像から理解できる範囲を超えて、ビデオに特有なビデオタスクに何をもたらすのか? 自己教師付き画像言語モデルの最近の進歩を踏まえて,本質問を映像と言語課題の文脈で再検討する。 画像レベルの理解に制約されたマルチモーダルモデルのベースライン精度に強い拘束力を与えるビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。 このモデルをビデオ質問応答やテキストからビデオへの検索などの標準の判別ビデオや言語タスクに適用することにより、現在のビデオ言語ベンチマークの限界と可能性を特徴付ける。 近年の大規模ビデオ言語モデルや、より深いビデオレベルの理解のベンチマークを目的とした文脈においても、イベントの時間性の理解は、強固あるいは最先端のパフォーマンスを達成するために必要ではないことが判明した。 また、ATPがビデオ言語データセットとモデル設計の両方を改善できることを示す。 本稿では,ATPを有効利用して,時間的難易度の高いデータセットサブセットを分解し,因果的および時間的理解のためのベンチマークの有効性を向上させる手法について述べる。 さらに, ATPをフルビデオレベル時間モデルに効果的に統合することで, 効率と最先端の精度が向上することを示した。

What makes a video task uniquely suited for videos, beyond what can be understood from a single image? Building on recent progress in self-supervised image-language models, we revisit this question in the context of video and language tasks. We propose the atemporal probe (ATP), a new model for video-language analysis which provides a stronger bound on the baseline accuracy of multimodal models constrained by image-level understanding. By applying this model to standard discriminative video and language tasks, such as video question answering and text-to-video retrieval, we characterize the limitations and potential of current video-language benchmarks. We find that understanding of event temporality is often not necessary to achieve strong or state-of-the-art performance, even compared with recent large-scale video-language models and in contexts intended to benchmark deeper video-level understanding. We also demonstrate how ATP can improve both video-language dataset and model design. We describe a technique for leveraging ATP to better disentangle dataset subsets with a higher concentration of temporally challenging data, improving benchmarking efficacy for causal and temporal understanding. Further, we show that effectively integrating ATP into full video-level temporal models can improve efficiency and state-of-the-art accuracy.
翻訳日:2022-06-06 12:48:25 公開日:2022-06-03
# 単語埋め込みにおけるジェンダーバイアスの測定 : 文法的ジェンダー信号のアンタングリング

Measuring Gender Bias in Word Embeddings of Gendered Languages Requires Disentangling Grammatical Gender Signals ( http://arxiv.org/abs/2206.01691v1 )

ライセンス: Link先を確認
Shiva Omrani Sabbaghi, Aylin Caliskan(参考訳) 単語埋め込みによって取得される意味性情報を測定する場合、言語の文法的性別は干渉するだろうか? ジェンダー付き言語の埋め込みにおける異常な性別バイアスの測定は、この可能性を示唆している。 単語埋め込みは、名詞とその文法的ジェンダーとの関係を文法的ジェンダー言語で学習し、それが社会性バイアスの測定を歪めることを実証する。 その結果、単語埋め込み後処理法を導入し、文法的な性別信号の定量化、縮小、評価を行う。 この評価は、インド・ヨーロッパ語族のゲルマン語、ロマンス語、スラヴ語の5つの言語で行われている。 本手法は,フランス語,ドイツ語,イタリア語ではd = 1.3,ポーランド語とスペイン語ではd = 0.56と,効果サイズ (cohen's d) で測定される,文法的ジェンダー信号の強度を減少させる。 文法的性別が切り離されると、1万の単数名詞の90%以上と割り当てられた文法的性別の関連は弱まり、ワード埋め込み協会試験(WEAT)による言語的偏見は、国レベルの暗黙的偏見測定とより一致している。 さらに,単語埋め込みから文法的ジェンダー信号を遠ざけることで,セマンティック機械学習タスクの改善につながる可能性が示唆された。

Does the grammatical gender of a language interfere when measuring the semantic gender information captured by its word embeddings? A number of anomalous gender bias measurements in the embeddings of gendered languages suggest this possibility. We demonstrate that word embeddings learn the association between a noun and its grammatical gender in grammatically gendered languages, which can skew social gender bias measurements. Consequently, word embedding post-processing methods are introduced to quantify, disentangle, and evaluate grammatical gender signals. The evaluation is performed on five gendered languages from the Germanic, Romance, and Slavic branches of the Indo-European language family. Our method reduces the strength of grammatical gender signals, which is measured in terms of effect size (Cohen's d), by a significant average of d = 1.3 for French, German, and Italian, and d = 0.56 for Polish and Spanish. Once grammatical gender is disentangled, the association between over 90% of 10,000 inanimate nouns and their assigned grammatical gender weakens, and cross-lingual bias results from the Word Embedding Association Test (WEAT) become more congruent with country-level implicit bias measurements. The results further suggest that disentangling grammatical gender signals from word embeddings may lead to improvement in semantic machine learning tasks.
翻訳日:2022-06-06 12:48:03 公開日:2022-06-03
# 意思決定境界による深層学習の理解

Understanding deep learning via decision boundary ( http://arxiv.org/abs/2206.01515v1 )

ライセンス: Link先を確認
Shiye Lei, Fengxiang He, Yancheng Yuan, Dacheng Tao(参考訳) 本稿では,決定境界(db)変動率の低いニューラルネットワークの一般化性について検討する。 2つの新しい概念、アルゴリズムDB変数と$(\epsilon, \eta)$-data DB変数は、アルゴリズムとデータの観点から決定境界変数を測定するために提案される。 大規模実験では,決定境界変数と一般化可能性との間に有意な負の相関が認められた。 理論的観点からは、アルゴリズムDBの可変性に基づく2つの下位境界が提案され、標本サイズに明示的に依存しない。 また、データ DB の変数に基づいて、次数 $\mathcal{O}\left(\frac{1}{\sqrt{m}}+\epsilon+\eta\log\frac{1}{\eta}\right)$ の上限も証明する。 境界はラベルの必要なしに推定するのに便利であり、深層学習で通常禁止される大きさのネットワークサイズに明示的に依存しない。

This paper discovers that the neural network with lower decision boundary (DB) variability has better generalizability. Two new notions, algorithm DB variability and $(\epsilon, \eta)$-data DB variability, are proposed to measure the decision boundary variability from the algorithm and data perspectives. Extensive experiments show significant negative correlations between the decision boundary variability and the generalizability. From the theoretical view, two lower bounds based on algorithm DB variability are proposed and do not explicitly depend on the sample size. We also prove an upper bound of order $\mathcal{O}\left(\frac{1}{\sqrt{m}}+\epsilon+\eta\log\frac{1}{\eta}\right)$ based on data DB variability. The bound is convenient to estimate without the requirement of labels, and does not explicitly depend on the network size which is usually prohibitively large in deep learning.
翻訳日:2022-06-06 12:46:46 公開日:2022-06-03
# (参考訳) 深部特徴抽出とアンサンブル学習を用いた機械学習による肺・大腸癌の検出

Machine Learning-based Lung and Colon Cancer Detection using Deep Feature Extraction and Ensemble Learning ( http://arxiv.org/abs/2206.01088v2 )

ライセンス: CC BY 4.0
Md. Alamin Talukder, Md. Manowarul Islam, Md Ashraf Uddin, Arnisha Akhter, Khondokar Fida Hasan, Mohammad Ali Moni(参考訳) がんは遺伝病と様々な生化学的異常の組み合わせによって引き起こされる致命的な疾患である。 肺癌と大腸癌は、ヒトの死因と障害の主な2つとして現れている。 このような悪性腫瘍の病理組織学的検出は、通常、最善の行動経路を決定する上で最も重要な要素である。 両側の疾患の早期発見は死亡率を著しく低下させる。 機械学習とディープラーニングの技術は、がん検出のスピードアップに役立ち、研究者は膨大な数の患者を短時間で、かつ低コストで研究することができる。 本研究では,肺がんと大腸癌を効率よく同定するハイブリッドアンサンブル特徴抽出モデルを提案する。 深い特徴抽出とアンサンブル学習と、がん画像データセットのための高性能なフィルタリングを統合する。 本モデルは病理組織学的(lc25000)肺および結腸データセット上で評価される。 研究によると、このハイブリッドモデルは、それぞれ99.05%、100%、99.30%の精度で、肺がん、結腸がん、(肺がん、大腸がん)癌を検出することができる。 本研究は,提案手法が既存モデルより有意に優れていることを示す。 したがって、これらのモデルはがんの診断において医師を支援するために診療所に適用することができる。

Cancer is a fatal disease caused by a combination of genetic diseases and a variety of biochemical abnormalities. Lung and colon cancer have emerged as two of the leading causes of death and disability in humans. The histopathological detection of such malignancies is usually the most important component in determining the best course of action. Early detection of the ailment on either front considerably decreases the likelihood of mortality. Machine learning and deep learning techniques can be utilized to speed up such cancer detection, allowing researchers to study a large number of patients in a much shorter amount of time and at a lower cost. In this research work, we introduced a hybrid ensemble feature extraction model to efficiently identify lung and colon cancer. It integrates deep feature extraction and ensemble learning with high-performance filtering for cancer image datasets. The model is evaluated on histopathological (LC25000) lung and colon datasets. According to the study findings, our hybrid model can detect lung, colon, and (lung and colon) cancer with accuracy rates of 99.05%, 100%, and 99.30%, respectively. The study's findings show that our proposed strategy outperforms existing models significantly. Thus, these models could be applicable in clinics to support the doctor in the diagnosis of cancers.
翻訳日:2022-06-06 11:10:41 公開日:2022-06-03
# (参考訳) 深層強化学習のためのデータ拡張の効率的なスケジューリング

Efficient Scheduling of Data Augmentation for Deep Reinforcement Learning ( http://arxiv.org/abs/2206.00518v2 )

ライセンス: CC BY 4.0
Byungchan Ko, Jungseul Ok(参考訳) 深層強化学習(RL)では、データ拡張は意味的一貫性に関する一連の有用な先行を誘導し、サンプル効率と一般化性能を改善するツールとして広く考えられている。 しかし、前者が一般化に有用であったとしても、RL剤に蒸留すると、しばしばRLの訓練に干渉し、試料効率を低下させる。 一方、エージェントはrlの非定常性のために前もって忘れられている。 これらの観察は蒸留の2つの極端なスケジュールを示している。 (i)訓練全体、又は (ii)最後にのみ。 そこで我々は,(rl以降であっても)いつでも一貫性を注入する単独のネットワーク蒸留法と,自動的に蒸留をスケジュールする簡易かつ効率的なフレームワークを考案する。 具体的には、まず、一般化にかかわらず、トレーニングに使用する拡張を適応的に決定することで、列車環境をマスターすることに焦点を当てる。 その後, 蒸留液を添加して, 新たな試料を必要としない全増量から, 一般化のための残りの利点を抽出する。 実験では、特にRLトレーニングの終了を延期することを考慮し、提案フレームワークの有用性を実証した。

In deep reinforcement learning (RL), data augmentation is widely considered as a tool to induce a set of useful priors about semantic consistency and improve sample efficiency and generalization performance. However, even when the prior is useful for generalization, distilling it to RL agent often interferes with RL training and degenerates sample efficiency. Meanwhile, the agent is forgetful of the prior due to the non-stationary nature of RL. These observations suggest two extreme schedules of distillation: (i) over the entire training; or (ii) only at the end. Hence, we devise a stand-alone network distillation method to inject the consistency prior at any time (even after RL), and a simple yet efficient framework to automatically schedule the distillation. Specifically, the proposed framework first focuses on mastering train environments regardless of generalization by adaptively deciding which {\it or no} augmentation to be used for the training. After this, we add the distillation to extract the remaining benefits for generalization from all the augmentations, which requires no additional new samples. In our experiments, we demonstrate the utility of the proposed framework, in particular, that considers postponing the augmentation to the end of RL training.
翻訳日:2022-06-06 11:09:21 公開日:2022-06-03
# トランスフォーマーによる医療画像変換? キー特性, 現状, 今後の展望の比較検討

Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives ( http://arxiv.org/abs/2206.01136v2 )

ライセンス: Link先を確認
Jun Li, Junyu Chen, Yucheng Tang, Ce Wang, Bennett A. Landman and S. Kevin Zhou(参考訳) ディープラーニングの最新の技術進歩であるtransformerは、自然言語処理やコンピュータビジョンで普及している。 医療画像はコンピュータビジョンに類似しているため、医療画像におけるトランスフォーマーの現状を問うと、質問は自然である: トランスフォーマーモデルは医療画像に変換できるか? 本稿では,調査に対する回答を試みる。 本稿では,トランスフォーマーの基礎,特に畳み込みニューラルネットワーク(CNN)と比較し,トランスフォーマーを特徴付ける重要な定義特性を強調した上で,医用画像の分割,認識,検出,登録,再構築,拡張といった領域で現在行われている研究の進展を示す,最先端のトランスフォーマーベースのアプローチについて概説する。 特に,トランスフォーマーとcnnの比較から主に派生したトランスフォーマーのキー定義特性と,トランスフォーマーとcnnを組み合わせる方法を特定するアーキテクチャに基づいて,読者がレビュー対象のアプローチの背後にある理論的根拠を最善に理解するのに役立つ点を特徴とする。 我々は今後の展望について議論する。

Transformer, the latest technological advance of deep learning, has gained prevalence in natural language processing or computer vision. Since medical imaging bear some resemblance to computer vision, it is natural to inquire about the status quo of Transformers in medical imaging and ask the question: can the Transformer models transform medical imaging? In this paper, we attempt to make a response to the inquiry. After a brief introduction of the fundamentals of Transformers, especially in comparison with convolutional neural networks (CNNs), and highlighting key defining properties that characterize the Transformers, we offer a comprehensive review of the state-of-the-art Transformer-based approaches for medical imaging and exhibit current research progresses made in the areas of medical image segmentation, recognition, detection, registration, reconstruction, enhancement, etc. In particular, what distinguishes our review lies in its organization based on the Transformer's key defining properties, which are mostly derived from comparing the Transformer and CNN, and its type of architecture, which specifies the manner in which the Transformer and CNN are combined, all helping the readers to best understand the rationale behind the reviewed approaches. We conclude with discussions of future perspectives.
翻訳日:2022-06-06 11:07:38 公開日:2022-06-03