このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211123となっている論文です。

PDF登録状況(公開日: 20211123)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 微分可能な波長合成 [全文訳有]

Differentiable Wavetable Synthesis ( http://arxiv.org/abs/2111.10003v2 )

ライセンス: CC BY 4.0
Siyuan Shan, Lamtharn Hantrakul, Jitong Chen, Matt Avent, David Trevelyan(参考訳) 微分可能なウェーブテーブル合成(英: Differentiable Wavetable Synthesis、DWTS)は、一周期波形の辞書、すなわちウェーブテーブルの辞書をエンドツーエンドの訓練によって学習するニューラルオーディオ合成技術である。 10~20個のウェーブテーブルで高忠実度音声合成を実現し,データ駆動波形辞書が,短い音声クリップで前例のないワンショット学習パラダイムを展開する様子を実演する。 特に、数秒の入力音声を用いて、高品質なピッチシフトなどのオーディオ操作を示す。 最後に,リアルタイムおよびインタラクティブな音声合成のための学習ウェーブテーブルによる性能向上について検討する。

Differentiable Wavetable Synthesis (DWTS) is a technique for neural audio synthesis which learns a dictionary of one-period waveforms i.e. wavetables, through end-to-end training. We achieve high-fidelity audio synthesis with as little as 10 to 20 wavetables and demonstrate how a data-driven dictionary of waveforms opens up unprecedented one-shot learning paradigms on short audio clips. Notably, we show audio manipulations, such as high quality pitch-shifting, using only a few seconds of input audio. Lastly, we investigate performance gains from using learned wavetables for realtime and interactive audio synthesis.
翻訳日:2021-11-26 11:26:28 公開日:2021-11-23
# (参考訳) CoCAtt:認知的な運転注意データセット [全文訳有]

CoCAtt: A Cognitive-Conditione d Driver Attention Dataset ( http://arxiv.org/abs/2111.10014v2 )

ライセンス: CC BY 4.0
Yuan Shen and Niviru Wijayaratne and Pranav Sriram and Aamir Hasan and Peter Du and Katie Driggs-Campbell(参考訳) ドライバー注意予測のタスクは、ロボット工学と自動運転車産業の研究者の間で大きな関心を集めている。 運転注意予測は、衝突や死傷などのリスクの高い出来事を緩和し防止する上で、重要な役割を果たす。 しかし、既存の運転注意予測モデルは、運転者の気晴らし状態や意図を無視し、周囲の観察方法に大きな影響を与える可能性がある。 これらの問題に対処するために、新しいドライバー注意データセットCoCAt(Cognitive-Cond itioned Attention)を提案する。 以前のドライバ注意データセットとは異なり、CoCAttには、ドライバの混乱状態と意図を記述するフレーム単位のアノテーションが含まれている。 さらに、我々のデータセットの注意データは、異なる解像度のアイトラッキングデバイスを使用して、手動モードと自動操縦モードの両方でキャプチャされる。 以上の2つの運転状態を注意モデルに組み込むことにより、運転者注意予測の性能が向上することを示す。 私たちの知る限りでは、この研究が初めてオートパイロットの注意データを提供した。 さらに、CoCAttは現在、自律レベル、アイトラッカーの解像度、運転シナリオの観点から、最大かつ最も多様なドライバー注意データセットである。

The task of driver attention prediction has drawn considerable interest among researchers in robotics and the autonomous vehicle industry. Driver attention prediction can play an instrumental role in mitigating and preventing high-risk events, like collisions and casualties. However, existing driver attention prediction models neglect the distraction state and intention of the driver, which can significantly influence how they observe their surroundings. To address these issues, we present a new driver attention dataset, CoCAtt (Cognitive-Condition ed Attention). Unlike previous driver attention datasets, CoCAtt includes per-frame annotations that describe the distraction state and intention of the driver. In addition, the attention data in our dataset is captured in both manual and autopilot modes using eye-tracking devices of different resolutions. Our results demonstrate that incorporating the above two driver states into attention modeling can improve the performance of driver attention prediction. To the best of our knowledge, this work is the first to provide autopilot attention data. Furthermore, CoCAtt is currently the largest and the most diverse driver attention dataset in terms of autonomy levels, eye tracker resolutions, and driving scenarios.
翻訳日:2021-11-26 11:17:49 公開日:2021-11-23
# (参考訳) オフライン視情報マッチングのための一般化決定変換器 [全文訳有]

Generalized Decision Transformer for Offline Hindsight Information Matching ( http://arxiv.org/abs/2111.10364v2 )

ライセンス: CC BY 4.0
Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu(参考訳) 各軌跡データから学習信号を抽出する方法は強化学習(RL)において重要な問題であり、サンプルの非効率性は実用上深刻な課題となっている。 近年の研究では、後見経験リプレイや意思決定トランスフォーマ(dt)におけるリターン・トゥ・ゴーといった、将来の軌道情報に対する表現的ポリシー関数の近似とコンディショニングを用いることで、オンラインrlがオフライン動作のクローン(シーケンスモデリングなど)によって完全に置き換えられるようなマルチタスクポリシの効率的な学習が可能になる。 これらすべてのアプローチが、将来の状態情報の統計に一致する軌道の残りの部分を出力できるトレーニングポリシーを、後向きの情報マッチング(HIM)によって実行していることを実証する。 我々は,HIM問題を解くための一般化決定変換器(GDT)を提案し,特徴関数と反因果アグリゲータの異なる選択が,DTを特別なケースとして回収するだけでなく,将来の異なる統計値に適合する新たなカテゴリーDT(CDT)と双方向DT(BDT)をもたらすことを示す。 CDTとBDTの評価では、オフラインマルチタスク状態マージナルマッチング(SMM)と模倣学習(IL)を2つの一般的なHIM問題として定義し、両者のメトリクスとしてワッサーシュタイン距離損失を提案し、MuJoCo連続制御ベンチマークでそれらを実証研究する。 cdtは、単に抗causal和をdtの抗causalbinningに置き換えるだけで、初めて有効なオフラインマルチタスクsmmアルゴリズムを可能にし、未発見および合成のマルチモーダル状態特徴分布にうまく一般化する。 BDTは、アグリゲータとして反因果第2変圧器を使用し、将来の統計をモデル化し、オフラインマルチタスクILにおいてDT変圧器より優れていることを学習することができる。 HIMとGDTの一般化された定式化は、現代のRLにおける強力なシーケンスモデリングアーキテクチャの役割を大きく広げます。

How to extract as much learning signal from each trajectory data has been a key problem in reinforcement learning (RL), where sample inefficiency has posed serious challenges for practical applications. Recent works have shown that using expressive policy function approximators and conditioning on future trajectory information -- such as future states in hindsight experience replay or returns-to-go in Decision Transformer (DT) -- enables efficient learning of multi-task policies, where at times online RL is fully replaced by offline behavioral cloning, e.g. sequence modeling. We demonstrate that all these approaches are doing hindsight information matching (HIM) -- training policies that can output the rest of trajectory that matches some statistics of future state information. We present Generalized Decision Transformer (GDT) for solving any HIM problem, and show how different choices for the feature function and the anti-causal aggregator not only recover DT as a special case, but also lead to novel Categorical DT (CDT) and Bi-directional DT (BDT) for matching different statistics of the future. For evaluating CDT and BDT, we define offline multi-task state-marginal matching (SMM) and imitation learning (IL) as two generic HIM problems, propose a Wasserstein distance loss as a metric for both, and empirically study them on MuJoCo continuous control benchmarks. CDT, which simply replaces anti-causal summation with anti-causal binning in DT, enables the first effective offline multi-task SMM algorithm that generalizes well to unseen and even synthetic multi-modal state-feature distributions. BDT, which uses an anti-causal second transformer as the aggregator, can learn to model any statistics of the future and outperforms DT variants in offline multi-task IL. Our generalized formulations from HIM and GDT greatly expand the role of powerful sequence modeling architectures in modern RL.
翻訳日:2021-11-26 09:52:29 公開日:2021-11-23
# (参考訳) autodc: 自動データ中心処理 [全文訳有]

AutoDC: Automated data-centric processing ( http://arxiv.org/abs/2111.12548v1 )

ライセンス: CC BY 4.0
Zac Yung-Chun Liu, Shoumik Roychowdhury, Scott Tarlow, Akash Nair, Shweta Badhe, Tejas Shah(参考訳) AutoML(Automated Machine Learning)は、モデル中心のアプローチのために、ここ数年で広く開発されている。 データ中心のアプローチでは、不正なラベルの修正、エッジケースを表す例の追加、データ拡張の適用など、データセットを改善するプロセスは、依然として非常に技術的かつ高価です。 ここでは,automlの目的と類似した,データセット改善プロセスの高速化を目的とした自動データセントリックツール(autodc)を開発した。 3つのオープンソース画像分類データセットの予備試験では、AutoDCはデータ改善タスクの作業時間の約80%を削減できると同時に、固定MLコードによるモデルの精度を10~15%向上させると見積もられている。

AutoML (automated machine learning) has been extensively developed in the past few years for the model-centric approach. As for the data-centric approach, the processes to improve the dataset, such as fixing incorrect labels, adding examples that represent edge cases, and applying data augmentation, are still very artisanal and expensive. Here we develop an automated data-centric tool (AutoDC), similar to the purpose of AutoML, aims to speed up the dataset improvement processes. In our preliminary tests on 3 open source image classification datasets, AutoDC is estimated to reduce roughly 80% of the manual time for data improvement tasks, at the same time, improve the model accuracy by 10-15% with the fixed ML code.
翻訳日:2021-11-26 02:55:54 公開日:2021-11-23
# (参考訳) 顔形態検出におけるアルゴリズムフェアネス [全文訳有]

Algorithmic Fairness in Face Morphing Attack Detection ( http://arxiv.org/abs/2111.12115v1 )

ライセンス: CC BY 4.0
Raghavendra Ramachandra, Kiran Raja, Christoph Busch(参考訳) 顔のモーフィング攻撃は、その脆弱性を悪用することで顔認識システム(frs)を損なう可能性がある。 顔形態素攻撃検出(MAD)技術は近年,このような攻撃を抑え,形態素攻撃のリスクを軽減するために開発されている。 マッドアルゴリズムは、他のアルゴリズムと同様に、異なる民族起源の被写体の画像を等しく扱い、非差別的な結果を与える。 有望なMADアルゴリズムは堅牢性のためにテストされているが、様々な民族に対する彼らの行動を包括的にベンチマークする研究はない。 本稿では,既存のSingle Image-based Morph Detection (S-MAD)アルゴリズムのアルゴリズムフェアネスの包括的解析と解析を行う。 我々は,マッドアルゴリズムに対する民族バイアスの影響をより深く理解するために,マッドアルゴリズムの性能を4つの異なる民族集団からなるデータセット上で検討する。 6種類のs-mad法を用いて広範な実験を行い,まず検出性能のベンチマークを行い,fdr(frepancy rate)を用いてアルゴリズム的フェアネスの定量的評価を行った。 その結果,6つの異なるS-MAD手法に対して,アルゴリズムバイアスを軽減するための信頼性の高いMADアプローチの必要性が示唆された。

Face morphing attacks can compromise Face Recognition System (FRS) by exploiting their vulnerability. Face Morphing Attack Detection (MAD) techniques have been developed in recent past to deter such attacks and mitigate risks from morphing attacks. MAD algorithms, as any other algorithms should treat the images of subjects from different ethnic origins in an equal manner and provide non-discriminatory results. While the promising MAD algorithms are tested for robustness, there is no study comprehensively bench-marking their behaviour against various ethnicities. In this paper, we study and present a comprehensive analysis of algorithmic fairness of the existing Single image-based Morph Attack Detection (S-MAD) algorithms. We attempt to better understand the influence of ethnic bias on MAD algorithms and to this extent, we study the performance of MAD algorithms on a newly created dataset consisting of four different ethnic groups. With Extensive experiments using six different S-MAD techniques, we first present benchmark of detection performance and then measure the quantitative value of the algorithmic fairness for each of them using Fairness Discrepancy Rate (FDR). The results indicate the lack of fairness on all six different S-MAD methods when trained and tested on different ethnic groups suggesting the need for reliable MAD approaches to mitigate the algorithmic bias.
翻訳日:2021-11-26 02:49:14 公開日:2021-11-23
# (参考訳) ノード特徴が欠落したグラフ上での学習における特徴伝播の不合理な効果について [全文訳有]

On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing Node Features ( http://arxiv.org/abs/2111.12128v1 )

ライセンス: CC BY 4.0
Emanuele Rossi, Henry Kenlay, Maria I. Gorinova, Benjamin Paul Chamberlain, Xiaowen Dong, Michael Bronstein(参考訳) グラフニューラルネットワーク(GNN)は、最近リレーショナルデータをモデリングするデファクトスタンダードになっていますが、グラフのノードやエッジの特徴が利用可能であることを強く前提にしています。 しかし、多くの現実世界のアプリケーションでは、機能は部分的にしか利用できない。例えば、ソーシャルネットワークでは、年齢と性別は少数のユーザーしか利用できない。 本稿では,ディリクレエネルギーの最小化を基本とし,グラフ上の拡散型微分方程式を導出するグラフ機械学習アプリケーションにおいて,欠けている特徴を扱う一般的なアプローチを提案する。 この方程式の離散化は、我々がFeature Propagationと呼ぶ単純で高速でスケーラブルなアルゴリズムを生成する。 提案手法は,7つの共通ノード分類ベンチマークにおいて従来の手法よりも優れており,平均して99%の機能が欠落している場合に,4%程度の相対的精度低下しか観測できない。 さらに、1つのGPU上で$\sim$2.5Mノードと$\sim$123Mエッジを持つグラフ上で実行するのに10秒しかかからない。

While Graph Neural Networks (GNNs) have recently become the de facto standard for modeling relational data, they impose a strong assumption on the availability of the node or edge features of the graph. In many real-world applications, however, features are only partially available; for example, in social networks, age and gender are available only for a small subset of users. We present a general approach for handling missing features in graph machine learning applications that is based on minimization of the Dirichlet energy and leads to a diffusion-type differential equation on the graph. The discretization of this equation produces a simple, fast and scalable algorithm which we call Feature Propagation. We experimentally show that the proposed approach outperforms previous methods on seven common node-classification benchmarks and can withstand surprisingly high rates of missing features: on average we observe only around 4% relative accuracy drop when 99% of the features are missing. Moreover, it takes only 10 seconds to run on a graph with $\sim$2.5M nodes and $\sim$123M edges on a single GPU.
翻訳日:2021-11-26 02:37:46 公開日:2021-11-23
# (参考訳) 核セグメンテーションのためのマルチモダリティ顕微鏡画像スタイル転送 [全文訳有]

Multi-Modality Microscopy Image Style Transfer for Nuclei Segmentation ( http://arxiv.org/abs/2111.12138v1 )

ライセンス: CC BY 4.0
Ye Liu, Sophia J. Wagner, Tingying Peng(参考訳) 核分割のための顕微鏡画像の注釈付けは手間と時間を要する。 既存のアノテーションを多目的に活用するために,GAN(Generative Adversarial Network)に基づく新しい顕微鏡式拡張手法を提案する。 他のスタイル転送法とは異なり、異なるセルアッセイの種類や照明条件を扱うだけでなく、明るい視野や蛍光顕微鏡のような異なる撮像モードを扱うことができる。 コンテンツとスタイルのアンタングル表現を用いて、拡張中にそのスタイルを変更しながら元の画像の構造を保存できる。 我々は,様々な細胞アッセイ,照明条件,画像モダリティからなる2018年データサイエンスボウルデータセットを用いて,データ拡張を評価した。 提案方式の強化により,競争における上位2つのMask R-CNNベース核分割アルゴリズムのセグメンテーション精度は著しく向上した。 これにより,テストデータの不均一性に対して下流タスクをより堅牢にし,マイノリティクラスの再サンプリングを必要とせず,クラス不均衡に対処できる。

Annotating microscopy images for nuclei segmentation is laborious and time-consuming. To leverage the few existing annotations, also across multiple modalities, we propose a novel microscopy-style augmentation technique based on a generative adversarial network (GAN). Unlike other style transfer methods, it can not only deal with different cell assay types and lighting conditions, but also with different imaging modalities, such as bright-field and fluorescence microscopy. Using disentangled representations for content and style, we can preserve the structure of the original image while altering its style during augmentation. We evaluate our data augmentation on the 2018 Data Science Bowl dataset consisting of various cell assays, lighting conditions, and imaging modalities. With our style augmentation, the segmentation accuracy of the two top-ranked Mask R-CNN-based nuclei segmentation algorithms in the competition increases significantly. Thus, our augmentation technique renders the downstream task more robust to the test data heterogeneity and helps counteract class imbalance without resampling of minority classes.
翻訳日:2021-11-26 02:19:02 公開日:2021-11-23
# (参考訳) cheblienet: リーマン幾何学によるリーマン群上の不変スペクトルグラフnns [全文訳有]

ChebLieNet: Invariant Spectral Graph NNs Turned Equivariant by Riemannian Geometry on Lie Groups ( http://arxiv.org/abs/2111.12139v1 )

ライセンス: CC BY 4.0
Hugo Aguettaz, Erik J. Bekkers, Micha\"el Defferrard(参考訳) 我々は(異方性)多様体上の群同変法であるChebLieNetを紹介する。 グラフとグループベースのニューラルネットワークの成功を振り返って、幾何学的深層学習分野における最近の進歩を利用して、データの異方性を利用する新しいアプローチを導出する。 リー群の離散近似により、異方性畳み込み層(チェビシェフ畳み込み)、空間プールおよびアンプール層、グローバルプール層からなるグラフニューラルネットワークを開発した。 群同分散は、辺に符号化された異方性左不変のリーマン距離に基づくアフィニティを持つグラフ上の同変および不変作用素を介して達成される。 単純形式のおかげで、リーマン計量は任意の異方性(空間領域と向き領域の両方)をモデル化できる。 このリーマン計量の異方性制御により、グラフ畳み込み層の不変性(等方性計量)と等分散(異方性計量)のバランスをとることができる。 したがって、異方性の性質をよりよく理解するために扉を開く。 さらに,cifar10における異方性パラメータに対する(データ依存)スイートスポットの存在を実験的に証明した。 この決定的な結果は、データにおける異方性の性質を利用して得られる利益の証拠である。 また,stl10 (画像データ) とclimatenet (球面データ) におけるこのアプローチのスケーラビリティを評価し,多様なタスクへの適応性を示す。

We introduce ChebLieNet, a group-equivariant method on (anisotropic) manifolds. Surfing on the success of graph- and group-based neural networks, we take advantage of the recent developments in the geometric deep learning field to derive a new approach to exploit any anisotropies in data. Via discrete approximations of Lie groups, we develop a graph neural network made of anisotropic convolutional layers (Chebyshev convolutions), spatial pooling and unpooling layers, and global pooling layers. Group equivariance is achieved via equivariant and invariant operators on graphs with anisotropic left-invariant Riemannian distance-based affinities encoded on the edges. Thanks to its simple form, the Riemannian metric can model any anisotropies, both in the spatial and orientation domains. This control on anisotropies of the Riemannian metrics allows to balance equivariance (anisotropic metric) against invariance (isotropic metric) of the graph convolution layers. Hence we open the doors to a better understanding of anisotropic properties. Furthermore, we empirically prove the existence of (data-dependent) sweet spots for anisotropic parameters on CIFAR10. This crucial result is evidence of the benefice we could get by exploiting anisotropic properties in data. We also evaluate the scalability of this approach on STL10 (image data) and ClimateNet (spherical data), showing its remarkable adaptability to diverse tasks.
翻訳日:2021-11-26 02:13:09 公開日:2021-11-23
# (参考訳) 部分ジャコビアンによる広域深層ニューラルネットワークの臨界初期化:一般理論と層ノルムへの応用 [全文訳有]

Critical initialization of wide and deep neural networks through partial Jacobians: general theory and applications to LayerNorm ( http://arxiv.org/abs/2111.12143v1 )

ライセンス: CC BY 4.0
Darshil Doshi, Tianyu He, Andrey Gromov(参考訳) ディープ・ニューラル・ネットワークは理論的治療に反する悪名高い。 しかし、各層内のパラメータ数が無限になる傾向がある場合、ネットワーク関数はガウス過程(gp)であり、定量的な予測記述が可能である。 ガウス近似は、ウェイトやバイアスのばらつきや学習率などのハイパーパラメータを選択するための基準を定式化することができる。 これらの基準は、ディープニューラルネットワークで定義される臨界の概念に依存している。 本研究では、この臨界性を(理論的にも経験的にも)診断する新しい方法について述べる。 この目的のために、ネットワークの部分ジャコビアンを導入する。これは、$l_0<l$ 層におけるプリアクティベーションに対する、$l$層におけるプリアクティベーションの導出として定義される。 これらの量は、ネットワークアーキテクチャが多くの異なるレイヤを含む場合に特に有用である。 部分ジャコビアンの深度によるスケーリングやニューラルタンジェントカーネル(NTK)との関係など,様々な特性について論じる。 本研究では, 部分的ヤコビアンに対する再帰関係を導出し, 層Norm を用いて深層 MLP ネットワークの臨界度を解析する。 正規化層はハイパーパラメータと臨界指数の最適値を変化させる。 プレアクティベーションに適用すると,相関深さが大きいため,アクティベーションよりもレイヤノルムの方が安定である。

Deep neural networks are notorious for defying theoretical treatment. However, when the number of parameters in each layer tends to infinity the network function is a Gaussian process (GP) and quantitatively predictive description is possible. Gaussian approximation allows to formulate criteria for selecting hyperparameters, such as variances of weights and biases, as well as the learning rate. These criteria rely on the notion of criticality defined for deep neural networks. In this work we describe a new way to diagnose (both theoretically and empirically) this criticality. To that end, we introduce partial Jacobians of a network, defined as derivatives of preactivations in layer $l$ with respect to preactivations in layer $l_0<l$. These quantities are particularly useful when the network architecture involves many different layers. We discuss various properties of the partial Jacobians such as their scaling with depth and relation to the neural tangent kernel (NTK). We derive the recurrence relations for the partial Jacobians and utilize them to analyze criticality of deep MLP networks with (and without) LayerNorm. We find that the normalization layer changes the optimal values of hyperparameters and critical exponents. We argue that LayerNorm is more stable when applied to preactivations, rather than activations due to larger correlation depth.
翻訳日:2021-11-26 01:47:09 公開日:2021-11-23
# (参考訳) RTSゲームにおけるパラメータ化行動木適応によるプレイスタイルの模倣 [全文訳有]

Mimicking Playstyle by Adapting Parameterized Behavior Trees in RTS Games ( http://arxiv.org/abs/2111.12144v1 )

ライセンス: CC BY 4.0
Andrzej Kozik, Tomasz Machalewski, Mariusz Marek, Adrian Ochmann(参考訳) 挙動木(BT)の発見は、ゲーム設計者が管理できる非プレイヤー文字(NPC)論理の柔軟で自然な表現を提供することによって、ゲームにおける人工知能(AI)の分野に影響を与えた。 それでも、より優れたNPCに対するプレッシャーが増し、AIエージェントは手作りBTの複雑さをほとんど引き付けず、エラーを起こしやすくした。 一方、多くのオンラインゲームはプレイヤーショートエイジに悩まされているが、幅広い能力を持つAIの存在はプレイヤーの保持を増加させる可能性がある。 したがって、上記の課題に対処するため、近年のトレンドは、深層・強化学習技術からBTの組合せ最適化や進化まで、AIエージェントの自動作成に焦点を当てている。 本稿では,AIエージェントの半自動構築に対する新しいアプローチを提案する。この手法は,専門家が作成したBTを,ソースとBTの類似度尺度に適応し,チューニングすることで,人間のゲームプレイを模倣し,一般化するものである。 この目的のために, bt の位相的および関数的変化を数値変数に反映する混合離散連続最適化問題を定式化し, 専用ハイブリッド-メタヒューリスティックを構築した。 提案手法の性能を実時間戦略ゲームで実験的に検証した。 実験により,商用ゲームに適用される提案手法の効率性と展望を確認した。

The discovery of Behavior Trees (BTs) impacted the field of Artificial Intelligence (AI) in games, by providing flexible and natural representation of non-player characters (NPCs) logic, manageable by game-designers. Nevertheless, increased pressure on ever better NPCs AI-agents forced complexity of handcrafted BTs to became barely-tractable and error-prone. On the other hand, while many just-launched on-line games suffer from player-shortage, the existence of AI with a broad-range of capabilities could increase players retention. Therefore, to handle above challenges, recent trends in the field focused on automatic creation of AI-agents: from deep- and reinforcementlearnin g techniques to combinatorial (constrained) optimization and evolution of BTs. In this paper, we present a novel approach to semi-automatic construction of AI-agents, that mimic and generalize given human gameplays by adapting and tuning of expert-created BT under a developed similarity metric between source and BT gameplays. To this end, we formulated mixed discrete-continuous optimization problem, in which topological and functional changes of the BT are reflected in numerical variables, and constructed a dedicated hybrid-metaheuristic . The performance of presented approach was verified experimentally in a prototype real-time strategy game. Carried out experiments confirmed efficiency and perspectives of presented approach, which is going to be applied in a commercial game.
翻訳日:2021-11-26 00:35:22 公開日:2021-11-23
# (参考訳) 学習の共有と共有の学習 -メタラーニング, マルチタスク学習, トランスファーラーニングの融合 : メタレビュー [全文訳有]

Sharing to learn and learning to share - Fitting together Meta-Learning, Multi-Task Learning, and Transfer Learning : A meta review ( http://arxiv.org/abs/2111.12146v1 )

ライセンス: CC BY-SA 4.0
Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki(参考訳) 異なる領域にまたがる知識の統合は、人間学習の重要な特徴である。 トランスファーラーニング、メタラーニング、マルチタスクラーニングといった学習パラダイムは、以前の知識を新しいタスクに活用することで人間の学習プロセスを反映し、より高速な学習と新しいタスクの優れた一般化を促進する。 この記事では、これらの学習パラダイムと、比較分析について詳述する。 学習アルゴリズムの弱さが他者の強みであることが判明し、それらを統合することは文学における一般的な特徴である。 この研究は2つのアルゴリズムを融合させて複数のタスクを遂行する論文の文献レビューを提供する。 メタラーニング、トランスファーラーニング、マルチタスクラーニングのアンサンブルであるグローバルジェネリックラーニングネットワークも紹介され、今後の研究の方向性やオープンな研究課題も紹介されている。

Integrating knowledge across different domains is an essential feature of human learning. Learning paradigms like transfer learning, meta learning, and multi-task learning reflect the human learning process by exploiting the prior knowledge for new tasks, encouraging faster learning and good generalization for new tasks. This article gives a detailed view of these learning paradigms along with a comparative analysis. The weakness of a learning algorithm turns out to be the strength of another, and thereby merging them is a prevalent trait in the literature. This work delivers a literature review of the articles, which fuses two algorithms to accomplish multiple tasks. A global generic learning network, an ensemble of meta learning, transfer learning, and multi-task learning, is also introduced here, along with some open research questions and directions for future research.
翻訳日:2021-11-26 00:19:54 公開日:2021-11-23
# (参考訳) 機械学習に基づくフォワードソルバ:gprmaxにおける自動フレームワーク [全文訳有]

Machine Learning Based Forward Solver: An Automatic Framework in gprMax ( http://arxiv.org/abs/2111.12148v1 )

ライセンス: CC BY 4.0
Utsav Akhaury, Iraklis Giannakis, Craig Warren, Antonios Giannopoulos(参考訳) 有限差分時間領域(FDTD)法などの一般的なフルウェーブ電磁分解器は、実用的なGPR問題をシミュレーションするために計算的に要求される。 本稿では,機械学習(ml)アーキテクチャに基づくgprのための,ほぼリアルタイムなフォワードモデリング手法の性能について検討する。 プロセスを簡単にするため、我々はこれらのMLベースの前方解法を自動生成できるフレームワークを開発した。 このフレームワークは,FDTDシミュレーションソフトウェアであるgprMaxから,予測次元削減技術とモデル化されたGPR応答の大規模データセットを組み合わせた,革新的なトレーニング手法を用いている。 フォワードソルバは特定のGPRアプリケーションに対してパラメータ化されるが、異なる電磁的問題に対して直接的に拡張することができる。

General full-wave electromagnetic solvers, such as those utilizing the finite-difference time-domain (FDTD) method, are computationally demanding for simulating practical GPR problems. We explore the performance of a near-real-time, forward modeling approach for GPR that is based on a machine learning (ML) architecture. To ease the process, we have developed a framework that is capable of generating these ML-based forward solvers automatically. The framework uses an innovative training method that combines a predictive dimensionality reduction technique and a large data set of modeled GPR responses from our FDTD simulation software, gprMax. The forward solver is parameterized for a specific GPR application, but the framework can be extended in a straightforward manner to different electromagnetic problems.
翻訳日:2021-11-25 23:50:07 公開日:2021-11-23
# (参考訳) リズムはダンサー:グローバル構造を持つ音楽駆動モーション合成 [全文訳有]

Rhythm is a Dancer: Music-Driven Motion Synthesis with Global Structure ( http://arxiv.org/abs/2111.12159v1 )

ライセンス: CC BY 4.0
Andreas Aristidou, Anastasios Yiannakidis, Kfir Aberman, Daniel Cohen-Or, Ariel Shamir, Yiorgos Chrysanthou(参考訳) 振り付けのようなグローバルな構造で人間の動きを合成することは難しい課題である。 既存の方法は局所的な滑らかなポーズ遷移に集中し、グローバルな文脈や動きのテーマを無視する傾向がある。 本研究では,入力ビートと同期する人間の動作の長期シーケンスを生成し,特定のダンスジャンルを尊重するグローバル構造を共同で形成する音楽駆動モーション合成フレームワークを提案する。 さらに,本フレームワークは,ビートだけでなく,音楽の内容によって制御される多様な動きの生成を可能にする。 我々の音楽駆動ダンス合成フレームワークは、ポーズ、モチーフ、振付の3段階からなる階層的なシステムである。 ポーズレベルは、ポーズの時間的コヒーレントなシーケンスを生成するLSTM成分からなる。 モチーフレベルは、連続するポーズのセットをガイドし、新しい動き知覚損失を用いて特定の分布に属する動きを形成する。 そして、振付レベルが実行された動作の順序を選択し、ダンスジャンルのグローバルな構造に従うようにシステムを動かす。 本研究は,様々なダンスタイプにおいて自然かつ一貫した動きを発生させ,合成された動きの内容を制御し,ダンス全体の構造を尊重する,音楽駆動の枠組みの有効性を示す。

Synthesizing human motion with a global structure, such as a choreography, is a challenging task. Existing methods tend to concentrate on local smooth pose transitions and neglect the global context or the theme of the motion. In this work, we present a music-driven motion synthesis framework that generates long-term sequences of human motions which are synchronized with the input beats, and jointly form a global structure that respects a specific dance genre. In addition, our framework enables generation of diverse motions that are controlled by the content of the music, and not only by the beat. Our music-driven dance synthesis framework is a hierarchical system that consists of three levels: pose, motif, and choreography. The pose level consists of an LSTM component that generates temporally coherent sequences of poses. The motif level guides sets of consecutive poses to form a movement that belongs to a specific distribution using a novel motion perceptual-loss. And the choreography level selects the order of the performed movements and drives the system to follow the global structure of a dance genre. Our results demonstrate the effectiveness of our music-driven framework to generate natural and consistent movements on various dance types, having control over the content of the synthesized motions, and respecting the overall structure of the dance.
翻訳日:2021-11-25 23:43:23 公開日:2021-11-23
# (参考訳) PT-VTON:プログレッシブ・ポス・アテンション・トランスファーを用いた画像ベース仮想トライオンネットワーク [全文訳有]

PT-VTON: an Image-Based Virtual Try-On Network with Progressive Pose Attention Transfer ( http://arxiv.org/abs/2111.12167v1 )

ライセンス: CC BY 4.0
Hanhan Zhou, Tian Lan, Guru Venkataramani(参考訳) 仮想トライオンシステムは、仮想設定でリアルでパーソナライズされた製品プレゼンテーションを顧客に提供できる可能性から、大きな注目を集めている。 本稿では,任意のポーズで仮想試着を可能にする,新しいポーズ転送フレームワークPT-VTONを提案する。 PT-VTONは、全体的な視覚的なファッション性と詳細なファブリックの外観要件を満たしつつ、既存のシステムの最小限の修正でファッション産業に適用することができる。 任意のポーズと体型で、モデルとユーザイメージ間の効率的な衣料転送を可能にする。 我々はPT-VTONのプロトタイプを実装し、詳細な人間や織物の特徴的な外観を保ちながら、ポーズの劇的なバリエーションに直面する際に、我々のシステムが他の多くのアプローチに適合または超えることを示した。 PT-VTONは、マシンベースの定量的メトリクスと定性的な結果の両方において、代替手法よりも優れていることが示されている。

The virtual try-on system has gained great attention due to its potential to give customers a realistic, personalized product presentation in virtualized settings. In this paper, we present PT-VTON, a novel pose-transfer-based framework for cloth transfer that enables virtual try-on with arbitrary poses. PT-VTON can be applied to the fashion industry within minimal modification of existing systems while satisfying the overall visual fashionability and detailed fabric appearance requirements. It enables efficient clothes transferring between model and user images with arbitrary pose and body shape. We implement a prototype of PT-VTON and demonstrate that our system can match or surpass many other approaches when facing a drastic variation of poses by preserving detailed human and fabric characteristic appearances. PT-VTON is shown to outperform alternative approaches both on machine-based quantitative metrics and qualitative results.
翻訳日:2021-11-25 23:08:12 公開日:2021-11-23
# (参考訳) 自己蒸留によるドメイン非依存クラスタリング [全文訳有]

Domain-Agnostic Clustering with Self-Distillation ( http://arxiv.org/abs/2111.12170v1 )

ライセンス: CC BY 4.0
Mohammed Adnan, Yani A. Ioannou, Chuan-Yung Tsai, Graham W. Taylor(参考訳) 近年の自己教師型学習の進歩は、教師なし表現学習と教師なし表現学習のギャップを減らしている。 しかし、ほとんどの自己教師あり、深層クラスタリング技術はデータ拡張に大きく依存しており、強化を実行するためにドメイン知識が不十分な多くの学習タスクでは有効ではない。 ドメイン非依存クラスタリングのための新しい自己蒸留型アルゴリズムを提案する。 本手法は,既存の深層クラスタリングフレームワークを基盤とし,個別の学習モデルを必要としない。 提案手法は,CIFAR-10上で既存のドメイン非依存(拡張不要)アルゴリズムより優れている。 モデルからより豊かな「暗黒知識」を抽出することで,知識蒸留が教師なし表現学習を改善することを実証的に実証した。 予備実験は、自己蒸留がDeepCluster-v2の収束を改善することを示唆している。

Recent advancements in self-supervised learning have reduced the gap between supervised and unsupervised representation learning. However, most self-supervised and deep clustering techniques rely heavily on data augmentation, rendering them ineffective for many learning tasks where insufficient domain knowledge exists for performing augmentation. We propose a new self-distillation based algorithm for domain-agnostic clustering. Our method builds upon the existing deep clustering frameworks and requires no separate student model. The proposed method outperforms existing domain agnostic (augmentation-free) algorithms on CIFAR-10. We empirically demonstrate that knowledge distillation can improve unsupervised representation learning by extracting richer `dark knowledge' from the model than using predicted labels alone. Preliminary experiments also suggest that self-distillation improves the convergence of DeepCluster-v2.
翻訳日:2021-11-25 22:58:32 公開日:2021-11-23
# (参考訳) ラベル曖昧性を考慮した画像分類のためのマルチラベル反復学習

Multi-label Iterated Learning for Image Classification with Label Ambiguity ( http://arxiv.org/abs/2111.12172v1 )

ライセンス: CC BY 4.0
Sai Rajeswar, Pau Rodriguez, Soumye Singhal, David Vazquez, Aaron Courville(参考訳) 大規模事前学習モデルからの転送学習は多くのコンピュータビジョンタスクに不可欠である。 最近の研究では、複数のオブジェクトクラスが存在するイメージが単一のラベルに割り当てられているため、ImageNetのようなデータセットは弱いラベルが付けられていることが示されている。 この曖昧さはモデルを単一の予測に偏り、データに共起する傾向にあるクラスの抑制をもたらす可能性がある。 言語出現文学に触発された多ラベル反復学習(MILe)を提案し,反復学習の枠組みを用いて,単一ラベルからの多ラベル学習の帰納バイアスを取り入れた。 MILeは,教師と学生の連続的なネットワークを通じて2進予測を伝播させることにより,画像のマルチラベル記述を構築する,シンプルで効果的な手順である。 実験の結果,本手法はイメージネットの精度とReaL F1スコアに有意な利点を示し,MILeは自己監督重みによる微調整であっても,通常の訓練方法よりもラベルのあいまいさに対処できることが示唆された。 また、MILeはラベルノイズを効果的に低減し、WebVisionのような実世界の大規模ノイズデータに対して最先端の性能を達成することを示す。 さらにmileは、iircのようなクラスインクリメンタル設定のパフォーマンスを改善し、分散シフトに堅牢である。 コード:https://github.com/ rajeswar18/MILe

Transfer learning from large-scale pre-trained models has become essential for many computer vision tasks. Recent studies have shown that datasets like ImageNet are weakly labeled since images with multiple object classes present are assigned a single label. This ambiguity biases models towards a single prediction, which could result in the suppression of classes that tend to co-occur in the data. Inspired by language emergence literature, we propose multi-label iterated learning (MILe) to incorporate the inductive biases of multi-label learning from single labels using the framework of iterated learning. MILe is a simple yet effective procedure that builds a multi-label description of the image by propagating binary predictions through successive generations of teacher and student networks with a learning bottleneck. Experiments show that our approach exhibits systematic benefits on ImageNet accuracy as well as ReaL F1 score, which indicates that MILe deals better with label ambiguity than the standard training procedure, even when fine-tuning from self-supervised weights. We also show that MILe is effective reducing label noise, achieving state-of-the-art performance on real-world large-scale noisy data such as WebVision. Furthermore, MILe improves performance in class incremental settings such as IIRC and it is robust to distribution shifts. Code: https://github.com/r ajeswar18/MILe
翻訳日:2021-11-25 22:50:39 公開日:2021-11-23
# (参考訳) 高周波マップ生成と音源定位のための3相ディープニューラルネットワーク [全文訳有]

Three-Way Deep Neural Network for Radio Frequency Map Generation and Source Localization ( http://arxiv.org/abs/2111.12175v1 )

ライセンス: CC BY 4.0
Kuldeep S. Gill, Son Nguyen, Myo M. Thein, Alexander M. Wyglinski(参考訳) 本稿では,空間領域全体で不規則に分散した計測データを補間し,スムーズな無線周波数マップ(RFMap)を構築し,深層ニューラルネットワークを用いて局所化を行うGAN(Generative Adversarial Network)機械学習モデルを提案する。 空間,時間,周波数領域にわたる無線スペクトルのモニタリングは,5Gおよび6G以上の通信技術において,ダイナミックスペクトルアクセス(DSA)を促進する上で重要な機能となる。 局所化、無線信号検出、スペクトルポリシー作成は、分散スペクトルセンシングが重要な役割を果たすいくつかの応用である。 無線エミッタの検出と位置決めは、大きなスペクトルと空間領域において非常に難しい課題である。 スムーズなRFMapデータベースを構築するには、非常に高価で時間を要する多くの計測が必要になります。 これらのシステムを実現するための1つのアプローチは、与えられた領域にまたがる有限局所化測定を収集し、その測定値を補間してデータベースを構築することである。 提案手法は,新しい一般化RFMapを再構成する一方で,正確な局所化の粒度に欠ける無線周波数マップを構築するためにチャネルモデリングを採用している。 ローカライズ結果を示し,従来のチャネルモデルと比較した。

In this paper, we present a Generative Adversarial Network (GAN) machine learning model to interpolate irregularly distributed measurements across the spatial domain to construct a smooth radio frequency map (RFMap) and then perform localization using a deep neural network. Monitoring wireless spectrum over spatial, temporal, and frequency domains will become a critical feature in facilitating dynamic spectrum access (DSA) in beyond-5G and 6G communication technologies. Localization, wireless signal detection, and spectrum policy-making are several of the applications where distributed spectrum sensing will play a significant role. Detection and positioning of wireless emitters is a very challenging task in a large spectral and spatial area. In order to construct a smooth RFMap database, a large number of measurements are required which can be very expensive and time consuming. One approach to help realize these systems is to collect finite localized measurements across a given area and then interpolate the measurement values to construct the database. Current methods in the literature employ channel modeling to construct the radio frequency map, which lacks the granularity for accurate localization whereas our proposed approach reconstructs a new generalized RFMap. Localization results are presented and compared with conventional channel models.
翻訳日:2021-11-25 22:49:37 公開日:2021-11-23
# (参考訳) 近似入射差分法による多重集合同変集合予測

Multiset-Equivariant Set Prediction with Approximate Implicit Differentiation ( http://arxiv.org/abs/2111.12193v1 )

ライセンス: CC BY 4.0
Yan Zhang, David W. Zhang, Simon Lacoste-Julien, Gertjan J. Burghouts, Cees G. M. Snoek(参考訳) ディープラーニングのほとんどのセット予測モデルは、セット同値演算を使用するが、実際にはマルチセットで動作する。 集合同変関数は多重集合上の特定の関数を表現できないことを示すので、より適切な多重集合同変の概念を導入する。 既存のDeep Set Prediction Network (DSPN) は, 集合同変の影響を受けずにマルチセット同変であり, 暗黙差が近似的に改善され, 高速かつ省メモリの最適化が可能となる。 様々な玩具実験において, マルチセット等価性の観点が有用であること, DSPNの変化がほとんどの場合, より良い結果をもたらすことを示す。 CLEVRオブジェクトの特性予測では、暗黙の微分によって得られる利点により、最も厳密な評価指標の1つにおいて、最先端のスロット注意を8%から77%に大幅に改善する。

Most set prediction models in deep learning use set-equivariant operations, but they actually operate on multisets. We show that set-equivariant functions cannot represent certain functions on multisets, so we introduce the more appropriate notion of multiset-equivarianc e. We identify that the existing Deep Set Prediction Network (DSPN) can be multiset-equivariant without being hindered by set-equivariance and improve it with approximate implicit differentiation, allowing for better optimization while being faster and saving memory. In a range of toy experiments, we show that the perspective of multiset-equivarianc e is beneficial and that our changes to DSPN achieve better results in most cases. On CLEVR object property prediction, we substantially improve over the state-of-the-art Slot Attention from 8% to 77% in one of the strictest evaluation metrics because of the benefits made possible by implicit differentiation.
翻訳日:2021-11-25 22:41:19 公開日:2021-11-23
# ロバスト主成分分析:建設誤差最小化の観点から

Robust Principal Component Analysis: A Construction Error Minimization Perspective ( http://arxiv.org/abs/2111.12132v1 )

ライセンス: Link先を確認
Kai Liu, Yarui Cao(参考訳) 本稿では,厳密な理論的保証を伴う頑健なPCA問題を体系的に解くための新しい最適化フレームワークを提案する。

In this paper we propose a novel optimization framework to systematically solve robust PCA problem with rigorous theoretical guarantee, based on which we investigate very computationally economic updating algorithms.
翻訳日:2021-11-25 16:19:11 公開日:2021-11-23
# スマートホームを用いた言語モデルを用いた人間行動認識環境センサのブートストラップ

Using Language Model to Bootstrap Human Activity Recognition Ambient Sensors Based in Smart Homes ( http://arxiv.org/abs/2111.12158v1 )

ライセンス: Link先を確認
Damien Bouchabou, Sao Mai Nguyen, Christophe Lohr, Benoit Leduc, Ioannis Kanellos(参考訳) 長期記憶型LSTM構造は, センサアクティベーションの順序と時間依存性を把握し, スマートホームにおける日常生活認識活動の効率化を実証している。 それでも、センサーのセマンティクスやコンテキストを扱うことにはまだ失敗している。 孤立したIDとその順序付けられたアクティベーション値よりも、センサーは意味も持つ。 実際、その性質と活性化の種類は様々な活動を翻訳することができる。 ログは相互に相関し、グローバルなコンテキストを生成する。 本稿では,静的なセマンティックな埋め込みであるWord2Vecと,文脈適応型埋め込みであるELMoの2つの自然言語処理埋め込み手法を用いて,活動系列の分類タスクにおけるLSTMに基づく構造を強化することを提案する。 その結果、実際のスマートホームデータセットでは、このアプローチがセンサー組織マップのような有用な情報を提供し、日々のアクティビティクラス間の混乱を少なくすることを示している。 他の住民やペットと競合する活動でデータセットのパフォーマンスを改善するのに役立つ。 私たちのテストでは、埋め込みはターゲットと異なるデータセットで事前トレーニングが可能で、転送学習が可能であることも示しています。 したがって,センサの文脈と意味を考慮すれば分類性能が向上し,転送学習が可能となる。

Long Short Term Memory LSTM-based structures have demonstrated their efficiency for daily living recognition activities in smart homes by capturing the order of sensor activations and their temporal dependencies. Nevertheless, they still fail in dealing with the semantics and the context of the sensors. More than isolated id and their ordered activation values, sensors also carry meaning. Indeed, their nature and type of activation can translate various activities. Their logs are correlated with each other, creating a global context. We propose to use and compare two Natural Language Processing embedding methods to enhance LSTM-based structures in activity-sequences classification tasks: Word2Vec, a static semantic embedding, and ELMo, a contextualized embedding. Results, on real smart homes datasets, indicate that this approach provides useful information, such as a sensor organization map, and makes less confusion between daily activity classes. It helps to better perform on datasets with competing activities of other residents or pets. Our tests show also that the embeddings can be pretrained on different datasets than the target one, enabling transfer learning. We thus demonstrate that taking into account the context of the sensors and their semantics increases the classification performances and enables transfer learning.
翻訳日:2021-11-25 16:19:07 公開日:2021-11-23
# サイバー空間の固定点:AI-NIDS時代の最適な侵入攻撃を再考する

Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the Age of AI-NIDS ( http://arxiv.org/abs/2111.12197v1 )

ライセンス: Link先を確認
Christian Schroeder de Witt, Yongchao Huang, Philip H.S. Torr, Martin Strohmeier(参考訳) サイバー攻撃はボリューム、頻度、複雑さが増加している。 セキュリティコミュニティは、機械学習を使ってサイバー防衛システムを完全自動化することを目指している。 しかし、これまでのところ、攻撃者と守備者の共進化的ダイナミクスに対する結果の影響は調査されていない。 この白書では,両側の自動化が促進すれば,進化サイクルが加速し,結果として得られる固定点が存在するか,どのように特徴付けられるかという疑問が提起される。 欧州最大のサイバー防衛活動であるlocked shieldsの脅威モデルの中で、ネットワーク分類器に対するブラックボックスの敵意攻撃を調査した。 既存の攻撃能力を考えると、最小回避距離に基づく最適な回避攻撃フレームワークの有用性を疑問視する。 代わりに,任意の逆摂動を効率的に生成できる新しい強化学習設定を提案する。 そこで我々は,アタッカー・ディフェンダー固定点自体が複雑な位相遷移を持つ一般サムゲームであり,結果のダイナミクスを研究するための時間拡張型マルチエージェント強化学習フレームワークを導入する。 我々は、AI-NIDSのもっともらしい固定点が、防衛戦略がホワイトリスト化された特徴フロー部分空間に大きく依存するシナリオであると仮定する。 最後に,時間的に拡張された汎用ゲームにおいて,アタッカー・ディフェンダーのダイナミクスを研究するために連続学習アプローチが必要であることを示す。

Cyber attacks are increasing in volume, frequency, and complexity. In response, the security community is looking toward fully automating cyber defense systems using machine learning. However, so far the resultant effects on the coevolutionary dynamics of attackers and defenders have not been examined. In this whitepaper, we hypothesise that increased automation on both sides will accelerate the coevolutionary cycle, thus begging the question of whether there are any resultant fixed points, and how they are characterised. Working within the threat model of Locked Shields, Europe's largest cyberdefense exercise, we study blackbox adversarial attacks on network classifiers. Given already existing attack capabilities, we question the utility of optimal evasion attack frameworks based on minimal evasion distances. Instead, we suggest a novel reinforcement learning setting that can be used to efficiently generate arbitrary adversarial perturbations. We then argue that attacker-defender fixed points are themselves general-sum games with complex phase transitions, and introduce a temporally extended multi-agent reinforcement learning framework in which the resultant dynamics can be studied. We hypothesise that one plausible fixed point of AI-NIDS may be a scenario where the defense strategy relies heavily on whitelisted feature flow subspaces. Finally, we demonstrate that a continual learning approach is required to study attacker-defender dynamics in temporally extended general-sum games.
翻訳日:2021-11-25 16:15:23 公開日:2021-11-23
# 分散化(フェデレート)と集中型データからの協調学習による分布シフトの緩和

Jointly Learning from Decentralized (Federated) and Centralized Data to Mitigate Distribution Shift ( http://arxiv.org/abs/2111.12150v1 )

ライセンス: Link先を確認
Sean Augenstein, Andrew Hard, Kurt Partridge, Rajiv Mathews(参考訳) プライバシーのモチベーションとして、連合学習(federated learning, fl)は、エッジデバイス上で学習をまとめて実施するパラダイムであり、それぞれがローカルデバイスに常駐する、ユーザ生成のトレーニング例をキャッシュする。 これらのオンデバイストレーニングの例は、ユーザのデバイスとのインタラクションの過程でその場で収集されるため、推論データ分布の少なくとも一部を非常に反映する。 デバイス上のトレーニング例では、推論時に発生すると思われるデータ入力が不足している可能性がある。 本稿では、FLと混在するデータセンターデータの選択的使用法である、このシフトを緩和する方法を提案する。 分散(フェデレート)データと集中型(データセンタ)データを混在させることで、推論データ分布に合致する効果的なトレーニングデータ分布を形成することができ、flによって課されるプライベートトレーニングデータアクセス制約を満たしながら、より有用なモデルを生成することができる。

With privacy as a motivation, Federated Learning (FL) is an increasingly used paradigm where learning takes place collectively on edge devices, each with a cache of user-generated training examples that remain resident on the local device. These on-device training examples are gathered in situ during the course of users' interactions with their devices, and thus are highly reflective of at least part of the inference data distribution. Yet a distribution shift may still exist; the on-device training examples may lack for some data inputs expected to be encountered at inference time. This paper proposes a way to mitigate this shift: selective usage of datacenter data, mixed in with FL. By mixing decentralized (federated) and centralized (datacenter) data, we can form an effective training data distribution that better matches the inference data distribution, resulting in more useful models while still meeting the private training data access constraints imposed by FL.
翻訳日:2021-11-25 16:10:17 公開日:2021-11-23
# 都市規模車両データ生成のための半教師付き学習を用いたボックスフリーインスタンスセグメンテーション

Bounding Box-Free Instance Segmentation Using Semi-Supervised Learning for Generating a City-Scale Vehicle Dataset ( http://arxiv.org/abs/2111.12122v1 )

ライセンス: Link先を確認
Osmar Luiz Ferreira de Carvalho, Osmar Ab\'ilio de Carvalho J\'unior, Anesmar Olino de Albuquerque, Nickolas Castro Santana, Dibio Leandro Borges, Roberto Arnaldo Trancoso Gomes, Renato Fontes Guimar\~aes(参考訳) 車両分類は熱いコンピュータビジョンのトピックであり、地上画像からトップ画像まで幅広い研究が行われている。 リモートセンシングでは、トップビュー画像を使用することで、都市パターン、車両濃度、交通管理などを理解することができる。 しかし、画素単位の分類にはいくつかの困難がある。 (a)ほとんどの車両分類研究はオブジェクト検出手法を用いており、最も一般に公開されているデータセットはこのタスクのために設計されている。 (b)インスタンスセグメンテーションデータセットの作成は手間がかかり、 (c) オブジェクトが小さいため、従来のインスタンスセグメンテーションメソッドは、このタスクではパフォーマンスが悪い。 本研究の目的は,(1)GISソフトウェアを用いた新しい半教師付き反復学習手法の提案,(2)箱なしインスタンス分割手法の提案,(3)都市規模の車両データセットの提供である。 1) 少数の車両にラベルを付け, (2) サンプルを訓練し, (3) モデルを用いて画像全体を分類する, (4) 画像予測をポリゴン形状ファイルに変換する, (5) 誤りのある領域を訂正してトレーニングデータに含める, (6) 結果が満足できるまで繰り返す。 例として,車内境界と車内境界を検討した。DLモデルは,効率の良いネットワークB7バックボーンを備えたU-netであった。 境界を取り除く際、車両内部は孤立し、ユニークな物体識別が可能となる。 削除された1ピクセル境界を復元するために,各予測を簡易に拡張する方法を提案した。 その結果,Mask-RCNN(IoUでは82%,IoUでは67%)と比較すると,ピクセル単位の指標が良好であった。 対象ごとの分析では,全体の精度,精度,リコール率は90%以上であった。 このパイプラインは任意のリモートセンシングターゲットに適用され、データセットのセグメンテーションと生成に非常に効率的である。

Vehicle classification is a hot computer vision topic, with studies ranging from ground-view up to top-view imagery. In remote sensing, the usage of top-view images allows for understanding city patterns, vehicle concentration, traffic management, and others. However, there are some difficulties when aiming for pixel-wise classification: (a) most vehicle classification studies use object detection methods, and most publicly available datasets are designed for this task, (b) creating instance segmentation datasets is laborious, and (c) traditional instance segmentation methods underperform on this task since the objects are small. Thus, the present research objectives are: (1) propose a novel semi-supervised iterative learning approach using GIS software, (2) propose a box-free instance segmentation approach, and (3) provide a city-scale vehicle dataset. The iterative learning procedure considered: (1) label a small number of vehicles, (2) train on those samples, (3) use the model to classify the entire image, (4) convert the image prediction into a polygon shapefile, (5) correct some areas with errors and include them in the training data, and (6) repeat until results are satisfactory. To separate instances, we considered vehicle interior and vehicle borders, and the DL model was the U-net with the Efficient-net-B7 backbone. When removing the borders, the vehicle interior becomes isolated, allowing for unique object identification. To recover the deleted 1-pixel borders, we proposed a simple method to expand each prediction. The results show better pixel-wise metrics when compared to the Mask-RCNN (82% against 67% in IoU). On per-object analysis, the overall accuracy, precision, and recall were greater than 90%. This pipeline applies to any remote sensing target, being very efficient for segmentation and generating datasets.
翻訳日:2021-11-25 15:03:58 公開日:2021-11-23
# リモートセンシングを実現するPanoptic Segmentation

Panoptic Segmentation Meets Remote Sensing ( http://arxiv.org/abs/2111.12126v1 )

ライセンス: Link先を確認
Osmar Luiz Ferreira de Carvalho, Osmar Ab\'ilio de Carvalho J\'unior, Cristiano Rosa e Silva, Anesmar Olino de Albuquerque, Nickolas Castro Santana, Dibio Leandro Borges, Roberto Arnaldo Trancoso Gomes, Renato Fontes Guimar\~aes(参考訳) パノプティックセグメンテーションは、インスタンスとセマンティック予測を組み合わせることで、"things"と"stuff"を同時に検出できる。 リモートセンシングされたデータのパノプティクスセグメンテーションに効果的にアプローチすることは、連続的なマッピングと特定のターゲットカウントを可能にするため、多くの困難な問題において注目に値する。 リモートセンシングにおけるこのタスクの成長にはいくつかの困難がある。 (a)ほとんどのアルゴリズムは従来の画像用に設計されている。 b) 画像ラベリングは、"things" と "stuff" のクラスを包含し、 (c) アノテーションフォーマットは複雑です。 そこで, 遠隔センシングにおけるパンオプティカルセグメンテーションの操作性の向上を目的として, 1) パンオプティカルセグメンテーションのための新しいデータ準備パイプラインの作成, (2) パンオプティカルアノテーションを生成するためのアノテーション変換ソフトウェアの提案, (3) 都市部における新しいデータセットの提案,(4) タスクのための検出子2の変更,(5) 都市環境におけるこの課題の難易度評価の5つの目的を明らかにした。 14クラスを想定した空間分解能0,24mの空中画像を用いた。 提案するソフトウェアはCOCOフォーマットのサンプルを作成するために点形状ファイルを使用する。 512×512ピクセルのサンプルを3,400個生成した。 我々は2つのバックボーン(ResNet-50とResNet-101)でPanoptic-FPNを使用し、セマンティック・インスタンスとパノプティック・メトリクスを考慮したモデル評価を行った。 平均iou,box ap,pqは93.9,47.7,64.9であった。 本研究は,パンオプティカルセグメンテーションにおける最初の効果的なパイプラインと,他の研究者が他のデータや関連する問題を徹底的に理解するための広範なデータベースを提案する。

Panoptic segmentation combines instance and semantic predictions, allowing the detection of "things" and "stuff" simultaneously. Effectively approaching panoptic segmentation in remotely sensed data can be auspicious in many challenging problems since it allows continuous mapping and specific target counting. Several difficulties have prevented the growth of this task in remote sensing: (a) most algorithms are designed for traditional images, (b) image labelling must encompass "things" and "stuff" classes, and (c) the annotation format is complex. Thus, aiming to solve and increase the operability of panoptic segmentation in remote sensing, this study has five objectives: (1) create a novel data preparation pipeline for panoptic segmentation, (2) propose an annotation conversion software to generate panoptic annotations; (3) propose a novel dataset on urban areas, (4) modify the Detectron2 for the task, and (5) evaluate difficulties of this task in the urban setting. We used an aerial image with a 0,24-meter spatial resolution considering 14 classes. Our pipeline considers three image inputs, and the proposed software uses point shapefiles for creating samples in the COCO format. Our study generated 3,400 samples with 512x512 pixel dimensions. We used the Panoptic-FPN with two backbones (ResNet-50 and ResNet-101), and the model evaluation considered semantic instance and panoptic metrics. We obtained 93.9, 47.7, and 64.9 for the mean IoU, box AP, and PQ. Our study presents the first effective pipeline for panoptic segmentation and an extensive database for other researchers to use and deal with other data or related problems requiring a thorough scene understanding.
翻訳日:2021-11-25 15:03:30 公開日:2021-11-23
# 機械学習アプリケーションにおける特徴選択のためのフィルタ手法 -- レビューとベンチマーク

Filter Methods for Feature Selection in Supervised Machine Learning Applications -- Review and Benchmark ( http://arxiv.org/abs/2111.12140v1 )

ライセンス: Link先を確認
Konstantin Hopf, Sascha Reifenrath(参考訳) 機械学習(ML)アプリケーションのデータ量は、常に増加しています。 観測数だけでなく、特に測定された変数の数(特徴)もデジタル化が進むにつれて増加する。 予測モデリングの最も適切な機能を選択することは、ビジネスおよび研究におけるMLアプリケーションの成功にとって重要なレバーである。 特定のMLアルゴリズム(いわゆるフィルタ法)に依存しない特徴選択法(FSM)が多数提案されているが,一般的なML問題に対して適切なアプローチを選択するための研究者や定量的モデリング者に対するガイダンスはほとんどない。 本稿では,特徴選択ベンチマークに関する文献を概説し,広く使用されているR環境における58手法の性能評価を行う。 具体的なガイダンスとして、MLモデルでは難しい4つの典型的なデータセットシナリオ(ノイズ、冗長、不均衡なデータ、観察よりも多くの機能を持つケース)を検討する。 fsmをはるかに少なくした以前のベンチマークの経験から,4つの基準(予測性能,関連する機能の選択数,機能セットの安定性,ランタイム)により,メソッドのパフォーマンスを比較した。 提案手法は, ランダムフォレスト手法, ダブル入力対称性関連フィルタ (DISR) とジョイント不純物フィルタ (JIM) が, 与えられたデータセットのシナリオに対して高い性能の候補手法であることがわかった。

The amount of data for machine learning (ML) applications is constantly growing. Not only the number of observations, especially the number of measured variables (features) increases with ongoing digitization. Selecting the most appropriate features for predictive modeling is an important lever for the success of ML applications in business and research. Feature selection methods (FSM) that are independent of a certain ML algorithm - so-called filter methods - have been numerously suggested, but little guidance for researchers and quantitative modelers exists to choose appropriate approaches for typical ML problems. This review synthesizes the substantial literature on feature selection benchmarking and evaluates the performance of 58 methods in the widely used R environment. For concrete guidance, we consider four typical dataset scenarios that are challenging for ML models (noisy, redundant, imbalanced data and cases with more features than observations). Drawing on the experience of earlier benchmarks, which have considered much fewer FSMs, we compare the performance of the methods according to four criteria (predictive performance, number of relevant features selected, stability of the feature sets and runtime). We found methods relying on the random forest approach, the double input symmetrical relevance filter (DISR) and the joint impurity filter (JIM) were well-performing candidate methods for the given dataset scenarios.
翻訳日:2021-11-25 15:02:02 公開日:2021-11-23
# 速度歪み関数に基づく経験的サンドイッチ境界に向けて

Towards Empirical Sandwich Bounds on the Rate-Distortion Function ( http://arxiv.org/abs/2111.12166v1 )

ライセンス: Link先を確認
Yibo Yang, Stephan Mandt(参考訳) 情報理論における鍵量であるr-d(rate-distortion) 関数は、いかなる圧縮アルゴリズムによっても、データソースが忠実度基準に従って圧縮できる量の基本的な限界を特徴付ける。 研究者が圧縮性能を常に改善しようとする中で、与えられたデータソースのR-D関数を確立することは、科学的な関心だけでなく、圧縮アルゴリズムを改善する余地にも光を当てている。 この問題に関する以前の研究は、データソース(gibson, 2017)上の分散仮定に依存していたり、あるいは離散データにのみ適用されていた。 対照的に,本論文では,データサンプルのみを必要とする一般(必ずしも離散的ではない)ソースのr-d関数を挟むアルゴリズムを初めて試みる。 ガウスおよび高次元バナナ形状のソースとGAN生成画像のR-Dサンドイッチ境界を推定する。 自然画像上のR-D上界は、様々なビットレートにおけるPSNRの1dBによる最先端画像圧縮法の性能を向上させる余地を示す。

Rate-distortion (R-D) function, a key quantity in information theory, characterizes the fundamental limit of how much a data source can be compressed subject to a fidelity criterion, by any compression algorithm. As researchers push for ever-improving compression performance, establishing the R-D function of a given data source is not only of scientific interest, but also sheds light on the possible room for improving compression algorithms. Previous work on this problem relied on distributional assumptions on the data source (Gibson, 2017) or only applied to discrete data. By contrast, this paper makes the first attempt at an algorithm for sandwiching the R-D function of a general (not necessarily discrete) source requiring only i.i.d. data samples. We estimate R-D sandwich bounds on Gaussian and high-dimension banana-shaped sources, as well as GAN-generated images. Our R-D upper bound on natural images indicates room for improving the performance of state-of-the-art image compression methods by 1 dB in PSNR at various bitrates.
翻訳日:2021-11-25 15:01:41 公開日:2021-11-23
# データ駆動シミュレーションによるインタラクティブ運転政策の学習

Learning Interactive Driving Policies via Data-driven Simulation ( http://arxiv.org/abs/2111.12137v1 )

ライセンス: Link先を確認
Tsun-Hsuan Wang, Alexander Amini, Wilko Schwarting, Igor Gilitschenski, Sertac Karaman, Daniela Rus(参考訳) データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。 小さなデータセットには、インタラクティブな運転を学ぶ上で興味深い、困難なエッジケースがしばしば欠如しています。 そこで本研究では,ado車を用いたロバストな運転方針を学習するシミュレーション手法を提案する。 そこで本手法は,マルチエージェントインタラクションを含むポリシを学習し,最先端のポリシ学習手法によるトレーニングを可能にする。 運転における標準的なインタラクションシナリオを学習するためのアプローチを評価する。 大規模な実験では、ドメインランダム化のような従来のシミュレート・トゥ・リアルな転送手法を使わずに、結果のポリシをフルスケールの自動運転車に直接転送できることが実証された。

Data-driven simulators promise high data-efficiency for driving policy learning. When used for modelling interactions, this data-efficiency becomes a bottleneck: Small underlying datasets often lack interesting and challenging edge cases for learning interactive driving. We address this challenge by proposing a simulation method that uses in-painted ado vehicles for learning robust driving policies. Thus, our approach can be used to learn policies that involve multi-agent interactions and allows for training via state-of-the-art policy learning methods. We evaluate the approach for learning standard interaction scenarios in driving. In extensive experiments, our work demonstrates that the resulting policies can be directly transferred to a full-scale autonomous vehicle without making use of any traditional sim-to-real transfer techniques such as domain randomization.
翻訳日:2021-11-25 15:00:04 公開日:2021-11-23
# 文脈言語モデルのセマンティクス研究における分布原理の利用

Using Distributional Principles for the Semantic Study of Contextual Language Models ( http://arxiv.org/abs/2111.12174v1 )

ライセンス: Link先を確認
Olivier Ferret(参考訳) 近年、文脈言語モデルの性質を研究するために多くの研究が行われてきたが、驚くべきことに、これらのモデルの性質を意味的類似性の観点から考えるのはわずかである。 本稿では,SemCorとWordNetのパラダイム関係を制御した文脈において,置換の分布原理を探索機構として活用することによって,これらの特性を英語に焦点をあてる。 次に、静的言語モデルと文脈言語モデルの違いを特徴付けるため、よりオープンな設定に同じ方法を適用することを提案する。

Many studies were recently done for investigating the properties of contextual language models but surprisingly, only a few of them consider the properties of these models in terms of semantic similarity. In this article, we first focus on these properties for English by exploiting the distributional principle of substitution as a probing mechanism in the controlled context of SemCor and WordNet paradigmatic relations. Then, we propose to adapt the same method to a more open setting for characterizing the differences between static and contextual language models.
翻訳日:2021-11-25 14:58:57 公開日:2021-11-23
# 深層学習と近位高スペクトル画像によるジャガイモ遅発性早期疾患の診断

In-field early disease recognition of potato late blight based on deep learning and proximal hyperspectral imaging ( http://arxiv.org/abs/2111.12155v1 )

ライセンス: Link先を確認
Chao Qi (1 and 2), Murilo Sandroni (3), Jesper Cairo Westergaard (4), Ea H{\o}egh Riis Sundmark (5), Merethe Bagge (5), Erik Alexandersson (3), Junfeng Gao (1 and 6) ((1) Lincoln Agri-Robotics, Lincoln Institute for Agri-Food Technology, University of Lincoln, Lincoln, UK, (2) College of Engineering, Nanjing Agricultural University, Nanjing 210031, China, (3) Department of Plant Protection Biology, Swedish University of Agricultural Sciences, Alnarp, Sweden, (4) Department of Plant and Environmental Sciences, University of Copenhagen, Taastrup, Denmark, (5) Danespo Breeding Company, Give, Denmark, (6) Lincoln Centre for Autonomous System, University of Lincoln, Lincoln, UK)(参考訳) ポテトレイトブライト (PLB) の有効早期検出は, ジャガイモ栽培の重要な側面である。 しかし、天蓋レベルでの視覚的手がかりが不足しているため、従来の画像撮影手法では、早期に遅延光を検出することは困難である。 ハイパースペクトルイメージングは、広い波長のスペクトル信号を、視覚波長の外側からも捉えることができる。 本稿では,2次元畳み込みニューラルネットワーク(2D-CNN)と3D-CNNとを協調型注目ネットワーク(PLB-2D-3D-A)を組み合わせたハイパースペクトル画像のディープラーニング分類アーキテクチャを提案する。 まず,2D-CNNと3D-CNNを用いてスペクトル空間の特徴を抽出し,アテンションブロックとSE-ResNetを用いて特徴マップの健全な特徴を強調し,モデルの一般化能力を高める。 データセットは15360枚の画像(64x64x204)で構築され、20種類以上のジャガイモ遺伝子型を持つ実験場で撮影された240枚の生画像から切り抜かれている。 2000画像のテストデータセットの精度は、フルバンドで0.739、特定のバンド(492nm、519nm、560nm、592nm、717nm、765nm)で0.790に達した。 本研究は,深部学習と近位ハイパースペクトラルイメージングを用いたplb早期検出の促進効果を示す。

Effective early detection of potato late blight (PLB) is an essential aspect of potato cultivation. However, it is a challenge to detect late blight at an early stage in fields with conventional imaging approaches because of the lack of visual cues displayed at the canopy level. Hyperspectral imaging can, capture spectral signals from a wide range of wavelengths also outside the visual wavelengths. In this context, we propose a deep learning classification architecture for hyperspectral images by combining 2D convolutional neural network (2D-CNN) and 3D-CNN with deep cooperative attention networks (PLB-2D-3D-A). First, 2D-CNN and 3D-CNN are used to extract rich spectral space features, and then the attention mechanism AttentionBlock and SE-ResNet are used to emphasize the salient features in the feature maps and increase the generalization ability of the model. The dataset is built with 15,360 images (64x64x204), cropped from 240 raw images captured in an experimental field with over 20 potato genotypes. The accuracy in the test dataset of 2000 images reached 0.739 in the full band and 0.790 in the specific bands (492nm, 519nm, 560nm, 592nm, 717nm and 765nm). This study shows an encouraging result for early detection of PLB with deep learning and proximal hyperspectral imaging.
翻訳日:2021-11-25 14:57:53 公開日:2021-11-23
# 安全制約のある最良の腕の識別

Best Arm Identification with Safety Constraints ( http://arxiv.org/abs/2111.12151v1 )

ライセンス: Link先を確認
Zhenlin Wang, Andrew Wagenmaker, Kevin Jamieson(参考訳) マルチアームのバンディット設定における最良のアーム識別問題は、多くの現実世界の意思決定問題の優れたモデルであるが、現実世界では、学習中に安全性の制約を満たさなければならないという事実を捉えられていない。 本研究では,安全クリティカルな環境でのベストアーム識別の課題について検討する。エージェントの目標は,特定の初期不明の安全制約が満たされることを保証する方法で探索しながら,多くの人から最高の安全な選択肢を見つけることである。 まず,報奨と安全の制約が線形構造を取る設定においてこの問題を分析し,上界と下界にほぼ一致することを示す。 次に、報酬と安全性の制約が単調関数によってモデル化できると仮定する問題のより一般的なバージョンを分析し、この設定で安全に学習することを保証したアルゴリズムを提案する。 本研究は, 患者を治療するために, 患者から最高の薬剤を安全に同定するなどのシナリオにおいて, 提案手法の有効性を実証する実験結果から締めくくった。

The best arm identification problem in the multi-armed bandit setting is an excellent model of many real-world decision-making problems, yet it fails to capture the fact that in the real-world, safety constraints often must be met while learning. In this work we study the question of best-arm identification in safety-critical settings, where the goal of the agent is to find the best safe option out of many, while exploring in a way that guarantees certain, initially unknown safety constraints are met. We first analyze this problem in the setting where the reward and safety constraint takes a linear structure, and show nearly matching upper and lower bounds. We then analyze a much more general version of the problem where we only assume the reward and safety constraint can be modeled by monotonic functions, and propose an algorithm in this setting which is guaranteed to learn safely. We conclude with experimental results demonstrating the effectiveness of our approaches in scenarios such as safely identifying the best drug out of many in order to treat an illness.
翻訳日:2021-11-25 14:40:34 公開日:2021-11-23
# オンライン活動のためのベイズサンプルサイズ予測

Bayesian Sample Size Prediction for Online Activity ( http://arxiv.org/abs/2111.12157v1 )

ライセンス: Link先を確認
Thomas Richardson, Yu Liu, James McQueen, Doug Hains(参考訳) 多くの文脈において、特定の期間に特定の活動を開始する集団の個体数を予測することは有用である。 例えば、ソフトウェアアップデートをインストールするユーザ数、Webサイトで新機能を使用するユーザ数、あるいはA/Bテストに参加するユーザ数などです。 実践的な設定では、個人が開始するまでの時間分布に関して異質性がある。 これらの理由から、連続した日に観測される新規個体数が同一に分布すると仮定するのは不適切である。 最初の期間に参加するユニークユーザ数についての観察から,その後の期間に参加する追加ユーザ数を予測するための,単純だが斬新なベイズ手法を提案する。 オンライン実験におけるサンプルサイズ予測における手法の性能について述べる。

In many contexts it is useful to predict the number of individuals in some population who will initiate a particular activity during a given period. For example, the number of users who will install a software update, the number of customers who will use a new feature on a website or who will participate in an A/B test. In practical settings, there is heterogeneity amongst individuals with regard to the distribution of time until they will initiate. For these reasons it is inappropriate to assume that the number of new individuals observed on successive days will be identically distributed. Given observations on the number of unique users participating in an initial period, we present a simple but novel Bayesian method for predicting the number of additional individuals who will subsequently participate during a subsequent period. We illustrate the performance of the method in predicting sample size in online experimentation.
翻訳日:2021-11-25 14:40:18 公開日:2021-11-23
# 入力凸勾配ネットワーク

Input Convex Gradient Networks ( http://arxiv.org/abs/2111.12187v1 )

ライセンス: Link先を確認
Jack Richter-Powell, Jonathan Lorraine, Brandon Amos(参考訳) 凸関数の勾配は非自明なベクトル場の表現モデルである。 例えば、ブレニエの定理は、二乗距離のユークリッド空間上の任意の2つの測度の間の最適輸送写像は凸勾配として実現され、これは最近の生成フローモデルにおいて重要な洞察である。 本稿では,ニューラルネットワークによってパラメータ化されたヤコビ-ベクトル積を統合することで,凸勾配をモデル化する方法について検討する。 ICGNを理論的に研究し、ICNN(Input-Convex Neural Network)の勾配と比較し、単一の層ICGNが単一の層ICNNよりもおもちゃの例に適合できることを実証的に示す。 最後に、より深いネットワークへの拡張とリーマン幾何学による構成への接続について検討する。

The gradients of convex functions are expressive models of non-trivial vector fields. For example, Brenier's theorem yields that the optimal transport map between any two measures on Euclidean space under the squared distance is realized as a convex gradient, which is a key insight used in recent generative flow models. In this paper, we study how to model convex gradients by integrating a Jacobian-vector product parameterized by a neural network, which we call the Input Convex Gradient Network (ICGN). We theoretically study ICGNs and compare them to taking the gradient of an Input-Convex Neural Network (ICNN), empirically demonstrating that a single layer ICGN can fit a toy example better than a single layer ICNN. Lastly, we explore extensions to deeper networks and connections to constructions from Riemannian geometry.
翻訳日:2021-11-25 14:40:07 公開日:2021-11-23
# MICS : 多段階・逆一貫性・対称性深層学習登録ネットワーク

MICS : Multi-steps, Inverse Consistency and Symmetric deep learning registration network ( http://arxiv.org/abs/2111.12123v1 )

ライセンス: Link先を確認
Th\'eo Estienne, Maria Vakalopoulou, Enzo Battistella, Theophraste Henry, Marvin Lerousseau, Amaury Leroy, Nikos Paragios and Eric Deutsch(参考訳) 変形可能な登録は、2つの異なる画像間の最も密接な対応を見つけることからなる。 多くのアルゴリズムが公表されているが、最適化問題を解決するのに必要な高い計算時間によって臨床応用は困難であった。 ディープラーニングは、GPU計算と学習プロセスを活用することで、この制限を克服した。 しかし、多くのディープラーニング手法は古典的アルゴリズムによって尊重される望ましい性質を考慮していない。 本稿では,医療画像登録のための新しい深層学習アルゴリズムであるmicsについて述べる。 登録は不適切な問題であるので、アルゴリズムは逆一貫性、対称性、方向保存という異なる性質に焦点をあてた。 また, 変形格子を洗練し改善するための多段階戦略をアルゴリズムと組み合わせた。 脳MRIでは,多くのアプローチが採用されているが,腹部CTではより困難である。 最後に,learn2regチャレンジで使用したデータセットを用いて評価を行い,公開手法との比較を行った。

Deformable registration consists of finding the best dense correspondence between two different images. Many algorithms have been published, but the clinical application was made difficult by the high calculation time needed to solve the optimisation problem. Deep learning overtook this limitation by taking advantage of GPU calculation and the learning process. However, many deep learning methods do not take into account desirable properties respected by classical algorithms. In this paper, we present MICS, a novel deep learning algorithm for medical imaging registration. As registration is an ill-posed problem, we focused our algorithm on the respect of different properties: inverse consistency, symmetry and orientation conservation. We also combined our algorithm with a multi-step strategy to refine and improve the deformation grid. While many approaches applied registration to brain MRI, we explored a more challenging body localisation: abdominal CT. Finally, we evaluated our method on a dataset used during the Learn2Reg challenge, allowing a fair comparison with published methods.
翻訳日:2021-11-25 14:10:07 公開日:2021-11-23
# ビジュアルコンピューティングのニューラルフィールドとその先

Neural Fields in Visual Computing and Beyond ( http://arxiv.org/abs/2111.11426v2 )

ライセンス: Link先を確認
Yiheng Xie, Towaki Takikawa, Shunsuke Saito, Or Litany, Shiqin Yan, Numair Khan, Federico Tombari, James Tompkin, Vincent Sitzmann, Srinath Sridhar(参考訳) 機械学習の最近の進歩は、空間と時間にまたがるシーンやオブジェクトの物理的特性をパラメータ化する座標ベースのニューラルネットワークを使って、ビジュアルコンピューティング問題を解決することへの関心を高めている。 ニューラルフィールドと呼ばれるこれらの手法は、3次元形状と画像の合成、人体のアニメーション、3次元再構成、ポーズ推定に成功している。 しかし、短期間の急速な進展により、多くの論文が存在するが、この問題の総合的なレビューと定式化はまだ現れていない。 本報告では, 文脈, 数学的基礎, およびニューラルネットワークに関する文献の広範なレビューを提供することにより, この限界に対処する。 この報告は2次元の研究を扱っている。 パートIでは、異なる表現、アーキテクチャ、前方マッピング、一般化メソッドを含む、ニューラルネットワークメソッドの共通コンポーネントを識別することで、ニューラルネットワークのテクニックに焦点を当てる。 パートiiでは、視覚コンピューティングのさまざまな問題(ロボティクス、オーディオなど)に対するニューラルフィールドの応用に焦点を当てます。 本レビューでは,視覚コンピューティングにすでに取り組まれているトピックの多様さを概観し,ニューラルフィールド法によってもたらされる品質,柔軟性,能力の向上を実証する。 最後に、コミュニティによって継続的に更新されるこのレビューの生きたバージョンをコントリビュートするWebサイトを紹介する。

Recent advances in machine learning have created increasing interest in solving visual computing problems using a class of coordinate-based neural networks that parametrize physical properties of scenes or objects across space and time. These methods, which we call neural fields, have seen successful application in the synthesis of 3D shapes and image, animation of human bodies, 3D reconstruction, and pose estimation. However, due to rapid progress in a short time, many papers exist but a comprehensive review and formulation of the problem has not yet emerged. In this report, we address this limitation by providing context, mathematical grounding, and an extensive review of literature on neural fields. This report covers research along two dimensions. In Part I, we focus on techniques in neural fields by identifying common components of neural field methods, including different representations, architectures, forward mapping, and generalization methods. In Part II, we focus on applications of neural fields to different problems in visual computing, and beyond (e.g., robotics, audio). Our review shows the breadth of topics already covered in visual computing, both historically and in current incarnations, demonstrating the improved quality, flexibility, and capability brought by neural fields methods. Finally, we present a companion website that contributes a living version of this review that can be continually updated by the community.
翻訳日:2021-11-25 12:30:02 公開日:2021-11-23
# stylepart: 画像ベースの形状部分操作

StylePart: Image-based Shape Part Manipulation ( http://arxiv.org/abs/2111.10520v2 )

ライセンス: Link先を確認
I-Chao Shen, Li-Wen Su, Yu-Ting Wu, Bing-Yu Chen(参考訳) イメージベースの「パーツコントローラ」が欠如しているため、椅子の背もたれを縮小したりカップハンドルを交換したりといった人造形状画像の形状操作は直感的ではない。 そこで本稿では,画像と3次元形状の生成モデルを利用して,画像の直接形状操作を可能にするフレームワークstylepartを提案する。 我々の重要な貢献は、画像生成潜時空間と3次元人造形状属性潜時空間を接続する形状一貫性潜時写像関数である。 本手法は, 形状部を容易に操作できる3次元形状属性に対して, 画像内容を「フォワードマップ」する。 そして、操作された3D形状の属性コードを画像潜在コードに「後方マッピング」して最終操作画像を得る。 提案手法は,部分置換,部分リサイズ,視点操作など様々な操作タスクを通じて実証し,広範なアブレーション研究を通じてその効果を評価する。

Due to a lack of image-based "part controllers", shape manipulation of man-made shape images, such as resizing the backrest of a chair or replacing a cup handle is not intuitive. To tackle this problem, we present StylePart, a framework that enables direct shape manipulation of an image by leveraging generative models of both images and 3D shapes. Our key contribution is a shape-consistent latent mapping function that connects the image generative latent space and the 3D man-made shape attribute latent space. Our method "forwardly maps" the image content to its corresponding 3D shape attributes, where the shape part can be easily manipulated. The attribute codes of the manipulated 3D shape are then "backwardly mapped" to the image latent code to obtain the final manipulated image. We demonstrate our approach through various manipulation tasks, including part replacement, part resizing, and viewpoint manipulation, and evaluate its effectiveness through extensive ablation studies.
翻訳日:2021-11-25 12:29:40 公開日:2021-11-23
# (参考訳) PDDL+の論理的意味論 [全文訳有]

A Logical Semantics for PDDL+ ( http://arxiv.org/abs/2111.11588v1 )

ライセンス: CC BY 4.0
Vitaliy Batusov, Mikhail Soutchanski(参考訳) PDDL+はPDDL2.1の拡張であり、完全な機能を持つ自律プロセスを導入し、混合した離散連続ドメインのモデリングを改善する。 PDDL2.1とは異なり、PDDL+は論理的意味論を欠き、代わりに連続状態に対するハイブリッド自動意味論に富んだ状態遷移意味論に依存する。 この複雑な意味論は、分析と他のアクション形式との比較を困難にする。 本稿では,ハイブリッドオートマトンに触発されたレイターの状況計算理論の自然な拡張を提案する。 PDDL+とハイブリッドオートマトンとの親和性により、PDDL+と状況計算との直接マッピングが開発され、PDDL+に論理的意味論と状況計算に自律的なプロセスを表現する現代的な方法が提供される。 我々は,pddl+の効果的な計画への新しいアプローチを提案することにより,マッピングの潜在的メリットを概説する。

PDDL+ is an extension of PDDL2.1 which incorporates fully-featured autonomous processes and allows for better modelling of mixed discrete-continuous domains. Unlike PDDL2.1, PDDL+ lacks a logical semantics, relying instead on state-transitional semantics enriched with hybrid automata semantics for the continuous states. This complex semantics makes analysis and comparisons to other action formalisms difficult. In this paper, we propose a natural extension of Reiter's situation calculus theories inspired by hybrid automata. The kinship between PDDL+ and hybrid automata allows us to develop a direct mapping between PDDL+ and situation calculus, thereby supplying PDDL+ with a logical semantics and the situation calculus with a modern way of representing autonomous processes. We outline the potential benefits of the mapping by suggesting a new approach to effective planning in PDDL+.
翻訳日:2021-11-25 05:46:38 公開日:2021-11-23
# (参考訳) タコノミクスラベルを用いた半教師付き学習 [全文訳有]

Semi-Supervised Learning with Taxonomic Labels ( http://arxiv.org/abs/2111.11595v1 )

ライセンス: CC BY 4.0
Jong-Chyi Su and Subhransu Maji(参考訳) 細粒度領域で画像分類器を訓練するための粗い分類ラベルを組み込む手法を提案する。 このようなラベルは、生物分類に基づいて分類が組織される自然界のような細粒度ドメインに対して、より小さな努力で得られることが多い。 3つの王国にまたがる810種からなるSemi-iNatデータセットでは、ImageNet事前学習モデルを用いて、種レベルの分類精度を6%向上させる。 FixMatchと呼ばれる最先端の半教師付き学習アルゴリズムで階層ラベル構造を組み込むことで、パフォーマンスがさらに1.3%向上する。 クラスや順序などの詳細なラベルが提供されたり、モデルをスクラッチからトレーニングした場合には、相対的なゲインが大きくなる。 しかし、ほとんどの手法は、新しいクラスのドメイン外データの存在に対して堅牢ではない。 本稿では,階層構造に導かれる未ラベル画像の集合から,ロバスト性を改善するための関連データを選択する手法を提案する。 本実験は, 分類器を微粒化領域で訓練するために, 粗い分類ラベルを用いた半教師付き学習が実用的であることを示す。

We propose techniques to incorporate coarse taxonomic labels to train image classifiers in fine-grained domains. Such labels can often be obtained with a smaller effort for fine-grained domains such as the natural world where categories are organized according to a biological taxonomy. On the Semi-iNat dataset consisting of 810 species across three Kingdoms, incorporating Phylum labels improves the Species level classification accuracy by 6% in a transfer learning setting using ImageNet pre-trained models. Incorporating the hierarchical label structure with a state-of-the-art semi-supervised learning algorithm called FixMatch improves the performance further by 1.3%. The relative gains are larger when detailed labels such as Class or Order are provided, or when models are trained from scratch. However, we find that most methods are not robust to the presence of out-of-domain data from novel classes. We propose a technique to select relevant data from a large collection of unlabeled images guided by the hierarchy which improves the robustness. Overall, our experiments show that semi-supervised learning with coarse taxonomic labels are practical for training classifiers in fine-grained domains.
翻訳日:2021-11-25 05:18:51 公開日:2021-11-23
# (参考訳) PointCrack3D: 3D-Point-Cloud-based Deep Neural Network を用いた非構造環境におけるき裂検出 [全文訳有]

PointCrack3D: Crack Detection in Unstructured Environments using a 3D-Point-Cloud-Based Deep Neural Network ( http://arxiv.org/abs/2111.11615v1 )

ライセンス: CC BY 4.0
Faris Azhari and Charlotte Sennersten and Michael Milford and Thierry Peynot(参考訳) 建物や自然の壁、地雷トンネルの表面のひび割れは、構造物や環境の安全性を脅かす深刻な構造的完全性の問題を示している。 ひび割れのタイムリーな検出と監視は、特にシステムがロボットによって高度に自動化される場合、これらのリスクを管理する上で重要である。 深層ニューラルネットワークを用いた視覚ベースのき裂検出アルゴリズムは、壁や土木トンネルなどの構造面を約束しているが、岩の崖や裸の鉱山トンネルのような非構造環境に対処する研究はほとんどない。 そこで本稿では,非構造面に対する新たな3dポイントクラウドクラック検出アルゴリズムであるpointcrack3dを提案する。 十分なき裂点密度を維持する適応的なダウンサンプリング法と、各点をき裂点または非き裂点として分類するDNNと、き裂点をき裂点に分類する後処理クラスタリング法とからなる。 この方法は,900 m^2以上および412個の亀裂にまたがる色付きLIDAR点雲からなる,新しい大きな天然岩のデータセットを用いて実験的に検証した。 その結果, ひび割れ検出率は総じて97%, ひび割れ検出率は100%であり, 最大幅が3cm以上であった。 さらに、クロスバリデーションのために、pointcrack3dは異なる場所で取得された全く新しいデータセットに適用され、トレーニングには全く使われず、そのクラックインスタンスの100%を検出できた。 また, 検出性能, ひび割れ幅, ひび割れ当たり点数との関係を特徴付けるとともに, 実用的展開と今後の研究方向性の両面での意思決定の基盤となる。

Surface cracks on buildings, natural walls and underground mine tunnels can indicate serious structural integrity issues that threaten the safety of the structure and people in the environment. Timely detection and monitoring of cracks are crucial to managing these risks, especially if the systems can be made highly automated through robots. Vision-based crack detection algorithms using deep neural networks have exhibited promise for structured surfaces such as walls or civil engineering tunnels, but little work has addressed highly unstructured environments such as rock cliffs and bare mining tunnels. To address this challenge, this paper presents PointCrack3D, a new 3D-point-cloud-based crack detection algorithm for unstructured surfaces. The method comprises three key components: an adaptive down-sampling method that maintains sufficient crack point density, a DNN that classifies each point as crack or non-crack, and a post-processing clustering method that groups crack points into crack instances. The method was validated experimentally on a new large natural rock dataset, comprising coloured LIDAR point clouds spanning more than 900 m^2 and 412 individual cracks. Results demonstrate a crack detection rate of 97% overall and 100% for cracks with a maximum width of more than 3 cm, significantly outperforming the state of the art. Furthermore, for cross-validation, PointCrack3D was applied to an entirely new dataset acquired in different locations and not used at all in training and shown to detect 100% of its crack instances. We also characterise the relationship between detection performance, crack width and number of points per crack, providing a foundation upon which to make decisions about both practical deployments and future research directions.
翻訳日:2021-11-25 05:06:52 公開日:2021-11-23
# (参考訳) ミックスアップを正規化として使用し、ResNetのハイパーパラメータをチューニングする [全文訳有]

Using mixup as regularization and tuning hyper-parameters for ResNets ( http://arxiv.org/abs/2111.11616v1 )

ライセンス: CC BY 4.0
Venkata Bhanu Teja Pallakonda(参考訳) 新たなコンピュータビジョンアーキテクチャが注目を集めている一方で、モデルアーキテクチャの影響は、しばしば変化やトレーニング方法の探求に関連している。 アイデンティティマッピングベースのアーキテクチャ ResNetsとDenseNetsは、イメージ分類タスクにおいてパスブレーキングの結果を約束しており、与えられたデータがかなり制限されている場合でも、現在ゴーツーメソッドである。 限られたリソースによるトレーニングの容易さを考えると、この作業はresnetsを再検討し、mixup data-augmentationを正規化し、ハイパーパラメータをチューニングすることでresnet50 \cite{resnets}を改善します。

While novel computer vision architectures are gaining traction, the impact of model architectures is often related to changes or exploring in training methods. Identity mapping-based architectures ResNets and DenseNets have promised path-breaking results in the image classification task and are go-to methods for even now if the data given is fairly limited. Considering the ease of training with limited resources this work revisits the ResNets and improves the ResNet50 \cite{resnets} by using mixup data-augmentation as regularization and tuning the hyper-parameters.
翻訳日:2021-11-25 04:36:05 公開日:2021-11-23
# (参考訳) 変形可能な物体追跡のための動的コンパクトメモリ埋め込みの学習 [全文訳有]

Learning Dynamic Compact Memory Embedding for Deformable Visual Object Tracking ( http://arxiv.org/abs/2111.11625v1 )

ライセンス: CC BY 4.0
Pengfei Zhu, Hongtao Yu, Kaihua Zhang, Yu Wang, Shuai Zhao, Lei Wang, Tianzhu Zhang, Qinghua Hu(参考訳) 近年、テンプレートベースのトラッカーが、効率と精度の面で有望な性能を持つ主要なトラッキングアルゴリズムとなっている。 しかし、クエリ特徴と与えられたテンプレートとの相関操作は、正確なターゲット位置決めしか利用せず、特にターゲットが激しい変形に苦しむ場合、状態推定誤差が発生する。 この問題に対処するために、画素単位のマッチングを用いて変形可能なオブジェクトのトラッキング性能を向上させるセグメンテーションベースのトラッカーが提案されている。 しかし、既存のトラッカーのほとんどは初期フレームのターゲット機能のみを参照しており、例えば、類似のトラッカー、背景の乱れ、外観の変化など、困難な要因を扱うための識別能力が欠如している。 そこで本研究では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,動的メモリ埋め込みを提案する。 具体的には、第1フレームにターゲット特徴を組み込んだメモリを初期化する。 トラッキングプロセス中、既存のメモリとの相関性の高い現在のターゲット機能が更新され、オンラインに埋め込まれる。 変形可能なオブジェクトのセグメンテーション精度をさらに向上するため,我々は,画素単位のクエリ特徴とテンプレート全体の相関を測定するためのポイント・ツー・グローバルマッチング戦略を用いて,より詳細な変形情報を取得する。 VOT2016, VOT2018, VOT2019, GOT-10K, TrackingNet, LaSOTを含む6つのトラッカーベンチマークの大規模な評価は、最近の顕著なトラッカーよりも、我々の手法の優位性を実証している。 DAVIS2017ベンチマークではD3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。

Recently, template-based trackers have become the leading tracking algorithms with promising performance in terms of efficiency and accuracy. However, the correlation operation between query feature and the given template only exploits accurate target localization, leading to state estimation error especially when the target suffers from severe deformable variations. To address this issue, segmentation-based trackers have been proposed that employ per-pixel matching to improve the tracking performance of deformable objects effectively. However, most of existing trackers only refer to the target features in the initial frame, thereby lacking the discriminative capacity to handle challenging factors, e.g., similar distractors, background clutter, appearance change, etc. To this end, we propose a dynamic compact memory embedding to enhance the discrimination of the segmentation-based deformable visual tracking method. Specifically, we initialize a memory embedding with the target features in the first frame. During the tracking process, the current target features that have high correlation with existing memory are updated to the memory embedding online. To further improve the segmentation accuracy for deformable objects, we employ a point-to-global matching strategy to measure the correlation between the pixel-wise query features and the whole template, so as to capture more detailed deformation information. Extensive evaluations on six challenging tracking benchmarks including VOT2016, VOT2018, VOT2019, GOT-10K, TrackingNet, and LaSOT demonstrate the superiority of our method over recent remarkable trackers. Besides, our method outperforms the excellent segmentation-based trackers, i.e., D3S and SiamMask on DAVIS2017 benchmark.
翻訳日:2021-11-25 04:31:33 公開日:2021-11-23
# (参考訳) エゴセントリック映像活動予測のための自己制御学習 [全文訳有]

Self-Regulated Learning for Egocentric Video Activity Anticipation ( http://arxiv.org/abs/2111.11631v1 )

ライセンス: CC BY 4.0
Zhaobo Qi, Shuhui Wang, Chi Su, Li Su, Qingming Huang, and Qi Tian(参考訳) 将来の活動予測は、自我中心のビジョンにおいて難しい問題である。 標準的な将来の活動予測パラダイムとして、再帰的シーケンス予測はエラーの蓄積に悩まされる。 この問題に対処するために,中間表現を連続的に制御して表現を生成する,シンプルで効果的な自己制御学習フレームワークを提案する。 (a)従来観察された内容とは対照的に、現在のタイムスタンプの枠内で新たな情報を強調する。 b) 前述したフレームとの相関を反映する。 前者は、コントラスト損失を最小化することにより達成され、後者は、現在のフレームと観測されたフレームの特徴との類似性比較とともに、観察されたコンテンツのインフォメーションフレームに出席するダイナミックリウィーフィング機構によって達成される。 学習された最終映像表現は、ターゲットのアクティビティラベルと自動検出されたアクションおよびオブジェクトクラストークンで共同特徴学習を行うマルチタスク学習によりさらに強化することができる。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。 その効果は、アクティビティセマンティクスをサポートするアクションとオブジェクトの概念を正確に識別できるという実験的事実によっても検証される。

Future activity anticipation is a challenging problem in egocentric vision. As a standard future activity anticipation paradigm, recursive sequence prediction suffers from the accumulation of errors. To address this problem, we propose a simple and effective Self-Regulated Learning framework, which aims to regulate the intermediate representation consecutively to produce representation that (a) emphasizes the novel information in the frame of the current time-stamp in contrast to previously observed content, and (b) reflects its correlation with previously observed frames. The former is achieved by minimizing a contrastive loss, and the latter can be achieved by a dynamic reweighing mechanism to attend to informative frames in the observed content with a similarity comparison between feature of the current frame and observed frames. The learned final video representation can be further enhanced by multi-task learning which performs joint feature learning on the target activity labels and the automatically detected action and object class tokens. SRL sharply outperforms existing state-of-the-art in most cases on two egocentric video datasets and two third-person video datasets. Its effectiveness is also verified by the experimental fact that the action and object concepts that support the activity semantics can be accurately identified.
翻訳日:2021-11-25 04:02:36 公開日:2021-11-23
# (参考訳) CytoImageNet: バイオ画像伝達学習のための大規模事前学習データセット [全文訳有]

CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning ( http://arxiv.org/abs/2111.11646v1 )

ライセンス: CC BY 4.0
Stanley Bryan Z. Hua, Alex X. Lu, Alan M. Moses(参考訳) モチベーション: 近年、画像ベースの生物学的アッセイが着実に普及し、何十万もの画像から生物学的に意味のある情報を抽出するための高速自動化手法の必要性が高まっている。 ImageNetの成功からインスピレーションを得て、オープンソースおよび弱ラベルの顕微鏡画像(890Kイメージ、894クラス)の大規模データセットであるCytoImageNetをキュレートする。 CytoImageNetの事前トレーニングは、下流の顕微鏡分類タスクでImageNet機能と競合する機能を提供する。 我々は,CytoImageNetがImageNetで訓練された機能では利用できない情報をキャプチャーする証拠を示す。 データセットは \url{https://www.kaggle.c om/stanleyhua/cytoim agenet} で利用可能である。

Motivation: In recent years, image-based biological assays have steadily become high-throughput, sparking a need for fast automated methods to extract biologically-meaning ful information from hundreds of thousands of images. Taking inspiration from the success of ImageNet, we curate CytoImageNet, a large-scale dataset of openly-sourced and weakly-labeled microscopy images (890K images, 894 classes). Pretraining on CytoImageNet yields features that are competitive to ImageNet features on downstream microscopy classification tasks. We show evidence that CytoImageNet features capture information not available in ImageNet-trained features. The dataset is made available at \url{https://www.kaggle.c om/stanleyhua/cytoim agenet}.
翻訳日:2021-11-25 03:30:20 公開日:2021-11-23
# (参考訳) CoDiM:Contrastive Semi-Supervised Learningによるノイズラベルによる学習 [全文訳有]

CoDiM: Learning with Noisy Labels via Contrastive Semi-Supervised Learning ( http://arxiv.org/abs/2111.11652v1 )

ライセンス: CC BY 4.0
Xin Zhang, Zixuan Liu, Kaiwen Xiao, Tian Shen, Junzhou Huang, Wei Yang, Dimitris Samaras, Xiao Han(参考訳) ラベルは費用がかかり、時には信頼できない。 雑音を伴うラベル学習、半教師付き学習、コントラスト学習は、アノテーションコストの少ない学習プロセスを設計するための3つの異なる戦略である。 半教師付き学習とコントラスト学習は、最近、ノイズラベル付きデータセットに対処する学習戦略を改善するために実証されている。 それでも、これらのフィールド間の内部接続と、それらの強みを結合するポテンシャルは、わずかに現れ始めた。 本稿では,これらを融合する方法と利点について検討する。 具体的には,コントラスト半教師付き学習アルゴリズムであるcsslと,ノイズラベルを用いた新しい学習アルゴリズムであるcodim(contrastive dividemix)を提案する。 CSSLは、古典的な半教師付き学習技術とコントラスト学習技術の力を活用し、複数のタイプのラベルノイズから堅牢に学習するCoDiMにさらに適応している。 我々はCoDiMが一貫した改善をもたらし、複数のベンチマークで最先端の結果を得ることを示す。

Labels are costly and sometimes unreliable. Noisy label learning, semi-supervised learning, and contrastive learning are three different strategies for designing learning processes requiring less annotation cost. Semi-supervised learning and contrastive learning have been recently demonstrated to improve learning strategies that address datasets with noisy labels. Still, the inner connections between these fields as well as the potential to combine their strengths together have only started to emerge. In this paper, we explore further ways and advantages to fuse them. Specifically, we propose CSSL, a unified Contrastive Semi-Supervised Learning algorithm, and CoDiM (Contrastive DivideMix), a novel algorithm for learning with noisy labels. CSSL leverages the power of classical semi-supervised learning and contrastive learning technologies and is further adapted to CoDiM, which learns robustly from multiple types and levels of label noise. We show that CoDiM brings consistent improvements and achieves state-of-the-art results on multiple benchmarks.
翻訳日:2021-11-25 03:18:48 公開日:2021-11-23
# (参考訳) 非トリミング映像解析のための動的時間概念受容場モデリング [全文訳有]

Modeling Temporal Concept Receptive Field Dynamically for Untrimmed Video Analysis ( http://arxiv.org/abs/2111.11653v1 )

ライセンス: CC BY 4.0
Zhaobo Qi, Shuhui Wang, Chi Su, Li Su, Weigang Zhang, Qingming Huang(参考訳) 未トリミングビデオにおけるイベント分析は,CNNなどの最先端技術の適用により注目されている。 CNNモデルに対するよく研究された特性として、受容場は単一の特徴応答によってカバーされる空間範囲を測定するための測定であり、画像分類精度の向上に不可欠である。 ビデオ領域では、ビデオイベントセマンティクスは実際には異なるコンセプト間の複雑なインタラクションによって記述されるが、その動作はビデオによって大きく異なり、正確なイベント分類のための概念ベースの分析が困難になる。 概念の振る舞いをモデル化するために、概念に基づくイベント表現の時間的概念受容領域について検討し、異なる中間概念の時間的発生パターンを符号化する。 したがって、時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。 TDCは、異なる入力に応じて時間的概念受容フィールドサイズを動的に調整することができる。 特に、係数の集合は、様々な時間的概念受容場サイズを提供する異なるカーネル幅の複数の畳み込みの結果を融合するために学習される。 異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成し、重要な概念を強調する。 本稿では,TDCに基づく時間動的概念モデリングネットワーク(TDCMN)を提案する。 FCVIDとActivityNetの実験結果から、TDCMNは異なる入力に対して適応的なイベント認識能力を示し、概念に基づく手法のイベント認識性能を大幅に向上することを示した。 コードはhttps://github.com/q zhb/TDCMNで入手できる。

Event analysis in untrimmed videos has attracted increasing attention due to the application of cutting-edge techniques such as CNN. As a well studied property for CNN-based models, the receptive field is a measurement for measuring the spatial range covered by a single feature response, which is crucial in improving the image categorization accuracy. In video domain, video event semantics are actually described by complex interaction among different concepts, while their behaviors vary drastically from one video to another, leading to the difficulty in concept-based analytics for accurate event categorization. To model the concept behavior, we study temporal concept receptive field of concept-based event representation, which encodes the temporal occurrence pattern of different mid-level concepts. Accordingly, we introduce temporal dynamic convolution (TDC) to give stronger flexibility to concept-based event analytics. TDC can adjust the temporal concept receptive field size dynamically according to different inputs. Notably, a set of coefficients are learned to fuse the results of multiple convolutions with different kernel widths that provide various temporal concept receptive field sizes. Different coefficients can generate appropriate and accurate temporal concept receptive field size according to input videos and highlight crucial concepts. Based on TDC, we propose the temporal dynamic concept modeling network (TDCMN) to learn an accurate and complete concept representation for efficient untrimmed video analysis. Experiment results on FCVID and ActivityNet show that TDCMN demonstrates adaptive event recognition ability conditioned on different inputs, and improve the event recognition performance of Concept-based methods by a large margin. Code is available at https://github.com/q zhb/TDCMN.
翻訳日:2021-11-25 02:52:20 公開日:2021-11-23
# (参考訳) ラジオギャラクシー分類における重み付けと不確かさ [全文訳有]

Weight Pruning and Uncertainty in Radio Galaxy Classification ( http://arxiv.org/abs/2111.11654v1 )

ライセンス: CC BY 4.0
Devina Mohan, Anna Scaife(参考訳) 本研究では,電波銀河分類のモデル予測における疫学的不確実性の程度を変動推論を用いて定量化し,個々の実験試料のモデル後部変動のレベルが,電波銀河をラベル付けする際の人間の不確実性と相関していることを示す。 種々の重み事前のモデル性能と不確実性校正について検討し、スパース事前がよりよく校正された不確実性推定を生成することを示唆する。 個々の重みに対する後部分布を用いて、信号対雑音比(SNR)のランク付けにより、完全連結層を30\%のレベルまでプルーニングすることが可能であり、このプルーニングがモデルにおける予測不確実性を増大させることを示す。 最後に、この分野の他の研究と同様に、冷たい後部効果を経験していることを示します。 モデルの不特定性に対応するために,モデルにコスト関数を適用することで,この効果を補うことができるか検討するが,大きな違いは得られない。 また、原則データ拡張の効果を検証し、ベースラインに対して改善するが、観測した効果を完全に補償しないことを示す。 我々はこれを、トレーニングサンプルが過度に効果的にキュレーションされ、誤った分類につながることによる寒冷後効果と解釈し、将来ベイズ深層学習による電波銀河分類の潜在的な問題として提起する。

In this work we use variational inference to quantify the degree of epistemic uncertainty in model predictions of radio galaxy classification and show that the level of model posterior variance for individual test samples is correlated with human uncertainty when labelling radio galaxies. We explore the model performance and uncertainty calibration for a variety of different weight priors and suggest that a sparse prior produces more well-calibrated uncertainty estimates. Using the posterior distributions for individual weights, we show that signal-to-noise ratio (SNR) ranking allows pruning of the fully-connected layers to the level of 30\% without significant loss of performance, and that this pruning increases the predictive uncertainty in the model. Finally we show that, like other work in this field, we experience a cold posterior effect. We examine whether adapting the cost function in our model to accommodate model misspecification can compensate for this effect, but find that it does not make a significant difference. We also examine the effect of principled data augmentation and find that it improves upon the baseline but does not compensate for the observed effect fully. We interpret this as the cold posterior effect being due to the overly effective curation of our training sample leading to likelihood misspecification, and raise this as a potential issue for Bayesian deep learning approaches to radio galaxy classification in future.
翻訳日:2021-11-25 02:38:27 公開日:2021-11-23
# (参考訳) アソシエーションとDiscriminationによるFew-Shotオブジェクト検出 [全文訳有]

Few-Shot Object Detection via Association and DIscrimination ( http://arxiv.org/abs/2111.11656v1 )

ライセンス: CC BY 4.0
Yuhang Cao, Jiaqi Wang, Ying Jin, Tong Wu, Kai Chen, Ziwei Liu, Dahua Lin(参考訳) オブジェクト検出は過去10年で大幅に進歩しました。 しかし,少ないサンプルしか持たない新しいクラスの検出は困難であり,低データ構造下での深層学習は特徴空間の劣化につながることが多い。 既存の作業では、この問題に対処するために全体論的微調整パラダイムを採用しており、まずモデルが豊富なサンプルを持つ全てのベースクラスで事前訓練され、次に新しいクラス特徴空間を彫るために使用される。 それでも、このパラダイムはまだ不完全です。 微調整の間、新しいクラスは、複数の基底クラスの知識を暗黙的に活用して特徴空間を構築し、それが分散した特徴空間を誘導し、クラス間の分離性を侵害する。 これらの障害を克服するために,2段階の微調整フレームワークであるFADI(Few-shot Object Detection via Association and DIscrimination)を提案する。 1) 複数の基本クラスを暗黙的に活用するのとは対照的に,特定の基本クラス特徴空間を明示的に模倣することで,コンパクトな新規クラス特徴空間を構築する。 具体的には、各新規クラスをそれらの意味的類似性に応じてベースクラスに関連付ける。 その後、新しいクラスの特徴空間は、関連する基底クラスのよく訓練された特徴空間を簡単に模倣することができる。 2) 識別段階において, 新規クラスと関連する基本クラスとの分離性を確保するため, 基本クラスと新規クラスの分類区分を分離する。 すべてのクラス間のクラス間分離性をさらに拡大するため、セット特化マージン損失が課される。 Pascal VOCとMS-COCOデータセットの大規模な実験により、FADIは新しいSOTA性能を実現し、ショット/スプリットのベースラインを+18.7で大幅に改善した。 特筆すべきは、非常に少ないシナリオで最も利点が発表されることだ。

Object detection has achieved substantial progress in the last decade. However, detecting novel classes with only few samples remains challenging, since deep learning under low data regime usually leads to a degraded feature space. Existing works employ a holistic fine-tuning paradigm to tackle this problem, where the model is first pre-trained on all base classes with abundant samples, and then it is used to carve the novel class feature space. Nonetheless, this paradigm is still imperfect. Durning fine-tuning, a novel class may implicitly leverage the knowledge of multiple base classes to construct its feature space, which induces a scattered feature space, hence violating the inter-class separability. To overcome these obstacles, we propose a two-step fine-tuning framework, Few-shot object detection via Association and DIscrimination (FADI), which builds up a discriminative feature space for each novel class with two integral steps. 1) In the association step, in contrast to implicitly leveraging multiple base classes, we construct a compact novel class feature space via explicitly imitating a specific base class feature space. Specifically, we associate each novel class with a base class according to their semantic similarity. After that, the feature space of a novel class can readily imitate the well-trained feature space of the associated base class. 2) In the discrimination step, to ensure the separability between the novel classes and associated base classes, we disentangle the classification branches for base and novel classes. To further enlarge the inter-class separability between all classes, a set-specialized margin loss is imposed. Extensive experiments on Pascal VOC and MS-COCO datasets demonstrate FADI achieves new SOTA performance, significantly improving the baseline in any shot/split by +18.7. Notably, the advantage is most announced on extremely few-shot scenarios.
翻訳日:2021-11-25 02:28:46 公開日:2021-11-23
# (参考訳) 網膜血管解析のためのRETAベンチマーク [全文訳有]

The RETA Benchmark for Retinal Vascular Tree Analysis ( http://arxiv.org/abs/2111.11658v1 )

ライセンス: CC BY 4.0
Xingzheng Lyu, Li Cheng, Sanyuan Zhang(参考訳) 網膜血管のトポロジカルおよび幾何学的解析は、多くの共通疾患の早期発見に費用対効果がある。 一方, 血管分割の自動化と血管木解析は, 一般化能力の面ではまだ欠落している。 本研究では,網膜血管解析を容易にするために,81個のラベル付き容器マスクを用いた新しいベンチマークRETAを構築した。 容器画素のアノテートには半自動粗いワークフローが提案されている。 データセット構築において,多段階アノテーションとラベルの曖昧さを自己開発専用ソフトウェア上で実行することにより,アノテーション間の変動とアノテーション内変動を制御しようと試みた。 2種類の血管マスクに加えて,動脈・静脈マスク,血管骨格,分岐,木および血管ラベル中の異常を含む血管アノテーションも得られた。 ラベル付き容器マスクの主観的および客観的品質検証は、他の公開データセットよりも大幅に改善されている。 アノテーションソフトウェアは、コンテナアノテーションの可視化にも利用できる。 ユーザは、血管セグメンテーションアルゴリズムを開発し、データセットで血管セグメンテーション性能を評価することができます。 さらに,我々のデータセットは管状構造セグメンテーションの優れた研究源となるかもしれない。

Topological and geometrical analysis of retinal blood vessel is a cost-effective way for early detection of many common diseases. Meanwhile, automated vessel segmentation and vascular tree analysis are still lacking in terms of generalization capability. In this work, we construct a novel benchmark RETA with 81 labeled vessel masks aiming to facilitate retinal vessel analysis. A semi-automated coarse-to-fine workflow is proposed to annotating vessel pixels. During dataset construction, we strived to control inter-annotator variability and intra-annotator variability by performing multi-stage annotation and label disambiguation on self-developed dedicated software. In addition to binary vessel masks, we obtained vessel annotations containing artery/vein masks, vascular skeletons, bifurcations, trees and abnormalities during vessel labelling. Both subjective and objective quality validation of labeled vessel masks have demonstrated significant improved quality over other publicly datasets. The annotation software is also made publicly available for vessel annotation visualization. Users could develop vessel segmentation algorithms or evaluate vessel segmentation performance with our dataset. Moreover, our dataset might be a good research source for cross-modality tubular structure segmentation.
翻訳日:2021-11-25 02:10:44 公開日:2021-11-23
# (参考訳) 計算流体力学とディープラーニングを用いた大動脈弁閉鎖不全症の非侵襲的血行動態解析 [全文訳有]

Non-invasive hemodynamic analysis for aortic regurgitation using computational fluid dynamics and deep learning ( http://arxiv.org/abs/2111.11660v1 )

ライセンス: CC BY 4.0
Derek Long, Cameron McMurdo, Edward Ferdian, Charlene Mauger(参考訳) 心血管血行動態の変化は、弁膜性心疾患の一種である大動脈逆流(AR)の発生と密接に関連している。 血流に由来する圧力勾配はar発症を示し、その重症度を評価するために用いられる。 これらの測定値は主に空間分解能に依存する4次元(4d)流磁気共鳴イメージング(mri)を用いて非侵襲的に得ることができる。 しかし、解像度の不足はしばしば4dフローmriと複雑なar血行動態の限界から生じる。 これを解決するために、計算流体力学シミュレーションを合成4次元フローMRIデータに変換し、様々なニューラルネットワークのトレーニングに使用した。 これらのネットワークは4.4倍の高分解能フルフィールド位相画像を生成する。 その結果, 速度誤差の低減, 構造的類似度が高く, 学習能力も向上した。 2セットのin-vivo 4D Flow MRIデータに対してさらなる検証を行い, ノイズ除去に成功した。 このアプローチは、非侵襲的な方法でar血行動態を包括的に分析する機会を提供する。

Changes in cardiovascular hemodynamics are closely related to the development of aortic regurgitation (AR), a type of valvular heart disease. Pressure gradients derived from blood flows are used to indicate AR onset and evaluate its severity. These metrics can be non-invasively obtained using four-dimensional (4D) flow magnetic resonance imaging (MRI), where accuracy is primarily dependent on spatial resolution. However, insufficient resolution often results from limitations in 4D flow MRI and complex AR hemodynamics. To address this, computational fluid dynamics simulations were transformed into synthetic 4D flow MRI data and used to train a variety of neural networks. These networks generated super resolution, full-field phase images with an upsample factor of 4. Results showed decreased velocity error, high structural similarity scores, and improved learning capabilities from previous work. Further validation was performed on two sets of in-vivo 4D flow MRI data and demonstrated success in de-noising flow images. This approach presents an opportunity to comprehensively analyse AR hemodynamics in a non-invasive manner.
翻訳日:2021-11-25 01:57:42 公開日:2021-11-23
# (参考訳) RIO:頑健な慣性オードメトリーの回転等価性制御学習 [全文訳有]

RIO: Rotation-equivarianc e supervised learning of robust inertial odometry ( http://arxiv.org/abs/2111.11676v1 )

ライセンス: CC0 1.0
Caifa Zhou, Xiya Cao, Dandan Zeng, Yongliang Wang(参考訳) 本稿では,慣性オドメトリモデルを学習するための自己スーパーバイザとして回転同分散を導入する。 自己教師型スキームは、トレーニング段階でも推論段階でも強力な監視信号を提供することを示した。 堅牢なモデルをトレーニングするための大量のラベル付きデータへの依存を低減し、さまざまなラベル付きデータを使用してモデルを更新可能にする。 さらに,未確認データに対する慣性計測の一般化性を高めるため,不確実性推定に基づく適応型テストタイムトレーニング(TTT)を提案する。 実験では、30%のデータでトレーニングされた回転等分散制御慣性オドメトリー(RIO)が、データベース全体をトレーニングしたモデルを用いて、パーパフォーマンスで達成されることを示す。 Adaptive TTTはすべてのケースでモデルのパフォーマンスを改善し、いくつかのシナリオで25%以上改善する。

This paper introduces rotation-equivarianc e as a self-supervisor to train inertial odometry models. We demonstrate that the self-supervised scheme provides a powerful supervisory signal at training phase as well as at inference stage. It reduces the reliance on massive amounts of labeled data for training a robust model and makes it possible to update the model using various unlabeled data. Further, we propose adaptive Test-Time Training (TTT) based on uncertainty estimations in order to enhance the generalizability of the inertial odometry to various unseen data. We show in experiments that the Rotation-equivarianc e-supervised Inertial Odometry (RIO) trained with 30% data achieves on par performance with a model trained with the whole database. Adaptive TTT improves models performance in all cases and makes more than 25% improvements under several scenarios.
翻訳日:2021-11-25 01:39:10 公開日:2021-11-23
# (参考訳) HybridGazeNet: 視線推定のための幾何モデルガイド付き畳み込みニューラルネットワーク [全文訳有]

HybridGazeNet: Geometric model guided Convolutional Neural Networks for gaze estimation ( http://arxiv.org/abs/2111.11691v1 )

ライセンス: CC BY 4.0
Shaobo Guo, Xiao Jiang, Zhizhong Su, Rui Wu and Xin Wang(参考訳) 人間の意図を理解するための重要な手がかりとして、ヒューマン・コンピュータ・インタラクション(HCI)アプリケーションのための重要な信号を提供する。 近年,畳み込みニューラルネットワーク(ConvNets)アーキテクチャと大規模視線データセットをベースとして,視線ベクトルを直接眼画像から回帰する外観に基づく視線推定が大きな進歩を遂げている。 しかし, モデルに基づく知識をCNNモデルにエンコードして視線推定性能をさらに向上させることは, 検討すべき課題である。 本稿では,幾何学的眼球モデルを外見に基づくCNNアーキテクチャに明示的にエンコードする統合フレームワークであるHybridGazeNet(HGN)を提案する。 マルチブランチネットワークと不確実性モジュールで構成されるHybridGazeNetは、ハイリッド戦略を用いてトレーニングされている。 複数の挑戦的なガゼデータセットの実験では、HybridGazeNetは既存のSOTA手法よりも精度と一般化能力が優れていることが示されている。 コードは後でリリースされる。

As a critical cue for understanding human intention, human gaze provides a key signal for Human-Computer Interaction(HCI) applications. Appearance-based gaze estimation, which directly regresses the gaze vector from eye images, has made great progress recently based on Convolutional Neural Networks(ConvNets) architecture and open-source large-scale gaze datasets. However, encoding model-based knowledge into CNN model to further improve the gaze estimation performance remains a topic that needs to be explored. In this paper, we propose HybridGazeNet(HGN), a unified framework that encodes the geometric eyeball model into the appearance-based CNN architecture explicitly. Composed of a multi-branch network and an uncertainty module, HybridGazeNet is trained using a hyridized strategy. Experiments on multiple challenging gaze datasets shows that HybridGazeNet has better accuracy and generalization ability compared with existing SOTA methods. The code will be released later.
翻訳日:2021-11-25 01:21:34 公開日:2021-11-23
# (参考訳) LASSOによるMARS

MARS via LASSO ( http://arxiv.org/abs/2111.11694v1 )

ライセンス: CC BY 4.0
Dohyeong Ki, Billy Fang, Adityanand Guntuboyina(参考訳) MARSは1991年にフリードマンによって導入された非パラメトリック回帰の一般的な方法である。 MARSは単純な非線形および非付加的な関数を回帰データに適合させる。 我々はMARS法の自然なLASSO変種を提案し,研究する。 本手法は,MARSに基づく関数の無限次元線形結合を考慮し,変動に基づく複雑性制約を課すことにより得られる関数の凸クラスに対する最小二乗推定に基づく。 この推定器は有限次元凸最適化によって計算可能であり、滑らか性制約に基づく非パラメトリック関数推定手法と自然に結びついていることを示す。 簡単な設計の仮定の下で、我々の推定器は次元に対数的にのみ依存する収束率を達成でき、従ってある程度に次元性の通常の呪いを避けることができる。 本手法は,パラメータ選択のためのクロスバリデーション方式を用いて実装し,シミュレーションや実データ設定において通常のMARS法と比較して良好な性能を示す。

MARS is a popular method for nonparametric regression introduced by Friedman in 1991. MARS fits simple nonlinear and non-additive functions to regression data. We propose and study a natural LASSO variant of the MARS method. Our method is based on least squares estimation over a convex class of functions obtained by considering infinite-dimensional linear combinations of functions in the MARS basis and imposing a variation based complexity constraint. We show that our estimator can be computed via finite-dimensional convex optimization and that it is naturally connected to nonparametric function estimation techniques based on smoothness constraints. Under a simple design assumption, we prove that our estimator achieves a rate of convergence that depends only logarithmically on dimension and thus avoids the usual curse of dimensionality to some extent. We implement our method with a cross-validation scheme for the selection of the involved tuning parameter and show that it has favorable performance compared to the usual MARS method in simulation and real data settings.
翻訳日:2021-11-25 01:09:13 公開日:2021-11-23
# (参考訳) 深層学習に基づく浅層水方程式の高速解法 [全文訳有]

Deep learning-based fast solver of the shallow water equations ( http://arxiv.org/abs/2111.11702v1 )

ライセンス: CC BY 4.0
Mojtaba Forghani, Yizhou Qian, Jonghyun Lee, Matthew W. Farthing, Tyler Hesser, Peter K. Kitanidis, and Eric F. Darve(参考訳) 河川流速の高速で信頼性の高い予測は洪水リスク管理を含む多くの応用において重要である。 浅水方程式(SWE)はこの目的のために一般的に用いられる。 しかし、SWEの従来の数値解法は計算に高価であり、高分解能な河床形状測定(bathymetry)を必要とする。 そこで本研究では,まず主成分測地学的アプローチ(PCGA)を用いて,流速測定からバスメータの確率密度関数を推定し,機械学習(ML)アルゴリズムを用いてSWEの高速解法を得る2段階プロセスを提案する。 高速解法は、後部浴量測定分布から実現し、所定の範囲のBCを入力とする。 第1段階では,浴量計を直接測定することなく流速を予測できる。 さらに,2段目のMLアルゴリズムの入力として提供される前に,より一般的な分布のクラスに後方分布を拡大する。 これにより、従来の間接推定よりも経時変化しても、将来の直接浴量測定を流速予測に組み込んで精度を向上させることができる。 我々は,PCA-DNN(主成分分析ディープニューラルネットワーク),SE(教師付きエンコーダ),SVE(教師付き変分エンコーダ)という3つの異なる解法を提案し,それらをオーガスタ州サバンナ川で検証した。 その結果, 高速解法では, 従来手法による完全境界値問題を解くコストよりもかなり低い計算コストで, 異なるバスメトリーおよびbcsのフロー速度を精度良く予測できることがわかった。

Fast and reliable prediction of river flow velocities is important in many applications, including flood risk management. The shallow water equations (SWEs) are commonly used for this purpose. However, traditional numerical solvers of the SWEs are computationally expensive and require high-resolution riverbed profile measurement (bathymetry). In this work, we propose a two-stage process in which, first, using the principal component geostatistical approach (PCGA) we estimate the probability density function of the bathymetry from flow velocity measurements, and then use machine learning (ML) algorithms to obtain a fast solver for the SWEs. The fast solver uses realizations from the posterior bathymetry distribution and takes as input the prescribed range of BCs. The first stage allows us to predict flow velocities without direct measurement of the bathymetry. Furthermore, we augment the bathymetry posterior distribution to a more general class of distributions before providing them as inputs to ML algorithm in the second stage. This allows the solver to incorporate future direct bathymetry measurements into the flow velocity prediction for improved accuracy, even if the bathymetry changes over time compared to its original indirect estimation. We propose and benchmark three different solvers, referred to as PCA-DNN (principal component analysis-deep neural network), SE (supervised encoder), and SVE (supervised variational encoder), and validate them on the Savannah river, Augusta, GA. Our results show that the fast solvers are capable of predicting flow velocities for different bathymetry and BCs with good accuracy, at a computational cost that is significantly lower than the cost of solving the full boundary value problem with traditional methods.
翻訳日:2021-11-25 01:07:44 公開日:2021-11-23
# (参考訳) 変分エンコーダ地球統計解析(vegas)と大規模河川浴計への応用 [全文訳有]

Variational encoder geostatistical analysis (VEGAS) with an application to large scale riverine bathymetry ( http://arxiv.org/abs/2111.11719v1 )

ライセンス: CC BY 4.0
Mojtaba Forghani, Yizhou Qian, Jonghyun Lee, Matthew Farthing, Tyler Hesser, Peter K. Kitanidis, and Eric F. Darve(参考訳) 河川底面形状の推定は, 河川水位計としても知られ, 安全かつ効率的な内陸航行, 銀行の浸食予測, 地盤沈下, 洪水リスク管理など多くの応用において重要な役割を担っている。 深度イメージング(deep imaging)と呼ばれる直接水位測定の高コストかつ複雑なロジスティクスは、表面流速などの間接的な測定を奨励している。 しかし, 間接的な測定から高分解能バストメトリを推定することは, 計算上難しい逆問題である。 本稿では,中央に狭い層を持つディープニューラルネットワークの一種である可変オートエンコーダ(VAE)を用いて,水圧測定および流速情報を圧縮し,流速測定から水圧測定逆問題を高速化するリダクションオーダーモデル(ROM)に基づくアプローチを提案する。 本研究では, 適切な境界条件(bcs)を有する浅水方程式(swe)を用いて, 流速予測のための前方問題を構成する。 次に、変動エンコーダを介して低次元の非線形多様体上にswesのromを構築する。 ベイジアンセッティングにおける低次元潜在空間上で不確実量化(UQ)による推定を行う。 アメリカ合衆国,サバンナ川の1マイル到達地点において,我々の逆解析手法を検証した。 ニューラルネットワークをトレーニングすると(オフライン段階)、主成分分析(PCA)や主成分統計学的アプローチ(PCGA)などの線形射影を基本とした従来の逆解析手法よりもはるかに高速に逆演算命令を実行できる。 さらに, 粗流流速測定においても, 精度よく水温測定を推定できることが検証された。

Estimation of riverbed profiles, also known as bathymetry, plays a vital role in many applications, such as safe and efficient inland navigation, prediction of bank erosion, land subsidence, and flood risk management. The high cost and complex logistics of direct bathymetry surveys, i.e., depth imaging, have encouraged the use of indirect measurements such as surface flow velocities. However, estimating high-resolution bathymetry from indirect measurements is an inverse problem that can be computationally challenging. Here, we propose a reduced-order model (ROM) based approach that utilizes a variational autoencoder (VAE), a type of deep neural network with a narrow layer in the middle, to compress bathymetry and flow velocity information and accelerate bathymetry inverse problems from flow velocity measurements. In our application, the shallow-water equations (SWE) with appropriate boundary conditions (BCs), e.g., the discharge and/or the free surface elevation, constitute the forward problem, to predict flow velocity. Then, ROMs of the SWEs are constructed on a nonlinear manifold of low dimensionality through a variational encoder. Estimation with uncertainty quantification (UQ) is performed on the low-dimensional latent space in a Bayesian setting. We have tested our inversion approach on a one-mile reach of the Savannah River, GA, USA. Once the neural network is trained (offline stage), the proposed technique can perform the inversion operation orders of magnitude faster than traditional inversion methods that are commonly based on linear projections, such as principal component analysis (PCA), or the principal component geostatistical approach (PCGA). Furthermore, tests show that the algorithm can estimate the bathymetry with good accuracy even with sparse flow velocity measurements.
翻訳日:2021-11-25 01:00:39 公開日:2021-11-23
# (参考訳) 回転平均化問題の解法に関する新しい力学モデル [全文訳有]

A new dynamical model for solving rotation averaging problem ( http://arxiv.org/abs/2111.11723v1 )

ライセンス: CC BY 4.0
Zinaid Kapi\'c, Aladin Crnki\'c, Vladimir Ja\'cimovi\'c and Nevena Mijajlovi\'c(参考訳) 本稿では, 対応する勾配系のポテンシャル関数に対する最小化問題として, 回転平均化問題を解析する。 この力学系は、非可換倉本模型として知られる特殊直交群 so(3) 上の有名な倉本模型の一般化の一つである。 重み付きおよび非重み付き回転平均を求める新しい方法を提案する。 アルゴリズムの正しさを検証するため、実データとランダムデータセットを用いて、シミュレーション結果を幾何学的および投影的平均と比較した。 特に,本手法は幾何平均とほぼ同じ結果を与えることがわかった。

The paper analyzes the rotation averaging problem as a minimization problem for a potential function of the corresponding gradient system. This dynamical system is one generalization of the famous Kuramoto model on special orthogonal group SO(3), which is known as the non-Abelian Kuramoto model. We have proposed a novel method for finding weighted and unweighted rotation average. In order to verify the correctness of our algorithms, we have compared the simulation results with geometric and projected average using real and random data sets. In particular, we have discovered that our method gives approximately the same results as geometric average.
翻訳日:2021-11-25 00:40:55 公開日:2021-11-23
# (参考訳) IRモーションデブロアリング [全文訳有]

IR Motion Deblurring ( http://arxiv.org/abs/2111.11734v1 )

ライセンス: CC BY 4.0
Nisha Varghese, Mahesh Mohan M. R., A. N. Rajagopalan(参考訳) カメラジンバルシステムは、ナビゲーション、目標追跡、セキュリティ、監視など、様々な航空や水上システムにおいて重要である。 所定のフィールドオブビュー(fov)を短時間で再訪できるため、リアルタイムアプリケーションではジンバルのステアリングレート(毎秒回転角)が高いことが好ましい。 しかし、露出時間におけるジンバルとシーン間の相対的な動きにより、キャプチャされたビデオフレームは動きのぼけに悩まされる。 キャプチャ後のアプリケーションの多くはぼやけのない画像を必要とするため、リアルタイムのモーションデブラリングは重要なニーズである。 ぼやけた入力から潜像を抽出することを目的としたブラインドデブロワー法は存在するが、非常に高次元の最適化によって制約され、実行時間が長くなる。 一方で、モーションデブラリングのディープラーニング手法は、高速ではあるが、異なる領域(空気、水など)に十分一般化していない。 本研究では,ジンバル系で撮影された赤外線(ir)画像におけるリアルタイム動画像のゆらぎ問題に対処する。 本研究では,非ブラインドデブロアリング法と併用して,ボケカーネルの事前知識をリアルタイムな性能を実現する方法を明らかにする。 重要なことに、我々の数学的モデルは、現実的なジンバル運動のぼかしを持つ大規模なデータセットを作成するために利用することができる。 希少なデータセットは、現代のディープラーニング手法にとって貴重な資産である。 本手法は,デブロアリングにおける最先端技術と比較して,実用的なジンバル画像システムに適していることを示す。

Camera gimbal systems are important in various air or water borne systems for applications such as navigation, target tracking, security and surveillance. A higher steering rate (rotation angle per second) of gimbal is preferable for real-time applications since a given field-of-view (FOV) can be revisited within a short period of time. However, due to relative motion between the gimbal and scene during the exposure time, the captured video frames can suffer from motion blur. Since most of the post-capture applications require blurfree images, motion deblurring in real-time is an important need. Even though there exist blind deblurring methods which aim to retrieve latent images from blurry inputs, they are constrained by very high-dimensional optimization thus incurring large execution times. On the other hand, deep learning methods for motion deblurring, though fast, do not generalize satisfactorily to different domains (e.g., air, water, etc). In this work, we address the problem of real-time motion deblurring in infrared (IR) images captured by a gimbal-based system. We reveal how a priori knowledge of the blur-kernel can be used in conjunction with non-blind deblurring methods to achieve real-time performance. Importantly, our mathematical model can be leveraged to create large-scale datasets with realistic gimbal motion blur. Such datasets which are a rarity can be a valuable asset for contemporary deep learning methods. We show that, in comparison to the state-of-the-art techniques in deblurring, our method is better suited for practical gimbal-based imaging systems.
翻訳日:2021-11-25 00:33:13 公開日:2021-11-23
# (参考訳) S-SimCSE: 文埋め込みのコントラスト学習のためのサンプルサブネットワーク [全文訳有]

S-SimCSE: Sampled Sub-networks for Contrastive Learning of Sentence Embedding ( http://arxiv.org/abs/2111.11750v1 )

ライセンス: CC BY 4.0
Junlei Zhang, Zhenzhong lan(参考訳) コントラスト学習は文埋め込み学習の性能を向上させるために研究されている。 現在の最先端の手法はSimCSEであり、データ拡張方法としてドロップアウトを取り、トレーニング済みのTransformerエンコーダに2回同じ入力文を送付する。 そして、異なるドロップアウトマスクから派生した2つの文埋め込みは、ポジティブなペアを構築することができる。 ドロップアウトマスクを適用しているネットワークは、期待スケールがドロップアウトレートによって決定される自己のサブネットワークと見なすことができる。 本稿では,ほとんどのサブネットワークを異なるスケールでプッシュすることで,同じ文に対して同様の埋め込みを学習する。 simcseは、ドロップアウト関数ごとにドロップアウトレートをサンプリングしたのに対して、ドロップアウトレートをチューニングされた値に固定したため、そうしなかった。 本手法は最適化の困難さを増大させるため,より多くのサブネットワークをサンプリングするための単純な文回りマスク戦略も提案する。 提案したS-SimCSEをいくつかの一般的なセマンティックテキスト類似性データセットで評価した。 実験の結果,S-SimCSEはBERTベースで1\%以上のSimCSEよりも優れていた。

Contrastive learning has been studied for improving the performance of sentence embedding learning. The current state-of-the-art method is the SimCSE, which takes dropout as a data augmentation method and feeds a pre-trained Transformer encoder the same input sentence twice. Then, two sentence embeddings derived from different dropout masks can get to build a positive pair. A network being applied a dropout mask can be regarded as a sub-network of itself, whose expected scale is determined by the dropout rate. In this paper, we push most sub-networks with different expected scales can learn similar embedding for the same sentence. SimCSE failed to do so because they fixed the dropout rate to a tuned value, while we sampled dropout rates for each of the dropout functions. As this method will increase the difficulties of optimization, we also propose a simple sentence-wise masks strategy to sample more sub-networks. We evaluated the proposed S-SimCSE on several popular semantic text similarity datasets. Experimental results show that S-SimCSE outperforms the state-of-the-art SimCSE more than $1\%$ on BERT-base.
翻訳日:2021-11-25 00:20:01 公開日:2021-11-23
# (参考訳) ReGroup: ベクトルグラフプリミティブの階層的グループ化のための再帰的ニューラルネットワーク [全文訳有]

ReGroup: Recursive Neural Networks for Hierarchical Grouping of Vector Graphic Primitives ( http://arxiv.org/abs/2111.11759v1 )

ライセンス: CC BY 4.0
Sumit Chaturvedi, Michal Luk\'a\v{c}, Siddhartha Chaudhuri(参考訳) 選択機能は、ラスタデータと同様にベクトルグラフィックスの基本である。 ピクセルレベルのラベリングの代わりに、各ベクトルプリミティブを含まないか排除するかという二項決定を下す。 理解可能なメタデータがない場合、これは知覚的なグループ化問題となる。 これらは以前はゲシュタルト理論のような経験的原理に由来するヒューリスティックスに依存しているが、それらは不定義で主観的であるため、しばしば曖昧さをもたらす。 ここでは、この問題にデータ中心のアプローチを取ります。 知覚的グループ化の帰納的性質を生かして、人間のアノテーションが少ない再帰的ニューラルネットワークで学習可能なベクトルグラフィックの原始的部分の階層構造を構築するものとして、タスクを解釈する。 階層的なグループネットワークをトレーニングするこれらの階層のデータセットを構築することで、これを検証します。 次に、プロトタイプ選択ツールの基盤となる方法を紹介します。

Selection functionality is as fundamental to vector graphics as it is for raster data. But vector selection is quite different: instead of pixel-level labeling, we make a binary decision to include or exclude each vector primitive. In the absence of intelligible metadata, this becomes a perceptual grouping problem. These have previously relied on heuristics derived from empirical principles like Gestalt Theory, but since these are ill-defined and subjective, they often result in ambiguity. Here we take a data-centric approach to the problem. By exploiting the recursive nature of perceptual grouping, we interpret the task as constructing a hierarchy over the primitives of a vector graphic, which is amenable to learning with recursive neural networks with few human annotations. We verify this by building a dataset of these hierarchies on which we train a hierarchical grouping network. We then demonstrate how this can underpin a prototype selection tool.
翻訳日:2021-11-25 00:14:52 公開日:2021-11-23
# (参考訳) ファジィDL-Liteオントロジーによるファジィクエリの解法 [全文訳有]

Answering Fuzzy Queries over Fuzzy DL-Lite Ontologies ( http://arxiv.org/abs/2111.11779v1 )

ライセンス: CC BY 4.0
Gabriella Pasi and Rafael Pe\~naloza(参考訳) 知識表現における顕著な問題は、ドメイン知識を表すオントロジーの暗黙の結果を考慮に入れたクエリにどのように答えるかである。 この問題は記述論理オントロジーの領域で広く研究されてきたが、特に数学的ファジィ論理の観点から、曖昧で不正確な知識の文脈では驚くほど無視されてきた。 本稿では,ファジィDL-Liteにおける接続クエリとしきい値クエリに応答する問題について検討する。 具体的には、w.r.t.一貫性のあるオントロジーに応答するしきい値クエリがデータ複雑性の$ac_0$に残っているが、結合的なクエリ応答は選択された三角形のノルムに大きく依存していることを示す。 虚数 g\"odel t-norm に対して,古典的ケースの縮小に基づく効果的な手法を提案する。 本稿では,論理プログラミング(tplp)の理論と実践について考察する。

A prominent problem in knowledge representation is how to answer queries taking into account also the implicit consequences of an ontology representing domain knowledge. While this problem has been widely studied within the realm of description logic ontologies, it has been surprisingly neglected within the context of vague or imprecise knowledge, particularly from the point of view of mathematical fuzzy logic. In this paper we study the problem of answering conjunctive queries and threshold queries w.r.t. ontologies in fuzzy DL-Lite. Specifically, we show through a rewriting approach that threshold query answering w.r.t. consistent ontologies remains in $AC_0$ in data complexity, but that conjunctive query answering is highly dependent on the selected triangular norm, which has an impact on the underlying semantics. For the idempodent G\"odel t-norm, we provide an effective method based on a reduction to the classical case. This paper is under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-11-24 23:56:29 公開日:2021-11-23
# (参考訳) 単一経路の畳み込み層に自己注意を吹き込む [全文訳有]

Pruning Self-attentions into Convolutional Layers in Single Path ( http://arxiv.org/abs/2111.11802v1 )

ライセンス: CC BY 4.0
Haoyu He, Jing Liu, Zizheng Pan, Jianfei Cai, Jing Zhang, Dacheng Tao, Bohan Zhuang(参考訳) 視覚トランスフォーマー (vits) は様々なコンピュータビジョンタスクで素晴らしい性能を達成している。 しかしながら、msa(multi-head self-attention)層とのグローバル相関のモデリングは、大きな計算リソースの消費と、局所的な視覚パターンのモデリングに固有の帰納的バイアスの欠如という、2つの広く認識される問題に繋がる。 統一された解決策の1つは、いくつかのMSA層を、ニューラルアーキテクチャサーチ(NAS)ベースのプルーニング手法によって計算的に効率的である畳み込みのような帰納バイアスに置き換えるかどうかである。 しかし、MSAと異なる候補畳み込み操作を個別に訓練可能な経路として維持することは、高価な探索コストと挑戦的な最適化をもたらす。 そこで本研究では,MSAと畳み込み操作のウェイトシェアリング手法を提案し,各MSA層で使用するパラメータのサブセットを探索問題とみなす。 さらに, 重み共有方式により, 目標効率制約を考慮すれば, 事前学習したvitsを精度良くコンパクトなハイブリッドモデルに素早く投入できるspvit (singing automatic single-path vision transformer pruning method) を考案することができる。 提案手法が良好な精度・効率のトレードオフを実現することを示す2つの代表的なViTモデルについて広範な実験を行った。 コードはhttps://github.com/z huang-group/spvitで入手できる。

Vision Transformers (ViTs) have achieved impressive performance over various computer vision tasks. However, modeling global correlations with multi-head self-attention (MSA) layers leads to two widely recognized issues: the massive computational resource consumption and the lack of intrinsic inductive bias for modeling local visual patterns. One unified solution is to search whether to replace some MSA layers with convolution-like inductive biases that are computationally efficient via neural architecture search (NAS) based pruning methods. However, maintaining MSA and different candidate convolutional operations as separate trainable paths gives rise to expensive search cost and challenging optimization. Instead, we propose a novel weight-sharing scheme between MSA and convolutional operations and cast the search problem as finding which subset of parameters to use in each MSA layer. The weight-sharing scheme further allows us to devise an automatic Single-Path Vision Transformer pruning method (SPViT) to quickly prune the pre-trained ViTs into accurate and compact hybrid models with significantly reduced search cost, given target efficiency constraints. We conduct extensive experiments on two representative ViT models showing our method achieves a favorable accuracy-efficiency trade-off. Code is available at https://github.com/z huang-group/SPViT.
翻訳日:2021-11-24 23:11:45 公開日:2021-11-23
# (参考訳) ディープラーニングにおける分散削減: モメンタムが増えるだけで十分 [全文訳有]

Variance Reduction in Deep Learning: More Momentum is All You Need ( http://arxiv.org/abs/2111.11828v1 )

ライセンス: CC BY 4.0
Lionel Tondji, Sergii Kashubin, Moustapha Cisse(参考訳) ばらつき低減(VR)技術は、スムーズで強い凸条件(Schmidt et al., 2017; Johnson & Zhang, 2013; Roux et al., 2012)における大量のデータセットによる学習の促進に大きく貢献している。 しかしながら、このようなテクニックは、データ拡張やdropout(defazio & bottou, 2019)のような正規化手法の使用など、さまざまな要因により、大規模ディープラーニングの領域でも同じ成功を収めていない。 この課題は最近、ディープラーニング(arnold et al., 2019; ma & yarats, 2018)向けに明示的に調整された新しい分散低減テクニックの設計を動機付けた。 この仕事は、この方向へのさらなる一歩である。 特に、ディープラーニングで使用されるリッチデータセットのユビキタスクラスタリング構造を利用して、既存のオプティマイザ(SGD+Momentum, Quasi Hyperbolic Momentum, Implicit Gradient Transport)とマルチモーメント戦略(Yuan et al., 2019)を組み合わせることで、スケーラブルな分散削減最適化手順のファミリーを設計する。 我々の提案は、標準ベンチマークデータセット(例えば、CIFARやImageNet)のバニラメソッドよりも早く収束する。 ノイズのラベル付けにロバストであり、分散最適化に適している。 JAX で並列実装を提供しています。

Variance reduction (VR) techniques have contributed significantly to accelerating learning with massive datasets in the smooth and strongly convex setting (Schmidt et al., 2017; Johnson & Zhang, 2013; Roux et al., 2012). However, such techniques have not yet met the same success in the realm of large-scale deep learning due to various factors such as the use of data augmentation or regularization methods like dropout (Defazio & Bottou, 2019). This challenge has recently motivated the design of novel variance reduction techniques tailored explicitly for deep learning (Arnold et al., 2019; Ma & Yarats, 2018). This work is an additional step in this direction. In particular, we exploit the ubiquitous clustering structure of rich datasets used in deep learning to design a family of scalable variance reduced optimization procedures by combining existing optimizers (e.g., SGD+Momentum, Quasi Hyperbolic Momentum, Implicit Gradient Transport) with a multi-momentum strategy (Yuan et al., 2019). Our proposal leads to faster convergence than vanilla methods on standard benchmark datasets (e.g., CIFAR and ImageNet). It is robust to label noise and amenable to distributed optimization. We provide a parallel implementation in JAX.
翻訳日:2021-11-24 22:23:42 公開日:2021-11-23
# (参考訳) speechmoe2:ルーティングを改善したエキスパートの混合モデル [全文訳有]

SpeechMoE2: Mixture-of-Experts Model with Improved Routing ( http://arxiv.org/abs/2111.11831v1 )

ライセンス: CC0 1.0
Zhao You, Shulin Feng, Dan Su and Dong Yu(参考訳) 動的ルーティング機構の混合実験に基づく音響モデルは音声認識に有望な結果を証明している。 ルータアーキテクチャの設計原理は、大きなモデル容量と高い計算効率のために重要である。 前回の研究SpeechMoEは、ルータのルート決定を支援するためにのみ、ローカルグラフの埋め込みを使用しました。 様々なドメインやアクセントに対する音声認識性能をさらに向上するために,新たなグローバルドメインとアクセントをルータ入力に組み込んで適応性を高めるルータアーキテクチャを提案する。 実験結果から,提案したSpeechMoE2は,マルチドメインタスクとマルチアクセントタスクの両方において,SpeechMoEよりも低いパラメータで文字誤り率(CER)を実現することができた。 提案手法は,マルチドメインタスクに対して最大1.6%~4.8%,マルチドメインタスクに対して1.9%~17.7%の相対CER改善を提供する。 さらに、専門家数の増加は、一貫したパフォーマンス改善を達成し、計算コストを一定に保つ。

Mixture-of-experts based acoustic models with dynamic routing mechanisms have proved promising results for speech recognition. The design principle of router architecture is important for the large model capacity and high computational efficiency. Our previous work SpeechMoE only uses local grapheme embedding to help routers to make route decisions. To further improve speech recognition performance against varying domains and accents, we propose a new router architecture which integrates additional global domain and accent embedding into router input to promote adaptability. Experimental results show that the proposed SpeechMoE2 can achieve lower character error rate (CER) with comparable parameters than SpeechMoE on both multi-domain and multi-accent task. Primarily, the proposed method provides up to 1.6% - 4.8% relative CER improvement for the multidomain task and 1.9% - 17.7% relative CER improvement for the multi-accent task respectively. Besides, increasing the number of experts also achieves consistent performance improvement and keeps the computational cost constant.
翻訳日:2021-11-24 21:54:34 公開日:2021-11-23
# (参考訳) グラフニューラルネットワークの局所置換等価性 [全文訳有]

Local Permutation Equivariance For Graph Neural Networks ( http://arxiv.org/abs/2111.11840v1 )

ライセンス: CC BY 4.0
Joshua Mitton, Roderick Murray-Smith(参考訳) 本研究では,局所置換同変グラフニューラルネットワークと呼ばれる新しい手法を開発し,置換同変グラフ更新関数を用いて,局所ノード近傍で動作するグラフニューラルネットワークを構築するためのフレームワークを提供する。 メッセージパッシングニューラルネットワークはその表現力に制限があることが示されており、近年のアプローチではスケーラビリティの欠如や、機能領域にエンコードされる構造情報が必要になる。 ここで提示される一般的なフレームワークは、制限された表現を通してサブグラフ上で操作することで、グローバル置換等分散に関連するスケーラビリティ問題を克服する。 さらに,制限表現を用いることで,表現力の喪失がないことを示す。 さらに,提案するフレームワークでは,サブグラフを作成するための$k$-hopsと,各レイヤで使用する表現空間を選択するだけでよい。 グラフベンチマークの分類タスクにおいて,その手法を実験的に検証し,最新の結果か,あるいはすべてのベンチマークで非常に競争的な結果を示す。 さらに、ローカル更新関数の使用は、グローバルメソッドよりもGPUメモリを大幅に改善することを示した。

In this work we develop a new method, named locally permutation-equivari ant graph neural networks, which provides a framework for building graph neural networks that operate on local node neighbourhoods, through sub-graphs, while using permutation equivariant update functions. Message passing neural networks have been shown to be limited in their expressive power and recent approaches to over come this either lack scalability or require structural information to be encoded into the feature space. The general framework presented here overcomes the scalability issues associated with global permutation equivariance by operating on sub-graphs through restricted representations. In addition, we prove that there is no loss of expressivity by using restricted representations. Furthermore, the proposed framework only requires a choice of $k$-hops for creating sub-graphs and a choice of representation space to be used for each layer, which makes the method easily applicable across a range of graph based domains. We experimentally validate the method on a range of graph benchmark classification tasks, demonstrating either state-of-the-art results or very competitive results on all benchmarks. Further, we demonstrate that the use of local update functions offers a significant improvement in GPU memory over global methods.
翻訳日:2021-11-24 21:46:24 公開日:2021-11-23
# (参考訳) 水中画像強調用u字形変圧器 [全文訳有]

U-shape Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2111.11843v1 )

ライセンス: CC BY 4.0
Lintao Peng, Chunli Zhu, Liheng Bian(参考訳) 水中不純物の光吸収と散乱は、水中イメージングの品質を低下させる。 既存のデータ駆動型水中画像強調(UIE)技術は、様々な水中シーンと高忠実度参照画像を含む大規模なデータセットが欠如している。 また、異なる色チャネルや空間領域における不整合減衰は、強化効果として完全には考慮されていない。 本研究では,5004枚の画像ペアを含む大規模水中画像(LSUI)データセットを構築し,UIEタスクに初めてトランスフォーマーモデルを導入したU字型トランスフォーマーネットワークを報告した。 U字形変換器は、チャネルワイドマルチスケール機能融合変換器(CMSFFT)モジュールと空間ワイドグローバル機能モデリング変換器(SGFMT)モジュールと統合されており、ネットワークの色チャネルや空間領域への注意をより深刻な減衰で強化する。 一方,コントラストと飽和をさらに改善するために,rgb,lab,lch色空間を組み合わせた新しい損失関数が人間の視覚原理に従って設計されている。 利用可能なデータセットに関する広範な実験は、2dB以上の優位性を持つ報告されたテクニックの最先端性能を検証する。

The light absorption and scattering of underwater impurities lead to poor underwater imaging quality. The existing data-driven based underwater image enhancement (UIE) techniques suffer from the lack of a large-scale dataset containing various underwater scenes and high-fidelity reference images. Besides, the inconsistent attenuation in different color channels and space areas is not fully considered for boosted enhancement. In this work, we constructed a large-scale underwater image (LSUI) dataset including 5004 image pairs, and reported an U-shape Transformer network where the transformer model is for the first time introduced to the UIE task. The U-shape Transformer is integrated with a channel-wise multi-scale feature fusion transformer (CMSFFT) module and a spatial-wise global feature modeling transformer (SGFMT) module, which reinforce the network's attention to the color channels and space areas with more serious attenuation. Meanwhile, in order to further improve the contrast and saturation, a novel loss function combining RGB, LAB and LCH color spaces is designed following the human vision principle. The extensive experiments on available datasets validate the state-of-the-art performance of the reported technique with more than 2dB superiority.
翻訳日:2021-11-24 21:30:15 公開日:2021-11-23
# (参考訳) ディープニューラルネットワークを用いた小惑星フライバイサイクラー軌道設計 [全文訳有]

Asteroid Flyby Cycler Trajectory Design Using Deep Neural Networks ( http://arxiv.org/abs/2111.11858v1 )

ライセンス: CC BY 4.0
Naoya Ozaki and Kanta Yanagida and Takuya Chikazawa and Nishanth Pushparaj and Naoya Takeishi and Ryuki Hyodo(参考訳) 近年、小惑星探査が注目を集めている。 それでも、何千もの小惑星を訪れ、100万人以上の遺体を発見しました。 現在の観測と知識は偏りがあるべきなので、複数の小惑星を直接探査して惑星の建築材料の残骸をよりよく理解することが不可欠である。 ミッション設計の解決策の1つは、複数の地球重力アシストを備えた小惑星フライバイサイクル軌道の利用である。 小惑星フライバイサイクルの軌道設計問題とは、複数のフライバイによるグローバルな軌道最適化問題のサブクラスであり、与えられたフライバイシーケンスに対する軌道最適化問題と、フライバイの順序を決定する組合せ最適化問題を含む。 フライバイボディの数が増加するにつれて、この最適化問題の計算時間は悪質に広がる。 本稿では,軌道最適化結果に近似したディープニューラルネットワークによるサーロゲートモデルを用いた小惑星フライバイサイクラー軌道の設計法を提案する。 機械学習アプローチのボトルネックの1つは、大量のトラジェクトリデータベースを生成することであるため、Karush-Kuhn-Tucker条件を満たす擬似小惑星を導入することにより、効率的なデータベース生成戦略を提案する。 JAXA の DESTINY+ ミッションに適用した数値結果は,提案手法が小惑星フライバイの探索に要する計算時間を著しく短縮できることを示している。

Asteroid exploration has been attracting more attention in recent years. Nevertheless, we have just visited tens of asteroids while we have discovered more than one million bodies. As our current observation and knowledge should be biased, it is essential to explore multiple asteroids directly to better understand the remains of planetary building materials. One of the mission design solutions is utilizing asteroid flyby cycler trajectories with multiple Earth gravity assists. An asteroid flyby cycler trajectory design problem is a subclass of global trajectory optimization problems with multiple flybys, involving a trajectory optimization problem for a given flyby sequence and a combinatorial optimization problem to decide the sequence of the flybys. As the number of flyby bodies grows, the computation time of this optimization problem expands maliciously. This paper presents a new method to design asteroid flyby cycler trajectories utilizing a surrogate model constructed by deep neural networks approximating trajectory optimization results. Since one of the bottlenecks of machine learning approaches is to generate massive trajectory databases, we propose an efficient database generation strategy by introducing pseudo-asteroids satisfying the Karush-Kuhn-Tucker conditions. The numerical result applied to JAXA's DESTINY+ mission shows that the proposed method can significantly reduce the computational time for searching asteroid flyby sequences.
翻訳日:2021-11-24 21:16:30 公開日:2021-11-23
# (参考訳) 固定点GANを用いた弱スーパービジョンクラウド検出 [全文訳有]

Weakly-Supervised Cloud Detection with Fixed-Point GANs ( http://arxiv.org/abs/2111.11879v1 )

ライセンス: CC BY 4.0
Joachim Nyborg, Ira Assent(参考訳) 衛星画像中の雲の検出は、リモートセンシングにおけるビッグデータの重要な前処理課題である。 畳み込みニューラルネットワーク(cnns)は、衛星画像中の雲の検出における最先端の進歩を遂げてきたが、既存のcnnベースの手法は、高価なピクセルレベルのクラウドラベルを持つ大量のトレーニング画像を必要とするため、コストがかかる。 このコストを緩和するため,我々はクラウド検出(fcd)のための固定点ganを提案する。 画像レベルのラベルのみを用いたトレーニングでは,鮮明な画像と曇り画像の固定点変換が学習される。 これにより,衛星画像のクリア化と2つの画像の違いに対するしきい値の設定により,ピクセルレベルの雲ラベルの予測が可能となる。 さらに,CNNのラベルノイズ頑健性を利用してFCDの予測を洗練し,さらなる改善をもたらすFCD+を提案する。 提案手法の有効性をLandsat-8 Biomeクラウド検出データセットに示すとともに,高価なピクセルレベルのラベルをトレーニングする既存の完全教師付き手法に近い性能を得る。 利用可能なピクセルレベルのラベルのわずか1%でFCD+を微調整することにより、フル教師付き手法の性能にマッチする。

The detection of clouds in satellite images is an essential preprocessing task for big data in remote sensing. Convolutional neural networks (CNNs) have greatly advanced the state-of-the-art in the detection of clouds in satellite images, but existing CNN-based methods are costly as they require large amounts of training images with expensive pixel-level cloud labels. To alleviate this cost, we propose Fixed-Point GAN for Cloud Detection (FCD), a weakly-supervised approach. Training with only image-level labels, we learn fixed-point translation between clear and cloudy images, so only clouds are affected during translation. Doing so enables our approach to predict pixel-level cloud labels by translating satellite images to clear ones and setting a threshold to the difference between the two images. Moreover, we propose FCD+, where we exploit the label-noise robustness of CNNs to refine the prediction of FCD, leading to further improvements. We demonstrate the effectiveness of our approach on the Landsat-8 Biome cloud detection dataset, where we obtain performance close to existing fully-supervised methods that train with expensive pixel-level labels. By fine-tuning our FCD+ with just 1% of the available pixel-level labels, we match the performance of fully-supervised methods.
翻訳日:2021-11-24 20:54:04 公開日:2021-11-23
# (参考訳) LMGP:マルチカメラマルチオブジェクトトラッキングのための幾何学的投影とリフテッドマルチカット [全文訳有]

LMGP: Lifted Multicut Meets Geometry Projections for Multi-Camera Multi-Object Tracking ( http://arxiv.org/abs/2111.11892v1 )

ライセンス: CC BY 4.0
Duy M. H. Nguyen, Roberto Henschel, Bodo Rosenhahn, Daniel Sonntag, Paul Swoboda(参考訳) マルチカメラ マルチオブジェクト追跡は現在、混み合ったシーンや広大な空間でのビデオ監視のような現実世界のアプリケーションにおいて優れた性能を持つため、コンピュータビジョン分野で注目を集めている。 本研究では,空間-時空間リフト型マルチカット方式に基づく,数学的にエレガントなマルチカメラマルチオブジェクトトラッキング手法を提案する。 提案モデルは,シングルカメラトラッカが生成する最先端トラックレットを提案として利用する。 これらのトラックレットはID-Switchエラーを含む可能性があるため、3次元幾何投影から得られた新しい事前クラスタリングによってそれらを洗練する。 その結果、IDスイッチなしのトラッキンググラフと、データアソシエーションフェーズのより正確な親和性コストが得られた。 トラックレットは、同じカメラにあるトラックレットとカメラ間にあるトラックレットに短距離および長距離の時間的相互作用を組み込んだグローバルリフトされたマルチカット形式を解いて、マルチカメラ軌道にマッチする。 WildTrackデータセットの実験結果は、PETS-09データセットと同等でありながら、Campusの最先端トラッカーを上回るほぼ完全な結果をもたらす。 論文が受け入れられ次第、実装を利用可能にします。

Multi-Camera Multi-Object Tracking is currently drawing attention in the computer vision field due to its superior performance in real-world applications such as video surveillance with crowded scenes or in vast space. In this work, we propose a mathematically elegant multi-camera multiple object tracking approach based on a spatial-temporal lifted multicut formulation. Our model utilizes state-of-the-art tracklets produced by single-camera trackers as proposals. As these tracklets may contain ID-Switch errors, we refine them through a novel pre-clustering obtained from 3D geometry projections. As a result, we derive a better tracking graph without ID switches and more precise affinity costs for the data association phase. Tracklets are then matched to multi-camera trajectories by solving a global lifted multicut formulation that incorporates short and long-range temporal interactions on tracklets located in the same camera as well as inter-camera ones. Experimental results on the WildTrack dataset yield near-perfect result, outperforming state-of-the-art trackers on Campus while being on par on the PETS-09 dataset. We will make our implementations available upon acceptance of the paper.
翻訳日:2021-11-24 20:37:35 公開日:2021-11-23
# (参考訳) Unmixing法をマルチスペクトル画像に拡張する [全文訳有]

Extending the Unmixing methods to Multispectral Images ( http://arxiv.org/abs/2111.11893v1 )

ライセンス: CC BY 4.0
Jizhen Cai, Hermine Chatoux, Clotilde Boust, Alamin Mansouri(参考訳) 過去数十年間、ハイパースペクトル画像の混ざりあう研究が集中的に行われている。 NMF、VCA、N-FINDRなどの手法は、ハイパースペクトル像の非混合処理におけるロバスト性を示すため、標準となっている。 しかし、マルチスペクトル画像の混合に関する研究は比較的少ない。 そこで,マルチスペクトル画像に未混合手法を拡張した。 本稿では、基底真理が与えられた2つの超スペクトルデータセットから2つのシミュレートされたマルチスペクトルデータセットを作成する。 次に,これら2つのデータセットに混合法(vca,nmf,n-findr)を適用する。 その結果を比較分析することにより,マルチスペクトルデータセットを用いたvca,nmf,n-findrの利用に関する興味深い結果が得られた。 さらにこれは、これらの混合法をマルチスペクトルイメージングの分野に拡張する可能性も示している。

In the past few decades, there has been intensive research concerning the Unmixing of hyperspectral images. Some methods such as NMF, VCA, and N-FINDR have become standards since they show robustness in dealing with the unmixing of hyperspectral images. However, the research concerning the unmixing of multispectral images is relatively scarce. Thus, we extend some unmixing methods to the multispectral images. In this paper, we have created two simulated multispectral datasets from two hyperspectral datasets whose ground truths are given. Then we apply the unmixing methods (VCA, NMF, N-FINDR) to these two datasets. By comparing and analyzing the results, we have been able to demonstrate some interesting results for the utilization of VCA, NMF, and N-FINDR with multispectral datasets. Besides, this also demonstrates the possibilities in extending these unmixing methods to the field of multispectral imaging.
翻訳日:2021-11-24 20:11:17 公開日:2021-11-23
# (参考訳) 深部イメージは良い教育を必要としているか? [全文訳有]

Is Deep Image Prior in Need of a Good Education? ( http://arxiv.org/abs/2111.11926v1 )

ライセンス: CC BY 4.0
Riccardo Barbano, Johannes Leuschner, Maximilian Schmidt, Alexander Denker, Andreas Hauptmann, Peter Maa{\ss}, Bangti Jin(参考訳) 深部画像プリアーは画像再構成に有効なプリアーとして最近導入された。 これは、深層畳み込みニューラルネットワークの出力として回収されるイメージを表し、出力が破損した観察に適合するように、ネットワークのパラメータを学習する。 その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。 我々の研究は、計算課題に対処するための2段階の学習パラダイムを開発する。 (i)合成データセット上でネットワークの教師付き事前学習を行う。 (ii)ネットワークのパラメータを微調整し、目標の再構成に適応させる。 実測マイクロCTデータから得られた生体試料の再構成を,プレトレーニングにより大幅に高速化することを示す。 コードと追加の実験資料はhttps://educateddip. github.io/docs.educa ted_deep_image_prior /で入手できる。

Deep image prior was recently introduced as an effective prior for image reconstruction. It represents the image to be recovered as the output of a deep convolutional neural network, and learns the network's parameters such that the output fits the corrupted observation. Despite its impressive reconstructive properties, the approach is slow when compared to learned or traditional reconstruction techniques. Our work develops a two-stage learning paradigm to address the computational challenge: (i) we perform a supervised pretraining of the network on a synthetic dataset; (ii) we fine-tune the network's parameters to adapt to the target reconstruction. We showcase that pretraining considerably speeds up the subsequent reconstruction from real-measured micro computed tomography data of biological specimens. The code and additional experimental materials are available at https://educateddip. github.io/docs.educa ted_deep_image_prior /.
翻訳日:2021-11-24 20:03:14 公開日:2021-11-23
# (参考訳) Shapley Explanationはモデルはユニークか? [全文訳有]

Is Shapley Explanation for a model unique? ( http://arxiv.org/abs/2111.11946v1 )

ライセンス: CC BY 4.0
Harsh Kumar, Jithu Chandran(参考訳) shapley valueは最近、複雑でシンプルな機械学習モデルの予測を説明する一般的な方法になっている。 本稿では,シェープ価値に影響を与える要因について論じる。 特に,特徴の分布とShapley値の関係について検討する。 同じモデルから異なる予測結果に対して、Shapleyの説明で生じる違いを議論することで分析を拡張します。 我々の評価では、特定の特徴に対するシェープ値はその期待値に依らず、分散や相違などの他の瞬間にも、同じ線形確率モデル(logit/probit)を用いて生成された確率、対数奇数、および二項決定などの異なる結果に対する基線予測、符号の不一致、および最も重要な特徴に相違がある。 これらの意見の不一致は、ローカルな説明に留まらず、グローバルな特徴の重要性にも影響する。 与えられたモデルに対して独自のShapley説明は存在しないと結論づける。 それはモデル結果(probability/log-odd s/binary decision like like accept vs reject)やモデルアプリケーションによって異なります。

Shapley value has recently become a popular way to explain the predictions of complex and simple machine learning models. This paper is discusses the factors that influence Shapley value. In particular, we explore the relationship between the distribution of a feature and its Shapley value. We extend our analysis by discussing the difference that arises in Shapley explanation for different predicted outcomes from the same model. Our assessment is that Shapley value for particular feature not only depends on its expected mean but on other moments as well such as variance and there are disagreements for baseline prediction, disagreements for signs and most important feature for different outcomes such as probability, log odds, and binary decision generated using same linear probability model (logit/probit). These disagreements not only stay for local explainability but also affect the global feature importance. We conclude that there is no unique Shapley explanation for a given model. It varies with model outcome (Probability/Log-odd s/binary decision such as accept vs reject) and hence model application.
翻訳日:2021-11-24 19:17:56 公開日:2021-11-23
# (参考訳) 人間レベルの知性の観点からの連続学習のレビュー [全文訳有]

Reviewing continual learning from the perspective of human-level intelligence ( http://arxiv.org/abs/2111.11964v1 )

ライセンス: CC BY 4.0
Yifan Chang, Wenbo Li, Jian Peng, Bo Tang, Yu Kang, Yinjie Lei, Yuanmiao Gui, Qing Zhu, Yu Liu, Haifeng Li(参考訳) 人間の継続学習能力(CL)は、人間が学習情報の継続的な学習能力と保存をいかに達成するかを記述する安定性のVersus Plasticity Dilemmaと密接に関連している。 CLの概念は、その誕生以来常に人工知能(AI)に存在している。 本稿ではCLの総合的なレビューを提案する。 CLの破滅的忘れ現象に主に焦点をあてた以前のレビューとは違って,本研究では,安定性のVersus Plasticity機構に基づくよりマクロな視点からCLを調査した。 生物学的に見れば「スマート」なAIエージェントは 一 予め学習した情報(情報振り返り)を記憶すること。 二 新しい情報を継続的に推測すること(情報見通し:) 三 高レベルなclを達成するために有用な情報(情報伝達)を転送すること。 分類学によると、評価指標、アルゴリズム、アプリケーション、そしていくつかのオープンな問題が導入される。 私たちの主な貢献は 一 人工知能のレベルからclを再確認すること。 ii) clトピックに関する詳細かつ広範な概要を提供する。 三 CLの潜在的な発展に関する新しい考えを提示すること。

Humans' continual learning (CL) ability is closely related to Stability Versus Plasticity Dilemma that describes how humans achieve ongoing learning capacity and preservation for learned information. The notion of CL has always been present in artificial intelligence (AI) since its births. This paper proposes a comprehensive review of CL. Different from previous reviews that mainly focus on the catastrophic forgetting phenomenon in CL, this paper surveys CL from a more macroscopic perspective based on the Stability Versus Plasticity mechanism. Analogous to biological counterpart, "smart" AI agents are supposed to i) remember previously learned information (information retrospection); ii) infer on new information continuously (information prospection:); iii) transfer useful information (information transfer), to achieve high-level CL. According to the taxonomy, evaluation metrics, algorithms, applications as well as some open issues are then introduced. Our main contributions concern i) rechecking CL from the level of artificial general intelligence; ii) providing a detailed and extensive overview on CL topics; iii) presenting some novel ideas on the potential development of CL.
翻訳日:2021-11-24 19:02:14 公開日:2021-11-23
# (参考訳) 環境探索過程における最小限の事前学習システムによる物体認識 [全文訳有]

Object Recognition by a Minimally Pre-Trained System in the Process of Environment Exploration ( http://arxiv.org/abs/2111.11965v1 )

ライセンス: CC BY 4.0
Dmitry Maximov and Sekou A. K. Diane(参考訳) 本稿では,先述したシステムによる抽象環境研究の過程を記述・評価する手法をアップデートする。 我々は、生体認知機構をモデル化せず、環境を移動させ、環境から供給された情報を消費し、次の動きを提示する情報処理装置(またはそのようなエージェントのグループ)を備えたエージェントとしてシステムを検討する(従って、プロセスはゲームと見なされる)。 システムは未知の環境で動き、その中に新しいオブジェクトを認識する必要がある。 この場合、システムは可視物の総合的なイメージを作成し、必要に応じて記憶する(現在の目標セットも選択する必要がある)。 ここでの大きな問題は、オブジェクト認識と、ゲームにおける情報報酬評価だ。 そこで,本論文の主な新規性は,対象物の視覚的情報量を報奨として評価する方法である。 このようなシステムでは、最小限の事前学習されたニューラルネットワークを用いて認識の責任を負うことを提案している。 ジオンはプログラム的に生成され、訓練されたネットワークが実物体のジオンをかなりよく認識していることが示される。 また,環境から得られたgeonスキーム(画像中のgeonの組み合わせ)から新たなオブジェクトを生成し,データベースに格納することを提案する。 この場合、この種の新しいスキームが得られなくなると、オブジェクト(つまり、報酬は最大であり、ゲームとオブジェクト認識プロセスは停止する)に関する新しい情報を得ることができない。 これらのスキームは、オブジェクトに接続されたジオンから生成される。 潜在的に既知の項目の場合、どのオブジェクトに対しても検出の不確実性がなくなった場合、情報報酬は最大となる。

We update the method of describing and assessing the process of the study of an abstract environment by a system, proposed earlier. We do not model any biological cognition mechanisms and consider the system as an agent equipped with an information processor (or a group of such agents), which makes a move in the environment, consumes information supplied by the environment, and gives out the next move (hence, the process is considered as a game). The system moves in an unknown environment and should recognize new objects located in it. In this case, the system should build comprehensive images of visible things and memorize them if necessary (and it should also choose the current goal set). The main problems here are object recognition, and the informational reward rating in the game. Thus, the main novelty of the paper is a new method of evaluating the amount of visual information about the object as the reward. In such a system, we suggest using a minimally pre-trained neural network to be responsible for the recognition: at first, we train the network only for Biederman geons (geometrical primitives). The geons are generated programmatically and we demonstrate that such a trained network recognizes geons in real objects quite well. We also offer to generate, procedurally, new objects from geon schemes (geon combinations in images) obtained from the environment and to store them in a database. In this case, we do not obtain new information about an object (i.e., our reward is maximal, thus the game and the object cognition process stop) when we stop getting new schemes of this kind. These schemes are generated from geons connected with the object. In the case of a possibly known item, the informational reward is maximal when we have no more detection uncertainty for any of the objects.
翻訳日:2021-11-24 18:22:35 公開日:2021-11-23
# (参考訳) 樹木密度の推定 [全文訳有]

Tree density estimation ( http://arxiv.org/abs/2111.11971v1 )

ライセンス: CC BY 4.0
L\'aszl\'o Gy\"orfi and Aryeh Kontorovich and Roi Weiss(参考訳) 確率密度 $f(\boldsymbol x)$ を持つランダムベクトル ${\boldsymbol X}$ in $\mathbb R^d$ に対する密度推定の問題を研究する。 頂点集合 $\{1,\dots ,d\}$ 上で定義されるスパンディングツリー $t$ に対して、ツリー密度 $f_{t}$ は二変数条件密度の積である。 最適なスパンニングツリー $T^*$ はスパンニングツリー $T$ であり、Kulback-Leibler の発散は $f$ と $f_{T}$ が最小である。 d.d.データから最適木 $T^*$ を同定し、密度 $f$ 上の正規性条件がなければ、$\lim_{n\to \infty} \int |f_n(\boldsymbol x)-f_{T^*}(\boldsymbol x)|d\boldsymbol x=0$ a.s. for Lipschitz continuous $f$ with bounded support, $\mathbb E\{ \int |f_n(\boldsymbol x)-f_{T^*}(\boldsymbol x)|d\boldsymbol x\}=O(n^{4}/$)が成り立つような木密度推定$f_n$ を計算的に構成する。

We study the problem of density estimation for a random vector ${\boldsymbol X}$ in $\mathbb R^d$ with probability density $f(\boldsymbol x)$. For a spanning tree $T$ defined on the vertex set $\{1,\dots ,d\}$, the tree density $f_{T}$ is a product of bivariate conditional densities. The optimal spanning tree $T^*$ is the spanning tree $T$, for which the Kullback-Leibler divergence of $f$ and $f_{T}$ is the smallest. From i.i.d. data we identify the optimal tree $T^*$ and computationally efficiently construct a tree density estimate $f_n$ such that, without any regularity conditions on the density $f$, one has that $\lim_{n\to \infty} \int |f_n(\boldsymbol x)-f_{T^*}(\boldsymbol x)|d\boldsymbol x=0$ a.s. For Lipschitz continuous $f$ with bounded support, $\mathbb E\{ \int |f_n(\boldsymbol x)-f_{T^*}(\boldsymbol x)|d\boldsymbol x\}=O(n^{-1/4})$.
翻訳日:2021-11-24 18:05:26 公開日:2021-11-23
# (参考訳) 物理インフォームドニューラルネットワークによる建物の制御指向型熱モデリング [全文訳有]

Physics Informed Neural Networks for Control Oriented Thermal Modeling of Buildings ( http://arxiv.org/abs/2111.12066v1 )

ライセンス: CC BY 4.0
Gargya Gokhale, Bert Claessens and Chris Develder(参考訳) 本稿では,制御指向熱モデル構築のためのデータ駆動モデリング手法を提案する。 これらのモデルは、必要な快適な範囲内で建物の室内温度を制御しながら、エネルギー消費コストを削減することを目的として開発された。 ホワイト/グレイボックス物理モデルの解釈可能性とニューラルネットワークの表現力を組み合わせるために,このモデリングタスクのための物理情報ニューラルネットワークアプローチを提案する。 測定データと構築パラメータとともに、これらの建物の熱的挙動を管理する基礎となる物理でニューラルネットワークを符号化する。 したがって、物理によって導かれるモデルの実現は、室温と消費電力の時間的進化と隠れた状態、すなわちその後の時間ステップで熱質量を構築する温度をモデル化する助けとなる。 本研究の主な貢献は,(1)建物の制御指向熱モデルのための2種類の物理情報ニューラルネットワークアーキテクチャを提案すること,(2)これらのアーキテクチャのトレーニングはデータ効率が高く,従来の非物理情報ニューラルネットワークに比べてトレーニングデータが少ないこと,(3)これらのアーキテクチャが従来のニューラルネットワークよりもより正確な予測を行い,より長い予測地平線を実現すること,である。 シミュレーションおよび実単語データを用いて,提案アーキテクチャの予測性能を検証し,(2)および(3)を実証し,提案する物理情報付きニューラルネットワークアーキテクチャを,この制御指向モデリング問題に適用可能であることを示す。

This paper presents a data-driven modeling approach for developing control-oriented thermal models of buildings. These models are developed with the objective of reducing energy consumption costs while controlling the indoor temperature of the building within required comfort limits. To combine the interpretability of white/gray box physics models and the expressive power of neural networks, we propose a physics informed neural network approach for this modeling task. Along with measured data and building parameters, we encode the neural networks with the underlying physics that governs the thermal behavior of these buildings. Thus, realizing a model that is guided by physics, aids in modeling the temporal evolution of room temperature and power consumption as well as the hidden state, i.e., the temperature of building thermal mass for subsequent time steps. The main research contributions of this work are: (1) we propose two variants of physics informed neural network architectures for the task of control-oriented thermal modeling of buildings, (2) we show that training these architectures is data-efficient, requiring less training data compared to conventional, non-physics informed neural networks, and (3) we show that these architectures achieve more accurate predictions than conventional neural networks for longer prediction horizons. We test the prediction performance of the proposed architectures using simulated and real-word data to demonstrate (2) and (3) and show that the proposed physics informed neural network architectures can be used for this control-oriented modeling problem.
翻訳日:2021-11-24 17:48:50 公開日:2021-11-23
# (参考訳) リーマン変換学習によるBCIの主観依存校正の最小化 [全文訳有]

Minimizing subject-dependent calibration for BCI with Riemannian transfer learning ( http://arxiv.org/abs/2111.12071v1 )

ライセンス: CC0 1.0
Salim Khazem and Sylvain Chevallier and Quentin Barth\'elemy and Karim Haroun and Camille No\^us(参考訳) キャリブレーションは、BCI(Brain-Computer Interfaces)において、ユーザエクスペリエンスにとって依然として重要な問題である。 一般的な実験的な設計は、bciを使い始める前に認知疲労を増大させる長い訓練期間を含むことが多い。 この主題に依存した校正の削減や抑制は、トランスファーラーニングのような高度な機械学習技術に頼ることで可能である。 リーマンBCIに基づいて,異なる被験者から記録されたデータに基づいて分類器を訓練し,良好な性能を維持しつつ校正を減らし,簡便かつ効果的な手法を提案する。 この論文の主な目新しさは、非常に異なるパラダイムに適用可能なユニークなアプローチを提案することである。 このアプローチのロバスト性を示すために,イベント関連電位(p300),運動画像,ssvepの3つのbciパラダイムについて,複数のデータセットのメタ分析を行った。 実験の再現性と統計解析の信頼性を確保するためMOABBオープンソースフレームワークを用いて,提案手法が任意の種類のBCIパラダイムに適用可能であることを示し,ほとんどの場合,分類器の信頼性を著しく向上させる。 転送学習法をさらに改善するための重要な特徴を指摘する。

Calibration is still an important issue for user experience in Brain-Computer Interfaces (BCI). Common experimental designs often involve a lengthy training period that raises the cognitive fatigue, before even starting to use the BCI. Reducing or suppressing this subject-dependent calibration is possible by relying on advanced machine learning techniques, such as transfer learning. Building on Riemannian BCI, we present a simple and effective scheme to train a classifier on data recorded from different subjects, to reduce the calibration while preserving good performances. The main novelty of this paper is to propose a unique approach that could be applied on very different paradigms. To demonstrate the robustness of this approach, we conducted a meta-analysis on multiple datasets for three BCI paradigms: event-related potentials (P300), motor imagery and SSVEP. Relying on the MOABB open source framework to ensure the reproducibility of the experiments and the statistical analysis, the results clearly show that the proposed approach could be applied on any kind of BCI paradigm and in most of the cases to significantly improve the classifier reliability. We point out some key features to further improve transfer learning methods.
翻訳日:2021-11-24 17:29:58 公開日:2021-11-23
# このIoTデバイスは安全か? グラディエントブースティングマシンを用いたIoTデバイスのリスクスコア予測

Is this IoT Device Likely to be Secure? Risk Score Prediction for IoT Devices Using Gradient Boosting Machines ( http://arxiv.org/abs/2111.11874v1 )

ライセンス: Link先を確認
Carlos A. Rivera A., Arash Shaghaghi, David D. Nguyen, Salil S. Kanhere(参考訳) セキュリティリスク評価と予測は、IoT(Internet of Things)デバイスをデプロイする組織にとって重要なものだ。 企業の最低限の要件は、national vulnerability database(nvd)の報告された脆弱性に対するiotデバイスのセキュリティリスクを検証することだ。 本稿では,IoTデバイスに関する情報に基づいて,新たなリスク予測を提案する。 私たちのソリューションは、あらゆる規模の企業に対して、新しいIoTデバイスをデプロイする際のセキュリティリスクを予測する、簡単かつコスト効率のよいソリューションを提供します。 過去8年間にわたるNVDレコードの広範な分析の後、私たちは、パブリックリソースから利用可能な機能的および記述的機能を補完する重要な技術的特徴を含む、脆弱なIoTデバイスのための、ユニークでシステマティックでバランスの取れたデータセットを作成しました。 次に、このデータセット上で、GBDT(Gradient Boosting Decision Tree)などの機械学習分類モデルを使用し、デバイス脆弱性スコアの重症度を71%の予測精度で分類する。

Security risk assessment and prediction are critical for organisations deploying Internet of Things (IoT) devices. An absolute minimum requirement for enterprises is to verify the security risk of IoT devices for the reported vulnerabilities in the National Vulnerability Database (NVD). This paper proposes a novel risk prediction for IoT devices based on publicly available information about them. Our solution provides an easy and cost-efficient solution for enterprises of all sizes to predict the security risk of deploying new IoT devices. After an extensive analysis of the NVD records over the past eight years, we have created a unique, systematic, and balanced dataset for vulnerable IoT devices, including key technical features complemented with functional and descriptive features available from public resources. We then use machine learning classification models such as Gradient Boosting Decision Trees (GBDT) over this dataset and achieve 71% prediction accuracy in classifying the severity of device vulnerability score.
翻訳日:2021-11-24 17:22:30 公開日:2021-11-23
# ptype-cat:カテゴリ変数の型と値の推測

ptype-cat: Inferring the Type and Values of Categorical Variables ( http://arxiv.org/abs/2111.11956v1 )

ライセンス: Link先を確認
Taha Ceritli and Christopher K. I. Williams(参考訳) 型推論はデータ列内の値の型を特定するタスクであり、文献で広く研究されている。 既存の型推論メソッドの多くは、boolean、date、float、integer、stringといったデータ型をサポートする。 しかしながら、これらのメソッドは整数や文字列によって符号化される2つ以上の可能な値が存在する非ブール分類変数を考慮しない。 そのため、このような列は分類ではなく整数または文字列として注釈付けされ、ユーザが手動で分類に変換する必要がある。 本稿では,一般のカテゴリーデータ型(非ブール変数を含む)を同定できる確率型推論手法を提案する。 さらに,既存の型推論手法ptypeを適用することにより,各カテゴリ変数の可能な値を特定する。 これらの手法を組み合わせることで,既存の適用ソリューションよりも優れた結果が得られるptype-catを提案する。

Type inference is the task of identifying the type of values in a data column and has been studied extensively in the literature. Most existing type inference methods support data types such as Boolean, date, float, integer and string. However, these methods do not consider non-Boolean categorical variables, where there are more than two possible values encoded by integers or strings. Therefore, such columns are annotated either as integer or string rather than categorical, and need to be transformed into categorical manually by the user. In this paper, we propose a probabilistic type inference method that can identify the general categorical data type (including non-Boolean variables). Additionally, we identify the possible values of each categorical variable by adapting the existing type inference method ptype. Combining these methods, we present ptype-cat which achieves better results than existing applicable solutions.
翻訳日:2021-11-24 17:21:42 公開日:2021-11-23
# オンライン操作から保護するadversarial machine learning

Adversarial machine learning for protecting against online manipulation ( http://arxiv.org/abs/2111.12034v1 )

ライセンス: Link先を確認
Stefano Cresci, Marinella Petrocchi, Angelo Spognardi, Stefano Tognazzi(参考訳) 逆の例は、そのシステムから誤った出力をもたらす機械学習システムへの入力である。 この種の入力によって起動される攻撃は、例えば画像認識の分野では、停止信号が速度制限の指示として誤分類されることがあるが、敵対的な例は、異なる領域やアプリケーションにおける研究方向の急増の燃料でもある。 ここでは、フェイクニュースとソーシャルボット検出という2つの重要なタスクに対して、より強力な学習モデルを構築するための強力なツールとして、彼らがいかに収益的に活用できるかの概要を示す。

Adversarial examples are inputs to a machine learning system that result in an incorrect output from that system. Attacks launched through this type of input can cause severe consequences: for example, in the field of image recognition, a stop signal can be misclassified as a speed limit indication.However, adversarial examples also represent the fuel for a flurry of research directions in different domains and applications. Here, we give an overview of how they can be profitably exploited as powerful tools to build stronger learning models, capable of better-withstanding attacks, for two crucial tasks: fake news and social bot detection.
翻訳日:2021-11-24 17:21:30 公開日:2021-11-23
# Forget-SVGD:粒子に基づくベイズ連邦学習

Forget-SVGD: Particle-Based Bayesian Federated Unlearning ( http://arxiv.org/abs/2111.12056v1 )

ライセンス: Link先を確認
Jinu Gong, Osvaldo Simeone, Rahif Kassab, and Joonhyuk Kang(参考訳) 変分粒子に基づくベイズ学習法は、従来のパラメトリック手法に影響を与えるバイアスに制限されないという利点がある。 本稿では、非パラメトリックベイズ近似推論の柔軟性を活用して、Forget-Stein Variational Gradient Descent (Forget-SVGD)と呼ばれる新しいベイズ連邦未学習法を開発することを提案する。 Forget-SVGDは、勾配に基づく決定論的更新を用いた粒子ベースの近似ベイズ推論スキームであるSVGDと、分散SVGD(DSVGD)として知られる分散(フェデレート)拡張上に構築されている。 フェデレーション学習が完了すると、1つ以上の参加エージェントがデータを「忘れられる」ように要求すると、Forget-SVGDはパラメータサーバとの通信ラウンドとインターリーブされたデータを必要とするエージェントに対してローカルSVGD更新を実行する。 提案手法は,既存のパラメトリックベイズアンラーニング手法と同様に,忘れられるデータを除外してゼロからトレーニングする非パラメトリックスキームとの性能比較によって検証される。

Variational particle-based Bayesian learning methods have the advantage of not being limited by the bias affecting more conventional parametric techniques. This paper proposes to leverage the flexibility of non-parametric Bayesian approximate inference to develop a novel Bayesian federated unlearning method, referred to as Forget-Stein Variational Gradient Descent (Forget-SVGD). Forget-SVGD builds on SVGD - a particle-based approximate Bayesian inference scheme using gradient-based deterministic updates - and on its distributed (federated) extension known as Distributed SVGD (DSVGD). Upon the completion of federated learning, as one or more participating agents request for their data to be "forgotten", Forget-SVGD carries out local SVGD updates at the agents whose data need to be "unlearned", which are interleaved with communication rounds with a parameter server. The proposed method is validated via performance comparisons with non-parametric schemes that train from scratch by excluding data to be forgotten, as well as with existing parametric Bayesian unlearning methods.
翻訳日:2021-11-24 17:21:20 公開日:2021-11-23
# 複雑ネットワークにおける集中度とクラスタリングのためのモジュールフレームワーク

A Modular Framework for Centrality and Clustering in Complex Networks ( http://arxiv.org/abs/2111.11623v1 )

ライセンス: Link先を確認
Frederique Oggier, Silivanxay Phetsouvanh, and Anwitaman Datta(参考訳) 多くの複雑なネットワークの構造は、その位相上のエッジ方向と重みを含む。 これらの特性の組み合わせをシームレスに考慮できるネットワーク分析が望ましい。 本稿では,集中度とクラスタリングという2つの重要なネットワーク解析手法について検討する。 クラスタリングには情報フローベースのモデルが採用されており、それ自身が集中性を計算するための情報理論的な尺度に基づいている。 我々の主な貢献は、閉形式漸近解析を用いて、ノード度、エッジウェイト、方向の重要性を調整できる柔軟性を備えたマルコフエントロピー中心性の一般化モデルを含む。 これは、新しい2段階グラフクラスタリングアルゴリズムに繋がる。 中心性分析は、与えられたグラフをクラスタ化するためのアプローチの適合性を推論し、局所的なコミュニティ構造を探索する'クエリ'ノードを決定するのに役立つ。 エントロピック中心性計算はクラスタリングアルゴリズムによって補正され、計算効率が向上する: クラスタリングにマルコフエントロピック中心性を用いた従来の手法と比較して、我々の実験は、複数の桁のスピードアップを実証している。 我々のクラスタリングアルゴリズムは、エッジウェイトとノード度の異なる解釈と相互作用と同様に、エッジ方向に対応する柔軟性を自然に継承する。 全体として,本論文は理論的,概念的に重要な貢献をするだけでなく,その成果を実用的妥当性の成果物に翻訳し,新しい,効果的でスケーラブルな集中性計算とグラフクラスタリングアルゴリズムを生み出した。

The structure of many complex networks includes edge directionality and weights on top of their topology. Network analysis that can seamlessly consider combination of these properties are desirable. In this paper, we study two important such network analysis techniques, namely, centrality and clustering. An information-flow based model is adopted for clustering, which itself builds upon an information theoretic measure for computing centrality. Our principal contributions include a generalized model of Markov entropic centrality with the flexibility to tune the importance of node degrees, edge weights and directions, with a closed-form asymptotic analysis. It leads to a novel two-stage graph clustering algorithm. The centrality analysis helps reason about the suitability of our approach to cluster a given graph, and determine `query' nodes, around which to explore local community structures, leading to an agglomerative clustering mechanism. The entropic centrality computations are amortized by our clustering algorithm, making it computationally efficient: compared to prior approaches using Markov entropic centrality for clustering, our experiments demonstrate multiple orders of magnitude of speed-up. Our clustering algorithm naturally inherits the flexibility to accommodate edge directionality, as well as different interpretations and interplay between edge weights and node degrees. Overall, this paper thus not only makes significant theoretical and conceptual contributions, but also translates the findings into artifacts of practical relevance, yielding new, effective and scalable centrality computations and graph clustering algorithms, whose efficacy has been validated through extensive benchmarking experiments.
翻訳日:2021-11-24 17:20:57 公開日:2021-11-23
# 確率ゲームにおける独立学習

Independent Learning in Stochastic Games ( http://arxiv.org/abs/2111.11743v1 )

ライセンス: Link先を確認
Asuman Ozdaglar and Muhammed O. Sayin and Kaiqing Zhang(参考訳) 強化学習(RL)は近年、多くの人工知能アプリケーションで大きな成功を収めている。 RLの先駆的応用の多くは、チェスや囲碁、自律運転、ロボット工学など、複数のエージェントを含む。 残念ながら、古典的なRLが構築するフレームワークは、エージェントの環境が静止しており、他のエージェントの適応性を考慮していないと仮定するため、マルチエージェント学習には不適切である。 本稿では,動的環境におけるマルチエージェント学習のための確率ゲームモデルを提案する。 我々は,確率ゲームのための単純で独立した学習力学の開発に焦点をあてる: 各エージェントは筋電図であり,相手と協調することなく,相手エージェントの戦略に対して最も応答性の高い行動を選択する。 確率ゲームのための収束型ベストレスポンス型独立学習ダイナミクスの開発は限定的である。 本稿では,ゼロサム確率ゲームにおける収束を保証する単純かつ独立な学習力学と,この環境下での動的マルチエージェント学習のための他の同時学習アルゴリズムのレビューを紹介する。 その過程で、ゲーム理論とRL文学の両方の古典的な結果を再検討し、我々の独立学習力学の概念的貢献と、我々の分析の数学的斬新さを両立させる。 このレビュー論文は、ゲーム理論における独立学習と自然学習のダイナミクスの研究の復活の鍵となり、動的環境のより困難な設定に役立てることを願っている。

Reinforcement learning (RL) has recently achieved tremendous successes in many artificial intelligence applications. Many of the forefront applications of RL involve multiple agents, e.g., playing chess and Go games, autonomous driving, and robotics. Unfortunately, the framework upon which classical RL builds is inappropriate for multi-agent learning, as it assumes an agent's environment is stationary and does not take into account the adaptivity of other agents. In this review paper, we present the model of stochastic games for multi-agent learning in dynamic environments. We focus on the development of simple and independent learning dynamics for stochastic games: each agent is myopic and chooses best-response type actions to other agents' strategy without any coordination with her opponent. There has been limited progress on developing convergent best-response type independent learning dynamics for stochastic games. We present our recently proposed simple and independent learning dynamics that guarantee convergence in zero-sum stochastic games, together with a review of other contemporaneous algorithms for dynamic multi-agent learning in this setting. Along the way, we also reexamine some classical results from both the game theory and RL literature, to situate both the conceptual contributions of our independent learning dynamics, and the mathematical novelties of our analysis. We hope this review paper serves as an impetus for the resurgence of studying independent and natural learning dynamics in game theory, for the more challenging settings with a dynamic environment.
翻訳日:2021-11-24 17:19:12 公開日:2021-11-23
# 電力系統の緊急時最適負荷低減のためのスケーラブル学習

Scalable Learning for Optimal Load Shedding Under Power Grid Emergency Operations ( http://arxiv.org/abs/2111.11980v1 )

ライセンス: Link先を確認
Yuqi Zhou, Jeehyun Park, Hao Zhu(参考訳) 電力網の弾力性を高めるためには、予期せぬ事態に対する効果的かつタイムリーな対応が不可欠である。 カスケード伝搬の高速かつ複雑なプロセスを考えると,計算複雑性や通信遅延の問題により,OLS(Optimal Load Shedding)のような補正動作は大規模ネットワークでは達成が難しい。 この研究は、オフラインニューラルネットワーク(nn)トレーニングを通じて、さまざまな潜在的コンティンジェンシーシナリオの下でロードシェディングの最適な決定ルールを構築することによって、革新的なols学習手法を提供する。 特に、提案されたNNベースのOLS決定は完全に分散化されており、個々の負荷センターが容易に利用可能なローカル測定を使用して、特定の一致に迅速に反応することができる。 IEEE 14-busシステムに関する数値解析により,重度グリッド緊急イベントに対するリアルタイム応答に対する拡張性OLS設計の有効性が示された。

Effective and timely responses to unexpected contingencies are crucial for enhancing the resilience of power grids. Given the fast, complex process of cascading propagation, corrective actions such as optimal load shedding (OLS) are difficult to attain in large-scale networks due to the computation complexity and communication latency issues. This work puts forth an innovative learning-for-OLS approach by constructing the optimal decision rules of load shedding under a variety of potential contingency scenarios through offline neural network (NN) training. Notably, the proposed NN-based OLS decisions are fully decentralized, enabling individual load centers to quickly react to the specific contingency using readily available local measurements. Numerical studies on the IEEE 14-bus system have demonstrated the effectiveness of our scalable OLS design for real-time responses to severe grid emergency events.
翻訳日:2021-11-24 17:18:01 公開日:2021-11-23
# (参考訳) Pairwise Learningのための簡単な確率的・オンライン勾配DescentAlgorithms [全文訳有]

Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise Learning ( http://arxiv.org/abs/2111.12050v1 )

ライセンス: CC BY 4.0
Zhenhuan Yang, Yunwen Lei, Puyu Wang, Tianbao Yang and Yiming Ying(参考訳) ペアワイズ学習(Pairwise learning)とは、損失関数が一対のインスタンスに依存するタスクを学習することを指す。 双方向のランキングやメトリック学習など、多くの重要な機械学習タスクをインスタンス化する。 ペアワイズ学習におけるストリーミングデータを扱う一般的なアプローチは、オンライン勾配降下(ogd)アルゴリズムであり、現在のインスタンスと以前のインスタンスのバッファリングセットを十分に大きなサイズでペアリングする必要があるため、スケーラビリティの問題に苦しむ。 本稿では,一対学習のための簡単な確率的・オンライン勾配降下法を提案する。 既存の研究と顕著な違いは、ストレージと計算の複雑さの両方において効率的である勾配方向を構築する際に、現在のインスタンスと前のインスタンスをペアにすることだけである。 凸および非凸および滑らかおよび非滑らかな問題に対する新しい安定性結果、最適化および一般化誤差境界を開発する。 最適化解析と一般化解析の両方において,モデルと先行インスタンスの依存関係を分離する新しい手法を導入する。 本研究は、非常に小さな固定サイズのバッファリングセットを用いたogdの有意義な一般化境界の開発に関するオープンな疑問を解決している。 また,ペア学習のための微分プライベートsgdアルゴリズムを開発し,既存の結果を大幅に改善するために,アルゴリズムと安定性解析を拡張した。

Pairwise learning refers to learning tasks where the loss function depends on a pair of instances. It instantiates many important machine learning tasks such as bipartite ranking and metric learning. A popular approach to handle streaming data in pairwise learning is an online gradient descent (OGD) algorithm, where one needs to pair the current instance with a buffering set of previous instances with a sufficiently large size and therefore suffers from a scalability issue. In this paper, we propose simple stochastic and online gradient descent methods for pairwise learning. A notable difference from the existing studies is that we only pair the current instance with the previous one in building a gradient direction, which is efficient in both the storage and computational complexity. We develop novel stability results, optimization, and generalization error bounds for both convex and nonconvex as well as both smooth and nonsmooth problems. We introduce novel techniques to decouple the dependency of models and the previous instance in both the optimization and generalization analysis. Our study resolves an open question on developing meaningful generalization bounds for OGD using a buffering set with a very small fixed size. We also extend our algorithms and stability analysis to develop differentially private SGD algorithms for pairwise learning which significantly improves the existing results.
翻訳日:2021-11-24 17:16:08 公開日:2021-11-23
# 表データにおける測定単位の同定

Identifying the Units of Measurement in Tabular Data ( http://arxiv.org/abs/2111.11959v1 )

ライセンス: Link先を確認
Taha Ceritli and Christopher K. I. Williams(参考訳) 本研究では,各行の数値と単位記号の両方を含むデータ列,例えば "5.2 l", "7 pints" の計測単位を識別する問題を考える。 この場合、列の次元(ボリュームなど)を特定し、単位記号を知識グラフから得られる有効単位(リッター、ピントなど)に関連付ける。 以下に、測定単位を正確に識別し、定量データ列のセマンティック記述を抽出し、それらのエントリを正準化できる確率的単位正準化器であるPUCを紹介する。 本稿では,測定単位にアノテートされた最初の乱雑な実世界の表型データセットを提案する。 これらのデータセットに関する実験は、pucが既存のソリューションよりも優れた結果を得ることを示している。

We consider the problem of identifying the units of measurement in a data column that contains both numeric values and unit symbols in each row, e.g., "5.2 l", "7 pints". In this case we seek to identify the dimension of the column (e.g. volume) and relate the unit symbols to valid units (e.g. litre, pint) obtained from a knowledge graph. Below we present PUC, a Probabilistic Unit Canonicalizer that can accurately identify the units of measurement, extract semantic descriptions of quantitative data columns and canonicalize their entries. We present the first messy real-world tabular datasets annotated for units of measurement, which can enable and accelerate the research in this area. Our experiments on these datasets show that PUC achieves better results than existing solutions.
翻訳日:2021-11-24 16:09:02 公開日:2021-11-23
# HERO:一般化と量子化性能の統一と改善のためのヘシアン強化ロバスト最適化

HERO: Hessian-Enhanced Robust Optimization for Unifying and Improving Generalization and Quantization Performance ( http://arxiv.org/abs/2111.11986v1 )

ライセンス: Link先を確認
Huanrui Yang, Xiaoxuan Yang, Neil Zhenqiang Gong and Yiran Chen(参考訳) 近年,モバイルおよびエッジデバイス上でのニューラルネットワークモデルの展開が求められているため,非知覚テストデータに対するモデルの一般化性の向上や,固定点量子化によるモデルの堅牢性の向上が望まれている。 しかしながら、トレーニング損失の最小化は、一般化と量子化のパフォーマンスに関する保証をほとんど与えていない。 本研究では, モデル重みに関するヘッセン行列の固有値の最小化と有界重み摂動に対するモデルの堅牢性の向上という枠組みの下で, 理論的に統一することで, 一般化と量子化性能を同時に向上する必要性を満たす。 そこで我々は,Hessian-enhanced robust optimization methodであるHEROを提案し,Hessian固有値を勾配に基づく学習プロセスにより最小化し,一般化と量子化性能を同時に向上させる。 HEROは、テスト精度が最大3.8%向上し、80%のトレーニングラベルの摂動で最大30%高い精度を実現し、さまざまなデータセット上の共通モデルアーキテクチャのためのSGDトレーニングモデルに対する10%以上の精度の改善を含む、幅広い精度で最高のトレーニング後の量子化精度を実現する。

With the recent demand of deploying neural network models on mobile and edge devices, it is desired to improve the model's generalizability on unseen testing data, as well as enhance the model's robustness under fixed-point quantization for efficient deployment. Minimizing the training loss, however, provides few guarantees on the generalization and quantization performance. In this work, we fulfill the need of improving generalization and quantization performance simultaneously by theoretically unifying them under the framework of improving the model's robustness against bounded weight perturbation and minimizing the eigenvalues of the Hessian matrix with respect to model weights. We therefore propose HERO, a Hessian-enhanced robust optimization method, to minimize the Hessian eigenvalues through a gradient-based training process, simultaneously improving the generalization and quantization performance. HERO enables up to a 3.8% gain on test accuracy, up to 30% higher accuracy under 80% training label perturbation, and the best post-training quantization accuracy across a wide range of precision, including a >10% accuracy improvement over SGD-trained models for common model architectures on various datasets.
翻訳日:2021-11-24 16:08:48 公開日:2021-11-23
# リカレントニューラルネットワークによるアプライアンスレベルの短期負荷予測

Appliance Level Short-term Load Forecasting via Recurrent Neural Network ( http://arxiv.org/abs/2111.11998v1 )

ライセンス: Link先を確認
Yuqi Zhou, Arun Sukumaran Nair, David Ganger, Abhinandan Tripathi, Chaitanya Baone, Hao Zhu(参考訳) 電力市場の運用や電力システムにおけるリアルタイム意思決定タスクには、正確な負荷予測が不可欠である。 本稿では,コミュニティ内の住宅顧客を対象とした短期負荷予測(STLF)問題について考察する。 既存のslf作業は、主にフィーダシステムまたは単一顧客による集約負荷の予測に重点を置いているが、個々の家電レベルでの負荷の予測に関する取り組みはほとんど行われていない。 本研究では,各家電の消費電力を効率的に予測するSTLFアルゴリズムを提案する。 提案手法は,Long Short-term memory(LSTM)と呼ばれる,ディープラーニングにおける強力なリカレントニューラルネットワーク(RNN)アーキテクチャに基づいている。 各アプライアンスに特有の繰り返し消費パターンがあるので、予測エラーのパターンを追跡し、過去の予測エラーを最終予測性能を改善するために使用できる。 実世界の負荷データセットの数値実験により,既存のLSTM法および他のベンチマーク手法よりも提案手法の改善が示された。

Accurate load forecasting is critical for electricity market operations and other real-time decision-making tasks in power systems. This paper considers the short-term load forecasting (STLF) problem for residential customers within a community. Existing STLF work mainly focuses on forecasting the aggregated load for either a feeder system or a single customer, but few efforts have been made on forecasting the load at individual appliance level. In this work, we present an STLF algorithm for efficiently predicting the power consumption of individual electrical appliances. The proposed method builds upon a powerful recurrent neural network (RNN) architecture in deep learning, termed as long short-term memory (LSTM). As each appliance has uniquely repetitive consumption patterns, the patterns of prediction error will be tracked such that past prediction errors can be used for improving the final prediction performance. Numerical tests on real-world load datasets demonstrate the improvement of the proposed method over existing LSTM-based method and other benchmark approaches.
翻訳日:2021-11-24 16:08:25 公開日:2021-11-23
# 適応型マルチゴール探索

Adaptive Multi-Goal Exploration ( http://arxiv.org/abs/2111.12045v1 )

ライセンス: Link先を確認
Jean Tarbouriech, Omar Darwiche Domingues, Pierre M\'enard, Matteo Pirotta, Michal Valko, Alessandro Lazaric(参考訳) 効率の良いマルチゴール探索のための汎用戦略を導入する。 これは単純な制約付き最適化問題に基づく新しいゴール選択スキームであり、エージェントの現在の知識に従えば難しすぎることもなく、到達しにくいゴール状態をターゲットにしている。 我々は、報酬のないマルコフ決定プロセスにおいて、基準状態から期待できる$l$のステップ以内に到達可能なすべての目標状態に対して、$\epsilon$-optimal goal-conditioned policyを学習する目的に、アダゴアルがどう使われるかを示す。 S$状態と$A$アクションの表形式の場合、我々のアルゴリズムは$\tilde{O}(L^3 S A \epsilon^{-2})$ Exploring stepsを必要とする。 また,AdaGoalを線形混合マルコフ決定過程で容易にインスタンス化し,線形関数近似を用いた最初の目標指向PAC保証を実現する。 その強力な理論的な保証を超えて、アダゴナルは目標条件付き深層強化学習の既存の方法の高レベルなアルゴリズム構造に根ざしている。

We introduce a generic strategy for provably efficient multi-goal exploration. It relies on AdaGoal, a novel goal selection scheme that is based on a simple constrained optimization problem, which adaptively targets goal states that are neither too difficult nor too easy to reach according to the agent's current knowledge. We show how AdaGoal can be used to tackle the objective of learning an $\epsilon$-optimal goal-conditioned policy for all the goal states that are reachable within $L$ steps in expectation from a reference state $s_0$ in a reward-free Markov decision process. In the tabular case with $S$ states and $A$ actions, our algorithm requires $\tilde{O}(L^3 S A \epsilon^{-2})$ exploration steps, which is nearly minimax optimal. We also readily instantiate AdaGoal in linear mixture Markov decision processes, which yields the first goal-oriented PAC guarantee with linear function approximation. Beyond its strong theoretical guarantees, AdaGoal is anchored in the high-level algorithmic structure of existing methods for goal-conditioned deep reinforcement learning.
翻訳日:2021-11-24 16:08:08 公開日:2021-11-23
# サイバー範囲におけるITシステム利用者の現実的シミュレーション

Realistic simulation of users for IT systems in cyber ranges ( http://arxiv.org/abs/2111.11785v1 )

ライセンス: Link先を確認
Alexandre Dey (IRISA), Benjamin Cost\'e, \'Eric Totel, Adrien B\'ecue(参考訳) ユーザアクティビティの生成は、セキュリティ監視ツールの評価だけでなく、アタッカー分析プラットフォーム(例えばhoneynets)の信頼性を向上させる上で重要な機能である。 本稿では,このアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。 このエージェントは、異なる環境(例えば、複数のOS、ソフトウェアバージョンなど)に適応する決定論的およびディープラーニングベースの方法を組み合わせると同時に、高い性能を維持する。 また,コヒーレントでシステムワイドな生活シナリオの定義を促進するために,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。

Generating user activity is a key capability for both evaluating security monitoring tools as well as improving the credibility of attacker analysis platforms (e.g., honeynets). In this paper, to generate this activity, we instrument each machine by means of an external agent. This agent combines both deterministic and deep learning based methods to adapt to different environment (e.g., multiple OS, software versions, etc.), while maintaining high performances. We also propose conditional text generation models to facilitate the creation of conversations and documents to accelerate the definition of coherent, system-wide, life scenarios.
翻訳日:2021-11-24 16:07:48 公開日:2021-11-23
# ソーシャルメディア上での動的うわさ検出は可能か? 教師なしの視点

Is Dynamic Rumor Detection on social media Viable? An Unsupervised Perspective ( http://arxiv.org/abs/2111.11982v1 )

ライセンス: Link先を確認
Chahat Raj, Priyanka Meel(参考訳) インターネットの普及とアクセスの容易化により、オンライン噂の問題はエスカレートしている。 人々は簡単に情報を得るためにソーシャルメディアに頼っているが、偽情報に陥る。 オンライン投稿が到着した直後に噂を識別するための信頼性評価技術が欠如している。 既存の研究は、機械学習とディープラーニングアルゴリズムを開発することで、ネットの噂と戦うためのいくつかのメカニズムを定式化した。 これまでの文献では、巨大なトレーニングデータセットに依存する噂の分類のための監視フレームワークを提供している。 しかし,教師付き学習がエキサイティングなオンラインシナリオでは,動的なうわさの識別が困難になる。 オンライン噂の早期発見は難しい課題であり、それらに関連する研究は比較的少ない。 ネットに現れるとすぐに噂を識別する時間が必要だ。 本研究は,最先端クラスタリング技術を用いたオンライン投稿の内容とソーシャル機能に依存する,教師なしうわさ検出のための新しい枠組みを提案する。 提案したアーキテクチャは,既存のベースラインよりも優れ,教師付き技術よりも優れている。 提案手法は軽量で,シンプルで,堅牢であり,オンラインの噂識別ツールとして採用される可能性が示唆された。

With the growing popularity and ease of access to the internet, the problem of online rumors is escalating. People are relying on social media to gain information readily but fall prey to false information. There is a lack of credibility assessment techniques for online posts to identify rumors as soon as they arrive. Existing studies have formulated several mechanisms to combat online rumors by developing machine learning and deep learning algorithms. The literature so far provides supervised frameworks for rumor classification that rely on huge training datasets. However, in the online scenario where supervised learning is exigent, dynamic rumor identification becomes difficult. Early detection of online rumors is a challenging task, and studies relating to them are relatively few. It is the need of the hour to identify rumors as soon as they appear online. This work proposes a novel framework for unsupervised rumor detection that relies on an online post's content and social features using state-of-the-art clustering techniques. The proposed architecture outperforms several existing baselines and performs better than several supervised techniques. The proposed method, being lightweight, simple, and robust, offers the suitability of being adopted as a tool for online rumor identification.
翻訳日:2021-11-24 16:07:36 公開日:2021-11-23
# ROBINプロジェクトによるルーマニア語音声認識実験

Romanian Speech Recognition Experiments from the ROBIN Project ( http://arxiv.org/abs/2111.12028v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, Vasile P\u{a}i\c{s}, Dan Tufi\c{s}(参考訳) 社会支援ロボットを受け入れる基本的な機能の1つは、環境内の他のエージェントとのコミュニケーション能力である。 ROBINプロジェクトでは,ロボットとの音声対話による状況対話について検討した。 本稿では,ニューラルネットワークを用いた音声認識実験において,高速な(ネットワーク自体から100ms以下)レイテンシを実現することに着目し,信頼性の高いモデルを提案する。 望ましい特徴の1つは低レイテンシであるにもかかわらず、最終的なディープニューラルネットワークモデルはルーマニア語認識のための最先端の成果を達成し、言語モデルと組み合わせて9.91%の単語誤り率(wer)を得る。 さらに、ROBINプロジェクトの目標(閉鎖マイクロワールドでの対話)をターゲットに、ASR出力(ハイフンとキャピタライゼーション復元、未知語補正)を補正するための2つのモジュールを探索する。 統合エンジン(ロボットでも外部でも)が必要に応じて利用可能なモジュールをチェーンできるAPIに基づいたモジュールアーキテクチャを設計します。 最後に、提案した設計をRELATEプラットフォームに統合し、ファイルをアップロードするか、新しい音声を録音することで、ASRサービスをWebユーザに提供することでテストする。

One of the fundamental functionalities for accepting a socially assistive robot is its communication capabilities with other agents in the environment. In the context of the ROBIN project, situational dialogue through voice interaction with a robot was investigated. This paper presents different speech recognition experiments with deep neural networks focusing on producing fast (under 100ms latency from the network itself), while still reliable models. Even though one of the key desired characteristics is low latency, the final deep neural network model achieves state of the art results for recognizing Romanian language, obtaining a 9.91% word error rate (WER), when combined with a language model, thus improving over the previous results while offering at the same time an improved runtime performance. Additionally, we explore two modules for correcting the ASR output (hyphen and capitalization restoration and unknown words correction), targeting the ROBIN project's goals (dialogue in closed micro-worlds). We design a modular architecture based on APIs allowing an integration engine (either in the robot or external) to chain together the available modules as needed. Finally, we test the proposed design by integrating it in the RELATE platform and making the ASR service available to web users by either uploading a file or recording new speech.
翻訳日:2021-11-24 16:06:18 公開日:2021-11-23
# サイクリング・コンシスタント・ジェネレーション・ディバイザリー・ネットワークを用いたCTにおける非監督的COVID-19病変の分離

Unsupervised COVID-19 Lesion Segmentation in CT Using Cycle Consistent Generative Adversarial Network ( http://arxiv.org/abs/2111.11602v1 )

ライセンス: Link先を確認
Chengyijue Fang, Yingao Liu, Mengqiu Liu, Xiaohui Qiu, Ying Liu, Yang Li, Jie Wen, Yidong Yang(参考訳) 新型コロナウイルス(covid-19)は世界的なパンデミックとなり、いまだに国民に深刻な健康リスクをもたらしている。 CTスキャンにおける肺炎病変の精密かつ効率的な分節化は治療決定に不可欠である。 そこで我々は, 周期一貫した生成逆数ネットワーク (cycle-GAN) を用いた新しい教師なしアプローチを提案し, 病変のデライン化のプロセスを自動化する。 ワークフローには、肺体積分割、健康な肺生成、感染および健康な画像減算、二成分性病変マスクの作成が含まれる。 肺容積は事前に訓練されたu-netを用いて線画され、後のネットワークのインプットとして機能した。 サイクルGANは、感染した肺画像から「健康」な肺CT画像を生成するために開発された。 その後、「感染した」肺ct画像から合成された「健康」肺ct画像を減算して肺炎病変を抽出する。 中央フィルターとk-meansクラスタリングを用いて病変の輪郭形成を行った。 オートセグメンテーションアプローチは2つのパブリックデータセット(coronacasesとradiopedia)で検証された。 dice係数はコロナケースとラジオペディアデータセットでそれぞれ0.748と0.730に達した。 一方、病変検出の精度と感度は、コロナケースデータセットの0.813と0.735、Radiopediaデータセットの0.773と0.726である。 この性能は既存の教師付きセグメンテーションネットワークに匹敵し、以前の教師なしセグメンテーションネットワークに匹敵する。 提案手法は, 自動デラインの精度と効率性を向上した。 分節結果は、さらに手作業による修正の基準となり、病変診断のための品質保証ツールとなる。 さらに、その管理されていない性質から、この結果は、監督方法に不可欠な医師の経験に影響されない。

COVID-19 has become a global pandemic and is still posing a severe health risk to the public. Accurate and efficient segmentation of pneumonia lesions in CT scans is vital for treatment decision-making. We proposed a novel unsupervised approach using cycle consistent generative adversarial network (cycle-GAN) which automates and accelerates the process of lesion delineation. The workflow includes lung volume segmentation, "synthetic" healthy lung generation, infected and healthy image subtraction, and binary lesion mask creation. The lung volume volume was firstly delineated using a pre-trained U-net and worked as the input for the later network. The cycle-GAN was developed to generate synthetic "healthy" lung CT images from infected lung images. After that, the pneumonia lesions are extracted by subtracting the synthetic "healthy" lung CT images from the "infected" lung CT images. A median filter and K-means clustering were then applied to contour the lesions. The auto segmentation approach was validated on two public datasets (Coronacases and Radiopedia). The Dice coefficients reached 0.748 and 0.730, respectively, for the Coronacases and Radiopedia datasets. Meanwhile, the precision and sensitivity for lesion segmentationdetectio n are 0.813 and 0.735 for the Coronacases dataset, and 0.773 and 0.726 for the Radiopedia dataset. The performance is comparable to existing supervised segmentation networks and outperforms previous unsupervised ones. The proposed unsupervised segmentation method achieved high accuracy and efficiency in automatic COVID-19 lesion delineation. The segmentation result can serve as a baseline for further manual modification and a quality assurance tool for lesion diagnosis. Furthermore, due to its unsupervised nature, the result is not influenced by physicians' experience which otherwise is crucial for supervised methods.
翻訳日:2021-11-24 16:05:48 公開日:2021-11-23
# RadFusion:CT, EHRによる肺塞栓症診断のベンチマークと公正性

RadFusion: Benchmarking Performance and Fairness for Multimodal Pulmonary Embolism Detection from CT and EHR ( http://arxiv.org/abs/2111.11665v1 )

ライセンス: Link先を確認
Yuyin Zhou, Shih-Cheng Huang, Jason Alan Fries, Alaa Youssef, Timothy J. Amrhein, Marcello Chang, Imon Banerjee, Daniel Rubin, Lei Xing, Nigam Shah, and Matthew P. Lungren(参考訳) 電子健康記録(ehr)データを使用して臨床史をコンテキスト化し、画像解釈を知らせるが、医療画像のためのディープラーニングアーキテクチャの大部分はユニモーダルであり、ピクセルレベルの情報からのみ特徴を学習する。 最近の研究では、ピクセルデータのみから人種を回復する方法が明らかにされ、人口統計やその他の主要な患者属性を説明できないモデルにおける深刻なバイアスの可能性を浮き彫りにしている。 しかし、人口統計学や縦断医療史を包含する臨床的文脈を捉えた画像データセットの欠如は、マルチモーダル医療画像の探求を過小評価している。 これらの課題をよりよく評価するために,肺塞栓症と診断されたEHRデータと高分解能CTスキャンを用いた1794患者のマルチモーダルベンチマークデータセットであるRadFusionを提案する。 本研究では,複数の代表的マルチモーダル融合モデルを評価し,性別,人種・民族性,年齢といった保護された部分群にまたがる公平性を評価する。 以上の結果から,画像とehrデータの統合は,集団間の正の正の率に大きな差を生じさせることなく,分類性能とロバスト性を向上できることが示唆された。

Despite the routine use of electronic health record (EHR) data by radiologists to contextualize clinical history and inform image interpretation, the majority of deep learning architectures for medical imaging are unimodal, i.e., they only learn features from pixel-level information. Recent research revealing how race can be recovered from pixel data alone highlights the potential for serious biases in models which fail to account for demographics and other key patient attributes. Yet the lack of imaging datasets which capture clinical context, inclusive of demographics and longitudinal medical history, has left multimodal medical imaging underexplored. To better assess these challenges, we present RadFusion, a multimodal, benchmark dataset of 1794 patients with corresponding EHR data and high-resolution computed tomography (CT) scans labeled for pulmonary embolism. We evaluate several representative multimodal fusion models and benchmark their fairness properties across protected subgroups, e.g., gender, race/ethnicity, age. Our results suggest that integrating imaging and EHR data can improve classification performance and robustness without introducing large disparities in the true positive rate between population groups.
翻訳日:2021-11-24 16:05:20 公開日:2021-11-23
# AdaFusion: 位置認識のための適応重み付きビジュアルLiDAR融合

AdaFusion: Visual-LiDAR Fusion with Adaptive Weights for Place Recognition ( http://arxiv.org/abs/2111.11739v1 )

ライセンス: Link先を確認
Haowen Lai, Peng Yin, Sebastian Scherer(参考訳) 近年では、都市道路や大きな建物、屋内と屋外の混在など、様々な環境における場所認識の応用が増えている。 しかし、この作業は、異なるセンサーの制限と環境の変化のため、依然として困難である。 現在の研究は、個々のセンサーの使用のみを考慮し、あるいは単に異なるセンサーを組み合わせることで、異なるセンサーの重要性が環境の変化によって異なるという事実を無視している。 本稿では,AdaFusionという名前の適応重み付け視覚-LiDAR融合法を提案し,画像と点雲の特徴の重み付けを学習する。 これら2つのモダリティの特徴は, 現状の環境条件によって異なる。 重みの学習はネットワークの注意ブランチによって達成され、マルチモダリティ特徴抽出ブランチと融合される。 さらに,画像と点雲の潜在的な関係をよりよく利用するために,2次元と3次元の注意を結びつける2段階融合手法を考案する。 我々の研究は2つの公開データセットで検証され、適応重み付けが認識精度の向上と様々な環境に対するシステムの堅牢性向上に役立つことを示した。

Recent years have witnessed the increasing application of place recognition in various environments, such as city roads, large buildings, and a mix of indoor and outdoor places. This task, however, still remains challenging due to the limitations of different sensors and the changing appearance of environments. Current works only consider the use of individual sensors, or simply combine different sensors, ignoring the fact that the importance of different sensors varies as the environment changes. In this paper, an adaptive weighting visual-LiDAR fusion method, named AdaFusion, is proposed to learn the weights for both images and point cloud features. Features of these two modalities are thus contributed differently according to the current environmental situation. The learning of weights is achieved by the attention branch of the network, which is then fused with the multi-modality feature extraction branch. Furthermore, to better utilize the potential relationship between images and point clouds, we design a twostage fusion approach to combine the 2D and 3D attention. Our work is tested on two public datasets, and experiments show that the adaptive weights help improve recognition accuracy and system robustness to varying environments.
翻訳日:2021-11-24 16:03:01 公開日:2021-11-23
# 顔バイオメトリックスにおける提示検出入門と最近の進歩

Introduction to Presentation Attack Detection in Face Biometrics and Recent Advances ( http://arxiv.org/abs/2111.11794v1 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Julian Fierrez, Aythami Morales and Javier Galbally(参考訳) この章の主な対象は、過去数年間のフィールドにおける重要なリソースや進歩を含む、顔提示攻撃検出の紹介として機能することである。 次のページは、顔認識システムが直面することができる異なるプレゼンテーション攻撃を示し、攻撃者がセンサー(主にカメラ、プレゼンテーションアタックインスツルメント(pai))に提示し、一般的に写真、ビデオ、マスクであり、本物のユーザーを偽装しようとする。 まず,顔認識の現状,展開レベル,課題について紹介する。 さらに,顔認証システムに対する脆弱性や攻撃の可能性を示すとともに,提示攻撃検出手法の重要度の高さを示す。 我々は,より単純なものからより複雑なものまで,さまざまな種類のプレゼンテーションアタック手法について検討し,その効果を検証した。 次に、これらの攻撃に対処する最も一般的なプレゼンテーション攻撃検出手法を要約する。 最後に,顔のバイオメトリックスの脆弱性を探究し,既知のPAIに対する効果的な対策を開発するために,研究コミュニティが使用している公開データセットを紹介した。

The main scope of this chapter is to serve as an introduction to face presentation attack detection, including key resources and advances in the field in the last few years. The next pages present the different presentation attacks that a face recognition system can confront, in which an attacker presents to the sensor, mainly a camera, a Presentation Attack Instrument (PAI), that is generally a photograph, a video, or a mask, to try to impersonate a genuine user. First, we make an introduction of the current status of face recognition, its level of deployment, and its challenges. In addition, we present the vulnerabilities and the possible attacks that a face recognition system may be exposed to, showing that way the high importance of presentation attack detection methods. We review different types of presentation attack methods, from simpler to more complex ones, and in which cases they could be effective. Then, we summarize the most popular presentation attack detection methods to deal with these attacks. Finally, we introduce public datasets used by the research community for exploring vulnerabilities of face biometrics to presentation attacks and developing effective countermeasures against known PAIs.
翻訳日:2021-11-24 16:02:43 公開日:2021-11-23
# 信頼性画像測位のための選択予測の活用

Leveraging Selective Prediction for Reliable Image Geolocation ( http://arxiv.org/abs/2111.11952v1 )

ライセンス: Link先を確認
Apostolos Panagiotopoulos, Giorgos Kordopatis-Zilos, Symeon Papadopoulos(参考訳) 信頼性の高い画像位置情報は、ソーシャルメディアのジオタグから偽ニュース検出まで、いくつかのアプリケーションで不可欠である。 画像からの位置情報推定タスクにおいて,最先端のジオロケーション手法は人間の性能を上回っている。 しかし,この課題に対する画像の適合性を評価する手法は存在せず,位置情報の手がかりを持たない画像に対して不確実かつ誤推定が生じる。 本稿では,画像のローカライズ可能性,すなわち位置推定に適したタスクを定義し,その課題に対処するための選択的な予測手法を提案する。 特に,位置情報モデルの出力確率分布を利用して異なるスケールでの局所化可能性を推定する2つの新しい選択関数を提案する。 私たちの選択関数は、最も広く使われている選択予測ベースラインに対してベンチマークされ、すべてのケースでそれらを上回っています。 非ローカライズ可能な画像の予測を控えることで、都市規模での位置情報の精度を27.8%から70.5%に改善し、現在の位置情報モデルを現実世界のアプリケーションに信頼性を持たせる。

Reliable image geolocation is crucial for several applications, ranging from social media geo-tagging to fake news detection. State-of-the-art geolocation methods surpass human performance on the task of geolocation estimation from images. However, no method assesses the suitability of an image for this task, which results in unreliable and erroneous estimations for images containing no geolocation clues. In this paper, we define the task of image localizability, i.e. suitability of an image for geolocation, and propose a selective prediction methodology to address the task. In particular, we propose two novel selection functions that leverage the output probability distributions of geolocation models to infer localizability at different scales. Our selection functions are benchmarked against the most widely used selective prediction baselines, outperforming them in all cases. By abstaining from predicting non-localizable images, we improve geolocation accuracy from 27.8% to 70.5% at the city-scale, and thus make current geolocation models reliable for real-world applications.
翻訳日:2021-11-24 16:01:56 公開日:2021-11-23
# Mip-NeRF 360:非有界反エイリアス性神経放射場

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields ( http://arxiv.org/abs/2111.12077v1 )

ライセンス: Link先を確認
Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman(参考訳) ニューラルラディアンス場(NeRF)は、物体や空間の小さな境界領域で印象的なビュー合成結果を示しているが、カメラがあらゆる方向を指し、あらゆる距離に存在するかもしれない「境界のない」シーンで苦労している。 この設定では、既存のnerfライクなモデルは、しばしばぼやけた、または低解像度のレンダリング(近くの物体と遠くの物体のバランスのとれない詳細とスケール)を生成し、訓練が遅く、小さな画像から大きなシーンを再構築する作業の本来のあいまいさのためにアーティファクトを表示する。 本稿では,非有界シーンの課題を克服するために,非線形シーンパラメータ化,オンライン蒸留,新しい歪みに基づく正則化器を用いたmip-nerf(サンプリングとエイリアスに対処するnerf変種)の拡張を提案する。 我々のモデルは、カメラが1点あたり360度回転するシーンをターゲットとしており、平均2乗誤差をmip-NeRFに比べて54%低減し、高度に複雑で無界な現実世界のシーンに対して、リアルに合成されたビューと詳細な深度マップを作成することができる。

Though neural radiance fields (NeRF) have demonstrated impressive view synthesis results on objects and small bounded regions of space, they struggle on "unbounded" scenes, where the camera may point in any direction and content may exist at any distance. In this setting, existing NeRF-like models often produce blurry or low-resolution renderings (due to the unbalanced detail and scale of nearby and distant objects), are slow to train, and may exhibit artifacts due to the inherent ambiguity of the task of reconstructing a large scene from a small set of images. We present an extension of mip-NeRF (a NeRF variant that addresses sampling and aliasing) that uses a non-linear scene parameterization, online distillation, and a novel distortion-based regularizer to overcome the challenges presented by unbounded scenes. Our model, which we dub "mip-NeRF 360" as we target scenes in which the camera rotates 360 degrees around a point, reduces mean-squared error by 54% compared to mip-NeRF, and is able to produce realistic synthesized views and detailed depth maps for highly intricate, unbounded real-world scenes.
翻訳日:2021-11-24 16:01:39 公開日:2021-11-23
# Guided-TTS:非転写音声によるテキスト音声合成

Guided-TTS:Text-to-S peech with Untranscribed Speech ( http://arxiv.org/abs/2111.11755v1 )

ライセンス: Link先を確認
Heeseung Kim, Sungwon Kim, Sungroh Yoon(参考訳) ほとんどのニューラルテキスト音声合成(TTS)モデルは、高品質な音声合成のために、所望の話者から<speech, transcript>ペアデータを必要とする。 本稿では,音声データから音声を生成するための高品質ttsモデルであるガイド付きttsについて述べる。 Guided-TTSは、非条件拡散確率モデルと個別に訓練された音素分類器を組み合わせる。 音声の非条件分布をモデル化することにより、未転写データをトレーニングに利用することができる。 テキストから音声への合成には,音素分類による無条件ddpmの生成過程を指導し,条件分布からメルスペクトログラムを生成する。 Guided-TTS は LJSpeech の書き起こしなしで既存のメソッドと同等の性能を発揮することを示す。 さらに,マルチ話者大規模データに基づいて学習した1つの話者依存音素分類器は,様々な話者がTSを行うための無条件DDPMを誘導できることを示した。

Most neural text-to-speech (TTS) models require <speech, transcript> paired data from the desired speaker for high-quality speech synthesis, which limits the usage of large amounts of untranscribed data for training. In this work, we present Guided-TTS, a high-quality TTS model that learns to generate speech from untranscribed speech data. Guided-TTS combines an unconditional diffusion probabilistic model with a separately trained phoneme classifier for text-to-speech. By modeling the unconditional distribution for speech, our model can utilize the untranscribed data for training. For text-to-speech synthesis, we guide the generative process of the unconditional DDPM via phoneme classification to produce mel-spectrograms from the conditional distribution given transcript. We show that Guided-TTS achieves comparable performance with the existing methods without any transcript for LJSpeech. Our results further show that a single speaker-dependent phoneme classifier trained on multispeaker large-scale data can guide unconditional DDPMs for various speakers to perform TTS.
翻訳日:2021-11-24 15:59:51 公開日:2021-11-23
# 音源分離のためのアップサンプリング層

Upsampling layers for music source separation ( http://arxiv.org/abs/2111.11773v1 )

ライセンス: Link先を確認
Jordi Pons, Joan Serr\`a, Santiago Pascual, Giulio Cengarle, Daniel Arteaga, Davide Scaini(参考訳) アップサンプリングアーティファクトは、問題のあるアップサンプリング層と、アップサンプリング中に発生するスペクトルレプリカによって引き起こされる。 また、使用したアップサンプリング層によっては、これらのアーティファクトは、トーナルアーティファクト(付加高周波ノイズ)またはフィルタリングアーティファクト(サブストアクティブ、一部のバンドの減衰)のいずれかである。 本研究では,様々なアーチファクトがどう相互作用し,モデルの性能に与える影響を評価することにより,結果のオーディオにアーチファクトをサンプリングすることの実際的意義について検討する。 そこで我々は,音楽ソース分離のための大規模アップサンプリング層のベンチマークを行った。異なるトランスポーズおよびサブピクセル畳み込み設定,異なる補間アップサンプラー(ストレッチとシンク補間に基づく2つの新規層を含む),異なるウェーブレットベースのアップサンプラー(新しい学習可能なウェーブレット層を含む)である。 以上の結果から, 補間アップサンプラーに付随するフィルタアーチファクトは, 客観的スコアが悪くても, 知覚的に好適であることが示唆された。

Upsampling artifacts are caused by problematic upsampling layers and due to spectral replicas that emerge while upsampling. Also, depending on the used upsampling layer, such artifacts can either be tonal artifacts (additive high-frequency noise) or filtering artifacts (substractive, attenuating some bands). In this work we investigate the practical implications of having upsampling artifacts in the resulting audio, by studying how different artifacts interact and assessing their impact on the models' performance. To that end, we benchmark a large set of upsampling layers for music source separation: different transposed and subpixel convolution setups, different interpolation upsamplers (including two novel layers based on stretch and sinc interpolation), and different wavelet-based upsamplers (including a novel learnable wavelet layer). Our results show that filtering artifacts, associated with interpolation upsamplers, are perceptually preferrable, even if they tend to achieve worse objective scores.
翻訳日:2021-11-24 15:59:36 公開日:2021-11-23
# 超端デバイスのための機械学習を用いたエンドツーエンド最適化不整脈検出パイプライン

End-to-End Optimized Arrhythmia Detection Pipeline using Machine Learning for Ultra-Edge Devices ( http://arxiv.org/abs/2111.11789v1 )

ライセンス: Link先を確認
Sideshwar J B (1), Sachin Krishan T (1), Vishal Nagarajan (1), Shanthakumar S (2), Vineeth Vijayaraghavan (2) ((1) SSN College of Engineering, Chennai, India, (2) Solarillion Foundation, Chennai, India)(参考訳) 心房細動(AF)は世界中で最も多い不整脈であり、人口の2%が影響を受けた。 脳卒中、心不全、その他の心臓関連合併症のリスクの増加に関係している。 リスクの高い個人をモニタリングし、無症候性AFを検出することは、無症候性AFを持つ個人が生活習慣の変化を予防できるため、かなりの公衆衛生上の利益をもたらす可能性がある。 ウェアラブルの価格が上がるにつれて、パーソナライズされたヘルスケアがよりアクセスしやすくなってきている。 これらのパーソナライズされた医療ソリューションは、計算的に安価でありながら、バイオシグナルの正確な分類を必要とする。 デバイス上で推論を行うことで、レイテンシやネットワーク接続依存性といったクラウドベースのシステム固有の問題を回避する。 超エッジデバイスにデプロイ可能な高精度なリアルタイム心房細動検出のための効率的なパイプラインを提案する。 本研究で採用した特徴工学は,提案パイプラインで使用するリソース効率の高い分類器の最適化に資し,2%の精度でメモリフットプリントにおいて,最高性能の標準mlモデルに10^5\times$を上回った。 また、403$\times$ より少ないメモリを消費し、5.2$\times$が以前のsoa(state-of-the-art )組み込み実装よりも高速である一方で、約6%の精度を得ることができます。

Atrial fibrillation (AF) is the most prevalent cardiac arrhythmia worldwide, with 2% of the population affected. It is associated with an increased risk of strokes, heart failure and other heart-related complications. Monitoring at-risk individuals and detecting asymptomatic AF could result in considerable public health benefits, as individuals with asymptomatic AF could take preventive measures with lifestyle changes. With increasing affordability to wearables, personalized health care is becoming more accessible. These personalized healthcare solutions require accurate classification of bio-signals while being computationally inexpensive. By making inferences on-device, we avoid issues inherent to cloud-based systems such as latency and network connection dependency. We propose an efficient pipeline for real-time Atrial Fibrillation Detection with high accuracy that can be deployed in ultra-edge devices. The feature engineering employed in this research catered to optimizing the resource-efficient classifier used in the proposed pipeline, which was able to outperform the best performing standard ML model by $10^5\times$ in terms of memory footprint with a mere trade-off of 2% classification accuracy. We also obtain higher accuracy of approximately 6% while consuming 403$\times$ lesser memory and being 5.2$\times$ faster compared to the previous state-of-the-art (SoA) embedded implementation.
翻訳日:2021-11-24 15:58:56 公開日:2021-11-23
# (参考訳) 変圧器型人物再同定のための自己教師付き事前学習 [全文訳有]

Self-Supervised Pre-Training for Transformer-Based Person Re-Identification ( http://arxiv.org/abs/2111.12084v1 )

ライセンス: CC BY 4.0
Hao Luo, Pichao Wang, Yi Xu, Feng Ding, Yanxin Zhou, Fan Wang, Hao Li, Rong Jin(参考訳) トランスフォーマーをベースとした教師付き事前訓練は、人物再識別(ReID)において大きな性能を発揮する。 しかし、ImageNetとReIDデータセットのドメインギャップのため、トランスフォーマーの強力なデータ適合能力のためにパフォーマンスを向上させるために、通常、より大きな事前トレーニングデータセット(ImageNet-21Kなど)が必要である。 この課題に対処するため、この研究は、データとモデル構造の観点から、プリトレーニングとreidデータセット間のギャップを緩和することを目的としている。 視覚変換器 (ViT) を用いた自己教師あり学習(SSL) 手法をまず, ラベルのない人物画像(LUPerson データセット)で事前訓練し, ReID タスクにおける ImageNet による教師あり事前訓練モデルを大幅に上回っていることを実証的に確認した。 ドメインギャップをさらに減らし,事前学習を加速するため,予備学習データと微調整データとのギャップを評価するためにCFS(Caastrophic Forgetting Score)を提案する。 CFSに基づいて、サブセットは、下流のReIDデータに近い関連データをサンプリングし、トレーニング前のデータセットから無関係データをフィルタリングすることで選択される。 モデル構造では, IBN-based convolution stem (ICS) と呼ばれるReID固有のモジュールが, より不変な特徴を学習することによって, ドメインギャップを橋渡しするために提案されている。 教師付き学習、教師なしドメイン適応(UDA)、教師なし学習(USL)設定の下で、事前学習モデルを微調整するための大規模な実験が行われた。 LUPersonデータセットを50%までダウンスケールすることに成功しました。 最後に,Market-1501とMSMT17の最先端性能を実現する。 例えば、我々の ViT-S/16 は Market1501 で 91.3%/89.9%/89.6% mAP の精度を達成している。 コードとモデルはhttps://github.com/m ichuanhaohao/TransRe ID-SSLにリリースされる。

Transformer-based supervised pre-training achieves great performance in person re-identification (ReID). However, due to the domain gap between ImageNet and ReID datasets, it usually needs a larger pre-training dataset (e.g. ImageNet-21K) to boost the performance because of the strong data fitting ability of the transformer. To address this challenge, this work targets to mitigate the gap between the pre-training and ReID datasets from the perspective of data and model structure, respectively. We first investigate self-supervised learning (SSL) methods with Vision Transformer (ViT) pretrained on unlabelled person images (the LUPerson dataset), and empirically find it significantly surpasses ImageNet supervised pre-training models on ReID tasks. To further reduce the domain gap and accelerate the pre-training, the Catastrophic Forgetting Score (CFS) is proposed to evaluate the gap between pre-training and fine-tuning data. Based on CFS, a subset is selected via sampling relevant data close to the down-stream ReID data and filtering irrelevant data from the pre-training dataset. For the model structure, a ReID-specific module named IBN-based convolution stem (ICS) is proposed to bridge the domain gap by learning more invariant features. Extensive experiments have been conducted to fine-tune the pre-training models under supervised learning, unsupervised domain adaptation (UDA), and unsupervised learning (USL) settings. We successfully downscale the LUPerson dataset to 50% with no performance degradation. Finally, we achieve state-of-the-art performance on Market-1501 and MSMT17. For example, our ViT-S/16 achieves 91.3%/89.9%/89.6% mAP accuracy on Market1501 for supervised/UDA/USL ReID. Codes and models will be released to https://github.com/m ichuanhaohao/TransRe ID-SSL.
翻訳日:2021-11-24 15:56:06 公開日:2021-11-23
# GANの潜時空間解釈のためのテンソル成分分析

Tensor Component Analysis for Interpreting the Latent Space of GANs ( http://arxiv.org/abs/2111.11736v1 )

ライセンス: Link先を確認
James Oldfield, Markos Georgopoulos, Yannis Panagakis, Mihalis A. Nicolaou, Ioannis Patras(参考訳) 本稿では,GAN(Pre-trained Generative Adversarial Networks)の潜在空間における解釈可能な方向を求めることで,制御可能な画像合成を容易にする。 このような解釈可能な方向は、合成画像のスタイルと形状の両方に影響を与える変換に対応する。 しかし、これらの変換を見つけるために線形手法を利用する既存のアプローチは、しばしばこれらの2つの変異源を分離する直感的な方法を提供しない。 これに対処するために 提案します a)中間表現のテンソルの多重線形分解を行い、 b) この分解を用いて得られた方向を潜在空間にマッピングするためにテンソルに基づく回帰を用いる。 本方式では,テンソルの個別モードに対応する線形編集と,それらの乗法的相互作用をモデル化する非線形編集の両方を可能にする。 実験により,前者が幾何学的変換からより優れたスタイルを分離し,後者が以前の作品と比較して可能な変換の拡張集合を生成できることを示した。 我々は,現在の技術と定量的・質的に両立する手法の有効性を示す。

This paper addresses the problem of finding interpretable directions in the latent space of pre-trained Generative Adversarial Networks (GANs) to facilitate controllable image synthesis. Such interpretable directions correspond to transformations that can affect both the style and geometry of the synthetic images. However, existing approaches that utilise linear techniques to find these transformations often fail to provide an intuitive way to separate these two sources of variation. To address this, we propose to a) perform a multilinear decomposition of the tensor of intermediate representations, and b) use a tensor-based regression to map directions found using this decomposition to the latent space. Our scheme allows for both linear edits corresponding to the individual modes of the tensor, and non-linear ones that model the multiplicative interactions between them. We show experimentally that we can utilise the former to better separate style- from geometry-based transformations, and the latter to generate an extended set of possible transformations in comparison to prior works. We demonstrate our approach's efficacy both quantitatively and qualitatively compared to the current state-of-the-art.
翻訳日:2021-11-24 15:27:15 公開日:2021-11-23
# 単一画像分解のための深部残差フーリエ変換

Deep Residual Fourier Transformation for Single Image Deblurring ( http://arxiv.org/abs/2111.11745v1 )

ライセンス: Link先を確認
Xintian Mao, Yiming Liu, Wei Shen, Qingli Li, Yan Wang(参考訳) エンド・ツー・エンドの画像デブラリングアーキテクチャにおいて、ぼやけた画像ペアとシャープな画像ペアの違いを学ぶresblockを採用するのが一般的である。 ぼやけた画像からシャープな画像を再構成するには、低周波情報と高周波情報の両方を変更する必要がある。 従来のResBlockは、画像の高周波成分を捕捉する能力に優れるが、低周波情報を見渡す傾向にある。 さらに、ResBlockは通常、ぼやけた画像からシャープなイメージを再構築する際に、非自明な長距離情報をフェール的にモデル化することができない。 本稿では,低周波残差情報と高周波残差情報を統合しながら,長期・短期の相互作用を捉えることができるResidual Fast Fourier Transform with Convolution Block (Res FFT-Conv Block)を提案する。 Res FFT-Conv Blockは概念的には単純だが計算効率が良く、プラグアンドプレイブロックであり、異なるアーキテクチャで顕著な性能向上をもたらす。 また, Res FFT-Conv Blockを用いて, MIMO-UNetに基づくDeep Residual Fourier Transformation (DeepRFT)フレームワークを提案する。 実験によると、私たちのDeepRFTは、GoProデータセットでのPSNRのパフォーマンスを大幅に向上させることができる(例えば、MIMO-UNetと比較してPSNRが1.09dB改善されている)。

It has been a common practice to adopt the ResBlock, which learns the difference between blurry and sharp image pairs, in end-to-end image deblurring architectures. Reconstructing a sharp image from its blurry counterpart requires changes regarding both low- and high-frequency information. Although conventional ResBlock may have good abilities in capturing the high-frequency components of images, it tends to overlook the low-frequency information. Moreover, ResBlock usually fails to felicitously model the long-distance information which is non-trivial in reconstructing a sharp image from its blurry counterpart. In this paper, we present a Residual Fast Fourier Transform with Convolution Block (Res FFT-Conv Block), capable of capturing both long-term and short-term interactions, while integrating both low- and high-frequency residual information. Res FFT-Conv Block is a conceptually simple yet computationally efficient, and plug-and-play block, leading to remarkable performance gains in different architectures. With Res FFT-Conv Block, we further propose a Deep Residual Fourier Transformation (DeepRFT) framework, based upon MIMO-UNet, achieving state-of-the-art image deblurring performance on GoPro, HIDE, RealBlur and DPDD datasets. Experiments show our DeepRFT can boost image deblurring performance significantly (e.g., with 1.09 dB improvement in PSNR on GoPro dataset compared with MIMO-UNet), and DeepRFT+ even reaches 33.23 dB in PSNR on GoPro dataset.
翻訳日:2021-11-24 15:26:58 公開日:2021-11-23
# 半オンライン知識蒸留

Semi-Online Knowledge Distillation ( http://arxiv.org/abs/2111.11747v1 )

ライセンス: Link先を確認
Zhiqiang Liu, Yanxia Liu, Chengkai Huang(参考訳) 知識蒸留は知識伝達によるモデル圧縮の有効かつ安定した方法である。 従来の知識蒸留(kd)は、大きく訓練された教師ネットワークから、一方向のプロセスである小さな学生ネットワークに知識を移すことである。 近年,学生ネットワークの協調学習を支援する深層相互学習(dml)が提案されている。 しかし,我々の知識を最大限活用するために,KDとDMLは統合された枠組みで知識蒸留問題を解くために共同で検討されたことはない。 本稿では,教師モデルがKDの信頼性の高い監視信号をサポートするのに対して,学生はDMLの教師からより類似した振る舞いを捉える。 これらの観測に基づいて、我々はまずKDとDMLを統合フレームワークで組み合わせることを提案する。 さらに,学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留(SOKD)手法を提案する。 本手法では,学生の模倣の難しさを軽減するため,DMLにおけるピア・ティーチング・トレーニング・ファッションを導入し,また,KDでよく訓練された教師が提供した指導信号を活用する。 さらに、我々のフレームワークを機能ベースの蒸留法に簡単に拡張できることも示しています。 CIFAR-100とImageNetデータセットの大規模な実験により,提案手法が最先端の性能を実現することを示す。

Knowledge distillation is an effective and stable method for model compression via knowledge transfer. Conventional knowledge distillation (KD) is to transfer knowledge from a large and well pre-trained teacher network to a small student network, which is a one-way process. Recently, deep mutual learning (DML) has been proposed to help student networks learn collaboratively and simultaneously. However, to the best of our knowledge, KD and DML have never been jointly explored in a unified framework to solve the knowledge distillation problem. In this paper, we investigate that the teacher model supports more trustworthy supervision signals in KD, while the student captures more similar behaviors from the teacher in DML. Based on these observations, we first propose to combine KD with DML in a unified framework. Furthermore, we propose a Semi-Online Knowledge Distillation (SOKD) method that effectively improves the performance of the student and the teacher. In this method, we introduce the peer-teaching training fashion in DML in order to alleviate the student's imitation difficulty, and also leverage the supervision signals provided by the well-trained teacher in KD. Besides, we also show our framework can be easily extended to feature-based distillation methods. Extensive experiments on CIFAR-100 and ImageNet datasets demonstrate the proposed method achieves state-of-the-art performance.
翻訳日:2021-11-24 15:26:25 公開日:2021-11-23
# GenReg: 高速クラウド登録のための深層生成方法

GenReg: Deep Generative Method for Fast Point Cloud Registration ( http://arxiv.org/abs/2111.11783v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Zongyi Xu, Guofeng Mei, Sheng Li, Jian Zhang, Yifan Zuo, Yucheng Wang(参考訳) ノイズや大量のポイントが対応検索に影響を与えるため、正確で効率的なポイントクラウド登録は課題である。 既存の手法のほとんどが対応検索に依存しているため、この課題は依然として研究課題である。 この課題を解決するために,深層生成型ニューラルネットワークを用いてクラウド登録を行う新しいデータ駆動型登録アルゴリズムを提案する。 2点のクラウドが与えられたとき、モチベーションは整列点のクラウドを直接生成することであり、これは3Dマッチングや検索のような多くのアプリケーションで非常に有用である。 我々は3つの新しいコンポーネントを含むこのモチベーションを達成するために、整列点雲生成のためのエンドツーエンド生成ニューラルネットワークを設計する。 まず,マルチパーセプション層(MLP)ミキサ(PointMixer)ネットワークを提案する。 次に,クロスポイントクラウドからの情報を融合する機能インタラクションモジュールを提案する。 第3に, 生成した登録結果に基づいて入力点雲の変換行列を計算するために, 並列および微分サンプルコンセンサス法を提案する。 提案する生成ニューラルネットワークは、データ分布と構造類似性を維持してganフレームワークでトレーニングされる。 ModelNet40と7Sceneのデータセットを用いた実験により、提案アルゴリズムが最先端の精度と効率を達成することを示した。 特に,本手法は,最新の対応型アルゴリズムと比較して,登録誤差(CD)が2ドル,動作時間が12ドルである。

Accurate and efficient point cloud registration is a challenge because the noise and a large number of points impact the correspondence search. This challenge is still a remaining research problem since most of the existing methods rely on correspondence search. To solve this challenge, we propose a new data-driven registration algorithm by investigating deep generative neural networks to point cloud registration. Given two point clouds, the motivation is to generate the aligned point clouds directly, which is very useful in many applications like 3D matching and search. We design an end-to-end generative neural network for aligned point clouds generation to achieve this motivation, containing three novel components. Firstly, a point multi-perception layer (MLP) mixer (PointMixer) network is proposed to efficiently maintain both the global and local structure information at multiple levels from the self point clouds. Secondly, a feature interaction module is proposed to fuse information from cross point clouds. Thirdly, a parallel and differential sample consensus method is proposed to calculate the transformation matrix of the input point clouds based on the generated registration results. The proposed generative neural network is trained in a GAN framework by maintaining the data distribution and structure similarity. The experiments on both ModelNet40 and 7Scene datasets demonstrate that the proposed algorithm achieves state-of-the-art accuracy and efficiency. Notably, our method reduces $2\times$ in registration error (CD) and $12\times$ running time compared to the state-of-the-art correspondence-based algorithm.
翻訳日:2021-11-24 15:26:07 公開日:2021-11-23
# 深層クラスタリングのための非コントラスト表現学習の探索

Exploring Non-Contrastive Representation Learning for Deep Clustering ( http://arxiv.org/abs/2111.11821v1 )

ライセンス: Link先を確認
Zhizhong Huang, Jie Chen, Junping Zhang, Hongming Shan(参考訳) 既存のディープクラスタリング手法は、表現学習のための対比学習に依存しており、すべてのインスタンスが適切に分離された埋め込み空間を形成するために負の例を必要とする。 しかし、否定的な例は必然的にクラス衝突問題を引き起こし、クラスタリングのための表現学習を妥協する。 本稿では,nccと呼ばれる,負の例のない代表的手法であるbyolに基づく深層クラスタリングのための非連続表現学習について検討する。 まず, 負の例によるクラス衝突の問題を回避し, クラスタ内コンパクト性を向上する, 正のサンプリング戦略と呼ばれる, 埋め込み空間における他のビューの隣人に対する拡張的なビューの調整を提案する。 第2に,プロトタイプの2つの拡張ビューのアライメントと,クラスタ間距離を最大化するプロトタイプ的コントラスト損失(ProtoCL)という,プロトタイプ間の均一性の向上を提案する。 さらに,e-stepが球面k-meansを用いて,ターゲットネットワークからインスタンスの擬似ラベルとプロトタイプの分布を推定するexpectation-maximiza tion(em)フレームワークでnccを定式化し,m-stepが提案する損失を利用してオンラインネットワークを最適化する。 その結果、NCCはすべてのクラスタが十分に分離され、クラスタ内の例がコンパクトな埋め込み空間を形成する。 ImageNet-1Kを含むいくつかのクラスタリングベンチマークデータセットの実験結果は、NCCが最先端の手法よりかなり優れていることを示している。

Existing deep clustering methods rely on contrastive learning for representation learning, which requires negative examples to form an embedding space where all instances are well-separated. However, the negative examples inevitably give rise to the class collision issue, compromising the representation learning for clustering. In this paper, we explore non-contrastive representation learning for deep clustering, termed NCC, which is based on BYOL, a representative method without negative examples. First, we propose to align one augmented view of instance with the neighbors of another view in the embedding space, called positive sampling strategy, which avoids the class collision issue caused by the negative examples and hence improves the within-cluster compactness. Second, we propose to encourage alignment between two augmented views of one prototype and uniformity among all prototypes, named prototypical contrastive loss or ProtoCL, which can maximize the inter-cluster distance. Moreover, we formulate NCC in an Expectation-Maximiza tion (EM) framework, in which E-step utilizes spherical k-means to estimate the pseudo-labels of instances and distribution of prototypes from a target network and M-step leverages the proposed losses to optimize an online network. As a result, NCC forms an embedding space where all clusters are well-separated and within-cluster examples are compact. Experimental results on several clustering benchmark datasets including ImageNet-1K demonstrate that NCC outperforms the state-of-the-art methods by a significant margin.
翻訳日:2021-11-24 15:25:40 公開日:2021-11-23
# 突発的物体検出のための汎用発散モデリング戦略

A General Divergence Modeling Strategy for Salient Object Detection ( http://arxiv.org/abs/2111.11827v1 )

ライセンス: Link先を確認
Xinyu Tian, Jing Zhang, Yuchao Dai(参考訳) 有能な物体検出は本質的に主観的であり、複数の推定値が同一の入力画像と関連していることが示唆される。 既存の有意なオブジェクト検出モデルは、点から点までの推定学習パイプラインに従って決定論的であり、予測分布を推定できない。 潜在変数モデルに基づく確率的予測ネットワークは予測変種をモデル化するために存在するが、単一のクリーンなサリエンシアノテーションに基づく潜時空間は、サリエンシの主観的な性質を探索する上で信頼性が低く、より効果的なサリエンシの「分散モデリング」につながる。 複数のサリエンシアノテーションが与えられた場合、ランダムサンプリングによる一般的な分散モデリング戦略を導入し、アンサンブルベースのフレームワークと3つの潜在変数モデルベースのソリューションに適用する。 実験の結果,我々の分散モデリング戦略は,塩分の主観的性質を探究する上で優れていることがわかった。

Salient object detection is subjective in nature, which implies that multiple estimations should be related to the same input image. Most existing salient object detection models are deterministic following a point to point estimation learning pipeline, making them incapable to estimate the predictive distribution. Although latent variable model based stochastic prediction network exists to model the prediction variants, the latent space based on the single clean saliency annotation is less reliable in exploring the subjective nature of saliency, leading to less effective saliency "divergence modeling". Given multiple saliency annotations, we introduce a general divergence modeling strategy via random sampling, and apply our strategy to an ensemble based framework and three latent variable model based solutions. Experimental results indicate that our general divergence modeling strategy works superiorly in exploring the subjective nature of saliency.
翻訳日:2021-11-24 15:25:13 公開日:2021-11-23
# 検知器の音声・グローバル知識蒸留

Focal and Global Knowledge Distillation for Detectors ( http://arxiv.org/abs/2111.11837v1 )

ライセンス: Link先を確認
Zhendong Yang, Zhe Li, Xiaohu Jiang, Yuan Gong, Zehuan Yuan, Danpei Zhao, Chun Yuan(参考訳) 知識蒸留は画像分類にうまく適用されている。 しかし、物体検出はより高度であり、ほとんどの知識蒸留法は失敗している。 本稿では,対象物検出において,教師と生徒の特徴は,特に前景と背景において,異なる領域で大きく異なることを指摘する。 等しく蒸留すると、特徴写像間の不均一な差異が蒸留に悪影響を及ぼす。 そこで我々はFocal and Global Distillation (FGD)を提案する。 焦点蒸留は前景と背景を分離し、生徒は教師の批判的なピクセルとチャンネルに集中する。 グローバル蒸留は異なるピクセル間の関係を再構築し、教師から生徒に転送し、焦点蒸留におけるグローバル情報の欠如を補償する。 本手法は特徴マップ上の損失を計算するだけでよいので,fgdは様々な検出器に適用できる。 背骨の異なる各種検出器を実験した結果,学生検出装置は優れた地図改善を達成できた。 例えば、ResNet-50ベースのRetinaNet、Faster RCNN、RepPoints、Mask RCNNの蒸留法では、COCO2017の40.7%、42.0%、42.0%、42.1% mAPがそれぞれベースラインよりも3.3、3.6、3.4、および2.9高い。 私たちのコードはhttps://github.com/y zd-v/fgdで利用可能です。

Knowledge distillation has been applied to image classification successfully. However, object detection is much more sophisticated and most knowledge distillation methods have failed on it. In this paper, we point out that in object detection, the features of the teacher and student vary greatly in different areas, especially in the foreground and background. If we distill them equally, the uneven differences between feature maps will negatively affect the distillation. Thus, we propose Focal and Global Distillation (FGD). Focal distillation separates the foreground and background, forcing the student to focus on the teacher's critical pixels and channels. Global distillation rebuilds the relation between different pixels and transfers it from teachers to students, compensating for missing global information in focal distillation. As our method only needs to calculate the loss on the feature map, FGD can be applied to various detectors. We experiment on various detectors with different backbones and the results show that the student detector achieves excellent mAP improvement. For example, ResNet-50 based RetinaNet, Faster RCNN, RepPoints and Mask RCNN with our distillation method achieve 40.7%, 42.0%, 42.0% and 42.1% mAP on COCO2017, which are 3.3, 3.6, 3.4 and 2.9 higher than the baseline, respectively. Our codes are available at https://github.com/y zd-v/FGD.
翻訳日:2021-11-24 15:24:54 公開日:2021-11-23
# 分数/整数順PDEに基づくバイナライゼーションモデルの改良結果

Results of improved fractional/integer order PDE-based binarization model ( http://arxiv.org/abs/2111.11899v1 )

ライセンス: Link先を確認
Uche A. Nnolim(参考訳) 本稿では,改良された分数次および整数次偏微分方程式(PDE)に基づく双項化法の結果と比較を行った。 改良されたモデルは、以前の定式化から端点と二項のソース項に加えて拡散項を取り入れている。 さらに、対数局所コントラストエッジ正規化と等方性および異方性エッジ検出の組み合わせにより、劣化文書画像に対するフェードテキスト復元を伴う同時出血スルー除去が可能となる。 最先端PDE法との比較では, 改善と優れた結果が得られた。

In this report, we present and compare the results of an improved fractional and integer order partial differential equation (PDE)-based binarization scheme. The improved model incorporates a diffusion term in addition to the edge and binary source terms from the previous formulation. Furthermore, logarithmic local contrast edge normalization and combined isotropic and anisotropic edge detection enables simultaneous bleed-through elimination with faded text restoration for degraded document images. Comparisons of results with state-of-the-art PDE methods show improved and superior results.
翻訳日:2021-11-24 15:24:28 公開日:2021-11-23
# 3次元ポーズ推定のための階層グラフネットワーク

Hierarchical Graph Networks for 3D Human Pose Estimation ( http://arxiv.org/abs/2111.11927v1 )

ライセンス: Link先を確認
Han Li and Bowen Shi and Wenrui Dai and Yabo Chen and Botao Wang and Yu Sun and Min Guo and Chenlin Li and Junni Zou and Hongkai Xiong(参考訳) 最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されるグラフ構造を利用する傾向がある。 しかし,この骨格トポロジーは体の構造を反映するには小さすぎるため,重度の2次元から3次元の曖昧さに悩まされている。 これらの弱点を克服するために、新しいグラフ畳み込みネットワークアーキテクチャ、階層グラフネットワーク(HGN)を提案する。 これは、多スケールグラフ構造構築戦略によって生成された密度の高いグラフトポロジーに基づいており、より繊細な幾何学的情報を提供する。 提案するアーキテクチャは3つのスパース・ツー・ファイン表現サブネットワークを並列に構成し,マルチスケールのグラフ構造特徴を処理し,新しい特徴融合戦略により情報を交換することで,リッチな階層表現を実現する。 また,詳細な特徴学習をさらに促進するために,3次元粗いメッシュ制約を導入する。 我々のHGNがネットワークパラメータを減らして最先端の性能を達成することを実証した大規模な実験

Recent 2D-to-3D human pose estimation works tend to utilize the graph structure formed by the topology of the human skeleton. However, we argue that this skeletal topology is too sparse to reflect the body structure and suffer from serious 2D-to-3D ambiguity problem. To overcome these weaknesses, we propose a novel graph convolution network architecture, Hierarchical Graph Networks (HGN). It is based on denser graph topology generated by our multi-scale graph structure building strategy, thus providing more delicate geometric information. The proposed architecture contains three sparse-to-fine representation subnetworks organized in parallel, in which multi-scale graph-structured features are processed and exchange information through a novel feature fusion strategy, leading to rich hierarchical representations. We also introduce a 3D coarse mesh constraint to further boost detail-related feature learning. Extensive experiments demonstrate that our HGN achieves the state-of-the art performance with reduced network parameters
翻訳日:2021-11-24 15:23:47 公開日:2021-11-23
# PAM: Pose-invariant Face Recognition のための Pose Attention Module

PAM: Pose Attention Module for Pose-Invariant Face Recognition ( http://arxiv.org/abs/2111.11940v1 )

ライセンス: Link先を確認
En-Jung Tsai, Wei-Chang Yeh(参考訳) ポーズの変化は、顔認識における重要な課題の1つだ。 従来の技術は主に、画像空間における顔のフロンダリゼーションや顔の増強に焦点を当てている。 しかし、画像空間における顔画像の変換は、元の画像の無意味な同一性を保存することが保証されない。 さらに、これらの手法は追加モデルにより計算コストとメモリ要求が増大する。 我々は、異なる特徴レベルを活用し、表現学習を伴う共同学習の利点を享受できる画像空間よりも、階層的な特徴空間で機能変換を行うことがより望ましいと主張する。 そこで,本稿では,ポーズ不変な顔認識のための軽量で実装が容易なposing attention module (pam)を提案する。 特に、PAMは、ポーズのバリエーション間の残差をソフトゲート機構で学習することにより、階層的特徴空間における正面特徴変換を行う。 PAMブロック設計の有効性を広範囲にわたるアブレーション研究により検証し,LFW,CFP-FP, AgeDB-30,CPLFW,CALFW などのベンチマークで評価した。 実験の結果,本手法は最先端の手法に勝るだけでなく,メモリ要求量を75倍以上に削減できることがわかった。 提案手法は大きなポーズ変化を伴う顔認識に限らない点が注目に値する。 PAMのソフトゲート機構を特定の係数に調整することにより、このようなセマンティックアテンションブロックは、年齢、照明、表現など、顔認識における他のクラス内不均衡問題に対処するために容易に拡張することができる。

Pose variation is one of the key challenges in face recognition. Conventional techniques mainly focus on face frontalization or face augmentation in image space. However, transforming face images in image space is not guaranteed to preserve the lossless identity features of the original image. Moreover, these methods suffer from more computational costs and memory requirements due to the additional models. We argue that it is more desirable to perform feature transformation in hierarchical feature space rather than image space, which can take advantage of different feature levels and benefit from joint learning with representation learning. To this end, we propose a lightweight and easy-to-implement attention block, named Pose Attention Module (PAM), for pose-invariant face recognition. Specifically, PAM performs frontal-profile feature transformation in hierarchical feature space by learning residuals between pose variations with a soft gate mechanism. We validated the effectiveness of PAM block design through extensive ablation studies and verified the performance on several popular benchmarks, including LFW, CFP-FP, AgeDB-30, CPLFW, and CALFW. Experimental results show that our method not only outperforms state-of-the-art methods but also effectively reduces memory requirements by more than 75 times. It is noteworthy that our method is not limited to face recognition with large pose variations. By adjusting the soft gate mechanism of PAM to a specific coefficient, such semantic attention block can easily extend to address other intra-class imbalance problems in face recognition, including large variations in age, illumination, expression, etc.
翻訳日:2021-11-24 15:23:28 公開日:2021-11-23
# ドメイン適応型3Dボディコンセプトによる2次元人物の3D化

Lifting 2D Human Pose to 3D with Domain Adapted 3D Body Concept ( http://arxiv.org/abs/2111.11969v1 )

ライセンス: Link先を確認
Qiang Nie, Ziwei Liu, Yunhui Liu(参考訳) 人間の2Dポーズを3Dポーズにリフティングすることは重要な課題である。 既存の3dポーズ推定に苦しむ 1) 2次元データと3次元データの固有の曖昧性,及び 2) 野生では2D-3Dのポーズペアが不足していた。 人間は2D画像や2Dボディキーポイントのセットから人間の3Dポーズを想像することができる。 そこで本研究では,3次元ポーズを用いて人体の3次元概念を学習し,曖昧さを軽減する新しい枠組みを提案する。 身体概念を2Dポーズから理解するために、我々の重要な洞察は2D人間のポーズと3D人間のポーズを2つの異なるドメインとして扱うことである。 2つのドメインに適応することにより、3Dポーズから学んだ身体知識を2Dポーズに適用し、2Dポーズエンコーダを誘導し、ポーズリフトに埋め込まれた情報的な3D"想像"を生成する。 ドメイン適応の観点から、提案フレームワークは、原則付きフレームワークにおける教師付きおよび半教師付き3Dポーズ推定を統一する。 広範な実験により、提案手法が標準ベンチマークで最先端のパフォーマンスを達成できることが示されている。 さらに、明示的に学習された3Dボディの概念は、2Dポーズリフトにおける2D-3Dの曖昧さを効果的に軽減し、一般化を改善し、ネットワークが豊富なラベルのない2Dデータを活用できるようにする。

Lifting the 2D human pose to the 3D pose is an important yet challenging task. Existing 3D pose estimation suffers from 1) the inherent ambiguity between the 2D and 3D data, and 2) the lack of well labeled 2D-3D pose pairs in the wild. Human beings are able to imagine the human 3D pose from a 2D image or a set of 2D body key-points with the least ambiguity, which should be attributed to the prior knowledge of the human body that we have acquired in our mind. Inspired by this, we propose a new framework that leverages the labeled 3D human poses to learn a 3D concept of the human body to reduce the ambiguity. To have consensus on the body concept from 2D pose, our key insight is to treat the 2D human pose and the 3D human pose as two different domains. By adapting the two domains, the body knowledge learned from 3D poses is applied to 2D poses and guides the 2D pose encoder to generate informative 3D "imagination" as embedding in pose lifting. Benefiting from the domain adaptation perspective, the proposed framework unifies the supervised and semi-supervised 3D pose estimation in a principled framework. Extensive experiments demonstrate that the proposed approach can achieve state-of-the-art performance on standard benchmarks. More importantly, it is validated that the explicitly learned 3D body concept effectively alleviates the 2D-3D ambiguity in 2D pose lifting, improves the generalization, and enables the network to exploit the abundant unlabeled 2D data.
翻訳日:2021-11-24 15:23:01 公開日:2021-11-23
# MFM-Net:マルチステージ特徴マッチングによる不整形整形ネットワーク

MFM-Net: Unpaired Shape Completion Network with Multi-stage Feature Matching ( http://arxiv.org/abs/2111.11976v1 )

ライセンス: Link先を確認
Zhen Cao, Wenxiao Zhang, Xin Wen, Zhen Dong, Yu-shen Liu, Bisheng Yang(参考訳) unpaired 3d object completionは、トレーニング中の完全な形状と不完全な形状の対応を知らずに、不完全な入力から完全な3d形状を予測することを目的としている。 2つのデータモダリティ間の対応を構築するために、従来の方法は、通常、エンコーダによって抽出された大域的な形状特徴に一致するために逆訓練を適用する。 しかし、これはデコーダのピラミッド階層に埋め込まれた多スケール幾何情報との対応を無視しており、これは従来の手法が高品質な完全形状を生成するのに苦労している。 この問題に対処するために,マルチステージ特徴マッチングを用いて,ポイントクラウドデコーダの階層生成プロセスを通じて幾何対応の学習を多段階に分解する,新しい不対形状補完ネットワーク MFM-Net を提案する。 具体的には、MFM-Netはデュアルパスアーキテクチャを採用し、デコーダの異なる層に複数の特徴マッチングチャネルを確立する。 また、細部を強化するために精細化を加えている。 その結果、mfm-netは、より包括的理解を用いて、完全形状と不完全形状の間の幾何学的対応を局所的からグローバル的な視点で確立し、高品質な完全形状を生成するためのより詳細な幾何学的推論を可能にする。 提案手法は,複数のデータセットを包括的に実験し,提案手法が従来の非対流点雲補完法よりも大きなマージンを持つことを示す。

Unpaired 3D object completion aims to predict a complete 3D shape from an incomplete input without knowing the correspondence between the complete and incomplete shapes during training. To build the correspondence between two data modalities, previous methods usually apply adversarial training to match the global shape features extracted by the encoder. However, this ignores the correspondence between multi-scaled geometric information embedded in the pyramidal hierarchy of the decoder, which makes previous methods struggle to generate high-quality complete shapes. To address this problem, we propose a novel unpaired shape completion network, named MFM-Net, using multi-stage feature matching, which decomposes the learning of geometric correspondence into multi-stages throughout the hierarchical generation process in the point cloud decoder. Specifically, MFM-Net adopts a dual path architecture to establish multiple feature matching channels in different layers of the decoder, which is then combined with the adversarial learning to merge the distribution of features from complete and incomplete modalities. In addition, a refinement is applied to enhance the details. As a result, MFM-Net makes use of a more comprehensive understanding to establish the geometric correspondence between complete and incomplete shapes in a local-to-global perspective, which enables more detailed geometric inference for generating high-quality complete shapes. We conduct comprehensive experiments on several datasets, and the results show that our method outperforms previous methods of unpaired point cloud completion with a large margin.
翻訳日:2021-11-24 15:22:35 公開日:2021-11-23
# マルチレンジトランスを用いた多人数3次元運動予測

Multi-Person 3D Motion Prediction with Multi-Range Transformers ( http://arxiv.org/abs/2111.12073v1 )

ライセンス: Link先を確認
Jiashun Wang, Huazhe Xu, Medhini Narasimhan, Xiaolong Wang(参考訳) マルチパーソン3次元運動軌跡予測のための新しいフレームワークを提案する。 私たちのキーとなる観察は、人間の行動や行動は周囲の人間に大きく依存する可能性があるということです。 そこで本稿では,人間のポーズの軌跡を別々に予測する代わりに,個人動作のためのローカルレンジエンコーダと,ソーシャルインタラクションのためのグローバルレンジエンコーダを含むマルチレンジトランスフォーマーモデルを導入する。 次に、トランスデコーダは、ローカルおよびグローバルレンジエンコーダ機能の両方に対応するクエリとして対応するポーズを取ることにより、各人の予測を行う。 我々のモデルは、長期3次元動作予測における最先端の手法を上回るだけでなく、多様な社会的相互作用も生み出す。 さらに興味深いことに、我々のモデルは、人を自動的に異なるインタラクショングループに分割することで、同時に15人の動作を予測することができる。 コード付きプロジェクトページはhttps://jiashunwang. github.io/mrt/。

We propose a novel framework for multi-person 3D motion trajectory prediction. Our key observation is that a human's action and behaviors may highly depend on the other persons around. Thus, instead of predicting each human pose trajectory in isolation, we introduce a Multi-Range Transformers model which contains of a local-range encoder for individual motion and a global-range encoder for social interactions. The Transformer decoder then performs prediction for each person by taking a corresponding pose as a query which attends to both local and global-range encoder features. Our model not only outperforms state-of-the-art methods on long-term 3D motion prediction, but also generates diverse social interactions. More interestingly, our model can even predict 15-person motion simultaneously by automatically dividing the persons into different interaction groups. Project page with code is available at https://jiashunwang. github.io/MRT/.
翻訳日:2021-11-24 15:22:08 公開日:2021-11-23
# physformer:時間差トランスフォーマーを用いた顔面ビデオによる生理学的計測

PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer ( http://arxiv.org/abs/2111.12082v1 )

ライセンス: Link先を確認
Zitong Yu, Yuming Shen, Jingang Shi, Hengshuang Zhao, Philip Torr, Guoying Zhao(参考訳) RPPG(Remote Photoplethysmography )は、接触のない顔画像から心臓活動や生理的信号を測定することを目的としており、多くの応用(例えば、遠隔医療や情動コンピューティング)において大きな可能性を秘めている。 近年の深層学習手法は,rPPGモデリングにおける長距離時空間知覚と相互作用を無視した時空間受容場を限定した畳み込みニューラルネットワークを用いた微妙なrPPG手がかりのマイニングに重点を置いている。 本稿では,RPPG表現拡張のための局所的特徴とグローバルな時空間的特徴の両方を適応的に集約する,エンドツーエンドのビデオトランスフォーマーであるPhysFormerを提案する。 PhysFormerのキーモジュールとして、時間差変換器は、まず、時間差を導いた大域的注意を伴って準周期的なrPPG特性を高め、干渉に対する局所時空間表現を洗練させる。 さらに,PhysFormerの厳密な指導と過度適合の緩和を目的としたラベル分布学習と,周波数領域における動的制約にインスパイアされたカリキュラム学習を提案する。 4つのベンチマークデータセットで総合的な実験を行い、データ内テストとクロスデータセットテストの両方で優れたパフォーマンスを示す。 大規模データセットから事前トレーニングが必要なほとんどのトランスフォーマーネットワークとは異なり、提案されたPhysFormerは、rPPGデータセットをスクラッチから簡単にトレーニングできるため、rPPGコミュニティの新たなトランスフォーマーベースラインとして期待できる。 コードはhttps://github.com/z itongyu/physformerでリリースされる。

Remote photoplethysmography (rPPG), which aims at measuring heart activities and physiological signals from facial video without any contact, has great potential in many applications (e.g., remote healthcare and affective computing). Recent deep learning approaches focus on mining subtle rPPG clues using convolutional neural networks with limited spatio-temporal receptive fields, which neglect the long-range spatio-temporal perception and interaction for rPPG modeling. In this paper, we propose the PhysFormer, an end-to-end video transformer based architecture, to adaptively aggregate both local and global spatio-temporal features for rPPG representation enhancement. As key modules in PhysFormer, the temporal difference transformers first enhance the quasi-periodic rPPG features with temporal difference guided global attention, and then refine the local spatio-temporal representation against interference. Furthermore, we also propose the label distribution learning and a curriculum learning inspired dynamic constraint in frequency domain, which provide elaborate supervisions for PhysFormer and alleviate overfitting. Comprehensive experiments are performed on four benchmark datasets to show our superior performance on both intra- and cross-dataset testings. One highlight is that, unlike most transformer networks needed pretraining from large-scale datasets, the proposed PhysFormer can be easily trained from scratch on rPPG datasets, which makes it promising as a novel transformer baseline for the rPPG community. The codes will be released at https://github.com/Z itongYu/PhysFormer.
翻訳日:2021-11-24 15:21:51 公開日:2021-11-23
# テキストとボックスのフォーマット境界を越える:統一視覚言語モデリングに向けて

Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling ( http://arxiv.org/abs/2111.12085v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, Lijuan Wang(参考訳) 本稿では,テキスト生成と境界ボックス予測を単一のアーキテクチャに統一する視覚言語(VL)モデルであるUNICORNを提案する。 具体的には、各ボックスを4つの離散ボックストークンに量子化し、それらをシーケンスとしてシリアライズする。 VL問題はすべて生成タスクとして定式化し、ターゲットシーケンスは統合テキストとボックストークンから構成される。 次に、変換器エンコーダデコーダを訓練し、自動回帰的にターゲットを予測する。 このような統合されたフレームワークと入力出力フォーマットにより、UNICORNは7つのVLベンチマークで、視覚的なグラウンド、接地されたキャプション、視覚的な質問応答、イメージキャプションタスクを含む、タスク固有のタスク状態と同等のパフォーマンスを達成する。 マルチタスクの微調整でトレーニングすると、UNICORNは単一のパラメータセットで異なるVLタスクにアプローチできるため、下流のタスク境界を越えることができる。 単一のモデルを持つことでパラメータを節約できるだけでなく、特定のタスクにおけるモデルパフォーマンスも向上することを示す。 最後に、UNICORNはImageNetオブジェクトのローカライゼーションのような新しいタスクに一般化する機能を示している。

In this paper, we propose UNICORN, a vision-language (VL) model that unifies text generation and bounding box prediction into a single architecture. Specifically, we quantize each box into four discrete box tokens and serialize them as a sequence, which can be integrated with text tokens. We formulate all VL problems as a generation task, where the target sequence consists of the integrated text and box tokens. We then train a transformer encoder-decoder to predict the target in an auto-regressive manner. With such a unified framework and input-output format, UNICORN achieves comparable performance to task-specific state of the art on 7 VL benchmarks, covering the visual grounding, grounded captioning, visual question answering, and image captioning tasks. When trained with multi-task finetuning, UNICORN can approach different VL tasks with a single set of parameters, thus crossing downstream task boundary. We show that having a single model not only saves parameters, but also further boosts the model performance on certain tasks. Finally, UNICORN shows the capability of generalizing to new tasks such as ImageNet object localization.
翻訳日:2021-11-24 15:21:21 公開日:2021-11-23
# スコットランドの主流参加型予算プロセスにおけるNLPツールの適用性評価

Evaluating the application of NLP tools in mainstream participatory budgeting processes in Scotland ( http://arxiv.org/abs/2111.11766v1 )

ライセンス: Link先を確認
Jonathan Davies, Miguel Arana-Catania, Rob Procter, Felix-Anselm van Lier, Yulan He(参考訳) 近年、スコットランドにおける参加型予算制度(PB)は、コミュニティ主導のプロセスから、地方政府や国家政府が支持する運動へと成長している。 これは、スコットランド政府とスコットランド地方自治体条約(COSLA)の合意により、地方自治体の予算の少なくとも1%がPBに該当することになっている。 この研究論文は、スコットランドを構成する32の地方自治体にまたがって、この「スケールアップ」や「メインストリーム」から生じる課題を探求している。 主な目的は、これらの課題に対処するために自然言語処理(NLP)を適用するデジタルプラットフォームConsulの地方自治体利用を評価することである。 本研究は,インタビュー,PBプロセスの観察,デジタルプラットフォームデータの解析による定性的な縦設計を採用する。 テーマ分析は、出現する主要な問題やテーマを捉えるために用いられる。 縦断解析は、時間とともにどのように進化するかを探索する。 32のライブ学習サイトの可能性は、存在するかもしれない課題や課題を具現化し、より深く掘り下げる、独立した政治的、社会的コンテキストを探求するユニークな機会を提供する。 最初の結果は、スケールアップから生じる問題や課題は、以前の制御されたユースケースベースの評価において市民参加の有効性が向上するnlp技術を用いて取り組まれる可能性があることを示している。

In recent years participatory budgeting (PB) in Scotland has grown from a handful of community-led processes to a movement supported by local and national government. This is epitomized by an agreement between the Scottish Government and the Convention of Scottish Local Authorities (COSLA) that at least 1% of local authority budgets will be subject to PB. This ongoing research paper explores the challenges that emerge from this 'scaling up' or 'mainstreaming' across the 32 local authorities that make up Scotland. The main objective is to evaluate local authority use of the digital platform Consul, which applies Natural Language Processing (NLP) to address these challenges. This project adopts a qualitative longitudinal design with interviews, observations of PB processes, and analysis of the digital platform data. Thematic analysis is employed to capture the major issues and themes which emerge. Longitudinal analysis then explores how these evolve over time. The potential for 32 live study sites provides a unique opportunity to explore discrete political and social contexts which materialize and allow for a deeper dive into the challenges and issues that may exist, something a wider cross-sectional study would miss. Initial results show that issues and challenges which come from scaling up may be tackled using NLP technology which, in a previous controlled use case-based evaluation, has shown to improve the effectiveness of citizen participation.
翻訳日:2021-11-24 15:21:00 公開日:2021-11-23
# 学術知識グラフ完成のための三重分類

Triple Classification for Scholarly Knowledge Graph Completion ( http://arxiv.org/abs/2111.11845v1 )

ライセンス: Link先を確認
Mohamad Yaser Jaradeh, Kuldeep Singh, Markus Stocker, S\"oren Auer(参考訳) 学術知識グラフ (Scholarly Knowledge Graphs, KGs) は、学術出版物に符号化された知識を表す構造化情報の豊富な情報源を提供する。 科学的な概念を記述するための多種多様な不均一な実体と関係を含む科学文献の膨大な量から、これらのKGは本質的に不完全である。 本稿では,事前学習したトランスフォーマー言語モデルを利用して学術知識グラフ補完を行うexBERTを提案する。 我々は知識グラフの三重項をテキストとしてモデル化し、三重分類(kgに属するか否か)を行う。 評価の結果, exBERTは3つの分類, リンク予測, 関係予測のタスクにおいて, 3つの学術的なKG完了データセットの他のベースラインよりも優れていた。 さらに,2つの学術データセットを研究コミュニティのリソースとして公開kgsとオンラインリソースから収集した。

Scholarly Knowledge Graphs (KGs) provide a rich source of structured information representing knowledge encoded in scientific publications. With the sheer volume of published scientific literature comprising a plethora of inhomogeneous entities and relations to describe scientific concepts, these KGs are inherently incomplete. We present exBERT, a method for leveraging pre-trained transformer language models to perform scholarly knowledge graph completion. We model triples of a knowledge graph as text and perform triple classification (i.e., belongs to KG or not). The evaluation shows that exBERT outperforms other baselines on three scholarly KG completion datasets in the tasks of triple classification, link prediction, and relation prediction. Furthermore, we present two scholarly datasets as resources for the research community, collected from public KGs and online resources.
翻訳日:2021-11-24 15:20:40 公開日:2021-11-23
# 接触による言語変化に対する分岐閾値

A bifurcation threshold for contact-induced language change ( http://arxiv.org/abs/2111.12061v1 )

ライセンス: Link先を確認
Henri Kauhanen(参考訳) 言語変化のメカニズムの一つは、第二言語(l2)学習者が言語接触時に果たす役割に関するものである。 もし十分に多くのL2話者が第1言語話者数に関連して言語コミュニティに存在しているなら、L2習得の難しさを示すこれらの特徴は言語から姿を消しがちである。 本稿では,強化学習と非線形力学に基づく接触状況の数学的モデルを提案する。 L1話者とL2話者の混在を記述した全確率モデルの決定論的縮小の平衡性を完全に評価した。 l2学習者の導入に反応して言語が変化するかどうかは、人口におけるl2学習者の全体の比率、問題の言語変異の相対的優位性、言語をl2として獲得する際の困難話者の強さという3つの要因に依存することが判明した。 これらの因子は、L2-微分特徴の保持から両方の話者集団の喪失への相転移を記述する数学的公式によって関連づけられる。 これは経験的データに対してテスト可能な予測を提供する。 本モデルは,アフリカーンスにおける形態的平準化と,アフロ・ペルー・スペイン語におけるヌル・サブジェクトの侵食の2つの事例から評価されている。

One proposed mechanism of language change concerns the role played by second-language (L2) learners in situations of language contact. If sufficiently many L2 speakers are present in a speech community in relation to the number of first-language (L1) speakers, then those features which present a difficulty in L2 acquisition may be prone to disappearing from the language. This paper proposes a mathematical model of such contact situations based on reinforcement learning and nonlinear dynamics. The equilibria of a deterministic reduction of a full stochastic model, describing a mixed population of L1 and L2 speakers, are fully characterized. Whether or not the language changes in response to the introduction of L2 learners turns out to depend on three factors: the overall proportion of L2 learners in the population, the relative advantages of the linguistic variants in question, and the strength of the difficulty speakers face in acquiring the language as an L2. These factors are related by a mathematical formula describing a phase transition from retention of the L2-difficult feature to its loss from both speaker populations. This supplies predictions that can be tested against empirical data. Here, the model is evaluated with the help of two case studies, morphological levelling in Afrikaans and the erosion of null subjects in Afro-Peruvian Spanish; the model is found to be broadly in agreement with the historical development in both cases.
翻訳日:2021-11-24 15:19:52 公開日:2021-11-23
# 確率回路による無損失圧縮

Lossless Compression with Probabilistic Circuits ( http://arxiv.org/abs/2111.11632v1 )

ライセンス: Link先を確認
Anji Liu and Stephan Mandt and Guy Van den Broeck(参考訳) 画像生成の大幅な進歩にもかかわらず、ロスレス圧縮に適用すると深い生成モデルは最適となる。 例えば、vaesのようなモデルは、ビットバックコーディングのような精巧なスキームで部分的に排除できる潜在変数のため、圧縮コストのオーバーヘッドに苦しんでいる。 このような問題を克服するため,我々は,効率的な符号化と復号化を可能にするトラクタブル・ロスレス圧縮モデル(PC)を新たに確立した。 これらは$|p|$計算単位を含むニューラルネットワークのクラスであり、$D$特徴次元の任意の部分集合に対する効率的な余分化をサポートし、効率的な算術符号化を可能にする。 我々は、時間複雑性である$\mathcal{o} (\log(d) \cdot |p|)$を持つ効率的な符号化と復号スキームを導出する。 経験的に、pcベースの圧縮アルゴリズムは、同様のビットレートを達成するニューラルネットワークの圧縮アルゴリズムよりも5~20倍高速である。 従来のPC構造学習パイプラインをスケールアップすることにより、MNISTなどの画像データセットで最先端の結果を得た。 さらに、PCは既存のニューラル圧縮アルゴリズムと自然に統合され、自然な画像データセット上でこれらのベースモデルの性能を向上させることができる。 この結果は,非標準学習アーキテクチャがニューラルデータ圧縮に与える影響を浮き彫りにした。

Despite extensive progress on image generation, deep generative models are suboptimal when applied to lossless compression. For example, models such as VAEs suffer from a compression cost overhead due to their latent variables that can only be partially eliminated with elaborated schemes such as bits-back coding, resulting in oftentimes poor single-sample compression rates. To overcome such problems, we establish a new class of tractable lossless compression models that permit efficient encoding and decoding: Probabilistic Circuits (PCs). These are a class of neural networks involving $|p|$ computational units that support efficient marginalization over arbitrary subsets of the $D$ feature dimensions, enabling efficient arithmetic coding. We derive efficient encoding and decoding schemes that both have time complexity $\mathcal{O} (\log(D) \cdot |p|)$, where a naive scheme would have linear costs in $D$ and $|p|$, making the approach highly scalable. Empirically, our PC-based (de)compression algorithm runs 5-20x faster than neural compression algorithms that achieve similar bitrates. By scaling up the traditional PC structure learning pipeline, we achieved state-of-the-art results on image datasets such as MNIST. Furthermore, PCs can be naturally integrated with existing neural compression algorithms to improve the performance of these base models on natural image datasets. Our results highlight the potential impact that non-standard learning architectures may have on neural data compression.
翻訳日:2021-11-24 15:19:25 公開日:2021-11-23
# グラフニューラルネットワークにおけるネットワーク

Network In Graph Neural Network ( http://arxiv.org/abs/2111.11638v1 )

ライセンス: Link先を確認
Xiang Song and Runjie Ma and Jiahang Li and Muhan Zhang and David Paul Wipf(参考訳) グラフニューラルネットワーク(GNN)は、ノード/エッジの特徴情報を含むグラフ構造化データから学習し、ソーシャルネットワーク、リコメンデーション、不正検出、知識グラフ推論に応用している。 この点に関して、gnnの表現力を向上させるための様々な戦略が過去に提案されている。 例えば、1つの簡単な選択肢は、隠れた次元を拡張するか、GNNレイヤーの数を増やすことでパラメータサイズを単純に増やすことである。 しかし,より広範に隠された層が過度に適合し,さらに多くのGNN層を追加すれば過度なスムース化がもたらされる可能性があり,本論文では,任意のGNNモデルをモデルをより深くすることで,モデルに依存しない手法であるNetwork In Graph Neural Network(NGNN)を提案する。 しかし、NGNNはGNNレイヤの追加や拡張の代わりに、各GNNレイヤ内に非線形フィードフォワードニューラルネットワーク層を挿入することで、GNNモデルをより深くする。 ogbn-productsデータ上のGraphSageベースGNNに適用したNGNNの分析により、ノードの特徴やグラフ構造の摂動に対してモデルを安定に保つことができることを示した。 さらに、ノード分類とリンク予測タスクの両方における広範囲な評価結果から、NGNNは多様なGNNアーキテクチャで確実に動作することを示す。例えば、ogbn-products上のGraphSageのテスト精度を1.6%改善し、ogbl-ppa上のSEALのhit@100スコアを7.08%改善し、ogbl-ppi上のGraphSage+Edge-Attrのhit@20スコアを6.22%改善する。 そしてこの投稿の時点で、ogb linkの予測リーダーボードで2位を獲得した。

Graph Neural Networks (GNNs) have shown success in learning from graph structured data containing node/edge feature information, with application to social networks, recommendation, fraud detection and knowledge graph reasoning. In this regard, various strategies have been proposed in the past to improve the expressiveness of GNNs. For example, one straightforward option is to simply increase the parameter size by either expanding the hid-den dimension or increasing the number of GNN layers. However, wider hidden layers can easily lead to overfitting, and incrementally adding more GNN layers can potentially result in over-smoothing.In this paper, we present a model-agnostic methodology, namely Network In Graph Neural Network (NGNN ), that allows arbitrary GNN models to increase their model capacity by making the model deeper. However, instead of adding or widening GNN layers, NGNN deepens a GNN model by inserting non-linear feedforward neural network layer(s) within each GNN layer. An analysis of NGNN as applied to a GraphSage base GNN on ogbn-products data demonstrate that it can keep the model stable against either node feature or graph structure perturbations. Furthermore, wide-ranging evaluation results on both node classification and link prediction tasks show that NGNN works reliably across diverse GNN architectures.For instance, it improves the test accuracy of GraphSage on the ogbn-products by 1.6% and improves the hits@100 score of SEAL on ogbl-ppa by 7.08% and the hits@20 score of GraphSage+Edge-Attr on ogbl-ppi by 6.22%. And at the time of this submission, it achieved two first places on the OGB link prediction leaderboard.
翻訳日:2021-11-24 15:18:59 公開日:2021-11-23
# 予め訓練した報酬関数によるサンプル効率的な模倣学習

Sample Efficient Imitation Learning via Reward Function Trained in Advance ( http://arxiv.org/abs/2111.11711v1 )

ライセンス: Link先を確認
Lihua Zhang(参考訳) 模倣学習(il)は、デモンストレーションから専門家の行動を模倣することを学ぶフレームワークである。 近年,ilは高次元および制御タスクにおいて有望な結果を示す。 しかし、ilは通常、環境相互作用の観点からのサンプル非効率に苦しむため、シミュレーションされたドメインへの応用が厳しく制限される。 工業アプリケーションでは、学習者は通常、高い相互作用コストを持ち、環境との相互作用が多くなるほど、環境や学習者自身にダメージを与える。 本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。 提案手法は,「モデル報酬関数に基づく模倣学習」 (mrfil) と呼ぶもので,実演者によって訓練された報酬関数としてアンサンブル動的モデルを用いる。 鍵となるアイデアは、専門家のデモンストレーション分布に沿う状態に遭遇した場合に肯定的な報酬を与えることによって、エージェントに長い地平線上でのデモンストレーションに一致するインセンティブを与えることである。 さらに,新たな目的関数の収束保証を示す。 実験の結果,本アルゴリズムはil法に比べて競争性能に到達し,環境相互作用を著しく低減した。

Imitation learning (IL) is a framework that learns to imitate expert behavior from demonstrations. Recently, IL shows promising results on high dimensional and control tasks. However, IL typically suffers from sample inefficiency in terms of environment interaction, which severely limits their application to simulated domains. In industrial applications, learner usually have a high interaction cost, the more interactions with environment, the more damage it causes to the environment and the learner itself. In this article, we make an effort to improve sample efficiency by introducing a novel scheme of inverse reinforcement learning. Our method, which we call \textit{Model Reward Function Based Imitation Learning} (MRFIL), uses an ensemble dynamic model as a reward function, what is trained with expert demonstrations. The key idea is to provide the agent with an incentive to match the demonstrations over a long horizon, by providing a positive reward upon encountering states in line with the expert demonstration distribution. In addition, we demonstrate the convergence guarantee for new objective function. Experimental results show that our algorithm reaches the competitive performance and significantly reducing the environment interactions compared to IL methods.
翻訳日:2021-11-24 15:18:23 公開日:2021-11-23
# 関数近似を用いたQ学習におけるデータ分布の影響の理解

Understanding the Impact of Data Distribution on Q-learning with Function Approximation ( http://arxiv.org/abs/2111.11758v1 )

ライセンス: Link先を確認
Pedro P. Santos, Francisco S. Melo, Alberto Sardinha, Diogo S. Carvalho(参考訳) 本研究では,関数近似を用いたQラーニングアルゴリズムとデータ分布の相互作用に関する研究に焦点をあてる。 本稿では,データ分布の異なる特性がアルゴリズムの不安定性の制御源に寄与する理由を理論的かつ実証的に分析する。 まず、近似動的プログラミングアルゴリズムの性能に関する理論的境界を再検討する。 第2に、オンラインとオフラインの両方で関数近似を用いたQ-ラーニングアルゴリズムの性能にデータ分散が及ぼす影響を強調した、新しい4状態MDPを提供する。 最後に、オフライン深層Q-ネットワークアルゴリズムの性能におけるデータ分散特性の影響を実験的に評価する。 結果はこう示しています i) データ分布は、オフライン環境で、すなわち、MDPの最適方針によって引き起こされる分布と、状態-作用空間に対する高いカバレッジとを確実に学習するために、特定の特性を持つ必要がある。 (ii)高エントロピーデータ分布はアルゴリズム不安定の原因の緩和に寄与する。

In this work, we focus our attention on the study of the interplay between the data distribution and Q-learning-based algorithms with function approximation. We provide a theoretical and empirical analysis as to why different properties of the data distribution can contribute to regulating sources of algorithmic instability. First, we revisit theoretical bounds on the performance of approximate dynamic programming algorithms. Second, we provide a novel four-state MDP that highlights the impact of the data distribution in the performance of a Q-learning algorithm with function approximation, both in online and offline settings. Finally, we experimentally assess the impact of the data distribution properties in the performance of an offline deep Q-network algorithm. Our results show that: (i) the data distribution needs to possess certain properties in order to robustly learn in an offline setting, namely low distance to the distributions induced by optimal policies of the MDP and high coverage over the state-action space; and (ii) high entropy data distributions can contribute to mitigating sources of algorithmic instability.
翻訳日:2021-11-24 15:18:03 公開日:2021-11-23
# スケジュールに基づく時間差アルゴリズム

Schedule Based Temporal Difference Algorithms ( http://arxiv.org/abs/2111.11768v1 )

ライセンス: Link先を確認
Rohan Deb, Meet Gandhi, Shalabh Bhatnagar(参考訳) データサンプルから与えられたポリシーの価値関数を学ぶことは強化学習において重要な問題である。 TD($\lambda$)はこの問題を解決するアルゴリズムの一般的なクラスである。 しかし、パラメータ$\lambda$によって制御されるTD($\lambda$)の異なる$n$-stepに割り当てられた重みは、$n$の増加とともに指数関数的に減少する。 本稿では,TD($\lambda$)アルゴリズムをパラメータ$\lambda$が時間ステップによって変化する場合に一般化する,$\lambda$-scheduleプロシージャを提案する。 これにより、重み割り当ての柔軟性、すなわち、異なる$n$-stepリターンに割り当てられる重みを$\{\lambda_t\}_{t \geq 1}$を選択することで指定することができる。 本手法では, オン・ポリシー・アルゴリズムTD($\lambda$)-schedu leと, それぞれGTD($\lambda$)-sched uleとTDC($\lambda$)-sched uleの2つのオフ・ポリシー・アルゴリズムを提案する。 我々は、一般的なマルコフ雑音枠組みの下で3つのアルゴリズムのほぼ確実に収束する証明を提供する。

Learning the value function of a given policy from data samples is an important problem in Reinforcement Learning. TD($\lambda$) is a popular class of algorithms to solve this problem. However, the weights assigned to different $n$-step returns in TD($\lambda$), controlled by the parameter $\lambda$, decrease exponentially with increasing $n$. In this paper, we present a $\lambda$-schedule procedure that generalizes the TD($\lambda$) algorithm to the case when the parameter $\lambda$ could vary with time-step. This allows flexibility in weight assignment, i.e., the user can specify the weights assigned to different $n$-step returns by choosing a sequence $\{\lambda_t\}_{t \geq 1}$. Based on this procedure, we propose an on-policy algorithm - TD($\lambda$)-schedu le, and two off-policy algorithms - GTD($\lambda$)-sched ule and TDC($\lambda$)-sched ule, respectively. We provide proofs of almost sure convergence for all three algorithms under a general Markov noise framework.
翻訳日:2021-11-24 15:17:47 公開日:2021-11-23
# 物理対応ニューラルネットワークによる部分微分方程式の構成

Composing Partial Differential Equations with Physics-Aware Neural Networks ( http://arxiv.org/abs/2111.11798v1 )

ライセンス: Link先を確認
Matthias Karlbauer, Timothy Praditia, Sebastian Otte, Sergey Oladyshkin, Wolfgang Nowak, and Martin V. Butz(参考訳) 時空間対流拡散過程を学習するための合成物理対応ニューラルネットワーク(FINN)を提案する。 FINNは、部分微分方程式(PDE)の構成成分を構成的にモデル化することにより、ニューラルネットワークの学習能力と物理的および構造的知識を数値シミュレーションから組み合わせる新しい方法を実装している。 1次元および2次元PDE(バーガー、拡散吸着、拡散反応、アレン・カーン)の結果は、FINNの優れたモデリング精度と、初期および境界条件を超えた分布外一般化能力を示す。 平均的なパラメータの10分の1に過ぎず、FINNは純粋な機械学習やその他の最先端の物理認識モデルよりも優れています。 さらに、FINNは、拡散吸着シナリオにおいてスパース実世界のデータを近似し、その一般化能力を確認し、観察されたプロセスの未知の遅延因子を明らかにすることで説明可能性を示す際に、校正物理モデルより優れる。

We introduce a compositional physics-aware neural network (FINN) for learning spatiotemporal advection-diffusion processes. FINN implements a new way of combining the learning abilities of artificial neural networks with physical and structural knowledge from numerical simulation by modeling the constituents of partial differential equations (PDEs) in a compositional manner. Results on both one- and two-dimensional PDEs (Burger's, diffusion-sorption, diffusion-reaction, Allen-Cahn) demonstrate FINN's superior modeling accuracy and excellent out-of-distribution generalization ability beyond initial and boundary conditions. With only one tenth of the number of parameters on average, FINN outperforms pure machine learning and other state-of-the-art physics-aware models in all cases -- often even by multiple orders of magnitude. Moreover, FINN outperforms a calibrated physical model when approximating sparse real-world data in a diffusion-sorption scenario, confirming its generalization abilities and showing explanatory potential by revealing the unknown retardation factor of the observed process.
翻訳日:2021-11-24 15:17:26 公開日:2021-11-23
# (参考訳) 無線セルラーネットワークを用いたセマンティック・アウェア協調深層強化学習 [全文訳有]

Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless Cellular Networks ( http://arxiv.org/abs/2111.12064v1 )

ライセンス: CC BY 4.0
Fatemeh Lotfi, Omid Semiari, Walid Saad(参考訳) 複数のエージェントが無線ネットワーク上で協調できる協調的深層学習(CDRL)アルゴリズムは、複雑な動的環境におけるリアルタイムな意思決定に依存する未来のインテリジェントで自律的なシステムを実現するための有望なアプローチである。 それでも現実のシナリオでは、cdrlはエージェントとその学習タスクの多様性、異なる環境、学習の時間的制約、無線ネットワークのリソース制限など、多くの課題に直面している。 これらの課題に対処するため,本研究では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ異種非訓練エージェント群を効率的に協調させる,新しい意味認識型CDRL手法を提案する。 この目的のために,新しい異種連合型DRL (HFDRL) アルゴリズムを提案し,協調のための意味的関連DRLエージェントの最適サブセットを選択する。 提案手法は,リアルタイムタスクの時間制限内で各エージェントを訓練するために,協調エージェントのトレーニング損失と無線帯域割り当てを協調的に最適化する。 シミュレーションの結果,提案アルゴリズムは最先端のベースラインに比べて優れた性能を示した。

Collaborative deep reinforcement learning (CDRL) algorithms in which multiple agents can coordinate over a wireless network is a promising approach to enable future intelligent and autonomous systems that rely on real-time decision-making in complex dynamic environments. Nonetheless, in practical scenarios, CDRL faces many challenges due to the heterogeneity of agents and their learning tasks, different environments, time constraints of the learning, and resource limitations of wireless networks. To address these challenges, in this paper, a novel semantic-aware CDRL method is proposed to enable a group of heterogeneous untrained agents with semantically-linked DRL tasks to collaborate efficiently across a resource-constrained wireless cellular network. To this end, a new heterogeneous federated DRL (HFDRL) algorithm is proposed to select the best subset of semantically relevant DRL agents for collaboration. The proposed approach then jointly optimizes the training loss and wireless bandwidth allocation for the cooperating selected agents in order to train each agent within the time limit of its real-time task. Simulation results show the superior performance of the proposed algorithm compared to state-of-the-art baselines.
翻訳日:2021-11-24 15:15:49 公開日:2021-11-23
# CL-NERIL:インドの言語におけるNERの言語横断モデル

CL-NERIL: A Cross-Lingual Model for NER in Indian Languages ( http://arxiv.org/abs/2111.11815v1 )

ライセンス: Link先を確認
Akshara Prabhakar, Gouri Sankar Majumder, Ashish Anand(参考訳) インド言語のための名前付きエンティティ認識(NER)システムの開発は、主に大量の注釈付きクリーントレーニングインスタンスを必要とするため、長年にわたる課題であった。 本稿では,英語とインド語の並列コーパスと英語のNERデータセットを利用して,低リソース環境下でのNERのエンドツーエンドフレームワークを提案する。 提案手法は, 単語アライメントスコアとnerタグ予測信頼度スコアをソース言語(英語)データに組み合わせ, 対象インド語で弱いラベル付きデータを生成するアノテーション投影手法を含む。 教師・生徒モデルの変種を用いて,教師モデルの擬似ラベルと,生成された弱ラベルデータに対する予測を共同で最適化する。 また、ヒンディー語、ベンガル語、グジャラート語の3つの言語に対して手動で注釈付きテストセットを提示する。 本研究では,インド三言語テストセットにおける提案フレームワークの性能評価を行った。 実験結果から,全言語におけるゼロショット転送学習モデルと比較して10%以上の性能向上が得られた。 この結果から,提案手法を用いて生成した弱ラベル付きデータを対象インドの言語で記述することにより,十分な注釈付きソース言語データを補完し,性能を向上させることが示唆された。 私たちのコードはhttps://github.com/a ksh555/CL-NERILで公開されています。

Developing Named Entity Recognition (NER) systems for Indian languages has been a long-standing challenge, mainly owing to the requirement of a large amount of annotated clean training instances. This paper proposes an end-to-end framework for NER for Indian languages in a low-resource setting by exploiting parallel corpora of English and Indian languages and an English NER dataset. The proposed framework includes an annotation projection method that combines word alignment score and NER tag prediction confidence score on source language (English) data to generate weakly labeled data in a target Indian language. We employ a variant of the Teacher-Student model and optimize it jointly on the pseudo labels of the Teacher model and predictions on the generated weakly labeled data. We also present manually annotated test sets for three Indian languages: Hindi, Bengali, and Gujarati. We evaluate the performance of the proposed framework on the test sets of the three Indian languages. Empirical results show a minimum 10% performance improvement compared to the zero-shot transfer learning model on all languages. This indicates that weakly labeled data generated using the proposed annotation projection method in target Indian languages can complement well-annotated source language data to enhance performance. Our code is publicly available at https://github.com/a ksh555/CL-NERIL
翻訳日:2021-11-24 15:00:33 公開日:2021-11-23
# TWEEtsuMM -- 顧客サービスのためのダイアログ要約データセット

TWEETSUMM -- A Dialog Summarization Dataset for Customer Service ( http://arxiv.org/abs/2111.11894v1 )

ライセンス: Link先を確認
Guy Feigenblat, Chulaka Gunasekara, Benjamin Sznajder, Sachindra Joshi, David Konopnicki and Ranit Aharonov(参考訳) 一般的なカスタマサービスチャットのシナリオでは、カスタマーはサポートセンターに連絡して助けを求め、苦情を提起し、ヒューマンエージェントが問題を解決しようとする。 ほとんどの場合、会話の最後に、エージェントは問題と提案された解決策を強調する短い要約を書くように求められます。 この記事の目標は、このタスクの自動化を推し進めることである。 6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを導入する。 データは実世界のカスタマーサポートダイアログに基づいており、抽出要約と抽象要約の両方を含んでいる。 また,ダイアログに特有な非教師付き抽出要約手法も導入した。

In a typical customer service chat scenario, customers contact a support center to ask for help or raise complaints, and human agents try to solve the issues. In most cases, at the end of the conversation, agents are asked to write a short summary emphasizing the problem and the proposed solution, usually for the benefit of other agents that may have to deal with the same customer or issue. The goal of the present article is advancing the automation of this task. We introduce the first large scale, high quality, customer care dialog summarization dataset with close to 6500 human annotated summaries. The data is based on real-world customer support dialogs and includes both extractive and abstractive summaries. We also introduce a new unsupervised, extractive summarization method specific to dialogs.
翻訳日:2021-11-24 15:00:12 公開日:2021-11-23
# 未知制約ネットワークによる最適化問題の解法

Solve Optimization Problems with Unknown Constraint Networks ( http://arxiv.org/abs/2111.11871v1 )

ライセンス: Link先を確認
Mohamed-Bachir Belaid, Arnaud Gotlieb, Nadjib Lazaar(参考訳) ほとんどの最適化問題では、ユーザーは最適化する関数を明確に理解する(例えば、スケジューリング問題の最小化など)。 しかし、制約を述べるのは難しく、そのモデリングには制約プログラミングの専門知識がしばしば必要となる。 アクティブ制約獲得は、一連のクエリの生成を通じて制約ネットワークを学習する非経験ユーザのサポートに成功している。 本稿では,既知の目的関数と未知制約ネットワークを用いた最適化問題の解法であるLearn&Optimizeを提案する。 未知の制約を学習し、学習プロセス中に最適な解の境界を計算するアクティブ制約取得アルゴリズムを使用する。 その結果,制約ネットワーク全体を学習することなく,最適化問題を解くことが可能となった。

In most optimization problems, users have a clear understanding of the function to optimize (e.g., minimize the makespan for scheduling problems). However, the constraints may be difficult to state and their modelling often requires expertise in Constraint Programming. Active constraint acquisition has been successfully used to support non-experienced users in learning constraint networks through the generation of a sequence of queries. In this paper, we propose Learn&Optimize, a method to solve optimization problems with known objective function and unknown constraint network. It uses an active constraint acquisition algorithm which learns the unknown constraints and computes boundaries for the optimal solution during the learning process. As a result, our method allows users to solve optimization problems without learning the overall constraint network.
翻訳日:2021-11-24 15:00:01 公開日:2021-11-23
# 時空間トークン選択機能を有する高能率ビデオトランスフォーマ

Efficient Video Transformers with Spatial-Temporal Token Selection ( http://arxiv.org/abs/2111.11591v1 )

ライセンス: Link先を確認
Junke Wang, Xitong Yang, Hengduo Li, Zuxuan Wu, Yu-Gang Jiang(参考訳) ビデオトランスフォーマーは、主要なビデオ認識ベンチマークで素晴らしい結果を得たが、高い計算コストに苦しんでいる。 本稿では,入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。 具体的には、トークン選択をランキング問題として定式化し、軽量な選択ネットワークを通じて各トークンの重要性を推定し、上位スコアのみを下流評価に使用する。 時間次元では、アクションカテゴリの認識に最も関係のあるフレームを維持しながら、空間次元では、ほとんどのビデオトランスフォーマーにおいて、階層的な方法で使用される空間的コンテキストに影響を与えることなく、特徴マップにおける最も識別的な領域を識別する。 トークン選択の決定は微分不可能であるため、終末トレーニングには摂動最大に基づく微分可能なTop-K演算子を用いる。 我々は最近導入されたビデオトランスバックボーンMViTを用いてKinetics-400の広範な実験を行った。 我々のフレームワークは計算量を20%削減しながら同様の結果を得る。 我々はまた、我々のアプローチが他のトランスフォーマーアーキテクチャと互換性があることを実証する。

Video transformers have achieved impressive results on major video recognition benchmarks, however they suffer from high computational cost. In this paper, we present STTS, a token selection framework that dynamically selects a few informative tokens in both temporal and spatial dimensions conditioned on input video samples. Specifically, we formulate token selection as a ranking problem, which estimates the importance of each token through a lightweight selection network and only those with top scores will be used for downstream evaluation. In the temporal dimension, we keep the frames that are most relevant for recognizing action categories, while in the spatial dimension, we identify the most discriminative region in feature maps without affecting spatial context used in a hierarchical way in most video transformers. Since the decision of token selection is non-differentiable, we employ a perturbed-maximum based differentiable Top-K operator for end-to-end training. We conduct extensive experiments on Kinetics-400 with a recently introduced video transformer backbone, MViT. Our framework achieves similar results while requiring 20% less computation. We also demonstrate that our approach is compatible with other transformer architectures.
翻訳日:2021-11-24 14:59:11 公開日:2021-11-23
# 同時顔検出と360度頭部推定

Simultaneous face detection and 360 degree headpose estimation ( http://arxiv.org/abs/2111.11604v1 )

ライセンス: Link先を確認
Hoang Nguyen Viet, Linh Nguyen Viet, Tuan Nguyen Dinh, Duc Tran Minh, Long Tran Quoc(参考訳) 監視カメラの製造、顧客の行動の分析と処理など、人間の生活における多くの実践的な応用により、多くの研究者がデジタル画像の顔検出と頭部ポーズ推定に気づいている。 提案する深層学習モデルの多くは、顔検出やホープネット、FSA-Net、ヘッドポーズ推定に使用されるRandPoseモデルといった最先端の精度を持つ。 多くの最先端手法によれば、このタスクのパイプラインは顔検出から頭部ポーズ推定までの2つの部分で構成されている。 この2つのステップは完全に独立しており、情報を共有していない。 これにより、モデルのセットアップが明確になるが、各モデルで抽出されたリソースの大部分を活用できない。 本稿では,顔検出モデルから抽出した特徴を利用したマルチタスク・ネットモデルを提案する。 また、様々なデータにより、顔を表すオイラー角領域は大きいので、我々のモデルは360度オイラー角領域の結果を予測することができる。 マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。 モデルの頭部方向を予測する能力を高めるため,人間の顔の提示をユーラー角から回転行列のベクトルに変更する。

With many practical applications in human life, including manufacturing surveillance cameras, analyzing and processing customer behavior, many researchers are noticing face detection and head pose estimation on digital images. A large number of proposed deep learning models have state-of-the-art accuracy such as YOLO, SSD, MTCNN, solving the problem of face detection or HopeNet, FSA-Net, RankPose model used for head pose estimation problem. According to many state-of-the-art methods, the pipeline of this task consists of two parts, from face detection to head pose estimation. These two steps are completely independent and do not share information. This makes the model clear in setup but does not leverage most of the featured resources extracted in each model. In this paper, we proposed the Multitask-Net model with the motivation to leverage the features extracted from the face detection model, sharing them with the head pose estimation branch to improve accuracy. Also, with the variety of data, the Euler angle domain representing the face is large, our model can predict with results in the 360 Euler angle domain. Applying the multitask learning method, the Multitask-Net model can simultaneously predict the position and direction of the human head. To increase the ability to predict the head direction of the model, we change there presentation of the human face from the Euler angle to vectors of the Rotation matrix.
翻訳日:2021-11-24 14:57:19 公開日:2021-11-23
# 半教師型医用画像分割のための不確実性を考慮したディープコトレーニング

Uncertainty-Aware Deep Co-training for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2111.11629v1 )

ライセンス: Link先を確認
Xu Zheng, Chong Fu, Haoyu Xie, Jialei Chen, Xingwei Wang and Chiu-Wing Sham(参考訳) 半教師付き学習は、意味的セグメンテーションタスクのための豊富なピクセル毎の注釈データ収集の重荷を軽減するため、医学領域で大きな進歩を遂げてきた。 既存の半教師付きアプローチは、制限されたラベル付きデータから得られた事前知識を持つラベルなしデータから特徴を抽出する能力を強化する。 しかし,ラベル付きデータの不足により,モデルが抽出した特徴は教師あり学習において制限されており,ラベル付きデータの予測品質も保証できない。 どちらも一貫性のトレーニングを妨げる。 そこで本研究では,モデルを故意に学習させる新たな不確実性認識手法を提案する。 具体的には,モンテカルロサンプリングを用いて不確実性マップを推定し,教師付き学習と教師なし学習の特徴に従って,モデルに価値ある領域に集中させるための損失の重み付けとして利用できる。 同時に、異なるタスク間の勾配流を増大させることにより、ネットワークの収束を促進するために、教師なしの損失と教師なしの損失を共同で行う。 定量的に,3つの挑戦的医療データセットについて広範な実験を行った。 実験結果から,最先端技術に望ましい改善が得られた。

Semi-supervised learning has made significant strides in the medical domain since it alleviates the heavy burden of collecting abundant pixel-wise annotated data for semantic segmentation tasks. Existing semi-supervised approaches enhance the ability to extract features from unlabeled data with prior knowledge obtained from limited labeled data. However, due to the scarcity of labeled data, the features extracted by the models are limited in supervised learning, and the quality of predictions for unlabeled data also cannot be guaranteed. Both will impede consistency training. To this end, we proposed a novel uncertainty-aware scheme to make models learn regions purposefully. Specifically, we employ Monte Carlo Sampling as an estimation method to attain an uncertainty map, which can serve as a weight for losses to force the models to focus on the valuable region according to the characteristics of supervised learning and unsupervised learning. Simultaneously, in the backward process, we joint unsupervised and supervised losses to accelerate the convergence of the network via enhancing the gradient flow between different tasks. Quantitatively, we conduct extensive experiments on three challenging medical datasets. Experimental results show desirable improvements to state-of-the-art counterparts.
翻訳日:2021-11-24 14:56:58 公開日:2021-11-23
# 混合型距離学習による生成潜在空間の平滑化

Smoothing the Generative Latent Space with Mixup-based Distance Learning ( http://arxiv.org/abs/2111.11672v1 )

ライセンス: Link先を確認
Chaerin Kong, Jeesoo Kim, Donghoon Han and Nojun Kwak(参考訳) GANのような生成モデルで多彩で現実的な画像を生成するには、通常大量の画像で大規模なトレーニングが必要となる。 極めて限られたデータで訓練されたGANは、少数のトレーニングサンプルに容易に適合し、遅延空間の遷移が不連続に悩まされ、時には出力の急激な変化をもたらす「階段のような」潜在空間のような望ましくない特性を示す。 本研究では,関心のある大規模データセットも転送可能なソースデータセットも利用できない状況を検討し,最小限のオーバーフィッティングとモードの崩壊で既存の生成モデルのトレーニングを試みる。 そこで本研究では,2人のプレーヤが観測したデータポイントの不足だけでなく,相対的な距離を判断することを促すために,ジェネレータと識別器の双方の特徴空間上での潜在ミックスアップに基づく距離正規化を提案する。 多様なデータセットの質的、定量的評価は、本手法が既存のモデルに適用され、限られたデータの制約の下で忠実性と多様性を高めることを証明している。 コードは公開されます。

Producing diverse and realistic images with generative models such as GANs typically requires large scale training with vast amount of images. GANs trained with extremely limited data can easily overfit to few training samples and display undesirable properties like "stairlike" latent space where transitions in latent space suffer from discontinuity, occasionally yielding abrupt changes in outputs. In this work, we consider the situation where neither large scale dataset of our interest nor transferable source dataset is available, and seek to train existing generative models with minimal overfitting and mode collapse. We propose latent mixup-based distance regularization on the feature space of both a generator and the counterpart discriminator that encourages the two players to reason not only about the scarce observed data points but the relative distances in the feature space they reside. Qualitative and quantitative evaluation on diverse datasets demonstrates that our method is generally applicable to existing models to enhance both fidelity and diversity under the constraint of limited data. Code will be made public.
翻訳日:2021-11-24 14:56:37 公開日:2021-11-23
# 深部クラウドの再構築

Deep Point Cloud Reconstruction ( http://arxiv.org/abs/2111.11704v1 )

ライセンス: Link先を確認
Jaesung Choe, Byeongin Joung, Francois Rameau, Jaesik Park, In So Kweon(参考訳) 3Dスキャンから得られる点雲は、しばしばスパース、ノイズ、不規則である。 これらの問題に対処するため、最近の研究は別々に行われ、不正確な点雲を密度化、復調し、完全な不正確な点雲を観測している。 本稿では,これらの課題を共同で解決することで,点群再構成の大幅な改善が期待できる。 そこで本研究では,2段階からなる深部クラウド再構築ネットワークを提案する。 1)最初のデンシフィケーション及びデノナイジングのための3次元スパース集積時間ガラスネットワーク 2) 離散ボクセルを3dポイントに変換するトランスフォーマーによる改良。 特に,新たに提案するamplified positional encoding (amplified positional encoding) モジュールにより,トランスフォーマティブの性能をさらに向上させる。 このモジュールは、適応的な洗練のために点の距離に基づいて位置符号化ベクトルの大きさを異なる方法で増幅するように設計されている。 ScanNet, ICL-NUIM, およびShapeNetPartデータセットにおける最近の研究の中で, 我々のネットワークは最先端の性能を発揮することを示した。 さらに,実世界や未熟なシーンに対して,ネットワークが一般化する能力も強調する。

Point cloud obtained from 3D scanning is often sparse, noisy, and irregular. To cope with these issues, recent studies have been separately conducted to densify, denoise, and complete inaccurate point cloud. In this paper, we advocate that jointly solving these tasks leads to significant improvement for point cloud reconstruction. To this end, we propose a deep point cloud reconstruction network consisting of two stages: 1) a 3D sparse stacked-hourglass network as for the initial densification and denoising, 2) a refinement via transformers converting the discrete voxels into 3D points. In particular, we further improve the performance of transformer by a newly proposed module called amplified positional encoding. This module has been designed to differently amplify the magnitude of positional encoding vectors based on the points' distances for adaptive refinements. Extensive experiments demonstrate that our network achieves state-of-the-art performance among the recent studies in the ScanNet, ICL-NUIM, and ShapeNetPart datasets. Moreover, we underline the ability of our network to generalize toward real-world and unmet scenes.
翻訳日:2021-11-24 14:56:18 公開日:2021-11-23
# StrokeNet: ストローク支援と階層型グラフ推論ネットワーク

StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks ( http://arxiv.org/abs/2111.11718v1 )

ライセンス: Link先を確認
Lei Li, Kai Fan and Chun Yuan(参考訳) シーンのテキスト検出は依然として困難な作業であり、非常に小さなストロークや低解像度のストローク、近接あるいは任意のテキストが存在する可能性がある。 本稿では,きめ細かなストロークを捉えてテキストを効果的に検出し,グラフの階層的表現間の構造的関係を推定するために,ストロークネットを提案する。 一連の点や長方形の箱でテキスト領域を表現する既存のアプローチとは異なり、ストロークアシスト予測ネットワーク(sapn)を介して各テキストインスタンスのストロークを直接ローカライズする。 さらに、階層的関係グラフネットワーク(HRGN)を用いて関係推論を行い、リンクの可能性を予測し、クローズドテキストインスタンスを効果的に分割し、ノード分類結果を任意の形のテキスト領域に分類する。 我々は,モデルのオフライン事前トレーニングのために,ストロークレベルのアノテーションを備えた新しいデータセット,すなわちシンセストロークを導入した。 広帯域ベンチマーク実験により,本手法の有効性が検証された。 データセットとコードは利用可能です。

Scene text detection is still a challenging task, as there may be extremely small or low-resolution strokes, and close or arbitrary-shaped texts. In this paper, StrokeNet is proposed to effectively detect the texts by capturing the fine-grained strokes, and infer structural relations between the hierarchical representation in the graph. Different from existing approaches that represent the text area by a series of points or rectangular boxes, we directly localize strokes of each text instance through Stroke Assisted Prediction Network (SAPN). Besides, Hierarchical Relation Graph Network (HRGN) is adopted to perform relational reasoning and predict the likelihood of linkages, effectively splitting the close text instances and grouping node classification results into arbitrary-shaped text region. We introduce a novel dataset with stroke-level annotations, namely SynthStroke, for offline pre-training of our model. Experiments on wide-ranging benchmarks verify the State-of-the-Art performance of our method. Our dataset and code will be available.
翻訳日:2021-11-24 14:56:01 公開日:2021-11-23
# (参考訳) マルチモーダル変圧器のスパース核融合 [全文訳有]

Sparse Fusion for Multimodal Transformers ( http://arxiv.org/abs/2111.11992v1 )

ライセンス: CC BY 4.0
Yi Ding, Alex Rich, Mason Wang, Noah Stier, Pradeep Sen, Matthew Turk, Tobias H\"ollerer(参考訳) マルチモーダル分類は、人間中心の機械学習のコアタスクである。 我々は, 情報がモダリティにまたがって高度に補完的であるため, 精度を損なうことなく, マルチモーダル融合に先立ち, ユニモーダル情報は大幅にスパース化できることを示す。 この目的のために,既存の最先端手法と互換性があり,メモリフットプリントと計算コストを大幅に削減した新しいマルチモーダル融合方式であるSparse Fusion Transformers (SFT)を提案する。 私たちのアイデアの鍵は、クロスモダリティモデリングの前にユニモーダルトークンセットを減らすスパースプールブロックです。 評価は、幅広い分類タスクのために複数のマルチモーダルベンチマークデータセットで実行される。 最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。 広範囲なアブレーション研究は,naiveアプローチ上でスパーシフィケーションとマルチモーダル学習を組み合わせることの利点を示している。 これにより、低リソースデバイス上でマルチモーダルな学習が可能になる。

Multimodal classification is a core task in human-centric machine learning. We observe that information is highly complementary across modalities, thus unimodal information can be drastically sparsified prior to multimodal fusion without loss of accuracy. To this end, we present Sparse Fusion Transformers (SFT), a novel multimodal fusion method for transformers that performs comparably to existing state-of-the-art methods while having greatly reduced memory footprint and computation cost. Key to our idea is a sparse-pooling block that reduces unimodal token sets prior to cross-modality modeling. Evaluations are conducted on multiple multimodal benchmark datasets for a wide range of classification tasks. State-of-the-art performance is obtained on multiple benchmarks under similar experiment conditions, while reporting up to six-fold reduction in computational cost and memory requirements. Extensive ablation studies showcase our benefits of combining sparsification and multimodal learning over naive approaches. This paves the way for enabling multimodal learning on low-resource devices.
翻訳日:2021-11-24 14:53:16 公開日:2021-11-23
# タスク仕様のない強化学習による関数の誘導

Inducing Functions through Reinforcement Learning without Task Specification ( http://arxiv.org/abs/2111.11647v1 )

ライセンス: Link先を確認
Junmo Cho, Dong-Hwan Lee, Young-Gyu Yoon(参考訳) 本稿では,強化学習を通じてニューラルネットワークを訓練し,ネットワーク内の高レベル機能を誘導する,バイオインスパイアされたフレームワークについて報告する。 動物が物体認識(特に訓練を受けることなく)のような認知機能を得たという解釈に基づいて、環境への適合度を最大化することで、特定の機能の開発が意思決定を促進できる環境にエージェントを配置します。 実験の結果,画像分類や隠れ変数推定などの高レベル関数は,事前学習や指定を行わずに自然に同時に誘導できることがわかった。

We report a bio-inspired framework for training a neural network through reinforcement learning to induce high level functions within the network. Based on the interpretation that animals have gained their cognitive functions such as object recognition - without ever being specifically trained for - as a result of maximizing their fitness to the environment, we place our agent in an environment where developing certain functions may facilitate decision making. The experimental results show that high level functions, such as image classification and hidden variable estimation, can be naturally and simultaneously induced without any pre-training or specifying them.
翻訳日:2021-11-24 14:34:37 公開日:2021-11-23
# Link Analysisはオントロジーに合致する: 答えは埋め込みか?

Link Analysis meets Ontologies: Are Embeddings the Answer? ( http://arxiv.org/abs/2111.11710v1 )

ライセンス: Link先を確認
Sebastian Me\v{z}nar, Matej Bevec, Nada Lavra\v{c}, Bla\v{z} \v{S}krlj(参考訳) 意味的資源の増加は、人的知識の貴重な記憶力を提供するが、サイズが大きくなるにつれて誤入力の確率は増加する。 与えられた知識基盤の潜在的急激な部分を特定するアプローチの開発は、ますます重要な関心領域になりつつある。 本研究では,構造のみのリンク解析手法が,潜在的な異常を検知するスケーラブルな手段をすでに提供できるかどうか,また,潜在的に興味深い新しい関係候補を提示する。 遺伝子オントロジー,食品オントロジー,海洋オントロジーなど8種類のセマンティックリソースに対する13の手法の評価を行い,構造のみのリンク解析により,データセットのサブセットに対するスケーラブルな異常検出が可能であることを実証した。 さらに, シンボリックノードの埋め込みを考慮し, 予測(リンク)の説明が得られ, この手法の分岐はブラックボックスのみよりも有用である可能性が示唆された。 我々の知る限り、これは現在、異なるドメインのセマンティックリソース間で異なるタイプのリンク分析手法の適用性に関する最も広範な体系的な研究の1つである。

The increasing amounts of semantic resources offer valuable storage of human knowledge; however, the probability of wrong entries increases with the increased size. The development of approaches that identify potentially spurious parts of a given knowledge base is thus becoming an increasingly important area of interest. In this work, we present a systematic evaluation of whether structure-only link analysis methods can already offer a scalable means to detecting possible anomalies, as well as potentially interesting novel relation candidates. Evaluating thirteen methods on eight different semantic resources, including Gene Ontology, Food Ontology, Marine Ontology and similar, we demonstrated that structure-only link analysis could offer scalable anomaly detection for a subset of the data sets. Further, we demonstrated that by considering symbolic node embedding, explanations of the predictions (links) could be obtained, making this branch of methods potentially more valuable than the black-box only ones. To our knowledge, this is currently one of the most extensive systematic studies of the applicability of different types of link analysis methods across semantic resources from different domains.
翻訳日:2021-11-24 14:34:27 公開日:2021-11-23
# VISTA 2.0: 自動運転車のためのマルチモーダルセンシングとポリシー学習のためのオープンなデータ駆動シミュレータ

VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and Policy Learning for Autonomous Vehicles ( http://arxiv.org/abs/2111.12083v1 )

ライセンス: Link先を確認
Alexander Amini, Tsun-Hsuan Wang, Igor Gilitschenski, Wilko Schwarting, Zhijian Liu, Song Han, Sertac Karaman, Daniela Rus(参考訳) シミュレーションは、安全クリティカルなシナリオに展開されるモバイルエージェントのためのロバストなアルゴリズムの開発を変革する可能性がある。 しかし、フォトリアリズムの貧弱さと既存のシミュレーションエンジンの多様なセンサーモダリティの欠如は、この可能性を実現する上で重要なハードルである。 ここでは、自動運転車のための複数のタイプのセンサーを統合するオープンソースのデータ駆動シミュレータであるVISTAを紹介する。 高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、およびイベントベースのカメラを表現し、シミュレートし、シミュレーションにおける新しい視点を迅速に生成し、物理的世界では捉えにくいコーナーケースでポリシー学習に利用可能なデータを強化する。 VISTAを用いて、センサタイプ毎に知覚制御ポリシーをトレーニングし、テストする能力を示し、フルスケールの自動運転車への展開を通じてこのアプローチのパワーを示す。 VISTAで学んだポリシーは、実世界のデータにのみ訓練されたものよりも、修正することなく、より堅牢な、シミュレートから現実への移行を示す。

Simulation has the potential to transform the development of robust algorithms for mobile agents deployed in safety-critical scenarios. However, the poor photorealism and lack of diverse sensor modalities of existing simulation engines remain key hurdles towards realizing this potential. Here, we present VISTA, an open source, data-driven simulator that integrates multiple types of sensors for autonomous vehicles. Using high fidelity, real-world datasets, VISTA represents and simulates RGB cameras, 3D LiDAR, and event-based cameras, enabling the rapid generation of novel viewpoints in simulation and thereby enriching the data available for policy learning with corner cases that are difficult to capture in the physical world. Using VISTA, we demonstrate the ability to train and test perception-to-contro l policies across each of the sensor types and showcase the power of this approach via deployment on a full scale autonomous vehicle. The policies learned in VISTA exhibit sim-to-real transfer without modification and greater robustness than those trained exclusively on real-world data.
翻訳日:2021-11-24 14:30:54 公開日:2021-11-23
# 依存規模自己注意ネットワークを用いたニューラルネットワーク翻訳の高速化

Boosting Neural Machine Translation with Dependency-Scaled Self-Attention Network ( http://arxiv.org/abs/2111.11707v1 )

ライセンス: Link先を確認
Ru Peng and Nankai Lin and Yi Fang and Shengyi Jiang and Junbo Zhao(参考訳) ニューラル機械翻訳モデルは、意識ネットワークを介してバイリンガルコーパスから構文知識を自動的に学習できると仮定する。 しかし、弱い監督下で訓練された注意ネットワークは、実際に文の深い構造を捉えることはできない。 当然,注意ネットワークの学習を支援するために,外部構文知識の導入が期待されている。 そこで本研究では,注意分布の分散を解消するために,明示的な構文的依存関係を注目ネットワークに統合する,パラメータフリーで依存性スケールの自己注意ネットワークを提案する。 最後に,2つの知識スパース手法が提案されている。 IWSLT14ドイツ語とWMT16ドイツ語の翻訳タスクの実験と広範囲な解析により,本手法の有効性が検証された。

Neural machine translation model assumes that syntax knowledge can be learned from the bilingual corpus via attention network automatically. However, the attention network trained in weak supervision actually cannot capture the deep structure of the sentence. Naturally, we expect to introduce external syntax knowledge to guide the learning of attention network. Thus, we propose a novel, parameter-free, dependency-scaled self-attention network, which integrate explicit syntactic dependencies into attention network to dispel the dispersion of attention distribution. Finally, two knowledge sparse techniques are proposed to prevent the model from overfitting noisy syntactic dependencies. Experiments and extensive analyses on the IWSLT14 German-to-English and WMT16 German-to-English translation tasks validate the effectiveness of our approach.
翻訳日:2021-11-24 14:30:27 公開日:2021-11-23
# (参考訳) 文脈的潜在空間モデル:メロディック列における部分列変調 [全文訳有]

A Contextual Latent Space Model: Subsequence Modulation in Melodic Sequence ( http://arxiv.org/abs/2111.11703v1 )

ライセンス: CC BY 4.0
Taketo Akama(参考訳) 音楽やテキストなどのシーケンスの生成モデルでは、周囲のコンテキストシーケンスを考慮すれば、サブシーケンスのみを編集することができる。 しかし、編集サブシーケンスは主に、生成可能な空間からランダムにサブシーケンスを再サンプリングする。 そこで本稿では,ユーザが生成空間における方向感覚を持つサブシーケンス生成を探索できるように,文脈潜在空間モデル(CLSM)を提案する。 文脈インフォームド事前デコーダはCLSMの生成モデルを構成し、文脈位置インフォームドエンコーダは推論モデルである。 実験ではモノフォニック・シンボリック・ミュージック・データセットを用いて,我々の文脈潜在空間がベースラインよりもスムーズであり,生成したサンプルの品質がベースラインモデルよりも優れていることを示す。 生成例はオンラインで公開されている。

Some generative models for sequences such as music and text allow us to edit only subsequences, given surrounding context sequences, which plays an important part in steering generation interactively. However, editing subsequences mainly involves randomly resampling subsequences from a possible generation space. We propose a contextual latent space model (CLSM) in order for users to be able to explore subsequence generation with a sense of direction in the generation space, e.g., interpolation, as well as exploring variations -- semantically similar possible subsequences. A context-informed prior and decoder constitute the generative model of CLSM, and a context position-informed encoder is the inference model. In experiments, we use a monophonic symbolic music dataset, demonstrating that our contextual latent space is smoother in interpolation than baselines, and the quality of generated samples is superior to baseline models. The generation examples are available online.
翻訳日:2021-11-24 14:29:43 公開日:2021-11-23
# 準自然言語における推論のための記号規則の学習

Learning Symbolic Rules for Reasoning in Quasi-Natural Language ( http://arxiv.org/abs/2111.12038v1 )

ライセンス: Link先を確認
Kaiyu Yang and Jia Deng(参考訳) 記号推論(英: symbol reasoning)とは、人間の知性の象徴である。 しかし、ルールベースのシステムでは、自動定理証明のような形式化された領域以外の学習ベースのシステムとの競合が限られている。 これは過去の試みにおける規則の手動構築によるものであると仮定する。 本研究では,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースのシステムを構築する方法について尋ねる。 形式論理文と自然言語文の両方を表現できる「4次自然言語」であるmetaqnlと,質問と回答からなる学習データからメタqnl規則を中間的な推論ステップの有無にかかわらず誘導する学習アルゴリズムであるmetainduceを提案する。 より少ないデータでコンパクトなモデルを学び、答えだけでなく、検証可能な証明も生成する。 さらに,実世界の形態解析ベンチマーク実験により,ノイズやあいまいさに対処できることが示唆された。 コードはhttps://github.com/p rinceton-vl/MetaQNLでリリースされる。

Symbolic reasoning, rule-based symbol manipulation, is a hallmark of human intelligence. However, rule-based systems have had limited success competing with learning-based systems outside formalized domains such as automated theorem proving. We hypothesize that this is due to the manual construction of rules in past attempts. In this work, we ask how we can build a rule-based system that can reason with natural language input but without the manual construction of rules. We propose MetaQNL, a "Quasi-Natural" language that can express both formal logic and natural language sentences, and MetaInduce, a learning algorithm that induces MetaQNL rules from training data consisting of questions and answers, with or without intermediate reasoning steps. Our approach achieves state-of-the-art accuracy on multiple reasoning benchmarks; it learns compact models with much less data and produces not only answers but also checkable proofs. Further, experiments on a real-world morphological analysis benchmark show that it is possible for our method to handle noise and ambiguity. Code will be released at https://github.com/p rinceton-vl/MetaQNL.
翻訳日:2021-11-24 14:14:31 公開日:2021-11-23
# 孤立林:樹木の奥深くを眺める

Isolation forests: looking beyond tree depth ( http://arxiv.org/abs/2111.11639v1 )

ライセンス: Link先を確認
David Cortes(参考訳) 外れ値検出のための分離森林アルゴリズムは、単純で効果的な観測を生かしている: 多重変量データを取得し、特徴空間を一様にランダムに切断すると、通常の観測に比べて、外れ値が与えられた部分空間に単独で残されるようなランダムなカットを少なくする。 元のアイデアは、分離に必要な木深さ(ランダムカット数)に基づくアウトリースコアを提案したが、ここでの実験は、取られた特徴空間の大きさとそれに割り当てられた点の数に関する情報を使用することで、木構造、特に分類的特徴の存在下で、多くの状況において改善結果が得られることを示した。

The isolation forest algorithm for outlier detection exploits a simple yet effective observation: if taking some multivariate data and making uniformly random cuts across the feature space recursively, it will take fewer such random cuts for an outlier to be left alone in a given subspace as compared to regular observations. The original idea proposed an outlier score based on the tree depth (number of random cuts) required for isolation, but experiments here show that using information about the size of the feature space taken and the number of points assigned to it can result in improved results in many situations without any modification to the tree structure, especially in the presence of categorical features.
翻訳日:2021-11-24 14:13:27 公開日:2021-11-23
# 小型サンプルサイズデータセットのためのマルチタスク多様体学習

Multi-task manifold learning for small sample size datasets ( http://arxiv.org/abs/2111.11655v1 )

ライセンス: Link先を確認
Hideaki Ishibashi, Kazushi Higac, Tetsuo Furukawa(参考訳) 本研究では,マルチタスク多様体学習法を開発した。 本手法は,複数のタスク,特に各タスクが少数のサンプルを持つ場合に,多様体学習の性能を向上させることを目的としている。 さらに,既存のタスクの新しいサンプルに加えて,新しいタスクのための新しいサンプルを生成することを目的とする。 提案手法では,インスタンス転送とモデル転送の2種類の情報転送を利用する。 転送の場合、データセットは類似のタスクにマージされるが、モデル転送の場合、多様体モデルは類似のタスク間で平均化される。 この目的のために提案手法は,ファイバーバンドルの一般モデルに統合されたタスクに対応する生成多様体モデルの集合からなる。 提案手法を人工的データセットと顔画像集合に適用し,少数のサンプルであっても,本手法が多様体を推定できることを示した。

In this study, we develop a method for multi-task manifold learning. The method aims to improve the performance of manifold learning for multiple tasks, particularly when each task has a small number of samples. Furthermore, the method also aims to generate new samples for new tasks, in addition to new samples for existing tasks. In the proposed method, we use two different types of information transfer: instance transfer and model transfer. For instance transfer, datasets are merged among similar tasks, whereas for model transfer, the manifold models are averaged among similar tasks. For this purpose, the proposed method consists of a set of generative manifold models corresponding to the tasks, which are integrated into a general model of a fiber bundle. We applied the proposed method to artificial datasets and face image sets, and the results showed that the method was able to estimate the manifolds, even for a tiny number of samples.
翻訳日:2021-11-24 14:13:13 公開日:2021-11-23
# ニューラルネットワーク回帰におけるモデルミス種別の不確かさ推定

Uncertainty estimation under model misspecification in neural network regression ( http://arxiv.org/abs/2111.11763v1 )

ライセンス: Link先を確認
Maria R. Cervera, Rafael D\"atwyler, Francesco D'Angelo, Hamza Keurti, Benjamin F. Grewe, Christian Henning(参考訳) ニューラルネットワークは強力な関数近似器であるが、基礎となるモデリング仮定は究極的には可能性を定義し、従って仮説クラスはパラメータ化される。 分類において、これらの仮定は、一般的に用いられるソフトマックスが任意のカテゴリー分布を表すことができるため、最小限である。 しかし回帰では、通常、平均二乗誤差によるトレーニングの選択やその基礎となるガウス性仮定のように、実現すべき連続分布の種類に関する制限的な仮定が設定される。 近年、モデリングの進歩により、連続分布のタイプをモデル化できないようになり、回帰は分類モデルの柔軟性を与える。 過去の研究では、このようなフレキシブル回帰モデルの利点を性能の観点から強調する一方で、モデル選択が不確実性評価に与える影響について検討する。 我々は,モデルの誤特定の下では,アレテータの不確実性は適切に捉えられず,不特定モデルのベイズ的扱いは不信頼な認識的不確実性推定につながることを強調する。 全体として、回帰における選択のモデル化が不確実性推定や下流の意思決定プロセスにどのように影響するかについて概説する。

Although neural networks are powerful function approximators, the underlying modelling assumptions ultimately define the likelihood and thus the hypothesis class they are parameterizing. In classification, these assumptions are minimal as the commonly employed softmax is capable of representing any categorical distribution. In regression, however, restrictive assumptions on the type of continuous distribution to be realized are typically placed, like the dominant choice of training via mean-squared error and its underlying Gaussianity assumption. Recently, modelling advances allow to be agnostic to the type of continuous distribution to be modelled, granting regression the flexibility of classification models. While past studies stress the benefit of such flexible regression models in terms of performance, here we study the effect of the model choice on uncertainty estimation. We highlight that under model misspecification, aleatoric uncertainty is not properly captured, and that a Bayesian treatment of a misspecified model leads to unreliable epistemic uncertainty estimates. Overall, our study provides an overview on how modelling choices in regression may influence uncertainty estimation and thus any downstream decision making process.
翻訳日:2021-11-24 14:13:01 公開日:2021-11-23
# 過パラメータ線形ベイズニューラルネットワークにおける奥行きによるスケール平均化

Depth induces scale-averaging in overparameterized linear Bayesian neural networks ( http://arxiv.org/abs/2111.11954v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Cengiz Pehlevan(参考訳) ディープベイズニューラルネットワークの推論は、深さの増加によって得られる後方の柔軟性が流出し、後方の予測が浅いガウス過程に崩壊する無限幅限界においてのみ完全に理解されている。 ここでは,有限深度線形ベイズニューラルネットワークをガウス過程予測器のデータ依存スケール混合として,出力チャネルにわたって解釈する。 これらのネットワークにおける表現学習の研究にこの観測を活用し、従来の研究で得られた制限結果と統合されたフレームワークを結びつける。 これらの結果は,ベイズニューラルネットワークの単純なクラスにおいて,深度が推論に与える影響を解析的に理解する上で有効である。

Inference in deep Bayesian neural networks is only fully understood in the infinite-width limit, where the posterior flexibility afforded by increased depth washes out and the posterior predictive collapses to a shallow Gaussian process. Here, we interpret finite deep linear Bayesian neural networks as data-dependent scale mixtures of Gaussian process predictors across output channels. We leverage this observation to study representation learning in these networks, allowing us to connect limiting results obtained in previous studies within a unified framework. In total, these results advance our analytical understanding of how depth affects inference in a simple class of Bayesian neural networks.
翻訳日:2021-11-24 14:12:39 公開日:2021-11-23
# 無人航空機による赤外線・可視画像に基づくPVパネルの欠陥検出のためのYOLOv3に基づくマルチステージモデル

A Multi-Stage model based on YOLOv3 for defect detection in PV panels based on IR and Visible Imaging by Unmanned Aerial Vehicle ( http://arxiv.org/abs/2111.11709v1 )

ライセンス: Link先を確認
Antonio Di Tommaso, Alessandro Betti, Giacomo Fontanelli, Benedetto Michelozzi(参考訳) 世界規模で設置される太陽光容量が増加し続けており、スマート介入のスケジュールやダウンタイムの可能性を最小化するために先進的な検査システムが最重要視されているという認識が高まっている。 本研究では,無人航空機で撮影された空中画像のパネル欠陥をyolov3ネットワークとコンピュータビジョン技術を用いて検出する自動多段モデルを提案する。 このモデルは、パネルと欠陥の検出を組み合わせて精度を向上する。 主な特徴は、サーモグラフィまたは可視画像の処理と様々な欠陥の検出、屋根上および地上に搭載されたPVシステムと異なるパネルタイプへの移植性である。 提案手法はイタリア南部の2つの大きなPVプラントにおいて、パネル検出の98%を超えるAP@0.5、赤外線サーモグラフィーによるホットスポットの約88.3%(66.95%)のAP@0.4(AP@0.5)、土壌や鳥の落下によるパネルシェーディング、脱落、水たまりの存在、屋上パネルの上昇など異常を検出するためのmAP@0.5(mAP@0.5)で検証されている。 土壌被覆率の推定も予測される。 最後に, YOLOv3の出力スケールが検出に与える影響について検討した。

As solar capacity installed worldwide continues to grow, there is an increasing awareness that advanced inspection systems are becoming of utmost importance to schedule smart interventions and minimize downtime likelihood. In this work we propose a novel automatic multi-stage model to detect panel defects on aerial images captured by unmanned aerial vehicle by using the YOLOv3 network and Computer Vision techniques. The model combines detections of panels and defects to refine its accuracy. The main novelties are represented by its versatility to process either thermographic or visible images and detect a large variety of defects and its portability to both rooftop and ground-mounted PV systems and different panel types. The proposed model has been validated on two big PV plants in the south of Italy with an outstanding AP@0.5 exceeding 98% for panel detection, a remarkable AP@0.4 (AP@0.5) of roughly 88.3% (66.95%) for hotspots by means of infrared thermography and a mAP@0.5 of almost 70% in the visible spectrum for detection of anomalies including panel shading induced by soiling and bird dropping, delamination, presence of puddles and raised rooftop panels. An estimation of the soiling coverage is also predicted. Finally an analysis of the influence of the different YOLOv3's output scales on the detection is discussed.
翻訳日:2021-11-24 14:11:26 公開日:2021-11-23
# (参考訳) 人体骨格に基づく監視環境下での歩行同定 [全文訳有]

Gait Identification under Surveillance Environment based on Human Skeleton ( http://arxiv.org/abs/2111.11720v1 )

ライセンス: CC BY 4.0
Xingkai Zheng, Xirui Li, Ke Xu(参考訳) 生体認証技術として、視覚ベースの歩行識別はバイオメトリックスにおける重要な研究内容である。 既存のゲイト識別手法のほとんどは、ゲイトビデオから特徴を抽出し、ギャラリー内のクエリによってプローブサンプルを識別する。 しかしビデオデータには冗長な情報が含まれており,袋詰 (bg) や衣服 (cl) の影響を受けやすい。 人体骨格は人間の歩行に関する重要な情報を伝達するので,本プロジェクトでは骨格に基づく歩行識別ネットワークを提案する。 まず、ビデオから骨格配列を抽出し、それらを歩行グラフにマッピングする。 次に、時空間グラフ畳み込みネットワーク(ST-GCN)に基づく特徴抽出ネットワークを構築し、歩行表現を学習する。 最後に、プローブサンプルをギャラリーの最もよく似た部分と一致させて識別する。 提案手法をCASIA-Bデータセットで検証した。 その結果,本手法は適応性が高く,BG,CL条件,平均値の高度な結果が得られることがわかった。

As an emerging biological identification technology, vision-based gait identification is an important research content in biometrics. Most existing gait identification methods extract features from gait videos and identify a probe sample by a query in the gallery. However, video data contains redundant information and can be easily influenced by bagging (BG) and clothing (CL). Since human body skeletons convey essential information about human gaits, a skeleton-based gait identification network is proposed in our project. First, extract skeleton sequences from the video and map them into a gait graph. Then a feature extraction network based on Spatio-Temporal Graph Convolutional Network (ST-GCN) is constructed to learn gait representations. Finally, the probe sample is identified by matching with the most similar piece in the gallery. We tested our method on the CASIA-B dataset. The result shows that our approach is highly adaptive and gets the advanced result in BG, CL conditions, and average.
翻訳日:2021-11-24 14:10:12 公開日:2021-11-23
# 強化学習を用いたgpuコンパイラヒューリスティック生成

Generating GPU Compiler Heuristics using Reinforcement Learning ( http://arxiv.org/abs/2111.12055v1 )

ライセンス: Link先を確認
Ian Colbert, Jake Daly, Norm Rubin(参考訳) GPUコンパイラは複雑なソフトウェアプログラムであり、ターゲットハードウェアに特化した最適化が多数ある。 これらの最適化はしばしば、時間とリソース集約プロセスを使用してコンパイラの専門家が手作業で設計したヒューリスティックによって制御される。 本稿では,オフポリシック深層強化学習を用いて,グラフィックスアプリケーションのフレームレートを改善するヒューリスティックを生成するgpuコンパイラ自動チューニングフレームワークを開発した。 さらに,再トレーニングを行わずに1年間のコードチェックインの安定性を解析することにより,コンパイラ更新の頻繁化に対する学習ヒューリスティックのレジリエンスを実証する。 機械学習ベースのコンパイラの自動チューニングフレームワークは、グラフィックスベンチマークの98%のフレームレートと一致または超えており、平均で1.6%のアップリフトが15.8%となっている。

GPU compilers are complex software programs with many optimizations specific to target hardware. These optimizations are often controlled by heuristics hand-designed by compiler experts using time- and resource-intensive processes. In this paper, we developed a GPU compiler autotuning framework that uses off-policy deep reinforcement learning to generate heuristics that improve the frame rates of graphics applications. Furthermore, we demonstrate the resilience of these learned heuristics to frequent compiler updates by analyzing their stability across a year of code check-ins without retraining. We show that our machine learning-based compiler autotuning framework matches or surpasses the frame rates for 98% of graphics benchmarks with an average uplift of 1.6% up to 15.8%.
翻訳日:2021-11-24 14:05:09 公開日:2021-11-23
# DABS: 自己監督学習のためのドメインに依存しないベンチマーク

DABS: A Domain-Agnostic Benchmark for Self-Supervised Learning ( http://arxiv.org/abs/2111.12062v1 )

ライセンス: Link先を確認
Alex Tamkin, Vincent Liu, Rongfei Lu, Daniel Fein, Colin Schultz, Noah Goodman(参考訳) BERTやSimCLRを含む自己教師付き学習アルゴリズムは、自然言語処理、コンピュータビジョン、音声処理といった分野で大きな進歩を遂げている。 しかし、これらのアルゴリズムはドメイン固有であり、医療、科学、マルチモーダルドメインを含む新しい設定ごとに新しい自己教師付き学習アルゴリズムを開発する必要がある。 ドメイン非依存的手法の進歩を促すために,ドメイン非依存型自己教師型学習ベンチマークであるDABSを紹介する。 DABSでは,自然画像,マルチチャネルセンサデータ,英語テキスト,音声記録,多言語テキスト,胸部X線,テキスト記述を伴う画像の7つの領域において,アルゴリズムが評価される。 各ドメインには事前トレーニング用のラベル付きデータセットが含まれており、ドメイン内のラベル付きタスクセットの下流のパフォーマンスに基づいてモデルがスコアされる。 E-Mix と ShED も提示する: 2つのベースラインドメインに依存しないアルゴリズム; 比較的控えめな性能は、自己教師付き学習が任意のドメインに対するアウト・オブ・ボックスのソリューションになる前に、大きな進歩が必要であることを示す。 ベンチマークデータセットとベースラインアルゴリズムのコードは、https://github.com/a lextamkin/dabsで入手できる。

Self-supervised learning algorithms, including BERT and SimCLR, have enabled significant strides in fields like natural language processing, computer vision, and speech processing. However, these algorithms are domain-specific, meaning that new self-supervised learning algorithms must be developed for each new setting, including myriad healthcare, scientific, and multimodal domains. To catalyze progress toward domain-agnostic methods, we introduce DABS: a Domain-Agnostic Benchmark for Self-supervised learning. To perform well on DABS, an algorithm is evaluated on seven diverse domains: natural images, multichannel sensor data, English text, speech recordings, multilingual text, chest x-rays, and images with text descriptions. Each domain contains an unlabeled dataset for pretraining; the model is then is scored based on its downstream performance on a set of labeled tasks in the domain. We also present e-Mix and ShED: two baseline domain-agnostic algorithms; their relatively modest performance demonstrates that significant progress is needed before self-supervised learning is an out-of-the-box solution for arbitrary domains. Code for benchmark datasets and baseline algorithms is available at https://github.com/a lextamkin/dabs.
翻訳日:2021-11-24 14:04:57 公開日:2021-11-23
# OCT Bスキャンにおける緑内障の自己学習フレームワーク

A self-training framework for glaucoma grading in OCT B-scans ( http://arxiv.org/abs/2111.11771v1 )

ライセンス: Link先を確認
Gabriel Garc\'ia, Adri\'an Colomer, Rafael Verd\'u-Monedero, Jos\'e Dolz, Valery Naranjo(参考訳) 本稿では,oct b-scanを用いた緑内障評価のための自己学習型フレームワークを提案する。 特に,提案する2段階学習手法では,第1段階で生成された擬似ラベルを用いて,対象領域のトレーニングデータセットを強化し,最終対象モデルのトレーニングに使用する。 これにより、ラベルのないデータから知識ドメインを転送できる。 さらに,潜伏空間の埋め込み特性を洗練するために,スキップ接続による残留および注意モジュールを導入する新しい緑内障特異的バックボーンを提案する。 これを行うことで、定量的かつ解釈可能性の観点から、我々のモデルは最先端技術を改善することができる。 その結果,提案した学習戦略は,サンプルからのラベルのみを用いることで,追加のアノテーションステップを発生させることなく,ターゲットデータセット上でのモデルの性能を向上させることができることがわかった。 我々のモデルは、異なる指標をまたいでベースラインを1-3%上回り、ラベル付き対象データ上でモデルをトレーニングする際のギャップを埋める。

In this paper, we present a self-training-based framework for glaucoma grading using OCT B-scans under the presence of domain shift. Particularly, the proposed two-step learning methodology resorts to pseudo-labels generated during the first step to augment the training dataset on the target domain, which is then used to train the final target model. This allows transferring knowledge-domain from the unlabeled data. Additionally, we propose a novel glaucoma-specific backbone which introduces residual and attention modules via skip-connections to refine the embedding features of the latent space. By doing this, our model is capable of improving state-of-the-art from a quantitative and interpretability perspective. The reported results demonstrate that the proposed learning strategy can boost the performance of the model on the target dataset without incurring in additional annotation steps, by using only labels from the source examples. Our model consistently outperforms the baseline by 1-3% across different metrics and bridges the gap with respect to training the model on the labeled target data.
翻訳日:2021-11-24 14:04:24 公開日:2021-11-23
# (参考訳) 分散グラフを用いたグラフニューラルネットワークの一般化 [全文訳有]

Generalizing Graph Neural Networks on Out-Of-Distribution Graphs ( http://arxiv.org/abs/2111.10657v2 )

ライセンス: CC BY 4.0
Shaohua Fan, Xiao Wang, Chuan Shi, Peng Cui and Bai Wang(参考訳) グラフニューラルネットワーク(GNN)は,トレーニンググラフとテストグラフの非依存的な分布変化を考慮せずに提案され,OF-Distribution(OOD )設定上でのGNNの一般化能力の低下を招く。 このような退化の根本的な理由は、ほとんどのGNNがI.I.D仮説に基づいて開発されているからである。 このような設定では、gnnはスプリアス相関であるにもかかわらず、トレーニングセットに存在する微妙な統計相関を予測のために利用する傾向がある。 しかし、このような急激な相関関係はテスト環境で変化し、GNNの失敗につながる可能性がある。 したがって、スプリアス相関の影響の排除は安定gnnにとって不可欠である。 そこで我々は,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。 主なアイデアは、まずグラフデータからハイレベルな表現を抽出し、モデルがスプリアス相関を取り除くのを助けるために因果推論の識別能力に頼ることである。 特に,グラフプーリング層を用いてグラフベース表現を高レベル表現として抽出する。 さらに,偏りのあるトレーニング分布を補正するための因果変数識別正規化器を提案する。 したがって、GNNはより安定した相関に集中する。 合成および実世界のoodグラフデータセットの広範な実験により、提案フレームワークの有効性、柔軟性、解釈性が検証された。

Graph Neural Networks (GNNs) are proposed without considering the agnostic distribution shifts between training and testing graphs, inducing the degeneration of the generalization ability of GNNs on Out-Of-Distribution (OOD) settings. The fundamental reason for such degeneration is that most GNNs are developed based on the I.I.D hypothesis. In such a setting, GNNs tend to exploit subtle statistical correlations existing in the training set for predictions, even though it is a spurious correlation. However, such spurious correlations may change in testing environments, leading to the failure of GNNs. Therefore, eliminating the impact of spurious correlations is crucial for stable GNNs. To this end, we propose a general causal representation framework, called StableGNN. The main idea is to extract high-level representations from graph data first and resort to the distinguishing ability of causal inference to help the model get rid of spurious correlations. Particularly, we exploit a graph pooling layer to extract subgraph-based representations as high-level representations. Furthermore, we propose a causal variable distinguishing regularizer to correct the biased training distribution. Hence, GNNs would concentrate more on the stable correlations. Extensive experiments on both synthetic and real-world OOD graph datasets well verify the effectiveness, flexibility and interpretability of the proposed framework.
翻訳日:2021-11-24 12:59:59 公開日:2021-11-23
# ナノボットキュー:チームメンバーのコミュニケーションと画像処理に基づくがんの協調治療

Nanorobot queue: Cooperative treatment of cancer based on team member communication and image processing ( http://arxiv.org/abs/2111.11236v2 )

ライセンス: Link先を確認
Xinyu Zhou(参考訳) Although nanorobots have been used as clinical prescriptions for work such as gastroscopy, and even photoacoustic tomography technology has been proposed to control nanorobots to deliver drugs at designated delivery points in real time, and there are cases of eliminating "superbacteria" in blood through nanorobots, most technologies are immature, either with low efficiency or low accuracy, Either it can not be mass produced, so the most effective way to treat cancer diseases at this stage is through chemotherapy and radiotherapy. 患者は苦しんでおり、治療はできない。 そこで本稿では, チームメンバーコミュニケーションとコンピュータビジョン画像分類(ターゲット検出)を通じて, ナノロボットキューに基づく協調的治療法であるがんを完全治療できる治療法の理想的なモデルを提案する。

Although nanorobots have been used as clinical prescriptions for work such as gastroscopy, and even photoacoustic tomography technology has been proposed to control nanorobots to deliver drugs at designated delivery points in real time, and there are cases of eliminating "superbacteria" in blood through nanorobots, most technologies are immature, either with low efficiency or low accuracy, Either it can not be mass produced, so the most effective way to treat cancer diseases at this stage is through chemotherapy and radiotherapy. Patients are suffering and can not be cured. Therefore, this paper proposes an ideal model of a treatment method that can completely cure cancer, a cooperative treatment method based on nano robot queue through team member communication and computer vision image classification (target detection).
翻訳日:2021-11-24 12:33:35 公開日:2021-11-23
# (参考訳) L-Verse: 画像とテキスト間の双方向生成 [全文訳有]

L-Verse: Bidirectional Generation Between Image and Text ( http://arxiv.org/abs/2111.11133v2 )

ライセンス: CC BY-SA 4.0
Taehoon Kim, Gwangmo Song, Sihaeng Lee, Sangyun Kim, Yewon Seo, Soonyoung Lee, Seung Hwan Kim, Honglak Lee, Kyunghoon Bae(参考訳) 自然言語の長距離相互作用を学ぶだけでなく、トランスフォーマーはパワーとスカラビティで多くの視覚タスクのデファクトスタンダードになりつつある。 特に画像とテキスト間のクロスモーダルなタスクでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)が、生のRGB画像を特徴ベクトル列にするために広く使われている。 画像とテキストの相関をよりよく活用するために,機能拡張可変オートエンコーダ(AugVAE)と双方向自動回帰変換器(BiART)を組み合わせた新しいアーキテクチャであるL-Verseを提案する。 AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、未確認画像に対する堅牢性を示している。 他のモデルとは異なり、BiARTは画像(またはテキスト)を条件付き参照と生成ターゲットと区別することができる。 L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像生成タスクに直接使用できる。 定量的および定性的な実験において、L-Verseは、MS-COCOキャプションにおける画像・テキスト・画像生成とテキスト・画像生成の両方において、従来の手法に対する印象的な結果を示した。 さらに、L-Verseアーキテクチャのコンセプトキャプションにおけるスケーラビリティを評価し、汎用ドメインにおける双方向視覚言語表現学習の初期結果を示す。 コード:https://github.com/ tgisaturday/L-Verse

Far beyond learning long-range interactions of natural language, transformers are becoming the de-facto standard for many vision tasks with their power and scalabilty. Especially with cross-modal tasks between image and text, vector quantized variational autoencoders (VQ-VAEs) are widely used to make a raw RGB image into a sequence of feature vectors. To better leverage the correlation between image and text, we propose L-Verse, a novel architecture consisting of feature-augmented variational autoencoder (AugVAE) and bidirectional auto-regressive transformer (BiART) for text-to-image and image-to-text generation. Our AugVAE shows the state-of-the-art reconstruction performance on ImageNet1K validation set, along with the robustness to unseen images in the wild. Unlike other models, BiART can distinguish between image (or text) as a conditional reference and a generation target. L-Verse can be directly used for image-to-text or text-to-image generation tasks without any finetuning or extra object detection frameworks. In quantitative and qualitative experiments, L-Verse shows impressive results against previous methods in both image-to-text and text-to-image generation on MS-COCO Captions. We furthermore assess the scalability of L-Verse architecture on Conceptual Captions and present the initial results of bidirectional vision-language representation learning on general domain. Codes available at: https://github.com/t gisaturday/L-Verse
翻訳日:2021-11-24 12:32:28 公開日:2021-11-23
# ニューラルネットワークを用いた異常耐性グラフニューラルネットワーク

Anomaly-resistant Graph Neural Networks via Neural Architecture Search ( http://arxiv.org/abs/2111.11406v2 )

ライセンス: Link先を確認
M. Park(参考訳) 一般に、グラフニューラルネットワーク(GNN)は、近隣の情報を集約して要約し、それらの情報を表現するためにメッセージパッシング手法を用いてきた。 それにもかかわらず、従来の研究では、このメッセージパッシング法により近隣に異常ノードが存在する場合、グラフニューラルネットワークの性能が低下することが示されている。 本稿では,ニューラルアーキテクチャ探索法にヒントを得て,異常ノードを認識し,情報集約から自動的に除去するアルゴリズムを提案する。 各種実世界のデータセットを用いた実験により,提案したニューラルネットワーク検索に基づく異常抵抗グラフニューラルネットワーク(NASAR-GNN)が実際に有効であることが示された。

In general, Graph Neural Networks(GNN) have been using a message passing method to aggregate and summarize information about neighbors to express their information. Nonetheless, previous studies have shown that the performance of graph neural networks becomes vulnerable when there are abnormal nodes in the neighborhood due to this message passing method. In this paper, inspired by the Neural Architecture Search method, we present an algorithm that recognizes abnormal nodes and automatically excludes them from information aggregation. Experiments on various real worlds datasets show that our proposed Neural Architecture Search-based Anomaly Resistance Graph Neural Network (NASAR-GNN) is actually effective.
翻訳日:2021-11-24 12:13:40 公開日:2021-11-23
# TransMorph: 教師なし医療画像登録用トランスフォーマー

TransMorph: Transformer for unsupervised medical image registration ( http://arxiv.org/abs/2111.10480v2 )

ライセンス: Link先を確認
Junyu Chen, Yong Du, Yufan He, William P. Segars, Ye Li, Eric C. Frey(参考訳) 過去10年間で、畳み込みニューラルネットワーク(ConvNets)が医療画像分析の分野を支配してきた。 しかし,画像中のボクセル間の長距離空間関係をモデル化できないため,コンブネットの性能は制限される可能性がある。 ConvNetsの欠点に対処するために、多くのビジョントランスフォーマーが最近提案され、多くの医療画像アプリケーションで最先端のパフォーマンスを実証している。 トランスフォーマーは、移動画像と固定画像の空間対応をより正確に理解できるため、画像登録の強力な候補となるかもしれない。 本稿では,ボリューム医療画像登録のためのTransformer-ConvNetハイブリッドモデルTransMorphを提案する。 また、位相保存変形を保証する2つの微分同相変種と、よく校正された登録不確実性推定を生成するベイズ変種という3つの変種も導入する。 提案モデルは, 患者間MRIとファントムCTの2つの応用から, ボリューム医療画像を用いて, 既存の登録方法やトランスフォーマーアーキテクチャに対して広範囲に検証されている。 質的および定量的な結果は、TransMorphとその変種がベースライン法よりも大幅に改善し、医療画像登録におけるTransformerの有効性を示す。

In the last decade, convolutional neural networks (ConvNets) have dominated the field of medical image analysis. However, it is found that the performances of ConvNets may still be limited by their inability to model long-range spatial relations between voxels in an image. Numerous vision Transformers have been proposed recently to address the shortcomings of ConvNets, demonstrating state-of-the-art performances in many medical imaging applications. Transformers may be a strong candidate for image registration because their self-attention mechanism enables a more precise comprehension of the spatial correspondence between moving and fixed images. In this paper, we present TransMorph, a hybrid Transformer-ConvNet model for volumetric medical image registration. We also introduce three variants of TransMorph, with two diffeomorphic variants ensuring the topology-preserving deformations and a Bayesian variant producing a well-calibrated registration uncertainty estimate. The proposed models are extensively validated against a variety of existing registration methods and Transformer architectures using volumetric medical images from two applications: inter-patient brain MRI registration and phantom-to-CT registration. Qualitative and quantitative results demonstrate that TransMorph and its variants lead to a substantial performance improvement over the baseline methods, demonstrating the effectiveness of Transformers for medical image registration.
翻訳日:2021-11-24 12:13:30 公開日:2021-11-23
# UMBRELLA:不確かさを意識したモデルに基づくオフライン強化学習

UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning ( http://arxiv.org/abs/2111.11097v2 )

ライセンス: Link先を確認
Christopher Diehl, Timo Sievernich, Martin Kr\"uger, Frank Hoffmann, Torsten Bertram(参考訳) オフライン強化学習(RL)は、オフラインデータから意思決定を学習するためのフレームワークを提供する。 自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れているポリシーを学ぶ。 特に、自動運転、説明可能性、転送可能性といった安全クリティカルな応用が成功の鍵となる。 これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。 しかし、現在の最先端手法は、多エージェント系の確率的挙動から生じるアレタリック不確実性の影響を無視することが多い。 本研究は,SDVの予測,計画,制御問題を解釈可能な学習方式で共同で解決する,不確実性を考慮したモデルベースオフライン強化学習plAnning(UMBRELLA)の新たなアプローチを提案する。 訓練された行動条件付き確率力学モデルは、交通シーンの異なる未来の進化を捉えている。 この分析は,実世界の公開データセットに基づいて,運転シミュレーションに挑戦する手法の有効性を示す実証的証拠を提供する。

Offline reinforcement learning (RL) provides a framework for learning decision-making from offline data and therefore constitutes a promising approach for real-world applications as automated driving. Self-driving vehicles (SDV) learn a policy, which potentially even outperforms the behavior in the sub-optimal data set. Especially in safety-critical applications as automated driving, explainability and transferability are key to success. This motivates the use of model-based offline RL approaches, which leverage planning. However, current state-of-the-art methods often neglect the influence of aleatoric uncertainty arising from the stochastic behavior of multi-agent systems. This work proposes a novel approach for Uncertainty-aware Model-Based Offline REinforcement Learning Leveraging plAnning (UMBRELLA), which solves the prediction, planning, and control problem of the SDV jointly in an interpretable learning-based fashion. A trained action-conditioned stochastic dynamics model captures distinctively different future evolutions of the traffic scene. The analysis provides empirical evidence for the effectiveness of our approach in challenging automated driving simulations and based on a real-world public dataset.
翻訳日:2021-11-24 12:13:09 公開日:2021-11-23
# スタイルベース画像翻訳における整流子への埋め込み

Delving into Rectifiers in Style-Based Image Translation ( http://arxiv.org/abs/2111.10546v2 )

ライセンス: Link先を確認
Yipeng Zhang, Bingliang Hu, Hailong Ning, Quang Wang(参考訳) 現代の画像翻訳技術はフォトリアリスティックな合成画像を作成することができるが、スタイル制御性は限られており、翻訳エラーに苦しむ可能性がある。 本研究では,画像合成の方向を制御する上で,活性化関数が重要な要素であることを示す。 具体的には、整流器の傾斜パラメータがデータ分布を変化させ、独立して翻訳の方向を制御することができることを示した。 スタイル制御性を改善するために,Adaptive ReLU (AdaReLU) と構造適応関数の2つの簡易かつ効果的な手法を提案する。 adareluはターゲットスタイルに応じて動的に傾斜パラメータを調整でき、適応インスタンス正規化(adain)と組み合わせることで制御性を高めることができる。 一方、構造適応関数により、整流器は特徴写像の構造をより効果的に操作できる。 提案する構造畳み込み(struconv)は、adainによって指定された平均と分散に基づいて活性化すべき領域を選択できる効率的な畳み込みモジュールである。 広範な実験により,提案手法は,スタイルに基づく画像翻訳タスクにおいて,ネットワーク制御性と出力多様性を著しく向上させることができることが示された。

While modern image translation techniques can create photorealistic synthetic images, they have limited style controllability, thus could suffer from translation errors. In this work, we show that the activation function is one of the crucial components in controlling the direction of image synthesis. Specifically, we explicitly demonstrated that the slope parameters of the rectifier could change the data distribution and be used independently to control the direction of translation. To improve the style controllability, two simple but effective techniques are proposed, including Adaptive ReLU (AdaReLU) and structural adaptive function. The AdaReLU can dynamically adjust the slope parameters according to the target style and can be utilized to increase the controllability by combining with Adaptive Instance Normalization (AdaIN). Meanwhile, the structural adaptative function enables rectifiers to manipulate the structure of feature maps more effectively. It is composed of the proposed structural convolution (StruConv), an efficient convolutional module that can choose the area to be activated based on the mean and variance specified by AdaIN. Extensive experiments show that the proposed techniques can greatly increase the network controllability and output diversity in style-based image translation tasks.
翻訳日:2021-11-24 12:12:52 公開日:2021-11-23
# 逐次レコメンデーションのためのエッジエンハンスドグローバル不等角グラフニューラルネットワーク

Edge-Enhanced Global Disentangled Graph Neural Network for Sequential Recommendation ( http://arxiv.org/abs/2111.10539v2 )

ライセンス: Link先を確認
Yunyi Li, Pengpeng Zhao, Guanfeng Liu, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Xiaofang Zhou(参考訳) 逐次レコメンデーションは、レコメンデーションシステムで広く使われているトピックである。 既存の研究は、リカレントネットワークやセルフアテンション機構といった様々な手法に基づく逐次レコメンデーションシステムの予測能力の向上に寄与している。 しかし、ユーザ行動の動機となる要因として、アイテム間のさまざまな関係を発見して区別することができない。 本稿では,グローバルアイテム表現用項目とローカルユーザ意図学習の関係情報を取得するために,エッジ拡張グローバルディスタングルグラフニューラルネットワーク(EGD-GNN)モデルを提案する。 グローバルレベルでは、アイテムの関係をモデル化するために、すべてのシーケンスにグローバルリンクグラフを構築します。 次に, エッジ情報を異なるチャネルに分解し, 対象項目を隣接ノードから表現できるように, チャネルアウェア不連続学習層を設計した。 ローカルレベルでは、変動型自動エンコーダフレームワークを適用し、現在のシーケンスに関するユーザの意図を学習する。 提案手法を実世界の3つのデータセットで評価する。 実験の結果,本モデルは最先端のベースラインよりも重要な改善が得られ,項目の特徴を識別できることがわかった。

Sequential recommendation has been a widely popular topic of recommender systems. Existing works have contributed to enhancing the prediction ability of sequential recommendation systems based on various methods, such as recurrent networks and self-attention mechanisms. However, they fail to discover and distinguish various relationships between items, which could be underlying factors which motivate user behaviors. In this paper, we propose an Edge-Enhanced Global Disentangled Graph Neural Network (EGD-GNN) model to capture the relation information between items for global item representation and local user intention learning. At the global level, we build a global-link graph over all sequences to model item relationships. Then a channel-aware disentangled learning layer is designed to decompose edge information into different channels, which can be aggregated to represent the target item from its neighbors. At the local level, we apply a variational auto-encoder framework to learn user intention over the current sequence. We evaluate our proposed method on three real-world datasets. Experimental results show that our model can get a crucial improvement over state-of-the-art baselines and is able to distinguish item features.
翻訳日:2021-11-24 12:12:28 公開日:2021-11-23
# ARMAS:音声セグメントのアクティブな再構築

ARMAS: Active Reconstruction of Missing Audio Segments ( http://arxiv.org/abs/2111.10891v2 )

ライセンス: Link先を確認
Sachin Pokharel, Muhammad Ali, Zohra Cheddad, Abbas Cheddad(参考訳) 近年, 深層学習アルゴリズムを用いて, 失われたセグメントや破損セグメントのディジタル音声信号再構成が盛んに行われている。 それでも、線形補間、位相符号化、トーン挿入といった従来の手法はまだ流行している。 しかし, ディザリング, ステガノグラフィ, 機械学習回帰器の融合による音声信号の再構成に関する研究は行われなかった。 そこで本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端浅層(RFランダムフォレストとSVR支援ベクトル回帰)と深層学習(LSTM-Long Short-Term Memory)の組み合わせを提案する。 結果(スペインと自己回帰法との比較を含む)は4つの異なる指標で評価される。 その結果,提案手法は有効であり,サイド情報(ノイズ・ラテント表現)ステガノグラフィが提供する音声信号の再構成が促進されることがわかった。 この研究はこのアプローチの最適化や異なる領域(つまり画像再構成)への変換に関心を惹きつけるかもしれない。

Digital audio signal reconstruction of lost or corrupt segment using deep learning algorithms has been explored intensively in the recent years. Nevertheless, prior traditional methods with linear interpolation, phase coding and tone insertion techniques are still in vogue. However, we found no research work on the reconstruction of audio signals with the fusion of dithering, steganography, and machine learning regressors. Therefore, this paper proposes the combination of steganography, halftoning (dithering), and state-of-the-art shallow (RF- Random Forest and SVR- Support Vector Regression) and deep learning (LSTM- Long Short-Term Memory) methods. The results (including comparison to the SPAIN and Autoregressive methods) are evaluated with four different metrics. The observations from the results show that the proposed solution is effective and can enhance the reconstruction of audio signals performed by the side information (noisy-latent representation) steganography provides. This work may trigger interest in the optimization of this approach and/or in transferring it to different domains (i.e., image reconstruction).
翻訳日:2021-11-24 12:12:10 公開日:2021-11-23
# ニューラルSchr\"odinger-F\"ollmer Flowsによるベイズ学習

Bayesian Learning via Neural Schr\"odinger-F\"ollmer Flows ( http://arxiv.org/abs/2111.10510v2 )

ライセンス: Link先を確認
Francisco Vargas, Andrius Ovsianas, David Fernandes, Mark Girolami, Neil Lawrence, Nikolas N\"usken(参考訳) 本研究では,確率制御に基づく大規模データセットにおけるベイズ推定の新しい枠組みについて検討する。 我々は、確率勾配ランゲヴィンダイナミクス(SGLD)のような一般的な定常法に代わる有限時間制御を提唱する。 さらに,本フレームワークの既存の理論的保証について議論し,SDEモデルにおける既存のVIルーチンとの接続を確立する。

In this work we explore a new framework for approximate Bayesian inference in large datasets based on stochastic control. We advocate stochastic control as a finite time alternative to popular steady-state methods such as stochastic gradient Langevin dynamics (SGLD). Furthermore, we discuss and adapt the existing theoretical guarantees of this framework and establish connections to already existing VI routines in SDE-based models.
翻訳日:2021-11-24 12:11:53 公開日:2021-11-23