このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220815となっている論文です。

PDF登録状況(公開日: 20220815)

TitleAuthorsAbstract論文公表日・翻訳日
# 安定に一貫した形式システムに対する不完全性

Incompleteness for stably consistent formal systems ( http://arxiv.org/abs/2001.07592v7 )

ライセンス: Link先を確認
Yasha Savelyev(参考訳) まず、人間の実際の一貫性特性を反映した安定一貫性という数学的概念を部分的に発展させた。 次に、第一および第二の g\"odel incompleteness theorem を、安定的に1,12$一貫性のある形式系に一般化する。我々の議論は、チューリング機械言語を用いて(計算可能)直接「g\"odel sentence」を構築するために、第一原理から元の不完全性定理を再証明する。 実際には、安定的に一貫した形式体系は、時間とともに進化する人類の数学的アウトプットを表現することを目的としており、上記のことは、知性の計算可能性を妨げる有名なG\"odelの解離の形式化を与える。

We first partly develop a mathematical notion of stable consistency intended to reflect the actual consistency property of human beings. Then we give a generalization of the first and second G\"odel incompleteness theorem to stably $1,2$-consistent formal systems. Our argument in particular re-proves the original incompleteness theorems from first principles, using Turing machine language to (computably) construct our "G\"odel sentence" directly, in particular we do not use the diagonal lemma, nor any meta-logic, with the proof naturally formalizable in set theory. In practice such a stably consistent formal system could be meant to represent the mathematical output of humanity evolving in time, so that the above gives a formalization of a famous disjunction of G\"odel, obstructing computability of intelligence.
翻訳日:2023-01-08 00:28:40 公開日:2022-08-15
# プラグインKRR推定器を用いた導関数の推定について

On the Estimation of Derivatives Using Plug-in KRR Estimators ( http://arxiv.org/abs/2006.01350v3 )

ライセンス: Link先を確認
Zejian Liu and Meng Li(参考訳) 未知関数の重要な非パラメトリック関数として広く応用されている回帰関数の導関数を推定する問題について検討する。 標準解析は特定のデリバティブ順序に合わせることができ、パラメータチューニングは特に高階微分に対して困難な課題である。 本稿では,多次元サポートや任意の混合部分微分に広く適用可能な,ランダムな設計による非パラメトリック回帰の簡易なプラグインカーネルリッジ回帰(KRR)推定器を提案する。 回帰関数とその導関数を包含する統一的な方法で提案する推定器の挙動を研究する非漸近解析を行い,強い$l_\infty$ノルムの下でのカーネルの一般クラスに対する2つの誤差境界を導出する。 多項式減衰固有値を持つカーネルに特化した具体例において、提案した推定器は、H\older と Sobolev クラスの関数の微分を推定するための対数係数まで最小値の最適率を復元する。 興味深いことに、提案する推定器は、任意の階数導関数のチューニングパラメータを同じ選択で最適な収束率を達成する。 そこで提案した推定器は, 導関数の順序に自動的に適応し, 実際に容易にチューニングできるような, 導関数に対する \textit{plug-in property} を享受する。 シミュレーション実験により,提案手法の既成手法と比較して, 提案手法の有限標本性能が良好であることが確認された。

We study the problem of estimating the derivatives of a regression function, which has a wide range of applications as a key nonparametric functional of unknown functions. Standard analysis may be tailored to specific derivative orders, and parameter tuning remains a daunting challenge particularly for high-order derivatives. In this article, we propose a simple plug-in kernel ridge regression (KRR) estimator in nonparametric regression with random design that is broadly applicable for multi-dimensional support and arbitrary mixed-partial derivatives. We provide a non-asymptotic analysis to study the behavior of the proposed estimator in a unified manner that encompasses the regression function and its derivatives, leading to two error bounds for a general class of kernels under the strong $L_\infty$ norm. In a concrete example specialized to kernels with polynomially decaying eigenvalues, the proposed estimator recovers the minimax optimal rate up to a logarithmic factor for estimating derivatives of functions in H\"older and Sobolev classes. Interestingly, the proposed estimator achieves the optimal rate of convergence with the same choice of tuning parameter for any order of derivatives. Hence, the proposed estimator enjoys a \textit{plug-in property} for derivatives in that it automatically adapts to the order of derivatives to be estimated, enabling easy tuning in practice. Our simulation studies show favorable finite sample performance of the proposed method relative to several existing methods blue and corroborate the theoretical findings on its minimax optimality.
翻訳日:2022-11-25 23:54:15 公開日:2022-08-15
# R^2におけるグラディエント蛍光の最悪の非効率について

Notes on Worst-case Inefficiency of Gradient Descent Even in R^2 ( http://arxiv.org/abs/2008.07513v2 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) 勾配降下は最適化において一般的なアルゴリズムであり、凸設定における性能はほとんどよく理解されている。 非凸設定では、勾配降下は漸近的にサドル点を脱出し、局所最小化子 [lee et. al. 2016] に収束できることが示されている。 最近の研究では、勾配降下の摂動バージョンは、効率的にサドルポイントを逃れるには十分であることが示されている[Jin et al. 2015 Ge et al. 2017]。 勾配降下は,非病理学的2次元関数を持つサドル点から脱出するのに指数関数的な時間を要する可能性がある。 我々の焦点は理論的だが、理論結果を検証する実験も行っている。 解析を通して,サドルポイントを効率的に回避するためには,確率性が不可欠であることを示す。

Gradient descent is a popular algorithm in optimization, and its performance in convex settings is mostly well understood. In non-convex settings, it has been shown that gradient descent is able to escape saddle points asymptotically and converge to local minimizers [Lee et. al. 2016]. Recent studies also show a perturbed version of gradient descent is enough to escape saddle points efficiently [Jin et. al. 2015, Ge et. al. 2017]. In this paper we show a negative result: gradient descent may take exponential time to escape saddle points, with non-pathological two dimensional functions. While our focus is theoretical, we also conduct experiments verifying our theoretical result. Through our analysis we demonstrate that stochasticity is essential to escape saddle points efficiently.
翻訳日:2022-10-28 03:08:25 公開日:2022-08-15
# RG-Flow:再正規化群とスパースに基づく階層的で説明可能なフローモデル

RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior ( http://arxiv.org/abs/2010.00029v5 )

ライセンス: Link先を確認
Hong-Ye Hu, Dian Wu, Yi-Zhuang You, Bruno Olshausen, Yubei Chen(参考訳) フローベースの生成モデルは教師なし学習アプローチの重要なクラスとなっている。 本研究では,再正規化群 (rg) とスパース事前分布 (sparse prior distribution) という重要な概念を取り入れ,階層的フローベース生成モデル (rg-flow) を設計した。 提案手法は合成多スケール画像データセットとCelebAデータセットについて実証し、この不整合表現は画像の異なるスケールでのセマンティックな操作とスタイルの混合を可能にすることを示す。 潜在表現を可視化するために、フローベースモデルに対する受容場を導入し、RG-Flowの受容場が畳み込みニューラルネットワークと似ていることを示す。 さらに, 広く採用されている等方性ガウス事前分布をスパースラプラシアン分布に置き換え, 表現の不連続性をさらに高める。 理論的見地から、提案手法はエッジ長が$L$のイメージの塗り絵に$O(\log L)$の複雑さを持つが、従来の$O(L^2)$の合成モデルと比較すると、$O(L^2)$の複雑さを持つ。

Flow-based generative models have become an important class of unsupervised learning approaches. In this work, we incorporate the key ideas of renormalization group (RG) and sparse prior distribution to design a hierarchical flow-based generative model, RG-Flow, which can separate information at different scales of images and extract disentangled representations at each scale. We demonstrate our method on synthetic multi-scale image datasets and the CelebA dataset, showing that the disentangled representations enable semantic manipulation and style mixing of the images at different scales. To visualize the latent representations, we introduce receptive fields for flow-based models and show that the receptive fields of RG-Flow are similar to those of convolutional neural networks. In addition, we replace the widely adopted isotropic Gaussian prior distribution by the sparse Laplacian distribution to further enhance the disentanglement of representations. From a theoretical perspective, our proposed method has $O(\log L)$ complexity for inpainting of an image with edge length $L$, compared to previous generative models with $O(L^2)$ complexity.
翻訳日:2022-10-12 22:17:01 公開日:2022-08-15
# 制御限界DDPに対する可能性駆動型アプローチ

A Feasibility-Driven Approach to Control-Limited DDP ( http://arxiv.org/abs/2010.00411v4 )

ライセンス: Link先を確認
Carlos Mastalli, Wolfgang Merkt, Josep Marti-Saumell, Henrique Ferrolho, Joan Sola, Nicolas Mansard and Sethu Vijayakumar(参考訳) 微分動的プログラミング(DDP)は、軌道最適化のための直接単射法である。 その効率は、(最適制御問題への)時間的構造の導入と、システムダイナミクスの明示的なロールアウト/統合に由来する。 しかし、数値的な不安定さに苦しめられ、直接多重射撃法と比較すると、初期化オプション(制御の初期化は許されるが、状態は許さない)が制限され、制御制約の適切な処理が欠如している。 本研究では,数値最適化時の動的実現性を制御し,制御限界を確実にする実現可能性駆動手法を用いて,これらの課題に取り組む。 我々の実現可能性探索は、動的制約のみで直接多重射撃問題の数値解をエミュレートする。 提案手法(BOX-FDDP)は,BOX-DDP+よりも数値収束性が高く,その収束率と実行性能は,内部点とKNITROで利用可能な能動集合アルゴリズムを用いて解決された最先端の直接転写法と競合することを示す。 さらに、BOX-FDDPは、最先端非線形プログラミングアルゴリズムのように、動的実行可能性誤差を単調に減少させることを示す。 本研究では,四足歩行ロボットとヒューマノイドロボットの複合運動と運動運動の生成によるアプローチの利点を実証する。 最後に,BOX-FDDPが脚ロボットのモデル予測制御に適していることを強調する。

Differential dynamic programming (DDP) is a direct single shooting method for trajectory optimization. Its efficiency derives from the exploitation of temporal structure (inherent to optimal control problems) and explicit roll-out/integration of the system dynamics. However, it suffers from numerical instability and, when compared to direct multiple shooting methods, it has limited initialization options (allows initialization of controls, but not of states) and lacks proper handling of control constraints. In this work, we tackle these issues with a feasibility-driven approach that regulates the dynamic feasibility during the numerical optimization and ensures control limits. Our feasibility search emulates the numerical resolution of a direct multiple shooting problem with only dynamics constraints. We show that our approach (named BOX-FDDP) has better numerical convergence than BOX-DDP+ (a single shooting method), and that its convergence rate and runtime performance are competitive with state-of-the-art direct transcription formulations solved using the interior point and active set algorithms available in KNITRO. We further show that BOX-FDDP decreases the dynamic feasibility error monotonically--as in state-of-the-art nonlinear programming algorithms. We demonstrate the benefits of our approach by generating complex and athletic motions for quadruped and humanoid robots. Finally, we highlight that BOX-FDDP is suitable for model predictive control in legged robots.
翻訳日:2022-10-12 08:47:20 公開日:2022-08-15
# 深層学習による都市降水量のスケールダウン - 米国テキサス州オースティンにおけるスマートシティ・アプリケーション

Urban precipitation downscaling using deep learning: a smart city application over Austin, Texas, USA ( http://arxiv.org/abs/2209.06848v1 )

ライセンス: Link先を確認
Manmeet Singh, Nachiketa Acharya, Sajad Jamshidi, Junfeng Jiao, Zong-Liang Yang, Marc Coudert, Zach Baumer and Dev Niyogi(参考訳) 都市ダウンスケーリングは、粗い気候情報から都市規模の評価に知識を移すためのリンクである。 これらの高分解能評価には過去のデータと将来の予測の多年気候学が必要であり、従来の数値気象予測モデルを用いて生成するのは複雑で計算コストが高い。 米国テキサス州オースチン市は、過去10年で驚異的な成長を遂げています。 将来の体系的な計画には、詳細な都市規模のデータセットが必要である。 本研究では,深層学習を用いて都市ダウンスケーリングを行う汎用運用者を生成する新しい手法を提案する。 このアルゴリズムはテキサス州オースティン市に反復的超解像畳み込みニューラルネットワーク(Iterative SRCNN)を採用している。 粗い (10 km) 衛星ベースの製品 (jaxa gsmap) から, 高分解能の格子状降水生成物 (300 m) の開発を行った。 降水の高解像度グリッド化データセットは、過去の重雨から低降雨の空間分布に関する洞察を提供する。 このアルゴリズムは,立方体補間ベースラインに対して300m×300mの大きさの高分解能グリッド製品を生成するために,平均ピーク信号比と相互情報の改善を示す。 以上の結果は,高分解能グリッド予測都市データセットの開発や,他の都市や気候変数のためのスマートシティの将来計画に寄与する。

Urban downscaling is a link to transfer the knowledge from coarser climate information to city scale assessments. These high-resolution assessments need multiyear climatology of past data and future projections, which are complex and computationally expensive to generate using traditional numerical weather prediction models. The city of Austin, Texas, USA has seen tremendous growth in the past decade. Systematic planning for the future requires the availability of fine resolution city-scale datasets. In this study, we demonstrate a novel approach generating a general purpose operator using deep learning to perform urban downscaling. The algorithm employs an iterative super-resolution convolutional neural network (Iterative SRCNN) over the city of Austin, Texas, USA. We show the development of a high-resolution gridded precipitation product (300 m) from a coarse (10 km) satellite-based product (JAXA GsMAP). High resolution gridded datasets of precipitation offer insights into the spatial distribution of heavy to low precipitation events in the past. The algorithm shows improvement in the mean peak-signal-to-noise-ratio and mutual information to generate high resolution gridded product of size 300 m X 300 m relative to the cubic interpolation baseline. Our results have implications for developing high-resolution gridded-precipitation urban datasets and the future planning of smart cities for other cities and other climatic variables.
翻訳日:2022-09-18 16:59:13 公開日:2022-08-15
# パッシブアクティビティ認識のための自己教師付きマルチモーダル核融合トランス

Self-Supervised Multimodal Fusion Transformer for Passive Activity Recognition ( http://arxiv.org/abs/2209.03765v1 )

ライセンス: Link先を確認
Armand K. Koupai, Mohammud J. Bocus, Raul Santos-Rodriguez, Robert J. Piechocki, Ryan McConville(参考訳) Wi-Fi信号の広範性は、医療などの分野における人間の知覚と活動認識に重要な機会を与える。 受動的Wi-Fiセンシングに最もよく使用されるセンサーは、受動的Wi-Fiレーダ(PWR)とチャネル状態情報(CSI)データに基づいているが、現在のシステムは複数のセンサから取得した情報を効果的に利用して、異なるアクティビティを認識する。 本稿では,マルチモーダルセンサ融合のためのTransformerアーキテクチャの新たな特性について検討する。 本研究では,pwrおよびcsiデータからスペクトル,スカルグラム,マルコフ遷移場(mtf)などの複数の画像に基づく特徴を抽出するための信号処理手法について検討した。 まず,マルチモーダル・マルチセンサ融合のための注意モデルであるFusion Transformerを提案する。 実験の結果,我々のFusion TransformerアプローチはResNetアーキテクチャと比較して競合的な結果が得られるが,リソースははるかに少ないことがわかった。 モデルをさらに改良するため,マルチモーダル・マルチセンサ型自己教師型学習(SSL)のためのシンプルで効果的なフレームワークを提案する。 自監督型のFusion Transformerはベースラインを上回り、F1スコアは95.9%である。 最後に、ラベル付きトレーニングデータの1% (2分) をラベル付きトレーニングデータの20% (40分) に抑えることで、このアプローチが他のトレーニングを著しく上回っていることを示す。

The pervasiveness of Wi-Fi signals provides significant opportunities for human sensing and activity recognition in fields such as healthcare. The sensors most commonly used for passive Wi-Fi sensing are based on passive Wi-Fi radar (PWR) and channel state information (CSI) data, however current systems do not effectively exploit the information acquired through multiple sensors to recognise the different activities. In this paper, we explore new properties of the Transformer architecture for multimodal sensor fusion. We study different signal processing techniques to extract multiple image-based features from PWR and CSI data such as spectrograms, scalograms and Markov transition field (MTF). We first propose the Fusion Transformer, an attention-based model for multimodal and multi-sensor fusion. Experimental results show that our Fusion Transformer approach can achieve competitive results compared to a ResNet architecture but with much fewer resources. To further improve our model, we propose a simple and effective framework for multimodal and multi-sensor self-supervised learning (SSL). The self-supervised Fusion Transformer outperforms the baselines, achieving a F1-score of 95.9%. Finally, we show how this approach significantly outperforms the others when trained with as little as 1% (2 minutes) of labelled training data to 20% (40 minutes) of labelled training data.
翻訳日:2022-09-11 13:19:34 公開日:2022-08-15
# ProjB:知識グラフ補完のための改良されたバイリニアバイアス付きProjEモデル

ProjB: An Improved Bilinear Biased ProjE model for Knowledge Graph Completion ( http://arxiv.org/abs/2209.02390v1 )

ライセンス: Link先を確認
Mojtaba Moattari, Sahar Vahdati, Farhana Zulkernine(参考訳) 知識グラフ埋め込み(KGE)手法は、テキスト生成、分類、文脈誘導のための自然言語処理(NLP)を含む幅広いAIコミュニティから大きな注目を集めている。 少数の次元の観点で膨大な数の相互関係を埋め込むには、認知面と計算面の両方において適切なモデリングが必要である。 近年,自然言語の認知・計算的側面に関する多くの目的関数が開発されている。 その中には、線形性、双線型性、多様体保存核、射影部分空間、類推の最先端の方法がある。 しかし、そのようなモデルの最大の課題は、関係埋め込みの次元と対応する実体次元を関連付ける損失関数にある。 これにより、エンティティ間の対応する関係が誤って推定された場合、不正確な予測が行われる。 bordesらによって出版されたproje kgeは、計算複雑性の低さとモデル改善の可能性から、エンティティの非線形性を捉えながら、すべてのトランスレーショナルおよびバイリニア相互作用に関するこの研究において改善されている。 fb15k や wn18 のようなベンチマーク知識グラフ (kgs) を用いた実験の結果,提案手法は線形および双線型法と他の最近の強力な手法を用いて,エンティティ予測タスクにおける最先端モデルよりも優れていることがわかった。 また,大規模kgsのスケーラビリティを向上させるため,並列処理構造が提案されている。 異なる適応クラスタリングと新たに提案するサンプリング手法の効果についても説明し,知識グラフの完成精度の向上に有効であることを示した。

Knowledge Graph Embedding (KGE) methods have gained enormous attention from a wide range of AI communities including Natural Language Processing (NLP) for text generation, classification and context induction. Embedding a huge number of inter-relationships in terms of a small number of dimensions, require proper modeling in both cognitive and computational aspects. Recently, numerous objective functions regarding cognitive and computational aspects of natural languages are developed. Among which are the state-of-the-art methods of linearity, bilinearity, manifold-preserving kernels, projection-subspace, and analogical inference. However, the major challenge of such models lies in their loss functions that associate the dimension of relation embeddings to corresponding entity dimension. This leads to inaccurate prediction of corresponding relations among entities when counterparts are estimated wrongly. ProjE KGE, published by Bordes et al., due to low computational complexity and high potential for model improvement, is improved in this work regarding all translative and bilinear interactions while capturing entity nonlinearity. Experimental results on benchmark Knowledge Graphs (KGs) such as FB15K and WN18 show that the proposed approach outperforms the state-of-the-art models in entity prediction task using linear and bilinear methods and other recent powerful ones. In addition, a parallel processing structure is proposed for the model in order to improve the scalability on large KGs. The effects of different adaptive clustering and newly proposed sampling approaches are also explained which prove to be effective in improving the accuracy of knowledge graph completion.
翻訳日:2022-09-11 13:19:12 公開日:2022-08-15
# 暗号オプション価格の正規化に基づく確率的ボラティリティモデル

Regime-based Implied Stochastic Volatility Model for Crypto Option Pricing ( http://arxiv.org/abs/2208.12614v1 )

ライセンス: Link先を確認
Danial Saef, Yuanrong Wang, Tomaso Aste(参考訳) Bitcoin(BTC)などのDigital Assets(DA)の採用の増加により、正確なオプション価格モデルの必要性が高まっている。 しかし、既存の方法論は、新興DAの揮発性の性質に対処できない。 DA市場において、非定常性や特異な統計によって引き起こされるマイクロ構造における不規則な市場のダイナミクスと頻繁な破壊に対処する多くのモデルが提案されている。 しかし、それらは伝統的な理論を取り入れるために追加の複雑さが必要となるため、次元の呪いに陥りやすいか、決して繰り返しないような歴史的なパターンに過剰に適合する。 代わりに、Implied Stochastic Volatility Model (ISVM)による市場システム(MR)クラスタリングの最近の進歩を活用します。 タイムレジームクラスタリング(Time-Regime clustering)は、市場の歴史的進化を非定常性を考慮した様々な変動期間にクラスタリングする時間クラスタリング手法である。 ISVMは、インプリートボラティリティ(IV)データを使用することで、各感情駆動期間に投資家の期待を組み込むことができる。 本稿では,この統合タイムレジームクラスタリングとISVM法(MR-ISVM)を,人気のトレーディングプラットフォームであるDeribitにおけるBTCオプションの高周波データに適用した。 MR-ISVMは,オプション価格モデルの高次特性におけるジャンプへの複雑な適応の負担を克服するために有効であることを示す。 これにより,参加者の期待に基づいて市場価格を適応的に設定することが可能になります。

The increasing adoption of Digital Assets (DAs), such as Bitcoin (BTC), rises the need for accurate option pricing models. Yet, existing methodologies fail to cope with the volatile nature of the emerging DAs. Many models have been proposed to address the unorthodox market dynamics and frequent disruptions in the microstructure caused by the non-stationarity, and peculiar statistics, in DA markets. However, they are either prone to the curse of dimensionality, as additional complexity is required to employ traditional theories, or they overfit historical patterns that may never repeat. Instead, we leverage recent advances in market regime (MR) clustering with the Implied Stochastic Volatility Model (ISVM). Time-regime clustering is a temporal clustering method, that clusters the historic evolution of a market into different volatility periods accounting for non-stationarity. ISVM can incorporate investor expectations in each of the sentiment-driven periods by using implied volatility (IV) data. In this paper, we applied this integrated time-regime clustering and ISVM method (termed MR-ISVM) to high-frequency data on BTC options at the popular trading platform Deribit. We demonstrate that MR-ISVM contributes to overcome the burden of complex adaption to jumps in higher order characteristics of option pricing models. This allows us to price the market based on the expectations of its participants in an adaptive fashion.
翻訳日:2022-09-04 02:13:48 公開日:2022-08-15
# 量子フェデレート学習のためのFederated Quantum Natural Gradient Descent

Federated Quantum Natural Gradient Descent for Quantum Federated Learning ( http://arxiv.org/abs/2209.00564v1 )

ライセンス: Link先を確認
Jun Qi(参考訳) qfl(quantum federated learning)の中心は、複数のローカル量子デバイスにまたがる分散学習アーキテクチャと関連しており、qflのより効率的なトレーニングアルゴリズムは、異なる量子参加者間の通信オーバーヘッドを最小化することが期待されている。 本研究では,変分量子回路(VQC)に基づく量子ニューラルネットワーク(QNN)からなるQFLフレームワークに適用した,FQNGD(Federated quantum natural gradient descent)という効率的な学習アルゴリズムを提案する。 FQNGDアルゴリズムは、QFLモデルが収束するためのトレーニングイテレーションをはるかに少なくし、局所量子デバイス間の通信コストを大幅に削減することができる。 他のフェデレーション学習アルゴリズムと比較して、手書きの桁分類データセットを用いた実験は、トレーニングデータセットの高速収束率とテストデータセットの高精度化の観点から、QFLに対するFQNGDアルゴリズムの有効性を裏付けるものである。

The heart of Quantum Federated Learning (QFL) is associated with a distributed learning architecture across several local quantum devices and a more efficient training algorithm for the QFL is expected to minimize the communication overhead among different quantum participants. In this work, we put forth an efficient learning algorithm, namely federated quantum natural gradient descent (FQNGD), applied in a QFL framework which consists of the variational quantum circuit (VQC)-based quantum neural networks (QNN). The FQNGD algorithm admits much fewer training iterations for the QFL model to get converged and it can significantly reduce the total communication cost among local quantum devices. Compared with other federated learning algorithms, our experiments on a handwritten digit classification dataset corroborate the effectiveness of the FQNGD algorithm for the QFL in terms of a faster convergence rate on the training dataset and higher accuracy on the test one.
翻訳日:2022-09-04 02:13:25 公開日:2022-08-15
# スパイクニューラルネットワークによる動的グラフ表現学習のスケールアップ

Scaling Up Dynamic Graph Representation Learning via Spiking Neural Networks ( http://arxiv.org/abs/2208.10364v1 )

ライセンス: Link先を確認
Jintang Li, Zhouxin Yu, Zulun Zhu, Liang Chen, Qi Yu, Zibin Zheng, Sheng Tian, Ruofan Wu, Changhua Meng(参考訳) 近年、動的で経時的に進化する時相グラフをモデル化することを目的として、動的グラフ表現学習の研究が急増している。 しかしながら、現在の研究は通常、リカレントニューラルネットワーク(RNN)でグラフダイナミクスをモデル化し、大きな時間グラフ上の計算とメモリオーバーヘッドに深刻な負担を被る。 これまでのところ、大きな時間グラフ上での動的グラフ表現学習のスケーラビリティは、大きな課題の1つである。 本稿では,時間グラフの時間的および構造的パターンを効率的に捉えるために,スケーラブルなフレームワークspikenetを提案する。 我々は、RNNの代わりにスパイクニューラルネットワーク(SNN)を用いて、時間グラフの進化するダイナミクスを捉えることができる新しい方向を探究する。 RNNに代わる低消費電力の代替として、SNNは明らかにグラフ力学をニューロンのスパイクトレインとしてモデル化し、スパイクベースの効率的な伝播を可能にする。 3つの大規模実世界時相グラフデータセットの実験により、spikenetは計算コストが低い時相ノード分類タスクの強いベースラインを上回ることが示されている。 特にspikenetは、パラメータと計算オーバーヘッドが大幅に少ない大きな時間グラフ(2mノードと13mエッジ)に一般化する。 私たちのコードはhttps://github.com/EdisonLeeeee/SpikeNetで公開されています。

Recent years have seen a surge in research on dynamic graph representation learning, which aims to model temporal graphs that are dynamic and evolving constantly over time. However, current work typically models graph dynamics with recurrent neural networks (RNNs), making them suffer seriously from computation and memory overheads on large temporal graphs. So far, scalability of dynamic graph representation learning on large temporal graphs remains one of the major challenges. In this paper, we present a scalable framework, namely SpikeNet, to efficiently capture the temporal and structural patterns of temporal graphs. We explore a new direction in that we can capture the evolving dynamics of temporal graphs with spiking neural networks (SNNs) instead of RNNs. As a low-power alternative to RNNs, SNNs explicitly model graph dynamics as spike trains of neuron populations and enable spike-based propagation in an efficient way. Experiments on three large real-world temporal graph datasets demonstrate that SpikeNet outperforms strong baselines on the temporal node classification task with lower computational costs. Particularly, SpikeNet generalizes to a large temporal graph (2M nodes and 13M edges) with significantly fewer parameters and computation overheads. Our code is publicly available at https://github.com/EdisonLeeeee/SpikeNet
翻訳日:2022-08-28 22:12:09 公開日:2022-08-15
# グループエレベータ制御のための変圧器ネットワーク

Transformer Networks for Predictive Group Elevator Control ( http://arxiv.org/abs/2208.08948v1 )

ライセンス: Link先を確認
Jing Zhang, Athanasios Tsiligkaridis, Hiroshi Taguchi, Arvind Raghunathan, Daniel Nikovski(参考訳) トランスベース目的地予測器から到着する乗客の予測情報と目的地への残り時間を予測する線形回帰モデルを用いて,予測グループエレベータスケジューラを提案する。 その結果,平均待ち時間 (awt) の節約は, 平均待ち時間 (awt) は, 平均到着ストリームでは50%以上, 午後のダウンピークトラフィックでは中到着ストリームでは約15%以上であることがわかった。 このような結果は、エレベーター(ppge)のしきい値に予測される確率を慎重に設定した上で得られるため、エレベーターに向かう人の誤った予測の多数を回避でき、また乗客の軌道全体の60%しか見えなかった後でも、真の予測エレベーター着陸の80%以上を達成することができる。

We propose a Predictive Group Elevator Scheduler by using predictive information of passengers arrivals from a Transformer based destination predictor and a linear regression model that predicts remaining time to destinations. Through extensive empirical evaluation, we find that the savings of Average Waiting Time (AWT) could be as high as above 50% for light arrival streams and around 15% for medium arrival streams in afternoon down-peak traffic regimes. Such results can be obtained after carefully setting the Predicted Probability of Going to Elevator (PPGE) threshold, thus avoiding a majority of false predictions for people heading to the elevator, while achieving as high as 80% of true predictive elevator landings as early as after having seen only 60% of the whole trajectory of a passenger.
翻訳日:2022-08-19 14:18:22 公開日:2022-08-15
# 火砕流をリアルタイムに監視する組込みシステム生成のためのvc, 通信技術, 計算の不均一性の統合

Synergistic Integration of Techniques of VC, Communication Technologies and Unities of Calculation Transportable for Generate a System Embedded That Monitors Pyroclastic Flows in Real Time ( http://arxiv.org/abs/2208.08884v1 )

ライセンス: Link先を確認
Kevin Barrera Llanga, Cruz Christian, Viteri Xavier, Mendoza Dario(参考訳) 世界の火山噴火を広範囲に調査した結果,このプロセスで一致したパターンが決定された。このデータは人工的な視覚によって解析され,組込みシステム内の画像から最も多くの情報を得ることができ,連続行列の比較,カメラ位置の制御,マス通信技術とのリンクなどの監視アルゴリズムが用いられている。 本研究は,火山流の挙動をリアルタイムで自動的に解析し,溶岩流の軌跡,方向,量,および影響を受けた人々に向けられた大量物質の分析に極めて高い効率性を示す,実用的な早期警戒技術ソリューションの開発を示すものである。

At the end of an extensive investigation of the volcanic eruptions in the world, we determined patterns that coincide in this process, this data can be analyzed by artificial vision, obtaining the largest amount of information from images in an embedded system, using monitoring algorithms for compare continuous matrices, control camera positioning and link this information with mass communication technologies. The present work shows the development of a viable early warning technology solution that allows to analyze the behavior of volcanic flows automatically in a rash in real time, with a very high level of efficiency in the analysis of possible trajectories, direction and quantity of the lava flows as well as the massive mass media directed to the affected people.
翻訳日:2022-08-19 14:15:28 公開日:2022-08-15
# POCSに基づくクラスタリングアルゴリズム

POCS-based Clustering Algorithm ( http://arxiv.org/abs/2208.08888v1 )

ライセンス: Link先を確認
Le-Anh Tran, Henock M. Deberneh, Truong-Dong Do, Thanh-Dat Nguyen, My-Ha Le, Dong-Chul Park(参考訳) 本稿では, pocsに基づくクラスタリングアルゴリズムと呼ばれる, 射影型凸集合(pocs)法に基づく新しいクラスタリング手法を提案する。 提案するクラスタリングアルゴリズムは,POCSの並列プロジェクション手法を利用して,特徴空間に適切なクラスタプロトタイプを求める。 アルゴリズムは、各データポイントを凸集合として考慮し、クラスタプロトタイプをメンバデータポイントに並列に投影する。 投影は、データクラスタリング目的の目的関数を最小化するために凸結合される。 提案するPOCSクラスタリングアルゴリズムの性能は,種々の合成データセットを用いて検証した。 実験の結果,提案手法は,fcm(ファジィc-means)やk-meansクラスタリングアルゴリズムなどの従来のクラスタリング手法と比較して,クラスタリング誤差と実行速度の面で競争力と効率性が示された。

A novel clustering technique based on the projection onto convex set (POCS) method, called POCS-based clustering algorithm, is proposed in this paper. The proposed POCS-based clustering algorithm exploits a parallel projection method of POCS to find appropriate cluster prototypes in the feature space. The algorithm considers each data point as a convex set and projects the cluster prototypes parallelly to the member data points. The projections are convexly combined to minimize the objective function for data clustering purpose. The performance of the proposed POCS-based clustering algorithm is verified through experiments on various synthetic datasets. The experimental results show that the proposed POCS-based clustering algorithm is competitive and efficient in terms of clustering error and execution speed when compared with other conventional clustering methods including Fuzzy C-Means (FCM) and K-means clustering algorithms.
翻訳日:2022-08-19 13:58:32 公開日:2022-08-15
# 機械学習のためのグラフとしてpythonプログラムを表現するライブラリ

A Library for Representing Python Programs as Graphs for Machine Learning ( http://arxiv.org/abs/2208.07461v1 )

ライセンス: Link先を確認
David Bieber, Kensen Shi, Petros Maniatis, Charles Sutton, Vincent Hellendoorn, Daniel Johnson, Daniel Tarlow(参考訳) プログラムのグラフ表現は一般的に、コード研究における機械学習の中心的な要素である。 我々はPythonライブラリpython_graphsを導入し、静的解析を適用して、機械学習モデルのトレーニングに適したPythonプログラムのグラフ表現を構築する。 本ライブラリは,制御フロー,データフロー,構文,およびプログラムの語彙情報を組み合わせた制御フローグラフ,データフローグラフ,複合 'プログラムグラフ' の構築を認めている。 図書館の能力と限界を提示し、このライブラリを何百万もの競合するプログラムに応用するケーススタディを実行し、このライブラリが機械学習研究に有効であることを示す。

Graph representations of programs are commonly a central element of machine learning for code research. We introduce an open source Python library python_graphs that applies static analysis to construct graph representations of Python programs suitable for training machine learning models. Our library admits the construction of control-flow graphs, data-flow graphs, and composite ``program graphs'' that combine control-flow, data-flow, syntactic, and lexical information about a program. We present the capabilities and limitations of the library, perform a case study applying the library to millions of competitive programming submissions, and showcase the library's utility for machine learning research.
翻訳日:2022-08-17 13:06:36 公開日:2022-08-15
# 脳波グラフにおける異常チャネル検出のための自己教師付き学習:清純分析への応用

Self-Supervised Learning for Anomalous Channel Detection in EEG Graphs: Application to Seizure Analysis ( http://arxiv.org/abs/2208.07448v1 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho, Narges Armanfard(参考訳) 脳波(Electroencephalogram、EEG)信号は発作解析に有効なツールであり、最も重要な課題の1つは発作の発生または発生する脳領域の正確な検出である。 しかし、既存の機械学習に基づく発作解析アルゴリズムは、脳波信号の視覚的質的解釈の主観性を考慮して、ラベル付きデータを取得している間、ラベル付きデータをアクセスする必要がある。 本稿では,発作データへのアクセスが不要な自己監視方式で発作チャネルとクリップを検出することを提案する。 提案手法は,脳波グラフに埋め込まれた局所構造情報と文脈情報を,正と負のサブグラフを用いて検討する。 コントラスト損失と生成損失を最小化することで,本手法を訓練する。 局所的な脳波サブグラフを用いることで、頭蓋骨骨折などの合併症のために全ての脳波チャネルにアクセスすることは不可能である。 我々は,脳波による発作研究において,最も大きな発作データセットに関する広範な実験を行い,提案手法が最先端の手法より優れていることを示す。 提案手法は, 入力データへのアクセスを必要とせず, 現場への新たな最新技術を確立し, 関連する全ての教師あり手法を上回っている唯一の研究である。

Electroencephalogram (EEG) signals are effective tools towards seizure analysis where one of the most important challenges is accurate detection of seizure events and brain regions in which seizure happens or initiates. However, all existing machine learning-based algorithms for seizure analysis require access to the labeled seizure data while acquiring labeled data is very labor intensive, expensive, as well as clinicians dependent given the subjective nature of the visual qualitative interpretation of EEG signals. In this paper, we propose to detect seizure channels and clips in a self-supervised manner where no access to the seizure data is needed. The proposed method considers local structural and contextual information embedded in EEG graphs by employing positive and negative sub-graphs. We train our method through minimizing contrastive and generative losses. The employ of local EEG sub-graphs makes the algorithm an appropriate choice when accessing to the all EEG channels is impossible due to complications such as skull fractures. We conduct an extensive set of experiments on the largest seizure dataset and demonstrate that our proposed framework outperforms the state-of-the-art methods in the EEG-based seizure study. The proposed method is the only study that requires no access to the seizure data in its training phase, yet establishes a new state-of-the-art to the field, and outperforms all related supervised methods.
翻訳日:2022-08-17 13:02:21 公開日:2022-08-15
# エッジ依存の頂点重みを持つハイパーグラフ:p-ラプラシアンとスペクトルクラスタリング

Hypergraphs with Edge-Dependent Vertex Weights: p-Laplacians and Spectral Clustering ( http://arxiv.org/abs/2208.07457v1 )

ライセンス: Link先を確認
Yu Zhu and Santiago Segarra(参考訳) エッジ依存頂点重み(edvws)を組み込んだハイパーグラフモデルのp-ラプラシアンとスペクトルクラスタリングについて検討した。 これらの重みは、ハイパーエッジ内の頂点の異なる重要性を反映し、ハイパーグラフモデルより高い表現性と柔軟性をもたらす。 部分モジュラーEDVWsに基づく分割関数を構築することにより、スペクトル理論がより発達した部分モジュラーハイパーグラフに変換する。 このように、p-ラプラシアンやチェーガーの不等式のような既存の概念や定理は、部分モジュラーハイパーグラフ設定の下で提案され、EDVWを持つハイパーグラフへ直接拡張することができる。 EDVWsに基づく分割関数を持つ部分モジュラーハイパーグラフに対し、ハイパーグラフ1-ラプラシアンの2番目の固有値に付随する固有ベクトルを計算する効率的なアルゴリズムを提案する。 この固有ベクトルを用いて頂点をクラスタリングし、2-ラプラシアンに基づく従来のスペクトルクラスタリングよりも高いクラスタリング精度を実現する。 より広範に、提案アルゴリズムはグラフを再現可能なすべての部分モジュラーハイパーグラフに対して機能する。 実世界のデータを用いた数値実験は、1-ラプラシアンおよびEDVWに基づくスペクトルクラスタリングの有効性を示す。

We study p-Laplacians and spectral clustering for a recently proposed hypergraph model that incorporates edge-dependent vertex weights (EDVWs). These weights can reflect different importance of vertices within a hyperedge, thus conferring the hypergraph model higher expressivity and flexibility. By constructing submodular EDVWs-based splitting functions, we convert hypergraphs with EDVWs into submodular hypergraphs for which the spectral theory is better developed. In this way, existing concepts and theorems such as p-Laplacians and Cheeger inequalities proposed under the submodular hypergraph setting can be directly extended to hypergraphs with EDVWs. For submodular hypergraphs with EDVWs-based splitting functions, we propose an efficient algorithm to compute the eigenvector associated with the second smallest eigenvalue of the hypergraph 1-Laplacian. We then utilize this eigenvector to cluster the vertices, achieving higher clustering accuracy than traditional spectral clustering based on the 2-Laplacian. More broadly, the proposed algorithm works for all submodular hypergraphs that are graph reducible. Numerical experiments using real-world data demonstrate the effectiveness of combining spectral clustering based on the 1-Laplacian and EDVWs.
翻訳日:2022-08-17 13:01:59 公開日:2022-08-15
# マトリックスセンシングにおける半定値プログラミングとBler-Monteiro因子化

Semidefinite Programming versus Burer-Monteiro Factorization for Matrix Sensing ( http://arxiv.org/abs/2208.07469v1 )

ライセンス: Link先を確認
Baturalp Yalcin, Ziye Ma, Javad Lavaei, Somayeh Sojoudi(参考訳) 行列の完全性、位相同期/再帰性、電力系統状態推定、ロバストpcaなど、多くの基本的な低ランク最適化問題を行列センシング問題として定式化することができる。 行列センシングの2つの主要なアプローチは半定値プログラミング(SDP)とB-M因子化に基づいている。 SDP法は計算量と空間の複雑さに悩まされるが、B-M法は問題の非凸性のために急激な解を返す。 これらの手法の成功に対する既存の理論的保証は、同様の保守的な条件を導いており、これはこれらの手法が同等の性能を持つことを誤って示唆しているかもしれない。 本稿では,これら2つの方法の相違点について概説する。 まず、SDP法が正しく動作するのに対して、B-M法は圧倒的な確率で失敗する構造的行列完備問題のクラスを示す。 次に,B-M法が機能し,SDP法が失敗する,高度にスパースな行列補完問題のクラスを特定する。 第三に,B-M法は未知解のランクに依存しない性能を示すが,SDP法の成功は解のランクと相関し,階数が増加するにつれて向上することを示す。 SDPとB-Mの両方が動作する行列センシングの事例に主に焦点をあてた既存の文献とは異なり、本論文は代替手法よりも各手法の独特な利点を第一に提示する。

Many fundamental low-rank optimization problems, such as matrix completion, phase synchronization/retrieval, power system state estimation, and robust PCA, can be formulated as the matrix sensing problem. Two main approaches for solving matrix sensing are based on semidefinite programming (SDP) and Burer-Monteiro (B-M) factorization. The SDP method suffers from high computational and space complexities, whereas the B-M method may return a spurious solution due to the non-convexity of the problem. The existing theoretical guarantees for the success of these methods have led to similar conservative conditions, which may wrongly imply that these methods have comparable performances. In this paper, we shed light on some major differences between these two methods. First, we present a class of structured matrix completion problems for which the B-M methods fail with an overwhelming probability, while the SDP method works correctly. Second, we identify a class of highly sparse matrix completion problems for which the B-M method works and the SDP method fails. Third, we prove that although the B-M method exhibits the same performance independent of the rank of the unknown solution, the success of the SDP method is correlated to the rank of the solution and improves as the rank increases. Unlike the existing literature that has mainly focused on those instances of matrix sensing for which both SDP and B-M work, this paper offers the first result on the unique merit of each method over the alternative approach.
翻訳日:2022-08-17 13:01:40 公開日:2022-08-15
# 自由空間光通信のための深層学習

Deep learning for enhanced free-space optical communications ( http://arxiv.org/abs/2208.07712v1 )

ライセンス: Link先を確認
Manon P. Bart, Nicholas J. Savino, Paras Regmi, Lior Cohen, Haleh Safavi, Harry C. Shaw, Sanjaya Lohani, Thomas A. Searles, Brian T. Kirby, Hwang Lee, Ryan T. Glasser(参考訳) 乱流や背景の熱雑音などの大気効果は、ON-OFFキーング自由空間光通信に用いられるコヒーレント光の伝搬を抑制する。 本稿では,畳み込みニューラルネットワークを用いて,光処理後の自由空間における光通信のビット誤り率を低減し,従来手法よりも大幅に単純で安価であることを示す。 提案手法は,2つのニューラルネットワークから構成される。第1は熱雑音と乱流におけるコヒーレントビット列の存在を判定し,第2はコヒーレントビット列を復調する。 ネットワークのトレーニングとテストに使用するすべてのデータは、コヒーレント光のオンオフキーイングビットストリームを生成し、これらを熱光と組み合わせて、空気中の乱流を高い精度で模倣した乱流水槽に、結果光を透過させることによって実験的に得られる。 我々の畳み込みニューラルネットワークはしきい値分類方式よりも検出精度を向上し、現在の復調と誤り訂正方式と統合できる能力を有する。

Atmospheric effects, such as turbulence and background thermal noise, inhibit the propagation of coherent light used in ON-OFF keying free-space optical communication. Here we present and experimentally validate a convolutional neural network to reduce the bit error rate of free-space optical communication in post-processing that is significantly simpler and cheaper than existing solutions based on advanced optics. Our approach consists of two neural networks, the first determining the presence of coherent bit sequences in thermal noise and turbulence and the second demodulating the coherent bit sequences. All data used for training and testing our network is obtained experimentally by generating ON-OFF keying bit streams of coherent light, combining these with thermal light, and passing the resultant light through a turbulent water tank which we have verified mimics turbulence in the air to a high degree of accuracy. Our convolutional neural network improves detection accuracy over threshold classification schemes and has the capability to be integrated with current demodulation and error correction schemes.
翻訳日:2022-08-17 13:00:18 公開日:2022-08-15
# WatchPed:スマートウォッチの組込みセンサーによる歩行者の交差意図予測

WatchPed: Pedestrian Crossing Intention Prediction Using Embedded Sensors of Smartwatch ( http://arxiv.org/abs/2208.07441v1 )

ライセンス: Link先を確認
Jibran Ali Abbasi, Navid Mohammad Imran, Myounggyu Won(参考訳) 歩行者意図予測問題は、対象歩行者が通りを横断するか否かを推定することである。 最先端のアプローチは、歩行者の意図を予測するために、エゴ車両のフロントカメラで収集された視覚情報に大きく依存している。 このように、既存の手法の性能は、例えば歩行者とエゴ車の距離が遠い場合や、照明条件が十分でない場合など、視覚情報が正確でない場合に著しく低下する。 本稿では,歩行者のスマートウォッチ(またはスマートフォン)に収集したモーションセンサデータをもとに,最初の歩行者意図予測モデルの設計,実装,評価を行う。 視覚情報を効果的に活用して視覚情報を強化し、視覚情報が信頼できないような状況下での性能を大幅に向上させる、新しい機械学習アーキテクチャを提案する。 また,大規模データ収集を行い,時間同期モーションセンサデータと統合した最初の歩行者意図予測データセットを提案する。 データセットは、距離と照明条件の異なる合計128本のビデオクリップで構成されている。 広く使われているJAADと独自のデータセットを使ってモデルをトレーニングし、パフォーマンスを最先端のモデルと比較しました。 その結果, 歩行者までの距離が70m以上あり, 照明条件が十分でない場合には, モデルが最先端の手法に勝ることがわかった。

The pedestrian intention prediction problem is to estimate whether or not the target pedestrian will cross the street. State-of-the-art approaches heavily rely on visual information collected with the front camera of the ego-vehicle to make a prediction of the pedestrian's intention. As such, the performance of existing methods significantly degrades when the visual information is not accurate, e.g., when the distance between the pedestrian and ego-vehicle is far, or the lighting conditions are not good enough. In this paper, we design, implement, and evaluate the first pedestrian intention prediction model based on integration of motion sensor data gathered with the smartwatch (or smartphone) of the pedestrian. A novel machine learning architecture is proposed to effectively incorporate the motion sensor data to reinforce the visual information to significantly improve the performance in adverse situations where the visual information may be unreliable. We also conduct a large-scale data collection and present the first pedestrian intention prediction dataset integrated with time-synchronized motion sensor data. The dataset consists of a total of 128 video clips with different distances and varying levels of lighting conditions. We trained our model using the widely-used JAAD and our own datasets and compare the performance with a state-of-the-art model. The results demonstrate that our model outperforms the state-of-the-art method particularly when the distance to the pedestrian is far (over 70m), and the lighting conditions are not sufficient.
翻訳日:2022-08-17 12:56:00 公開日:2022-08-15
# QuickSkill: オンラインマルチプレイヤーゲームにおける初心者スキル推定

QuickSkill: Novice Skill Estimation in Online Multiplayer Games ( http://arxiv.org/abs/2208.07704v1 )

ライセンス: Link先を確認
Chaoyun Zhang, Kai Wang, Hao Chen, Ge Fan, Yingjie Li, Lifang Wu, Bingchao Zheng(参考訳) 対戦システムはオンラインマルチプレイヤーゲームにおいてフェアマッチを作成する上で不可欠であり、プレイヤーの満足度やゲーム体験に直接影響を及ぼす。 マッチメイキングシステムの多くは、プレーヤのゲームスキルを正確に見積もることに大きく依存している。 しかし、現在のマッチングレーティングアルゴリズムは、新しいプレイヤーの真のスキルを学ぶのにかなりの量のゲームを必要とするため、初心者のスキルレーティングは通常不正確である。 これらの信頼できないスキルスコアをマッチメイキングの初期段階で使用すると、通常、チームのパフォーマンスの差が生じ、ネガティブなゲーム経験が引き起こされる。 これはマッチング評価アルゴリズムの'コールドスタート'問題として知られている。 そこで本研究では,オンラインマルチプレイヤーゲームにおける新たなプレイヤーの能力を素早く探究するための,ディープラーニングに基づく初心者スキル推定フレームワークQuickSKillを提案する。 quickskillは、プレイヤーの初期の数ゲームからシーケンシャルなパフォーマンス特徴を抽出し、専用のニューラルネットワークで将来のスキル評価を予測し、プレイヤーの初期のゲーム段階で正確なスキル推定を提供する。 マッチメイキングにQuickSKillを用いることで、初期冷間開始時にゲームフェアネスを劇的に向上させることができる。 我々はオフラインとオンラインの両方のシナリオで人気のあるモバイルマルチプレイヤーゲームで実験を行う。 2つの実世界の匿名化されたゲームデータセットで得られた結果は、提案するquickskillが初心者に正確なゲームスキルを推定し、チームのスキル格差が著しく減少し、プレイヤーのゲーム経験が向上することを示している。 我々の知る限りでは、QuickSKillは従来のスキル評価アルゴリズムのコールドスタート問題に対処する最初のフレームワークである。

Matchmaking systems are vital for creating fair matches in online multiplayer games, which directly affects players' satisfactions and game experience. Most of the matchmaking systems largely rely on precise estimation of players' game skills to construct equitable games. However, the skill rating of a novice is usually inaccurate, as current matchmaking rating algorithms require considerable amount of games for learning the true skill of a new player. Using these unreliable skill scores at early stages for matchmaking usually leads to disparities in terms of team performance, which causes negative game experience. This is known as the ''cold-start'' problem for matchmaking rating algorithms. To overcome this conundrum, this paper proposes QuickSKill, a deep learning based novice skill estimation framework to quickly probe abilities of new players in online multiplayer games. QuickSKill extracts sequential performance features from initial few games of a player to predict his/her future skill rating with a dedicated neural network, thus delivering accurate skill estimation at the player's early game stage. By employing QuickSKill for matchmaking, game fairness can be dramatically improved in the initial cold-start period. We conduct experiments in a popular mobile multiplayer game in both offline and online scenarios. Results obtained with two real-world anonymized gaming datasets demonstrate that proposed QuickSKill delivers precise estimation of game skills for novices, leading to significantly lower team skill disparities and better player game experience. To the best of our knowledge, proposed QuickSKill is the first framework that tackles the cold-start problem for traditional skill rating algorithms.
翻訳日:2022-08-17 12:50:35 公開日:2022-08-15
# 推薦システム技術とeコマースドメインに関する調査研究

A Survey of Recommender System Techniques and the Ecommerce Domain ( http://arxiv.org/abs/2208.07399v1 )

ライセンス: Link先を確認
Imran Hossain, Md Aminul Haque Palash, Anika Tabassum Sejuty, Noor A Tanjim, MD Abdullah AL Nasim, Sarwar Saif, Abu Bokor Suraj(参考訳) このビッグデータの時代では、オンラインプラットフォームに含まれる膨大なデータから、現在の世代が適切なデータを見つけることは困難である。 このような状況下では、探している情報を見つけるのに役立つ情報フィルタリングシステムが必要である。 近年、推薦システムとして知られる研究分野が出現している。 現実のアプリケーションが多いため、レコメンダは重要になっている。 本稿では,e-Commerce,e-tourism,e-resources,e- Government,e-learning,e-libraryにおけるレコメンダシステムのさまざまな技術と展開についてレビューする。 このトピックに関する最近の研究を分析して、現在の開発の概要を説明し、レコメンデーションシステムにおける既存の困難を特定することができる。 最終結果は、実践者や研究者にレコメンデーションシステムとその応用に関する必要なガイダンスと洞察を与える。

In this big data era, it is hard for the current generation to find the right data from the huge amount of data contained within online platforms. In such a situation, there is a need for an information filtering system that might help them find the information they are looking for. In recent years, a research field has emerged known as recommender systems. Recommenders have become important as they have many real-life applications. This paper reviews the different techniques and developments of recommender systems in e-commerce, e-tourism, e-resources, e-government, e-learning, and e-library. By analyzing recent work on this topic, we will be able to provide a detailed overview of current developments and identify existing difficulties in recommendation systems. The final results give practitioners and researchers the necessary guidance and insights into the recommendation system and its application.
翻訳日:2022-08-17 12:49:22 公開日:2022-08-15
# D\"urfen Maschinen denken"k\"onnen? 英語) warum k\"unstliche intelligenz eine ethik braucht. (機械は許されているか) 考えてる? 人工知能が倫理を必要とする理由

D\"urfen Maschinen denken (k\"onnen)? Warum K\"unstliche Intelligenz eine Ethik braucht. (Are Machines Allowed to (be able to) Think? Why Artificial Intelligence Needs Ethics) ( http://arxiv.org/abs/2208.07402v1 )

ライセンス: Link先を確認
Karsten Wendland(参考訳) 2022年5月28日、シュトゥットガルトで開かれた第102回カソリケンタット会議において、パネルディスカッションのインパルス講演の音声原稿(ドイツ語+英語)。 パネル:Winfried Kretschmann (MdL, 首相 Baden-W\"urttemberg, Stuttgart), Ursula Nothelle-Wildfeuer (フライブルク), Michael Resch (シュトゥットガルト), Karsten Wendland (アーレン) モデレーション:ステファニー・レンチュ(stefanie rentsch)。 聴衆の支持者:ヴェレナ・ノイハウゼン(Verena Neuhausen)。

Speech manuscript (German + English) of the impulse lecture for the panel discussion "May machines (be able to) think?" at the 102nd Katholikentag on May 28, 2022 in Stuttgart. Panel: Winfried Kretschmann (MdL, Prime Minister Baden-W\"urttemberg, Stuttgart), Ursula Nothelle-Wildfeuer (Freiburg), Michael Resch (Stuttgart),Karsten Wendland (Aalen). Moderation: Stefanie Rentsch (Fulda). Advocate of the audience: Verena Neuhausen (Stuttgart).
翻訳日:2022-08-17 12:49:08 公開日:2022-08-15
# リスク(OAR)セグメンテーションのための高効率多次元核融合ネットワーク

An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR) Segmentation ( http://arxiv.org/abs/2208.07417v1 )

ライセンス: Link先を確認
Abhishek Srivastava, Debesh Jha, Elif Keles, Bulent Aydogan, Mohamed Abazeed, Ulas Bagci(参考訳) organ-at-risk (oars) の正確なセグメンテーションは放射線治療計画の最適化の前駆体である。 既存のディープラーニングベースのマルチスケール核融合アーキテクチャは、2次元医用画像セグメンテーションの膨大な能力を示している。 彼らの成功の鍵は、グローバルなコンテキストを集約し、高解像度な表現を維持することです。 しかし, 3次元分割問題に変換されると, 計算オーバーヘッドやデータダイエットが重いため, 既存のマルチスケール融合アーキテクチャは性能が低下する可能性がある。 この問題に対処するために,我々は,oarfocalfusenetと呼ばれる新しいoarセグメンテーションフレームワークを提案する。 各解像度ストリームには様々な解像度スケールの特徴が備わっており、多スケール情報は多様な文脈範囲をモデル化するために集約される。 その結果、特徴表現はさらに強化される。 OARセグメンテーションとマルチ組織セグメンテーションを総合的に比較した結果,提案したOARFocalFuseNetは,OpenKBPデータセットとSynapseマルチ組織セグメンテーションの最近の最先端手法よりも優れていることがわかった。 提案手法(3D-MSFとOARFocalFuseNet)はいずれも,標準評価指標として有望な性能を示した。 提案手法(oarfocalfusenet)は,openkbpデータセット上で0.7995,hausdorff距離5.1435,synapse multi-organセグメンテーションデータセットで0.8137のサイス係数を得た。

Accurate segmentation of organs-at-risks (OARs) is a precursor for optimizing radiation therapy planning. Existing deep learning-based multi-scale fusion architectures have demonstrated a tremendous capacity for 2D medical image segmentation. The key to their success is aggregating global context and maintaining high resolution representations. However, when translated into 3D segmentation problems, existing multi-scale fusion architectures might underperform due to their heavy computation overhead and substantial data diet. To address this issue, we propose a new OAR segmentation framework, called OARFocalFuseNet, which fuses multi-scale features and employs focal modulation for capturing global-local context across multiple scales. Each resolution stream is enriched with features from different resolution scales, and multi-scale information is aggregated to model diverse contextual ranges. As a result, feature representations are further boosted. The comprehensive comparisons in our experimental setup with OAR segmentation as well as multi-organ segmentation show that our proposed OARFocalFuseNet outperforms the recent state-of-the-art methods on publicly available OpenKBP datasets and Synapse multi-organ segmentation. Both of the proposed methods (3D-MSF and OARFocalFuseNet) showed promising performance in terms of standard evaluation metrics. Our best performing method (OARFocalFuseNet) obtained a dice coefficient of 0.7995 and hausdorff distance of 5.1435 on OpenKBP datasets and dice coefficient of 0.8137 on Synapse multi-organ segmentation dataset.
翻訳日:2022-08-17 12:47:27 公開日:2022-08-15
# 幾何散乱モジュールのための学習可能なフィルタ

Learnable Filters for Geometric Scattering Modules ( http://arxiv.org/abs/2208.07458v1 )

ライセンス: Link先を確認
Alexander Tong, Frederik Wenkel, Dhananjay Bhaskar, Kincaid Macdonald, Jackson Grady, Michael Perlmutter, Smita Krishnaswamy, Guy Wolf(参考訳) 本稿では、グラフウェーブレットフィルタのカスケードからなる、最近提案された幾何散乱変換の緩和に基づく新しいグラフニューラルネットワーク(gnn)モジュールを提案する。 学習可能な幾何散乱(legs)モジュールにより、ウェーブレットの適応チューニングが可能となり、学習表現にバンドパス特徴が出現する。 GNN に LEGS-加群を組み込むことで、多くの人気のある GNN と比較して、より長い範囲のグラフ関係の学習が可能になる。 さらに、ウェーブレットの優先順位は、競合であるgnnに比べて学習パラメータが大幅に少ないシンプルなアーキテクチャになる。 本稿では,グラフ分類ベンチマークによる脚型ネットワークの予測性能と,生化学グラフデータ探索タスクにおける学習特徴の記述的品質を示す。 その結果,多くのデータセット,特に生化学領域において,手作りの幾何学的散乱の数学的性質を保ちながら,脚ベースのネットワークが一般的なgnnやオリジナルの幾何学的散乱構成に匹敵することを示した。

We propose a new graph neural network (GNN) module, based on relaxations of recently proposed geometric scattering transforms, which consist of a cascade of graph wavelet filters. Our learnable geometric scattering (LEGS) module enables adaptive tuning of the wavelets to encourage band-pass features to emerge in learned representations. The incorporation of our LEGS-module in GNNs enables the learning of longer-range graph relations compared to many popular GNNs, which often rely on encoding graph structure via smoothness or similarity between neighbors. Further, its wavelet priors result in simplified architectures with significantly fewer learned parameters compared to competing GNNs. We demonstrate the predictive performance of LEGS-based networks on graph classification benchmarks, as well as the descriptive quality of their learned features in biochemical graph data exploration tasks. Our results show that LEGS-based networks match or outperforms popular GNNs, as well as the original geometric scattering construction, on many datasets, in particular in biochemical domains, while retaining certain mathematical properties of handcrafted (non-learned) geometric scattering.
翻訳日:2022-08-17 12:43:17 公開日:2022-08-15
# tile2tile: プラットフォームスタイル転送のための学習ゲームフィルタ

tile2tile: Learning Game Filters for Platformer Style Transfer ( http://arxiv.org/abs/2208.07699v1 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) タイルベースのプラットフォームゲームのレベル間のスタイル転送手法である tile2tile を提案する。 本手法は,各ゲームにおいて,タイル割当に基づく低解像度スケッチ表現から元のタイル表現にレベルを変換する学習モデルを含む。 これにより、これらのモデルをフィルタと呼び、レベルスケッチを特定のゲームのスタイルに変換することができる。 さらに,あるゲームのレベルをスケッチ形式に変換し,得られたスケッチを別のゲームのタイルに変換することによって,2つのゲーム間のスタイル転送方法を得る。 ゲームフィルタを学習するためにマルコフ確率場とオートエンコーダを使用し、スーパーマリオブラザーズ、キッドイカルス、メガマン、メトロイドのレベル間のスタイル転送をデモします。

We present tile2tile, an approach for style transfer between levels of tile-based platformer games. Our method involves training models that translate levels from a lower-resolution sketch representation based on tile affordances to the original tile representation for a given game. This enables these models, which we refer to as filters, to translate level sketches into the style of a specific game. Moreover, by converting a level of one game into sketch form and then translating the resulting sketch into the tiles of another game, we obtain a method of style transfer between two games. We use Markov random fields and autoencoders for learning the game filters and apply them to demonstrate style transfer between levels of Super Mario Bros, Kid Icarus, Mega Man and Metroid.
翻訳日:2022-08-17 12:41:28 公開日:2022-08-15
# 仮想ニューロンを用いたニューロモルフィックコンピュータにおける整数と論理の符号化

Encoding Integers and Rationals on Neuromorphic Computers using Virtual Neuron ( http://arxiv.org/abs/2208.07468v1 )

ライセンス: Link先を確認
Prasanna Date, Shruti Kulkarni, Aaron Young, Catherine Schuman, Thomas Potok, Jeffrey Vetter(参考訳) ニューロモルフィックコンピュータは人間の脳をエミュレートして計算を行い、非常に低い電力を使用する。 将来はエネルギー効率のよいコンピューティングに欠かせないものになるだろう。 主にニューラルネットワークベースの機械学習アプリケーションで使用されるが、ニューロモルフィックコンピュータはチューリング完全であり、汎用計算が可能であることが知られている。 しかし、汎用でエネルギー効率の良いコンピューティングの可能性を完全に実現するためには、数値を符号化する効率的なメカニズムを考案することが重要である。 現在の符号化手法は適用性に制限があり、汎用計算には適さない。 本稿では,仮想ニューロンを整数と有理数の符号化機構として提示する。 仮想ニューロンの性能を物理的およびシミュレーション的神経形ハードウェア上で評価し,混合信号型 memristor を用いたニューロモルフィックプロセッサを用いて平均 23 nj のエネルギーで加算演算を行うことができることを示した。 また、汎用計算のビルディングブロックであるmu-recursive関数の一部に使用することで、その実用性を実証する。

Neuromorphic computers perform computations by emulating the human brain, and use extremely low power. They are expected to be indispensable for energy-efficient computing in the future. While they are primarily used in spiking neural network-based machine learning applications, neuromorphic computers are known to be Turing-complete, and thus, capable of general-purpose computation. However, to fully realize their potential for general-purpose, energy-efficient computing, it is important to devise efficient mechanisms for encoding numbers. Current encoding approaches have limited applicability and may not be suitable for general-purpose computation. In this paper, we present the virtual neuron as an encoding mechanism for integers and rational numbers. We evaluate the performance of the virtual neuron on physical and simulated neuromorphic hardware and show that it can perform an addition operation using 23 nJ of energy on average using a mixed-signal memristor-based neuromorphic processor. We also demonstrate its utility by using it in some of the mu-recursive functions, which are the building blocks of general-purpose computation.
翻訳日:2022-08-17 12:32:34 公開日:2022-08-15
# SemAug: 言語接地によるオブジェクト検出のための意味のある画像拡張

SemAug: Semantically Meaningful Image Augmentations for Object Detection Through Language Grounding ( http://arxiv.org/abs/2208.07407v1 )

ライセンス: Link先を確認
Morgan Heisler and Amin Banitalebi-Dehkordi and Yong Zhang(参考訳) データ拡張はディープニューラルネットワークの一般化を改善する上で不可欠な技術である。 既存の画像領域拡張のほとんどは幾何学的および構造的変換に依存するか、異なる種類の測光歪を適用する。 本稿では,文脈的有意義な知識をシーンに注入し,画像拡張のための効果的な手法を提案する。 言語接地によるオブジェクト検出のための意味的意味的イメージ増強手法SemAugは,画像中の関連する場所(問題と場所)に配置できる意味的に適切な新しいオブジェクトを計算することから始める。 そして、それらのオブジェクトを関連するターゲットロケーションに埋め込み、オブジェクトインスタンスの分散の多様性を促進する。 この方法では、トレーニングセットに存在しない可能性のある新しいオブジェクトインスタンスとカテゴリを導入することができる。 さらに、コンテキストネットワークをトレーニングする追加のオーバーヘッドを必要としないため、既存のアーキテクチャに簡単に追加することができる。 総合的な評価の結果,提案手法は一般化に非常に有効であり,オーバーヘッドは無視できることがわかった。 特に,多種多様なモデルアーキテクチャにおいて,Pascal VOCおよびCOCOデータセットにおけるオブジェクト検出のタスクに対して,約2-4%,約1-2%のmAP改善を実現した。

Data augmentation is an essential technique in improving the generalization of deep neural networks. The majority of existing image-domain augmentations either rely on geometric and structural transformations, or apply different kinds of photometric distortions. In this paper, we propose an effective technique for image augmentation by injecting contextually meaningful knowledge into the scenes. Our method of semantically meaningful image augmentation for object detection via language grounding, SemAug, starts by calculating semantically appropriate new objects that can be placed into relevant locations in the image (the what and where problems). Then it embeds these objects into their relevant target locations, thereby promoting diversity of object instance distribution. Our method allows for introducing new object instances and categories that may not even exist in the training set. Furthermore, it does not require the additional overhead of training a context network, so it can be easily added to existing architectures. Our comprehensive set of evaluations showed that the proposed method is very effective in improving the generalization, while the overhead is negligible. In particular, for a wide range of model architectures, our method achieved ~2-4% and ~1-2% mAP improvements for the task of object detection on the Pascal VOC and COCO datasets, respectively.
翻訳日:2022-08-17 12:32:17 公開日:2022-08-15
# インクルーシブhriに向けて:sim2realを用いて感情表現認識の低表現に対処

Towards Inclusive HRI: Using Sim2Real to Address Underrepresentation in Emotion Expression Recognition ( http://arxiv.org/abs/2208.07472v1 )

ライセンス: Link先を確認
Saba Akhyani, Mehryar Abbasi Boroujeni, Mo Chen, Angelica Lim(参考訳) 人間と対話するロボットや人工エージェントは、バイアスや不平等を伴わずにそれを行うことができるべきだが、顔の知覚システムは、特定のグループに対して他のグループよりもうまくいかないことが知られている。 私たちの研究は、より透明で包括的な方法で人間を知覚できるシステムを構築することを目的としています。 具体的には、プライバシの懸念と、顔が本質的に識別可能であるという事実により、広範囲の人々の収集が困難である人間の顔に対する動的表現に焦点を当てる。 さらに、インターネットから収集されたデータセットは必ずしも一般人口を代表するものではない。 我々はSim2Realアプローチによってこの問題に対処し、3Dシミュレーションされた人間のモデルを用いて監査可能な合成データセットを作成する。 1) 混乱などの6つの基本的な感情以外の表情の表現不足 2 少数民族又は性別の少数民族 3) ロボットが現実世界で人間と遭遇する可能性のある広い視野角。 4536のサンプルを含む合成データセットで123のサンプルを含む小さな動的感情表現データセットを増強することにより、合成トレーニングデータなしで同じモデルアーキテクチャの性能と比較して、我々のデータセットで15%、外部ベンチマークデータセットで11%の精度向上を実現した。 また、この追加ステップにより、アーキテクチャの機能抽出重みがスクラッチからトレーニングされた場合に、特に少数民族の精度が向上することを示す。

Robots and artificial agents that interact with humans should be able to do so without bias and inequity, but facial perception systems have notoriously been found to work more poorly for certain groups of people than others. In our work, we aim to build a system that can perceive humans in a more transparent and inclusive manner. Specifically, we focus on dynamic expressions on the human face, which are difficult to collect for a broad set of people due to privacy concerns and the fact that faces are inherently identifiable. Furthermore, datasets collected from the Internet are not necessarily representative of the general population. We address this problem by offering a Sim2Real approach in which we use a suite of 3D simulated human models that enables us to create an auditable synthetic dataset covering 1) underrepresented facial expressions, outside of the six basic emotions, such as confusion; 2) ethnic or gender minority groups; and 3) a wide range of viewing angles that a robot may encounter a human in the real world. By augmenting a small dynamic emotional expression dataset containing 123 samples with a synthetic dataset containing 4536 samples, we achieved an improvement in accuracy of 15% on our own dataset and 11% on an external benchmark dataset, compared to the performance of the same model architecture without synthetic training data. We also show that this additional step improves accuracy specifically for racial minorities when the architecture's feature extraction weights are trained from scratch.
翻訳日:2022-08-17 12:31:57 公開日:2022-08-15
# bow3d:3dlidarスラムのリアルタイムループクローズのための言葉の袋

BoW3D: Bag of Words for Real-time Loop Closing in 3D LiDAR SLAM ( http://arxiv.org/abs/2208.07473v1 )

ライセンス: Link先を確認
Yunge Cui, Yinlong Zhang, Xieyuanli Chen, Jiahua Dong, Qingxiao Wu, Feng Zhu(参考訳) ループクローズは、自律移動システムのための同時ローカライゼーションとマッピング(slam)の基本的な部分である。 視覚SLAMの分野では,言葉袋(BoW)はループ閉鎖において大きな成功を収めている。 ループ探索のためのBoW機能は、その後の6-DoFループ修正にも利用できる。 しかし、3D LiDAR SLAMでは、最先端の手法はリアルタイムでループを効果的に認識することができず、通常は6-DoFループの完全なポーズを修正できない。 この制限に対処するため,BoW3Dと呼ばれる3D LiDAR SLAMでリアルタイムにループクローズする新しいBag of Wordsを提案する。 提案手法の新規性は,再検討したループ位置を効率よく認識するだけでなく,全6-DoFループポーズをリアルタイムで補正することにある。 bow3dは、効率的なポーズ不変で正確なポイントツーポイントマッチングに使用できる3d機能link3dに基づいて、単語の袋を構築する。 さらに,提案手法を3次元LiDARオドメトリーシステムに組み込んでループ閉鎖性能の評価を行う。 提案手法を公開データセット上でテストし,他の最先端アルゴリズムと比較する。 BoW3Dは、F1maxと拡張精度スコアの点で、ほとんどのシナリオにおいて、より優れたリアルタイムパフォーマンスを示す。 BoW3Dは、Intel Core i7 @2.2 GHzプロセッサでノートブック上で実行する場合、KITTI 00(4K+ 64-ray LiDARスキャンを含む)のループの認識と修正に平均50ミリ秒を要する。

Loop closing is a fundamental part of simultaneous localization and mapping (SLAM) for autonomous mobile systems. In the field of visual SLAM, bag of words (BoW) has achieved great success in loop closure. The BoW features for loop searching can also be used in the subsequent 6-DoF loop correction. However, for 3D LiDAR SLAM, the state-of-the-art methods may fail to effectively recognize the loop in real time, and usually cannot correct the full 6-DoF loop pose. To address this limitation, we present a novel Bag of Words for real-time loop closing in 3D LiDAR SLAM, called BoW3D. The novelty of our method lies in that it not only efficiently recognize the revisited loop places, but also correct the full 6-DoF loop pose in real time. BoW3D builds the bag of words based on the 3D feature LinK3D, which is efficient, pose-invariant and can be used for accurate point-to-point matching. We furthermore embed our proposed method into 3D LiDAR odometry system to evaluate loop closing performance. We test our method on public dataset, and compare it against other state-of-the-art algorithms. BoW3D shows better performance in terms of F1 max and extended precision scores in most scenarios with superior real-time performance. It is noticeable that BoW3D takes an average of 50 ms to recognize and correct the loops in KITTI 00 (includes 4K+ 64-ray LiDAR scans), when executed on a notebook with an Intel Core i7 @2.2 GHz processor.
翻訳日:2022-08-17 12:31:33 公開日:2022-08-15
# Johnson-Lindenstrauss変換によるプライベートクエリリリース

Private Query Release via the Johnson-Lindenstrauss Transform ( http://arxiv.org/abs/2208.07410v1 )

ライセンス: Link先を確認
Aleksandar Nikolov(参考訳) Johnson-Lindenstrauss lemma をベースとした,差分プライバシーを持つ統計的クエリに対する回答の解放手法を提案する。 鍵となるアイデアは、クエリ回答を低次元空間にランダムに投影し、実行可能なクエリ回答の任意の2つのベクトル間の距離を加算誤差まで保存することである。 次に、単純なノイズ付加機構を用いて、投影されたクエリに応答し、答えを元の次元まで持ち上げる。 この手法を用いることで、最小のケースサンプルの複雑さを持つ純粋に微分的にプライベートなメカニズムを平均誤差下で初めて与え、N$の宇宙上のクエリに$k$の負荷に答える。 他の応用として、有界高次元分布の共分散を計算し、2方向辺縁クエリに応答するために最適なサンプル複雑性を持つ、最初の純粋にプライベートな効率のメカニズムを与える。 また、エラーに依存するため、各クエリのワークロードに対して、我々のメカニズムの変形がほぼ最適であることを示す。

We introduce a new method for releasing answers to statistical queries with differential privacy, based on the Johnson-Lindenstrauss lemma. The key idea is to randomly project the query answers to a lower dimensional space so that the distance between any two vectors of feasible query answers is preserved up to an additive error. Then we answer the projected queries using a simple noise-adding mechanism, and lift the answers up to the original dimension. Using this method, we give, for the first time, purely differentially private mechanisms with optimal worst case sample complexity under average error for answering a workload of $k$ queries over a universe of size $N$. As other applications, we give the first purely private efficient mechanisms with optimal sample complexity for computing the covariance of a bounded high-dimensional distribution, and for answering 2-way marginal queries. We also show that, up to the dependence on the error, a variant of our mechanism is nearly optimal for every given query workload.
翻訳日:2022-08-17 12:20:47 公開日:2022-08-15
# 機械学習モデルのロバストトレーニングと認定に関する概観と展望

An Overview and Prospective Outlook on Robust Training and Certification of Machine Learning Models ( http://arxiv.org/abs/2208.07464v1 )

ライセンス: Link先を確認
Brendon G. Anderson, Tanmay Gautam, Somayeh Sojoudi(参考訳) 本稿では,機械学習モデルの堅牢性に関する最近の研究について述べる。 学習アルゴリズムがデータ駆動制御システムでますます普及するにつれて、信頼性の高い安全クリティカルな操作を維持するために、データ不確実性に対する堅牢性を確保する必要がある。 まず、このような堅牢性に関する一般的な定式化を見直し、その後、頑健な機械学習モデルをトレーニングするためのポピュラーで最先端のテクニックと、その堅牢性を証明する方法について議論する。 この堅牢な機械学習の統合から、この領域における将来の研究の推進方向を特定し議論する。

In this discussion paper, we survey recent research surrounding robustness of machine learning models. As learning algorithms become increasingly more popular in data-driven control systems, their robustness to data uncertainty must be ensured in order to maintain reliable safety-critical operations. We begin by reviewing common formalisms for such robustness, and then move on to discuss popular and state-of-the-art techniques for training robust machine learning models as well as methods for provably certifying such robustness. From this unification of robust machine learning, we identify and discuss pressing directions for future research in the area.
翻訳日:2022-08-17 12:20:26 公開日:2022-08-15
# 逆行性スティロメトリー実験の再現と複製

Reproduction and Replication of an Adversarial Stylometry Experiment ( http://arxiv.org/abs/2208.07395v1 )

ライセンス: Link先を確認
Haining Wang, Patrick Juola, Allen Riddell(参考訳) 自然言語を使ってコミュニケーションしながら匿名性を維持することは課題である。 候補著者の執筆スタイルを分析する標準著作者属性技術は、候補著者数が高い場合でも不快なほど高い精度が得られる。 敵対的なスティロメトリは、望ましくない匿名化を防ぐために著者の帰属を擁護する。 本稿では,著者帰属に対する防衛に関する基礎的研究において,実験を再現し,再現する(Brennan et al., 2012)。 実験結果の再現と再現は可能であるが,本研究では制御群が欠如していることから,本研究の有効性が過大評価されている。 複製では,完全自動翻訳法であるラウンドトリップ翻訳法が,著者帰属法の有効性を低下させると考えられる再検討のメリットを示唆する新たな証拠が発見された。

Maintaining anonymity while communicating using natural language remains a challenge. Standard authorship attribution techniques that analyze candidate authors' writing styles achieve uncomfortably high accuracy even when the number of candidate authors is high. Adversarial stylometry defends against authorship attribution with the goal of preventing unwanted deanonymization. This paper reproduces and replicates experiments in a seminal study of defenses against authorship attribution (Brennan et al., 2012). We are able to successfully reproduce and replicate the original results, although we conclude that the effectiveness of the defenses studied is overstated due to a lack of a control group in the original study. In our replication, we find new evidence suggesting that an entirely automatic method, round-trip translation, merits re-examination as it appears to reduce the effectiveness of established authorship attribution methods.
翻訳日:2022-08-17 12:17:01 公開日:2022-08-15
# SynKB: セマンティック検索による合成手順

SynKB: Semantic Search for Synthetic Procedures ( http://arxiv.org/abs/2208.07400v1 )

ライセンス: Link先を確認
Fan Bai, Alan Ritter, Peter Madrid, Dayne Freitag, John Niekrasz(参考訳) 本稿では,化学合成プロトコルの知識ベースをオープンソースで自動抽出するSynKBを提案する。 Reaxsysのような独自の化学データベースと同様に、SynKBは化学者が合成手順に関する構造化された知識を検索できるようにする。 手続き的テキストの自然言語処理の最近の進歩を生かして、SynKBは反応条件に関するより柔軟なクエリをサポートし、化学者が新しい合成経路を設計する際に、関連する反応に使用される条件を検索するのに役立つ可能性がある。 米国とeuの特許で説明されている600万の合成手順から情報を自動的に抽出するためにカスタマイズされたトランスフォーマーモデルを使用することで、多くのクエリにおいてsynkbはreaxsysよりも高いリコール率を示しながら、精度を維持している。 対照的に、プロプライエタリな化学データベースは、高価なサブスクリプションを必要としています。

In this paper we present SynKB, an open-source, automatically extracted knowledge base of chemical synthesis protocols. Similar to proprietary chemistry databases such as Reaxsys, SynKB allows chemists to retrieve structured knowledge about synthetic procedures. By taking advantage of recent advances in natural language processing for procedural texts, SynKB supports more flexible queries about reaction conditions, and thus has the potential to help chemists search the literature for conditions used in relevant reactions as they design new synthetic routes. Using customized Transformer models to automatically extract information from 6 million synthesis procedures described in U.S. and EU patents, we show that for many queries, SynKB has higher recall than Reaxsys, while maintaining high precision. We plan to make SynKB available as an open-source tool; in contrast, proprietary chemistry databases require costly subscriptions.
翻訳日:2022-08-17 12:16:50 公開日:2022-08-15
# 模倣学習を用いたコンピュータゲームにおけるインフォームドデザインと検証支援

Towards Informed Design and Validation Assistance in Computer Games Using Imitation Learning ( http://arxiv.org/abs/2208.07811v1 )

ライセンス: Link先を確認
Alessandro Sestini, Joakim Bergdahl, Konrad Tollera, Andrew D. Bagdanov, Linus Gissl\'en(参考訳) ゲームでは、他の多くのドメインと同様に、システムのサイズが拡大し、手動テストが実現不可能になりつつあるため、設計の検証とテストは大きな課題である。 本稿では,自動ゲーム検証とテストのための新しいアプローチを提案する。 本手法では,機械学習やプログラミングに関する知識を必要とせず,データ駆動型模倣学習手法を活用し,ゲームテストエージェントを効率的にトレーニングすることができる。 本研究は,業界の専門家によるユーザ調査を通して,本手法の有効性について検討する。 調査の結果,本手法はゲーム検証に有効な手法であり,データ駆動型プログラミングは,現在のプレイテストの品質向上と労力削減に有効であることがわかった。 調査では、いくつかのオープンな課題も取り上げている。 最新の文献を用いて特定課題を分析し,提案手法の有用性を最大化するための今後の研究方向を提案する。

In games, as in and many other domains, design validation and testing is a huge challenge as systems are growing in size and manual testing is becoming infeasible. This paper proposes a new approach to automated game validation and testing. Our method leverages a data-driven imitation learning technique, which requires little effort and time and no knowledge of machine learning or programming, that designers can use to efficiently train game testing agents. We investigate the validity of our approach through a user study with industry experts. The survey results show that our method is indeed a valid approach to game validation and that data-driven programming would be a useful aid to reducing effort and increasing quality of modern playtesting. The survey also highlights several open challenges. With the help of the most recent literature, we analyze the identified challenges and propose future research directions suitable for supporting and maximizing the utility of our approach.
翻訳日:2022-08-17 12:10:36 公開日:2022-08-15
# エンティティアンコールIDD符号化

Entity Anchored ICD Coding ( http://arxiv.org/abs/2208.07444v1 )

ライセンス: Link先を確認
Jay DeYoung, Han-Chin Shing, Luyang Kong, Christopher Winestock, Chaitanya Shivade(参考訳) 医療コーディングは複雑な作業であり、患者のノートに72,000のICD符号のサブセットを割り当てる必要がある。 これらのタスクに対する現代の自然言語処理アプローチは、出力空間の入力とサイズの長さによって挑戦されてきた。 モデル入力は、ドキュメントにある医療エンティティの周りの小さなウィンドウに制限します。 これらのローカルなコンテキストから、ICDコードとエンティティの両方のコンテキスト化された表現を構築し、これらの表現を集約して文書レベルの予測を作成する。 サイズやトレーニングで見られるコードで固定された表現を使用する既存のメソッドとは対照的に、コード記述をローカルコンテキストでエンコードすることでicdコードを表現する。 コーディングシステムのデプロイに適切なメトリクスについて検討する。 提案手法は,レアコードやアンセインコードのパフォーマンスなど,標準およびデプロイ可能な手段で既存の手法よりも優れていることを示す。

Medical coding is a complex task, requiring assignment of a subset of over 72,000 ICD codes to a patient's notes. Modern natural language processing approaches to these tasks have been challenged by the length of the input and size of the output space. We limit our model inputs to a small window around medical entities found in our documents. From those local contexts, we build contextualized representations of both ICD codes and entities, and aggregate over these representations to form document-level predictions. In contrast to existing methods which use a representation fixed either in size or by codes seen in training, we represent ICD codes by encoding the code description with local context. We discuss metrics appropriate to deploying coding systems in practice. We show that our approach is superior to existing methods in both standard and deployable measures, including performance on rare and unseen codes.
翻訳日:2022-08-17 12:06:45 公開日:2022-08-15
# 不確実性下における予測の組み合わせ:ランダム決定木の場合

Combining Predictions under Uncertainty: The Case of Random Decision Trees ( http://arxiv.org/abs/2208.07403v1 )

ライセンス: Link先を確認
Florian Busch, Moritz Kulessa, Eneldo Loza Menc\'ia and Hendrik Blockeel(参考訳) 決定木の集合における分類推定を集約する一般的なアプローチは、投票または各クラスの確率を平均化することである。 後者は不確実性を考慮するが、不確実性推定の信頼性は考慮しない(つまり「不確実性の不確実性」)。 より一般的には、複数のソースからの確率的見積もりを最もうまく組み合わせる方法については、まだ多くのことが不明である。 本稿では,いくつかの代替予測手法について検討する。 我々の方法は、確率論、信念関数、信頼できる分類の理論、そして証拠の蓄積と呼ぶ原理に触発されている。 様々なデータセットにおける実験はランダムな決定木に基づいており,それらの組み合わせによる予測の多様性が保証されている。 意外なことに、確率を平均的に上回るのが難しいことがわかりました。 しかし、証拠の蓄積は、非常に小さな葉の全てに対して一貫して良好な結果を示した。

A common approach to aggregate classification estimates in an ensemble of decision trees is to either use voting or to average the probabilities for each class. The latter takes uncertainty into account, but not the reliability of the uncertainty estimates (so to say, the "uncertainty about the uncertainty"). More generally, much remains unknown about how to best combine probabilistic estimates from multiple sources. In this paper, we investigate a number of alternative prediction methods. Our methods are inspired by the theories of probability, belief functions and reliable classification, as well as a principle that we call evidence accumulation. Our experiments on a variety of data sets are based on random decision trees which guarantees a high diversity in the predictions to be combined. Somewhat unexpectedly, we found that taking the average over the probabilities is actually hard to beat. However, evidence accumulation showed consistently better results on all but very small leafs.
翻訳日:2022-08-17 12:06:17 公開日:2022-08-15
# 口腔セルフケアを支援するオンライン強化学習アルゴリズムに対する報酬設計

Reward Design For An Online Reinforcement Learning Algorithm Supporting Oral Self-Care ( http://arxiv.org/abs/2208.07406v1 )

ライセンス: Link先を確認
Anna L. Trella, Kelly W. Zhang, Inbal Nahum-Shani, Vivek Shetty, Finale Doshi-Velez, Susan A. Murphy(参考訳) 歯科疾患は、主に予防可能であるにもかかわらず、最も一般的な慢性疾患の1つである。 しかし、最適な口腔衛生に関する専門的なアドバイスはしばしば患者によって忘れられるか放棄される。 したがって、患者は、タイムリーでパーソナライズされたセルフケア行動への奨励の恩恵を受けることができる。 本稿では,移動型プロンプトの配信を最適化し,口腔衛生行動を促進するためのオンライン強化学習(RL)アルゴリズムを開発する。 このようなアルゴリズムを開発する上での大きな課題の1つは、アルゴリズムが将来のアクション(すなわち遅延効果)の有効性に対する現在のアクションの影響を考慮することを保証することである。 ユーザの負担を最小限に抑えつつ、所望の健康効果(すなわち、高品質なブラッシング)を最大化する品質報酬を設計することで、この問題に対処する。 また,シミュレーション環境テストベッドの構築と,テストベッドを用いた候補評価により,報酬の過度パラメータを最適化する手法を強調した。 この論文で論じられたRLアルゴリズムは、口腔衛生実践における患者のエンゲージメントを高める行動戦略を提供する口腔セルフケアアプリであるOralyticsにデプロイされる。

Dental disease is one of the most common chronic diseases despite being largely preventable. However, professional advice on optimal oral hygiene practices is often forgotten or abandoned by patients. Therefore patients may benefit from timely and personalized encouragement to engage in oral self-care behaviors. In this paper, we develop an online reinforcement learning (RL) algorithm for use in optimizing the delivery of mobile-based prompts to encourage oral hygiene behaviors. One of the main challenges in developing such an algorithm is ensuring that the algorithm considers the impact of the current action on the effectiveness of future actions (i.e., delayed effects), especially when the algorithm has been made simple in order to run stably and autonomously in a constrained, real-world setting (i.e., highly noisy, sparse data). We address this challenge by designing a quality reward which maximizes the desired health outcome (i.e., high-quality brushing) while minimizing user burden. We also highlight a procedure for optimizing the hyperparameters of the reward by building a simulation environment test bed and evaluating candidates using the test bed. The RL algorithm discussed in this paper will be deployed in Oralytics, an oral self-care app that provides behavioral strategies to boost patient engagement in oral hygiene practices.
翻訳日:2022-08-17 12:06:04 公開日:2022-08-15
# 深層非教師付きドメイン適応 : 最近の進歩と展望

Deep Unsupervised Domain Adaptation: A Review of Recent Advances and Perspectives ( http://arxiv.org/abs/2208.07422v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Chaehwa Yoo, Fangxu Xing, Hyejin Oh, Georges El Fakhri, Je-Won Kang, Jonghye Woo(参考訳) ディープラーニングは、データから学び、幅広いアプリケーションで印象的なパフォーマンスを達成する能力があるため、さまざまなドメインで現実世界の問題に取り組むための選択方法になっています。 しかし、その成功は通常2つの仮定に依存している。 (i)正確なモデルフィッティングには大量のラベル付きデータセットが必要である。 (ii) トレーニング・テストデータは独立して分散している。 したがって、特に適応段階において分配外データに遭遇する場合において、対象領域に対する性能は保証されない。 ターゲットドメイン内のデータのパフォーマンス低下は、ソースドメインのデータでうまくトレーニングされたディープニューラルネットワークのデプロイにおいて重要な問題である。 非教師付きドメイン適応(UDA)は、ラベル付きソースドメインデータとラベルなしターゲットドメインデータの両方を活用して、ターゲットドメイン内の様々なタスクを実行することでこれに対応する。 UDAは、自然言語処理、ビデオ解析、自然言語処理、時系列データ分析、医用画像解析など、有望な成果を上げている。 本稿では,急速に発展するトピックとして,その手法と応用を体系的に比較する。 さらに,UDAとドメイン一般化やアウト・オブ・ディストリビューション検出といった,関連するタスクとの関係についても論じている。 さらに、現在の方法の欠陥や有望な方向性を強調する。

Deep learning has become the method of choice to tackle real-world problems in different domains, partly because of its ability to learn from data and achieve impressive performance on a wide range of applications. However, its success usually relies on two assumptions: (i) vast troves of labeled datasets are required for accurate model fitting, and (ii) training and testing data are independent and identically distributed. Its performance on unseen target domains, thus, is not guaranteed, especially when encountering out-of-distribution data at the adaptation stage. The performance drop on data in a target domain is a critical problem in deploying deep neural networks that are successfully trained on data in a source domain. Unsupervised domain adaptation (UDA) is proposed to counter this, by leveraging both labeled source domain data and unlabeled target domain data to carry out various tasks in the target domain. UDA has yielded promising results on natural image processing, video analysis, natural language processing, time-series data analysis, medical image analysis, etc. In this review, as a rapidly evolving topic, we provide a systematic comparison of its methods and applications. In addition, the connection of UDA with its closely related tasks, e.g., domain generalization and out-of-distribution detection, has also been discussed. Furthermore, deficiencies in current methods and possible promising directions are highlighted.
翻訳日:2022-08-17 12:00:28 公開日:2022-08-15
# Conv-Adapter:ConvNetのパラメータ効率向上学習

Conv-Adapter: Exploring Parameter Efficient Transfer Learning for ConvNets ( http://arxiv.org/abs/2208.07463v1 )

ライセンス: Link先を確認
Hao Chen, Ran Tao, Han Zhang, Yidong Wang, Wei Ye, Jindong Wang, Guosheng Hu, Marios Savvides(参考訳) パラメータ効率的なチューニング(PET)手法は自然言語処理(NLP)タスクのトランスフォーマーアーキテクチャにおいて大きな可能性を示しているが、その効果はコンピュータビジョン(CV)タスクの大規模ConvNetsではまだ実証されていない。 本稿では,ConvNets用に設計されたPETモジュールであるConv-Adapterを提案する。 Conv-Adapterは軽量で、ドメイン変換可能で、アーキテクチャに依存しない。 下流のタスクを転送する際、Conv-Adapterは、トレーニング済みパラメータを凍結したまま、バックボーンの中間表現にタスク固有の特徴変調を学習する。 例えば、ResNet50の完全な微調整パラメータをわずか3.5%だけ導入することで、Conv-Adapterは従来のPETベースラインメソッドを上回り、さまざまなドメインの23の分類タスクにおける完全な微調整のパフォーマンスを同等または上回っている。 また、数発の分類では優れた性能を示し、平均マージンは3.39%である。 分類以外にも、Conv-Adapterは50%以上のパラメータを削減できるが、従来のフル微調整に匹敵するパフォーマンスで、検出および分割タスクに一般化することができる。

While parameter efficient tuning (PET) methods have shown great potential with transformer architecture on Natural Language Processing (NLP) tasks, their effectiveness is still under-studied with large-scale ConvNets on Computer Vision (CV) tasks. This paper proposes Conv-Adapter, a PET module designed for ConvNets. Conv-Adapter is light-weight, domain-transferable, and architecture-agnostic with generalized performance on different tasks. When transferring on downstream tasks, Conv-Adapter learns tasks-specific feature modulation to the intermediate representations of backbone while keeping the pre-trained parameters frozen. By introducing only a tiny amount of learnable parameters, e.g., only 3.5% full fine-tuning parameters of ResNet50, Conv-Adapter outperforms previous PET baseline methods and achieves comparable or surpasses the performance of full fine-tuning on 23 classification tasks of various domains. It also presents superior performance on few-shot classifications, with an average margin of 3.39%. Beyond classification, Conv-Adapter can generalize to detection and segmentation tasks with more than 50% reduction of parameters but comparable performance to the traditional full fine-tuning.
翻訳日:2022-08-17 11:59:04 公開日:2022-08-15
# 盗難パッケージを用いたrの時系列特徴量解析

Feature-Based Time-Series Analysis in R using the theft Package ( http://arxiv.org/abs/2208.06146v2 )

ライセンス: Link先を確認
Trent Henderson and Ben D. Fulcher(参考訳) 時系列は科学全体で測定され分析される。 時系列の構造を定量化する一つの方法は、要約統計または「特徴」の組を計算し、その特性を特徴ベクトルとして時系列を表現することである。 得られた特徴空間は解釈可能で情報的であり、クラスタリング、回帰、分類を含む従来の統計的学習アプローチを時系列データセットに適用することができる。 catch22 (22機能): Matlab, R, Python, Julia), feasts (42機能: R), tsfeatures (63機能: R), Kats (40機能: Python), tsfresh (779機能: Python), TSFEL (390機能: Python) など,時系列機能を計算するためのオープンソースソフトウェアパッケージが多数存在する。 しかし、いくつか問題がある。 (i)これらのパッケージに対する特異なアクセスポイントは現在利用できない。 (ii)すべての機能セットにアクセスするには、ユーザは複数の言語に精通しなければならない。 3)これらの特徴抽出パッケージは,時系列分類などの特徴量に基づく時系列解析を行うための方法論的パイプラインを欠いている。 ここでは、これらの問題の解決策を、theft: Tools for Handling Processing of Features from Time seriesというRソフトウェアパッケージで紹介する。 theftは、上述の6つのオープンソースの時系列機能セットからコンピューティング機能を統一し拡張可能なフレームワークである。 また、広範囲のデータ視覚化テンプレート、低次元投影、時系列分類操作など、抽出された特徴の処理と解釈のための一連の機能を含んでいる。 科学と産業における時系列データセットの量と複雑さの増大に伴い、盗難は時系列における情報構造を包括的に定量化し解釈するための標準化されたフレームワークを提供する。

Time series are measured and analyzed across the sciences. One method of quantifying the structure of time series is by calculating a set of summary statistics or `features', and then representing a time series in terms of its properties as a feature vector. The resulting feature space is interpretable and informative, and enables conventional statistical learning approaches, including clustering, regression, and classification, to be applied to time-series datasets. Many open-source software packages for computing sets of time-series features exist across multiple programming languages, including catch22 (22 features: Matlab, R, Python, Julia), feasts (42 features: R), tsfeatures (63 features: R), Kats (40 features: Python), tsfresh (779 features: Python), and TSFEL (390 features: Python). However, there are several issues: (i) a singular access point to these packages is not currently available; (ii) to access all feature sets, users must be fluent in multiple languages; and (iii) these feature-extraction packages lack extensive accompanying methodological pipelines for performing feature-based time-series analysis, such as applications to time-series classification. Here we introduce a solution to these issues in an R software package called theft: Tools for Handling Extraction of Features from Time series. theft is a unified and extendable framework for computing features from the six open-source time-series feature sets listed above. It also includes a suite of functions for processing and interpreting the performance of extracted features, including extensive data-visualization templates, low-dimensional projections, and time-series classification operations. With an increasing volume and complexity of time-series datasets in the sciences and industry, theft provides a standardized framework for comprehensively quantifying and interpreting informative structure in time series.
翻訳日:2022-08-17 10:23:32 公開日:2022-08-15
# ゼロショット強化学習による低エミッション建築制御

Low Emission Building Control with Zero-Shot Reinforcement Learning ( http://arxiv.org/abs/2208.06385v2 )

ライセンス: Link先を確認
Scott R. Jeen, Alessandro Abate, Jonathan M. Cullen(参考訳) 建物内の暖房・冷却システムは、大域的エネルギー利用の31対%を占めており、そのほとんどはルール・ベース・コントローラ(rbcs)によって規制されており、グリッドと最適に相互作用することでエネルギー効率を最大化したり、排出を最小化することはない。 強化学習(RL)による制御は、建築エネルギー効率を大幅に改善することが示されているが、既存のソリューションでは、世界中の建物で期待できないような、建築固有のシミュレータやデータにアクセスする必要がある。 これに対し, ゼロショットビルディング制御と呼ばれるパラダイムを, 事前知識を必要とせずに, 排出削減政策を実現できることを示す。 我々は,PEARL(Probabilistic Emission-Abating Reinforcement Learning)の作成に,システム同定とモデルベースRLのアイデアを組み合わせて,短時間の積極的な探索が,パフォーマンスモデルを構築する上で必要であることを示す。 3種類のビルエネルギーシミュレーション実験において、PEARLは既存のRBCを1回以上上回り、すべてのケースでRLベースラインが人気であり、熱的快適さを維持しながら、ビルの排出を最大31倍削減することを示した。 ソースコードはhttps://enjeeneer.io/projects/pearl.com/で閲覧できます。

Heating and cooling systems in buildings account for 31\% of global energy use, much of which are regulated by Rule Based Controllers (RBCs) that neither maximise energy efficiency nor minimise emissions by interacting optimally with the grid. Control via Reinforcement Learning (RL) has been shown to significantly improve building energy efficiency, but existing solutions require access to building-specific simulators or data that cannot be expected for every building in the world. In response, we show it is possible to obtain emission-reducing policies without such knowledge a priori--a paradigm we call zero-shot building control. We combine ideas from system identification and model-based RL to create PEARL (Probabilistic Emission-Abating Reinforcement Learning) and show that a short period of active exploration is all that is required to build a performant model. In experiments across three varied building energy simulations, we show PEARL outperforms an existing RBC once, and popular RL baselines in all cases, reducing building emissions by as much as 31\% whilst maintaining thermal comfort. Our source code is available online via https://enjeeneer.io/projects/pearl .
翻訳日:2022-08-17 10:21:23 公開日:2022-08-15
# 実験ソーシャルネットワークにおけるバイアス増幅は再サンプリングによって減少する

Bias amplification in experimental social networks is reduced by resampling ( http://arxiv.org/abs/2208.07261v1 )

ライセンス: Link先を確認
Mathew D. Hardy, Bill D. Thompson, P.M. Krafft, Thomas L. Griffiths(参考訳) 大規模ソーシャルネットワークは、人々のバイアスを増幅することで分極に寄与すると考えられている。 しかし、これらの技術の複雑さは、責任あるメカニズムを特定し、緩和戦略を評価するのを困難にしている。 ここでは,ソーシャルネットワークを通じた情報伝達が,単純な知覚的意思決定タスクにおいて動機づけバイアスを増幅する,制御された実験条件を示す。 大規模行動実験の参加者は、アソシエーション参加者に対するソーシャルネットワークの一部が独立に進化する人口40人に対して、偏りのある意思決定の割合が増加した。 機械学習とベイズ統計から得られた手法をもとに, バイアス増幅を緩和するために予測されるコンテンツ選択アルゴリズムに対する簡単な調整を同定する。 このアルゴリズムは、人口全体のより代表的な個人のネットワーク内から視点のサンプルを生成する。 第2の大規模な実験では、情報共有の利点を維持しながらバイアス増幅を減らした。

Large-scale social networks are thought to contribute to polarization by amplifying people's biases. However, the complexity of these technologies makes it difficult to identify the mechanisms responsible and to evaluate mitigation strategies. Here we show under controlled laboratory conditions that information transmission through social networks amplifies motivational biases on a simple perceptual decision-making task. Participants in a large behavioral experiment showed increased rates of biased decision-making when part of a social network relative to asocial participants, across 40 independently evolving populations. Drawing on techniques from machine learning and Bayesian statistics, we identify a simple adjustment to content-selection algorithms that is predicted to mitigate bias amplification. This algorithm generates a sample of perspectives from within an individual's network that is more representative of the population as a whole. In a second large experiment, this strategy reduced bias amplification while maintaining the benefits of information sharing.
翻訳日:2022-08-16 15:12:24 公開日:2022-08-15
# 可変WORLD合成器を用いたニューラルヴォコーダとエンドツーエンド音声スタイル変換への応用

Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer ( http://arxiv.org/abs/2208.07282v1 )

ライセンス: Link先を確認
Shahan Nercessian(参考訳) 本稿では,WORLDシンセサイザを提案し,音声変換(歌唱)やDDSP音色変換タスクなどのエンドツーエンドの音声変換タスクに使用することを示す。 したがって、ベースライン微分型シンセサイザーはモデルパラメータを持たないが、十分な合成品質が得られる。 ベースライン出力にさらなる処理を施した軽量のブラックボックス・ポストネットを付加することにより、ベースラインシンセサイザーを拡張できる。 別の微分可能なアプローチでは、より狭いスタイル転送アプリケーションに対して自然性を改善することができるソース励起スペクトルを直接抽出することを考える。 提案手法の音響特性パラメタライゼーションは,ピッチと音節情報を独立にモデル化できるように自然に切り離すという利点がある。 さらに、これらの音響特徴をモノフォニック音源から推定する堅牢な手段が存在するため、パラメータ損失項をエンドツーエンドの目的関数に追加することができ、収束および/または更なる安定化(逆)訓練を支援することができる。

In this paper, we propose a differentiable WORLD synthesizer and demonstrate its use in end-to-end audio style transfer tasks such as (singing) voice conversion and the DDSP timbre transfer task. Accordingly, our baseline differentiable synthesizer has no model parameters, yet it yields adequate synthesis quality. We can extend the baseline synthesizer by appending lightweight black-box postnets which apply further processing to the baseline output in order to improve fidelity. An alternative differentiable approach considers extraction of the source excitation spectrum directly, which can improve naturalness albeit for a narrower class of style transfer applications. The acoustic feature parameterization used by our approaches has the added benefit that it naturally disentangles pitch and timbral information so that they can be modeled separately. Moreover, as there exists a robust means of estimating these acoustic features from monophonic audio sources, it allows for parameter loss terms to be added to an end-to-end objective function, which can help convergence and/or further stabilize (adversarial) training.
翻訳日:2022-08-16 15:12:09 公開日:2022-08-15
# 潜在するホークス過程は疫学的モデリングに使用できるか?

Can a latent Hawkes process be used for epidemiological modelling? ( http://arxiv.org/abs/2208.07340v1 )

ライセンス: Link先を確認
Stamatina Lamprinakou, Axel Gandy, Emma McCoy(参考訳) 新型コロナウイルスの感染拡大を理解することは、信頼できる流行モデルの重要性を強調する多くの研究の対象となっている。 本稿では,感染をモデル化するための時間的共変量を持つ潜伏ホークス法を用いて,新しい流行モデルを提案する。 他のモデルとは異なり、ホークス過程によって引き起こされる確率分布によって報告された事例をモデル化する。 ホークスプロセスを通じて感染をモデル化することで、感染した個人を見積もることができる。 我々は,潜伏するケースと再生数の両方を推定し,近い将来に新たなケースを予測するためにカーネル密度粒子フィルタ(KDPF)を提案する。 計算の労力は、KDPFのような粒子フィルタ型アルゴリズムの使用を可能にする感染症の数に比例する。 本研究は、イギリス各地の地方自治体において、合成データセットとCOVID-19報告事例に対する提案アルゴリズムの性能を実証し、我々のモデルを代替アプローチにベンチマークする。

Understanding the spread of COVID-19 has been the subject of numerous studies, highlighting the significance of reliable epidemic models. Here, we introduce a novel epidemic model using a latent Hawkes process with temporal covariates for modelling the infections. Unlike other models, we model the reported cases via a probability distribution driven by the underlying Hawkes process. Modelling the infections via a Hawkes process allows us to estimate by whom an infected individual was infected. We propose a Kernel Density Particle Filter (KDPF) for inference of both latent cases and reproduction number and for predicting the new cases in the near future. The computational effort is proportional to the number of infections making it possible to use particle filter type algorithms, such as the KDPF. We demonstrate the performance of the proposed algorithm on synthetic data sets and COVID-19 reported cases in various local authorities in the UK, and benchmark our model to alternative approaches.
翻訳日:2022-08-16 15:11:49 公開日:2022-08-15
# MoCapAct: 擬似ヒューマノイド制御のためのマルチタスクデータセット

MoCapAct: A Multi-Task Dataset for Simulated Humanoid Control ( http://arxiv.org/abs/2208.07363v1 )

ライセンス: Link先を確認
Nolan Wagener, Andrey Kolobov, Felipe Vieira Frujeri, Ricky Loynd, Ching-An Cheng, Matthew Hausknecht(参考訳) シミュレーションされたヒューマノイドは、その物理的能力のために魅力的な研究領域である。 それでも、政策が不安定で不連続で高次元の物理的システムを駆動する必要があるため、コントロールも困難である。 広く研究されているアプローチの1つは、モーションキャプチャ(mocap)データを使用して、ヒューマノイドエージェントの低レベルスキル(立位、歩行、ランニングなど)を教えることである。 しかし、MoCapのデータでさえ、シミュレーションされたヒューマノイドの制御は非常に困難であり、MoCapのデータはキネマティック情報のみを提供する。 実演動作を実現するための物理的な制御入力を見つけるには、強化学習のような計算集約的な方法が必要である。 したがって、一般公開されているMoCapデータにもかかわらず、そのユーティリティは大規模コンピューティングを持つ機関に限られている。 本研究では,Dm_control物理環境におけるシミュレーションヒューマノイドに対する3時間以上のMoCapデータ追跡が可能な高品質エージェントのトレーニングとリリースにより,この話題に関する生産的研究の障壁を劇的に低くする。 私たちはこれらの専門家エージェントとそのロールアウトのデータセットであるMoCapAct(Motion Capture with Actions)をリリースします。 我々は,MoCapActを使うことで,dm_control内のMoCapデータセット全体を追跡可能な単一の階層的ポリシをトレーニングし,学習した低レベルコンポーネントを再使用して下流の高レベルタスクを効率的に学習できることを実証する。 最後に,mocapactを用いて自己回帰型gptモデルを訓練し,運動プロンプトによりシミュレーションされたヒューマノイドを制御し,自然な動作完了を行うことを示す。 結果のビデオとコードとデータセットへのリンクはhttps://microsoft.github.io/MoCapAct.comで公開されている。

Simulated humanoids are an appealing research domain due to their physical capabilities. Nonetheless, they are also challenging to control, as a policy must drive an unstable, discontinuous, and high-dimensional physical system. One widely studied approach is to utilize motion capture (MoCap) data to teach the humanoid agent low-level skills (e.g., standing, walking, and running) that can then be re-used to synthesize high-level behaviors. However, even with MoCap data, controlling simulated humanoids remains very hard, as MoCap data offers only kinematic information. Finding physical control inputs to realize the demonstrated motions requires computationally intensive methods like reinforcement learning. Thus, despite the publicly available MoCap data, its utility has been limited to institutions with large-scale compute. In this work, we dramatically lower the barrier for productive research on this topic by training and releasing high-quality agents that can track over three hours of MoCap data for a simulated humanoid in the dm_control physics-based environment. We release MoCapAct (Motion Capture with Actions), a dataset of these expert agents and their rollouts, which contain proprioceptive observations and actions. We demonstrate the utility of MoCapAct by using it to train a single hierarchical policy capable of tracking the entire MoCap dataset within dm_control and show the learned low-level component can be re-used to efficiently learn downstream high-level tasks. Finally, we use MoCapAct to train an autoregressive GPT model and show that it can control a simulated humanoid to perform natural motion completion given a motion prompt. Videos of the results and links to the code and dataset are available at https://microsoft.github.io/MoCapAct.
翻訳日:2022-08-16 15:11:35 公開日:2022-08-15
# データの鮮度はリアルタイム監視学習にどのように影響するか?

How Does Data Freshness Affect Real-time Supervised Learning? ( http://arxiv.org/abs/2208.06948v1 )

ライセンス: Link先を確認
Md Kamran Chowdhury Shisher and Yin Sun(参考訳) 本稿では,センサノード(例えばカメラやライダー)で観測された特徴(例えば,ビデオフレーム)に基づいて,ニューラルネットワークが時間変化目標(例えば,前方の車両の位置)を推定するように訓練されるリアルタイム教師付き学習におけるデータの鮮度の影響を分析する。 リアルタイム教師付き学習のパフォーマンスは、機能が停滞すると単調に低下すると予想する人もいるだろう。 情報理論解析を用いて、特徴量と対象データ列がマルコフ連鎖と密接に近似できる場合、これが真であることを示し、データ列がマルコフ連鎖から遠く離れている場合、そうではない。 したがって、リアルタイム教師付き学習の予測誤差は情報時代(AoI)の関数であり、その関数は非単調である可能性がある。 予測誤差の単調性および非単調性についていくつかの実験を行った。 推論誤差をリアルタイムに最小化するために,従来研究で用いられてきた"ジェネレート・アット・ウィッシュ"モデルよりも一般的である特徴の送信のための新しい"selection-from-buffer"モデルを提案する。 gittins と whittle indices を用いることで、gittins index theory と age of information (aoi) の新たな関係が発見されるような推論エラーを最小限に抑えるために、低複雑さスケジューリング戦略が開発されている。 これらのスケジューリング結果は (i)一般AoI関数(単調・非単調)の最小化及び (ii)一般特徴伝達時間分布について。 提案するスケジューリングアルゴリズムの利点を説明するため,データ駆動評価を行った。

In this paper, we analyze the impact of data freshness on real-time supervised learning, where a neural network is trained to infer a time-varying target (e.g., the position of the vehicle in front) based on features (e.g., video frames) observed at a sensing node (e.g., camera or lidar). One might expect that the performance of real-time supervised learning degrades monotonically as the feature becomes stale. Using an information-theoretic analysis, we show that this is true if the feature and target data sequence can be closely approximated as a Markov chain; it is not true if the data sequence is far from Markovian. Hence, the prediction error of real-time supervised learning is a function of the Age of Information (AoI), where the function could be non-monotonic. Several experiments are conducted to illustrate the monotonic and non-monotonic behaviors of the prediction error. To minimize the inference error in real-time, we propose a new "selection-from-buffer" model for sending the features, which is more general than the "generate-at-will" model used in earlier studies. By using Gittins and Whittle indices, low-complexity scheduling strategies are developed to minimize the inference error, where a new connection between the Gittins index theory and Age of Information (AoI) minimization is discovered. These scheduling results hold (i) for minimizing general AoI functions (monotonic or non-monotonic) and (ii) for general feature transmission time distributions. Data-driven evaluations are presented to illustrate the benefits of the proposed scheduling algorithms.
翻訳日:2022-08-16 15:08:36 公開日:2022-08-15
# 無線ネットワークにおけるグラフニューラルネットワークを用いたプライバシ保護分散推論

Privacy-Preserving Decentralized Inference with Graph Neural Networks in Wireless Networks ( http://arxiv.org/abs/2208.06963v1 )

ライセンス: Link先を確認
Mengyuan Lee, Guanding Yu, and Huaiyu Dai(参考訳) グラフデータのための効率的なニューラルネットワークモデルとして、グラフニューラルネットワーク(gnns)は最近、様々なワイヤレス最適化問題に成功している。 gnnの推論段階が自然に分散的に実装できることを考えると、gnnは次世代無線通信における分散制御/管理を可能にする可能性がある。 しかし、プライバシーの漏洩は、GNNとの分散推論中に隣人の情報交換によって起こる可能性がある。 この問題に対処するため,本稿では,無線ネットワークにおけるGNNによる分散推論のプライバシの分析と強化を行う。 具体的には,ローカルディファレンシャルプライバシを指標として採用し,新たなプライバシ保存信号の設計と,プライバシ保存推論を実現するためのプライバシグアラントトレーニングアルゴリズムを提案する。 また、無線ネットワークにおけるGNNによる分散推論の性能上限を解析するために、SNRプライバシトレードオフ関数を定義する。 通信と計算の効率をさらに高めるため,オーバー・ザ・エア計算手法を採用し,理論的にプライバシー保護の利点を実証する。 合成グラフデータに対する広範囲なシミュレーションを行い,理論解析を検証し,提案するプライバシ保存型無線シグナリングとプライバシガランテ型トレーニングアルゴリズムの有効性を検証し,実用的な実装に関するガイダンスを提供する。

As an efficient neural network model for graph data, graph neural networks (GNNs) recently find successful applications for various wireless optimization problems. Given that the inference stage of GNNs can be naturally implemented in a decentralized manner, GNN is a potential enabler for decentralized control/management in the next-generation wireless communications. Privacy leakage, however, may occur due to the information exchanges among neighbors during decentralized inference with GNNs. To deal with this issue, in this paper, we analyze and enhance the privacy of decentralized inference with GNNs in wireless networks. Specifically, we adopt local differential privacy as the metric, and design novel privacy-preserving signals as well as privacy-guaranteed training algorithms to achieve privacy-preserving inference. We also define the SNR-privacy trade-off function to analyze the performance upper bound of decentralized inference with GNNs in wireless networks. To further enhance the communication and computation efficiency, we adopt the over-the-air computation technique and theoretically demonstrate its advantage in privacy preservation. Through extensive simulations on the synthetic graph data, we validate our theoretical analysis, verify the effectiveness of proposed privacy-preserving wireless signaling and privacy-guaranteed training algorithm, and offer some guidance on practical implementation.
翻訳日:2022-08-16 15:08:08 公開日:2022-08-15
# 不確かさ最大エントロピー原理を用いた部分観測によるIRL

IRL with Partial Observations using the Principle of Uncertain Maximum Entropy ( http://arxiv.org/abs/2208.06988v1 )

ライセンス: Link先を確認
Kenneth Bogert, Yikang Gui, and Prashant Doshi(参考訳) 最大エントロピーの原理(英: principle of maximum entropy)は、経験的に推定される特徴の期待に合致するように制約されながら、可能な情報の少ない分布を計算するための広く適用可能な手法である。 しかし、ノイズの多いセンサを演算する多くの実世界のアプリケーションでは、関連するモデル変数を部分的に観察するため、機能期待は困難である。 例えば、見習い学習を行うロボットは、環境閉塞によって学習しているエージェントを見失うことがある。 これらのシナリオに対して最大エントロピーの原理を一般化することで、経験的特徴期待に学習モデルへの依存性を必然的に導入できることが示される。 我々は不確実な最大エントロピーの原理を導入し、潜在最大エントロピーの原理から一般化された期待最大化に基づく解を提案する。 最後に,最大因果エントロピー逆強化学習領域におけるノイズデータに対する頑健性の改善を実験的に実証した。

The principle of maximum entropy is a broadly applicable technique for computing a distribution with the least amount of information possible while constrained to match empirically estimated feature expectations. However, in many real-world applications that use noisy sensors computing the feature expectations may be challenging due to partial observation of the relevant model variables. For example, a robot performing apprenticeship learning may lose sight of the agent it is learning from due to environmental occlusion. We show that in generalizing the principle of maximum entropy to these types of scenarios we unavoidably introduce a dependency on the learned model to the empirical feature expectations. We introduce the principle of uncertain maximum entropy and present an expectation-maximization based solution generalized from the principle of latent maximum entropy. Finally, we experimentally demonstrate the improved robustness to noisy data offered by our technique in a maximum causal entropy inverse reinforcement learning domain.
翻訳日:2022-08-16 15:07:46 公開日:2022-08-15
# ターゲット音声抽出と音声分離における感情の影響の分析

Analysis of impact of emotions on target speech extraction and speech separation ( http://arxiv.org/abs/2208.07091v1 )

ライセンス: Link先を確認
J\'an \v{S}vec, Kate\v{r}ina \v{Z}mol\'ikov\'a, Martin Kocour, Marc Delcroix, Tsubasa Ochiai, Ladislav Mo\v{s}ner, Jan \v{C}ernock\'y(参考訳) 近年,ブラインド音声分離(BSS)とターゲット音声抽出(TSE)が著しく進歩している。 しかし、ほとんどの研究は、例えば読み上げ音声を用いた比較的よく制御された条件に焦点を当てている。 パフォーマンスはより現実的な状況で劣化する可能性がある。 このような劣化を引き起こす要因の1つは、感情のような内在的な話者変動であり、現実の言葉で一般的に起こる。 本稿では,感情がTSEとBSSに与える影響について検討する。 TSEとBSSの評価のための感情混合の新たなテストデータセットを作成する。 このデータセットは、LibriSpeechとRyerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)を組み合わせる。 制御実験により,BSSとTSEの性能に及ぼす異なる感情の影響を解析できる。 我々は,BSSが感情に対して比較的堅牢であるのに対し,ターゲット話者の発話を識別・抽出する必要があるTSEは感情に対してはるかに敏感であることを示した。 比較話者検証実験において,対象話者の識別が感情的音声処理において特に困難であることを示す。 本研究は,BSSおよびTSEシステムの感情音声に対する堅牢性を向上させる可能性について概説する。

Recently, the performance of blind speech separation (BSS) and target speech extraction (TSE) has greatly progressed. Most works, however, focus on relatively well-controlled conditions using, e.g., read speech. The performance may degrade in more realistic situations. One of the factors causing such degradation may be intrinsic speaker variability, such as emotions, occurring commonly in realistic speech. In this paper, we investigate the influence of emotions on TSE and BSS. We create a new test dataset of emotional mixtures for the evaluation of TSE and BSS. This dataset combines LibriSpeech and Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). Through controlled experiments, we can analyze the impact of different emotions on the performance of BSS and TSE. We observe that BSS is relatively robust to emotions, while TSE, which requires identifying and extracting the speech of a target speaker, is much more sensitive to emotions. On comparative speaker verification experiments we show that identifying the target speaker may be particularly challenging when dealing with emotional speech. Using our findings, we outline potential future directions that could improve the robustness of BSS and TSE systems toward emotional speech.
翻訳日:2022-08-16 15:07:35 公開日:2022-08-15
# サイバー防衛のデセプション:挑戦と機会

Deception for Cyber Defence: Challenges and Opportunities ( http://arxiv.org/abs/2208.07127v1 )

ライセンス: Link先を確認
David Liebowitz, Surya Nepal, Kristen Moore, Cody J. Christopher, Salil S. Kanhere, David Nguyen, Roelien C. Timmer, Michael Longland, Keerth Rathakumar(参考訳) 偽造はサイバー防衛の重要なツールとして急速に成長しており、侵入やデータ盗難を迅速に検出するための既存の周辺セキュリティ対策を補完している。 偽装の使用を制限する要因の1つは、リアルなアーティファクトを手で生成するコストである。 しかし、機械学習の最近の進歩は、現実的なデセプションをスケーラブルで自動生成する機会を生み出した。 本稿では,itスタックの多くの共通要素を模倣したモデル開発に関わる機会と課題について述べる。

Deception is rapidly growing as an important tool for cyber defence, complementing existing perimeter security measures to rapidly detect breaches and data theft. One of the factors limiting the use of deception has been the cost of generating realistic artefacts by hand. Recent advances in Machine Learning have, however, created opportunities for scalable, automated generation of realistic deceptions. This vision paper describes the opportunities and challenges involved in developing models to mimic many common elements of the IT stack for deception effects.
翻訳日:2022-08-16 15:04:02 公開日:2022-08-15
# 教師付き機械学習を用いたwifiによる距離推定

WiFi Based Distance Estimation Using Supervised Machine Learning ( http://arxiv.org/abs/2208.07190v1 )

ライセンス: Link先を確認
Kahraman Kostas, Rabia Yasa Kostas, Francisco Zampella, Firas Alsehly(参考訳) 近年、WiFiは屋内で人やデバイスを見つけるための主要な情報源となっている。 WiFiフィンガープリンティング(WiFi fingerprinting)として知られる既知の位置の参照測定としてRSSI値を収集することは、文献に現れる様々な位置決め手法やアルゴリズムで一般的に用いられている。 しかし,WiFi指紋間の空間距離の測定は,信号空間を地理空間距離としてモデル化するための信号距離関数の選択によって大きく影響を受ける。 本研究では,指紋間の空間距離の推定を改善するために,機械学習の利用を提案する。 本研究は,13の異なるオープンデータセットから収集したデータを分析し,任意の屋内環境で使用可能な汎用モデルを対象とした広範表現を提供する。 提案手法は,特徴分析と遺伝的アルゴリズムを含む特徴選択プロセスを用いて,一般的な信号距離測定値のセットを調べることによって,データ特徴を抽出する。 この研究のアウトプットが場所に依存しないことを証明するため、トレーニングと検証フェーズで除外されたデータセット上で、すべてのモデルがテストされた。 最後に、テストベッドを実世界の不完全データセットにスケールアウトする機能を含む、さまざまな評価メトリクスを使用して、さまざまな機械学習アルゴリズムを比較した。

In recent years WiFi became the primary source of information to locate a person or device indoor. Collecting RSSI values as reference measurements with known positions, known as WiFi fingerprinting, is commonly used in various positioning methods and algorithms that appear in literature. However, measuring the spatial distance between given set of WiFi fingerprints is heavily affected by the selection of the signal distance function used to model signal space as geospatial distance. In this study, the authors proposed utilization of machine learning to improve the estimation of geospatial distance between fingerprints. This research examined data collected from 13 different open datasets to provide a broad representation aiming for general model that can be used in any indoor environment. The proposed novel approach extracted data features by examining a set of commonly used signal distance metrics via feature selection process that includes feature analysis and genetic algorithm. To demonstrate that the output of this research is venue independent, all models were tested on datasets previously excluded during the training and validation phase. Finally, various machine learning algorithms were compared using wide variety of evaluation metrics including ability to scale out the test bed to real world unsolicited datasets.
翻訳日:2022-08-16 15:03:55 公開日:2022-08-15
# スマート公共交通のための効率的で信頼性の高い非同期フェデレーション学習方式

An Efficient and Reliable Asynchronous Federated Learning Scheme for Smart Public Transportation ( http://arxiv.org/abs/2208.07194v1 )

ライセンス: Link先を確認
Chenhao Xu, Youyang Qu, Tom H. Luan, Peter W. Eklund, Yong Xiang, Longxiang Gao(参考訳) 機械学習(ML)は、スマートな公共交通機関を実現するために、Internet of Vehicles(IoV)上で予測モデルをトレーニングするための分散アプローチである。 交通条件は時間とともに変化するため、交通の流れを予測し、乗客が停車する時間を継続的に効率的に更新する必要がある。 フェデレーション学習(federated learning, fl)は、車両がクラウドに生データをアップロードし、モデルのトレーニングを待つことなく、継続的なモデル更新を受信できる分散機械学習スキームである。 しかし、スマート公共交通機関のflは、車両が公共の場で移動するため、毒殺やddos攻撃に弱い。 さらに、デバイスの不均一性と不均衡データ分布のため、集約前に特定の車両から局所モデルを収集する同期集約戦略は非効率である。 AFL(Asynchronous Federated Learning)スキームは、受信したローカルモデルを集約することで効率を向上させるために開発されたが、古いローカルモデルは不合理に重み付けされ、学習性能が低下する。 本稿では,よりスマートな公共交通を実現するために,dbafl(dynamic scaling factor)を用いたブロックチェーンベースの非同期フェデレーション学習方式を提案する。 特に、ブロックチェーンのための委員会ベースのコンセンサスアルゴリズムは、信頼性を可能な限り低いコストで改善する。 一方、考案された動的スケーリング係数により、aflは局所モデルに適度な重みを割り当てることができる。 DBAFLの学習性能, 効率, 信頼性に優れる不均質デバイスに対する実験を行った。

Machine Learning (ML) is a distributed approach for training predictive models on the Internet of Vehicles (IoV) to enable smart public transportation. Since the traffic conditions change over time, the ML model that predicts traffic flows and the time passengers wait at stops must be updated continuously and efficiently. Federated learning (FL) is a distributed machine learning scheme that allows vehicles to receive continuous model updates without having to upload raw data to the cloud and wait for models to be trained. However, FL in smart public transportation is vulnerable to poisoning or DDoS attacks since vehicles travel in public. Besides, due to device heterogeneity and imbalanced data distributions, the synchronized aggregation strategy that collects local models from specific vehicles before aggregation is inefficient. Although Asynchronous Federated Learning (AFL) schemes are developed to improve efficiency by aggregating local models as soon as they are received, the stale local models remain unreasonably weighted, resulting in poor learning performance. To enable smarter public transportation, this paper offers a blockchain-based asynchronous federated learning scheme with a dynamic scaling factor (DBAFL). Specifically, the novel committee-based consensus algorithm for blockchain improves reliability at the lowest possible cost of time. Meanwhile, the devised dynamic scaling factor allows AFL to assign reasonable weight to stale local models. Extensive experiments conducted on heterogeneous devices validate outperformed learning performance, efficiency, and reliability of DBAFL.
翻訳日:2022-08-16 15:03:37 公開日:2022-08-15
# kネアレスト近隣者に対する訓練時間攻撃

Training-Time Attacks against k-Nearest Neighbors ( http://arxiv.org/abs/2208.07272v1 )

ライセンス: Link先を確認
Ara Vartanian, Will Rosenbaum, Scott Alfeld(参考訳) 最も近い隣り合う手法は、分類タスクや他のデータ分析手法のサブルーチンとして一般的に使用される。 トレーニングセットに自身のデータポイントを挿入する能力を持つ攻撃者は、推定される隣接構造体を操作できる。 この目標を、k$-nearestの隣の分類(k$nn)に対して、トレーニングセットのデータ挿入攻撃を実行するタスクに絞り込む。 k = 1$で攻撃者が1つのデータポイントだけ挿入できる場合でも、k$nn分類に対する最適なトレーニング時間(すなわち中毒)の計算はnpハードであることが証明される。 このような攻撃を行うためのanytimeアルゴリズムと、一般的な$k$と攻撃予算のためのgreedyアルゴリズムを提供する。 理論的な境界を提供し,合成および実世界のデータセットにおける手法の有効性と実用性を実証する。 経験的には、$k$NNは実際は脆弱であり、次元削減は効果的な防御である。 我々は分析によって照らされたオープンな問題について議論した。

Nearest neighbor-based methods are commonly used for classification tasks and as subroutines of other data-analysis methods. An attacker with the capability of inserting their own data points into the training set can manipulate the inferred nearest neighbor structure. We distill this goal to the task of performing a training-set data insertion attack against $k$-Nearest Neighbor classification ($k$NN). We prove that computing an optimal training-time (a.k.a. poisoning) attack against $k$NN classification is NP-Hard, even when $k = 1$ and the attacker can insert only a single data point. We provide an anytime algorithm to perform such an attack, and a greedy algorithm for general $k$ and attacker budget. We provide theoretical bounds and empirically demonstrate the effectiveness and practicality of our methods on synthetic and real-world datasets. Empirically, we find that $k$NN is vulnerable in practice and that dimensionality reduction is an effective defense. We conclude with a discussion of open problems illuminated by our analysis.
翻訳日:2022-08-16 15:02:57 公開日:2022-08-15
# スタークラフトにおける協調型マルチエージェント強化学習のためのトランスフォーマティブ値関数分解

Transformer-based Value Function Decomposition for Cooperative Multi-agent Reinforcement Learning in StarCraft ( http://arxiv.org/abs/2208.07298v1 )

ライセンス: Link先を確認
Muhammad Junaid Khan, Syed Hammad Ahmed, Gita Sukthankar(参考訳) StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のための挑戦的なベンチマーク問題である。 SMACは、StarCraftのマイクロマネジメントの問題に特化しており、各ユニットは独立して動作し、ローカル情報しか持たない学習エージェントによって個別に制御されていると仮定している。 SMACでうまく機能するには、MARLアルゴリズムはマルチエージェントクレジット代入と共同動作評価の二重問題を扱う必要がある。 本稿では,新しいアーキテクチャであるtransmixについて紹介する。transmixはトランスフォーマーベースの共同動作値混合ネットワークであり,最先端のmarlソリューションに比べて効率的かつスケーラブルであることを示す。 TransMixは、エージェントの個々の値関数を組み合わせるためによりリッチな混合関数を学習するトランスフォーマーの能力を活用する。 従来のSMACシナリオに匹敵するパフォーマンスを実現し、ハードシナリオで他のテクニックを上回り、ガウスノイズで劣化したシナリオは戦争の霧をシミュレートする。

The StarCraft II Multi-Agent Challenge (SMAC) was created to be a challenging benchmark problem for cooperative multi-agent reinforcement learning (MARL). SMAC focuses exclusively on the problem of StarCraft micromanagement and assumes that each unit is controlled individually by a learning agent that acts independently and only possesses local information; centralized training is assumed to occur with decentralized execution (CTDE). To perform well in SMAC, MARL algorithms must handle the dual problems of multi-agent credit assignment and joint action evaluation. This paper introduces a new architecture TransMix, a transformer-based joint action-value mixing network which we show to be efficient and scalable as compared to the other state-of-the-art cooperative MARL solutions. TransMix leverages the ability of transformers to learn a richer mixing function for combining the agents' individual value functions. It achieves comparable performance to previous work on easy SMAC scenarios and outperforms other techniques on hard scenarios, as well as scenarios that are corrupted with Gaussian noise to simulate fog of war.
翻訳日:2022-08-16 15:02:39 公開日:2022-08-15
# 容易な微分プライベート線形回帰

Easy Differentially Private Linear Regression ( http://arxiv.org/abs/2208.07353v1 )

ライセンス: Link先を確認
Kareem Amin, Matthew Joseph, M\'onica Ribero, Sergei Vassilvitskii(参考訳) 線形回帰は統計解析の基本的なツールである。 これにより、差分プライバシも満足する線形回帰法の開発が動機となり、学習モデルがその構築に使用される任意のデータポイントについてほとんど明らかにされないことが保証された。 しかし、既存の微分プライベートなソリューションは、エンドユーザが良いデータ境界とハイパーパラメータを容易に指定できると仮定する。 両者とも重大な障害がある。 本稿では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。 m$ モデルのトレーニングに使用される$d$-dimensional データの$n$ のサンプルを与えられた場合、$o(d^2n + dm\log(m))$ で実行される近似タキー深さを用いて効率的なアナログを構築します。 このアルゴリズムは、データ境界やハイパーパラメータ選択を必要とせず、データ豊富な設定で強い経験的性能が得られる。

Linear regression is a fundamental tool for statistical analysis. This has motivated the development of linear regression methods that also satisfy differential privacy and thus guarantee that the learned model reveals little about any one data point used to construct it. However, existing differentially private solutions assume that the end user can easily specify good data bounds and hyperparameters. Both present significant practical obstacles. In this paper, we study an algorithm which uses the exponential mechanism to select a model with high Tukey depth from a collection of non-private regression models. Given $n$ samples of $d$-dimensional data used to train $m$ models, we construct an efficient analogue using an approximate Tukey depth that runs in time $O(d^2n + dm\log(m))$. We find that this algorithm obtains strong empirical performance in the data-rich setting with no data bounds or hyperparameter selection required.
翻訳日:2022-08-16 15:02:19 公開日:2022-08-15
# Learn2Trust:AIを用いた医用画像分析のためのビデオと合理化教育プログラム

Learn2Trust: A video and streamlit-based educational programme for AI-based medical image analysis targeted towards medical students ( http://arxiv.org/abs/2208.07314v1 )

ライセンス: Link先を確認
Hanna Siebert, Marian Himstedt and Mattias Heinrich(参考訳) 懐疑的でない医療において人工知能(AI)を活用でき、その潜在能力を認識・評価するためには、現在および将来の医療スタッフに基本的な理解が必要である。 理解を通じて信頼する」という前提のもと、我々は、医学画像データ分析のためのAIの基礎を教える自己指導コースであるドイツKIキャンパス(AIキャンパス)プロジェクトの枠組みの中で、学習機会として革新的なオンラインコースを開発した。 主な目的は、医療画像分析におけるAIの十分な理解のための学習環境を提供することであり、このトピックへのさらなる関心が刺激され、その使用に対する抑制がポジティブなアプリケーション体験によって克服される。 その焦点は、医学的応用と機械学習の基本だった。 オンラインコースは、説明ビデオの形式での理論、Streamlitの形での実践演習、実践演習、および/または学習の進捗を確認するクイズを含む連続的な授業に分けられた。 本研究の仮説を定量的に解析するために,第1回研修に参加した医学生を対象に調査を行った。

In order to be able to use artificial intelligence (AI) in medicine without scepticism and to recognise and assess its growing potential, a basic understanding of this topic is necessary among current and future medical staff. Under the premise of "trust through understanding", we developed an innovative online course as a learning opportunity within the framework of the German KI Campus (AI campus) project, which is a self-guided course that teaches the basics of AI for the analysis of medical image data. The main goal is to provide a learning environment for a sufficient understanding of AI in medical image analysis so that further interest in this topic is stimulated and inhibitions towards its use can be overcome by means of positive application experience. The focus was on medical applications and the fundamentals of machine learning. The online course was divided into consecutive lessons, which include theory in the form of explanatory videos, practical exercises in the form of Streamlit and practical exercises and/or quizzes to check learning progress. A survey among the participating medical students in the first run of the course was used to analyse our research hypotheses quantitatively.
翻訳日:2022-08-16 15:01:38 公開日:2022-08-15
# 離散キャッシングのための最適非線形アルゴリズム

Optimistic No-regret Algorithms for Discrete Caching ( http://arxiv.org/abs/2208.06414v1 )

ライセンス: Link先を確認
Naram Mhaisen, Abhishek Sinha, Georgios Paschos, Georgios Iosifidis(参考訳) 楽観的な学習の文脈では、キャッシュポリシが予測オラクル(ニューラルネットワークなどによって提供される)にアクセス可能な場合において、キャッシュに全ファイルを限られた容量で保存するという問題を体系的に検討する。 連続したファイル要求は、敵によって生成されると仮定され、オラクルの正確さについて仮定されることはない。 この設定では、予測支援オンラインキャッシングのための普遍的な下限を提供し、様々なパフォーマンス・複雑さのトレードオフを備えた一連のポリシーの設計を進めます。 提案されたすべてのポリシーは、神託の正確さに相応しいサブ線形後悔境界を提供する。 我々の結果は、最近提案された全てのオンラインキャッシュポリシーを大幅に改善し、オラクルの予測を活用できないため、後悔する$O(\sqrt{T})しか提供できません。 この追求において、私たちは、私たちの知る限り、キャッシュ問題を超えて一般化する最初の包括的な楽観的フォローザパーチャベッドリーダーポリシーを設計します。 また,サイズの異なるファイルのキャッシュの問題や,ネットワークキャッシュの問題についても検討する。 最後に,提案手法の有効性を実世界トレースを用いた広範な数値実験により評価した。

We take a systematic look at the problem of storing whole files in a cache with limited capacity in the context of optimistic learning, where the caching policy has access to a prediction oracle (provided by, e.g., a Neural Network). The successive file requests are assumed to be generated by an adversary, and no assumption is made on the accuracy of the oracle. In this setting, we provide a universal lower bound for prediction-assisted online caching and proceed to design a suite of policies with a range of performance-complexity trade-offs. All proposed policies offer sublinear regret bounds commensurate with the accuracy of the oracle. Our results substantially improve upon all recently-proposed online caching policies, which, being unable to exploit the oracle predictions, offer only $O(\sqrt{T})$ regret. In this pursuit, we design, to the best of our knowledge, the first comprehensive optimistic Follow-the-Perturbed leader policy, which generalizes beyond the caching problem. We also study the problem of caching files with different sizes and the bipartite network caching problem. Finally, we evaluate the efficacy of the proposed policies through extensive numerical experiments using real-world traces.
翻訳日:2022-08-16 15:01:18 公開日:2022-08-15
# クロスモーダルトランスを用いた解釈型睡眠ステージ分類に向けて

Towards Interpretable Sleep Stage Classification Using Cross-Modal Transformers ( http://arxiv.org/abs/2208.06991v1 )

ライセンス: Link先を確認
Jathurshan Pradeepkumar, Mithunjha Anandakumar, Vinith Kugathasan, Dhinesh Suntharalingham, Simon L. Kappel, Anjula C. De Silva and Chamira U. S. Edussooriya(参考訳) 正確な睡眠ステージ分類は睡眠健康評価に重要である。 近年、いくつかのディープラーニングと機械学習に基づく睡眠ステージングアルゴリズムが開発され、人間のアノテーションと同等のパフォーマンスを達成している。 パフォーマンスの改善にもかかわらず、ほとんどのディープラーニングベースのアルゴリズムの制限はブラックボックスの振る舞いであり、臨床環境での使用を制限する。 本稿では,睡眠段階分類のためのトランスフォーマー方式であるクロスモーダルトランスを提案する。 本モデルでは,最先端のアプローチで両立し,アテンションモジュールの解釈可能性を利用したディープラーニングモデルのブラックボックス挙動を解消する。 提案するクロスモーダルトランスは,新しいクロスモーダルトランスコーダアーキテクチャと,自動表現学習のためのマルチスケール1次元畳み込みニューラルネットワークから構成される。 この設計に基づく睡眠ステージ分類器は,現在と同等かそれ以上に睡眠ステージ分類性能を達成でき,解釈可能性,パラメータ数を4倍削減し,現在と比べトレーニング時間を短縮した。 私たちのコードはhttps://github.com/Jathurshan0330/Cross-Modal-Transformerで利用可能です。

Accurate sleep stage classification is significant for sleep health assessment. In recent years, several deep learning and machine learning based sleep staging algorithms have been developed and they have achieved performance on par with human annotation. Despite improved performance, a limitation of most deep-learning based algorithms is their Black-box behavior, which which have limited their use in clinical settings. Here, we propose Cross-Modal Transformers, which is a transformer-based method for sleep stage classification. Our models achieve both competitive performance with the state-of-the-art approaches and eliminates the Black-box behavior of deep-learning models by utilizing the interpretability aspect of the attention modules. The proposed cross-modal transformers consist of a novel cross-modal transformer encoder architecture along with a multi-scale 1-dimensional convolutional neural network for automatic representation learning. Our sleep stage classifier based on this design was able to achieve sleep stage classification performance on par with or better than the state-of-the-art approaches, along with interpretability, a fourfold reduction in the number of parameters and a reduced training time compared to the current state-of-the-art. Our code is available at https://github.com/Jathurshan0330/Cross-Modal-Transformer.
翻訳日:2022-08-16 14:56:05 公開日:2022-08-15
# 地球温暖化協力のためのai--米-nにおける地球温暖化交渉・合意・長期協力のモデル化

AI for Global Climate Cooperation: Modeling Global Climate Negotiations, Agreements, and Long-Term Cooperation in RICE-N ( http://arxiv.org/abs/2208.07004v1 )

ライセンス: Link先を確認
Tianyu Zhang, Andrew Williams, Soham Phade, Sunil Srinivasa, Yang Zhang, Prateek Gupta, Yoshua Bengio, Stephan Zheng(参考訳) 包括的グローバル協力は、世界的な気温上昇を制限し、経済発展を継続する上で不可欠であり、例えば、深刻な不平等を減らしたり長期的な経済成長を達成する。 n個の戦略エージェントによる気候変動緩和に関する長期的な協力は、複雑なゲーム理論の問題を引き起こす。 例えば、エージェントは交渉を行い、気候協定に達することができるが、これらの協定を遵守する中央の権限はない。 したがって、協力を促進するための交渉と合意の枠組みを設計し、全てのエージェントがそれぞれの政策目標を満たすことを許容し、長期的遵守を促進することが重要である。 これは、機械学習、経済学、気候科学、法、政策、倫理、その他の分野の研究者間の協力を求める学際的な課題である。 特に、機械学習はこの領域の複雑さに対処するための重要なツールであると主張する。 そこで本研究では,地球規模の気候・経済をシミュレートした多地域統合評価モデルであるライスンについて紹介する。 また、多エージェント強化学習を用いて理性エージェントをRICE-Nで訓練する方法についても述べる。 この枠組みは、気候変動交渉と合意設計に関するワーキンググループコラボレーションとコンペティションである、グローバル気候協力のためのものである。 ここでは,科学者コミュニティに対して,ライスnや機械学習,経済直観,その他のドメイン知識を用いたソリューションの設計と評価を依頼する。 詳細はwww.ai4climatecoop.orgを参照。

Comprehensive global cooperation is essential to limit global temperature increases while continuing economic development, e.g., reducing severe inequality or achieving long-term economic growth. Achieving long-term cooperation on climate change mitigation with n strategic agents poses a complex game-theoretic problem. For example, agents may negotiate and reach climate agreements, but there is no central authority to enforce adherence to those agreements. Hence, it is critical to design negotiation and agreement frameworks that foster cooperation, allow all agents to meet their individual policy objectives, and incentivize long-term adherence. This is an interdisciplinary challenge that calls for collaboration between researchers in machine learning, economics, climate science, law, policy, ethics, and other fields. In particular, we argue that machine learning is a critical tool to address the complexity of this domain. To facilitate this research, here we introduce RICE-N, a multi-region integrated assessment model that simulates the global climate and economy, and which can be used to design and evaluate the strategic outcomes for different negotiation and agreement frameworks. We also describe how to use multi-agent reinforcement learning to train rational agents using RICE-N. This framework underpinsAI for Global Climate Cooperation, a working group collaboration and competition on climate negotiation and agreement design. Here, we invite the scientific community to design and evaluate their solutions using RICE-N, machine learning, economic intuition, and other domain knowledge. More information can be found on www.ai4climatecoop.org.
翻訳日:2022-08-16 14:55:48 公開日:2022-08-15
# 流体力学における連合機械学習の展望

Prospects of federated machine learning in fluid dynamics ( http://arxiv.org/abs/2208.07017v1 )

ライセンス: Link先を確認
Omer San, Suraj Pawar, Adil Rasheed(参考訳) 物理ベースのモデルは予測モデルを開発するために流体力学において主流になっている。 近年、機械学習は、データサイエンス、処理ユニット、ニューラルネットワークに基づく技術、センサー適応の急速な発展により、流体コミュニティにルネサンスをもたらしている。 流体力学の多くの応用において、機械学習のアプローチは主に、指定されたマシンやデータセンターでトレーニングデータを集中化する必要がある標準的なプロセスに焦点を当てている。 本稿では,ローカライズされたクライアントが,すべてのトレーニングデータをエッジデバイスに保持しながら,集約された共有予測モデルを協調的に学習できるフェデレーション機械学習手法を提案する。 本研究では,時空間的場を再構築するための深層学習サーロゲートモデルを構築し,分散学習手法の実現可能性と展望を示す。 以上の結果から,フェデレーション機械学習は,流体力学に関連する高精度な予測分散ディジタル双生児を設計するための有効なツールである可能性が示唆された。

Physics-based models have been mainstream in fluid dynamics for developing predictive models. In recent years, machine learning has offered a renaissance to the fluid community due to the rapid developments in data science, processing units, neural network based technologies, and sensor adaptations. So far in many applications in fluid dynamics, machine learning approaches have been mostly focused on a standard process that requires centralizing the training data on a designated machine or in a data center. In this letter, we present a federated machine learning approach that enables localized clients to collaboratively learn an aggregated and shared predictive model while keeping all the training data on each edge device. We demonstrate the feasibility and prospects of such decentralized learning approach with an effort to forge a deep learning surrogate model for reconstructing spatiotemporal fields. Our results indicate that federated machine learning might be a viable tool for designing highly accurate predictive decentralized digital twins relevant to fluid dynamics.
翻訳日:2022-08-16 14:55:19 公開日:2022-08-15
# 都市環境における長期LiDARローカライゼーションのための空間画像のオンラインポールセグメンテーション

Online Pole Segmentation on Range Images for Long-term LiDAR Localization in Urban Environments ( http://arxiv.org/abs/2208.07364v1 )

ライセンス: Link先を確認
Hao Dong, Xieyuanli Chen, Simo S\"arkk\"a, Cyrill Stachniss(参考訳) ロバストかつ正確なローカライゼーションは、モバイル自律システムの基本要件である。 交通標識、ポール、ランプなどのポールのような物体は、都市環境の局所的な特徴と長期的な安定性のためにしばしばランドマークとして使われる。 本稿では,オンライン上で動作し,計算要求が少ない幾何学的特徴に基づく,新しい,正確かつ高速な極抽出手法を提案する。 提案手法は,3次元LiDARスキャンから生成した範囲画像を直接計算することで,3次元点雲の処理を明示的に回避し,スキャン毎に高速な極抽出を可能にする。 さらに、抽出された極を擬似ラベルとして、オンラインレンジ画像に基づく極セグメンテーションのためのディープニューラルネットワークを訓練する。 我々は,異なるLiDARスキャナー,経路,季節変化を持つ異なるデータセット上で,幾何学的および学習的極抽出法の両方をテストする。 実験の結果,本手法は他の最先端手法よりも優れていることがわかった。 さらに,複数のデータセットから抽出した疑似極ラベルを加味することにより,学習に基づく手法が異なるデータセットにまたがって動作し,ジオメトリに基づく手法と比較して,さらに優れたローカライズ結果が得られる。 我々はポール抽出器の性能評価とアプローチの実装のためにポールデータセットを一般向けにリリースした。

Robust and accurate localization is a basic requirement for mobile autonomous systems. Pole-like objects, such as traffic signs, poles, and lamps are frequently used landmarks for localization in urban environments due to their local distinctiveness and long-term stability. In this paper, we present a novel, accurate, and fast pole extraction approach based on geometric features that runs online and has little computational demands. Our method performs all computations directly on range images generated from 3D LiDAR scans, which avoids processing 3D point clouds explicitly and enables fast pole extraction for each scan. We further use the extracted poles as pseudo labels to train a deep neural network for online range image-based pole segmentation. We test both our geometric and learning-based pole extraction methods for localization on different datasets with different LiDAR scanners, routes, and seasonal changes. The experimental results show that our methods outperform other state-of-the-art approaches. Moreover, boosted with pseudo pole labels extracted from multiple datasets, our learning-based method can run across different datasets and achieve even better localization results compared to our geometry-based method. We released our pole datasets to the public for evaluating the performance of pole extractors, as well as the implementation of our approach.
翻訳日:2022-08-16 14:52:26 公開日:2022-08-15
# 自律水中車両のためのドメインアウェア制御指向ニューラルモデル

Domain-aware Control-oriented Neural Models for Autonomous Underwater Vehicles ( http://arxiv.org/abs/2208.07333v1 )

ライセンス: Link先を確認
Wenceslao Shaw Cortez, Soumya Vasisht, Aaron Tuor, J\'an Drgo\v{n}a, Draguna Vrabie(参考訳) 従来の物理学に基づくモデリングは、自律型水中車両(AUV)のような複雑な非線形システムの制御設計における時間を要するボトルネックである。 対照的に、純粋にデータ駆動モデルは便利で入手が早いが、多くの観察が必要であり、安全クリティカルシステムに対する運用上の保証が欠如している。 データ駆動モデルは、高価値な複雑なシステムの典型的なデータ制限シナリオにおいて信頼性の高いシステムモデルを提供する可能性があるため、数ヶ月の高価な専門家モデリング時間を避けることができる。 本研究では、エキスパートモデルと純粋データ駆動モデリングの中間部分について検討する。 本稿では,既知のシステム構造と事前物理知識を活用し,制約付き深層神経力学系モデルを作成する制御指向パラメトリックモデルを提案する。 データ駆動型ブラックボックスとAUVダイナミクスのグレイボックス表現を構築するために、普遍微分方程式を用いる。 さらに,不完全グレーボックスモデルに関連する残差誤差を明示的にモデル化するハイブリッドな定式化について検討する。 初期条件と制御入力の異なる分布に対して学習モデルの予測性能を比較し,その精度,一般化,制御適性を評価する。

Conventional physics-based modeling is a time-consuming bottleneck in control design for complex nonlinear systems like autonomous underwater vehicles (AUVs). In contrast, purely data-driven models, though convenient and quick to obtain, require a large number of observations and lack operational guarantees for safety-critical systems. Data-driven models leveraging available partially characterized dynamics have potential to provide reliable systems models in a typical data-limited scenario for high value complex systems, thereby avoiding months of expensive expert modeling time. In this work we explore this middle-ground between expert-modeled and pure data-driven modeling. We present control-oriented parametric models with varying levels of domain-awareness that exploit known system structure and prior physics knowledge to create constrained deep neural dynamical system models. We employ universal differential equations to construct data-driven blackbox and graybox representations of the AUV dynamics. In addition, we explore a hybrid formulation that explicitly models the residual error related to imperfect graybox models. We compare the prediction performance of the learned models for different distributions of initial conditions and control inputs to assess their accuracy, generalization, and suitability for control.
翻訳日:2022-08-16 14:51:45 公開日:2022-08-15
# 準共形幾何と畳み込みニューラルネットワークによる脳皮質表面の自動ランドマーク検出と登録

Automatic Landmark Detection and Registration of Brain Cortical Surfaces via Quasi-Conformal Geometry and Convolutional Neural Networks ( http://arxiv.org/abs/2208.07010v1 )

ライセンス: Link先を確認
Yuchen Guo, Qiguang Chen, Gary P. T. Choi, Lok Ming Lui(参考訳) 医用画像では、解剖学的構造を系統的に比較するために表面登録が広く用いられ、その主な例は高度に畳み込まれた脳皮質表面である。 有意義な登録を得るためには、表面上の顕著な特徴を識別し、ランドマーク制約としてエンコードされた特徴対応とそれらの間の低歪みマッピングを確立するのが一般的である。 事前登録作業は、主に手動でラベル付けされたランドマークを使用し、高度に非線形な最適化問題を解決することに焦点を当ててきた。 本研究では、準等角形状と畳み込みニューラルネットワークを用いた脳皮質表面の自動的ランドマーク検出と登録のための新しい枠組みを提案する。 まずランドマーク検出ネットワーク(LD-Net)を開発し,表面形状に基づいて2つの所定の始点と終点を与えられたランドマーク曲線の自動抽出を可能にする。 次に,検出されたランドマークと準共形理論を用いて表面登録を行う。 具体的には、所望のランドマークベース登録に関連するベルトラミ係数を予測するための係数予測ネットワーク(CP-Net)と、予測されたベルトラミ係数から準等角写像を生成するためのディスクベルトラミソルバネットワーク(DBS-Net)と呼ばれるマッピングネットワークを開発する。 提案手法の有効性を実証するために実験結果を示した。 我々の研究は、表面形状計測と医用形状解析の新しい方法である。

In medical imaging, surface registration is extensively used for performing systematic comparisons between anatomical structures, with a prime example being the highly convoluted brain cortical surfaces. To obtain a meaningful registration, a common approach is to identify prominent features on the surfaces and establish a low-distortion mapping between them with the feature correspondence encoded as landmark constraints. Prior registration works have primarily focused on using manually labeled landmarks and solving highly nonlinear optimization problems, which are time-consuming and hence hinder practical applications. In this work, we propose a novel framework for the automatic landmark detection and registration of brain cortical surfaces using quasi-conformal geometry and convolutional neural networks. We first develop a landmark detection network (LD-Net) that allows for the automatic extraction of landmark curves given two prescribed starting and ending points based on the surface geometry. We then utilize the detected landmarks and quasi-conformal theory for achieving the surface registration. Specifically, we develop a coefficient prediction network (CP-Net) for predicting the Beltrami coefficients associated with the desired landmark-based registration and a mapping network called the disk Beltrami solver network (DBS-Net) for generating quasi-conformal mappings from the predicted Beltrami coefficients, with the bijectivity guaranteed by quasi-conformal theory. Experimental results are presented to demonstrate the effectiveness of our proposed framework. Altogether, our work paves a new way for surface-based morphometry and medical shape analysis.
翻訳日:2022-08-16 14:46:30 公開日:2022-08-15
# マルウェア検出のための自己監督型視覚変換器

Self-Supervised Vision Transformers for Malware Detection ( http://arxiv.org/abs/2208.07049v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Ridwan Shariffdeen, Sanka Rasnayaka and Nuran Kasthuriarachchi(参考訳) マルウェア検出はサイバーセキュリティにおいて重要な役割を担い、マルウェアの成長とサイバー攻撃の進展が増加している。 以前はセキュリティベンダによって決定されていないマルウェアがこれらの攻撃によく使われており、ラベルのないサンプルデータから自己学習できるソリューションを見つけるのは避けられない。 本稿では、視覚変換器(ViT)アーキテクチャに基づくマルウェア検出のための自己超越型ディープラーニングモデルSHERLOCKを提案する。 SHERLOCKは、画像ベースのバイナリ表現を用いて、マルウェアと良性プログラムを区別するユニークな特徴を学習する、新しいマルウェア検出手法である。 47のタイプと696のファミリーにまたがる120万のAndroidアプリケーションを用いた実験の結果、自己教師型学習は、既存の最先端技術よりも高いマルウェアのバイナリ分類において97%の精度を達成できることが示されている。 また, マクロF1スコアが .497 と .491 であり, マルチクラスマルウェア分類における最先端技術よりも優れていることを示す。

Malware detection plays a crucial role in cyber-security with the increase in malware growth and advancements in cyber-attacks. Previously unseen malware which is not determined by security vendors are often used in these attacks and it is becoming inevitable to find a solution that can self-learn from unlabeled sample data. This paper presents SHERLOCK, a self-supervision based deep learning model to detect malware based on the Vision Transformer (ViT) architecture. SHERLOCK is a novel malware detection method which learns unique features to differentiate malware from benign programs with the use of image-based binary representation. Experimental results using 1.2 million Android applications across a hierarchy of 47 types and 696 families, shows that self-supervised learning can achieve an accuracy of 97% for the binary classification of malware which is higher than existing state-of-the-art techniques. Our proposed model is also able to outperform state-of-the-art techniques for multi-class malware classification of types and family with macro-F1 score of .497 and .491 respectively.
翻訳日:2022-08-16 14:46:05 公開日:2022-08-15
# 視覚変換器を用いた振動信号による軸受故障分類

A Vision Transformer-Based Approach to Bearing Fault Classification via Vibration Signals ( http://arxiv.org/abs/2208.07070v1 )

ライセンス: Link先を確認
Abid Hasan Zim, Aeyan Ashraf, Aquib Iqbal, Asad Malik, Minoru Kuribayashi(参考訳) 転がり軸受は回転機械の最も重要な要素である。 タイムリーに欠陥軸受を特定すれば、機械系全体の故障を防止することができる。 機械部品の急速な進歩により、機械状態監視分野はビッグデータフェーズに突入した。 大量のデータを扱う場合、手動の特徴抽出アプローチは非効率で不正確なという欠点がある。 深層学習法のようなデータ駆動手法は,近年,機械的な知的障害検出に成功している。 畳み込みニューラルネットワーク(CNN)は、主に初期の研究でベアリング障害の検出と同定に使用された。 しかし、CNNモデルは、故障時の情報管理に支障をきたすという欠点に悩まされており、その結果、分類結果の欠如が生じる。 本研究では, 現状の視覚変換器(ViT)を用いて, 軸受欠陥を分類した。 軸受欠陥をケース・ウェスタン・リザーブ大学(cwru)軸受故障実験データを用いて分類した。 この研究は、通常の軸受条件に加えて、0負荷条件下での13種類の欠陥を考慮に入れた。 短時間フーリエ変換(STFT)を用いて、振動信号を2次元時間周波数画像に変換する。 2次元時間周波数画像は、ViTの入力パラメータとして使用される。 このモデル全体の精度は98.8%に達した。

Rolling bearings are the most crucial components of rotating machinery. Identifying defective bearings in a timely manner may prevent the malfunction of an entire machinery system. The mechanical condition monitoring field has entered the big data phase as a result of the fast advancement of machine parts. When working with large amounts of data, the manual feature extraction approach has the drawback of being inefficient and inaccurate. Data-driven methods like the Deep Learning method have been successfully used in recent years for mechanical intelligent fault detection. Convolutional neural networks (CNNs) were mostly used in earlier research to detect and identify bearing faults. The CNN model, however, suffers from the drawback of having trouble managing fault-time information, which results in a lack of classification results. In this study, bearing defects have been classified using a state-of-the-art Vision Transformer (ViT). Bearing defects were classified using Case Western Reserve University (CWRU) bearing failure laboratory experimental data. The research took into account 13 distinct kinds of defects under 0-load situations in addition to normal bearing conditions. Using the short-time Fourier transform (STFT), the vibration signals were converted into 2D time-frequency images. The 2D time-frequency images are used as input parameters for the ViT. The model achieved an overall accuracy of 98.8%.
翻訳日:2022-08-16 14:45:47 公開日:2022-08-15
# 画像圧縮のための統一画像前処理フレームワーク

A Unified Image Preprocessing Framework For Image Compression ( http://arxiv.org/abs/2208.07110v1 )

ライセンス: Link先を確認
Moqi Zhang, Weihui Deng, Xiaocheng Li(参考訳) ストリーミングメディア技術の発展に伴い、コミュニケーションの増大は音声と視覚情報に依存しており、オンラインメディアに大きな負担がかかる。 データ圧縮は、データ転送とストレージの容量を減らすためにますます重要になる。 画像圧縮の効率化のために,従来のコーデックや高度な学習に基づく圧縮手法の限界を補うために,様々な画像処理手法を用いた。 画像圧縮指向のアプローチを変更する代わりに、既存のコーデックのパフォーマンスをさらに向上することを目的とした、kuchenと呼ばれる統一的な画像圧縮前処理フレームワークを提案する。 このフレームワークはハイブリッドデータラベリングシステムと学習ベースのバックボーンで構成され、パーソナライズされた前処理をシミュレートする。 我々の知る限り、これは画像圧縮タスクで統一前処理ベンチマークを設定する最初の調査である。 その結果,我々の統合前処理フレームワークによって最適化された現代のコーデックは,常に最先端圧縮の効率を向上することを示した。

With the development of streaming media technology, increasing communication relies on sound and visual information, which puts a massive burden on online media. Data compression becomes increasingly important to reduce the volume of data transmission and storage. To further improve the efficiency of image compression, researchers utilize various image processing methods to compensate for the limitations of conventional codecs and advanced learning-based compression methods. Instead of modifying the image compression oriented approaches, we propose a unified image compression preprocessing framework, called Kuchen, which aims to further improve the performance of existing codecs. The framework consists of a hybrid data labeling system along with a learning-based backbone to simulate personalized preprocessing. As far as we know, this is the first exploration of setting a unified preprocessing benchmark in image compression tasks. Results demonstrate that the modern codecs optimized by our unified preprocessing framework constantly improve the efficiency of the state-of-the-art compression.
翻訳日:2022-08-16 14:45:30 公開日:2022-08-15
# 物体検出システムに対する中間者攻撃

Man-in-the-Middle Attack against Object Detection Systems ( http://arxiv.org/abs/2208.07174v1 )

ライセンス: Link先を確認
Han Wu, Sareh Rowlands and Johan Wahlstrom(参考訳) ディープラーニングはロボットにとって安全か? 組み込みシステムはより強力なCPUやGPUにアクセスするため、ディープラーニング可能なオブジェクト検出システムはロボットアプリケーションで広く普及する。 一方、以前の研究では、ディープラーニングモデルが敵の攻撃に弱いことが明らかにされている。 これが現実世界のロボットを脅かすのか? 本研究は,オブジェクト検出システムを攻撃するための暗号から,中間者攻撃の考え方を借用する。 実験の結果,我々は1分以内に強い普遍的敵性摂動(uap)を生成し,その摂動を用いて中間者攻撃による検出システムを攻撃することができた。 本研究は、自動運転などの安全クリティカルなシステムにおけるディープラーニングモデルの適用に関する深刻な懸念を提起する。

Is deep learning secure for robots? As embedded systems have access to more powerful CPUs and GPUs, deep-learning-enabled object detection systems become pervasive in robotic applications. Meanwhile, prior research unveils that deep learning models are vulnerable to adversarial attacks. Does this put real-world robots at threat? Our research borrows the idea of the Main-in-the-Middle attack from Cryptography to attack an object detection system. Our experimental results prove that we can generate a strong Universal Adversarial Perturbation (UAP) within one minute and then use the perturbation to attack a detection system via the Man-in-the-Middle attack. Our findings raise a serious concern over the applications of deep learning models in safety-critical systems such as autonomous driving.
翻訳日:2022-08-16 14:45:16 公開日:2022-08-15
# 並列画像再構成のためのHankel-k空間からのワンショット生成

One-shot Generative Prior Learned from Hankel-k-space for Parallel Imaging Reconstruction ( http://arxiv.org/abs/2208.07181v1 )

ライセンス: Link先を確認
Hong Peng, Chen Jiang, Yu Guan, Jing Cheng, Minghui Zhang, Dong Liang, Qiegen Liu(参考訳) 磁気共鳴イメージングは臨床診断に不可欠なツールである。 しかし、長期にわたる買収に悩まされている。 深層学習、特に深層生成モデルの利用は、磁気共鳴イメージングにおいて積極的な加速とより良い再構成をもたらす。 それでも、データの分布を事前の知識として学び、限られたデータからイメージを再構築することは困難である。 そこで本研究では,1k-spaceデータのトレーニングセットからサンプルを生成するハンケル-k-space Generative Model (HKGM)を提案する。 先行学習段階では,まずk空間データから大きなハンケル行列を構築し,その後,複数の構造化k空間パッチをハンケル行列から抽出して,異なるパッチ間の内部分布を捉える。 ハンケル行列からパッチを抽出することで、冗長で低ランクのデータ空間から生成モデルを学ぶことができる。 反復的再構築の段階では,希望解が学習済みの事前知識に従うことが観察される。 生成モデルの入力として、中間再構成ソリューションを更新する。 更新結果は、代わりに、ハンケル行列に低ランクペナルティを課し、測定データにデータ一貫性を拘束することで操作される。 実験により、単一のk空間データ内のパッチの内部統計は、強力な生成モデルを学ぶのに十分な情報を持ち、最先端の再構築を提供することを確認した。

Magnetic resonance imaging serves as an essential tool for clinical diagnosis. However, it suffers from a long acquisition time. The utilization of deep learning, especially the deep generative models, offers aggressive acceleration and better reconstruction in magnetic resonance imaging. Nevertheless, learning the data distribution as prior knowledge and reconstructing the image from limited data remains challenging. In this work, we propose a novel Hankel-k-space generative model (HKGM), which can generate samples from a training set of as little as one k-space data. At the prior learning stage, we first construct a large Hankel matrix from k-space data, then extract multiple structured k-space patches from the large Hankel matrix to capture the internal distribution among different patches. Extracting patches from a Hankel matrix enables the generative model to be learned from redundant and low-rank data space. At the iterative reconstruction stage, it is observed that the desired solution obeys the learned prior knowledge. The intermediate reconstruction solution is updated by taking it as the input of the generative model. The updated result is then alternatively operated by imposing low-rank penalty on its Hankel matrix and data consistency con-strain on the measurement data. Experimental results confirmed that the internal statistics of patches within a single k-space data carry enough information for learning a powerful generative model and provide state-of-the-art reconstruction.
翻訳日:2022-08-16 14:45:03 公開日:2022-08-15
# HEFT: 生体認証テンプレートの同型暗号化融合

HEFT: Homomorphically Encrypted Fusion of Biometric Templates ( http://arxiv.org/abs/2208.07241v1 )

ライセンス: Link先を確認
Luke Sperling, Nalini Ratha, Arun Ross, Vishnu Naresh Boddeti(参考訳) 本稿では,完全同型暗号(FHE)を用いたバイオメトリックテンプレートの安全な融合とマッチングのための非対話型エンドツーエンドソリューションを提案する。 暗号化された特徴ベクトルのペアを与えられた場合、以下の暗号文演算を実行する。 一 特徴連結 二 学習された直線投影による融合及び次元減少 三 単位 $\ell_2$-norm へのスケール正規化及び iv) スコア計算にマッチする。 HEFT(Homomorphically Encrypted Fusion of Biometric Templates)と呼ばれるこの手法は、FHEが課すユニークな制約、すなわち非算術的操作のサポートの欠如を克服するためにカスタム設計されている。 推測の観点から,計算効率の良い線形射影のための異なるデータパッキングスキームを体系的に検討し,スケール正規化のための多項式近似を導入する。 トレーニングの観点から,線形射影行列を学習し,近似正規化による誤差を軽減するFHE対応アルゴリズムを提案する。 顔・声の生体計測におけるテンプレート融合とマッチングの実験的検討 i) 特徴ベクトルを16因子(512Dから32D)圧縮しながら、各単生体計測表現と比較して生体認証性能を11.07%、AUROC9.58%向上させる。 (ii)暗号化された2つの特徴ベクトルを融合し、884msの1024サイズのギャラリーと一致スコアを計算する。コードとデータはhttps://github.com/human- analysis/encrypted-biometric-fusionで入手できる。

This paper proposes a non-interactive end-to-end solution for secure fusion and matching of biometric templates using fully homomorphic encryption (FHE). Given a pair of encrypted feature vectors, we perform the following ciphertext operations, i) feature concatenation, ii) fusion and dimensionality reduction through a learned linear projection, iii) scale normalization to unit $\ell_2$-norm, and iv) match score computation. Our method, dubbed HEFT (Homomorphically Encrypted Fusion of biometric Templates), is custom-designed to overcome the unique constraint imposed by FHE, namely the lack of support for non-arithmetic operations. From an inference perspective, we systematically explore different data packing schemes for computationally efficient linear projection and introduce a polynomial approximation for scale normalization. From a training perspective, we introduce an FHE-aware algorithm for learning the linear projection matrix to mitigate errors induced by approximate normalization. Experimental evaluation for template fusion and matching of face and voice biometrics shows that HEFT (i) improves biometric verification performance by 11.07% and 9.58% AUROC compared to the respective unibiometric representations while compressing the feature vectors by a factor of 16 (512D to 32D), and (ii) fuses a pair of encrypted feature vectors and computes its match score against a gallery of size 1024 in 884 ms. Code and data are available at https://github.com/human-analysis/encrypted-biometric-fusion
翻訳日:2022-08-16 14:44:14 公開日:2022-08-15
# 自動走行車のマルチモーダル変圧器経路予測

Multi-modal Transformer Path Prediction for Autonomous Vehicle ( http://arxiv.org/abs/2208.07256v1 )

ライセンス: Link先を確認
Chia Hong Tseng, Jie Zhang, Min-Te Sun, Kazuya Sakai, Wei-Shinn Ku(参考訳) 自動運転システムの安全な運転には,車両経路予測の推論が不可欠かつ困難な課題である。 経路予測のための多くの研究がある。 しかし、そのほとんどはレーン情報を使用しておらず、Transformerアーキテクチャに基づいていない。 自動走行車に搭載されたセンサから収集した様々な種類のデータを利用して,ターゲットエージェントの長期的軌道予測を目的としたMTPP(Multi-modal Transformer Path Prediction)と呼ばれる経路予測システムを提案する。 より正確な経路予測を実現するため,トランスフォーマーアーキテクチャをモデルに適用した。 レーン情報をより有効に利用するために、ターゲットエージェントと反対方向のレーンは、ターゲットエージェントによって取り去られやすく、その結果、フィルタアウトされる。 さらに、連続したレーンチャンクを組み合わせることで、レーン入力がパス予測に十分な長さであることを保証する。 実世界の軌跡予測データセットであるnuSceneを用いて,提案システムの有効性を定量的に評価した。

Reasoning about vehicle path prediction is an essential and challenging problem for the safe operation of autonomous driving systems. There exist many research works for path prediction. However, most of them do not use lane information and are not based on the Transformer architecture. By utilizing different types of data collected from sensors equipped on the self-driving vehicles, we propose a path prediction system named Multi-modal Transformer Path Prediction (MTPP) that aims to predict long-term future trajectory of target agents. To achieve more accurate path prediction, the Transformer architecture is adopted in our model. To better utilize the lane information, the lanes which are in opposite direction to target agent are not likely to be taken by the target agent and are consequently filtered out. In addition, consecutive lane chunks are combined to ensure the lane input to be long enough for path prediction. An extensive evaluation is conducted to show the efficacy of the proposed system using nuScene, a real-world trajectory forecasting dataset.
翻訳日:2022-08-16 14:43:48 公開日:2022-08-15
# タスク指向ビデオコーディング:調査

Task Oriented Video Coding: A Survey ( http://arxiv.org/abs/2208.07313v1 )

ライセンス: Link先を確認
Daniel Wood(参考訳) ビデオ符号化技術は高解像度の圧縮比で継続的に改善されている。 しかし、H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮ビデオが人間によって監視されるという前提で設計されている。 コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。 圧縮ビデオがコンピュータビジョンアプリケーションで使用される場合、従来のビデオ符号化標準の設計は最適ではない。 人間の視覚システムはコントラストの高いコンテンツに常に敏感であるが、コンピュータビジョンアルゴリズムに対する画素の影響は特定のコンピュータビジョンタスクによって駆動される。 本稿では,コンピュータビジョンタスク指向のビデオ符号化と新しいビデオ符号化標準である Video Coding for Machines の最近の進歩を考察し,要約する。

Video coding technology has been continuously improved for higher compression ratio with higher resolution. However, the state-of-the-art video coding standards, such as H.265/HEVC and Versatile Video Coding, are still designed with the assumption the compressed video will be watched by humans. With the tremendous advance and maturation of deep neural networks in solving computer vision tasks, more and more videos are directly analyzed by deep neural networks without humans' involvement. Such a conventional design for video coding standard is not optimal when the compressed video is used by computer vision applications. While the human visual system is consistently sensitive to the content with high contrast, the impact of pixels on computer vision algorithms is driven by specific computer vision tasks. In this paper, we explore and summarize recent progress on computer vision task oriented video coding and emerging video coding standard, Video Coding for Machines.
翻訳日:2022-08-16 14:43:32 公開日:2022-08-15
# より高速な注意:二重凝縮型アテンションコンデンサによるエッジ用の高速自己注意ニューラルネットワークバックボーンアーキテクチャ

Faster Attention Is What You Need: A Fast Self-Attention Neural Network Backbone Architecture for the Edge via Double-Condensing Attention Condensers ( http://arxiv.org/abs/2208.06980v1 )

ライセンス: Link先を確認
Alexander Wong, Mohammad Javad Shafiee, Saad Abbasi, Saeejith Nair, and Mahmoud Famouri(参考訳) デバイス上のtinymlアプリケーションにディープラーニングが採用されることで、エッジに最適化されたより効率的なニューラルネットワークバックボーンに対する需要がますます高まっている。 近年,注目凝縮器ネットワークの導入により,精度と速度のバランスが強い低フットプリント,高効率,自己認識型ニューラルネットワークが実現されている。 本研究では,より高速な注意凝縮器の設計である2重凝縮型注意凝縮器について紹介する。 さらに、バックボーンのマクロマイクロアーキテクチャ構造を生成するために、より効率と堅牢性を高めるためのベストプラクティス設計制約を課す機械駆動設計探索戦略を採用する。 結果として得られたバックボーン(AttendNeXt)は、他の最先端の効率的なバックボーン(FB-Net Cよりも高い精度と高速で10倍速い)と比較して、組み込みARMプロセッサでの推論スループットを著しく向上させると同時に、モデルサイズが小さい(高速で類似の精度でOFA-62より1.47倍小さい)とともに、強い精度(ImageNet上のMobileViT XSよりも1.1%高いトップ1精度)を持つ。 これらの有望な結果から、異なる効率的なアーキテクチャ設計とセルフアテンションメカニズムの探求は、tinymlアプリケーションのための興味深い新しいビルディングブロックにつながることが示されている。

With the growing adoption of deep learning for on-device TinyML applications, there has been an ever-increasing demand for more efficient neural network backbones optimized for the edge. Recently, the introduction of attention condenser networks have resulted in low-footprint, highly-efficient, self-attention neural networks that strike a strong balance between accuracy and speed. In this study, we introduce a new faster attention condenser design called double-condensing attention condensers that enable more condensed feature embedding. We further employ a machine-driven design exploration strategy that imposes best practices design constraints for greater efficiency and robustness to produce the macro-micro architecture constructs of the backbone. The resulting backbone (which we name AttendNeXt) achieves significantly higher inference throughput on an embedded ARM processor when compared to several other state-of-the-art efficient backbones (>10X faster than FB-Net C at higher accuracy and speed) while having a small model size (>1.47X smaller than OFA-62 at higher speed and similar accuracy) and strong accuracy (1.1% higher top-1 accuracy than MobileViT XS on ImageNet at higher speed). These promising results demonstrate that exploring different efficient architecture designs and self-attention mechanisms can lead to interesting new building blocks for TinyML applications.
翻訳日:2022-08-16 14:38:00 公開日:2022-08-15
# モデルベース思い出における発話からの個人モデルパラメータの推定

Estimating Personal Model Parameters from Utterances in Model-based Reminiscence ( http://arxiv.org/abs/2208.07087v1 )

ライセンス: Link先を確認
Shoki Sakai, Kazuki Itabashi, Junya Morita(参考訳) 回想療法は、記憶の回想に基づく精神医療である。 しかし、この方法の有効性は個人によって異なる。 この問題を解決するためには,よりパーソナライズされた支援を提供する必要がある。そのために本研究では,思考-合理(act-r)の認知的アーキテクチャ適応制御に基づく個人記憶記憶記憶の計算モデルを用いた。 ユーザの状態を反映したACT-Rメモリモデルが,個人の再会を促進することが期待されている。 本研究では,メモリモデルとの繰り返し相互作用によりユーザの内部状態を推定する手法を提案する。 ユーザのライフログを含むモデルは、ユーザに対してメモリアイテム(刺激)を提示し、モデルの内部パラメータを調整した刺激に対するユーザの応答を受信する。 これらのプロセスの繰り返しを通じて、モデルのパラメータはユーザーの内部状態を反映します。 提案手法の有効性を確認するため,本モデルを組み込んだシステムを用いてユーザの発話を分析した。 その結果,ユーザの発話からモデルのメモリ検索パラメータを推定する手法の有効性が確認された。 また,システム使用によるユーザの気分変化を推定する手法の有効性を確認した。 これらの結果は、人間の内的状態を推定するための対話的手法の実現性を支持し、最終的には私たちの幸福のために記憶記憶と感情を誘導する能力に寄与する。

Reminiscence therapy is mental health care based on the recollection of memories. However, the effectiveness of this method varies amongst individuals. To solve this problem, it is necessary to provide more personalized support; therefore, this study utilized a computational model of personal memory recollection based on a cognitive architecture adaptive control of thought-rational (ACT-R). An ACT-R memory model reflecting the state of users is expected to facilitate personal recollection. In this study, we proposed a method for estimating the internal states of users through repeated interactions with the memory model. The model, which contains the lifelog of the user, presents a memory item (stimulus) to the user, and receives the response of the user to the stimulus, based on which it adjusts the internal parameters of the model. Through the repetition of these processes, the parameters of the model will reflect the internal states of the user. To confirm the feasibility of the proposed method, we analyzed utterances of users when using a system that incorporates this model. The results confirmed the ability of the method to estimate the memory retrieval parameters of the model from the utterances of the user. In addition, the ability of the method to estimate changes in the mood of the user caused by using the system was confirmed. These results support the feasibility of the interactive method for estimating human internal states, which will eventually contribute to the ability to induce memory recall and emotions for our well-being.
翻訳日:2022-08-16 14:34:47 公開日:2022-08-15
# datalogmtlにおけるseminaive materialization

Seminaive Materialisation in DatalogMTL ( http://arxiv.org/abs/2208.07100v1 )

ライセンス: Link先を確認
Dingmin Wang, Przemys{\l}aw Andrzej Wa{\l}\k{e}ga, and Bernardo Cuenca Grau(参考訳) datalogmtlは,時間的オントロジーベースのデータアクセスとクエリ応答,さらにはストリーム推論にも応用可能な,メトリックな時間演算子を備えたdatalogの拡張である。 datalogmtlの実用的なアルゴリズムは、逐次的なルール適用において、時間的事実をフォワードチェーン方式で導出する、実体化に基づく推論に依存する。 しかし、現在の実現に基づく手続きは、非効率の主な原因が冗長な計算に起因しているナイーブな評価戦略に基づいている。 本稿では,datalog の古典的セミナティブアルゴリズムと同様に,各時間的ルールインスタンスがアルゴリズムの実行中に最大1回だけ考慮されることを保証することにより,冗長な計算を最小化することを目的とした,具体化に基づく手法を提案する。 実験の結果,DatalogMTLの最適化セミナティブ戦略により,製造時間を大幅に短縮できることがわかった。

DatalogMTL is an extension of Datalog with metric temporal operators that has found applications in temporal ontology-based data access and query answering, as well as in stream reasoning. Practical algorithms for DatalogMTL are reliant on materialisation-based reasoning, where temporal facts are derived in a forward chaining manner in successive rounds of rule applications. Current materialisation-based procedures are, however, based on a naive evaluation strategy, where the main source of inefficiency stems from redundant computations. In this paper, we propose a materialisation-based procedure which, analogously to the classical seminaive algorithm in Datalog, aims at minimising redundant computation by ensuring that each temporal rule instance is considered at most once during the execution of the algorithm. Our experiments show that our optimised seminaive strategy for DatalogMTL is able to significantly reduce materialisation times.
翻訳日:2022-08-16 14:34:27 公開日:2022-08-15
# 予測符号化ネットワークにおける分類精度の劣化防止

Preventing Deterioration of Classification Accuracy in Predictive Coding Networks ( http://arxiv.org/abs/2208.07114v1 )

ライセンス: Link先を確認
Paul F Kinghorn, Beren Millidge, Christopher L Buckley(参考訳) 予測符号化ネットワーク(PCN)は、世界の生成モデルを学ぶことを目的としている。 この生成モデルは、観測された結果の原因を推測するために逆転することができる。 しかし、PCNのトレーニングでは、推論精度がピークに達し、さらなるトレーニングで低下する、顕著な病理がしばしば観察される。 トレーニングとテストの精度が同時に低下するため、オーバーフィッティングでは説明できない。 ここでは、この現象を徹底的に研究し、PCNの様々な層が収束する速度間の不均衡に起因することを示す。 行列特異値の相対的大きさを制限することによって、重み行列が変化することを許容するが、その近傍にレイヤが持つ全体的な影響は制限される。 また, 同様の効果は, より生物学的に有理で単純な方法で, 単に重みを包み込むだけで達成できることを示した。

Predictive Coding Networks (PCNs) aim to learn a generative model of the world. Given observations, this generative model can then be inverted to infer the causes of those observations. However, when training PCNs, a noticeable pathology is often observed where inference accuracy peaks and then declines with further training. This cannot be explained by overfitting since both training and test accuracy decrease simultaneously. Here we provide a thorough investigation of this phenomenon and show that it is caused by an imbalance between the speeds at which the various layers of the PCN converge. We demonstrate that this can be prevented by regularising the weight matrices at each layer: by restricting the relative size of matrix singular values, we allow the weight matrix to change but restrict the overall impact which a layer can have on its neighbours. We also demonstrate that a similar effect can be achieved through a more biologically plausible and simple scheme of just capping the weights.
翻訳日:2022-08-16 14:34:10 公開日:2022-08-15
# Bufferによるオンライン3D Bin Packing強化学習ソリューション

Online 3D Bin Packing Reinforcement Learning Solution with Buffer ( http://arxiv.org/abs/2208.07123v1 )

ライセンス: Link先を確認
Aaron Valero Puche and Sukhan Lee(参考訳) 3D Bin Packing Problem (3D-BPP) は、空間利用を最大化するために、エージェントが有限個のビンに配送される可変サイズのアイテムをパックしなければならない業界で最も要求される問題の1つである。 これはnpハードな最適化問題であり、空間利用における高性能なソリューションは提供されていない。 本稿では,性能向上のための3d-bppソリューションのための強化学習(rl)フレームワークを提案する。 まず、複数項目のアクション選択を可能にするバッファを導入する。 アクション選択の自由度を増加させることで、より複雑なポリシーにより、より優れたパッキング性能が得られる。 第2に,両項目の対称性を活用してサンプル効率を向上させるデータ拡張戦略を提案する。 第3に,0サムゲームにおける超人的性能を示すアルゴリズムAlphaGoのモデルベースRL法を実装した。 私たちの適応は、シングルプレイヤーとスコアベースの環境で動作できます。 AlphaGoのバージョンが計算的に重いことが知られているにもかかわらず、提案したフレームワークを単一のスレッドとGPUでトレーニングし、また、空間利用における最先端の結果を上回るソリューションを得ることができた。

The 3D Bin Packing Problem (3D-BPP) is one of the most demanded yet challenging problems in industry, where an agent must pack variable size items delivered in sequence into a finite bin with the aim to maximize the space utilization. It represents a strongly NP-Hard optimization problem such that no solution has been offered to date with high performance in space utilization. In this paper, we present a new reinforcement learning (RL) framework for a 3D-BPP solution for improving performance. First, a buffer is introduced to allow multi-item action selection. By increasing the degree of freedom in action selection, a more complex policy that results in better packing performance can be derived. Second, we propose an agnostic data augmentation strategy that exploits both bin item symmetries for improving sample efficiency. Third, we implement a model-based RL method adapted from the popular algorithm AlphaGo, which has shown superhuman performance in zero-sum games. Our adaptation is capable of working in single-player and score based environments. In spite of the fact that AlphaGo versions are known to be computationally heavy, we manage to train the proposed framework with a single thread and GPU, while obtaining a solution that outperforms the state-of-the-art results in space utilization.
翻訳日:2022-08-16 14:33:56 公開日:2022-08-15
# C-Causal Blindness 重み付きマルコフモデルを用いた生物学的計算、人工計算、論理の同型関係に関する実験的計算フレームワーク

C-Causal Blindness An experimental computational framework on the isomorphic relationship between biological computation, artificial computation, and logic using weighted hidden Markov models ( http://arxiv.org/abs/2208.07143v1 )

ライセンス: Link先を確認
Gon\c{c}alo Hora de Carvalho and Raffael Tappe Maestro(参考訳) このテキストは、C-Causal Blindness(C-CB)と呼ばれる認知盲目の特定の風味に関するものである。 目的を達成するための政策が避けられる状態につながる盲目。 C-CBの文字通りの例は、クルト・G・オデルが「毒を盛る恐れがある」として飢えているという決定を下したことである。「毒を盛られるのを避ける」という目的:C、計画や政策が「食べない」こと:B、実際の成果は「ダイ」である:Cではなく、G・オデルが最初に避けたい状態である。 多くの人と同様に、G\"odelは避けたい結果をもたらす戦略を追求した。 隠れマルコフモデルを用いて,脳の計算,論理,計算機計算におけるC-CBの同型関係を示す実験的な計算フレームワークを提案する。

This text concerns a particular flavor of cognitive blindness referred to as C-Causal Blindness, or C-CB. A blindness where the policy to obtain the objective leads to the state to be avoided. A literal example of C-CB would be Kurt G\"odel's decision to starve for "fear of being poisoned" - take this to be premise A. The objective being "to avoid being poisoned (so as to not die)": C, the plan or policy being "don't eat": B, and the actual outcome having been "dying": not C - the state that G\"odel wanted to avoid to begin with. Like many, G\"odel pursued a strategy that caused the result he wanted to avoid. An experimental computational framework is proposed to show the isomorphic relationship between C-CB in brain computations, logic, and computer computations using hidden Markov models.
翻訳日:2022-08-16 14:33:36 公開日:2022-08-15
# コンピュータ共感は創造的問題解決における怒りの負の効果に反する

Computational Empathy Counteracts the Negative Effects of Anger on Creative Problem Solving ( http://arxiv.org/abs/2208.07178v1 )

ライセンス: Link先を確認
Matthew Groh, Craig Ferguson, Robert Lewis, Rosalind Picard(参考訳) 共感は創造的問題解決にどのように影響するか 我々は,よく着飾ったホッキョクグマの形をした仮想エージェントによる,文脈特有の情緒的模倣と視点の取扱いに基づく,計算的共感の介入を導入する。 感情誘発介入(制御誘発条件と怒り誘発条件)と計算共感介入(制御仮想エージェントと共感仮想エージェント)をランダムに割り当てた1,006人の参加者によるオンライン実験において,Wordleに基づく単語ゲームにおいて,怒りと共感が参加者のパフォーマンスに与える影響について検討した。 怒りの誘発状態に割り当てられた参加者は、制御条件に割り当てられた参加者よりも、複数のパフォーマンス指標で著しく悪化する。 しかし、共感仮想エージェントは、共感仮想エージェントと怒り状態の両方に割り当てられた参加者が制御誘発条件の参加者と違いなく、制御仮想エージェントおよび怒り誘発条件に割り当てられた参加者よりも有意に優れた、怒り状態によって引き起こされるパフォーマンスの低下を相殺する。 共感は怒りの負の効果を減少させるが、共感的仮想エージェントが制御誘発状態に割り当てられた参加者のパフォーマンスに影響を及ぼす証拠は見つからない。 計算共感介入の枠組みを導入し,2対2の因子設計ランダム化実験を行うことにより,創造的問題解決における怒りの否定的効果を,計算共感が反作用することを示す厳密な実証的証拠を提供する。

How does empathy influence creative problem solving? We introduce a computational empathy intervention based on context-specific affective mimicry and perspective taking by a virtual agent appearing in the form of a well-dressed polar bear. In an online experiment with 1,006 participants randomly assigned to an emotion elicitation intervention (with a control elicitation condition and anger elicitation condition) and a computational empathy intervention (with a control virtual agent and an empathic virtual agent), we examine how anger and empathy influence participants' performance in solving a word game based on Wordle. We find participants who are assigned to the anger elicitation condition perform significantly worse on multiple performance metrics than participants assigned to the control condition. However, we find the empathic virtual agent counteracts the drop in performance induced by the anger condition such that participants assigned to both the empathic virtual agent and the anger condition perform no differently than participants in the control elicitation condition and significantly better than participants assigned to the control virtual agent and the anger elicitation condition. While empathy reduces the negative effects of anger, we do not find evidence that the empathic virtual agent influences performance of participants who are assigned to the control elicitation condition. By introducing a framework for computational empathy interventions and conducting a two-by-two factorial design randomized experiment, we provide rigorous, empirical evidence that computational empathy can counteract the negative effects of anger on creative problem solving.
翻訳日:2022-08-16 14:33:17 公開日:2022-08-15
# 神経成層による脱ベンジド勧告

Debiased Recommendation with Neural Stratification ( http://arxiv.org/abs/2208.07281v1 )

ライセンス: Link先を確認
Quanyu Dai, Zhenhua Dong and Xu Chen(参考訳) バイアスド・レコメンダ・モデルは最近、学術や産業のコミュニティから注目を集めている。 既存のモデルは、主に逆確率スコア(IPS)の技術に基づいている。 しかし、レコメンデーション領域では、観測されたユーザ・イテム露光データのスパースでノイズの多い性質からIPSを推定することは困難である。 この問題を軽減するため,本稿では,ユーザの嗜好を少数の潜在要因に支配できると仮定し,露光密度を増大させることで,より正確なipsを計算するためのクラスタ化を提案する。 基本的に、この手法は応用統計学における成層モデルの精神と類似している。 しかし,従来のヒューリスティック階層化戦略とは異なり,レコメンダモデルでユーザ表現と将来共有される低ランク埋め込みをユーザに提示することで,クラスタの基準を学習する。 最終的に、我々のモデルは、以前の2種類のデバイアスドレコメンダモデルと強い関係があることが判明した。 提案手法の有効性を示すために,実世界のデータセットに基づく広範な実験を行った。

Debiased recommender models have recently attracted increasing attention from the academic and industry communities. Existing models are mostly based on the technique of inverse propensity score (IPS). However, in the recommendation domain, IPS can be hard to estimate given the sparse and noisy nature of the observed user-item exposure data. To alleviate this problem, in this paper, we assume that the user preference can be dominated by a small amount of latent factors, and propose to cluster the users for computing more accurate IPS via increasing the exposure densities. Basically, such method is similar with the spirit of stratification models in applied statistics. However, unlike previous heuristic stratification strategy, we learn the cluster criterion by presenting the users with low ranking embeddings, which are future shared with the user representations in the recommender model. At last, we find that our model has strong connections with the previous two types of debiased recommender models. We conduct extensive experiments based on real-world datasets to demonstrate the effectiveness of the proposed method.
翻訳日:2022-08-16 14:32:49 公開日:2022-08-15
# mm-gnn:ミックスモーメントグラフニューラルネットワークによる近傍特徴分布のモデル化

MM-GNN: Mix-Moment Graph Neural Network towards Modeling Neighborhood Feature Distribution ( http://arxiv.org/abs/2208.07012v1 )

ライセンス: Link先を確認
Wendong Bi, Lun Du, Qiang Fu, Yanlin Wang, Shi Han, Dongmei Zhang(参考訳) グラフニューラルネットワーク(GNN)は,近隣からの情報を集約することで,グラフ表現学習における表現力を示す。 近年,グラフ上の近傍分布のモデル化の重要性が議論されている。 しかし、既存のほとんどのGNNは、隣人の特徴分布に関する情報を失い、従ってモデルの性能が低下する単一統計量(平均、最大、和)を通じて隣人の特徴を集約する。 本稿では,統計理論におけるモーメント法に着想を得て,隣接特徴分布を多階モーメントでモデル化する。 我々は、MME(Multi-order Moment Embedding)モジュールとElement-wise Attention-based Moment Adaptorモジュールを含む新しいGNNモデル、Mix-Moment Graph Neural Network (MM-GNN)を設計する。 mm-gnnは、まず、各ノードの隣接ノードのマルチオーダーモーメントをシグネチャとして計算し、次に要素ごとの注意に基づくモーメントアダプタを使用して、各ノードの重要なモーメントにより大きな重みを割り当て、ノード表現を更新する。 実世界の15のグラフ(ソーシャルネットワーク, 引用ネットワーク, ウェブページネットワークなど)について広範な実験を行い, 既存の最先端モデルよりもMM-GNNの方が優れていることを示す。

Graph Neural Networks (GNNs) have shown expressive performance on graph representation learning by aggregating information from neighbors. Recently, some studies have discussed the importance of modeling neighborhood distribution on the graph. However, most existing GNNs aggregate neighbors' features through single statistic (e.g., mean, max, sum), which loses the information related to neighbor's feature distribution and therefore degrades the model performance. In this paper, inspired by the method of moment in statistical theory, we propose to model neighbor's feature distribution with multi-order moments. We design a novel GNN model, namely Mix-Moment Graph Neural Network (MM-GNN), which includes a Multi-order Moment Embedding (MME) module and an Element-wise Attention-based Moment Adaptor module. MM-GNN first calculates the multi-order moments of the neighbors for each node as signatures, and then use an Element-wise Attention-based Moment Adaptor to assign larger weights to important moments for each node and update node representations. We conduct extensive experiments on 15 real-world graphs (including social networks, citation networks and web-page networks etc.) to evaluate our model, and the results demonstrate the superiority of MM-GNN over existing state-of-the-art models.
翻訳日:2022-08-16 14:28:39 公開日:2022-08-15
# 粒子群最適化と並列処理による部分空間学習機の高速化

Acceleration of Subspace Learning Machine via Particle Swarm Optimization and Parallel Processing ( http://arxiv.org/abs/2208.07023v1 )

ライセンス: Link先を確認
Hongyu Fu, Yijing Yang, Yuhuai Liu, Joseph Lin, Ethan Harrison, Vinod K. Mishra and C.-C. Jay Kuo(参考訳) 決定木(DT)の分類と回帰の考え方に基づいて、最近SLM(subspace learning machine)が提案され、一般的な分類と回帰タスクにおいて高い性能を提供する。 その性能改善は高い計算複雑性を犠牲にして達成される。 本研究では,SLMを加速する2つの方法を検討する。 まず、粒子群最適化(PSO)アルゴリズムを用いて、電流次元の線形結合として表現される判別次元の探索を高速化する。 線形結合における最適重量の探索は計算的に重い。 元のSLMにおける確率探索によって達成される。 PSOによるSLMの加速には10~20倍のイテレーションが必要である。 次に、slm実装で並列処理を利用する。 実験結果から,加速SLM法はトレーニング時間の577倍の高速化を実現し,従来のSLMと同等の分類/回帰性能を維持した。

Built upon the decision tree (DT) classification and regression idea, the subspace learning machine (SLM) has been recently proposed to offer higher performance in general classification and regression tasks. Its performance improvement is reached at the expense of higher computational complexity. In this work, we investigate two ways to accelerate SLM. First, we adopt the particle swarm optimization (PSO) algorithm to speed up the search of a discriminant dimension that is expressed as a linear combination of current dimensions. The search of optimal weights in the linear combination is computationally heavy. It is accomplished by probabilistic search in original SLM. The acceleration of SLM by PSO requires 10-20 times fewer iterations. Second, we leverage parallel processing in the SLM implementation. Experimental results show that the accelerated SLM method achieves a speed up factor of 577 in training time while maintaining comparable classification/regression performance of original SLM.
翻訳日:2022-08-16 14:28:13 公開日:2022-08-15
# ニューラルネットワークの不均一近似に対する勾配と確率の組合せ

Combining Gradients and Probabilities for Heterogeneous Approximation of Neural Networks ( http://arxiv.org/abs/2208.07265v1 )

ライセンス: Link先を確認
Elias Trommer, Bernd Waschneck, Akash Kumar(参考訳) 本研究は,高い精度と低エネルギー消費を実現するニューラルネットワークの異種近似乗算器構成の探索について検討する。 本稿では, 近似乗算器の挙動シミュレーションのための代理モデルとして, 正確なニューラルネットワーク計算に付加される付加型ガウス雑音の有効性について論じる。 加法ガウス雑音モデルによる解空間の連続的かつ微分可能特性は、組合せ最適化手法を必要とせず、有意義な層ロバスト性の推定を生成するヒューリスティックとして用いられる。 代わりに、バックプロパゲーションを用いてネットワークトレーニング中に正確な計算に注入されるノイズ量を学ぶ。 モデルでは、近似乗算器誤差の標準偏差を推定し、加法ガウス雑音空間の解を実際のハードウェアインスタンスに接続する。 実験により,不均一近似とニューラルネットワーク再学習の組み合わせにより,CIFAR-10データセット上の異なるResNet変種に対する乗算のエネルギー消費が70%から79%減少し,Top-1精度損失が1ポイント以下であることが確認された。 より複雑なTiny ImageNetタスクでは、VGG16モデルは53%のエネルギー消費削減を実現し、Top-5の精度は0.5ポイント低下した。 さらに,我々の誤差モデルでは,よく用いられる加法的ガウス雑音(AGN)モデルの文脈で近似乗算器のパラメータを高精度に予測できることを示した。 私たちのソフトウェア実装はhttps://github.com/etrommer/agn-approxで利用可能です。

This work explores the search for heterogeneous approximate multiplier configurations for neural networks that produce high accuracy and low energy consumption. We discuss the validity of additive Gaussian noise added to accurate neural network computations as a surrogate model for behavioral simulation of approximate multipliers. The continuous and differentiable properties of the solution space spanned by the additive Gaussian noise model are used as a heuristic that generates meaningful estimates of layer robustness without the need for combinatorial optimization techniques. Instead, the amount of noise injected into the accurate computations is learned during network training using backpropagation. A probabilistic model of the multiplier error is presented to bridge the gap between the domains; the model estimates the standard deviation of the approximate multiplier error, connecting solutions in the additive Gaussian noise space to actual hardware instances. Our experiments show that the combination of heterogeneous approximation and neural network retraining reduces the energy consumption for multiplications by 70% to 79% for different ResNet variants on the CIFAR-10 dataset with a Top-1 accuracy loss below one percentage point. For the more complex Tiny ImageNet task, our VGG16 model achieves a 53 % reduction in energy consumption with a drop in Top-5 accuracy of 0.5 percentage points. We further demonstrate that our error model can predict the parameters of an approximate multiplier in the context of the commonly used additive Gaussian noise (AGN) model with high accuracy. Our software implementation is available under https://github.com/etrommer/agn-approx.
翻訳日:2022-08-16 14:27:59 公開日:2022-08-15
# ニューラルネットワークのグローバルロバスト性認定とトレーニングのためのツール

A Tool for Neural Network Global Robustness Certification and Training ( http://arxiv.org/abs/2208.07289v1 )

ライセンス: Link先を確認
Zhilu Wang, Yixuan Wang, Feisi Fu, Ruochen Jiao, Chao Huang, Wenchao Li, Qi Zhu(参考訳) 安全クリティカルなシステムにおいて機械学習技術を活用することへの関心が高まっているため、外乱下でのニューラルネットワークの堅牢性はますます懸念を抱いている。 グローバルロバストネスは入力領域全体に定義されたロバストネス特性である。 そして、認定されたグローバルロバストネットワークは、可能なネットワーク入力に対して堅牢性を確保することができる。 しかし、最先端のグローバルロバストネス認証アルゴリズムは、少なくとも数千のニューロンでしかネットワークを認証できない。 本稿では,GPUによるグローバルロバストネス認証フレームワークGROCETを提案する。 さらにgrocetは、グローバルロバストニューラルネットワークのトレーニングで活用される、微分可能なグローバルロバスト性を提供する。

With the increment of interest in leveraging machine learning technology in safety-critical systems, the robustness of neural networks under external disturbance receives more and more concerns. Global robustness is a robustness property defined on the entire input domain. And a certified globally robust network can ensure its robustness on any possible network input. However, the state-of-the-art global robustness certification algorithm can only certify networks with at most several thousand neurons. In this paper, we propose the GPU-supported global robustness certification framework GROCET, which is more efficient than the previous optimization-based certification approach. Moreover, GROCET provides differentiable global robustness, which is leveraged in the training of globally robust neural networks.
翻訳日:2022-08-16 14:27:40 公開日:2022-08-15
# 符号付きグラフニューラルネットワーク:周波数の観点

Signed Graph Neural Networks: A Frequency Perspective ( http://arxiv.org/abs/2208.07323v1 )

ライセンス: Link先を確認
Rahul Singh and Yongxin Chen(参考訳) グラフ畳み込みネットワーク(GCN)とその変種は、正のリンクのみを含む符号なしグラフのために設計されている。 既存のgcnの多くは(符号なし)グラフ上にある信号のスペクトル領域解析から派生しており、各畳み込み層では入力特徴のローパスフィルタリングを行い、学習可能な線形変換を行う。 負リンクと正の符号付きグラフへの拡張は、計算の不規則性や曖昧な周波数解釈といった複数の問題を課し、計算効率のよいローパスフィルタの設計を困難にしている。 本稿では,これらの問題に,符号付きグラフのスペクトル解析を用いて対処し,低周波情報のみを保持する2つの異なる符号付きグラフニューラルネットワークを提案する。 さらに,磁気署名ラプラシアンを導入し,その固有分解法を用いて有向署名グラフのスペクトル解析を行う。 サイン付きグラフのノード分類とリンク符号予測タスクの手法をテストし,最先端の性能を実現する。

Graph convolutional networks (GCNs) and its variants are designed for unsigned graphs containing only positive links. Many existing GCNs have been derived from the spectral domain analysis of signals lying over (unsigned) graphs and in each convolution layer they perform low-pass filtering of the input features followed by a learnable linear transformation. Their extension to signed graphs with positive as well as negative links imposes multiple issues including computational irregularities and ambiguous frequency interpretation, making the design of computationally efficient low pass filters challenging. In this paper, we address these issues via spectral analysis of signed graphs and propose two different signed graph neural networks, one keeps only low-frequency information and one also retains high-frequency information. We further introduce magnetic signed Laplacian and use its eigendecomposition for spectral analysis of directed signed graphs. We test our methods for node classification and link sign prediction tasks on signed graphs and achieve state-of-the-art performances.
翻訳日:2022-08-16 14:27:29 公開日:2022-08-15
# 言語モデルを用いたハニーワード生成

Targeted Honeyword Generation with Language Models ( http://arxiv.org/abs/2208.06946v1 )

ライセンス: Link先を確認
Fangyi Yu and Miguel Vargas Martin(参考訳) ハニーワードは、パスワード違反を特定するためにデータベースに挿入された架空のパスワードである。 一番難しいのは、実際のパスワードと区別するのが難しいハニーワードの作り方です。 ハニーワードの世代は過去に広く研究されてきたが、既存の研究の多くは攻撃者がユーザーについて何も知らないと仮定している。 これらのハニーワード生成技術(HGT)は、攻撃者がユーザーの個人識別情報(PII)を利用して、実際のパスワードがユーザーのPIIを含むと完全に失敗する可能性がある。 本稿では,本論文で提案するハニーワード生成のための実パスワードの訓練を必要とせず,かつ関連する実パスワードのpiiを保持することにより,攻撃者のバーを大きく高める,よりセキュアで信頼性の高い認証システムを構築することを提案する。 我々は,GPT-3のユーザ名と調整手法が提供される際に,個人に対して,認証パスワードとハニーワードの区別を依頼する実験を行った。 その結果、両方のテクニックで実際のパスワードと人工パスワードを区別することは極めて困難であることが判明した。 提案手法は,2つのHGT技術に有意な差があることを推測し,提案手法を好んだ。

Honeywords are fictitious passwords inserted into databases in order to identify password breaches. The major difficulty is how to produce honeywords that are difficult to distinguish from real passwords. Although the generation of honeywords has been widely investigated in the past, the majority of existing research assumes attackers have no knowledge of the users. These honeyword generating techniques (HGTs) may utterly fail if attackers exploit users' personally identifiable information (PII) and the real passwords include users' PII. In this paper, we propose to build a more secure and trustworthy authentication system that employs off-the-shelf pre-trained language models which require no further training on real passwords to produce honeywords while retaining the PII of the associated real password, therefore significantly raising the bar for attackers. We conducted a pilot experiment in which individuals are asked to distinguish between authentic passwords and honeywords when the username is provided for GPT-3 and a tweaking technique. Results show that it is extremely difficult to distinguish the real passwords from the artifical ones for both techniques. We speculate that a larger sample size could reveal a significant difference between the two HGT techniques, favouring our proposed approach.
翻訳日:2022-08-16 14:26:03 公開日:2022-08-15
# 都市交通流予測のための時空間横断グラフ埋め込み融合に向けて

Towards Spatio-Temporal Cross-Platform Graph Embedding Fusion for Urban Traffic Flow Prediction ( http://arxiv.org/abs/2208.06947v1 )

ライセンス: Link先を確認
Mahan Tabatabaie, James Maniscalco, Connor Lynch, Suining He(参考訳) 本稿では,都市交通流予測のための新たな時空間グラフ埋め込み融合手法であるstc-gefを提案する。 我々は,グラフ畳み込みネットワーク(GCN)に基づく空間埋め込みモジュールを設計し,交通フローデータ中の複雑な空間的特徴を抽出した。 さらに,トラヒックフローデータ間の時間的依存性を様々な時間間隔から捉えるために,リカレントニューラルネットワークに基づく時間的埋め込みモジュールを設計した。 異なる交通プラットフォームであるトリップデータ(タクシー、uber、lyftなど)が相互に関連付けられるという観測に基づいて、異なる輸送プラットフォームからのトリップデータを結合し、さらにプラットフォーム間の交通フロー予測(例えば、タクシーとライドシェアリングプラットフォームの統合によるタクシー交通フロー予測)に利用する効果的な融合メカニズムを設計した。 我々は,ニューヨーク市(nyc)のyellow taxis and ride-sharing(lyft)の実世界の移動データに基づいて,実世界実験を行い,異なる移動プラットフォームデータを用いて交通の流れを予測し,stc-gefの精度と有効性を検証する。

In this paper, we have proposed STC-GEF, a novel Spatio-Temporal Cross-platform Graph Embedding Fusion approach for the urban traffic flow prediction. We have designed a spatial embedding module based on graph convolutional networks (GCN) to extract the complex spatial features within traffic flow data. Furthermore, to capture the temporal dependencies between the traffic flow data from various time intervals, we have designed a temporal embedding module based on recurrent neural networks. Based on the observations that different transportation platforms trip data (e.g., taxis, Uber, and Lyft) can be correlated, we have designed an effective fusion mechanism that combines the trip data from different transportation platforms and further uses them for cross-platform traffic flow prediction (e.g., integrating taxis and ride-sharing platforms for taxi traffic flow prediction). We have conducted extensive real-world experimental studies based on real-world trip data of yellow taxis and ride-sharing (Lyft) from the New York City (NYC), and validated the accuracy and effectiveness of STC-GEF in fusing different transportation platform data and predicting traffic flows.
翻訳日:2022-08-16 14:20:38 公開日:2022-08-15
# ARIEL: 逆グラフコントラスト学習

ARIEL: Adversarial Graph Contrastive Learning ( http://arxiv.org/abs/2208.06956v1 )

ライセンス: Link先を確認
Shengyu Feng, Baoyu Jing, Yada Zhu, Hanghang Tong(参考訳) コントラスト学習はグラフ表現学習において効果的な教師なしの手法であり、対照的学習の重要な要素は正と負のサンプルの構築にある。 従来の方法は通常、グラフ内のノードの近接を原則として利用する。 近年,データ拡張型コントラスト学習法が進歩し,視覚領域で大きな力を発揮するようになり,画像からグラフへと拡張した研究もある。 しかし、画像上のデータ拡張とは異なり、グラフ上のデータ拡張は直感的ではなく、高品質のコントラストサンプルを提供することがはるかに難しく、改善の余地がたくさんある。 本研究では、データ拡張のための逆グラフビューを導入することにより、合理的な制約の中で情報的コントラストサンプルを抽出する簡易かつ効果的な手法である逆グラフコントラスト学習(ARIEL)を提案する。 我々は,安定トレーニングのための情報正規化と呼ばれる新しい手法を開発し,拡張性にサブグラフサンプリングを用いる。 我々は,各グラフインスタンスをスーパーノードとして扱うことにより,ノードレベルのコントラスト学習からグラフレベルの一般化を行う。 ARIELは、実世界のデータセット上のノードレベルとグラフレベルの両方の分類タスクにおいて、現在のグラフコントラスト学習手法よりも一貫して優れている。 さらに、ARIELは敵攻撃に対してより堅牢であることを示す。

Contrastive learning is an effective unsupervised method in graph representation learning, and the key component of contrastive learning lies in the construction of positive and negative samples. Previous methods usually utilize the proximity of nodes in the graph as the principle. Recently, the data augmentation based contrastive learning method has advanced to show great power in the visual domain, and some works extended this method from images to graphs. However, unlike the data augmentation on images, the data augmentation on graphs is far less intuitive and much harder to provide high-quality contrastive samples, which leaves much space for improvement. In this work, by introducing an adversarial graph view for data augmentation, we propose a simple but effective method, Adversarial Graph Contrastive Learning (ARIEL), to extract informative contrastive samples within reasonable constraints. We develop a new technique called information regularization for stable training and use subgraph sampling for scalability. We generalize our method from node-level contrastive learning to the graph-level by treating each graph instance as a supernode. ARIEL consistently outperforms the current graph contrastive learning methods for both node-level and graph-level classification tasks on real-world datasets. We further demonstrate that ARIEL is more robust in face of adversarial attacks.
翻訳日:2022-08-16 14:20:18 公開日:2022-08-15
# 深層学習とクラウドソーシングを組み合わせた中国農村部の住宅品質予測

Combining deep learning and crowdsourcing geo-images to predict housing quality in rural China ( http://arxiv.org/abs/2208.06997v1 )

ライセンス: Link先を確認
Weipan Xu, Yu Gu, Yifan Chen, Yongtian Wang, Weihuan Deng, Xun Li(参考訳) 住宅の質は地域の富、安全、健康に欠かせない指標である。 住宅質の分布を理解することは、農村開発の現状を明らかにし、政治提案を行う上で重要である。 しかし、現在の農村の住宅品質データは、全国・地方レベルでトップダウンの時間消費調査に大きく依存するが、村レベルの住宅品質を解き放たれていない。 農村の住宅品質の正確な描写と不足データとのギャップを埋めるため,大規模農村画像を収集し,利用者に大規模住宅品質の評価を依頼する。 さらに,クラウドソーシングによる農村画像に基づいて,住宅品質を自動的にかつ効率的に予測するための深層学習フレームワークを提案する。

Housing quality is an essential proxy for regional wealth, security and health. Understanding the distribution of housing quality is crucial for unveiling rural development status and providing political proposals. However,present rural house quality data highly depends on a top-down, time-consuming survey at the national or provincial level but fails to unpack the housing quality at the village level. To fill the gap between accurately depicting rural housing quality conditions and deficient data,we collect massive rural images and invite users to assess their housing quality at scale. Furthermore, a deep learning framework is proposed to automatically and efficiently predict housing quality based on crowd-sourcing rural images.
翻訳日:2022-08-16 14:19:57 公開日:2022-08-15
# CAME: 曖昧なシーングラフ生成のためのコンテキスト認識混合処理

CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2208.07109v1 )

ライセンス: Link先を確認
Liguang Zhou, Yuhongze Zhou, Tin Lun Lam, Yangsheng Xu(参考訳) 近年,シーングラフ生成は飛躍的な進歩を遂げている。 しかし、その固有の長尾述語クラスの分布は難しい問題である。 ほぼすべての既存のシーングラフ生成(sgg)メソッドは、オブジェクト検出に類似のバックボーンネットワークとシーングラフ生成にカスタマイズされたネットワークを使用する同じフレームワークに従っている。 これらの手法はしばしば、シーンコンテキストw.r.tの固有述語と複雑なネットワークの固有性を抽出するために洗練されたコンテキストエンコーダを設計し、高度に不均衡なデータ分散のためのネットワークモデルの学習能力を改善する。 バイアスのないSGG問題に対処するために、モデル多様性を改善し、洗練された設計をすることなくバイアス付きSGGを緩和するために、Context-Aware Mixture-of-Experts (CAME) と呼ばれるシンプルで効果的な方法を提案する。 具体的には,多くの非バイアスのシーングラフ生成装置に適した述語クラスの長い分布を,専門家の混在で補うことを提案する。 関係の専門家の混合により、述語の長い尾の分布は分割とアンサンブルの方法で対処される。 その結果、バイアス付きSGGは緩和され、モデルはよりバランスの取れた述語予測を行う傾向にある。 しかし、同じ重量を持つ専門家は、異なるレベルの述語分布を識別するのに十分な多様性を持っていない。 したがって、単にビルトインコンテクストアウェアエンコーダを使用して、ネットワークがリッチなシーン特性を動的に活用し、モデルの多様性をさらに高められるようにします。 画像のコンテキスト情報を利用することにより、各専門家w.r.tのシーンコンテキストの重要性を動的に割り当てる。 我々は、Visual Genomeデータセットの3つのタスクについて広範な実験を行い、従来の手法よりも優れた性能を示した。

The scene graph generation has gained tremendous progress in recent years. However, its intrinsic long-tailed distribution of predicate classes is a challenging problem. Almost all existing scene graph generation (SGG) methods follow the same framework where they use a similar backbone network for object detection and a customized network for scene graph generation. These methods often design the sophisticated context-encoder to extract the inherent relevance of scene context w.r.t the intrinsic predicates and complicated networks to improve the learning capabilities of the network model for highly imbalanced data distributions. To address the unbiased SGG problem, we present a simple yet effective method called Context-Aware Mixture-of-Experts (CAME) to improve the model diversity and alleviate the biased SGG without a sophisticated design. Specifically, we propose to use the mixture of experts to remedy the heavily long-tailed distributions of predicate classes, which is suitable for most unbiased scene graph generators. With a mixture of relation experts, the long-tailed distribution of predicates is addressed in a divide and ensemble manner. As a result, the biased SGG is mitigated and the model tends to make more balanced predicates predictions. However, experts with the same weight are not sufficiently diverse to discriminate the different levels of predicates distributions. Hence, we simply use the build-in context-aware encoder, to help the network dynamically leverage the rich scene characteristics to further increase the diversity of the model. By utilizing the context information of the image, the importance of each expert w.r.t the scene context is dynamically assigned. We have conducted extensive experiments on three tasks on the Visual Genome dataset to show that came achieved superior performance over previous methods.
翻訳日:2022-08-16 14:10:37 公開日:2022-08-15
# 画像に基づく3次元物体検出のための擬似ラベルの実証的研究

An Empirical Study of Pseudo-Labeling for Image-based 3D Object Detection ( http://arxiv.org/abs/2208.07137v1 )

ライセンス: Link先を確認
Xinzhu Ma, Yuan Meng, Yinmin Zhang, Lei Bai, Jun Hou, Shuai Yi, and Wanli Ouyang(参考訳) 画像に基づく3D検出は、自律運転のための知覚システムの必須成分である。 しかし、トレーニングデータに制限がある主な理由の1つとして、不満足なパフォーマンスに悩まされている。 残念ながら、オブジェクトを3D空間にアノテートするのは非常に時間がかかるため、トレーニングセットを任意に拡張することは困難である。 本研究では, 半教師付き方式に着目し, より安価な代替手段である擬似ラベル技術の実現可能性を探究し, 未ラベルデータを活用する。 そこで本研究では,擬似ラベルが,異なる条件下でのベースラインモデルに対する効果的な監視を行うことができるかどうかを,広範な実験により検証する。 実験結果は、画像に基づく3D検出における擬似ラベル機構の有効性を実証するだけでなく(例えば、単眼環境では、ベルやホイッスルを使わずにKITTI-3Dテストセットを適度に20.23 APで達成し、ベースラインモデルを6.03 APで改善するなど)、興味深く興味深い結果(例えば、擬似ラベルで訓練されたモデルは、同じトレーニングデータに基づいてトレーニングされた地味アノテーションよりも優れた性能を発揮する)を示した。 この研究が、半教師付き環境で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。 コード、擬似ラベル、事前学習されたモデルが公開される予定だ。

Image-based 3D detection is an indispensable component of the perception system for autonomous driving. However, it still suffers from the unsatisfying performance, one of the main reasons for which is the limited training data. Unfortunately, annotating the objects in the 3D space is extremely time/resource-consuming, which makes it hard to extend the training set arbitrarily. In this work, we focus on the semi-supervised manner and explore the feasibility of a cheaper alternative, i.e. pseudo-labeling, to leverage the unlabeled data. For this purpose, we conduct extensive experiments to investigate whether the pseudo-labels can provide effective supervision for the baseline models under varying settings. The experimental results not only demonstrate the effectiveness of the pseudo-labeling mechanism for image-based 3D detection (e.g. under monocular setting, we achieve 20.23 AP for moderate level on the KITTI-3D testing set without bells and whistles, improving the baseline model by 6.03 AP), but also show several interesting and noteworthy findings (e.g. the models trained with pseudo-labels perform better than that trained with ground-truth annotations based on the same training data). We hope this work can provide insights for the image-based 3D detection community under a semi-supervised setting. The codes, pseudo-labels, and pre-trained models will be publicly available.
翻訳日:2022-08-16 14:10:09 公開日:2022-08-15
# 連成メッシュとランドマーク回帰による人間の顔の視線再構成

Perspective Reconstruction of Human Faces by Joint Mesh and Landmark Regression ( http://arxiv.org/abs/2208.07142v1 )

ライセンス: Link先を確認
Jia Guo, Jinke Yu, Alexandros Lattas, Jiankang Deng(参考訳) 3次元顔の復元は目覚ましい進歩を遂げてきたが、ほとんどの直交投影に基づく顔再構成法は、視点投影による歪みにより顔がカメラに非常に近い場合、精度が高く一貫した再構成結果が得られない。 本稿では,世界空間における3次元顔メッシュの同時再構築と画像平面上の2次元顔ランドマークの予測を行い,視点3次元顔メッシュの再構築問題に対処する。 予測された3次元頂点と2次元ランドマークに基づいて、6DoF (6 Degrees of Freedom) 面のポーズをPnPソルバで容易に推定し、視点投影を表現する。 このアプローチはECCV 2022 WCPAチャレンジのリーダーボードで1位を獲得し、異なるアイデンティティ、表現、ポーズの下で視覚的に堅牢である。 トレーニングコードとモデルは、将来の研究を促進するためにリリースされている。

Even though 3D face reconstruction has achieved impressive progress, most orthogonal projection-based face reconstruction methods can not achieve accurate and consistent reconstruction results when the face is very close to the camera due to the distortion under the perspective projection. In this paper, we propose to simultaneously reconstruct 3D face mesh in the world space and predict 2D face landmarks on the image plane to address the problem of perspective 3D face reconstruction. Based on the predicted 3D vertices and 2D landmarks, the 6DoF (6 Degrees of Freedom) face pose can be easily estimated by the PnP solver to represent perspective projection. Our approach achieves 1st place on the leader-board of the ECCV 2022 WCPA challenge and our model is visually robust under different identities, expressions and poses. The training code and models are released to facilitate future research.
翻訳日:2022-08-16 14:09:43 公開日:2022-08-15
# CCTVカメラを用いた高齢者の転倒検出

Elderly Fall Detection Using CCTV Cameras under Partial Occlusion of the Subjects Body ( http://arxiv.org/abs/2208.07291v1 )

ライセンス: Link先を確認
Sara Khalili, Hoda Mohammadzade, Mohammad Mahdi Ahmadi(参考訳) 高齢者が日常生活で直面する危険の1つが減少している。 閉塞は視覚に基づく転倒検知システムにおける最大の課題の1つであり、検出性能を著しく低下させる。 この問題に対処するために,既存のデータセットを用いた転倒検出システムを訓練するために,特別に設計されたoccluded videoを合成する。 次に,新しいコスト関数を定義することにより,学習可能な転倒検出システムに適用可能なoccludedおよびun-occludedビデオを用いた転倒検出モデルの重み付けトレーニングフレームワークを提案する。 最後に,提案手法の有効性を評価するために,非深度モデルと深度モデルの両方を用いる。 実験の結果,非深さモデルでは36%,閉塞条件では55%の分類精度が得られた。 また,本提案手法は,通常の非閉塞サンプルにおける深層ネットワークの検出性能を著しく向上することを示す。

One of the possible dangers that older people face in their daily lives is falling. Occlusion is one of the biggest challenges of vision-based fall detection systems and degrades their detection performance considerably. To tackle this problem, we synthesize specifically-designed occluded videos for training fall detection systems using existing datasets. Then, by defining a new cost function, we introduce a framework for weighted training of fall detection models using occluded and un-occluded videos, which can be applied to any learnable fall detection system. Finally, we use both a non-deep and deep model to evaluate the effect of the proposed weighted training method. Experiments show that the proposed method can improve the classification accuracy by 36% for a non-deep model and 55% for a deep model in occlusion conditions. Moreover, it is shown that the proposed training framework can also significantly improve the detection performance of a deep network on normal un-occluded samples.
翻訳日:2022-08-16 14:09:18 公開日:2022-08-15
# Syn-MAD 2022:プライバシ・アウェア・シンセティック・トレーニングデータに基づく顔形態攻撃検出コンペティション

SYN-MAD 2022: Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data ( http://arxiv.org/abs/2208.07337v1 )

ライセンス: Link先を確認
Marco Huber, Fadi Boutros, Anh Thi Luu, Kiran Raja, Raghavendra Ramachandra, Naser Damer, Pedro C. Neto, Tiago Gon\c{c}alves, Ana F. Sequeira, Jaime S. Cardoso, Jo\~ao Tremo\c{c}o, Miguel Louren\c{c}o, Sergio Serra, Eduardo Cerme\~no, Marija Ivanovska, Borut Batagelj, Andrej Kronov\v{s}ek, Peter Peer, Vitomir \v{S}truc(参考訳) 本稿では,2022年国際生体計測合同会議(ijcb 2022)で開かれた,プライバシアウェア合成トレーニングデータ(syn-mad)に基づく顔形態検出に関するコンペティションの概要を紹介する。 このコンペには、学界と産業界の両方から計12チームが参加し、11か国で開催されている。 最終的に7つの有効な申請が参加チームによって提出され、主催者によって評価された。 競争は、倫理的および法的理由から人々のプライバシーを保護しながら、顔の変形攻撃を検知するソリューションを提示し、引き寄せた。 これを保証するため、トレーニングデータは主催者が提供する合成データに限定された。 提出されたソリューションは、多くの実験的な設定で考慮されるベースラインを上回ったイノベーションを提示した。 評価ベンチマークは、https://github.com/marcohuber/SYN-MAD-2022で公開されている。

This paper presents a summary of the Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data (SYN-MAD) held at the 2022 International Joint Conference on Biometrics (IJCB 2022). The competition attracted a total of 12 participating teams, both from academia and industry and present in 11 different countries. In the end, seven valid submissions were submitted by the participating teams and evaluated by the organizers. The competition was held to present and attract solutions that deal with detecting face morphing attacks while protecting people's privacy for ethical and legal reasons. To ensure this, the training data was limited to synthetic data provided by the organizers. The submitted solutions presented innovations that led to outperforming the considered baseline in many experimental settings. The evaluation benchmark is now available at: https://github.com/marcohuber/SYN-MAD-2022.
翻訳日:2022-08-16 14:09:03 公開日:2022-08-15
# クロスsituational action-object statisticsに基づく行動認識

Action Recognition based on Cross-Situational Action-object Statistics ( http://arxiv.org/abs/2208.07344v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, Xizi Wang, Guangyuan Weng, Yayun Zhang, David Crandall, Chen Yu(参考訳) 視覚行動認識の機械学習モデルは通常、アクションが特定のオブジェクトに関連付けられる特定の状況のデータに基づいて訓練され、テストされる。 トレーニングセットにおけるアクションオブジェクトの関連付けが、トレーニングされた状況を超えて一般化するモデルの能力にどのように影響するかは、オープンな疑問である。 我々は、より一般化能力の高い行動認識モデルに繋がる訓練データの特性を特定した。 これを実現するために,人間学習者は異なる状況で同じ概念の例を観察することで概念の意味を抽出できる,クロス・シチュエーション・ラーニングと呼ばれる認知メカニズムから着想を得た。 各種のアクションオブジェクト関連を制御した実験を行い、より優れた分類結果をもたらすトレーニングデータにおけるアクションオブジェクト共起の鍵となる特性を同定する。 これらの特性が、コンピュータビジョンの文献でアクション分類器を訓練するのに一般的に使用されるデータセットに欠けていることを考えると、我々の研究は、より良い一般化のために効率的にデータセットを構築するのに最適な方法についての有益な洞察を提供する。

Machine learning models of visual action recognition are typically trained and tested on data from specific situations where actions are associated with certain objects. It is an open question how action-object associations in the training set influence a model's ability to generalize beyond trained situations. We set out to identify properties of training data that lead to action recognition models with greater generalization ability. To do this, we take inspiration from a cognitive mechanism called cross-situational learning, which states that human learners extract the meaning of concepts by observing instances of the same concept across different situations. We perform controlled experiments with various types of action-object associations, and identify key properties of action-object co-occurrence in training data that lead to better classifiers. Given that these properties are missing in the datasets that are typically used to train action classifiers in the computer vision literature, our work provides useful insights on how we should best construct datasets for efficiently training for better generalization.
翻訳日:2022-08-16 14:08:46 公開日:2022-08-15
# 複数のミサイルの協調誘導--ハイブリッド共進化的アプローチ

Cooperative guidance of multiple missiles: a hybrid co-evolutionary approach ( http://arxiv.org/abs/2208.07156v1 )

ライセンス: Link先を確認
Junda Chen, Xuejing Lan, Zhijia Zhao, Tao Zou(参考訳) 複数のミサイルの協調的誘導は、時間と空間のコンセンサス、特に動的標的を攻撃する場合の厳密な制約を伴う困難な課題である。 本稿では,分散多目的協調最適化問題として協調誘導タスクを記述する。 協調指導によって直面する非定常性と連続制御の問題に対処するために、エリート適応学習技術とともに自然進化戦略(nes)を改善し、新たな自然共進化戦略(nces)を開発する。 元の進化戦略の勾配は、複数のミサイル間の相互作用による推定バイアスを減らすために再スケールされる。 次に,高度にスケーラブルな共進化機構と従来の指導戦略を統合することにより,ハイブリッド共進化協調指導法(hccgl)を提案する。 最後に, 異なる条件下での3つのシミュレーションにより, 協調指導課題の高精度解法の有効性と優越性を示す。 提案手法は,協調的指導だけでなく,多目的最適化,動的最適化,分散制御といった応用シナリオにおいても大きな期待が持たれている。

Cooperative guidance of multiple missiles is a challenging task with rigorous constraints of time and space consensus, especially when attacking dynamic targets. In this paper, the cooperative guidance task is described as a distributed multi-objective cooperative optimization problem. To address the issues of non-stationarity and continuous control faced by cooperative guidance, the natural evolutionary strategy (NES) is improved along with an elitist adaptive learning technique to develop a novel natural co-evolutionary strategy (NCES). The gradients of original evolutionary strategy are rescaled to reduce the estimation bias caused by the interaction between the multiple missiles. Then, a hybrid co-evolutionary cooperative guidance law (HCCGL) is proposed by integrating the highly scalable co-evolutionary mechanism and the traditional guidance strategy. Finally, three simulations under different conditions demonstrate the effectiveness and superiority of this guidance law in solving cooperative guidance tasks with high accuracy. The proposed co-evolutionary approach has great prospects not only in cooperative guidance, but also in other application scenarios of multi-objective optimization, dynamic optimization and distributed control.
翻訳日:2022-08-16 14:08:30 公開日:2022-08-15
# 商品名からの属性価値統合抽出のための生成モデルの検討

Exploring Generative Models for Joint Attribute Value Extraction from Product Titles ( http://arxiv.org/abs/2208.07130v1 )

ライセンス: Link先を確認
Kalyani Roy, Tapas Nayak and Pawan Goyal(参考訳) 製品の属性値は、あらゆるeコマースプラットフォームにおいて不可欠な要素です。 属性値抽出(ave)は、商品の属性とその価値をそのタイトルまたは説明から抽出することを扱う。 本稿では,AVEタスクに生成フレームワークを用いて取り組むことを提案する。 本稿では, aveタスクを生成問題として定式化することにより, 単語系列と位置系列に基づく2種類の生成パラダイムを提案する。 生成的アプローチが新たな最先端結果を達成する2つのデータセットについて実験を行う。 これは、追加のタグ付けやタスク固有のモデル設計なしに、提案フレームワークをavタスクに使用できることを示している。

Attribute values of the products are an essential component in any e-commerce platform. Attribute Value Extraction (AVE) deals with extracting the attributes of a product and their values from its title or description. In this paper, we propose to tackle the AVE task using generative frameworks. We present two types of generative paradigms, namely, word sequence-based and positional sequence-based, by formulating the AVE task as a generation problem. We conduct experiments on two datasets where the generative approaches achieve the new state-of-the-art results. This shows that we can use the proposed framework for AVE tasks without additional tagging or task-specific model design.
翻訳日:2022-08-16 14:08:13 公開日:2022-08-15
# スパースアノテーションを用いた意味対応学習

Learning Semantic Correspondence with Sparse Annotations ( http://arxiv.org/abs/2208.06974v1 )

ライセンス: Link先を確認
Shuaiyi Huang, Luyu Yang, Bo He, Songyang Zhang, Xuming He, Abhinav Shrivastava(参考訳) 密接な意味的対応を見つけることはコンピュータビジョンの根本的な問題であり、背景の混乱、極端なクラス内変異、そして厳格な根拠の欠如のために複雑な場面では依然として困難である。 本稿では,スパースキーポイントアノテーションからの監視信号の強化により,意味的対応におけるラベルの空間性の問題に対処することを目的とする。 そこで我々はまず,高密度な擬似ラベルを生成するための教師学習パラダイムを提案し,その上で,擬似ラベルを識別するための2つの新しい戦略を開発した。 特に、スパースアノテーションの周囲の空間的先行値を用いて、ノイズの多い擬似ラベルを抑える。 また,ラベル表示のための損失駆動動的ラベル選択戦略も導入する。 我々は,1つのオフライン教師設定と相互オンライン教師設定という,2種類の学習戦略でパラダイムをインスタンス化する。 提案手法はセマンティック対応のための3つの挑戦的ベンチマークにおいて顕著な改善を実現し,新しい最先端技術を確立する。 プロジェクトページ:https://shuaiyihuang.github.io/publications/SCorrSAN

Finding dense semantic correspondence is a fundamental problem in computer vision, which remains challenging in complex scenes due to background clutter, extreme intra-class variation, and a severe lack of ground truth. In this paper, we aim to address the challenge of label sparsity in semantic correspondence by enriching supervision signals from sparse keypoint annotations. To this end, we first propose a teacher-student learning paradigm for generating dense pseudo-labels and then develop two novel strategies for denoising pseudo-labels. In particular, we use spatial priors around the sparse annotations to suppress the noisy pseudo-labels. In addition, we introduce a loss-driven dynamic label selection strategy for label denoising. We instantiate our paradigm with two variants of learning strategies: a single offline teacher setting, and mutual online teachers setting. Our approach achieves notable improvements on three challenging benchmarks for semantic correspondence and establishes the new state-of-the-art. Project page: https://shuaiyihuang.github.io/publications/SCorrSAN.
翻訳日:2022-08-16 14:05:06 公開日:2022-08-15
# imagenetモデルによるディープフェイク検出と顔ランドマーク468の時間的画像

Deepfake Detection using ImageNet models and Temporal Images of 468 Facial Landmarks ( http://arxiv.org/abs/2208.06990v1 )

ライセンス: Link先を確認
Christeen T Jose(参考訳) 本稿では,時間的画像を用いたディープフェイク検出に関する結果と知見について述べる。 我々は、顔ランドマークの画素値を用いて画像(時間画像と呼ぶ)を構築し、所定の映像のフレームを横切る468個の顔ランドマークの動きに存在する時間関係を空間関係としてモデル化した。 CNNは、与えられた画像の画素間に存在する空間的関係を認識することができる。 調査には10種類のImageNetモデルが検討された。

This paper presents our results and findings on the use of temporal images for deepfake detection. We modelled temporal relations that exist in the movement of 468 facial landmarks across frames of a given video as spatial relations by constructing an image (referred to as temporal image) using the pixel values at these facial landmarks. CNNs are capable of recognizing spatial relationships that exist between the pixels of a given image. 10 different ImageNet models were considered for the study.
翻訳日:2022-08-16 14:04:48 公開日:2022-08-15
# HoW-3D:単一画像からのホロスティックな3Dワイヤーフレーム認識

HoW-3D: Holistic 3D Wireframe Perception from a Single Image ( http://arxiv.org/abs/2208.06999v1 )

ライセンス: Link先を確認
Wenchao Ma and Bin Tan and Nan Xue and Tianfu Wu and Xianwei Zheng and Gui-Song Xia(参考訳) 本稿では,可視3次元ワイヤーフレームと可視2次元画像の両方を知覚する新しい課題である3次元ワイヤフレーム知覚問題(how-3d)について検討する。 物体の非正面面は1つの視点では直接観測できないため、HoW-3Dにおける非視線(NLOS)測度を推定することは根本的な問題であり、コンピュータビジョンでは未解決のままである。 ABC-HoW ベンチマークは,ABC データベースをベースとした CAD モデル上に1k のシングルビュー画像とそれに対応する総体的な3D ワイヤフレームモデルを提案する。 大規模abc-howベンチマークを利用可能とし,人間の視覚システムのgestalt原則に従うことで,可視接合部と線分を基本として学習し,nlos 3d構造を可視手がかりから推定する,新しい深部空間ゲスタラット(dsg)モデルを提案する。 実験では,DSGモデルが一視点画像から総体的な3Dワイヤフレームを推定する際の性能を実証した。 強力なベースライン法と比較すると,DSGモデルは従来のワイヤフレーム検出器よりも高い性能を示し,高忠実なPointCloudを3次元ワイヤフレーム再構築のインプットとして利用する先行技術と非常に競合する。

This paper studies the problem of holistic 3D wireframe perception (HoW-3D), a new task of perceiving both the visible 3D wireframes and the invisible ones from single-view 2D images. As the non-front surfaces of an object cannot be directly observed in a single view, estimating the non-line-of-sight (NLOS) geometries in HoW-3D is a fundamentally challenging problem and remains open in computer vision. We study the problem of HoW-3D by proposing an ABC-HoW benchmark, which is created on top of CAD models sourced from the ABC-dataset with 12k single-view images and the corresponding holistic 3D wireframe models. With our large-scale ABC-HoW benchmark available, we present a novel Deep Spatial Gestalt (DSG) model to learn the visible junctions and line segments as the basis and then infer the NLOS 3D structures from the visible cues by following the Gestalt principles of human vision systems. In our experiments, we demonstrate that our DSG model performs very well in inferring the holistic 3D wireframes from single-view images. Compared with the strong baseline methods, our DSG model outperforms the previous wireframe detectors in detecting the invisible line geometry in single-view images and is even very competitive with prior arts that take high-fidelity PointCloud as inputs on reconstructing 3D wireframes.
翻訳日:2022-08-16 14:04:39 公開日:2022-08-15
# 微分可能レンダリングを用いた3次元再構成のための適応ジョイント最適化

Adaptive Joint Optimization for 3D Reconstruction with Differentiable Rendering ( http://arxiv.org/abs/2208.07003v1 )

ライセンス: Link先を確認
Jingbo Zhang, Ziyu Wan, Jing Liao(参考訳) 走査と量子化の間に生じる不可避なノイズのため、rgb-dセンサーによる3d再構成は、幾何学とテクスチャの両方のエラーに悩まされ、カメラのドリフト、メッシュ歪み、テクスチャゴースト、ぼやけなどの成果物に繋がる。 完璧に再構成された3Dモデルを考えると、従来の手法は幾何学、テクスチャ、カメラのポーズの洗練に重点を置いてきた。 あるいは、各コンポーネントを最適化するための異なる最適化スキームや目的が、以前のジョイント最適化手法で使われ、複雑なシステムを形成している。 本稿では, カメラのポーズ, 幾何学, テクスチャの最適化を, レンダリング結果と対応するRGB-D入力との整合性を持たせることによって統一的なフレームワークに統合する, 微分可能レンダリングに基づく新しい最適化手法を提案する。 この統一フレームワークに基づき,形状,テクスチャ,カメラポーズの相互関係を十分に活用するための協調最適化手法を導入し,最適化の安定性と効率を向上させるための適応的相互学習戦略について述べる。 微分可能レンダリングを用いることで、3Dモデルをさらに改善し、よりフォトリアリスティックにすることができる。 定量的および定性的評価を用いた合成および実データ実験により, 微細な形状と高忠実なテクスチャの回復におけるアプローチの優位性を実証した。

Due to inevitable noises introduced during scanning and quantization, 3D reconstruction via RGB-D sensors suffers from errors both in geometry and texture, leading to artifacts such as camera drifting, mesh distortion, texture ghosting, and blurriness. Given an imperfect reconstructed 3D model, most previous methods have focused on the refinement of either geometry, texture, or camera pose. Or different optimization schemes and objectives for optimizing each component have been used in previous joint optimization methods, forming a complicated system. In this paper, we propose a novel optimization approach based on differentiable rendering, which integrates the optimization of camera pose, geometry, and texture into a unified framework by enforcing consistency between the rendered results and the corresponding RGB-D inputs. Based on the unified framework, we introduce a joint optimization approach to fully exploit the inter-relationships between geometry, texture, and camera pose, and describe an adaptive interleaving strategy to improve optimization stability and efficiency. Using differentiable rendering, an image-level adversarial loss is applied to further improve the 3D model, making it more photorealistic. Experiments on synthetic and real data using quantitative and qualitative evaluation demonstrated the superiority of our approach in recovering both fine-scale geometry and high-fidelity texture.
翻訳日:2022-08-16 14:04:12 公開日:2022-08-15
# 栄養・リップル行動の特徴抽出による魚の給餌機械の自動制御

Automatic Controlling Fish Feeding Machine using Feature Extraction of Nutriment and Ripple Behavior ( http://arxiv.org/abs/2208.07011v1 )

ライセンス: Link先を確認
Hilmil Pradana and Keiichi Horio(参考訳) 漁獲機械の制御は、経験豊富な漁師が仮定に基づいて適切に制御できるため、難しい問題である。 合理的な応用のためのロバストな手法を構築するために,栄養素の数え上げとレグレッションとテクスチュラル特徴を用いたリップル挙動の推定を組み合わせたコンピュータビジョンに基づく自動魚の捕食機を提案する。 栄養分数を数えるために,海面に移動する栄養分を認識するために,物体検出法と追跡法を適用した。 近年,物体追跡はコンピュータビジョンにおける活発な研究と課題となっている。 残念なことに、密度が高く複雑な関係を持つ複数の小さな物体のロバストな追跡法は、より多くの外観を持つ水族館における未解決の問題である。 栄養分とリップル行動の数に基づいて,実環境において一貫して機能する魚給餌機を制御できる。 提案手法は, 活性化グラフによる魚の給餌を自動制御するための合意と, リップル行動のテクスチャ的特徴を示す。 追跡方法は,他の手法と比較して,次のフレームの栄養分を正確に追跡することができる。 計算時間に基づき、提案手法は3.86fps、他の手法は1.93fps未満である。 実環境に適用可能な養殖魚養殖場として,提案手法が有用であることを示す。

Controlling fish feeding machine is challenging problem because experienced fishermen can adequately control based on assumption. To build robust method for reasonable application, we propose automatic controlling fish feeding machine based on computer vision using combination of counting nutriments and estimating ripple behavior using regression and textural feature, respectively. To count number of nutriments, we apply object detection and tracking methods to acknowledge the nutriments moving to sea surface. Recently, object tracking is active research and challenging problem in computer vision. Unfortunately, the robust tracking method for multiple small objects with dense and complex relationships is unsolved problem in aquaculture field with more appearance creatures. Based on the number of nutriments and ripple behavior, we can control fish feeding machine which consistently performs well in real environment. Proposed method presents the agreement for automatic controlling fish feeding by the activation graphs and textural feature of ripple behavior. Our tracking method can precisely track the nutriments in next frame comparing with other methods. Based on computational time, proposed method reaches 3.86 fps while other methods spend lower than 1.93 fps. Quantitative evaluation can promise that proposed method is valuable for aquaculture fish farm with widely applied to real environment.
翻訳日:2022-08-16 14:03:47 公開日:2022-08-15
# メタコントラスト学習によるマイトショット物体検出のための階層的アテンションネットワーク

Hierarchical Attention Network for Few-Shot Object Detection via Meta-Contrastive Learning ( http://arxiv.org/abs/2208.07039v1 )

ライセンス: Link先を確認
Dongwoo Park, Jongmin Lee(参考訳) Few-shot Object Detection (FSOD)は、新しいカテゴリの画像の分類と検出を目的としている。 既存のメタラーニング手法では、構造的制限のため、サポートとクエリイメージの間の機能を十分に活用できない。 画像の検索とサポートを完全に活用するために,連続的に大きな受容フィールドを持つ階層的注意ネットワークを提案する。 さらに、メタ学習は、サポートとクエリイメージが一致するかどうかを決定するため、カテゴリをよく区別しない。 言い換えれば、メートル法に基づく分類学習は直接動作しないため効果がない。 そこで本研究では,メタコントラスト学習(meta-contrastive learning)と呼ばれる,メタ学習戦略の目的を直接達成するためのコントラスト学習手法を提案する。 最後に、重要なマージンを実現することによって、新しい最先端ネットワークを確立する。 提案手法は,COCOデータセット上の1~30ショットのオブジェクト検出において,2.3,1.0,1.3,3.4,2.4\%のAP改善を実現する。 私たちのコードは、https://github.com/infinity7428/hANMCLで利用可能です。

Few-shot object detection (FSOD) aims to classify and detect few images of novel categories. Existing meta-learning methods insufficiently exploit features between support and query images owing to structural limitations. We propose a hierarchical attention network with sequentially large receptive fields to fully exploit the query and support images. In addition, meta-learning does not distinguish the categories well because it determines whether the support and query images match. In other words, metric-based learning for classification is ineffective because it does not work directly. Thus, we propose a contrastive learning method called meta-contrastive learning, which directly helps achieve the purpose of the meta-learning strategy. Finally, we establish a new state-of-the-art network, by realizing significant margins. Our method brings 2.3, 1.0, 1.3, 3.4 and 2.4\% AP improvements for 1-30 shots object detection on COCO dataset. Our code is available at: https://github.com/infinity7428/hANMCL
翻訳日:2022-08-16 14:03:23 公開日:2022-08-15
# upst-nerf:3dシーンのための神経放射場の普遍的フォトリアリスティックスタイル転送

UPST-NeRF: Universal Photorealistic Style Transfer of Neural Radiance Fields for 3D Scene ( http://arxiv.org/abs/2208.07059v1 )

ライセンス: Link先を確認
Yaosen Chen and Qi Yuan and Zhiqiang Li and Yuegen Liu Wei Wang Chaoping Xie and Xuming Wen and Qien Yu(参考訳) 3dシーン フォトリアリスティックスタイライゼーションは、任意のノベルビューから任意のスタイルイメージに従ってフォトリアリスティックな画像を生成し、異なる視点からレンダリングする際に一貫性を確保することを目的としている。 ニューラルレイディアンスフィールドを用いた既存のスタイリゼーション手法では、スタイル画像の特徴とマルチビュー画像を組み合わせることで、スタイリズされたシーンを効果的に予測できる。 しかし,これらの手法は異物を含む新しいビュー画像を生成する。 また、3Dシーンの普遍的なフォトリアリスティックなスタイリングも達成できない。 したがって、スタイリング画像は、神経放射場に基づく3次元シーン表現ネットワークを再訓練する必要がある。 これらの問題に対処するために,新しい3次元シーンフォトリアリスティックスタイル転送フレームワークを提案する。 2Dスタイルの画像を用いて、フォトリアリスティックな3Dシーンスタイルの転送を実現する。 まず,任意のコンテンツ画像とスタイル画像間のフォトリアリスティックスタイル転送を満足できる2次元フォトリアリスティックスタイル転送ネットワークを事前学習した。 次に,3次元シーンを最適化し,そのシーンの幾何学的表現を得るためにボクセル機能を利用する。 最後に,ハイパーネットワークを協調して最適化し,任意のスタイル画像のシーンのフォトリアリスティックなスタイル転送を実現する。 転送段階では,事前学習した2Dフォトリアリスティックネットワークを用いて,3Dシーンにおける異なるビューと異なるスタイルの画像のフォトリアリスティックなスタイルを制約する。 実験結果から,本手法は任意のスタイル画像の3次元フォトリアリスティックなスタイル転送を実現するだけでなく,視覚的品質と一貫性の点で既存手法よりも優れることがわかった。 プロジェクトページ:https://semchan.github.io/UPST_NeRF。

3D scenes photorealistic stylization aims to generate photorealistic images from arbitrary novel views according to a given style image while ensuring consistency when rendering from different viewpoints. Some existing stylization methods with neural radiance fields can effectively predict stylized scenes by combining the features of the style image with multi-view images to train 3D scenes. However, these methods generate novel view images that contain objectionable artifacts. Besides, they cannot achieve universal photorealistic stylization for a 3D scene. Therefore, a styling image must retrain a 3D scene representation network based on a neural radiation field. We propose a novel 3D scene photorealistic style transfer framework to address these issues. It can realize photorealistic 3D scene style transfer with a 2D style image. We first pre-trained a 2D photorealistic style transfer network, which can meet the photorealistic style transfer between any given content image and style image. Then, we use voxel features to optimize a 3D scene and get the geometric representation of the scene. Finally, we jointly optimize a hyper network to realize the scene photorealistic style transfer of arbitrary style images. In the transfer stage, we use a pre-trained 2D photorealistic network to constrain the photorealistic style of different views and different style images in the 3D scene. The experimental results show that our method not only realizes the 3D photorealistic style transfer of arbitrary style images but also outperforms the existing methods in terms of visual quality and consistency. Project page:https://semchan.github.io/UPST_NeRF.
翻訳日:2022-08-16 14:03:09 公開日:2022-08-15
# カリキュラム事前学習による高圧縮画像の群衆カウント

Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training ( http://arxiv.org/abs/2208.07075v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) JPEG画像圧縮アルゴリズムはエッジおよびクラウドコンピューティング設定における画像サイズ削減に広く用いられている手法である。 しかし、ディープニューラルネットワークによって処理された画像にそのようなロスの少ない圧縮を適用すると、精度が著しく低下する可能性がある。 そこで我々は, カリキュラム学習パラダイムに触発されて, 圧縮画像に対する群衆カウントのためのカリキュラム事前学習 (cpt) と呼ばれる新しい学習手法を提案する。 提案手法の有効性を,3つの群集カウントデータセット,2つの群集カウントDNNモデル,および様々なレベルの圧縮実験により検証した。 提案手法はハイパーパラメータに過度に敏感ではなく,特に高圧縮画像の場合の誤差を最大19.70%削減する。

JPEG image compression algorithm is a widely used technique for image size reduction in edge and cloud computing settings. However, applying such lossy compression on images processed by deep neural networks can lead to significant accuracy degradation. Inspired by the curriculum learning paradigm, we present a novel training approach called curriculum pre-training (CPT) for crowd counting on compressed images, which alleviates the drop in accuracy resulting from lossy compression. We verify the effectiveness of our approach by extensive experiments on three crowd counting datasets, two crowd counting DNN models and various levels of compression. Our proposed training method is not overly sensitive to hyper-parameters, and reduces the error, particularly for heavily compressed images, by up to 19.70%.
翻訳日:2022-08-16 14:02:44 公開日:2022-08-15
# 心拍計と復号データ統合によるディープラーニングに基づく3段階心電図分類の強化

Enhancing Deep Learning-based 3-lead ECG Classification with Heartbeat Counting and Demographic Data Integration ( http://arxiv.org/abs/2208.07088v1 )

ライセンス: Link先を確認
Khiem H. Le, Hieu H. Pham, Thao B.T. Nguyen, Tu A. Nguyen, Cuong D. Do(参考訳) 現在、世界中で死因となっている心臓血管疾患(CVD)と診断される人が増えている。 これらの心疾患を特定するための金の基準は心電図(ECG)である。 標準の12誘導心電図は臨床および現在の研究の大半で広く使用されている。 しかし、少ない数のリードを使用することで、ポータブルデバイスやウェアラブルデバイスと統合できるため、ecgはより普及する。 本稿では,3誘導ECG分類における現在のディープラーニングシステムの性能向上のための2つの新しい手法を紹介し,標準12誘導ECGを用いて訓練されたモデルに匹敵するものである。 具体的には,心拍数回帰という形でのマルチタスク学習方式と,患者人口統計データをシステムに統合する効果的なメカニズムを提案する。 これら2つの進歩により、現在最先端のECG分類法を超越した2つの大規模ECGデータセット、すなわちChapmanとCPSC-2018において、F1スコアの0.9796と0.8140の分類性能を得た。 さらなる開発を促進するため、ソースコードはhttps://github.com/lhkhiem28/LightX3ECGで公開されています。

Nowadays, an increasing number of people are being diagnosed with cardiovascular diseases (CVDs), the leading cause of death globally. The gold standard for identifying these heart problems is via electrocardiogram (ECG). The standard 12-lead ECG is widely used in clinical practice and the majority of current research. However, using a lower number of leads can make ECG more pervasive as it can be integrated with portable or wearable devices. This article introduces two novel techniques to improve the performance of the current deep learning system for 3-lead ECG classification, making it comparable with models that are trained using standard 12-lead ECG. Specifically, we propose a multi-task learning scheme in the form of the number of heartbeats regression and an effective mechanism to integrate patient demographic data into the system. With these two advancements, we got classification performance in terms of F1 scores of 0.9796 and 0.8140 on two large-scale ECG datasets, i.e., Chapman and CPSC-2018, respectively, which surpassed current state-of-the-art ECG classification methods, even those trained on 12-lead data. To encourage further development, our source code is publicly available at https://github.com/lhkhiem28/LightX3ECG.
翻訳日:2022-08-16 14:02:31 公開日:2022-08-15
# リー代数コホモロジーに基づくグローバル一貫性ポイントクラウド登録

Global Consistent Point Cloud Registration Based on Lie-algebraic Cohomology ( http://arxiv.org/abs/2208.07103v1 )

ライセンス: Link先を確認
Yuxue Ren, Baowei Jiang, Wei Chen, Na Lei, Xianfeng David Gu(参考訳) 幾何トポロジによる大域点雲の登録問題に対して,新しい効果的手法を提案する。 多くのポイントクラウド対の登録法(ICPなど)に基づいて、任意のループに沿った変換の構成に対する累積誤差の問題に焦点をあてる。 本論文の主な技術的貢献は,ポアソン方程式の解法のみを用いて誤差の除去を行う線形手法である。 本手法はhodge-helmhotz分解定理と実世界の複数のrgbdデータセットの一貫性を示す。 実験の結果,グローバル登録手法が高速に動作し,正確な復元が可能となった。

We present a novel, effective method for global point cloud registration problems by geometric topology. Based on many point cloud pairwise registration methods (e.g ICP), we focus on the problem of accumulated error for the composition of transformations along any loops. The major technical contribution of this paper is a linear method for the elimination of errors, using only solving a Poisson equation. We demonstrate the consistency of our method from Hodge-Helmhotz decomposition theorem and experiments on multiple RGBD datasets of real-world scenes. The experimental results also demonstrate that our global registration method runs quickly and provides accurate reconstructions.
翻訳日:2022-08-16 14:02:12 公開日:2022-08-15
# STAR-GNN:コンテンツ検索のための時空間ビデオ表現

STAR-GNN: Spatial-Temporal Video Representation for Content-based Retrieval ( http://arxiv.org/abs/2208.06966v1 )

ライセンス: Link先を確認
Guoping Zhao, Bingqing Zhang, Mingyu Zhang, Yaxian Li, Jiajun Liu, and Ji-Rong Wen(参考訳) マルチスケール格子特徴グラフにプラグイン可能なグラフニューラルネットワークコンポーネントを適用するSTAR-GNNというビデオ特徴表現学習フレームワークを提案する。 STAR-GNNの本質は、フレーム内の異なるスケールの領域間の視覚的接続と同様に、時間的ダイナミクスと空間的内容の両方を活用することである。 これは、各ノードが異なる粒度の領域を表し、重み付けされたエッジが空間的および時間的リンクを表す格子的特徴グラフを持つビデオをモデル化する。 コンテキストノードはグラフニューラルネットワークによって同時に集約され、検索三重項損失を訓練する。 実験では,STAR-GNNがビデオフレームシーケンスに動的アテンション機構を効果的に実装し,映像中の動的で意味的にリッチなコンテンツに重点を置いており,ノイズや冗長性に対して堅牢であることを示す。 実験結果から,STAR-GNNはコンテンツベースビデオ検索の最先端性能を実現することが示された。

We propose a video feature representation learning framework called STAR-GNN, which applies a pluggable graph neural network component on a multi-scale lattice feature graph. The essence of STAR-GNN is to exploit both the temporal dynamics and spatial contents as well as visual connections between regions at different scales in the frames. It models a video with a lattice feature graph in which the nodes represent regions of different granularity, with weighted edges that represent the spatial and temporal links. The contextual nodes are aggregated simultaneously by graph neural networks with parameters trained with retrieval triplet loss. In the experiments, we show that STAR-GNN effectively implements a dynamic attention mechanism on video frame sequences, resulting in the emphasis for dynamic and semantically rich content in the video, and is robust to noise and redundancies. Empirical results show that STAR-GNN achieves state-of-the-art performance for Content-Based Video Retrieval.
翻訳日:2022-08-16 13:56:09 公開日:2022-08-15
# 非ブロックバッチa*(技術報告)

Non-Blocking Batch A* (Technical Report) ( http://arxiv.org/abs/2208.07031v1 )

ライセンス: Link先を確認
Rishi Veerapaneni, Maxim Likhachev(参考訳) ヒューリスティック探索は伝統的に手作りまたはプログラムによるヒューリスティックスに依存している。 ニューラルネットワーク(NN)は、状態からコスト対過去のヒューリスティックまで複雑なマッピングを学ぶために使用できる、より新しい強力なツールである。 しかし、それらのシングル推論時間は大きなオーバーヘッドであり、最適化されたヒューリスティック検索実装における計画時間を大幅に遅くすることができる。 いくつかの最近の研究で、NNのバッチ計算を利用して計画のオーバーヘッドを減らし、(サブ)最適性に制限を課す方法が説明されている。 しかしながら、これらの手法はすべて、バッチを構築しながらNNヒューリスティックを"ブロッキング"方式で使用しており、通常は使用可能な高速で計算可能なヒューリスティック(例えば、既存の古典的派生ヒューリスティック)を無視している。 非ブロックバッチA*(NBBA*)は,非NNヒューリスティックによる拡張を許容しつつ,バッチ内のNNヒューリスティックを遅延的に計算する有界部分最適化手法である。 この微妙ながら重要な変更が、現在のブロッキング方式と比較して拡張の大幅な削減につながることを示し、その性能が、バッチ計算されたNNと高速な非NNヒューリスティック間の情報差に関連していることを確認する。

Heuristic search has traditionally relied on hand-crafted or programmatically derived heuristics. Neural networks (NNs) are newer powerful tools which can be used to learn complex mappings from states to cost-to-go heuristics. However, their slow single inference time is a large overhead that can substantially slow down planning time in optimized heuristic search implementations. Several recent works have described ways to take advantage of NN's batch computations to decrease overhead in planning, while retaining bounds on (sub)optimality. However, all these methods have used the NN heuristic in a "blocking" manner while building up their batches, and have ignored possible fast-to-compute admissible heuristics (e.g. existing classically derived heuristics) that are usually available to use. We introduce Non-Blocking Batch A* (NBBA*), a bounded suboptimal method which lazily computes the NN heuristic in batches while allowing expansions informed by a non-NN heuristic. We show how this subtle but important change can lead to substantial reductions in expansions compared to the current blocking alternative, and see that the performance is related to the information difference between the batch computed NN and fast non-NN heuristic.
翻訳日:2022-08-16 13:40:18 公開日:2022-08-15
# 統計的仮説テストプログラムのための音響的および相対的完全信奉論理

Sound and Relatively Complete Belief Hoare Logic for Statistical Hypothesis Testing Programs ( http://arxiv.org/abs/2208.07074v1 )

ライセンス: Link先を確認
Yusuke Kawamoto, Tetsuya Sato, Kohei Suenaga(参考訳) 本稿では,統計的推論の要件を形式的に記述し,プログラムが統計的手法を適切に利用するかどうかを確認するための新しい手法を提案する。 具体的には,仮説検定によって得られた統計的信念を形式化・推論するために,信念ホーア論理(bhl)を定義する。 このプログラム論理は、仮説テストのためのクリプキモデルに対して健全で比較的完全である。 本稿では,BHLが仮説テストの実践的問題に対する推論に有用であることを実例で示す。 本稿では,仮説検定による統計的信念獲得における先行的信念の重要性を明らかにし,プログラム論理内外における統計的推論の正当化の全体像について考察する。

We propose a new approach to formally describing the requirement for statistical inference and checking whether a program uses the statistical method appropriately. Specifically, we define belief Hoare logic (BHL) for formalizing and reasoning about the statistical beliefs acquired via hypothesis testing. This program logic is sound and relatively complete with respect to a Kripke model for hypothesis tests. We demonstrate by examples that BHL is useful for reasoning about practical issues in hypothesis testing. In our framework, we clarify the importance of prior beliefs in acquiring statistical beliefs through hypothesis testing, and discuss the whole picture of the justification of statistical inference inside and outside the program logic.
翻訳日:2022-08-16 13:39:55 公開日:2022-08-15
# uni6dv2:6次元ポーズ推定のためのノイズ除去

Uni6Dv2: Noise Elimination for 6D Pose Estimation ( http://arxiv.org/abs/2208.06416v1 )

ライセンス: Link先を確認
Mingshan Sun, Ye Zheng, Tianpeng Bao, Jianqiu Chen, Guoqiang Jin, Liwei Wu, Rui Zhao, Xiaoke Jiang(参考訳) 以前の6Dポーズ推定手法はほとんどないが、バックボーンネットワークを使ってRGBと深度画像から特徴を抽出し、Uni6Dがその先駆者である。 Uni6D のパフォーマンス制限の主な原因は Instance-Outside と Instance-Inside のノイズである。 uni6dは、本質的に単純なパイプライン設計のため、レセプティブフィールドの背景画素からのインスタンス-アウトサイドノイズを必然的に導入し、入力深度データにおけるインスタンス-インサイドノイズを無視する。 本稿では,上述した雑音をuni6dで処理するための2段階のデノージング法を提案する。 最初のステップでは、インスタンスセグメンテーションネットワークを使用してインスタンスを収穫し、非インスタンス領域からノイズを除去する。 第2のステップでは、ポーズ回帰ネットワークに投入する前に、深さ特性を校正する軽量深度復調モジュールを提案する。 広範に実験した結果,Uni6Dv2 という手法は騒音を効果的かつ堅牢に除去し,推定効率を過大に損なうことなく Uni6D より優れることがわかった。 また、高価なラベリングを必要とする注釈付き実データの必要性も減らす。

Few prior 6D pose estimation methods use a backbone network to extract features from RGB and depth images, and Uni6D is the pioneer to do so. We find that primary causes of the performance limitation in Uni6D are Instance-Outside and Instance-Inside noise. Uni6D inevitably introduces Instance-Outside noise from background pixels in the receptive field due to its inherently straightforward pipeline design and ignores the Instance-Inside noise in the input depth data. In this work, we propose a two-step denoising method to handle aforementioned noise in Uni6D. In the first step, an instance segmentation network is used to crop and mask the instance to remove noise from non-instance regions. In the second step, a lightweight depth denoising module is proposed to calibrate the depth feature before feeding it into the pose regression network. Extensive experiments show that our method called Uni6Dv2 is able to eliminate the noise effectively and robustly, outperforming Uni6D without sacrificing too much inference efficiency. It also reduces the need for annotated real data that requires costly labeling.
翻訳日:2022-08-16 13:39:29 公開日:2022-08-15
# 空間的関係抽出のための分類と生成のハイブリッドモデル

A Hybrid Model of Classification and Generation for Spatial Relation Extraction ( http://arxiv.org/abs/2208.06961v1 )

ライセンス: Link先を確認
Feng Wang Peifeng Li and Qiaoming Zhu(参考訳) テキストから空間関係を抽出することは自然言語理解の基本的な課題であり、以前の研究では分類タスクとしてのみ考慮しており、その知識の乏しいため、空間関係をヌルの役割で無視している。 上記の課題に対処するため、まず空間関係抽出を生成タスクとみなし、新しいハイブリッドモデル HMCGR を提案する。 HMCGRは生成と分類モデルを含み、前者はこれらのヌルロール関係を生成でき、後者はそれらの非ヌルロール関係を抽出して相互に補完することができる。 さらに、空間関係の反射率原理に基づいて精度をさらに向上させる反射率評価機構を適用する。 SpaceEvalの実験結果によると、HMCGRはSOTAのベースラインを大きく上回っている。

Extracting spatial relations from texts is a fundamental task for natural language understanding and previous studies only regard it as a classification task, ignoring those spatial relations with null roles due to their poor information. To address the above issue, we first view spatial relation extraction as a generation task and propose a novel hybrid model HMCGR for this task. HMCGR contains a generation and a classification model, while the former can generate those null-role relations and the latter can extract those non-null-role relations to complement each other. Moreover, a reflexivity evaluation mechanism is applied to further improve the accuracy based on the reflexivity principle of spatial relation. Experimental results on SpaceEval show that HMCGR outperforms the SOTA baselines significantly.
翻訳日:2022-08-16 13:32:42 公開日:2022-08-15
# ELEVANT: 完全自動微粒化エンティティリンク評価と分析ツール

ELEVANT: A Fully Automatic Fine-Grained Entity Linking Evaluation and Analysis Tool ( http://arxiv.org/abs/2208.07193v1 )

ライセンス: Link先を確認
Hannah Bast, Matthias Hertel and Natalie Prange(参考訳) ベンチマークの集合上でエンティティリンカの集合を詳細に評価するツールであるElevantを提案する。 Elevantは、さまざまなエラーカテゴリとエンティティタイプによるパフォーマンスの自動分解を提供する。 Elevantはまた、ベンチマーク上のリンカの結果を、基礎的な真実と比較して、リッチでコンパクトで、非常に直感的で自己説明的な視覚化を提供する。 ライブデモ、GitHubの完全なコードベースへのリンク、デモビデオへのリンクはhttps://elevant.cs.uni-freiburg.deで提供されている。

We present Elevant, a tool for the fully automatic fine-grained evaluation of a set of entity linkers on a set of benchmarks. Elevant provides an automatic breakdown of the performance by various error categories and by entity type. Elevant also provides a rich and compact, yet very intuitive and self-explanatory visualization of the results of a linker on a benchmark in comparison to the ground truth. A live demo, the link to the complete code base on GitHub and a link to a demo video are provided under https://elevant.cs.uni-freiburg.de .
翻訳日:2022-08-16 13:32:30 公開日:2022-08-15
# 予習変圧器を用いた連続能動学習

Continuous Active Learning Using Pretrained Transformers ( http://arxiv.org/abs/2208.06955v1 )

ライセンス: Link先を確認
Nima Sadri, Gordon V. Cormack(参考訳) BERTやT5のような事前訓練および微調整されたトランスフォーマーモデルでは、アドホック検索や質問応答の手法が改良されているが、ハイリコール情報検索では、ほぼすべての関連文書を検索することが目的である。 情報検索技術の現状を表すtrecトータルリコールトラックのベースラインモデル実装を,トランスフォーマトモデルによる再ランキングおよび/または実現が改善するかどうかについて検討する。 また、関連性フィードバックに基づいてBERTベースのモデルを連続的に微調整できるモデルであるCALBERTを紹介する。

Pre-trained and fine-tuned transformer models like BERT and T5 have improved the state of the art in ad-hoc retrieval and question-answering, but not as yet in high-recall information retrieval, where the objective is to retrieve substantially all relevant documents. We investigate whether the use of transformer-based models for reranking and/or featurization can improve the Baseline Model Implementation of the TREC Total Recall Track, which represents the current state of the art for high-recall information retrieval. We also introduce CALBERT, a model that can be used to continuously fine-tune a BERT-based model based on relevance feedback.
翻訳日:2022-08-16 13:28:50 公開日:2022-08-15
# 変圧器を用いたDense Passage Retrievalの評価

Evaluating Dense Passage Retrieval using Transformers ( http://arxiv.org/abs/2208.06959v1 )

ライセンス: Link先を確認
Nima Sadri(参考訳) トランスフォーマーに基づく表現的検索モデルはここ数年で大きな進歩を遂げてきたが、広く受け入れられている慣習やそれらのモデルをテストするためのベストプラクティスにもかかわらず、それらのテストのための$\textit{standardized}$評価フレームワークは開発されていない。 本研究では、文献の研究者によるベストプラクティスと慣行を形式化し、より標準化された評価のための道を歩み、したがってモデル間のより公正な比較を行う。 本フレームワークは,(1) ドキュメントとクエリを埋め込み,(2) クエリとドキュメントのペアごとに,ドキュメントのドット積とクエリの埋め込みに基づいて関連スコアを計算し,(3) MSMARCO データセットの $\texttt{dev}$ セットを用いてモデルを評価する。(4) は,モデルを評価するのに使用する主要な指標である MRR@100 の計算に $\texttt{trec_eval}$ スクリプトを使用する。 最も重要なのは,このフレームワークの利用を,最もよく知られた高密度検索モデルで実験することで紹介することです。

Although representational retrieval models based on Transformers have been able to make major advances in the past few years, and despite the widely accepted conventions and best-practices for testing such models, a $\textit{standardized}$ evaluation framework for testing them has not been developed. In this work, we formalize the best practices and conventions followed by researchers in the literature, paving the path for more standardized evaluations - and therefore more fair comparisons between the models. Our framework (1) embeds the documents and queries; (2) for each query-document pair, computes the relevance score based on the dot product of the document and query embedding; (3) uses the $\texttt{dev}$ set of the MSMARCO dataset to evaluate the models; (4) uses the $\texttt{trec_eval}$ script to calculate MRR@100, which is the primary metric used to evaluate the models. Most importantly, we showcase the use of this framework by experimenting on some of the most well-known dense retrieval models.
翻訳日:2022-08-16 13:28:36 公開日:2022-08-15
# DuETA: Baidu MapsにおけるETA予測のための効率的なグラフ学習による交通渋滞伝播パターンモデリング

DuETA: Traffic Congestion Propagation Pattern Modeling via Efficient Graph Learning for ETA Prediction at Baidu Maps ( http://arxiv.org/abs/2208.06979v1 )

ライセンス: Link先を確認
Jizhou Huang, Zhengjie Huang, Xiaomin Fang, Shikun Feng, Xuyi Chen, Jiaxiang Liu, Haitao Yuan, Haifeng Wang(参考訳) 到着推定時刻(eta)予測(英: estimated time of arrival, eta)は、航法、ルート計画、配車サービスなど、幅広いインテリジェントな輸送アプリケーションのための基本的なタスクである。 経路の走行時間を正確に予測するには,空間的-時間的相互作用,運転行動,交通渋滞伝播推定といった文脈的・予測的要因を考慮に入れることが不可欠である。 これまでBaidu MapsにデプロイされていたETA予測モデルは、空間的時間的相互作用(ConSTGAT)と運転行動(SSML)の要因に対処してきた。 本研究では,交通渋滞伝播パターンのモデル化に焦点をあて,ETA性能の向上を図る。 交通渋滞伝播パターンのモデル化は困難であり,道路ネットワーク上での交通事象による遅延変動の累積効果と時間的影響を考慮に入れる必要がある。 本稿では,DuETAという産業レベルのETA予測フレームワークを提案する。 具体的には,交通パターンの相関に基づく混雑感グラフを構築し,道路セグメントの長距離相関を直接学習する経路対応グラフ変換器を開発した。 この設計により、DuETAは空間的に距離があるが交通条件と非常に相関している道路セグメント間の相互作用を捉えることができる。 baiduマップから収集した大規模実世界のデータセットに関する広範な実験が行われている。 実験の結果,eta予測は,学習した交通渋滞伝播パターンに有益であることがわかった。 加えて、DuETAはすでにBaidu Mapsで実運用環境にデプロイされており、毎日何十億ものリクエストを処理している。 このことは、DuETAが大規模ETA予測サービスの産業グレードで堅牢なソリューションであることを示している。

Estimated time of arrival (ETA) prediction, also known as travel time estimation, is a fundamental task for a wide range of intelligent transportation applications, such as navigation, route planning, and ride-hailing services. To accurately predict the travel time of a route, it is essential to take into account both contextual and predictive factors, such as spatial-temporal interaction, driving behavior, and traffic congestion propagation inference. The ETA prediction models previously deployed at Baidu Maps have addressed the factors of spatial-temporal interaction (ConSTGAT) and driving behavior (SSML). In this work, we focus on modeling traffic congestion propagation patterns to improve ETA performance. Traffic congestion propagation pattern modeling is challenging, and it requires accounting for impact regions over time and cumulative effect of delay variations over time caused by traffic events on the road network. In this paper, we present a practical industrial-grade ETA prediction framework named DuETA. Specifically, we construct a congestion-sensitive graph based on the correlations of traffic patterns, and we develop a route-aware graph transformer to directly learn the long-distance correlations of the road segments. This design enables DuETA to capture the interactions between the road segment pairs that are spatially distant but highly correlated with traffic conditions. Extensive experiments are conducted on large-scale, real-world datasets collected from Baidu Maps. Experimental results show that ETA prediction can significantly benefit from the learned traffic congestion propagation patterns. In addition, DuETA has already been deployed in production at Baidu Maps, serving billions of requests every day. This demonstrates that DuETA is an industrial-grade and robust solution for large-scale ETA prediction services.
翻訳日:2022-08-16 13:28:17 公開日:2022-08-15
# ROLAND:動的グラフのためのグラフ学習フレームワーク

ROLAND: Graph Learning Framework for Dynamic Graphs ( http://arxiv.org/abs/2208.07239v1 )

ライセンス: Link先を確認
Jiaxuan You, Tianyu Du, Jure Leskovec(参考訳) グラフニューラルネットワーク(GNN)は多くの実世界の静的グラフに適用されている。 しかしながら、静的グラフの成功は、モデル設計、評価設定、トレーニング戦略の制限のため、動的グラフに完全には変換されていない。 具体的には、既存の動的GNNには静的GNNの最先端設計は組み込まれていない。 動的GNNの現在の評価設定は、動的グラフの進化的な性質を完全に反映していない。 最後に、動的GNNの一般的な訓練方法はスケーラブルではない。 本稿では,実世界の動的グラフに対する効果的なグラフ表現学習フレームワークであるrolandを提案する。 ROLANDフレームワークの中核となるのは、静的GNNを動的グラフに簡単に再利用できることだ。 我々の洞察は、異なるGNN層に埋め込まれたノードを階層的なノード状態とみなし、時間とともに繰り返し更新することです。 次に、GNNが予測を行い、ローリングベースで更新する実世界のユースケースを模倣した動的グラフのリアルタイム評価設定を導入する。 最後に、インクリメンタルトレーニングとメタラーニングによる動的GNNのスケーラブルで効率的なトレーニング手法を提案する。 将来のリンク予測タスクにおいて,8種類の動的グラフデータセット上で実験を行う。 ROLANDフレームワークを使用して構築されたモデルは、3つのデータセットの標準的な評価設定の下で、最先端のベースラインよりも平均62.7%の平均相反ランク(MRR)を改善する。 最先端のベースラインはより大きなデータセットでメモリ外のエラーが発生し、rolandは5600万エッジの動的グラフに容易にスケールできる。 ROLANDトレーニング戦略を用いてこれらのベースラインを再実装した後も、ROLANDモデルはベースラインよりも平均15.5%の相対的なMRR改善を達成している。

Graph Neural Networks (GNNs) have been successfully applied to many real-world static graphs. However, the success of static graphs has not fully translated to dynamic graphs due to the limitations in model design, evaluation settings, and training strategies. Concretely, existing dynamic GNNs do not incorporate state-of-the-art designs from static GNNs, which limits their performance. Current evaluation settings for dynamic GNNs do not fully reflect the evolving nature of dynamic graphs. Finally, commonly used training methods for dynamic GNNs are not scalable. Here we propose ROLAND, an effective graph representation learning framework for real-world dynamic graphs. At its core, the ROLAND framework can help researchers easily repurpose any static GNN to dynamic graphs. Our insight is to view the node embeddings at different GNN layers as hierarchical node states and then recurrently update them over time. We then introduce a live-update evaluation setting for dynamic graphs that mimics real-world use cases, where GNNs are making predictions and being updated on a rolling basis. Finally, we propose a scalable and efficient training approach for dynamic GNNs via incremental training and meta-learning. We conduct experiments over eight different dynamic graph datasets on future link prediction tasks. Models built using the ROLAND framework achieve on average 62.7% relative mean reciprocal rank (MRR) improvement over state-of-the-art baselines under the standard evaluation settings on three datasets. We find state-of-the-art baselines experience out-of-memory errors for larger datasets, while ROLAND can easily scale to dynamic graphs with 56 million edges. After re-implementing these baselines using the ROLAND training strategy, ROLAND models still achieve on average 15.5% relative MRR improvement over the baselines.
翻訳日:2022-08-16 13:27:48 公開日:2022-08-15
# 線形相関有意テストのための予測データ校正

Predictive Data Calibration for Linear Correlation Significance Testing ( http://arxiv.org/abs/2208.07081v1 )

ライセンス: Link先を確認
Kaustubh R. Patil, Simon B. Eickhoff, Robert Langner(参考訳) 線形関係の推測は多くの実証研究の中心にある。 線形依存の尺度は、その関係の強さを正しく評価し、それが人口にとって意味があるかどうかを判断する必要がある。 ピアソン相関係数(Pearson's correlation coefficient, PCC)とは、二変量関係の測度である。 推定強度は、サンプルサイズが限られ、データの非正規性のため、おそらく間違っています。 統計的に重要なテストの文脈では、後続確率としての$p$-valueの誤解釈はタイプIエラーにつながる。 このような誤りは、複数の仮説を同時にテストする際に悪化する。 そこで本研究では,データサンプルを想定した線形関係に基づいて本質的に条件付けする機械学習に基づく予測データキャリブレーション手法を提案する。 キャリブレーションされたデータを用いたPCCの計算では、キャリブレーションされた$p$-値が、キャリブレーションされた$r$推定とともに後続確率と解釈できる。 さらに、各テストの独立した解釈は、複数のテスト修正の必要性をなくす可能性がある。 提案手法を応用した実証的証拠と実世界のデータへの適用について述べる。

Inferring linear relationships lies at the heart of many empirical investigations. A measure of linear dependence should correctly evaluate the strength of the relationship as well as qualify whether it is meaningful for the population. Pearson's correlation coefficient (PCC), the \textit{de-facto} measure for bivariate relationships, is known to lack in both regards. The estimated strength $r$ maybe wrong due to limited sample size, and nonnormality of data. In the context of statistical significance testing, erroneous interpretation of a $p$-value as posterior probability leads to Type I errors -- a general issue with significance testing that extends to PCC. Such errors are exacerbated when testing multiple hypotheses simultaneously. To tackle these issues, we propose a machine-learning-based predictive data calibration method which essentially conditions the data samples on the expected linear relationship. Calculating PCC using calibrated data yields a calibrated $p$-value that can be interpreted as posterior probability together with a calibrated $r$ estimate, a desired outcome not provided by other methods. Furthermore, the ensuing independent interpretation of each test might eliminate the need for multiple testing correction. We provide empirical evidence favouring the proposed method using several simulations and application to real-world data.
翻訳日:2022-08-16 13:27:18 公開日:2022-08-15
# 境界上の確率近似に対する収束率

Convergence Rates for Stochastic Approximation on a Boundary ( http://arxiv.org/abs/2208.07243v1 )

ライセンス: Link先を確認
Kody Law and Neil Walton and Shangda Yang(参考訳) 我々は、制約セットの境界に最適が配置され、最適に勾配が消えない場合に焦点をあてた確率勾配勾配の挙動を解析する。 ここでは、各ステップで目的に対して進捗を期待する。 これと雑音に対する適切なモーメント条件が成立すると、制約付き確率勾配勾配の最適値への収束速度は、制約なし確率勾配勾配のアルゴリズムと異なり、典型的には高速であることを示す。 その結果, 最適値周辺の濃度は通常分布するよりも指数関数的に分布し, 非拘束の場合の限界収束を決定する。 私たちが開発する手法は幾何学的エルゴディディティ証明に依存している。 これはHajek (1982) によるマルコフ連鎖の結果を確率近似アルゴリズムの領域にまで拡張し、その例として線形プログラミングやグラフ強化学習にどのように適用するかを示す。

We analyze the behavior of projected stochastic gradient descent focusing on the case where the optimum is on the boundary of the constraint set and the gradient does not vanish at the optimum. Here iterates may in expectation make progress against the objective at each step. When this and an appropriate moment condition on noise holds, we prove that the convergence rate to the optimum of the constrained stochastic gradient descent will be different and typically be faster than the unconstrained stochastic gradient descent algorithm. Our results argue that the concentration around the optimum is exponentially distributed rather than normally distributed, which typically determines the limiting convergence in the unconstrained case. The methods that we develop rely on a geometric ergodicity proof. This extends a result on Markov chains by Hajek (1982) to the area of stochastic approximation algorithms.As examples, we show how the results apply to linear programming and tabular reinforcement learning.
翻訳日:2022-08-16 13:26:58 公開日:2022-08-15
# 予測から予測する

Predicting from Predictions ( http://arxiv.org/abs/2208.07331v1 )

ライセンス: Link先を確認
Celestine Mendler-D\"unner, Frances Ding, Yixin Wang(参考訳) 期待される教育成果や信用リスクなど、人々に関する予測は、実行可能であり、予測を目的とした成果を形作ることができる。 これらの予測が結果に与える因果効果を理解することは、将来の予測モデルの意味を予測し、どのモデルをデプロイするかを選択する上で非常に重要である。 モデル予測は入力特徴の決定論的機能であり、結果と高い相関があるため、予測の因果効果は共変量の直接的な効果と区別できない。 この問題を因果識別可能性のレンズを通して検討し,本問題の完全一般性は困難であるものの,予測と予測に基づく決定のランダム化,データ収集中にデプロイされた予測モデルの過剰パラメータ化,離散予測出力という,観測データから結果に対する予測の因果効果を識別できる3つの自然シナリオに注目した。 適切な識別可能性条件下では、予測から予測する教師付き学習の標準的な変種は、特徴、予測、結果の間の伝達可能な機能的関係を見出すことができ、新たにデプロイされた予測モデルに関する結論が得られることを実証的に示す。 我々の肯定的な結果は、データ収集中に記録されるモデル予測に基本的に依存しており、社会的な成果をよりよく理解し、フィードバックループを実行するための標準データ収集プラクティスを再考することの重要性を推し進めている。

Predictions about people, such as their expected educational achievement or their credit risk, can be performative and shape the outcome that they aim to predict. Understanding the causal effect of these predictions on the eventual outcomes is crucial for foreseeing the implications of future predictive models and selecting which models to deploy. However, this causal estimation task poses unique challenges: model predictions are usually deterministic functions of input features and highly correlated with outcomes, which can make the causal effects of predictions impossible to disentangle from the direct effect of the covariates. We study this problem through the lens of causal identifiability, and despite the hardness of this problem in full generality, we highlight three natural scenarios where the causal effect of predictions on outcomes can be identified from observational data: randomization in predictions or prediction-based decisions, overparameterization of the predictive model deployed during data collection, and discrete prediction outputs. We show empirically that, under suitable identifiability conditions, standard variants of supervised learning that predict from predictions can find transferable functional relationships between features, predictions, and outcomes, allowing for conclusions about newly deployed prediction models. Our positive results fundamentally rely on model predictions being recorded during data collection, bringing forward the importance of rethinking standard data collection practices to enable progress towards a better understanding of social outcomes and performative feedback loops.
翻訳日:2022-08-16 13:26:44 公開日:2022-08-15
# オートエンコーダのメカニズムフレームワークについて

On a Mechanism Framework of Autoencoders ( http://arxiv.org/abs/2208.06995v1 )

ライセンス: Link先を確認
Changcun Huang(参考訳) 本稿では,オートエンコーダの機構に関する理論的枠組みを提案する。 エンコーダ部では,主用途として次元還元法を用い,その2つの基本特性について検討する。 上記の2つの特性のいずれかまたは両方を満たすエンコーダの一般的な構成法が与えられる。 エンコーダ構成の結果、デコーダ部分に対して、アフィン変換を使わずに解の新たな基本原理を提案する。 オートエンコーダの一般化機構をモデル化する。 ReLUオートエンコーダの結果は、いくつかの非ReLUケース、特にシグモイド単位オートエンコーダに一般化される。 上記の理論的枠組みに基づき, 変分オートエンコーダ, 雑音化オートエンコーダ, 線形単位オートエンコーダの実験結果を説明し, エンコーダによるデータの低次元表現の解釈に重点を置いている。 PCAと決定木と比較して,次元減少と分類における(一般化された)オートエンコーダの利点が示された。 畳み込みニューラルネットワークやランダム重み付けニューラルネットワークもこのフレームワークによって解釈される。

This paper proposes a theoretical framework on the mechanism of autoencoders. To the encoder part, under the main use of dimensionality reduction, we investigate its two fundamental properties: bijective maps and data disentangling. The general construction methods of an encoder that satisfies either or both of the above two properties are given. To the decoder part, as a consequence of the encoder constructions, we present a new basic principle of the solution, without using affine transforms. The generalization mechanism of autoencoders is modeled. The results of ReLU autoencoders are generalized to some non-ReLU cases, particularly for the sigmoid-unit autoencoder. Based on the theoretical framework above, we explain some experimental results of variational autoencoders, denoising autoencoders, and linear-unit autoencoders, with emphasis on the interpretation of the lower-dimensional representation of data via encoders; and the mechanism of image restoration through autoencoders is natural to be understood by those explanations. Compared to PCA and decision trees, the advantages of (generalized) autoencoders on dimensionality reduction and classification are demonstrated, respectively. Convolutional neural networks and randomly weighted neural networks are also interpreted by this framework.
翻訳日:2022-08-16 13:21:33 公開日:2022-08-15
# 教師なしドメイン適応のためのベンチマーク検証手法

Benchmarking Validation Methods for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2208.07360v1 )

ライセンス: Link先を確認
Kevin Musgrave, Serge Belongie, Ser-Nam Lim(参考訳) 本稿では,11種類のUDA検証手法を比較し,ランク付けする。 バリデータはモデルの精度を推定し、任意のUDAトレインテストパイプラインに不可欠なコンポーネントとなる。 最適なモデル、チェックポイント、ハイパーパラメータを選択するのに最も有用であることを示すために、これらのバリデーターをランク付けする。 さらに,新しい有効検証器と既存検証器の大幅な改良版の提案と比較を行った。 私たちの知る限りでは、この大規模なベンチマーク研究は、UDA分野における最初のものである。

This paper compares and ranks 11 UDA validation methods. Validators estimate model accuracy, which makes them an essential component of any UDA train-test pipeline. We rank these validators to indicate which of them are most useful for the purpose of selecting optimal models, checkpoints, and hyperparameters. In addition, we propose and compare new effective validators and significantly improved versions of existing validators. To the best of our knowledge, this large-scale benchmark study is the first of its kind in the UDA field.
翻訳日:2022-08-16 13:20:55 公開日:2022-08-15
# GANを用いた画素アートキャラクタスプライトの生成

Generating Pixel Art Character Sprites using GANs ( http://arxiv.org/abs/2208.06413v1 )

ライセンス: Link先を確認
Fl\'avio Coutinho, Luiz Chaimowicz(参考訳) ゲーム開発プロセスにおいて,ピクセルアートキャラクタスプライトシートの作成を繰り返すことが不可欠である。 しかし、さまざまなポーズやアニメーションクリップを含む最終バージョンが完成するまでは、多くの労力が必要となる。 本稿では,このようなスプライトシートの作成を支援するために,条件付き生成対向ネットワークを用いて検討する。 本稿では、Pix2Pixをベースとしたアーキテクチャを提案し、ソースポーズ(例えば、フロント)において、ターゲット側(例えば、右)に向き合う文字の画像を生成する。 小さなピクセルアートデータセットによる実験は有望な結果をもたらし、結果として様々な一般化のモデルが生まれ、時には地上の真実に非常に近い画像を生成することができた。 視覚検査とFIDによる定量的解析を行った。

Iterating on creating pixel art character sprite sheets is essential to the game development process. However, it can take a lot of effort until the final versions containing different poses and animation clips are achieved. This paper investigates using conditional generative adversarial networks to aid the designers in creating such sprite sheets. We propose an architecture based on Pix2Pix to generate images of characters facing a target side (e.g., right) given sprites of them in a source pose (e.g., front). Experiments with small pixel art datasets yielded promising results, resulting in models with varying degrees of generalization, sometimes capable of generating images very close to the ground truth. We analyze the results through visual inspection and quantitatively with FID.
翻訳日:2022-08-16 13:20:48 公開日:2022-08-15
# ピラミッド型予測ネットワーク:予測符号化理論に基づくビジュアルフレーム予測モデル

Pyramidal Predictive Network: A Model for Visual-frame Prediction Based on Predictive Coding Theory ( http://arxiv.org/abs/2208.07021v1 )

ライセンス: Link先を確認
Chaofan Ling, Junpei Zhong and Weihua Li(参考訳) 認知科学におけるよく知られた予測符号化理論に着想を得て,視覚フレーム予測のためのニューラルネットワークモデルを提案する。 本稿では,ビジュアルフレーム予測のための効率的な予測ネットワークモデルを設計するために,予測符号化とディープラーニングアーキテクチャの理論的枠組みを組み合わせることを目的とする。 このモデルは、それぞれトップダウンストリームとボトムアップストリームを形成する一連の繰り返しユニットと畳み込みユニットで構成されている。 ネットワークの各レイヤのconvlstmを使って、視覚シーケンスで将来のフレームを予測し、トップからダウンへの局所的な予測を行う。 我々のモデルの主な革新は、ネットワークレベルの増加に伴い、各層上の神経単位の更新頻度が減少し、結果としてモデルが時間次元の観点からピラミッドのように見え、これをピラミッド予測ネットワーク(ppnet)と呼ぶことである。 特に、このピラミッドのようなデザインは、予測符号化フレームワークにかかわる神経科学の知見のニューロン活動と一致している。 実験結果によると, このモデルでは, 計算コストの低減と予測精度の向上を示唆し, 既存の作業と同等の圧縮性と予測性能を示す。 コードはhttps://github.com/Ling-CF/PPNet.comから入手できる。

Inspired by the well-known predictive coding theory in cognitive science, we propose a novel neural network model for the task of visual-frame prediction. In this paper, our main work is to combine the theoretical framework of predictive coding and deep learning architectures, to design an efficient predictive network model for visual-frame prediction. The model is composed of a series of recurrent and convolutional units forming the top-down and bottom-up streams, respectively. It learns to predict future frames in a visual sequence, with ConvLSTMs on each layer in the network making local prediction from top to down. The main innovation of our model is that the update frequency of neural units on each of the layer decreases with the increasing of network levels, which results in the model appears like a pyramid from the perspective of time dimension, so we call it the Pyramid Predictive Network (PPNet). Particularly, this pyramid-like design is consistent to the neuronal activities in the neuroscience findings involved in the predictive coding framework. According to the experimental results, this model shows better compactness and comparable predictive performance with existing works, implying lower computational cost and higher prediction accuracy. Code will be available at https://github.com/Ling-CF/PPNet.
翻訳日:2022-08-16 13:19:56 公開日:2022-08-15
# menli: 自然言語推論によるロバストな評価指標

MENLI: Robust Evaluation Metrics from Natural Language Inference ( http://arxiv.org/abs/2208.07316v1 )

ライセンス: Link先を確認
Yanran Chen and Steffen Eger(参考訳) 最近提案されたBERTベースの評価指標は、標準的な評価ベンチマークでよく機能するが、例えば事実性エラーに関する敵攻撃に対して脆弱である。 これは、それらが意味的類似性のモデルであるという事実に由来する(一部)。 対照的に、我々は自然言語推論(NLI)に基づく評価指標を開発し、より適切なモデリングを行う。 我々は、嗜好ベースの敵攻撃フレームワークを設計し、我々のNLIベースのメトリクスが最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。 標準ベンチマークでは、NLIベースのメトリクスは既存の要約の指標よりも優れていますが、SOTA MTの指標よりは劣ります。 しかし、既存のメトリクスをNLIメトリクスと組み合わせると、標準ベンチマーク(+5%から+25%)で測定された高い逆の堅牢性(+20%から+30%)と高品質のメトリクスの両方が得られます。

Recently proposed BERT-based evaluation metrics perform well on standard evaluation benchmarks but are vulnerable to adversarial attacks, e.g., relating to factuality errors. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when we combine existing metrics with our NLI metrics, we obtain both higher adversarial robustness (+20% to +30%) and higher quality metrics as measured on standard benchmarks (+5% to +25%).
翻訳日:2022-08-16 13:19:38 公開日:2022-08-15
# 高精度空中計算によるエネルギー・スペクトル高効率フェデレーション学習

Energy and Spectrum Efficient Federated Learning via High-Precision Over-the-Air Computation ( http://arxiv.org/abs/2208.07237v1 )

ライセンス: Link先を確認
Liang Li, Chenpei Huang, Dian Shi, Hao Wang, Xiangwei Zhou, Minglei Shu, Miao Pan(参考訳) フェデレーション学習(fl)は、モバイルデバイスがデータをローカルに保持しながら共有予測モデルを協調的に学習することを可能にする。 しかし、モバイルデバイス上でFLを実際にデプロイするための2つの大きな研究課題がある。 (i)大容量勾配v.s.限定スペクトル資源の頻繁な無線更新と (II) 電池制約モバイルデバイスのトレーニング中における省エネFL通信とローカルコンピューティング。 そこで本稿では,FLにおける局所モデル更新のスペクトル効率向上のためのマルチビットオーバーザエア計算(M-AirComp)手法を提案する。 具体的には、M-AirCompに高速デジタル変調方式を組み込んで、モバイルデバイスが選択した位置のモデル更新を同時にマルチアクセスチャネルにアップロードできるようにする。 さらに,このflアルゴリズムの収束特性を理論的に解析する。 FLコンバージェンス解析によって導かれ、FLにおけるモバイル機器の全体的なエネルギー消費(反復ローカルコンピューティングとマルチラウンド通信)を最小化することを目的として、共同送信確率と局所計算制御最適化を定式化する。 シミュレーションの結果,提案手法はスペクトル利用率,エネルギー効率,学習精度において既存手法よりも優れていた。

Federated learning (FL) enables mobile devices to collaboratively learn a shared prediction model while keeping data locally. However, there are two major research challenges to practically deploy FL over mobile devices: (i) frequent wireless updates of huge size gradients v.s. limited spectrum resources, and (ii) energy-hungry FL communication and local computing during training v.s. battery-constrained mobile devices. To address those challenges, in this paper, we propose a novel multi-bit over-the-air computation (M-AirComp) approach for spectrum-efficient aggregation of local model updates in FL and further present an energy-efficient FL design for mobile devices. Specifically, a high-precision digital modulation scheme is designed and incorporated in the M-AirComp, allowing mobile devices to upload model updates at the selected positions simultaneously in the multi-access channel. Moreover, we theoretically analyze the convergence property of our FL algorithm. Guided by FL convergence analysis, we formulate a joint transmission probability and local computing control optimization, aiming to minimize the overall energy consumption (i.e., iterative local computing + multi-round communications) of mobile devices in FL. Extensive simulation results show that our proposed scheme outperforms existing ones in terms of spectrum utilization, energy efficiency, and learning accuracy.
翻訳日:2022-08-16 13:15:25 公開日:2022-08-15
# LLM.int8():大規模変圧器の8ビット行列乗算

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale ( http://arxiv.org/abs/2208.07339v1 )

ライセンス: Link先を確認
Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer(参考訳) 大規模な言語モデルが広く採用されているが、推論には大きなgpuメモリを必要とする。 Int8行列乗算法をトランスのフィードフォワードおよびアテンションプロジェクション層に適用し,完全な精度を維持しながら推論に必要なメモリを半減する手法を開発した。 提案手法では,175Bパラメータ16/32ビットのチェックポイントをロードし,Int8に変換し,性能劣化なしに即座に使用することができる。 これは、注目とトランスフォーマー予測性能を支配するトランスフォーマー言語モデルにおいて、高度に体系化された創発的特徴の性質を理解し、取り巻くことで実現される。 これらの特徴に対処するため, 2部量子化法, LLM.int8() を開発した。 まず、行列乗算における各内積の正規化定数を分離したベクトルワイド量子化を用いて、ほとんどの特徴を定量化する。 しかし、創発的外乱に対しては、新しい混合精度分解スキームも含み、外乱的特徴次元を16ビットの行列乗算に分離すると同時に、99.9%以上の値を8ビットで乗算する。 LLM.int8()を用いて,最大175Bのパラメータを持つLLMにおいて,性能劣化を伴わずに推論を行うことができることを示す。 この結果、コンシューマGPUを使用した単一サーバでOPT-175B/BLOOMを使用できるようになるなど、このようなモデルの方がはるかにアクセスしやすい。

Large language models have been widely adopted but require significant GPU memory for inference. We develop a procedure for Int8 matrix multiplication for feed-forward and attention projection layers in transformers, which cut the memory needed for inference by half while retaining full precision performance. With our method, a 175B parameter 16/32-bit checkpoint can be loaded, converted to Int8, and used immediately without performance degradation. This is made possible by understanding and working around properties of highly systematic emergent features in transformer language models that dominate attention and transformer predictive performance. To cope with these features, we develop a two-part quantization procedure, LLM.int8(). We first use vector-wise quantization with separate normalization constants for each inner product in the matrix multiplication, to quantize most of the features. However, for the emergent outliers, we also include a new mixed-precision decomposition scheme, which isolates the outlier feature dimensions into a 16-bit matrix multiplication while still more than 99.9% of values are multiplied in 8-bit. Using LLM.int8(), we show empirically it is possible to perform inference in LLMs with up to 175B parameters without any performance degradation. This result makes such models much more accessible, for example making it possible to use OPT-175B/BLOOM on a single server with consumer GPUs.
翻訳日:2022-08-16 13:15:04 公開日:2022-08-15
# ドメイン不変表現学習の統一因果的視点

A Unified Causal View of Domain Invariant Representation Learning ( http://arxiv.org/abs/2208.06987v1 )

ライセンス: Link先を確認
Zihao Wang and Victor Veitch(参考訳) トレーニングされたドメインと異なるドメインにデプロイされた場合、機械学習のメソッドは信頼性に欠ける。 これに対処するために、我々は、ドメイン間で安定したデータ構造を保存するが、散発的に不安定な部分を捨てるという意味で、ドメイン不変なデータの表現を学ぼうとするかもしれない。 このタイプの表現学習には、データ拡張に基づく方法、分布不変性、リスク不変性など多くの方法がある。 残念ながら、特定の現実世界のドメインシフトに直面している場合、これらのメソッドのどれが機能するかは明らかではない。 本研究の目的は,異なる手法が相互にどのように関係しているかを示し,それぞれの成功を期待する現実的状況を明らかにすることである。 鍵となるツールは、因果関係が不変であるという考えに依存する新しいドメインシフトの概念であるが、非因果関係(例えば、結合によって)は異なる可能性がある。

Machine learning methods can be unreliable when deployed in domains that differ from the domains on which they were trained. To address this, we may wish to learn representations of data that are domain-invariant in the sense that we preserve data structure that is stable across domains, but throw out spuriously-varying parts. There are many representation-learning approaches of this type, including methods based on data augmentation, distributional invariances, and risk invariance. Unfortunately, when faced with any particular real-world domain shift, it is unclear which, if any, of these methods might be expected to work. The purpose of this paper is to show how the different methods relate to each other, and clarify the real-world circumstances under which each is expected to succeed. The key tool is a new notion of domain shift relying on the idea that causal relationships are invariant, but non-causal relationships (e.g., due to confounding) may vary.
翻訳日:2022-08-16 13:14:29 公開日:2022-08-15
# 正規化Schr\"odinger-Bridge-based Stochastic Process による生成モデリング

Applying Regularized Schr\"odinger-Bridge-Based Stochastic Process in Generative Modeling ( http://arxiv.org/abs/2208.07131v1 )

ライセンス: Link先を確認
Ki-Ung Song(参考訳) 近年提案された拡散モデルでは, 従来の関数ベースモデルと比較して, 確率的プロセスベースアプローチにより優れた性能を達成している。 しかし、離散化のための多くの時間ステップのため、このアプローチには長いサンプリング時間が必要である。 Schr\"odinger Bridge (SB) ベースのモデルは、分布間の双方向確率過程を訓練することによってこの問題に対処しようとする。 しかし、生成的敵ネットワークのような生成的モデルと比較してサンプリング速度は遅い。 そして、双方向確率過程のトレーニングのためには、比較的長いトレーニング時間が必要です。 そこで本研究では,既存のSBモデルに対して,時間ステップ数とトレーニング時間を削減し,双方向確率過程の整合性と安定性を低下させる正規化条件を提案する。 各正規化項は単一の項に統合され、計算時間とメモリ使用量のより効率的なトレーニングを可能にした。 この正規化確率過程を様々な生成タスクに適用し、異なる分布間の所望の変換を求め、より高速なサンプリング速度を持つ確率過程に基づく生成的モデリングの可能性を確認することができた。 コードはhttps://github.com/kiungsong/rsbで入手できる。

Compared to the existing function-based models in deep generative modeling, the recently proposed diffusion models have achieved outstanding performance with a stochastic-process-based approach. But a long sampling time is required for this approach due to many timesteps for discretization. Schr\"odinger bridge (SB)-based models attempt to tackle this problem by training bidirectional stochastic processes between distributions. However, they still have a slow sampling speed compared to generative models such as generative adversarial networks. And due to the training of the bidirectional stochastic processes, they require a relatively long training time. Therefore, this study tried to reduce the number of timesteps and training time required and proposed regularization terms to the existing SB models to make the bidirectional stochastic processes consistent and stable with a reduced number of timesteps. Each regularization term was integrated into a single term to enable more efficient training in computation time and memory usage. Applying this regularized stochastic process to various generation tasks, the desired translations between different distributions were obtained, and accordingly, the possibility of generative modeling based on a stochastic process with faster sampling speed could be confirmed. The code is available at https://github.com/KiUngSong/RSB.
翻訳日:2022-08-16 13:14:14 公開日:2022-08-15
# InvisibiliTee: ティーによる人物追跡システムからの角度依存的クローズ

InvisibiliTee: Angle-agnostic Cloaking from Person-Tracking Systems with a Tee ( http://arxiv.org/abs/2208.06962v1 )

ライセンス: Link先を確認
Yaxian Li, Bingqing Zhang, Guoping Zhao, Mingyu Zhang, Jiajun Liu, Ziwei Wang, and Jirong Wen(参考訳) 個人追跡システムによるプライバシー問題の調査の後,InvisibiliTeeと呼ばれる最先端の人間検出モデルに対するブラックボックス攻撃手法を提案する。 この方法は、個人追跡システムの前で物理的な世界に身を包むtシャツの印刷可能な逆向きパターンを学習する。 ファッションデータセットのセグメンテーションと幾何学的ワーププロセスを利用して、すべてのカメラアングルから人検出装置を騙し、見知らぬブラックボックス検出モデルに有効であるように、角度に依存しない学習手法を設計する。 デジタル環境と物理的環境の両方における経験的な結果から、アイビビライトをオンにすることで、個人追跡システムによる着用者の検出能力が著しく低下することが示された。

After a survey for person-tracking system-induced privacy concerns, we propose a black-box adversarial attack method on state-of-the-art human detection models called InvisibiliTee. The method learns printable adversarial patterns for T-shirts that cloak wearers in the physical world in front of person-tracking systems. We design an angle-agnostic learning scheme which utilizes segmentation of the fashion dataset and a geometric warping process so the adversarial patterns generated are effective in fooling person detectors from all camera angles and for unseen black-box detection models. Empirical results in both digital and physical environments show that with the InvisibiliTee on, person-tracking systems' ability to detect the wearer drops significantly.
翻訳日:2022-08-16 13:12:54 公開日:2022-08-15
# Z-BERT-A:未知物体検出のためのゼロショットパイプライン

Z-BERT-A: a zero-shot Pipeline for Unknown Intent detection ( http://arxiv.org/abs/2208.07084v1 )

ライセンス: Link先を確認
Daniele Comi, Dimitrios Christofidellis, Pier Francesco Piazza and Matteo Manica(参考訳) 意図の発見はnlpの基本的なタスクであり、様々な産業応用に益々関係している( quarteroni 2018)。 主な課題は、新しい目立たないインテントの入力発話から識別する必要性にある。 本稿では、Transformerアーキテクチャ(Vaswani et al. 2017; Devlin et al. 2018; fine-tuned with Adapters (Pfeiffer et al. 2020)に依存した意図発見のための2段階手法であるZ-BERT-Aを提案する。 本評価では,まず,既知のクラスにおける適応的微調整後のモデル品質を解析する。 次に,NLIタスクとしてパフォーマンスキャスト意図分類を評価する。 最後に,Z-BERT-Aが意味論的に同一でなくても,真理に近いインテントを生成することによって,モデルが持つゼロショット性能を非可視クラスで検証する。 我々の実験は、Z-BERT-Aが2つのゼロショット設定(既知のインテント分類と見えないインテント発見)において、多種多様なベースラインを上回っていることを示す。 提案するパイプラインは,カスタマケアのさまざまなアプリケーションに適用可能な可能性を秘めている。 大規模な言語モデルとは異なり、さまざまなビジネスシナリオで簡単にデプロイおよびスケールできる軽量モデルを使用して、自動動的トリアージを可能にする。 特に、ハードウェアの可用性とパフォーマンスに制限がある場合、オンプレミスや低リソースのクラウドデプロイメントは必須である。 単一の発話から新しい意図を予測するZ-BERT-Aは、意図発見のための革新的なアプローチであり、新しい意図のオンライン生成を可能にする。 パイプラインは以下のリンクでインストール可能なpythonパッケージとして利用できる。

Intent discovery is a fundamental task in NLP, and it is increasingly relevant for a variety of industrial applications (Quarteroni 2018). The main challenge resides in the need to identify from input utterances novel unseen in-tents. Herein, we propose Z-BERT-A, a two-stage method for intent discovery relying on a Transformer architecture (Vaswani et al. 2017; Devlin et al. 2018), fine-tuned with Adapters (Pfeiffer et al. 2020), initially trained for Natural Language Inference (NLI), and later applied for unknown in-tent classification in a zero-shot setting. In our evaluation, we firstly analyze the quality of the model after adaptive fine-tuning on known classes. Secondly, we evaluate its performance casting intent classification as an NLI task. Lastly, we test the zero-shot performance of the model on unseen classes, showing how Z-BERT-A can effectively perform in-tent discovery by generating intents that are semantically similar, if not equal, to the ground truth ones. Our experiments show how Z-BERT-A is outperforming a wide variety of baselines in two zero-shot settings: known intents classification and unseen intent discovery. The proposed pipeline holds the potential to be widely applied in a variety of application for customer care. It enables automated dynamic triage using a lightweight model that, unlike large language models, can be easily deployed and scaled in a wide variety of business scenarios. Especially when considering a setting with limited hardware availability and performance whereon-premise or low resource cloud deployments are imperative. Z-BERT-A, predicting novel intents from a single utterance, represents an innovative approach for intent discovery, enabling online generation of novel intents. The pipeline is available as an installable python package at the following link: https://github.com/GT4SD/zberta.
翻訳日:2022-08-16 13:09:58 公開日:2022-08-15
# グラフカラー化問題に対するグラフニューラルネットワークの再検討

Rethinking Graph Neural Networks for the Graph Coloring Problem ( http://arxiv.org/abs/2208.06975v1 )

ライセンス: Link先を確認
Wei Li, Ruxuan Li, Yuzhe Ma, Siu On Chan, David Pan, Bei Yu(参考訳) グラフカラー化は古典的で批判的なNPハード問題であり、接続ノードをできるだけ異なる色に割り当てる問題である。 しかし,現状のGNNはグラフカラー化問題においてあまり成功していない。 理由を2つの観点から分析する。 まず、ほとんどのgnnはホモフィリーの下でタスクをヘテロフィリー、すなわち接続されたノードが異なる色に割り当てられるグラフに一般化することができない。 第二に、GNNはネットワーク深さによって境界付けられており、最大独立集合(MIS)問題において最適でないことが証明された局所的な方法である。 本稿では,一般的なGNNクラスである集約合成GNN(AC-GNN)に焦点を当てる。 まず,色分け問題におけるAC-GNNのパワーを,ノードに異なる色を割り当てる能力として定義する。 この定義は、ホモフィリーの仮定に基づく以前の定義とは異なる。 我々は、AC-GNNが識別できないノード対を同定する。 さらに,任意のAC-GNNは局所着色法であり,任意の局所着色法はスパースランダムグラフ上の局所手法の限界を探索することにより,その局所特性によるAC-GNNの非最適性を示す。 そして,モデル深度とその彩色力との正の相関を証明した。 さらに,グラフの色同分散について検討し,固定前の制約など実用上の制約に取り組む。 上述の議論に続いて、色問題においてGNN色を不変かつ強力にする一連のルールを要約する。 そして,これらのルールを満たす簡単なAC-GNN変種を提案する。 理論的知見を実証的に検証し、我々の単純なモデルは、品質と実行時の両方で最先端のヒューリスティックアルゴリズムを大幅に上回っていることを示す。

Graph coloring, a classical and critical NP-hard problem, is the problem of assigning connected nodes as different colors as possible. However, we observe that state-of-the-art GNNs are less successful in the graph coloring problem. We analyze the reasons from two perspectives. First, most GNNs fail to generalize the task under homophily to heterophily, i.e., graphs where connected nodes are assigned different colors. Second, GNNs are bounded by the network depth, making them possible to be a local method, which has been demonstrated to be non-optimal in Maximum Independent Set (MIS) problem. In this paper, we focus on the aggregation-combine GNNs (AC-GNNs), a popular class of GNNs. We first define the power of AC-GNNs in the coloring problem as the capability to assign nodes different colors. The definition is different with previous one that is based on the assumption of homophily. We identify node pairs that AC-GNNs fail to discriminate. Furthermore, we show that any AC-GNN is a local coloring method, and any local coloring method is non-optimal by exploring the limits of local methods over sparse random graphs, thereby demonstrating the non-optimality of AC-GNNs due to its local property. We then prove the positive correlation between model depth and its coloring power. Moreover, we discuss the color equivariance of graphs to tackle some practical constraints such as the pre-fixing constraints. Following the discussions above, we summarize a series of rules a series of rules that make a GNN color equivariant and powerful in the coloring problem. Then, we propose a simple AC-GNN variation satisfying these rules. We empirically validate our theoretical findings and demonstrate that our simple model substantially outperforms state-of-the-art heuristic algorithms in both quality and runtime.
翻訳日:2022-08-16 13:07:46 公開日:2022-08-15
# 応答選択を補助タスクとする効率的なタスク指向対話システム

Efficient Task-Oriented Dialogue Systems with Response Selection as an Auxiliary Task ( http://arxiv.org/abs/2208.07097v1 )

ライセンス: Link先を確認
Radostin Cholakov and Todor Kolev(参考訳) タスク指向対話システムにおける事前学習言語モデルの導入により、テキスト生成能力が大幅に向上した。 しかしながら、これらのアーキテクチャはトレーニング可能なパラメータの多さから使用が遅く、多様なレスポンスを生成できない場合がある。 これらの制約に対処するため, 応答選択のための補助的タスクを持つ2つのモデルを提案し, 1) 乱れを接地真理応答から区別し, (2) 接地真理ラベルから合成応答を区別する。 彼らは107.5と108.3のスコアでMultiWOZ 2.1データセットの最先端結果を達成し、3倍のパラメータでベースラインを上回った。 再現可能なコードとチェックポイントを公開し、t5ベースのアーキテクチャに補助タスクを適用する効果について論じる。

The adoption of pre-trained language models in task-oriented dialogue systems has resulted in significant enhancements of their text generation abilities. However, these architectures are slow to use because of the large number of trainable parameters and can sometimes fail to generate diverse responses. To address these limitations, we propose two models with auxiliary tasks for response selection - (1) distinguishing distractors from ground truth responses and (2) distinguishing synthetic responses from ground truth labels. They achieve state-of-the-art results on the MultiWOZ 2.1 dataset with combined scores of 107.5 and 108.3 and outperform a baseline with three times more parameters. We publish reproducible code and checkpoints and discuss the effects of applying auxiliary tasks to T5-based architectures.
翻訳日:2022-08-16 13:03:51 公開日:2022-08-15
# 自動対向攻撃最適化設計のための多目的メメティクスアルゴリズム

A Multi-objective Memetic Algorithm for Auto Adversarial Attack Optimization Design ( http://arxiv.org/abs/2208.06984v1 )

ライセンス: Link先を確認
Jialiang Sun and Wen Yao and Tingsong Jiang and Xiaoqian Chen(参考訳) 逆例の現象は、様々なシナリオで明らかにされている。 近年の研究では、よく設計された敵防衛戦略が、敵の例に対する深層学習モデルの堅牢性を向上させることが示されている。 しかし、防衛技術の急速な発展に伴い、既存の手動設計による敵攻撃の弱い性能のため、防御モデルの堅牢性を評価することも困難になる傾向にある。 この課題に対処するためには、防御モデルから計算負担が小さく、ロバストな精度の低い効率的な敵攻撃をさらに活用する必要がある。 そこで我々は,防衛モデルに対する準最適攻撃の自動探索を実現する自動対向攻撃最適化設計のための多目的メメティックアルゴリズムを提案する。 まず, 自動対向攻撃最適化設計のより一般的な数学的モデルを構築し, 探索空間は攻撃操作, 大きさ, イテレーション数, 損失関数だけでなく, 複数対向攻撃の接続方法も含む。 さらに,NSGA-IIと局所探索を組み合わせた多目的メメティックアルゴリズムを開発し,最適化問題を解く。 最後に,探索中の評価コストを削減するために,モデルによって出力される各画像のクロスエントロピー損失値のソートに基づく代表データ選択戦略を提案する。 CIFAR10, CIFAR100, ImageNetデータセットを用いた実験により, 提案手法の有効性が示された。

The phenomenon of adversarial examples has been revealed in variant scenarios. Recent studies show that well-designed adversarial defense strategies can improve the robustness of deep learning models against adversarial examples. However, with the rapid development of defense technologies, it also tends to be more difficult to evaluate the robustness of the defensed model due to the weak performance of existing manually designed adversarial attacks. To address the challenge, given the defensed model, the efficient adversarial attack with less computational burden and lower robust accuracy is needed to be further exploited. Therefore, we propose a multi-objective memetic algorithm for auto adversarial attack optimization design, which realizes the automatical search for the near-optimal adversarial attack towards defensed models. Firstly, the more general mathematical model of auto adversarial attack optimization design is constructed, where the search space includes not only the attacker operations, magnitude, iteration number, and loss functions but also the connection ways of multiple adversarial attacks. In addition, we develop a multi-objective memetic algorithm combining NSGA-II and local search to solve the optimization problem. Finally, to decrease the evaluation cost during the search, we propose a representative data selection strategy based on the sorting of cross entropy loss values of each images output by models. Experiments on CIFAR10, CIFAR100, and ImageNet datasets show the effectiveness of our proposed method.
翻訳日:2022-08-16 13:02:35 公開日:2022-08-15
# ヴァルドはどこだ? MICCAI 2021における血管病変の検出とセグメンタティ

Where is VALDO? VAscular Lesions Detection and segmentatiOn challenge at MICCAI 2021 ( http://arxiv.org/abs/2208.07167v1 )

ライセンス: Link先を確認
Carole H. Sudre, Kimberlin Van Wijnen, Florian Dubost, Hieab Adams, David Atkinson, Frederik Barkhof, Mahlet A. Birhanu, Esther E. Bron, Robin Camarasa, Nish Chaturvedi, Yuan Chen, Zihao Chen, Shuai Chen, Qi Dou, Tavia Evans, Ivan Ezhov, Haojun Gao, Marta Girones Sanguesa, Juan Domingo Gispert, Beatriz Gomez Anson, Alun D. Hughes, M. Arfan Ikram, Silvia Ingala, H. Rolf Jaeger, Florian Kofler, Hugo J. Kuijf, Denis Kutnar, Minho Lee, Bo Li, Luigi Lorenzini, Bjoern Menze, Jose Luis Molinuevo, Yiwei Pan, Elodie Puybareau, Rafael Rehwald, Ruisheng Su, Pengcheng Shi, Lorna Smith, Therese Tillin, Guillaume Tochon, Helene Urien, Bas H.M. van der Velden, Isabelle F. van der Velpen, Benedikt Wiestler, Frank J. Wolters, Pinar Yilmaz, Marius de Groot, Meike W. Vernooij, Marleen de Bruijne (for the ALFA study)(参考訳) 脳小血管疾患のイメージングマーカーは、脳の健康に関する貴重な情報を提供するが、手作業による評価は時間を要する。 自動評価は、医学的な研究や臨床評価に有用であるが、既存のアルゴリズムの診断信頼性は不明である。 ここでは、 \textit{VAscular Lesions DetectiOn and Segmentation} (\textit{Where is VALDO? 医療画像・コンピュータ支援介入国際会議(miccai,international conference on medical image computing and computer assisted intervention,miccai)は2021年に開催された。 この課題は、大脳小血管疾患(epvs)(task 1)、大脳微小出血(task)の小型・スパースイメージングマーカーの自動検出・分割法の開発を促進することを目的とした。 2)血管起源と推定されるラクエン(タスク) 3)弱いラベルやうるさいラベルを活用しながら。 全体として、12チームが1つ以上のタスク(タスク1 - EPVS 4つ、タスク2 - マイクロブリード9つ、タスク3 - ラクネス6つ)のソリューションを提案している。 マルチコホートデータはトレーニングと評価の両方に使用された。 結果は、チーム間およびタスク間でのパフォーマンスに大きな変動を示し、特にtask 1epvとtask 2で有望な結果が得られた。 また、個々のレベルでの使用を抑えつつ、人口レベルでも有用であることを証明しているケース間のパフォーマンスの矛盾を強調した。

Imaging markers of cerebral small vessel disease provide valuable information on brain health, but their manual assessment is time-consuming and hampered by substantial intra- and interrater variability. Automated rating may benefit biomedical research, as well as clinical assessment, but diagnostic reliability of existing algorithms is unknown. Here, we present the results of the \textit{VAscular Lesions DetectiOn and Segmentation} (\textit{Where is VALDO?}) challenge that was run as a satellite event at the international conference on Medical Image Computing and Computer Aided Intervention (MICCAI) 2021. This challenge aimed to promote the development of methods for automated detection and segmentation of small and sparse imaging markers of cerebral small vessel disease, namely enlarged perivascular spaces (EPVS) (Task 1), cerebral microbleeds (Task 2) and lacunes of presumed vascular origin (Task 3) while leveraging weak and noisy labels. Overall, 12 teams participated in the challenge proposing solutions for one or more tasks (4 for Task 1 - EPVS, 9 for Task 2 - Microbleeds and 6 for Task 3 - Lacunes). Multi-cohort data was used in both training and evaluation. Results showed a large variability in performance both across teams and across tasks, with promising results notably for Task 1 - EPVS and Task 2 - Microbleeds and not practically useful results yet for Task 3 - Lacunes. It also highlighted the performance inconsistency across cases that may deter use at an individual level, while still proving useful at a population level.
翻訳日:2022-08-16 13:02:15 公開日:2022-08-15
# 病理画像を用いたクローン病診断のためのマルチインスタンス・ラーニング

Cross-scale Attention Guided Multi-instance Learning for Crohn's Disease Diagnosis with Pathological Images ( http://arxiv.org/abs/2208.07322v1 )

ライセンス: Link先を確認
Ruining Deng, Can Cui, Lucas W. Remedios, Shunxing Bao, R. Michael Womick, Sophie Chiron, Jia Li, Joseph T. Roland, Ken S. Lau, Qi Liu, Keith T. Wilson, Yaohong Wang, Lori A. Coburn, Bennett A. Landman, Yuankai Huo(参考訳) MIL(Multi-instance Learning)は、コンピュータ支援によるWSIの解釈において、ピクセルワイドまたはパッチワイドアノテーションの欠如を解決するために広く使われている。 多くの場合、このアプローチはwsisのマルチスケール(ピラミッド型)な性質を見渡す「自然画像駆動」ミルアルゴリズムを直接適用する。 オフザシェルフのMILアルゴリズムは通常、単一スケールのWSI(例:20倍)にデプロイされるが、人間の病理学者は通常、グローバルパターンとローカルパターンをマルチスケールで集約する(例:異なる倍率の間をズームインしてズームアウトする)。 本研究では,炎症性腸疾患の一形態であるクローン病(CD)の1つのMILネットワークに,相互の相互作用を明示的に集約する,新しいクロススケールアテンション機構を提案する。 本研究の貢献は, (1) 異なる解像度の特徴をマルチスケールインタラクションで集約するクロススケール注意機構, (2) 説明可能な病変パターンを局所化する差分多スケール注意可視化機構,の2つである。 20のcd患者から25万のh&eで維持された上行結腸(ac)パッチと30の健康管理サンプルを異なるスケールでトレーニングすることで,aucスコアの0.8924よりも優れた領域を達成した。 公式実装はhttps://github.com/hrlblab/CS-MILで公開されている。

Multi-instance learning (MIL) is widely used in the computer-aided interpretation of pathological Whole Slide Images (WSIs) to solve the lack of pixel-wise or patch-wise annotations. Often, this approach directly applies "natural image driven" MIL algorithms which overlook the multi-scale (i.e. pyramidal) nature of WSIs. Off-the-shelf MIL algorithms are typically deployed on a single-scale of WSIs (e.g., 20x magnification), while human pathologists usually aggregate the global and local patterns in a multi-scale manner (e.g., by zooming in and out between different magnifications). In this study, we propose a novel cross-scale attention mechanism to explicitly aggregate inter-scale interactions into a single MIL network for Crohn's Disease (CD), which is a form of inflammatory bowel disease. The contribution of this paper is two-fold: (1) a cross-scale attention mechanism is proposed to aggregate features from different resolutions with multi-scale interaction; and (2) differential multi-scale attention visualizations are generated to localize explainable lesion patterns. By training ~250,000 H&E-stained Ascending Colon (AC) patches from 20 CD patient and 30 healthy control samples at different scales, our approach achieved a superior Area under the Curve (AUC) score of 0.8924 compared with baseline models. The official implementation is publicly available at https://github.com/hrlblab/CS-MIL.
翻訳日:2022-08-16 13:01:46 公開日:2022-08-15
# ニュージーランドにおける暴行判決予測のための説明可能な人工知能

Explainable Artificial Intelligence for Assault Sentence Prediction in New Zealand ( http://arxiv.org/abs/2208.06981v1 )

ライセンス: Link先を確認
Harry Rodger, Andrew Lensen, Marcin Betkier(参考訳) 司法は歴史的に人工知能の使用に保守的だったが、近年の機械学習の進歩により、学者は文章の予測のようなタスクでの使用を再考するに至った。 本稿では、ニュージーランドの裁判所における暴行事件における刑罰の予測に、説明可能な人工知能の潜在的利用を実験的に検討する。 本稿では,概念実証可能なモデルを提案し,予測文が1年以内の精度で目的に適したことを実証する。 さらに、文長予測において最も影響力のあるフレーズを理解するためにモデルを解析する。 本論文は,ニュージーランドの裁判所において,このようなAIモデルを使用するさまざまな方法の今後のメリットとリスクについて,評価的な議論で締めくくった。

The judiciary has historically been conservative in its use of Artificial Intelligence, but recent advances in machine learning have prompted scholars to reconsider such use in tasks like sentence prediction. This paper investigates by experimentation the potential use of explainable artificial intelligence for predicting imprisonment sentences in assault cases in New Zealand's courts. We propose a proof-of-concept explainable model and verify in practice that it is fit for purpose, with predicted sentences accurate to within one year. We further analyse the model to understand the most influential phrases in sentence length prediction. We conclude the paper with an evaluative discussion of the future benefits and risks of different ways of using such an AI model in New Zealand's courts.
翻訳日:2022-08-16 12:57:56 公開日:2022-08-15
# 名前付きエンティティ認識のための構文駆動データ拡張

Syntax-driven Data Augmentation for Named Entity Recognition ( http://arxiv.org/abs/2208.06957v1 )

ライセンス: Link先を確認
Arie Pratama Sutiono, Gus Hahn-Powell(参考訳) 低リソース環境では、データ拡張戦略は一般的にパフォーマンスを改善するために利用される。 文書レベルの拡張(テキスト分類など)を試みているが、トークンレベルの拡張を探求する研究はほとんどない。 直感的には、データ拡張は意味的に一貫性のない非文法的な例を生成することができる。 本研究では,単純なマスキング型言語モデル置換法と構成木変異を用いた拡張法を比較し,拡張文の言語結合を保ちながら,低リソース環境における名前付きエンティティ認識の性能を向上させる。

In low resource settings, data augmentation strategies are commonly leveraged to improve performance. Numerous approaches have attempted document-level augmentation (e.g., text classification), but few studies have explored token-level augmentation. Performed naively, data augmentation can produce semantically incongruent and ungrammatical examples. In this work, we compare simple masked language model replacement and an augmentation method using constituency tree mutations to improve the performance of named entity recognition in low-resource settings with the aim of preserving linguistic cohesion of the augmented sentences.
翻訳日:2022-08-16 12:57:12 公開日:2022-08-15
# 純モデルによる時系列コアルールのグラッピング

Grasping Core Rules of Time Series through Pure Models ( http://arxiv.org/abs/2208.07105v1 )

ライセンス: Link先を確認
Gedi Liu, Yifeng Jiang, Yi Ouyang, Keyang Zhong, Yang Wang(参考訳) 時系列は、他の多くの機械学習分野と同様に、統計学から深層学習へ移行した。 モデルが複数の公開データセットで更新されるにつれて、精度が向上しているように見えるが、通常は、精度のわずかな違いと引き換えに、数倍のスケールしか増加しない。 この実験を通じて、時系列、特に長期予測の異なる考え方が他の分野と異なる可能性があることを指摘した。 時系列のすべての側面を把握するために、広範囲で複雑なモデルを使う必要はなく、純粋なモデルを使って時系列変化のコアルールを理解する必要がある。 このシンプルで効果的なアイデアによって、puretsは3つの純粋な線形層を持つネットワークで、長いシーケンス予測タスクの80%で最先端を達成した。 本稿では,現象と本質の両方における純粋線形層の可能性について考察する。 中心となる法則を理解する能力は、長距離予測の高精度に寄与し、合理的なゆらぎは、過剰変動を避ける純粋な線形ニューラルネットワークとしてまとめられた主流のディープラーニングモデルのような多段階予測において、曲線を歪めることを妨げる。 最後に、軽量なロングステップ時系列タスクの基本設計基準を提案する。 入出力と入出力は同じ次元を持つようにし、構造はフラグメンテーションや複雑な操作を避ける。

Time series underwent the transition from statistics to deep learning, as did many other machine learning fields. Although it appears that the accuracy has been increasing as the model is updated in a number of publicly available datasets, it typically only increases the scale by several times in exchange for a slight difference in accuracy. Through this experiment, we point out a different line of thinking, time series, especially long-term forecasting, may differ from other fields. It is not necessary to use extensive and complex models to grasp all aspects of time series, but to use pure models to grasp the core rules of time series changes. With this simple but effective idea, we created PureTS, a network with three pure linear layers that achieved state-of-the-art in 80% of the long sequence prediction tasks while being nearly the lightest model and having the fastest running speed. On this basis, we discuss the potential of pure linear layers in both phenomena and essence. The ability to understand the core law contributes to the high precision of long-distance prediction, and reasonable fluctuation prevents it from distorting the curve in multi-step prediction like mainstream deep learning models, which is summarized as a pure linear neural network that avoids over-fluctuating. Finally, we suggest the fundamental design standards for lightweight long-step time series tasks: input and output should try to have the same dimension, and the structure avoids fragmentation and complex operations.
翻訳日:2022-08-16 12:57:03 公開日:2022-08-15
# メモリ駆動型テキスト画像生成

Memory-Driven Text-to-Image Generation ( http://arxiv.org/abs/2208.07022v1 )

ライセンス: Link先を確認
Bowen Li, Philip H. S. Torr, Thomas Lukasiewicz(参考訳) パラメトリック法と非パラメトリック法の両方に基づく、メモリ駆動によるテキストから画像へのセミパラメトリック法を提案する。 非パラメトリック成分は、画像のトレーニングセットから構築された画像特徴のメモリバンクである。 パラメトリック成分は生成的逆ネットワークである。 メモリバンクは、推論時に新たなテキスト記述が与えられると、ターゲット画像の基本情報として提供される画像特徴を選択的に検索し、現実的な合成結果を生成する。 また、コンテンツ情報を意味的特徴とともに識別器に組み込むことにより、識別器はより信頼性の高い予測を行うことができる。 実験結果から,提案したメモリ駆動セミパラメトリックアプローチは,視覚的忠実度とテキスト画像のセマンティック一貫性の両方の観点から,純粋パラメトリックアプローチよりもリアルな画像を生成することが示された。

We introduce a memory-driven semi-parametric approach to text-to-image generation, which is based on both parametric and non-parametric techniques. The non-parametric component is a memory bank of image features constructed from a training set of images. The parametric component is a generative adversarial network. Given a new text description at inference time, the memory bank is used to selectively retrieve image features that are provided as basic information of target images, which enables the generator to produce realistic synthetic results. We also incorporate the content information into the discriminator, together with semantic features, allowing the discriminator to make a more reliable prediction. Experimental results demonstrate that the proposed memory-driven semi-parametric approach produces more realistic images than purely parametric approaches, in terms of both visual fidelity and text-image semantic consistency.
翻訳日:2022-08-16 12:56:37 公開日:2022-08-15
# Unsupervised Video Domain Adaptation: A disentanglement Perspective

Unsupervised Video Domain Adaptation: A Disentanglement Perspective ( http://arxiv.org/abs/2208.07365v1 )

ライセンス: Link先を確認
Pengfei Wei, Lingdong Kong, Xinghua Qu, Xiang Yin, Zhiqiang Xu, Jing Jiang, Zejun Ma(参考訳) 教師なしビデオドメイン適応は実用的だが難しい課題である。 この作業では、初めて、歪んだ視点からそれに取り組む。 私たちのキーとなるアイデアは、適応プロセス中にデータからドメイン関連情報を切り離すことです。 具体的には,静的なドメイン関連情報を符号化する手法と,時間的および意味的関連情報を符号化する手法について検討する。 その後、トランスファーシーケンスVAE(TranSVAE)フレームワークが開発され、そのような世代をモデル化する。 さらに,適応に役立てるために,TranSVAEの潜伏要因を抑えるために,いくつかの目的を提案する。 UCF-HMDB、Jester、Epic-Kitchensのデータセットに対する大規模な実験は、いくつかの最先端手法と比較してTranSVAEの有効性と優位性を検証する。 コードはhttps://github.com/ldkong1205/TranSVAEで公開されている。

Unsupervised video domain adaptation is a practical yet challenging task. In this work, for the first time, we tackle it from a disentanglement view. Our key idea is to disentangle the domain-related information from the data during the adaptation process. Specifically, we consider the generation of cross-domain videos from two sets of latent factors, one encoding the static domain-related information and another encoding the temporal and semantic-related information. A Transfer Sequential VAE (TranSVAE) framework is then developed to model such generation. To better serve for adaptation, we further propose several objectives to constrain the latent factors in TranSVAE. Extensive experiments on the UCF-HMDB, Jester, and Epic-Kitchens datasets verify the effectiveness and superiority of TranSVAE compared with several state-of-the-art methods. Code is publicly available at https://github.com/ldkong1205/TranSVAE.
翻訳日:2022-08-16 12:55:26 公開日:2022-08-15
# DM-NeRF:2次元画像からの3次元シーン形状分解と操作

DM-NeRF: 3D Scene Geometry Decomposition and Manipulation from 2D Images ( http://arxiv.org/abs/2208.07227v1 )

ライセンス: Link先を確認
Bing Wang, Lu Chen, Bo Yang(参考訳) 本稿では,2次元ビューからの3次元シーンの幾何分解と操作の問題について検討する。 近年の暗黙的ニューラル表現技術,特に魅力的なニューラル放射場を活用することで,3次元空間における各物体のユニークなコードを学ぶためのオブジェクトフィールドコンポーネントを導入する。 このコンポーネントの鍵となるのは、特に占有されていない空間のすべての3Dポイントを、3Dラベルなしで効果的に最適化できるように、慎重に設計された損失関数である。 さらに,学習シーン表現において,指定された3次元オブジェクト形状を自由に操作できる逆クエリアルゴリズムを導入する。 特に,操作アルゴリズムは物体衝突や視覚閉塞などの重要な問題に明示的に対処できる。 我々の手法はDM-NeRFと呼ばれ、1つのパイプラインで複雑な3Dシーンを同時に再構成、分解、操作、レンダリングする最初の方法である。 3つのデータセットに対する大規模な実験により,本手法は2次元ビューからすべての3次元オブジェクトを正確に分解し,翻訳,回転,サイズ調整,変形などの3次元空間で任意の対象を自由に操作できることが明らかとなった。

In this paper, we study the problem of 3D scene geometry decomposition and manipulation from 2D views. By leveraging the recent implicit neural representation techniques, particularly the appealing neural radiance fields, we introduce an object field component to learn unique codes for all individual objects in 3D space only from 2D supervision. The key to this component is a series of carefully designed loss functions to enable every 3D point, especially in non-occupied space, to be effectively optimized even without 3D labels. In addition, we introduce an inverse query algorithm to freely manipulate any specified 3D object shape in the learned scene representation. Notably, our manipulation algorithm can explicitly tackle key issues such as object collisions and visual occlusions. Our method, called DM-NeRF, is among the first to simultaneously reconstruct, decompose, manipulate and render complex 3D scenes in a single pipeline. Extensive experiments on three datasets clearly show that our method can accurately decompose all 3D objects from 2D views, allowing any interested object to be freely manipulated in 3D space such as translation, rotation, size adjustment, and deformation.
翻訳日:2022-08-16 12:55:12 公開日:2022-08-15
# 低リソースmlデプロイメントにおける拒絶の1例

A Case for Rejection in Low Resource ML Deployment ( http://arxiv.org/abs/2208.06359v2 )

ライセンス: Link先を確認
Jerome White, Pulkit Madaan, Nikhil Shenoy, Apoorv Agnihotri, Makkunda Sharma, Jigar Doshi(参考訳) 信頼性の高いAI意思決定支援システムを構築するには、量と多様性の両方に関して、モデルをトレーニングする堅牢なデータセットが必要です。 このようなデータセットの取得は、リソース制限された設定や、デプロイメントの初期段階のアプリケーションでは困難である。 サンプルの拒絶は、この課題に取り組む一つの方法であるが、この分野の既存の作業の多くは、そのようなシナリオに不適である。 本稿では,その位置を仮定し,概念ベースラインの証明として簡単な解法を提案する。

Building reliable AI decision support systems requires a robust set of data on which to train models; both with respect to quantity and diversity. Obtaining such datasets can be difficult in resource limited settings, or for applications in early stages of deployment. Sample rejection is one way to work around this challenge, however much of the existing work in this area is ill-suited for such scenarios. This paper substantiates that position and proposes a simple solution as a proof of concept baseline.
翻訳日:2022-08-16 11:18:17 公開日:2022-08-15
# GEM-2:多体・フルレンジ相互作用モデリングを用いた次世代分子特性予測ネットワーク

GEM-2: Next Generation Molecular Property Prediction Network with Many-body and Full-range Interaction Modeling ( http://arxiv.org/abs/2208.05863v2 )

ライセンス: Link先を確認
Lihang Liu, Donglong He, Xiaomin Fang, Shanzhuo Zhang, Fan Wang, Jingzhou He, Hua Wu(参考訳) 分子特性予測は医薬品や材料産業における基本的な課題である。 物理的には、分子の性質は自身の電子構造によって決定され、シュリンガー方程式によって正確に説明できる。 しかし、ほとんどの分子に対するシュリンガー方程式の解法は、量子多体系の振る舞いにおける長距離相互作用のために非常に難しい。 深層学習法は分子特性予測に有効であることが証明されているが、分子内の長距離および多体相互作用を包括的に考慮する新しい手法であるGEM-2を設計する。 GEM-2は、任意の2つの原子間の局所的および大域的相関をモデル化する原子レベルトラックと、任意の3または4つの原子間の情報を埋め込んだ全ての原子ペア間の相関をモデル化するペアレベルトラックである。 大規模な実験は、量子化学や薬物発見のタスクにおいて、複数のベースライン法よりもGEM-2の方が優れていることを示した。

Molecular property prediction is a fundamental task in the drug and material industries. Physically, the properties of a molecule are determined by its own electronic structure, which can be exactly described by the Schr\"odinger equation. However, solving the Schr\"odinger equation for most molecules is extremely challenging due to long-range interactions in the behavior of a quantum many-body system. While deep learning methods have proven to be effective in molecular property prediction, we design a novel method, namely GEM-2, which comprehensively considers both the long-range and many-body interactions in molecules. GEM-2 consists of two interacted tracks: an atom-level track modeling both the local and global correlation between any two atoms, and a pair-level track modeling the correlation between all atom pairs, which embed information between any 3 or 4 atoms. Extensive experiments demonstrated the superiority of GEM-2 over multiple baseline methods in quantum chemistry and drug discovery tasks.
翻訳日:2022-08-16 11:18:00 公開日:2022-08-15
# MILAN: 言語支援表現に基づく仮面画像作成

MILAN: Masked Image Pretraining on Language Assisted Representation ( http://arxiv.org/abs/2208.06049v2 )

ライセンス: Link先を確認
Zejiang Hou, Fei Sun, Yen-Kuang Chen, Yuan Xie, Sun-Yuan Kung(参考訳) 自己注意に基づくトランスフォーマーモデルはここ数年、多くのコンピュータビジョンタスクを支配してきた。 彼らのスーパーブモデルの品質は、非常に大きなラベル付き画像データセットに依存する。 大規模なラベル付きデータセットへの依存を減らすため、リコンストラクションベースのマスク付きオートエンコーダが人気を博し、ラベル付き画像から高品質な転送可能表現を学習している。 同じ目的のために、最近の弱教師付き画像事前訓練手法は、画像に付随するテキストキャプションから言語監督を探索する。 本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。 生のピクセルや低レベルな特徴を予測する代わりに、前訓練の目的は、キャプションの監督によって得られる実質的な意味的シグナルで画像の特徴を再構築することです。 さらに, 再構成対象に対応するために, より効率的なプロンプト型デコーダアーキテクチャとセマンティック・アウェア・マスク・サンプリング機構を提案し, 事前学習モデルの転送性能をさらに向上させる。 実験の結果,MILANは従来よりも精度が高いことがわかった。 マスク付きオートエンコーダがImageNet-1Kデータセット上で224x224の入力解像度で事前トレーニングされ、微調整されると、MILANはViTB/16で85.4%の最高1の精度を達成し、従来の最先端技術よりも1%上回る。 下流セマンティックセグメンテーションタスクでは、ADE20Kデータセット上のViT-B/16バックボーンを使用して52.7 mIoUを達成する。

Self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order to reduce the reliance on large labeled datasets, reconstruction based masked autoencoders are gaining popularity, which learn high quality transferable representations from unlabeled images. For the same purpose, recent weakly supervised image pretraining methods explore language supervision from text captions accompanying the images. In this work, we propose masked image pretraining on language assisted representation, dubbed as MILAN. Instead of predicting raw pixels or low level features, our pretraining objective is to reconstruct the image features with substantial semantic signals that are obtained using caption supervision. Moreover, to accommodate our reconstruction target, we propose a more efficient prompting decoder architecture and a semantic aware mask sampling mechanism, which further advance the transfer performance of the pretrained model. Experimental results demonstrate that MILAN delivers higher accuracy than the previous works. When the masked autoencoder is pretrained and finetuned on ImageNet-1K dataset with an input resolution of 224x224, MILAN achieves a top-1 accuracy of 85.4% on ViTB/16, surpassing previous state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN achieves 52.7 mIoU using ViT-B/16 backbone on ADE20K dataset, outperforming previous masked pretraining results by 4 points.
翻訳日:2022-08-16 11:17:43 公開日:2022-08-15