このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220127となっている論文です。

PDF登録状況(公開日: 20220127)

TitleAuthorsAbstract論文公表日・翻訳日
# 保証付き適応微分可能予測制御ポリシーの学習

Learning Constrained Adaptive Differentiable Predictive Control Policies With Guarantees ( http://arxiv.org/abs/2004.11184v6 )

ライセンス: Link先を確認
Jan Drgona, Aaron Tuor, Draguna Vrabie(参考訳) 本稿では,線形システムの制約付きニューラル制御ポリシを確率的性能保証で学習する手法である differentiable prediction control (dpc) を提案する。 我々は,モデル予測制御(mpc)損失関数と制約ペナルティを微分可能な閉ループ系ダイナミクスモデルでバックプロパゲーションすることにより,直接ポリシー勾配を得るための自動微分を用いる。 提案手法は,不安定な動的システムの安定化,時間変動参照の追跡,非線形状態と入力制約を満たすためにパラメトリック制約付き制御ポリシを学習できることを実証する。 模倣学習に基づくアプローチとは対照的に,本手法は監視コントローラに依存しない。 最も重要なことは、性能を損なうことなく、我々の手法は暗黙的、明示的で、近似的なMPCよりもスケーラブルで、計算効率が高いことである。 IEEE Transactions on Automatic Controlでレビュー。

We present differentiable predictive control (DPC), a method for learning constrained neural control policies for linear systems with probabilistic performance guarantees. We employ automatic differentiation to obtain direct policy gradients by backpropagating the model predictive control (MPC) loss function and constraints penalties through a differentiable closed-loop system dynamics model. We demonstrate that the proposed method can learn parametric constrained control policies to stabilize systems with unstable dynamics, track time-varying references, and satisfy nonlinear state and input constraints. In contrast with imitation learning-based approaches, our method does not depend on a supervisory controller. Most importantly, we demonstrate that, without losing performance, our method is scalable and computationally more efficient than implicit, explicit, and approximate MPC. Under review at IEEE Transactions on Automatic Control.
翻訳日:2022-12-10 08:52:29 公開日:2022-01-27
# ガウス過程による一貫性のない選好の学習

Learning Inconsistent Preferences with Gaussian Processes ( http://arxiv.org/abs/2006.03847v3 )

ライセンス: Link先を確認
Siu Lun Chau, Javier Gonz\'alez, Dino Sejdinovic(参考訳) 我々は Chu et al による優越的なガウス過程を再考した。 (2005) に挑戦し, 潜在効用関数値を介してデータ項目のランク付けを強制するモデル化仮定に挑戦した。 そこで我々は,データ中のより表現力のある遅延優先構造を捕捉し,不整合な選好をモデル化するpgpの一般化を提案し,また,遷移度に反する点をモデル化したり,学習された選好関数のスペクトル分解によって比較項目のクラスタを発見する。 また、共分散核関数とその再生成核ヒルベルト空間(rkhs)の性質も考慮し、選好関数の空間における普遍性を満たす単純な構成を与える。 最後に,提案手法と最先端技術との競合性を示すシミュレーションおよび実世界のデータセットに関する広範な数値実験を行った。 実験結果から, ランキングビリティの侵害は, 現実の優先データにおいてユビキタスである可能性が示唆された。

We revisit widely used preferential Gaussian processes by Chu et al.(2005) and challenge their modelling assumption that imposes rankability of data items via latent utility function values. We propose a generalisation of pgp which can capture more expressive latent preferential structures in the data and thus be used to model inconsistent preferences, i.e. where transitivity is violated, or to discover clusters of comparable items via spectral decomposition of the learned preference functions. We also consider the properties of associated covariance kernel functions and its reproducing kernel Hilbert Space (RKHS), giving a simple construction that satisfies universality in the space of preference functions. Finally, we provide an extensive set of numerical experiments on simulated and real-world datasets showcasing the competitiveness of our proposed method with state-of-the-art. Our experimental findings support the conjecture that violations of rankability are ubiquitous in real-world preferential data.
翻訳日:2022-11-24 21:07:47 公開日:2022-01-27
# 機械学習の論理

Logic of Machine Learning ( http://arxiv.org/abs/2006.09500v4 )

ライセンス: Link先を確認
Marina Sapir(参考訳) 主な疑問は、なぜ、どうやって有限のサンプルに基づいて予測できるのか? その質問は統計的学習理論では答えられていない。 ここでは、予測には基礎となる依存の「予測可能性」に対する信念が必要であることを示唆し、学習はこれらの信念が最小限に満たされた仮説を探索する。 与えられたデータ、仮説および特定の種類の予測可能性信念に対するこれらの違反(エラー)の尺度は、観測と仮説の様相論理(LOH)における矛盾の概念として定式化されている。 一般的な教科書学習者(階層的クラスタリングからk-NNやSVMまで)の例では、それぞれが矛盾の最小化を図っている。 さらに、不連続性の概念はMLの一部として考慮されていない重要なデータ解析問題の形式化に十分柔軟であることが示されている。

The main question is: why and how can we ever predict based on a finite sample? The question is not answered by statistical learning theory. Here, I suggest that prediction requires belief in "predictability" of the underlying dependence, and learning involves search for a hypothesis where these beliefs are violated the least given the observations. The measure of these violations ("errors") for given data, hypothesis and particular type of predictability beliefs is formalized as concept of incongruity in modal Logic of Observations and Hypotheses (LOH). I show on examples of many popular textbook learners (from hierarchical clustering to k-NN and SVM) that each of them minimizes its own version of incongruity. In addition, the concept of incongruity is shown to be flexible enough for formalization of some important data analysis problems, not considered as part of ML.
翻訳日:2022-11-20 19:46:52 公開日:2022-01-27
# ビデオ再局在のための隣接行列の生成

Generating Adjacency Matrix for Video Relocalization ( http://arxiv.org/abs/2008.08977v2 )

ライセンス: Link先を確認
Yuan Zhou, Mingfei Wang, Ruolin Wang, Shuwei Huo(参考訳) 本稿では,ビデオ再ローカライズ作業の継続について述べる。 グラフ畳み込みを用いてビデオ内およびビデオ間フレームの特徴を抽出し、グラフ内の2つの異なる時間ステップの特徴間の類似度を計算し、重み付き隣接行列を実現する類似度測定ベースのグラフ畳み込みを用いて改善する。 ActivityNet v1.2とThumos14データセットの実験では、この改善の有効性が示され、最先端の手法よりも優れています。

In this paper, we continue our work on video relocalization task. Based on using graph convolution to extract intra-video and inter-video frame features, we improve the method by using similarity-metric based graph convolution, whose weighted adjacency matrix is achieved by calculating similarity metric between features of any two different time steps in the graph. Experiments on ActivityNet v1.2 and Thumos14 dataset show the effectiveness of this improvement, and it outperforms the state-of-the-art methods.
翻訳日:2022-10-27 11:42:11 公開日:2022-01-27
# 画像のカラー化:調査とデータセット

Image Colorization: A Survey and Dataset ( http://arxiv.org/abs/2008.10774v3 )

ライセンス: Link先を確認
Saeed Anwar, Muhammad Tahir, Chongyi Li, Ajmal Mian, Fahad Shahbaz Khan, Abdul Wahab Muzaffar(参考訳) 画像のカラー化は、グレースケールの画像やビデオフレームのRGB色を推定し、美的および知覚的品質を改善するプロセスである。 画像のカラー化のためのディープラーニング技術は、この10年間で特に進歩しており、体系的な調査とベンチマークの必要性を訴えている。 本稿では、最近の最先端のディープラーニングに基づく画像カラー化技術に関する総合的な調査を行い、その基本となるブロックアーキテクチャ、入力、オプティマイザ、損失関数、トレーニングプロトコル、トレーニングデータ \textit{etc。 既存のカラー化テクニックを7つのクラスに分類し、ベンチマークデータセットや評価指標など、パフォーマンスを管理する重要な要因について論じる。 既存のデータセットの制限を強調し、カラー化に特化した新しいデータセットを紹介します。 既存のデータセットと新しいデータセットを用いて、既存の画像色付け手法の広範な実験的評価を行う。 最後に,既存手法の限界を議論し,この急速に発展する深部画像彩色に関する今後の研究の方向性について提案する。 データセットと評価のためのコードはhttps://github.com/saeed-anwar/ColorSurveyで公開されている。

Image colorization is the process of estimating RGB colors for grayscale images or video frames to improve their aesthetic and perceptual quality. Deep learning techniques for image colorization have progressed notably over the last decade, calling the need for a systematic survey and benchmarking of these techniques. This article presents a comprehensive survey of recent state-of-the-art deep learning-based image colorization techniques, describing their fundamental block architectures, inputs, optimizers, loss functions, training protocols, and training data \textit{etc.} It categorizes the existing colorization techniques into seven classes and discusses important factors governing their performance, such as benchmark datasets and evaluation metrics. We highlight the limitations of existing datasets and introduce a new dataset specific to colorization. Using the existing datasets and our new one, we perform an extensive experimental evaluation of existing image colorization methods. Finally, we discuss the limitations of existing methods and recommend possible solutions as well as future research directions for this rapidly evolving topic of deep image colorization. Dataset and codes for evaluation are publicly available at https://github.com/saeed-anwar/ColorSurvey
翻訳日:2022-10-25 03:00:28 公開日:2022-01-27
# フェデレートエッジラーニング : 設計問題と課題

Federated Edge Learning : Design Issues and Challenges ( http://arxiv.org/abs/2009.00081v2 )

ライセンス: Link先を確認
Afaf Ta\"ik and Soumaya Cherkaoui(参考訳) Federated Learning(FL)は分散機械学習技術であり、各デバイスはそのローカルトレーニングデータに基づいて勾配を独立に計算することで学習モデルに寄与する。 データのプライバシとスケーラビリティに関するいくつかのメリットを約束しているため、最近はホットな研究テーマになっている。 しかし、システムとデータの不均一性とリソース制約のため、ネットワークエッジでのFLの実装は困難である。 本稿では,フェデレートエッジラーニング(FEEL)における既存の課題とトレードオフについて検討する。 資源効率のよい学習のためのFEELアルゴリズムの設計にはいくつかの課題がある。 これらの課題は本質的に、問題の多分野の性質と関係している。 本稿では,この学習の鍵となる要素として,FEELにおける無線スケジューリングアルゴリズムにおけるデータ特性に関する新たな考察を提案する。 そこで本研究では,今後の研究方向性の指針として,データアウェアスケジューリングのための汎用フレームワークを提案する。 また、データ評価の主要な軸と要件、いくつかの悪用可能な技術とメトリクスについても論じる。

Federated Learning (FL) is a distributed machine learning technique, where each device contributes to the learning model by independently computing the gradient based on its local training data. It has recently become a hot research topic, as it promises several benefits related to data privacy and scalability. However, implementing FL at the network edge is challenging due to system and data heterogeneity and resources constraints. In this article, we examine the existing challenges and trade-offs in Federated Edge Learning (FEEL). The design of FEEL algorithms for resources-efficient learning raises several challenges. These challenges are essentially related to the multidisciplinary nature of the problem. As the data is the key component of the learning, this article advocates a new set of considerations for data characteristics in wireless scheduling algorithms in FEEL. Hence, we propose a general framework for the data-aware scheduling as a guideline for future research directions. We also discuss the main axes and requirements for data evaluation and some exploitable techniques and metrics.
翻訳日:2022-10-23 07:29:12 公開日:2022-01-27
# mqtransformer: コンテキスト依存とフィードバック対応によるマルチホライゾン予測

MQTransformer: Multi-Horizon Forecasts with Context Dependent and Feedback-Aware Attention ( http://arxiv.org/abs/2009.14799v4 )

ライセンス: Link先を確認
Carson Eisenach and Yagna Patel and Dhruv Madeka(参考訳) ニューラル予測の最近の進歩は、確率的需要予測の精度を大幅に向上させた。 本稿では,自然言語処理におけるトランスフォーマーアーキテクチャの最近の進歩に触発された変化を取り入れて,現状の新たな改良を提案する。 我々は,ネットワークが予測を生成するコンテキストに基づいて,独自の履歴を学習できるようにすることで,予測精度を向上させるとともに,コンテキストアライメントのための新しいデコーダエンコーダアテンションを開発する。 また,ニューラルネットワークが任意のホリデー距離だけでなく,文脈依存の季節性関数を学習できる新しい位置符号化法を提案する。 最後に, MQ-Forecaster (Wen et al., 2017) モデルの現状が, 予測における過去のエラーを利用して精度を向上させることができず, 過度な変動を示すことを示す。 本稿では,予測の過大な変動を著しく改善する,予測のための新しいデコーダ自己注意スキームを提案する。

Recent advances in neural forecasting have produced major improvements in accuracy for probabilistic demand prediction. In this work, we propose novel improvements to the current state of the art by incorporating changes inspired by recent advances in Transformer architectures for Natural Language Processing. We develop a novel decoder-encoder attention for context-alignment, improving forecasting accuracy by allowing the network to study its own history based on the context for which it is producing a forecast. We also present a novel positional encoding that allows the neural network to learn context-dependent seasonality functions as well as arbitrary holiday distances. Finally we show that the current state of the art MQ-Forecaster (Wen et al., 2017) models display excess variability by failing to leverage previous errors in the forecast to improve accuracy. We propose a novel decoder-self attention scheme for forecasting that produces significant improvements in the excess variation of the forecast.
翻訳日:2022-10-12 22:53:02 公開日:2022-01-27
# 速度と加速度を考慮した分散近位分割アルゴリズム

Distributed Proximal Splitting Algorithms with Rates and Acceleration ( http://arxiv.org/abs/2010.00952v3 )

ライセンス: Link先を確認
Laurent Condat, Grigory Malinovsky, Peter Richt\'arik(参考訳) 大規模凸非平滑最適化に適した近位分割アルゴリズムを複数解析する。 関数値の最適性や解までの距離の新たなレートと、新しい加速バージョンによって、様々なステップ化を用いて、サブリニアおよび線形収束結果を導出する。 さらに,これらのアルゴリズムの分散変種も提案する。 既存の結果のほとんどはエルゴード的だが、非エルゴード的結果は原始双対最適化アルゴリズムの理解を大きく広げている。

We analyze several generic proximal splitting algorithms well suited for large-scale convex nonsmooth optimization. We derive sublinear and linear convergence results with new rates on the function value suboptimality or distance to the solution, as well as new accelerated versions, using varying stepsizes. In addition, we propose distributed variants of these algorithms, which can be accelerated as well. While most existing results are ergodic, our nonergodic results significantly broaden our understanding of primal-dual optimization algorithms.
翻訳日:2022-10-12 02:42:46 公開日:2022-01-27
# 一般化行列分解:一般化線形潜在変数モデルを大規模データアレイに適合させるための効率的なアルゴリズム

Generalized Matrix Factorization: efficient algorithms for fitting generalized linear latent variable models to large data arrays ( http://arxiv.org/abs/2010.02469v3 )

ライセンス: Link先を確認
{\L}ukasz Kidzi\'nski, Francis K.C. Hui, David I. Warton, and Trevor Hastie(参考訳) 非測定変数や潜在変数はしばしば多変量測定の相関の原因となり、心理学、生態学、医学など様々な分野で研究されている。 ガウスの測定には、よく確立された理論と高速なアルゴリズムを持つ因子分析や主成分分析のような古典的ツールがある。 一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。 しかし、GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集中的な計算を必要とし、数千の観測単位や応答を持つ大規模なデータセットにスケールしない。 本稿では,Pentalized quasi-likelihood を用いてモデルを近似し,Newton 法と Fisher score を用いてモデルパラメータを学習し,GLLVM を高次元データセットに適合させる手法を提案する。 計算上,本手法は明らかに高速かつ安定であり,GLLVMを従来よりもはるかに大きな行列に適合させることができる。 本手法は,各単位に2,000種以上の観測種を持つ48,000個の観測単位のデータセットに適用し,変数のほとんどをいくつかの要因で説明できることを示した。 提案する適合アルゴリズムの実装を簡易に公開する。

Unmeasured or latent variables are often the cause of correlations between multivariate measurements, which are studied in a variety of fields such as psychology, ecology, and medicine. For Gaussian measurements, there are classical tools such as factor analysis or principal component analysis with a well-established theory and fast algorithms. Generalized Linear Latent Variable models (GLLVMs) generalize such factor models to non-Gaussian responses. However, current algorithms for estimating model parameters in GLLVMs require intensive computation and do not scale to large datasets with thousands of observational units or responses. In this article, we propose a new approach for fitting GLLVMs to high-dimensional datasets, based on approximating the model using penalized quasi-likelihood and then using a Newton method and Fisher scoring to learn the model parameters. Computationally, our method is noticeably faster and more stable, enabling GLLVM fits to much larger matrices than previously possible. We apply our method on a dataset of 48,000 observational units with over 2,000 observed species in each unit and find that most of the variability can be explained with a handful of factors. We publish an easy-to-use implementation of our proposed fitting algorithm.
翻訳日:2022-10-10 06:10:55 公開日:2022-01-27
# 文脈表現による拡張テーブルフィリングを用いた名前付きエンティティ認識と関係抽出

Named Entity Recognition and Relation Extraction using Enhanced Table Filling by Contextualized Representations ( http://arxiv.org/abs/2010.07522v2 )

ライセンス: Link先を確認
Youmi Ma, Tatsuya Hiraoka, Naoaki Okazaki(参考訳) 本研究では,テーブル表現に基づく非構造化テキストから名前付きエンティティと関係を抽出する新しい手法を提案する。 コンテキスト化された単語埋め込みを用いることで、複雑な手作り機能やニューラルネットワークアーキテクチャを使わずに、エンティティ参照や長距離依存関係の表現を計算する。 我々はまた、歴史に基づく予測や検索戦略に頼ることなく、関係ラベルを一度に予測するためにテンソルドット積を適用する。 これらの進歩は、名前付きエンティティと関係を抽出するためのモデルとアルゴリズムを著しく単純化する。 その単純さにもかかわらず、実験の結果、提案手法はCoNLL04とACE05の英語データセット上で最先端の手法よりも優れていることが示された。 また,提案手法は,コンテキストアグリゲーションのための複数の文が提供される場合に,ACE05データセット上の最先端のNERモデルと同等の性能が得られることを確認した。

In this study, a novel method for extracting named entities and relations from unstructured text based on the table representation is presented. By using contextualized word embeddings, the proposed method computes representations for entity mentions and long-range dependencies without complicated hand-crafted features or neural-network architectures. We also adapt a tensor dot-product to predict relation labels all at once without resorting to history-based predictions or search strategies. These advances significantly simplify the model and algorithm for the extraction of named entities and relations. Despite its simplicity, the experimental results demonstrate that the proposed method outperforms the state-of-the-art methods on the CoNLL04 and ACE05 English datasets. We also confirm that the proposed method achieves a comparable performance with the state-of-the-art NER models on the ACE05 datasets when multiple sentences are provided for context aggregation.
翻訳日:2022-10-07 03:53:22 公開日:2022-01-27
# Dual-CLVSA:感覚計測による金融市場予測のための新しいディープラーニングアプローチ

Dual-CLVSA: a Novel Deep Learning Approach to Predict Financial Markets with Sentiment Measurements ( http://arxiv.org/abs/2202.03158v1 )

ライセンス: Link先を確認
Jia Wang, Hongwei Zhu, Jiancheng Shen, Yu Cao, Benyuan Liu(参考訳) 金融市場の予測は難しい課題である。 このタスクの複雑さは、主に金融市場と市場参加者の相互作用によるもので、常に合理的に維持できず、恐怖や不安定感といった感情に影響されることが多い。 特に金融市場予測のための最先端のアプローチに基づいて,ハイブリッド畳み込み型lstmに基づく変分シーケンス・トゥ・シークエンスモデル(clvsa)を提案し,取引データとそれに対応する社会的感情測定の両方を用いて金融市場の動きを予測する新しいディープラーニング手法であるdual-clvsaを提案する。 本研究では,SPDR SP 500 Trust ETFの過去8年間のトレーディングデータに基づいて,提案手法の性能を評価する。 その結果、両CLVSAは2種類のデータを効果的に融合させ、感情測定が金融市場の予測に有益であるだけでなく、予測システムの性能を高めるための余分な利益性も備えていることがわかった。

It is a challenging task to predict financial markets. The complexity of this task is mainly due to the interaction between financial markets and market participants, who are not able to keep rational all the time, and often affected by emotions such as fear and ecstasy. Based on the state-of-the-art approach particularly for financial market predictions, a hybrid convolutional LSTM Based variational sequence-to-sequence model with attention (CLVSA), we propose a novel deep learning approach, named dual-CLVSA, to predict financial market movement with both trading data and the corresponding social sentiment measurements, each through a separate sequence-to-sequence channel. We evaluate the performance of our approach with backtesting on historical trading data of SPDR SP 500 Trust ETF over eight years. The experiment results show that dual-CLVSA can effectively fuse the two types of data, and verify that sentiment measurements are not only informative for financial market predictions, but they also contain extra profitable features to boost the performance of our predicting system.
翻訳日:2022-02-13 14:54:46 公開日:2022-01-27
# (参考訳) TableQuery: 自然言語で表データのクエリ

TableQuery: Querying tabular data with natural language ( http://arxiv.org/abs/2202.00454v1 )

ライセンス: CC BY 4.0
Abhijith Neil Abraham, Fariz Rahman, Damanpreet Kaur(参考訳) 本稿では,自由テキストで質問に答えるために事前学習したディープラーニングモデルを用いて,表形式のデータをクエリする新しいツールであるTableQueryを提案する。 テーブルデータに対する質問応答のための既存のディープラーニング手法には、ニューラルネットワークモデルへの入力としてテーブル全体を入力しなければならないなど、さまざまな制限がある。 実世界のデータは数百万行を含む可能性があるため、メモリに完全に適合しないかもしれない。 さらに、データはリアルタイムで更新されるライブデータベースに格納され、更新されるたびにデータベース全体をニューラルネットワークフレンドリなフォーマットにシリアライズするのは現実的ではない。 TableQueryでは、質問応答のための事前訓練されたディープラーニングモデルを使用して、自然言語クエリを構造化クエリに変換し、データベースやスプレッドシートに対して実行できる。 この方法では、データベースのシリアライズだけでなく、データ全体をメモリに埋め込む必要がなくなる。 さらに、無料テキストでの質問応答のために事前訓練されたディープラーニングモデルは、HuggingFace Model Hub (7)のようなプラットフォームで簡単に利用できる。 より優れたパフォーマンスで質問応答を新たにトレーニングされたモデルが利用可能になった場合、TableQueryの既存のモデルを置き換えることができる。

This paper presents TableQuery, a novel tool for querying tabular data using deep learning models pre-trained to answer questions on free text. Existing deep learning methods for question answering on tabular data have various limitations, such as having to feed the entire table as input into a neural network model, making them unsuitable for most real-world applications. Since real-world data might contain millions of rows, it may not entirely fit into the memory. Moreover, data could be stored in live databases, which are updated in real-time, and it is impractical to serialize an entire database to a neural network-friendly format each time it is updated. In TableQuery, we use deep learning models pre-trained for question answering on free text to convert natural language queries to structured queries, which can be run against a database or a spreadsheet. This method eliminates the need for fitting the entire data into memory as well as serializing databases. Furthermore, deep learning models pre-trained for question answering on free text are readily available on platforms such as HuggingFace Model Hub (7). TableQuery does not require re-training; when a newly trained model for question answering with better performance is available, it can replace the existing model in TableQuery.
翻訳日:2022-02-06 08:30:55 公開日:2022-01-27
# (参考訳) 自然画像のスケール不変特性とそのシミュレーション

On scale-invariant properties in natural images and their simulations ( http://arxiv.org/abs/2201.13312v1 )

ライセンス: CC0 1.0
Maxim Koroteev and Kirill Aistov(参考訳) 本研究では,統計特性の集合を計算し,サンプルのスケール不変特性を計算的に示す自然画像のサンプルについて検討する。 自然界のファン・ハテレン画像から得られた試料から,パワースペクトルの計算を行い,パワーロー減衰パワースペクトルを観測した。 パワースペクトルにおける観測された傾斜を定性的に再現する動的モデルを提案する。 このモデルのための2種類の源について, パワースペクトルの挙動を調査し, スケール非分散を数値的に確認した。 次に,自然画像のスケール不変特性の潜在的応用について考察する。

We study samples of natural images for which a set of statistical characteristics is computed and scale-invariant properties of samples are demonstrated computationally. Computations of the power spectrum are carried out and a power-law decaying power spectrum is observed on samples taken from van Hateren images of natural scenes. We propose a dynamic model to reproduce the observed slope in the power spectrum qualitatively. For two types of sources for this model the behaviour of power spectrum is investigated and scale-invariance confirmed numerically. We then discuss potential applications of scale-invariant properties of natural images.
翻訳日:2022-02-05 10:25:15 公開日:2022-01-27
# (参考訳) バスケット・アイテムの追加・削除による次回の推奨事項の効率的な維持

Efficiently Maintaining Next Basket Recommendations under Additions and Deletions of Baskets and Items ( http://arxiv.org/abs/2201.13313v1 )

ライセンス: CC BY 4.0
Benjamin Longxiang Wang, Sebastian Schelter(参考訳) レコメンダシステムは、人々が情報を見つけ、今日のデジタル化社会における決定を下すのを助ける重要な役割を果たす。 しかし、このような機械学習アプリケーションが広く採用されると、データのプライバシーに関する懸念も生じる。 これらの懸念は、欧州の最近の"general data protection regulation"(gdpr)によって対処されている。 多くの研究者は、この削除義務はリレーショナルデータベースのようなプライマリデータストアに格納されているデータに適用されるだけでなく、個人データを含むトレーニングセットを含む機械学習モデルの更新も必要であると主張している。 我々は,ユーザの購入履歴に基づいて一連のアイテムを推薦することを目的とした,next basket recommendation(nbr)と呼ばれる逐次レコメンデーションタスクの文脈で,この方向を考察する。 ユーザのバスケットやアイテムの追加や削除に応じて,最先端のバスケットレコメンデーションモデルを段階的かつデクリメント的に更新するための効率的なアルゴリズムを設計した。 さらに,Spark Structured Streamingシステムにおいて,本手法の効率的なデータ並列実装について論じる。 我々は,さまざまな実世界のデータセットに対する実装評価を行い,更新手法がいくつかのランキング指標に与える影響を調査し,モデル更新の実行時間を測定する。 提案手法は,インクリメンタルな場合において,追加のユーザバスケットに対して一定の更新時間効率と,既存のバスケットを削除するデクリメンタルな場合の線形効率を提供する。 控えめな計算資源により、インクリメンタルケースの履歴サイズに関わらず、約0.2〜ミリ秒のレイテンシでモデルを更新でき、デクリメンタルケースでは1ミリ秒未満で更新できる。

Recommender systems play an important role in helping people find information and make decisions in today's increasingly digitalized societies. However, the wide adoption of such machine learning applications also causes concerns in terms of data privacy. These concerns are addressed by the recent "General Data Protection Regulation" (GDPR) in Europe, which requires companies to delete personal user data upon request when users enforce their "right to be forgotten". Many researchers argue that this deletion obligation does not only apply to the data stored in primary data stores such as relational databases but also requires an update of machine learning models whose training set included the personal data to delete. We explore this direction in the context of a sequential recommendation task called Next Basket Recommendation (NBR), where the goal is to recommend a set of items based on a user's purchase history. We design efficient algorithms for incrementally and decrementally updating a state-of-the-art next basket recommendation model in response to additions and deletions of user baskets and items. Furthermore, we discuss an efficient, data-parallel implementation of our method in the Spark Structured Streaming system. We evaluate our implementation on a variety of real-world datasets, where we investigate the impact of our update techniques on several ranking metrics and measure the time to perform model updates. Our results show that our method provides constant update time efficiency with respect to an additional user basket in the incremental case, and linear efficiency in the decremental case where we delete existing baskets. With modest computational resources, we are able to update models with a latency of around 0.2~milliseconds regardless of the history size in the incremental case, and less than one millisecond in the decremental case.
翻訳日:2022-02-05 10:17:23 公開日:2022-01-27
# (参考訳) safeapt: シミュレーションで学習した多様なポリシーを用いた安全なシミュレーションから現実へのロボット学習

SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies Learned in Simulation ( http://arxiv.org/abs/2201.13248v1 )

ライセンス: CC BY 4.0
Rituraj Kaushik, Karol Arndt and Ville Kyrki(参考訳) シミュレーションから現実への学習の枠組み、すなわちシミュレーションの学習方針を現実世界に移すことは、ロボット工学におけるデータ効率のよい学習への最も有望なアプローチの1つである。 しかし、シミュレーションと現実世界の間の避けられない現実のギャップのため、シミュレーションで学んだポリシーが必ずしも実際のロボットの安全な行動を生み出すとは限らない。 その結果、現実世界におけるポリシーの適応中に、ロボットは自身を傷つけたり、周囲に害を与える可能性がある。 本研究では,シミュレーションで進化した政策の多種多様なレパートリーを活用したsafeaptと呼ばれる新しい学習アルゴリズムを導入し,エピソディクスインタラクションを通じて,最も有望なセーフポリシーを現実のロボットに転送する。 これを実現するためにsafeaptは、実世界の観察とシミュレーション体験を先行として組み合わせた、確率的報酬モデルと安全モデルを繰り返し学習する。 そして、安全モデルを用いて指定された安全制約を維持しつつ、報酬モデルによるレパートリーのベイズ最適化を行う。 SafeAPTは、シミュレーションで進化したポリシーの同じレパートリーで、ロボットが幅広い目標に安全に適応できるようにする。 我々は、SafeAPTと、シミュレーションと実際のロボット実験の両方のベースラインを比較し、SafeAPTが実世界で数分以内に高性能なポリシーを発見しながら、インタラクション中の安全違反を最小限に抑えていることを示す。

The framework of Simulation-to-real learning, i.e, learning policies in simulation and transferring those policies to the real world is one of the most promising approaches towards data-efficient learning in robotics. However, due to the inevitable reality gap between the simulation and the real world, a policy learned in the simulation may not always generate a safe behaviour on the real robot. As a result, during adaptation of the policy in the real world, the robot may damage itself or cause harm to its surroundings. In this work, we introduce a novel learning algorithm called SafeAPT that leverages a diverse repertoire of policies evolved in the simulation and transfers the most promising safe policy to the real robot through episodic interaction. To achieve this, SafeAPT iteratively learns a probabilistic reward model as well as a safety model using real-world observations combined with simulated experiences as priors. Then, it performs Bayesian optimization on the repertoire with the reward model while maintaining the specified safety constraint using the safety model. SafeAPT allows a robot to adapt to a wide range of goals safely with the same repertoire of policies evolved in the simulation. We compare SafeAPT with several baselines, both in simulated and real robotic experiments and show that SafeAPT finds high-performance policies within a few minutes in the real world while minimizing safety violations during the interactions.
翻訳日:2022-02-05 09:54:59 公開日:2022-01-27
# (参考訳) 交通安全総合評価のためのネットワークレベルの安全基準 : ケーススタディ

Network-level Safety Metrics for Overall Traffic Safety Assessment: A Case Study ( http://arxiv.org/abs/2201.13229v1 )

ライセンス: CC BY 4.0
Xiwen Chen, Hao Wang, Abolfazl Razi, Brendan Russo, Jason Pacheco, John Roberts, Jeffrey Wishart, Larry Head(参考訳) 運転安全分析は最近、計算フレームワーク、コネクテッドカー技術、新しい世代センサー、人工知能(AI)の進歩により、前例のない成果をみせた。 特に、近年のディープラーニング(DL)手法の性能向上により、自動運転車の安全性が向上し、運転安全分析のためのボリューム画像処理が強化された。 DL手法の重要な応用は、交通画像から運転安全指標を抽出することである。 しかし,現状の手法の多くは,個々の事故や事故に近い事象のマイクロスケール解析に安全基準を用いており,ネットワークレベルの交通管理全体に対する洞察に富むガイドラインを提供していない。 一方、大規模な安全評価の取り組みは、主に事故の原因となる安全違反を明らかにしつつも、事故の空間的および時間的分布を強調している。 これら2つの視点を橋渡しするために,道路側インフラストラクチャセンサによる画像の処理による交通流の安全性評価のためのネットワークレベルの安全性指標を新たに定義する。 安全基準とクラッシュデータの統合分析により、ネットワークレベルの安全基準とクラッシュ頻度との洞察に富む時間的・空間的相関が明らかになった。 この分析はアリゾナ州の2台のビデオカメラを使って行われ、アリゾナ州運輸省から5年間の事故報告が得られた。 その結果、ネットワークレベルの安全基準が交通管理チームによって、高度なAIベースのリスク分析とタイムリーなトラフィックフロー制御決定を備えた交通監視システムに利用できることを確認した。

Driving safety analysis has recently witnessed unprecedented results due to advances in computation frameworks, connected vehicle technology, new generation sensors, and artificial intelligence (AI). Particularly, the recent advances performance of deep learning (DL) methods realized higher levels of safety for autonomous vehicles and empowered volume imagery processing for driving safety analysis. An important application of DL methods is extracting driving safety metrics from traffic imagery. However, the majority of current methods use safety metrics for micro-scale analysis of individual crash incidents or near-crash events, which does not provide insightful guidelines for the overall network-level traffic management. On the other hand, large-scale safety assessment efforts mainly emphasize spatial and temporal distributions of crashes, while not always revealing the safety violations that cause crashes. To bridge these two perspectives, we define a new set of network-level safety metrics for the overall safety assessment of traffic flow by processing imagery taken by roadside infrastructure sensors. An integrative analysis of the safety metrics and crash data reveals the insightful temporal and spatial correlation between the representative network-level safety metrics and the crash frequency. The analysis is performed using two video cameras in the state of Arizona along with a 5-year crash report obtained from the Arizona Department of Transportation. The results confirm that network-level safety metrics can be used by the traffic management teams to equip traffic monitoring systems with advanced AI-based risk analysis, and timely traffic flow control decisions.
翻訳日:2022-02-05 09:38:26 公開日:2022-01-27
# 物理モデルと機械学習を用いた運転シミュレータにおけるレースドライバの評価

Race Driver Evaluation at a Driving Simulator using a physical Model and a Machine Learning Approach ( http://arxiv.org/abs/2201.12939v1 )

ライセンス: Link先を確認
Julian von Schleinitz, Thomas Schwarzhuber, Lukas W\"orle, Michael Graf, Arno Eichberger, Wolfgang Trutschnig and Andreas Schr\"oder(参考訳) プロのレースドライバーは、ダイナミックな制限で車両を制御する自動化システムよりも優れている。 レースドライバーの車両ハンドリングプロセスに関する洞察を得ることは、自動運転システムの分野でさらなる発展につながるかもしれない。 本稿では,タイヤグリップ電位を用いたドライバー・イン・ザ・ループシミュレータ上でのレースドライバの検討と評価を行う。 シミュレータからの初期データを受けて、物理的モデルに基づく2つのオプティマイザは、それぞれ水平車両加速度またはタイヤ力を最大化する。 ドライバーを評価するために、総合的なパフォーマンススコア、車両軌道スコア、ハンドリングスコアを導入する。 これにより、独立性を完全に追跡し、1つのコーナーから大きなデータセットまで使用することができる。 提案手法は,プロのレースドライバー7名とアマチュアドライバー2名による1200周以上の走行速度を10~20%遅延させたモータースポーツデータに適用する。 プロのドライバーとの違いは、主に運転ラインの選択ではなく、劣るハンドリングスキルにある。 特定の応用のための提案手法の欠点は、広範囲な計算時間である。 そこで本稿では,運転者評価スコアを推定するLong-Short-term memory(LSTM)ニューラルネットワークを提案する。 ニューラルネットワークは2-5%のルート平均二乗誤差で正確で堅牢であり、最適化に基づく手法を置き換えることができることを示す。 この作業で考慮されたデータセットを処理する時間は68時間から12秒に短縮され、ニューラルネットワークはリアルタイムアプリケーションに適している。

Professional race drivers are still superior to automated systems at controlling a vehicle at its dynamic limit. Gaining insight into race drivers' vehicle handling process might lead to further development in the areas of automated driving systems. We present a method to study and evaluate race drivers on a driver-in-the-loop simulator by analysing tire grip potential exploitation. Given initial data from a simulator run, two optimiser based on physical models maximise the horizontal vehicle acceleration or the tire forces, respectively. An overall performance score, a vehicle-trajectory score and a handling score are introduced to evaluate drivers. Our method is thereby completely track independent and can be used from one single corner up to a large data set. We apply the proposed method to a motorsport data set containing over 1200 laps from seven professional race drivers and two amateur drivers whose lap times are 10-20% slower. The difference to the professional drivers comes mainly from their inferior handling skills and not their choice of driving line. A downside of the presented method for certain applications is an extensive computation time. Therefore, we propose a Long-short-term memory (LSTM) neural network to estimate the driver evaluation scores. We show that the neural network is accurate and robust with a root-mean-square error between 2-5% and can replace the optimisation based method. The time for processing the data set considered in this work is reduced from 68 hours to 12 seconds, making the neural network suitable for real-time application.
翻訳日:2022-02-01 19:58:51 公開日:2022-01-27
# 長期記憶ネットワークを用いた保険請求項のマイクロレベル保存

Micro-level Reserving for General Insurance Claims using a Long Short-Term Memory Network ( http://arxiv.org/abs/2201.13267v1 )

ライセンス: Link先を確認
Ihsan Chaoubi, Camille Besse, H\'el\`ene Cossette, Marie-Pier C\^ot\'e(参考訳) 個々のクレームに関する詳細な情報は、保険請求データが集約され、損失保存のための開発トライアングルに構造化されると、完全に無視される。 個々のクレーム特性から予測パワーを抽出する目的で,近年,マイクロレベルの損失保存手法を優先して,これらのマクロレベルの手法から離れることが提案されている。 本稿では,Long Short-Term Memory(LSTM)ニューラルネットワークと呼ばれるディープラーニングアプローチにおいて,粒度情報を組み込んだ離散時間個別保存フレームワークを提案する。 各期間において、ネットワークには2つのタスクがある:1つは支払いがあるか回復があるかの分類、もう1つは対応する非ゼロの金額を予測する。 シミュレーションおよび実際の一般保険データセットにおける推定手順について述べる。 予測的損失推定値と実際の値を用いて,本手法とチェーンラダー集約法を比較した。 しきい値を超える過払いに対する一般化されたParetoモデルに基づいて、LSTM予約予測を極端支払いを考慮したものに調整する。

Detailed information about individual claims are completely ignored when insurance claims data are aggregated and structured in development triangles for loss reserving. In the hope of extracting predictive power from the individual claims characteristics, researchers have recently proposed to move away from these macro-level methods in favor of micro-level loss reserving approaches. We introduce a discrete-time individual reserving framework incorporating granular information in a deep learning approach named Long Short-Term Memory (LSTM) neural network. At each time period, the network has two tasks: first, classifying whether there is a payment or a recovery, and second, predicting the corresponding non-zero amount, if any. We illustrate the estimation procedure on a simulated and a real general insurance dataset. We compare our approach with the chain-ladder aggregate method using the predictive outstanding loss estimates and their actual values. Based on a generalized Pareto model for excess payments over a threshold, we adjust the LSTM reserve prediction to account for extreme payments.
翻訳日:2022-02-01 19:57:13 公開日:2022-01-27
# dirinet: 空間的およびスペクトル的劣化関数を推定するネットワーク

DiriNet: A network to estimate the spatial and spectral degradation functions ( http://arxiv.org/abs/2201.12346v1 )

ライセンス: Link先を確認
Ting Hu(参考訳) 空間分解関数とスペクトル分解関数は、ハイパースペクトルおよびマルチスペクトル画像融合に不可欠である。 しかし, 劣化関数を推定する作業は, ほとんど行われていない。 空間応答関数と点拡散関数を融合する画像対から学習するために,両関数が適切に制約されたディリクレネットワークを提案する。 具体的には、空間応答関数は正値性に拘束され、点拡散関数には総変動を伴うディリクレ分布が課される。 我々の知る限りでは,神経ネットブロークとディリクレの正則化を初めて研究し,劣化関数を推定した。 画像劣化と核融合実験は,提案するdirichletネットワークの有効性と優位性を示す。

The spatial and spectral degradation functions are critical to hyper- and multi-spectral image fusion. However, few work has been payed on the estimation of the degradation functions. To learn the spatial response function and the point spread function from the image pairs to be fused, we propose a Dirichlet network, where both functions are properly constrained. Specifically, the spatial response function is constrained with positivity, while the Dirichlet distribution along with a total variation is imposed on the point spread function. To the best of our knowledge, the neural netwrok and the Dirichlet regularization are exclusively investigated, for the first time, to estimate the degradation functions. Both image degradation and fusion experiments demonstrate the effectiveness and superiority of the proposed Dirichlet network.
翻訳日:2022-02-01 14:39:02 公開日:2022-01-27
# (参考訳) コーラスのグラフ表現の探求

Exploring Graph Representation of Chorales ( http://arxiv.org/abs/2201.11745v1 )

ライセンス: CC BY 4.0
Somnuk Phon-Amnuaisuk(参考訳) この研究は、重なり合う音楽、グラフ理論、機械学習を探求する。 ノードの埋め込み表現は、重み付けされた無向グラフ $\mathcal{G}$ において、埋め込み空間におけるノードの意味をキャプチャする表現である。 この作品では、383のバッハ合唱曲が編纂され、グラフとして表現された。 本論文では2つの応用事例について検討した。 i) 単語のemph{Continuous Bag of Words (CBOW), skip-gram}, \emph{node2vec}アルゴリズムを用いたノード埋め込み表現の学習 (ii)集団分類アプローチに基づく隣接ノードからのノードラベルの学習 本研究の結果は,音楽アプリケーションに適用可能なグラフベース表現手法の優れた特徴を多数確認した。

This work explores areas overlapping music, graph theory, and machine learning. An embedding representation of a node, in a weighted undirected graph $\mathcal{G}$, is a representation that captures the meaning of nodes in an embedding space. In this work, 383 Bach chorales were compiled and represented as a graph. Two application cases were investigated in this paper (i) learning node embedding representation using \emph{Continuous Bag of Words (CBOW), skip-gram}, and \emph{node2vec} algorithms, and (ii) learning node labels from neighboring nodes based on a collective classification approach. The results of this exploratory study ascertains many salient features of the graph-based representation approach applicable to music applications.
翻訳日:2022-02-01 13:59:57 公開日:2022-01-27
# (参考訳) 拡散確率モデルによる網膜OCTの非教師的評価

Unsupervised Denoising of Retinal OCT with Diffusion Probabilistic Model ( http://arxiv.org/abs/2201.11760v1 )

ライセンス: CC BY 4.0
Dewei Hu, Yuankai K. Tao and Ipek Oguz(参考訳) 光コヒーレンストモグラフィ(OCT)は、網膜の高解像度容積可視化を提供する非侵襲イメージング法である。 しかし、その固有の欠陥であるスペックルノイズは、OCTの組織視認性を著しく悪化させる可能性がある。 深層学習に基づくアプローチは画像復元に広く用いられているが、これらの多くは監視のためにノイズのない参照画像を必要とする。 本研究では,信号の代わりに雑音から学習するために完全に教師なしの拡散確率モデルを提案する。 拡散過程は、自己融合型OCTbスキャンにガウス雑音列を付加することによって定義される。 次に、マルコフ連鎖によってモデル化された拡散の逆過程は、調整可能な denoising のレベルを提供する。 実験の結果, 簡単なパイプラインと少量のトレーニングデータを用いて, 画像品質を著しく向上させることができることがわかった。

Optical coherence tomography (OCT) is a prevalent non-invasive imaging method which provides high resolution volumetric visualization of retina. However, its inherent defect, the speckle noise, can seriously deteriorate the tissue visibility in OCT. Deep learning based approaches have been widely used for image restoration, but most of these require a noise-free reference image for supervision. In this study, we present a diffusion probabilistic model that is fully unsupervised to learn from noise instead of signal. A diffusion process is defined by adding a sequence of Gaussian noise to self-fused OCT b-scans. Then the reverse process of diffusion, modeled by a Markov chain, provides an adjustable level of denoising. Our experiment results demonstrate that our method can significantly improve the image quality with a simple working pipeline and a small amount of training data.
翻訳日:2022-02-01 13:18:26 公開日:2022-01-27
# (参考訳) 再帰的復号化:基盤言語理解における構成生成への位置認識アプローチ

Recursive Decoding: A Situated Cognition Approach to Compositional Generation in Grounded Language Understanding ( http://arxiv.org/abs/2201.11766v1 )

ライセンス: CC BY 4.0
Matthew Setzler, Scott Howland, Lauren Phillips(参考訳) 合成一般化は、ニューラルネットワークモデルにとって厄介な盲点である。 近年の研究では、既知の入力の新しい組み合わせをエンコードするモデルの能力を改善する技術が提案されているが、既知の出力の新しい組み合わせを生成することに注力する作業は少ない。 ここでは、基底言語理解における合成一般化のための合成ベンチマークである gSCAN の文脈において、後者の「デコード側」の一般化形式に焦点を当てる。 本稿では,デコード側一般化を目的とした,セック2セックモデルのトレーニングおよび使用のための新しい手法であるRecursive Decoding(RD)を提案する。 1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。 入力(つまり外部のgSCAN環境)は予測トークンに基づいて漸進的に更新され、次のデコーダタイムステップで再符号化される。 したがってRDは、複雑な分布外シーケンス生成タスクを一連の漸進的な予測に分解し、それぞれがトレーニング中に既に見たモデルと似ている。 RDはgSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。 ベースラインの失敗に対するこれらの利得を解明するための分析を行い、さらに、自然主義的基礎言語理解における一般化とSeq2seqをより一般的に論じる。

Compositional generalization is a troubling blind spot for neural language models. Recent efforts have presented techniques for improving a model's ability to encode novel combinations of known inputs, but less work has focused on generating novel combinations of known outputs. Here we focus on this latter "decode-side" form of generalization in the context of gSCAN, a synthetic benchmark for compositional generalization in grounded language understanding. We present Recursive Decoding (RD), a novel procedure for training and using seq2seq models, targeted towards decode-side generalization. Rather than generating an entire output sequence in one pass, models are trained to predict one token at a time. Inputs (i.e., the external gSCAN environment) are then incrementally updated based on predicted tokens, and re-encoded for the next decoder time step. RD thus decomposes a complex, out-of-distribution sequence generation task into a series of incremental predictions that each resemble what the model has already seen during training. RD yields dramatic improvement on two previously neglected generalization tasks in gSCAN. We provide analyses to elucidate these gains over failure of a baseline, and then discuss implications for generalization in naturalistic grounded language understanding, and seq2seq more generally.
翻訳日:2022-02-01 12:35:59 公開日:2022-01-27
# (参考訳) メタラーニングにおける多様性の効果

The Effect of Diversity in Meta-Learning ( http://arxiv.org/abs/2201.11775v1 )

ライセンス: CC BY 4.0
Ramnath Kumar, Tristan Deleu and Yoshua Bengio(参考訳) 少数の例から見て、新しいタスクに取り組むことができる表現を学ぶことを目的としている。 近年の研究では,タスク分布がモデルの性能に重要な役割を果たすことが示されている。 従来の知恵では、タスクの多様性はメタ学習のパフォーマンスを改善するべきである。 本研究では,タスクの多様性がメタ学習アルゴリズムに与える影響を評価するために,無数のモデルとデータセット上で異なるタスク分布について検討する。 この実験では、複数のデータセットをトレーニングし、メトリクスベース(すなわち、protonet, matching networks)、最適化ベース(maml, reptile, metaoptnet)、ベイジアンメタラーニングモデル(すなわち、cnaps)の3種類のメタラーニングモデルをトレーニングします。 実験の結果,これらのアルゴリズムに対するタスクの多様性の影響も同様の傾向を示し,タスクの多様性はモデルの学習に何の恩恵も与えないことがわかった。 さらに、複数のバッチを繰り返す少数のタスクであっても、均一なサンプリングと同様のパフォーマンスを達成するには十分であることを実証し、より良いモデルを作成するための追加タスクの必要性を疑問視する。

Few-shot learning aims to learn representations that can tackle novel tasks given a small number of examples. Recent studies show that task distribution plays a vital role in the model's performance. Conventional wisdom is that task diversity should improve the performance of meta-learning. In this work, we find evidence to the contrary; we study different task distributions on a myriad of models and datasets to evaluate the effect of task diversity on meta-learning algorithms. For this experiment, we train on multiple datasets, and with three broad classes of meta-learning models - Metric-based (i.e., Protonet, Matching Networks), Optimization-based (i.e., MAML, Reptile, and MetaOptNet), and Bayesian meta-learning models (i.e., CNAPs). Our experiments demonstrate that the effect of task diversity on all these algorithms follows a similar trend, and task diversity does not seem to offer any benefits to the learning of the model. Furthermore, we also demonstrate that even a handful of tasks, repeated over multiple batches, would be sufficient to achieve a performance similar to uniform sampling and draws into question the need for additional tasks to create better models.
翻訳日:2022-02-01 12:19:16 公開日:2022-01-27
# (参考訳) ニューラルロスシー画像圧縮システムにおける反復学習アルゴリズムの実証解析

An Empirical Analysis of Recurrent Learning Algorithms In Neural Lossy Image Compression Systems ( http://arxiv.org/abs/2201.11782v1 )

ライセンス: CC BY 4.0
Ankur Mali and Alexander Ororbia and Daniel Kifer and Lee Giles(参考訳) 近年のディープラーニングの進歩は、JPEGとJPEG 2000を標準のKodakベンチマークで上回る画像圧縮アルゴリズムを生み出している。 しかしながら、トレーニングは遅く(バックプロップタイムによって)、私たちの知る限りでは、多くのデータセットで体系的に評価されてはいません。 本稿では,近年の最先端のハイブリッドニューラル圧縮アルゴリズムを大規模に比較し,代替トレーニング戦略(適用可能な場合)の効果について検討する。 ハイブリッドリカレントニューラルデコーダは、バックプロップ・スルータイム(BPTT)またはスパースアテンティブ・バックトラック(SAB)、アンバイアスドオンラインリカレント最適化(UORO)、リアルタイムリカレント学習(RTRL)などの代替アルゴリズムを用いてトレーニングできる、かつての最先端モデル(最近Googleモデルによって取り上げられている)である。 これらのトレーニング代替案と、Googleモデル(GOOGとE2E)を6つのベンチマークデータセットと比較する。 驚くべきことに、SABで訓練したモデルは(BPTTでも性能が良く、より高速な収束とピーク信号対雑音比が向上することがわかった。

Recent advances in deep learning have resulted in image compression algorithms that outperform JPEG and JPEG 2000 on the standard Kodak benchmark. However, they are slow to train (due to backprop-through-time) and, to the best of our knowledge, have not been systematically evaluated on a large variety of datasets. In this paper, we perform the first large-scale comparison of recent state-of-the-art hybrid neural compression algorithms, while exploring the effects of alternative training strategies (when applicable). The hybrid recurrent neural decoder is a former state-of-the-art model (recently overtaken by a Google model) that can be trained using backprop-through-time (BPTT) or with alternative algorithms like sparse attentive backtracking (SAB), unbiased online recurrent optimization (UORO), and real-time recurrent learning (RTRL). We compare these training alternatives along with the Google models (GOOG and E2E) on 6 benchmark datasets. Surprisingly, we found that the model trained with SAB performs better (outperforming even BPTT), resulting in faster convergence and a better peak signal-to-noise ratio.
翻訳日:2022-02-01 11:52:47 公開日:2022-01-27
# (参考訳) 敵対的ネットワークを用いたRLにおける学習ダイナミクスの再考

Rethinking Learning Dynamics in RL using Adversarial Networks ( http://arxiv.org/abs/2201.11783v1 )

ライセンス: CC BY 4.0
Ramnath Kumar, Tristan Deleu and Yoshua Bengio(参考訳) 本稿では,スキル埋め込み空間を介してパラメータ化される密接に関連するスキルの強化学習のための学習機構を提案する。 私たちのアプローチは、共進化する敵よりも学習を妨げないという直感に基づくものです。 本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。 我々はまた、既存の因果関係の尺度を適応させ、学習したスキルから洞察を引き出す。 実験により, 対向過程が複数の解を探索し, 与えられた課題を解くのに必要なスキルの最小限の数の理解に繋がることを示した。

We present a learning mechanism for reinforcement learning of closely related skills parameterized via a skill embedding space. Our approach is grounded on the intuition that nothing makes you learn better than a coevolving adversary. The main contribution of our work is to formulate an adversarial training regime for reinforcement learning with the help of entropy-regularized policy gradient formulation. We also adapt existing measures of causal attribution to draw insights from the skills learned. Our experiments demonstrate that the adversarial process leads to a better exploration of multiple solutions and understanding the minimum number of different skills necessary to solve a given set of tasks.
翻訳日:2022-02-01 11:35:11 公開日:2022-01-27
# (参考訳) Neural JPEG: 標準JPEGエンコーダデコーダを活用したエンドツーエンドの画像圧縮

Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG Encoder-Decoder ( http://arxiv.org/abs/2201.11795v1 )

ライセンス: CC BY 4.0
Ankur Mali and Alexander Ororbia and Daniel Kifer and Lee Giles(参考訳) ディープラーニングの最近の進歩は、さまざまなアプリケーションで超人的なパフォーマンスをもたらしている。 近年,これらの手法は画像圧縮作業における速度歪み性能の向上に成功している。 しかし、現在の手法では、圧縮を改善するためにデコーダエンドで追加のポストプロセッシングブロックを使用するか、ヒューリスティックスに基づくエンドツーエンド圧縮スキームを提案する。 これらの大多数では、訓練されたディープニューラルネットワーク(DNN)は標準エンコーダと互換性がなく、パーソナルコンピュータや携帯電話ではデプライが難しい。 そこで我々は,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を学習するシステムを提案し,そのアプローチをニューラルJPEGと呼ぶ。 本稿では,標準圧縮(JPEG)法を改善するために,エンコーダとデコーダの両端におけるDCT係数の分布を最適化する周波数領域事前編集法と後編集法を提案する。 さらに,このハイブリッドニューラル圧縮フレームワークにおいて,量子化テーブルを共同学習するためのスキームを設計・統合し,実験により,psnrやms-ssimといった様々な品質指標におけるjpegのレート分散性能の向上に成功し,色彩保持品質の高い視覚的に魅力的な画像を生成することを実証した。

Recent advances in deep learning have led to superhuman performance across a variety of applications. Recently, these methods have been successfully employed to improve the rate-distortion performance in the task of image compression. However, current methods either use additional post-processing blocks on the decoder end to improve compression or propose an end-to-end compression scheme based on heuristics. For the majority of these, the trained deep neural networks (DNNs) are not compatible with standard encoders and would be difficult to deply on personal computers and cellphones. In light of this, we propose a system that learns to improve the encoding performance by enhancing its internal neural representations on both the encoder and decoder ends, an approach we call Neural JPEG. We propose frequency domain pre-editing and post-editing methods to optimize the distribution of the DCT coefficients at both encoder and decoder ends in order to improve the standard compression (JPEG) method. Moreover, we design and integrate a scheme for jointly learning quantization tables within this hybrid neural compression framework.Experiments demonstrate that our approach successfully improves the rate-distortion performance over JPEG across various quality metrics, such as PSNR and MS-SSIM, and generates visually appealing images with better color retention quality.
翻訳日:2022-02-01 10:56:46 公開日:2022-01-27
# (参考訳) 訓練と初期化におけるオートエンコーダの固有値

Eigenvalues of Autoencoders in Training and at Initialization ( http://arxiv.org/abs/2201.11813v1 )

ライセンス: CC BY 4.0
Benjamin Dees, Susama Agarwala, Corey Lowman(参考訳) 本稿では,初期化付近におけるオートエンコーダの進化について検討する。 特に,学習過程の初期における自動エンコーダのヤコビ行列の固有値分布とmnistデータセットのトレーニングについて検討した。 訓練を受けていないオートエンコーダは、長い時間(=100 epochs)のトレーニングを受けたオートエンコーダと質的に異なる固有値分布を持つことがわかった。 さらに、初期の時代においても、これらの固有値分布は、完全に訓練されたオートエンコーダのものと急速に類似していることがわかった。 また、初期化時の固有値と、ランダム行列の固有値とそのような行列の積に関する関連する理論的研究を比較する。

In this paper, we investigate the evolution of autoencoders near their initialization. In particular, we study the distribution of the eigenvalues of the Jacobian matrices of autoencoders early in the training process, training on the MNIST data set. We find that autoencoders that have not been trained have eigenvalue distributions that are qualitatively different from those which have been trained for a long time ($>$100 epochs). Additionally, we find that even at early epochs, these eigenvalue distributions rapidly become qualitatively similar to those of the fully trained autoencoders. We also compare the eigenvalues at initialization to pertinent theoretical work on the eigenvalues of random matrices and the products of such matrices.
翻訳日:2022-02-01 10:42:35 公開日:2022-01-27
# (参考訳) 有限の脳による探索

Exploration With a Finite Brain ( http://arxiv.org/abs/2201.11817v1 )

ライセンス: CC BY 4.0
Marcel Binz, Eric Schulz(参考訳) 有用な探索メカニズムを備えた人工エージェントの装備は、今日でも課題となっている。 一方、人間は探索と搾取の間のトレードオフを無益に管理しているように見える。 本稿では,限られた計算資源を最適に利用することでこれを達成できるという仮説を提起する。 この仮説をメタラーニング強化学習アルゴリズムを用いて検討し,短い記述期間で性能を犠牲にする。 新たなタイプのモデルでは、ボルツマン探索、高信頼境界アルゴリズム、トンプソンサンプリングなど、以前に検討されたアプローチよりも人間の探索行動をキャプチャする。 さらに、記述長の変化が意図した効果をもたらすことを実証する。記述長の減少は、脳卒中患者の振る舞いを捉えながら、青年期の認知発達を反映する。

Equipping artificial agents with useful exploration mechanisms remains a challenge to this day. Humans, on the other hand, seem to manage the trade-off between exploration and exploitation effortlessly. In the present article, we put forward the hypothesis that they accomplish this by making optimal use of limited computational resources. We study this hypothesis by meta-learning reinforcement learning algorithms that sacrifice performance for a shorter description length. The emerging class of models captures human exploration behavior better than previously considered approaches, such as Boltzmann exploration, upper confidence bound algorithms, and Thompson sampling. We additionally demonstrate that changes in description length produce the intended effects: reducing description length captures the behavior of brain-lesioned patients while increasing it echoes cognitive development during adolescence.
翻訳日:2022-02-01 10:24:41 公開日:2022-01-27
# (参考訳) 感情認識機能強化のための感性認識事前学習

Sentiment-Aware Automatic Speech Recognition pre-training for enhanced Speech Emotion Recognition ( http://arxiv.org/abs/2201.11826v1 )

ライセンス: CC BY 4.0
Ayoub Ghriss, Bo Yang, Viktor Rozgic, Elizabeth Shriberg, Chao Wang(参考訳) 本稿では,音声感情認識(SER)のためのマルチタスク事前学習手法を提案する。 自動音声認識(asr)と感情分類タスクで同時にserモデルを事前学習し,音響asrモデルをより‘感情認識’する。 公開データに基づいてトレーニングされたテキスト・ツー・センシメントモデルを用いて感情分類のターゲットを生成する。 最後に,感情アノテート音声データに対して音響asrを微調整する。 提案手法をmsp-podcastデータセット上で評価し, 原子価予測において最大concordance correlation coefficient (ccc) 0.41 を得た。

We propose a novel multi-task pre-training method for Speech Emotion Recognition (SER). We pre-train SER model simultaneously on Automatic Speech Recognition (ASR) and sentiment classification tasks to make the acoustic ASR model more ``emotion aware''. We generate targets for the sentiment classification using text-to-sentiment model trained on publicly available data. Finally, we fine-tune the acoustic ASR on emotion annotated speech data. We evaluated the proposed approach on the MSP-Podcast dataset, where we achieved the best reported concordance correlation coefficient (CCC) of 0.41 for valence prediction.
翻訳日:2022-02-01 10:06:49 公開日:2022-01-27
# (参考訳) 臨床用長手および臨床用大鳥型トランスフォーマー : 臨床用長手型トランスフォーマー

Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences ( http://arxiv.org/abs/2201.11838v1 )

ライセンス: CC BY 4.0
Yikuan Li, Ramsey M. Wehbe, Faraz S. Ahmad, Hanyin Wang and Yuan Luo(参考訳) BERTのようなトランスフォーマーベースのモデルは、様々な自然言語処理タスクのパフォーマンスを劇的に改善した。 臨床知識強化モデル、すなわち臨床バートは、臨床名付きエンティティ認識および自然言語推論タスクにおいて最先端の結果を得た。 これらのトランスフォーマーの最大の制限の1つは、完全な自己着脱機構によるメモリ消費である。 これを解決するために、LongformerやBigBirdといったロングシーケンストランスフォーマーモデルは、メモリ使用量を2次から線形スケールに短縮するスパースアテンション機構を考案した。 これらのモデルは最大入力シーケンス長を512から4096に拡張し、長期依存をモデル化し、様々なタスクで最適な結果を得ることができた。 これらの長列トランスフォーマモデルの成功に触発されて,大規模臨床コーパスから事前学習された臨床長手型言語モデルと臨床長手型言語モデルを導入した。 本研究は、名前付きエンティティ認識、質問応答、文書分類タスクを含む10のベースラインタスクを用いて、事前訓練されたモデルの両方を評価する。 以上の結果から, 臨床上, 臨床上, 臨床上, 臨床上, 臨床上, 臨床上, 臨床上において有意な差がみられた。 トレーニング済みのモデルについては、[https://huggingface.co/yikuan8/Clinical-Longformer]でパブリックダウンロードで公開しています。

Transformers-based models, such as BERT, have dramatically improved the performance for various natural language processing tasks. The clinical knowledge enriched model, namely ClinicalBERT, also achieved state-of-the-art results when performed on clinical named entity recognition and natural language inference tasks. One of the core limitations of these transformers is the substantial memory consumption due to their full self-attention mechanism. To overcome this, long sequence transformer models, e.g. Longformer and BigBird, were proposed with the idea of sparse attention mechanism to reduce the memory usage from quadratic to the sequence length to a linear scale. These models extended the maximum input sequence length from 512 to 4096, which enhanced the ability of modeling long-term dependency and consequently achieved optimal results in a variety of tasks. Inspired by the success of these long sequence transformer models, we introduce two domain enriched language models, namely Clinical-Longformer and Clinical-BigBird, which are pre-trained from large-scale clinical corpora. We evaluate both pre-trained models using 10 baseline tasks including named entity recognition, question answering, and document classification tasks. The results demonstrate that Clinical-Longformer and Clinical-BigBird consistently and significantly outperform ClinicalBERT as well as other short-sequence transformers in all downstream tasks. We have made the pre-trained models available for public download at: [https://huggingface.co/yikuan8/Clinical-Longformer].
翻訳日:2022-02-01 09:57:28 公開日:2022-01-27
# (参考訳) 顔の特徴に基づく機械学習による末梢・中枢麻痺の自動診断に向けて

Towards an Automatic Diagnosis of Peripheral and Central Palsy Using Machine Learning on Facial Features ( http://arxiv.org/abs/2201.11852v1 )

ライセンス: CC BY 4.0
C.V. Vletter, H.L. Burger, H. Alers, N. Sourlos, Z. Al-Ars(参考訳) 中枢性麻痺は、緊急の医療的注意を必要とする顔面麻痺の一種であり、末梢性麻痺のような他の類似した病態と区別する必要がある。 本研究は, この状態の迅速かつ正確な診断を支援するため, 末梢顔面麻痺と中枢顔面麻痺を自動分類する機械学習手法を提案する。 paldaデータセットは、103の周辺性麻痺イメージ、40の中央性麻痺、60人の健康な人々を含む。 実験は5つの機械学習アルゴリズムで実行される。 最も優れたアルゴリズムは、svm(トータル精度85.1%)とgaussian naive bayes(80.7%)である。 中心性麻痺の最低偽陰性率は、ナイーブ・ベイズ法によって達成された(70%に対して80%)。 この条件が最も厳しいことが証明され、その感度はアルゴリズムを比較する良い方法の1つとなる。 補間により、データセットサイズが334画像と推定され、中心麻痺感度が95%となる。 これらの機械学習実験に使用されるすべてのコードは、https://github.com/cvvletter/palsy.com/で無料で利用できる。

Central palsy is a form of facial paralysis that requires urgent medical attention and has to be differentiated from other, similar conditions such as peripheral palsy. To aid in fast and accurate diagnosis of this condition, we propose a machine learning approach to automatically classify peripheral and central facial palsy. The Palda dataset is used, which contains 103 peripheral palsy images, 40 central palsy, and 60 healthy people. Experiments are run on five machine learning algorithms. The best performing algorithms were found to be the SVM (total accuracy of 85.1%) and the Gaussian naive Bayes (80.7%). The lowest false negative rate on central palsy was achieved by the naive Bayes approach (80% compared to 70%). This condition could prove to be the most severe, and thus its sensitivity is another good way to compare algorithms. By extrapolation, a dataset size of 334 total pictures is estimated to achieve a central palsy sensitivity of 95%. All code used for these machine learning experiments is freely available online at https://github.com/cvvletter/palsy.
翻訳日:2022-02-01 09:45:09 公開日:2022-01-27
# (参考訳) 形状メトリクスを使って2次元データポイントを記述

Using Shape Metrics to Describe 2D Data Points ( http://arxiv.org/abs/2201.11857v1 )

ライセンス: CC BY 4.0
William Franz Lamberti(参考訳) 複数の回帰のような従来の機械学習(ML)アルゴリズムでは、人間のアナリストがデータの扱い方を決定する必要がある。 これらの決定は、モデルの構築プロセスを主観的にし、モデルを構築していない人のために複製することを難しくする。 ディープラーニングアプローチは、人間のアナリストがアーキテクチャを構築したら、モデルが重要な機能を学ぶことができるという利点がある。 したがって、従来のMLモデリングのための特定の人間の決定を自動化する方法は、再現性を改善し、モデル構築プロセスの主観的側面を取り除くのに役立つ。 そこで本研究では,2次元データを記述するために形状メトリクスを用い,解析をより説明しやすく解釈できるようにする。 提案手法は、解釈可能で説明可能な方法でモデル構築の様々な側面を自動化するための基盤を提供する。 これは特に「説明可能性の権利」が重要である医療コミュニティのアプリケーションにおいて重要である。 本手法の広さを示すために,確率分布,関数,モデル品質管理チェック(qq-plotsや通常最小2乗の残差解析など)など,様々なシミュレーションデータセットを提供する。

Traditional machine learning (ML) algorithms, such as multiple regression, require human analysts to make decisions on how to treat the data. These decisions can make the model building process subjective and difficult to replicate for those who did not build the model. Deep learning approaches benefit by allowing the model to learn what features are important once the human analyst builds the architecture. Thus, a method for automating certain human decisions for traditional ML modeling would help to improve the reproducibility and remove subjective aspects of the model building process. To that end, we propose to use shape metrics to describe 2D data to help make analyses more explainable and interpretable. The proposed approach provides a foundation to help automate various aspects of model building in an interpretable and explainable fashion. This is particularly important in applications in the medical community where the `right to explainability' is crucial. We provide various simulated data sets ranging from probability distributions, functions, and model quality control checks (such as QQ-Plots and residual analyses from ordinary least squares) to showcase the breadth of this approach.
翻訳日:2022-02-01 09:35:20 公開日:2022-01-27
# 無線ネットワークにおけるエネルギアウェア電力配分のためのグラフベースアルゴリズムの展開

Graph-based Algorithm Unfolding for Energy-aware Power Allocation in Wireless Networks ( http://arxiv.org/abs/2201.11799v1 )

ライセンス: Link先を確認
Boning Li, Gunjan Verma, Santiago Segarra(参考訳) 本稿では,無線通信ネットワークにおける電力割当のための重み付き和エネルギー効率(wsee)を最大化するためのグラフベーストレーサブルフレームワークを開発した。 この問題の非凸性に対処するため,提案手法は古典的反復的準最適アプローチに着想を得て,学習可能なコンポーネントで拡張されたモジュラ構造からなる。 より正確には、逐次凹凸近似(SCA)法の深い展開を提案する。 拡張SCA(USCA)フレームワークでは、元のプリセットパラメータは、マルチユーザチャネル状態情報を基礎となるグラフ隣接行列として直接活用するグラフ畳み込みニューラルネットワーク(GCN)を介して学習可能になった。 提案手法は,異なるネットワークトポロジにおけるサイズ,密度,チャネル分布の一般化性を促進する。 USCAフレームワークは、プログレッシブトレーニング戦略を用いて確率勾配降下法を用いて訓練される。 教師なし損失は、最大出力制約下での目標の単調特性を特徴付けるために慎重に考案される。 総合的な数値計算の結果は、最先端ベンチマークに対するUSCAの卓越した性能と堅牢性を示している。

We develop a novel graph-based trainable framework to maximize the weighted sum energy efficiency (WSEE) for power allocation in wireless communication networks. To address the non-convex nature of the problem, the proposed method consists of modular structures inspired by a classical iterative suboptimal approach and enhanced with learnable components. More precisely, we propose a deep unfolding of the successive concave approximation (SCA) method. In our unfolded SCA (USCA) framework, the originally preset parameters are now learnable via graph convolutional neural networks (GCNs) that directly exploit multi-user channel state information as the underlying graph adjacency matrix. We show the permutation equivariance of the proposed architecture, which promotes generalizability across different network topologies of varying size, density, and channel distribution. The USCA framework is trained through a stochastic gradient descent approach using a progressive training strategy. The unsupervised loss is carefully devised to feature the monotonic property of the objective under maximum power constraints. Comprehensive numerical results demonstrate outstanding performance and robustness of USCA over state-of-the-art benchmarks.
翻訳日:2022-01-31 16:37:21 公開日:2022-01-27
# 任意適応型オンラインモデルpruningを用いたヘテロジニアスフェデレーション学習の収束について

On the Convergence of Heterogeneous Federated Learning with Arbitrary Adaptive Online Model Pruning ( http://arxiv.org/abs/2201.11803v1 )

ライセンス: Link先を確認
Hanhan Zhou, Tian Lan, Guru Venkataramani, Wenbo Ding(参考訳) フェデレートラーニング(FL)における最大の課題の1つは、クライアントデバイスがローカル更新のための計算リソースと通信リソースが大幅に異なることである。 この目的のために、近年の研究は、共有グローバルモデルを用いて得られた異種局所モデルの訓練に重点を置いている。 経験的な成功にもかかわらず、収束に関する理論的保証は未解決のままである。 本稿では, 適応型オンラインモデルプルーニングを用いた不均一FLアルゴリズムの一元化フレームワークを提案し, 一般収束解析を行う。 特に、ある十分な条件下では、IIDおよび非IIDデータの両方で、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束し、収束率は$O(\frac{1}{\sqrt{Q}})$である。 さらに, 収束に影響を与える2つの要因として, プルーニング誘導ノイズと最小カバレッジ指数を照らし, 局所プルーニングマスクの共同設計を提唱した。

One of the biggest challenges in Federated Learning (FL) is that client devices often have drastically different computation and communication resources for local updates. To this end, recent research efforts have focused on training heterogeneous local models obtained by pruning a shared global model. Despite empirical success, theoretical guarantees on convergence remain an open question. In this paper, we present a unifying framework for heterogeneous FL algorithms with {\em arbitrary} adaptive online model pruning and provide a general convergence analysis. In particular, we prove that under certain sufficient conditions and on both IID and non-IID data, these algorithms converges to a stationary point of standard FL for general smooth cost functions, with a convergence rate of $O(\frac{1}{\sqrt{Q}})$. Moreover, we illuminate two key factors impacting convergence: pruning-induced noise and minimum coverage index, advocating a joint design of local pruning masks for efficient training.
翻訳日:2022-01-31 16:08:27 公開日:2022-01-27
# ハンドマニピュレーションに関する実証的評価は回復可能:日常活動における個人化と説明可能なロボット支援に向けて

Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities ( http://arxiv.org/abs/2201.11824v1 )

ライセンス: Link先を確認
Alexander Wich, Holger Schultheis, Michael Beetz(参考訳) ロボットシステムの重要な課題は、他のエージェントの振る舞いを理解することだ。 正しい推論を引き出す能力は、例から人間の行動を引き出すのに不可欠である。 正しい推論の処理は、(衝突)因子が実験的に制御されない場合(観察的証拠)に特に困難である。 このため、相関リスクである推論に依存するロボットは、証拠の偏りのある解釈である。 人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。 具体的には,非パラメトリック推定器を用いた構造因果モデルの実現可能性について検討し,仮想キッチンシナリオにおけるオブジェクト操作の文脈における手動作に関する経験的推定を導出する。 特に、部分的共起(いくつかの要因のみをカバーするモデル)の(より弱い)条件下での推論に焦点をあて、数千の典型的な順序ではなく数百のサンプルで推定器と向き合う。 これらの条件の研究は、アプローチの境界とその実行可能性を探る。 難しい条件にもかかわらず、検証データから推定される推定は正しい。 さらに、これらの見積もりは4人の推定者が一致している3つの反論戦略に対して安定している。 さらに,2個体の因果量から,正および負の効果を検出するアプローチの感受性が示された。 このアプローチの妥当性、安定性、説明可能性は奨励され、さらなる研究の基盤となっている。

A key challenge for robotic systems is to figure out the behavior of another agent. The capability to draw correct inferences is crucial to derive human behavior from examples. Processing correct inferences is especially challenging when (confounding) factors are not controlled experimentally (observational evidence). For this reason, robots that rely on inferences that are correlational risk a biased interpretation of the evidence. We propose equipping robots with the necessary tools to conduct observational studies on people. Specifically, we propose and explore the feasibility of structural causal models with non-parametric estimators to derive empirical estimates on hand behavior in the context of object manipulation in a virtual kitchen scenario. In particular, we focus on inferences under (the weaker) conditions of partial confounding (the model covering only some factors) and confront estimators with hundreds of samples instead of the typical order of thousands. Studying these conditions explores the boundaries of the approach and its viability. Despite the challenging conditions, the estimates inferred from the validation data are correct. Moreover, these estimates are stable against three refutation strategies where four estimators are in agreement. Furthermore, the causal quantity for two individuals reveals the sensibility of the approach to detect positive and negative effects. The validity, stability and explainability of the approach are encouraging and serve as the foundation for further research.
翻訳日:2022-01-31 15:52:41 公開日:2022-01-27
# Going Extreme:パラーとガブにおけるヘイトスピーチの比較分析

Going Extreme: Comparative Analysis of Hate Speech in Parler and Gab ( http://arxiv.org/abs/2201.11770v1 )

ライセンス: Link先を確認
Abraham Israeli and Oren Tsur(参考訳) Gab や Parler といったソーシャルプラットフォームは 'free-speech' ネットワークとしてブランド化されているが、近年はユーザーベースが大きく成長している。 この人気は主に、Twitter、Facebook、Redditなどの主流プラットフォームによって強制される厳格なモデレーションによるものである。 本研究では,パラーに対するヘイトスピーチの大規模解析を初めて実施する。 我々はヘイト音声検出のための一連のアルゴリズムを実験し、ヘイト音声の配信方法の具体的かつ絶え間なく変化する性質を考慮し、その領域における移動学習の限界を示す。 分類精度を向上させるために10K Parlerポストをアノテートし,BERT分類器を微調整した。 個々の投稿の分類は、ソーシャルネットワーク上でラベルの伝搬を通じて何百万というユーザーの分類に利用される。 ヘイトを広める傾向によってユーザーを分類すると、ヘイトモンガーはパーラーアクティブユーザーの16.1\%を占め、他のユーザーグループと異なる特徴を持っていることが分かる。 ヘイトモンガーはより活発で、より中心的であり、感情の異なるレベルを表現し、怒りや悲しみのような異なる感情を伝達している。 さらに、Parler で発見されたトレンドと Gab で発見された傾向を比較して分析を補完する。 私たちの知る限りでは、これはパーラーのヘイトスピーチを定量的に、ユーザレベルで分析する最初の作品のひとつであり、コミュニティが利用可能な最初の注釈付きデータセットです。

Social platforms such as Gab and Parler, branded as `free-speech' networks, have seen a significant growth of their user base in recent years. This popularity is mainly attributed to the stricter moderation enforced by mainstream platforms such as Twitter, Facebook, and Reddit. In this work we provide the first large scale analysis of hate-speech on Parler. We experiment with an array of algorithms for hate-speech detection, demonstrating limitations of transfer learning in that domain, given the illusive and ever changing nature of the ways hate-speech is delivered. In order to improve classification accuracy we annotated 10K Parler posts, which we use to fine-tune a BERT classifier. Classification of individual posts is then leveraged for the classification of millions of users via label propagation over the social network. Classifying users by their propensity to disseminate hate, we find that hate mongers make 16.1\% of Parler active users, and that they have distinct characteristics comparing to other user groups. We find that hate mongers are more active, more central and express distinct levels of sentiment and convey a distinct array of emotions like anger and sadness. We further complement our analysis by comparing the trends discovered in Parler and those found in Gab. To the best of our knowledge, this is among the first works to analyze hate speech in Parler in a quantitative manner and on the user level, and the first annotated dataset to be made available to the community.
翻訳日:2022-01-31 15:43:48 公開日:2022-01-27
# 統合学習 - XGBoostとMIMIC-IVの例によるドメイン固有のモデルフリー最適化戦略

Consolidated learning -- a domain-specific model-free optimization strategy with examples for XGBoost and MIMIC-IV ( http://arxiv.org/abs/2201.11815v1 )

ライセンス: Link先を確認
Katarzyna Wo\'znica, Mateusz Grzyb, Zuzanna Trafas and Przemys{\l}aw Biecek(参考訳) 多くの機械学習モデルにおいて、ハイパーパラメータの選択はハイパフォーマンスを達成するための重要なステップである。 一般的なメタラーニングアプローチは、以前のタスクから得られた結果に基づいて、完全に新しいタスクのための限られた計算予算で、優れたハイパーパラメータの構成を得ることに重点を置いている。 本稿では,モデル開発者が直面している実践的課題に適合し,類似したデータセット上に多数の予測モデルを生成する,統合学習と呼ばれるチューニング問題の新たな定式化を提案する。 このような設定では、単一のタスクをチューニングするよりも、全体の最適化時間に関心があります。 我々は、慎重に選択されたハイパーパラメータの静的ポートフォリオが、常に最適化し、使いやすさと実装を維持できることを示す。 さらに、特定のドメインに対してそのようなポートフォリオを構築する方法も指摘する。 最適化の改善は、同様のタスク間でのハイパーパラメータ構成のより効率的な転送によって可能となる。 本手法の有効性をxgboostアルゴリズムの実証実験とmuse-iv医療データベースから抽出した予測タスクの収集により実証するが,他の多くの分野では統合学習が適用できる。

For many machine learning models, a choice of hyperparameters is a crucial step towards achieving high performance. Prevalent meta-learning approaches focus on obtaining good hyperparameters configurations with a limited computational budget for a completely new task based on the results obtained from the prior tasks. This paper proposes a new formulation of the tuning problem, called consolidated learning, more suited to practical challenges faced by model developers, in which a large number of predictive models are created on similar data sets. In such settings, we are interested in the total optimization time rather than tuning for a single task. We show that a carefully selected static portfolio of hyperparameters yields good results for anytime optimization, maintaining ease of use and implementation. Moreover, we point out how to construct such a portfolio for specific domains. The improvement in the optimization is possible due to more efficient transfer of hyperparameter configurations between similar tasks. We demonstrate the effectiveness of this approach through an empirical study for XGBoost algorithm and the collection of predictive tasks extracted from the MIMIC-IV medical database; however, consolidated learning is applicable in many others fields.
翻訳日:2022-01-31 15:43:22 公開日:2022-01-27
# オフライン強化学習における探索の課題

The Challenges of Exploration for Offline Reinforcement Learning ( http://arxiv.org/abs/2201.11861v1 )

ライセンス: Link先を確認
Nathan Lambert, Markus Wulfmeier, William Whitney, Arunkumar Byravan, Michael Bloesch, Vibhavari Dasagi, Tim Hertweck, Martin Riedmiller(参考訳) オフライン強化学習(ORL)は、情報的経験の収集と最適な行動の推測という、強化学習の2つの相互関連過程を別々に研究することができる。 第2のステップはオフライン環境で広く研究されているが、データ効率の良いrlにとって重要であるのは、情報収集である。 データ収集のタスクに依存しない設定は、タスクが事前に分かっていないが、単一のデータセットを収集し、それを使用してダウンストリームタスクを発生させる可能性があるため、特に関心がある。 我々は、好奇心に基づく本質的なモチベーションを通じて、エージェントがまだモデル化されていない状態や遷移を探索するように促す探索手法のファミリーを調査する。 そこで,explore2offlineでは,収集したデータを転送し,報酬リラベルと標準オフラインrlアルゴリズムを用いてポリシーを推論することにより,収集データの品質を評価する。 我々は,この手法を用いて,新たな探索エージェント,本質的モデル予測制御(impc)を含む多種多様なデータ収集戦略を評価し,様々なタスクにおける性能を実証する。 この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。

Offline Reinforcement Learning (ORL) enablesus to separately study the two interlinked processes of reinforcement learning: collecting informative experience and inferring optimal behaviour. The second step has been widely studied in the offline setting, but just as critical to data-efficient RL is the collection of informative data. The task-agnostic setting for data collection, where the task is not known a priori, is of particular interest due to the possibility of collecting a single dataset and using it to solve several downstream tasks as they arise. We investigate this setting via curiosity-based intrinsic motivation, a family of exploration methods which encourage the agent to explore those states or transitions it has not yet learned to model. With Explore2Offline, we propose to evaluate the quality of collected data by transferring the collected data and inferring policies with reward relabelling and standard offline RL algorithms. We evaluate a wide variety of data collection strategies, including a new exploration agent, Intrinsic Model Predictive Control (IMPC), using this scheme and demonstrate their performance on various tasks. We use this decoupled framework to strengthen intuitions about exploration and the data prerequisites for effective offline RL.
翻訳日:2022-01-31 15:43:05 公開日:2022-01-27
# 異化拡散復元モデル

Denoising Diffusion Restoration Models ( http://arxiv.org/abs/2201.11793v1 )

ライセンス: Link先を確認
Bahjat Kawar, Michael Elad, Stefano Ermon, Jiaming Song(参考訳) 画像復元における多くの興味深いタスクは線形逆問題としてキャストできる。 これらの問題を解決する最近の手法は、その測定値から自然画像の後方分布からサンプリングする確率的アルゴリズムを用いる。 しかしながら、効率的な解法は後部をモデル化するために問題特異的に教師ありの訓練を必要とすることが多いが、問題固有でない教師なしの方法は典型的には非効率な反復法に依存している。 本研究は, 効率的な非教師付き後方サンプリング法であるDDRM(Denoising Diffusion Restoration Models)を導入することでこの問題に対処する。 変分推論に動機づけられ、ddrmは任意の線形逆問題を解くために事前訓練された分母拡散生成モデルを利用する。 様々な測定雑音下での高分解能,デブラリング,インパインティング,カラー化のための複数の画像データセット上で,ddrmの汎用性を示す。 DDRMは、さまざまなImageNetデータセットにおいて、再構築品質、知覚的品質、ランタイムにおいて、現在の主要な教師なしメソッドよりも5倍高速である。 DDRMはまた、観測されたImageNetトレーニングセットの分布から自然画像に対してうまく一般化する。

Many interesting tasks in image restoration can be cast as linear inverse problems. A recent family of approaches for solving these problems uses stochastic algorithms that sample from the posterior distribution of natural images given the measurements. However, efficient solutions often require problem-specific supervised training to model the posterior, whereas unsupervised methods that are not problem-specific typically rely on inefficient iterative methods. This work addresses these issues by introducing Denoising Diffusion Restoration Models (DDRM), an efficient, unsupervised posterior sampling method. Motivated by variational inference, DDRM takes advantage of a pre-trained denoising diffusion generative model for solving any linear inverse problem. We demonstrate DDRM's versatility on several image datasets for super-resolution, deblurring, inpainting, and colorization under various amounts of measurement noise. DDRM outperforms the current leading unsupervised methods on the diverse ImageNet dataset in reconstruction quality, perceptual quality, and runtime, being 5x faster than the nearest competitor. DDRM also generalizes well for natural images out of the distribution of the observed ImageNet training set.
翻訳日:2022-01-31 15:02:19 公開日:2022-01-27
# 体外受精治療のための知識に基づく意思決定支援システム

A Knowledge-Based Decision Support System for In Vitro Fertilization Treatment ( http://arxiv.org/abs/2201.11802v1 )

ライセンス: Link先を確認
Xizhe Wang, Ning Zhang, Jia Wang, Jing Ni, Xinzi Sun, John Zhang, Zitao Liu, Yu Cao, Benyuan Liu(参考訳) In Vitro Fertilization (IVF)は、最も広く使われている人工生殖技術(ART)である。 IVFは通常、卵巣刺激、卵胞の回収、胚移植を伴う実験室での受精を含む。 最初の2段階はメスの卵胞期と月経周期における排卵に対応する。 そのため,本論文では治療サイクルとして取り上げている。 治療サイクルは、ivf治療における刺激薬が患者に直接適用されるため重要である。 刺激効果を最適化し、刺激薬の副作用を減少させるためには、迅速な治療調整が必要である。 また, 得られた卵子の品質および量は, 以下の手順の結果に有意な影響を与えている。 IVF の成功率を向上させるため,IVF 治療サイクル中の患者訪問ごとに,治療プロトコルと治療適応に関する医療アドバイスを提供する知識ベースの意思決定支援システムを提案する。 本システムは,電子カルテシステムへの組み込みが容易なデータ処理と軽量化において効率的である。 また, 卵子検索指向の評価は, プロトコルや医薬品に対するアドバイスの正確性の観点から, システムの性能が良好であることを実証する。

In Vitro Fertilization (IVF) is the most widely used Assisted Reproductive Technology (ART). IVF usually involves controlled ovarian stimulation, oocyte retrieval, fertilization in the laboratory with subsequent embryo transfer. The first two steps correspond with follicular phase of females and ovulation in their menstrual cycle. Therefore, we refer to it as the treatment cycle in our paper. The treatment cycle is crucial because the stimulation medications in IVF treatment are applied directly on patients. In order to optimize the stimulation effects and lower the side effects of the stimulation medications, prompt treatment adjustments are in need. In addition, the quality and quantity of the retrieved oocytes have a significant effect on the outcome of the following procedures. To improve the IVF success rate, we propose a knowledge-based decision support system that can provide medical advice on the treatment protocol and medication adjustment for each patient visit during IVF treatment cycle. Our system is efficient in data processing and light-weighted which can be easily embedded into electronic medical record systems. Moreover, an oocyte retrieval oriented evaluation demonstrates that our system performs well in terms of accuracy of advice for the protocols and medications.
翻訳日:2022-01-31 14:57:37 公開日:2022-01-27
# 眼圧:非接触画像によるベッド内接触圧推定

Pressure Eye: In-bed Contact Pressure Estimation via Contact-less Imaging ( http://arxiv.org/abs/2201.11828v1 )

ライセンス: Link先を確認
Shuangjun Liu, Sarah Ostadabbas(参考訳) コンピュータビジョンは画像から意味的意味を解釈することに成功したが、対象の基盤となる(非視覚的な)物理的性質を推定することは、密集した地図を再構成するよりも、しばしばバルク値に制限される。 本研究では,人体と被写体の表面の接触圧を視覚信号から直接高分解能で推定するための圧力眼(PEye)アプローチを提案する。 PEyeアプローチは、ベッドバウンド患者の圧力潰瘍の予測と早期検出を可能にし、現在高価な圧力マットの使用に依存している。 peyeネットワークは、視覚手がかりと関連する物理パラメータを融合して高分解能圧力マップ(pms)を再構成するために、共有復号形式を二重符号化するように構成されている。 また,Nieve Bayesの仮定に基づく画素ワイズ再サンプリング手法を提案し,PM回帰性能をさらに向上させる。 また, 推定精度評価用に調整した補正センシング(pcs)のパーセンテージも提案し, 誤差許容度を変化させた性能評価の別の視点を提供する。 ベッドに横たわりながら102人の被験者からデータを収集するために,マルチモーダルセンシング技術を用いた広範囲な実験を行った。 個人の高分解能接触圧データは、そのrgbまたは長波長赤外線(lwir)画像から推定でき、その画像の回帰/翻訳タスクにおける最先端の方法よりも、$pcs_{efs0.1}$の基準で91.8%と91.2%の確率で推定できる。

Computer vision has achieved great success in interpreting semantic meanings from images, yet estimating underlying (non-visual) physical properties of an object is often limited to their bulk values rather than reconstructing a dense map. In this work, we present our pressure eye (PEye) approach to estimate contact pressure between a human body and the surface she is lying on with high resolution from vision signals directly. PEye approach could ultimately enable the prediction and early detection of pressure ulcers in bed-bound patients, that currently depends on the use of expensive pressure mats. Our PEye network is configured in a dual encoding shared decoding form to fuse visual cues and some relevant physical parameters in order to reconstruct high resolution pressure maps (PMs). We also present a pixel-wise resampling approach based on Naive Bayes assumption to further enhance the PM regression performance. A percentage of correct sensing (PCS) tailored for sensing estimation accuracy evaluation is also proposed which provides another perspective for performance evaluation under varying error tolerances. We tested our approach via a series of extensive experiments using multimodal sensing technologies to collect data from 102 subjects while lying on a bed. The individual's high resolution contact pressure data could be estimated from their RGB or long wavelength infrared (LWIR) images with 91.8% and 91.2% estimation accuracies in $PCS_{efs0.1}$ criteria, superior to state-of-the-art methods in the related image regression/translation tasks.
翻訳日:2022-01-31 14:57:20 公開日:2022-01-27
# 移動学習とCNNによる車両インターネットの侵入検知システム

A Transfer Learning and Optimized CNN Based Intrusion Detection System for Internet of Vehicles ( http://arxiv.org/abs/2201.11812v1 )

ライセンス: Link先を確認
Li Yang and Abdallah Shami(参考訳) 自動運転車やコネクテッドカーを含む現代の車両は、様々な機能やサービスを可能にする外部世界とますます結びついている。 しかし、接続性の向上は、車両のインターネット(iov)の攻撃面を増加させ、その脆弱性がサイバー脅威に繋がる。 車両網における認証と暗号化手順の欠如により、侵入検知システム(idss)は現代の車両システムをネットワーク攻撃から守るために必須のアプローチである。 本稿では,畳み込みニューラルネットワーク(CNN)とハイパーパラメータ最適化技術を用いたIoVシステムに対して,移動学習とアンサンブル学習に基づくIDSを提案する。 実験では、提案されたIDSが、よく知られた2つの公開ベンチマークIoVセキュリティデータセットであるCar-HackingデータセットとCICIDS2017データセットに対して、99.25%以上の検出率とF1スコアを示した。 本研究は車内および車外ネットワークにおけるサイバー攻撃検出におけるIDSの有効性を示す。

Modern vehicles, including autonomous vehicles and connected vehicles, are increasingly connected to the external world, which enables various functionalities and services. However, the improving connectivity also increases the attack surfaces of the Internet of Vehicles (IoV), causing its vulnerabilities to cyber-threats. Due to the lack of authentication and encryption procedures in vehicular networks, Intrusion Detection Systems (IDSs) are essential approaches to protect modern vehicle systems from network attacks. In this paper, a transfer learning and ensemble learning-based IDS is proposed for IoV systems using convolutional neural networks (CNNs) and hyper-parameter optimization techniques. In the experiments, the proposed IDS has demonstrated over 99.25% detection rates and F1-scores on two well-known public benchmark IoV security datasets: the Car-Hacking dataset and the CICIDS2017 dataset. This shows the effectiveness of the proposed IDS for cyber-attack detection in both intra-vehicle and external vehicular networks.
翻訳日:2022-01-31 14:38:20 公開日:2022-01-27
# ディープラーニングワークロードによるGPU故障予測

Prediction of GPU Failures Under Deep Learning Workloads ( http://arxiv.org/abs/2201.11853v1 )

ライセンス: Link先を確認
Heting Liu, Zhichao Li, Cheng Tan, Rongqiu Yang, Guohong Cao, Zherui Liu, Chuanxiong Guo(参考訳) グラフィックス処理ユニット(GPU)は、ディープラーニング(DL)タスクを処理するデファクトスタンダードである。 一方、GPUの障害は必然的であり、分散トレーニングを中断し、推論サービスをクラッシュさせ、サービスレベルの契約違反を引き起こすという、DLタスクに重大な結果をもたらす。 本稿では,GPU故障による問題を緩和するために,MLモデルを用いて故障を予測することを提案する。 本稿では,大規模ディープラーニングワークロードにおけるgpu障害の予測モデルについて初めて検討する。 出発点として、古典予測モデルを評価し、これらのモデルの予測が不正確かつ不安定であることを観察する。 予測の精度と安定性を向上させるため,パラレルおよびカスケードモデルセンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。 我々は,3億5000万項目を含む4ヶ月の生産データセットを用いて,各種技術の性能評価を行った。 その結果,提案手法は予測精度を46.3\%から84.0\%に改善した。

Graphics processing units (GPUs) are the de facto standard for processing deep learning (DL) tasks. Meanwhile, GPU failures, which are inevitable, cause severe consequences in DL tasks: they disrupt distributed trainings, crash inference services, and result in service level agreement violations. To mitigate the problem caused by GPU failures, we propose to predict failures by using ML models. This paper is the first to study prediction models of GPU failures under large-scale production deep learning workloads. As a starting point, we evaluate classic prediction models and observe that predictions of these models are both inaccurate and unstable. To improve the precision and stability of predictions, we propose several techniques, including parallel and cascade model-ensemble mechanisms and a sliding training method. We evaluate the performances of our various techniques on a four-month production dataset including 350 million entries. The results show that our proposed techniques improve the prediction precision from 46.3\% to 84.0\%.
翻訳日:2022-01-31 14:36:32 公開日:2022-01-27
# LAP:畳み込みニューラルネットワークにおける忠実解釈と知識注入のための注意に基づくモジュール

LAP: An Attention-Based Module for Faithful Interpretation and Knowledge Injection in Convolutional Neural Networks ( http://arxiv.org/abs/2201.11808v1 )

ライセンス: Link先を確認
Rassa Ghavami Modegh, Ahmad Salimi, Hamid R. Rabiee(参考訳) 深層畳み込みニューラルネットワークの最先端性能にもかかわらず、見当たらない状況ではバイアスや誤動作の影響を受けやすい。 彼らの推論の背後にある複雑な計算は、信頼を育むのに十分人間に理解できない。 外部説明手法は、人間の理解可能な方法でネットワーク決定を解釈しようと試みてきたが、仮定や単純化のために誤認を訴えられている。 一方、モデル固有の自己解釈性は、前述の誤りに対してより堅牢であるが、既に訓練されたモデルには適用できない。 本研究では,モデルの性能を改善しつつ,自己解釈性と知識注入の可能性を実現するため,LAP(Local Attention Pooling)と呼ばれる新しい注意層を提案する。 さらに、トレーニングのプロセスを強化するために、いくつかの弱い教師付き知識注入手法が提供される。 imagenetを含む3つのデータセット上で複数のラップ拡張モデルを評価することで,クレームを検証した。 提案するフレームワークは、一般的なホワイトボックスの説明手法よりも、人間の理解しやすく忠実なモデル解釈を提供する。

Despite the state-of-the-art performance of deep convolutional neural networks, they are susceptible to bias and malfunction in unseen situations. The complex computation behind their reasoning is not sufficiently human-understandable to develop trust. External explainer methods have tried to interpret the network decisions in a human-understandable way, but they are accused of fallacies due to their assumptions and simplifications. On the other side, the inherent self-interpretability of models, while being more robust to the mentioned fallacies, cannot be applied to the already trained models. In this work, we propose a new attention-based pooling layer, called Local Attention Pooling (LAP), that accomplishes self-interpretability and the possibility for knowledge injection while improving the model's performance. Moreover, several weakly-supervised knowledge injection methodologies are provided to enhance the process of training. We verified our claims by evaluating several LAP-extended models on three different datasets, including Imagenet. The proposed framework offers more valid human-understandable and more faithful-to-the-model interpretations than the commonly used white-box explainer methods.
翻訳日:2022-01-31 14:31:17 公開日:2022-01-27
# 知識グラフを用いた視覚伝達学習に関する調査

A Survey on Visual Transfer Learning using Knowledge Graphs ( http://arxiv.org/abs/2201.11794v1 )

ライセンス: Link先を確認
Sebastian Monka, Lavdim Halilaj, Achim Rettinger(参考訳) 最近のコンピュータビジョンのアプローチでは、トレーニングとテストドメインが同じ基礎となるデータ分散に従うと、ディープラーニングの手法がうまく機能する。 しかし,これらの手法を実世界で使用した場合に発生する画像の小さな変化が予測不能な誤りを引き起こすことが示されている。 転送学習は、これらのエラーを防ぐ機械学習の分野である。 特に,言語埋め込みや知識グラフ(KG)に符号化された補助知識を用いた画像データの拡張手法は,近年,有望な成果を上げている。 本調査は,KGを用いた視覚伝達学習手法に焦点を当てた。 kgsは、基礎となるグラフ構造スキーマまたはベクトルベースの知識グラフ埋め込みで補助的な知識を表現することができる。 読者が特定のKG-DL構成の助けを借りて視覚伝達学習問題を解けるようにするために、有向ラベル付きグラフ、ハイパーグラフ、ハイパーリレーショナルグラフなど、様々な表現のKGの関連モデリング構造を記述することから始める。 本稿では,視覚的特徴と意味的特徴に言及しつつ,特徴抽出器の概念を説明する。 本稿では,知識グラフの埋め込み手法を概観し,高次元の視覚的埋め込みと組み合わせた共同学習の目的について述べる。 メインセクションでは、KGとDLパイプラインの組み合わせに関する4つのカテゴリを紹介している。 1)レビュアーとしての知識グラフ 2) 研修生としての知識グラフ 3) トレーナーとしての知識グラフ 4)ピアとしての知識グラフ。 研究者が評価ベンチマークを見つけるのを助けるために、汎用kgsの概要と画像処理データセットと様々な補助知識を含むベンチマークを提供する。 最後に,関連する調査を要約し,今後の研究に向けた課題と課題について展望を述べる。

Recent approaches of computer vision utilize deep learning methods as they perform quite well if training and testing domains follow the same underlying data distribution. However, it has been shown that minor variations in the images that occur when using these methods in the real world can lead to unpredictable errors. Transfer learning is the area of machine learning that tries to prevent these errors. Especially, approaches that augment image data using auxiliary knowledge encoded in language embeddings or knowledge graphs (KGs) have achieved promising results in recent years. This survey focuses on visual transfer learning approaches using KGs. KGs can represent auxiliary knowledge either in an underlying graph-structured schema or in a vector-based knowledge graph embedding. Intending to enable the reader to solve visual transfer learning problems with the help of specific KG-DL configurations we start with a description of relevant modeling structures of a KG of various expressions, such as directed labeled graphs, hypergraphs, and hyper-relational graphs. We explain the notion of feature extractor, while specifically referring to visual and semantic features. We provide a broad overview of knowledge graph embedding methods and describe several joint training objectives suitable to combine them with high dimensional visual embeddings. The main section introduces four different categories on how a KG can be combined with a DL pipeline: 1) Knowledge Graph as a Reviewer; 2) Knowledge Graph as a Trainee; 3) Knowledge Graph as a Trainer; and 4) Knowledge Graph as a Peer. To help researchers find evaluation benchmarks, we provide an overview of generic KGs and a set of image processing datasets and benchmarks including various types of auxiliary knowledge. Last, we summarize related surveys and give an outlook about challenges and open issues for future research.
翻訳日:2022-01-31 13:58:28 公開日:2022-01-27
# (参考訳) 線形閾値モデルにおける不均一ピア効果

Heterogeneous Peer Effects in the Linear Threshold Model ( http://arxiv.org/abs/2201.11242v1 )

ライセンス: CC BY 4.0
Christopher Tran, Elena Zheleva(参考訳) 線形閾値モデル(Linear Threshold Model)は、ソーシャルネットワークを通じて情報がどのように拡散するかを記述するモデルである。 このモデルによると、個人はそれを採用した隣人の比率が一定の閾値に達した後、アイデアや製品を採用する。 線形しきい値モデル(英語版)の典型的な応用は、しきい値が全てのネットワークノードで同じかランダムに分散しているかのどちらかであると仮定している。 個人レベルの差異に対処するために,個人が仲間に影響を受けるかどうかをより正確に予測できる閾値を推定するための因果推論手法を提案する。 本稿では,不均質ピア効果の概念を導入し,線形しきい値モデルに対応する構造因果モデルを構築し,異種ピア効果の同定と推定を支援する。 そこで我々は,因果木と因果メタ学習者に基づく2つのしきい値推定アルゴリズムを開発した。 合成および実世界のデータセットに対する実験結果から,提案モデルでは線形閾値モデルの個々の閾値をより正確に予測し,時間とともにどのノードが活性化されるかをより正確に予測できることがわかった。

The Linear Threshold Model is a widely used model that describes how information diffuses through a social network. According to this model, an individual adopts an idea or product after the proportion of their neighbors who have adopted it reaches a certain threshold. Typical applications of the Linear Threshold Model assume that thresholds are either the same for all network nodes or randomly distributed, even though some people may be more susceptible to peer pressure than others. To address individual-level differences, we propose causal inference methods for estimating individual thresholds that can more accurately predict whether and when individuals will be affected by their peers. We introduce the concept of heterogeneous peer effects and develop a Structural Causal Model which corresponds to the Linear Threshold Model and supports heterogeneous peer effect identification and estimation. We develop two algorithms for individual threshold estimation, one based on causal trees and one based on causal meta-learners. Our experimental results on synthetic and real-world datasets show that our proposed models can better predict individual-level thresholds in the Linear Threshold Model and thus more precisely predict which nodes will get activated over time.
翻訳日:2022-01-29 02:04:09 公開日:2022-01-27
# (参考訳) 分類器への直交方向の制御

Controlling Directions Orthogonal to a Classifier ( http://arxiv.org/abs/2201.11259v1 )

ライセンス: CC BY 4.0
Yilun Xu, Hao He, Tianxiao Shen, Tommi Jaakkola(参考訳) これらの方向をスタイル転送などのタスクで制御できるように,与えられた分類器に不変な方向を特定することを提案する。 直交分解は与えられた分類器が線型であるときに直接同定できるが、非線形の場合の直交性の概念を形式的に定義する。 また,直交分類器(与えられた分類器以外の方向を利用した分類器)を構築するための驚くほど簡単な方法を提案する。 経験的に, 直交変動の制御が重要となる3つのユースケース, スタイル伝達, ドメイン適応, 公平性を示す。 直交分類器は、複数の側面が異なる場合に所望のスタイル転送を可能にし、ラベルシフトによるドメイン適応を改善し、予測者としての不公平さを緩和する。 コードはhttp://github.com/Newbeeer/orthogonal_classifierで入手できる。

We propose to identify directions invariant to a given classifier so that these directions can be controlled in tasks such as style transfer. While orthogonal decomposition is directly identifiable when the given classifier is linear, we formally define a notion of orthogonality in the non-linear case. We also provide a surprisingly simple method for constructing the orthogonal classifier (a classifier utilizing directions other than those of the given classifier). Empirically, we present three use cases where controlling orthogonal variation is important: style transfer, domain adaptation, and fairness. The orthogonal classifier enables desired style transfer when domains vary in multiple aspects, improves domain adaptation with label shifts and mitigates the unfairness as a predictor. The code is available at http://github.com/Newbeeer/orthogonal_classifier
翻訳日:2022-01-29 01:43:20 公開日:2022-01-27
# (参考訳) RCAN再考:画像超解法のトレーニングの改善

Revisiting RCAN: Improved Training for Image Super-Resolution ( http://arxiv.org/abs/2201.11279v1 )

ライセンス: CC BY 4.0
Zudi Lin, Prateek Garg, Atmadeep Banerjee, Salma Abdel Magid, Deqing Sun, Yulun Zhang, Luc Van Gool, Donglai Wei, Hanspeter Pfister(参考訳) 画像超解像(SR)は、スポットライトを惹きつける新しいアーキテクチャを持つ高速移動場である。 しかし、ほとんどのsrモデルは古い訓練戦略で最適化された。 本研究では,一般的なRCANモデルを再検討し,SRにおける異なるトレーニングオプションの効果を検討する。 驚いたことに(あるいは予想どおりに)、RCANは、RCANが標準ベンチマークで公表したCNNベースのSRアーキテクチャを、適切なトレーニング戦略と最小限のアーキテクチャ変更で上回ったり、ほぼ一致させることができることを示す。 さらに、RCANは400以上の畳み込み層を持つ非常に大きなSRアーキテクチャであるが、過度に適合するのではなくモデル能力を制限する主な問題である、という注目すべき結論を導いている。 トレーニングイテレーションの増加がモデル性能を向上する一方で、正規化手法を適用した場合、一般的に予測を劣化させるという支持的な証拠を観察する。 簡単な修正RCANをRCAN-itと表現し,今後の研究のベースラインとして活用することを推奨する。 コードはhttps://github.com/zudi-lin/rcan-itで公開されている。

Image super-resolution (SR) is a fast-moving field with novel architectures attracting the spotlight. However, most SR models were optimized with dated training strategies. In this work, we revisit the popular RCAN model and examine the effect of different training options in SR. Surprisingly (or perhaps as expected), we show that RCAN can outperform or match nearly all the CNN-based SR architectures published after RCAN on standard benchmarks with a proper training strategy and minimal architecture change. Besides, although RCAN is a very large SR architecture with more than four hundred convolutional layers, we draw a notable conclusion that underfitting is still the main problem restricting the model capability instead of overfitting. We observe supportive evidence that increasing training iterations clearly improves the model performance while applying regularization techniques generally degrades the predictions. We denote our simply revised RCAN as RCAN-it and recommend practitioners to use it as baselines for future research. Code is publicly available at https://github.com/zudi-lin/rcan-it.
翻訳日:2022-01-29 01:08:36 公開日:2022-01-27
# (参考訳) アノテーション付き2次元直交描画による対話型3次元キャラクタモデリング

Interactive 3D Character Modeling from 2D Orthogonal Drawings with Annotations ( http://arxiv.org/abs/2201.11284v1 )

ライセンス: CC BY 4.0
Zhengyu Huang, Haoran Xie, Tsukasa Fukusato(参考訳) 2次元空間アノテーションに基づく直交図(例えば、前面および側面図)からのインタラクティブな3次元キャラクタモデリング手法を提案する。 まず、入力図面間の部分対応を構築し、2次元画像のエッジ情報に応じてスプラインを網羅したベースメッシュを生成する。 次に、ユーザは加算と侵食と呼ばれる2種類のストロークを用いて入力図面(例えば目と口)の所望の部分を注釈し、システムはベースメッシュの形状を再最適化する。 2D空間の操作(つまりアノテーションの修正と修正)を繰り返すことで、ユーザーは望ましいキャラクタモデルを設計できる。 システムの効率と品質を検証するために,最先端の手法を用いて生成した結果を検証した。

We propose an interactive 3D character modeling approach from orthographic drawings (e.g., front and side views) based on 2D-space annotations. First, the system builds partial correspondences between the input drawings and generates a base mesh with sweeping splines according to edge information in 2D images. Next, users annotates the desired parts on the input drawings (e.g., the eyes and mouth) by using two type of strokes, called addition and erosion, and the system re-optimizes the shape of the base mesh. By repeating the 2D-space operations (i.e., revising and modifying the annotations), users can design a desired character model. To validate the efficiency and quality of our system, we verified the generated results with state-of-the-art methods.
翻訳日:2022-01-29 00:50:33 公開日:2022-01-27
# (参考訳) 多言語ヘイトスピーチ検出のための高一般化モデル

Highly Generalizable Models for Multilingual Hate Speech Detection ( http://arxiv.org/abs/2201.11294v1 )

ライセンス: CC BY 4.0
Neha Deshpande, Nicholas Farris, and Vidhur Kumar(参考訳) ヘイトスピーチ検出は過去10年で重要な研究課題となっている。 多くの民間企業が、世界中の異なるプラットフォーム上でユーザー生成コンテンツを規制する必要がある。 本稿では,多言語ヘイトスピーチの分類について検討する。 11の言語からなるデータセットをコンパイルし,バイナリラベルと組み合わせたデータを解析することで,異なる分類法を解決した。 異なる言語やデータセットにまたがってヘイトスピーチを単一の方法で定義することは、その定義に対する文化的ニュアンスを消去する可能性があるため、RAERやMUSEが提供する言語に依存しない埋め込みを利用して、データセット全体にわたるヘイトスピーチの一般的な定義を利用できるモデルを開発する。 さらに,この拡張データセットにおいて,ヘイトスピーチ検出のための技術手法の事前評価を行った。 マルチリンガル・トレイン・モノリンガル・テスト、モノリンガル・トレイン・モノリンガル・テスト、言語・ファミリー・トレイン・モノリンガル・テストの3つのシナリオを用いて、他の言語データから学習することで、各言語のパフォーマンスが向上するかどうかを確認する。

Hate speech detection has become an important research topic within the past decade. More private corporations are needing to regulate user generated content on different platforms across the globe. In this paper, we introduce a study of multilingual hate speech classification. We compile a dataset of 11 languages and resolve different taxonomies by analyzing the combined data with binary labels: hate speech or not hate speech. Defining hate speech in a single way across different languages and datasets may erase cultural nuances to the definition, therefore, we utilize language agnostic embeddings provided by LASER and MUSE in order to develop models that can use a generalized definition of hate speech across datasets. Furthermore, we evaluate prior state of the art methodologies for hate speech detection under our expanded dataset. We conduct three types of experiments for a binary hate speech classification task: Multilingual-Train Monolingual-Test, MonolingualTrain Monolingual-Test and Language-Family-Train Monolingual Test scenarios to see if performance increases for each language due to learning more from other language data.
翻訳日:2022-01-29 00:43:19 公開日:2022-01-27
# (参考訳) ブロックチェーンを用いたセキュアで信頼性の高い連合学習を目指して

Towards a Secure and Reliable Federated Learning using Blockchain ( http://arxiv.org/abs/2201.11311v1 )

ライセンス: CC BY 4.0
Hajar Moudoud, Soumaya Cherkaoui and Lyes Khoukhi(参考訳) Federated Learning(FL)は、デバイスが自身のプライバシを保持しながらローカルデータセットを使用して学習を行うようなコラボレーショントレーニングを可能にする、分散機械学習(ML)技術である。 この技術は、プライバシー、通信効率、資源保護を保証する。 これらの利点にもかかわらず、FLは信頼性(訓練における信頼性の低いデバイス)、トラクタビリティ(訓練された多数のモデル)、匿名性に関連するいくつかの課題に悩まされている。 これらの問題に対処するために、ブロックチェーン機能を使用して、完全に分散された信頼性の高い方法で協調的なモデルトレーニングを可能にする、セキュアで信頼性の高いブロックチェーンフレームワーク(SRB-FL)を提案する。 特に、データの信頼性、スケーラビリティ、信頼性を保証するブロックチェーンシャーディングに基づいてセキュアなFLを設計します。 さらに,主観的マルチウェイト論理を用いたFLデバイスの信頼性向上のためのインセンティブ機構を導入する。 その結果,提案するSRB-FLフレームワークは効率的かつスケーラブルであり,フェデレーション学習に適したソリューションであることがわかった。

Federated learning (FL) is a distributed machine learning (ML) technique that enables collaborative training in which devices perform learning using a local dataset while preserving their privacy. This technique ensures privacy, communication efficiency, and resource conservation. Despite these advantages, FL still suffers from several challenges related to reliability (i.e., unreliable participating devices in training), tractability (i.e., a large number of trained models), and anonymity. To address these issues, we propose a secure and trustworthy blockchain framework (SRB-FL) tailored to FL, which uses blockchain features to enable collaborative model training in a fully distributed and trustworthy manner. In particular, we design a secure FL based on the blockchain sharding that ensures data reliability, scalability, and trustworthiness. In addition, we introduce an incentive mechanism to improve the reliability of FL devices using subjective multi-weight logic. The results show that our proposed SRB-FL framework is efficient and scalable, making it a promising and suitable solution for federated learning.
翻訳日:2022-01-29 00:32:51 公開日:2022-01-27
# (参考訳) 視覚質問応答におけるシステム一般化のためのトランスフォーマーモジュールネットワーク

Transformer Module Networks for Systematic Generalization in Visual Question Answering ( http://arxiv.org/abs/2201.11316v1 )

ライセンス: CC BY 4.0
Moyuru Yamada, Vanessa D'Amario, Kentaro Takemoto, Xavier Boix, and Tomotake Sasaki(参考訳) トランスフォーマーベースのモデルは、VQA(Visual Question Answering)上で優れたパフォーマンスを達成する。 しかし、体系的な一般化、すなわち既知の概念の新しい組み合わせを扱う場合、それらの性能は劣化する。 neural module network(nmns)は、モジュール、すなわちサブタスクに取り組むニューラルネットワークを構成することに基づく、体系的な一般化のための有望なアプローチである。 トランスフォーマーとNMNにインスパイアされたトランスフォーマーモジュールネットワーク(TMN)は,モジュールを問合せ固有のトランスフォーマーネットワークに動的に構成する新しいトランスフォーマーベースモデルである。 TMNは3つのVQAデータセット、すなわちCLEVR-CoGenT、CLOSURE、GQA-SGLにおいて、最先端の体系的な一般化性能を達成する。

Transformer-based models achieve great performance on Visual Question Answering (VQA). However, when we evaluate them on systematic generalization, i.e., handling novel combinations of known concepts, their performance degrades. Neural Module Networks (NMNs) are a promising approach for systematic generalization that consists on composing modules, i.e., neural networks that tackle a sub-task. Inspired by Transformers and NMNs, we propose Transformer Module Network (TMN), a novel Transformer-based model for VQA that dynamically composes modules into a question-specific Transformer network. TMNs achieve state-of-the-art systematic generalization performance in three VQA datasets, namely, CLEVR-CoGenT, CLOSURE and GQA-SGL, in some cases improving more than 30% over standard Transformers.
翻訳日:2022-01-29 00:20:17 公開日:2022-01-27
# (参考訳) ダイナミックリクティフィケーション知識蒸留

Dynamic Rectification Knowledge Distillation ( http://arxiv.org/abs/2201.11319v1 )

ライセンス: CC BY 4.0
Fahad Rahman Amik, Ahnaf Ismat Tasin, Silvia Ahmed, M. M. Lutfe Elahi, Nabeel Mohammed(参考訳) 知識蒸留(英: knowledge distillation)とは、暗黒知識を活用し、広く訓練されたニューラルネットワーク(教師モデル)からより小さく、能力の低いニューラルネットワーク(学生モデル)への情報を圧縮・転送し、推論効率を向上させる技術である。 知識を蒸留するこのアプローチは、エッジコンピューティングデバイスにデプロイするための面倒なモデルが極めて複雑であることの結果として人気を集めている。 一般的に、小学生のモデルを教えるのに使用される教師モデルは、自然にぎこちなく、訓練に費用がかかる。 面倒な教師モデルの必要性を完全に排除するため,我々は動的整流知識蒸留(dr-kd)と呼ぶ,単純かつ効果的な知識蒸留フレームワークを提案する。 本手法は,学生を教師に転換し,自己学習者が情報を蒸留しながら誤った予測を行った場合,知識が蒸留される前に誤りを訂正する。 具体的には、教師の目標を従来の訓練から得た知識を蒸留しながら、地道の機関によって動的に調整する。 提案するDR-KDは,高度で難易度の高い教師モデルが欠如している場合において極めて優れた性能を示し,低コストな動的仕組教師によって実装された場合,既存の最先端の教師なし知識蒸留フレームワークに匹敵する性能を発揮する。 我々のアプローチは全アクセス可能であり、分類やオブジェクト認識を必要とするディープニューラルネットワークトレーニングに利用できる。 DR-KDはTiny ImageNetの試験精度を2.65%向上させるが、これは他の知識蒸留法よりも大幅に向上し、追加の訓練コストは不要である。

Knowledge Distillation is a technique which aims to utilize dark knowledge to compress and transfer information from a vast, well-trained neural network (teacher model) to a smaller, less capable neural network (student model) with improved inference efficiency. This approach of distilling knowledge has gained popularity as a result of the prohibitively complicated nature of such cumbersome models for deployment on edge computing devices. Generally, the teacher models used to teach smaller student models are cumbersome in nature and expensive to train. To eliminate the necessity for a cumbersome teacher model completely, we propose a simple yet effective knowledge distillation framework that we termed Dynamic Rectification Knowledge Distillation (DR-KD). Our method transforms the student into its own teacher, and if the self-teacher makes wrong predictions while distilling information, the error is rectified prior to the knowledge being distilled. Specifically, the teacher targets are dynamically tweaked by the agency of ground-truth while distilling the knowledge gained from traditional training. Our proposed DR-KD performs remarkably well in the absence of a sophisticated cumbersome teacher model and achieves comparable performance to existing state-of-the-art teacher-free knowledge distillation frameworks when implemented by a low-cost dynamic mannered teacher. Our approach is all-encompassing and can be utilized for any deep neural network training that requires categorization or object recognition. DR-KD enhances the test accuracy on Tiny ImageNet by 2.65% over prominent baseline models, which is significantly better than any other knowledge distillation approach while requiring no additional training costs.
翻訳日:2022-01-29 00:05:17 公開日:2022-01-27
# (参考訳) 瞬時周波数特徴に基づく心音分離のための深部反復学習

Deep Recurrent Learning for Heart Sounds Segmentation based on Instantaneous Frequency Features ( http://arxiv.org/abs/2201.11320v1 )

ライセンス: CC BY 4.0
Alvaro Joaqu\'in Gaona, Pedro David Arini(参考訳) 本研究は, 心電図(PCG)に心臓の音を分節する自動手法を決定するために, 著名な技術の新たなスタックを提示するものである。 我々は,pcgを主成分に分割できるディープリカレントニューラルネットワーク(drnn)と,提案モデルのトレーニングとテストにおいて重要な役割を果たす瞬時周波数を抽出する非常に特殊な方法を示す。 より具体的には、pcgから瞬時時間周波数特徴を抽出するのに用いられるフーリエ同期変換(fsst)を伴う長期短期記憶(lstm)ニューラルネットワークを含む。 本手法は,5秒以上,35秒未満で使用可能なデータベースから,心臓音信号に対して実験を行った。 このアプローチは、比較的小さなアーキテクチャ、小さなデータセット、そして正しい特徴により、この手法はほぼ最先端のパフォーマンスを達成し、平均感度89.5%、平均正の予測値89.3\%、平均精度91.3%を示した。

In this work, a novel stack of well-known technologies is presented to determine an automatic method to segment the heart sounds in a phonocardiogram (PCG). We will show a deep recurrent neural network (DRNN) capable of segmenting a PCG into its main components and a very specific way of extracting instantaneous frequency that will play an important role in the training and testing of the proposed model. More specifically, it involves a Long Short-Term Memory (LSTM) neural network accompanied by the Fourier Synchrosqueezed Transform (FSST) used to extract instantaneous time-frequency features from a PCG. The present approach was tested on heart sound signals longer than 5 seconds and shorter than 35 seconds from freely-available databases. This approach proved that, with a relatively small architecture, a small set of data, and the right features, this method achieved an almost state-of-the-art performance, showing an average sensitivity of 89.5%, an average positive predictive value of 89.3\% and an average accuracy of 91.3%.
翻訳日:2022-01-28 23:53:09 公開日:2022-01-27
# (参考訳) てんかんのAIプラットフォームは、バイオメディカル知識を結びつけてイノベーションを加速する

Epistemic AI platform accelerates innovation by connecting biomedical knowledge ( http://arxiv.org/abs/2201.11331v1 )

ライセンス: CC BY 4.0
Emily Koo, Heather Bowling, Kenneth Ashworth, David J. Heeger, Stefano Pacifico(参考訳) 疫学的AIは、バイオメディカル知識のネットワークに隠れた接続を見つけることによって、生物医学的な発見を加速する。 認識論的ai webベースのソフトウェアプラットフォームは、ナレッジグラフと自然言語処理(nlp)、情報検索、関連性フィードバック、ネットワーク分析を組み合わせたインタラクティブなプロセスであるナレッジマッピングの概念を具現化している。 知識マッピングは、情報過負荷を削減し、コストのかかるミスを防止し、研究プロセスの機会を最小化する。 このプラットフォームは、情報抽出のための最先端の手法と、機械学習、人工知能、ネットワーク分析を組み合わせたものだ。 ユーザーは、遺伝子や病気のような単一の生物学的実体から始めることができる。 a)その実体への接続の地図を構築すること b) 利害関係の全領域を地図化し、 c) 知識の大きな生物学的ネットワークに対する洞察を得ること。 知識マップは明確さと組織を提供し、日々の研究プロセスを簡素化する。

Epistemic AI accelerates biomedical discovery by finding hidden connections in the network of biomedical knowledge. The Epistemic AI web-based software platform embodies the concept of knowledge mapping, an interactive process that relies on a knowledge graph in combination with natural language processing (NLP), information retrieval, relevance feedback, and network analysis. Knowledge mapping reduces information overload, prevents costly mistakes, and minimizes missed opportunities in the research process. The platform combines state-of-the-art methods for information extraction with machine learning, artificial intelligence and network analysis. Starting from a single biological entity, such as a gene or disease, users may: a) construct a map of connections to that entity, b) map an entire domain of interest, and c) gain insight into large biological networks of knowledge. Knowledge maps provide clarity and organization, simplifying the day-to-day research processes.
翻訳日:2022-01-28 23:43:02 公開日:2022-01-27
# (参考訳) スマートシティディフェンスゲーム:ソシオサイバシー攻撃時の戦略的資源管理

Smart City Defense Game: Strategic Resource Management during Socio-Cyber-Physical Attacks ( http://arxiv.org/abs/2201.11342v1 )

ライセンス: CC BY 4.0
Dimitrios Sikeridis, Michael Devetsikiotis(参考訳) スマートシティ(SC)環境における公衆の安全を確保することは、複数の機関が関与し、サイバー層と社会層にまたがる市の拡大が原因で、重要かつ複雑化する課題である。 本稿では,テロ組織(to)が2つの概念的scレベル,物理レベル,サイバー・ソーシャルレベルにまたがる複数のターゲットに対して攻撃を行う場合のインタラクションと最適な都市資源配分をモデル化する,広範なフォーム・パーフェクト・インフォメーションゲームを提案する。 スマートシティディフェンスゲーム(SCDG)は、当初は特定の予算を課す資格を持つ3人のプレイヤーを考慮に入れている。 物理的または社会的領域をそれぞれ防衛しなければならない2つのSC機関は、共通の敵であるTOと戦う。 各レイヤは複数のターゲットで構成されており、攻撃結果は関連するエージェンシーによって割り当てられたリソースがTOを超えているかどうかに依存する。 各プレイヤーの効用は、守備に成功した目標の数に等しい。 両機関は、双方にとって有益であるとして、予算移転を許可されている。 SCDGのサブゲームパーフェクト・ナッシュ均衡(SPNE)は,SCエージェンシー間の最適な資源交換戦略と,物理的・社会的目標をまたいだTOの予算配分を考慮に入れた戦略から成り立っている。 また, SC選手がSPNEに従って行動すると, 防御目標の数を最大化することを示す数値的, 比較的な結果を示す。 SCDGは、多層同時テロ攻撃に直面したSC関係者間の重要なリソース割り当てをモデル化するための有望なソリューションであることが示されている。

Ensuring public safety in a Smart City (SC) environment is a critical and increasingly complicated task due to the involvement of multiple agencies and the city's expansion across cyber and social layers. In this paper, we propose an extensive form perfect information game to model interactions and optimal city resource allocations when a Terrorist Organization (TO) performs attacks on multiple targets across two conceptual SC levels, a physical, and a cyber-social. The Smart City Defense Game (SCDG) considers three players that initially are entitled to a specific finite budget. Two SC agencies that have to defend their physical or social territories respectively, fight against a common enemy, the TO. Each layer consists of multiple targets and the attack outcome depends on whether the resources allocated there by the associated agency, exceed or not the TO's. Each player's utility is equal to the number of successfully defended targets. The two agencies are allowed to make budget transfers provided that it is beneficial for both. We completely characterize the Sub-game Perfect Nash Equilibrium (SPNE) of the SCDG that consists of strategies for optimal resource exchanges between SC agencies and accounts for the TO's budget allocation across the physical and social targets. Also, we present numerical and comparative results demonstrating that when the SC players act according to the SPNE, they maximize the number of successfully defended targets. The SCDG is shown to be a promising solution for modeling critical resource allocations between SC parties in the face of multi-layer simultaneous terrorist attacks.
翻訳日:2022-01-28 23:32:00 公開日:2022-01-27
# (参考訳) ビデオ要約のためのグローバル多様性とローカルコンテキストの検討

Exploring Global Diversity and Local Context for Video Summarization ( http://arxiv.org/abs/2201.11345v1 )

ライセンス: CC BY 4.0
Yingchao Pan, Ouhan Huang, Qinghao Ye, Zhongjin Li, Wenjiang Wang, Guodun Li, Yuxing Chen(参考訳) ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。 ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。 この問題を緩和するために, 自己注意機構におけるペアワイズ類似度測定を再検討し, 既存の内積親和性が, 多様な特徴よりも識別的特徴をもたらすことを見出した。 この現象に照らして,二乗ユークリッド距離を用いてアフィニティを計算することにより,グローバルに多様な注意を喚起する。 また,映像中の冗長性を除去するために,局所的文脈に着目して局所的文脈情報をモデル化する。 これら2つの注意機構を組み合わせることで、ビデオの「textbf{SUM}marization model」と「Diversified Contextual Attention scheme」を開発し、SUM-DCAと命名する。 ベンチマークデータセットを用いて、Fスコアとランクに基づく評価においてSUM-DCAの有効性と優位性を検証する。

Video summarization aims to automatically generate a diverse and concise summary which is useful in large-scale video processing. Most of methods tend to adopt self attention mechanism across video frames, which fails to model the diversity of video frames. To alleviate this problem, we revisit the pairwise similarity measurement in self attention mechanism and find that the existing inner-product affinity leads to discriminative features rather than diversified features. In light of this phenomenon, we propose global diverse attention by using the squared Euclidean distance instead to compute the affinities. Moreover, we model the local contextual information by proposing local contextual attention to remove the redundancy in the video. By combining these two attention mechanism, a video \textbf{SUM}marization model with Diversified Contextual Attention scheme is developed and named as SUM-DCA. Extensive experiments are conducted on benchmark data sets to verify the effectiveness and the superiority of SUM-DCA in terms of F-score and rank-based evaluation without any bells and whistles.
翻訳日:2022-01-28 23:03:01 公開日:2022-01-27
# (参考訳) サンスクリット依存解析のための低リソース設定のための戦略の体系的検討

Systematic Investigation of Strategies Tailored for Low-Resource Settings for Sanskrit Dependency Parsing ( http://arxiv.org/abs/2201.11374v1 )

ライセンス: CC BY 4.0
Jivnesh Sandhan, Laxmidhar Behera and Pawan Goyal(参考訳) Sanskrit Dependency Parsing (SDP) の既存の技術アプローチは、本質的にハイブリッドであり、言語的に動機付けられた特徴工学のためのレキシコン駆動の浅いパーサーに依存している。 しかし、これらの手法は語彙(OOV)の扱いに失敗し、現実的なシナリオにおける適用性を制限する。 一方、純粋データ駆動アプローチはラベル付きデータスパーシティのため、ハイブリッドアプローチのパフォーマンスに合わない。 我々は、最近提案された低リソース設定のための戦略を使って、純粋なデータ駆動アプローチをどこまで進めることができるのか? データ拡張,シーケンシャル転送学習,クロスリンガル/モノリンガル事前学習,マルチタスク学習,セルフトレーニングという5つの戦略を実験した。 提案するアンサンブルシステムは,純データ駆動型システムにおいて,Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインを2.8/3.9ポイント向上させる。 興味深いことに、これは art hybrid system の状態を 1.2 ポイント (uas) の絶対利得で上回っており、las の点で同等のパフォーマンスを示している。 コードとデータは: \url{https://github.com/Jivnesh/SanDP}.comで公開される。

Existing state of the art approaches for Sanskrit Dependency Parsing (SDP), are hybrid in nature, and rely on a lexicon-driven shallow parser for linguistically motivated feature engineering. However, these methods fail to handle out of vocabulary (OOV) words, which limits their applicability in realistic scenarios. On the other hand, purely data-driven approaches do not match the performance of hybrid approaches due to the labelled data sparsity. Thus, in this work, we investigate the following question: How far can we push a purely data-driven approach using recently proposed strategies for low-resource settings? We experiment with five strategies, namely, data augmentation, sequential transfer learning, cross-lingual/mono-lingual pretraining, multi-task learning and self-training. Our proposed ensembled system outperforms the purely data-driven state of the art system by 2.8/3.9 points (Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS)) absolute gain. Interestingly, it also supersedes the performance of the state of the art hybrid system by 1.2 points (UAS) absolute gain and shows comparable performance in terms of LAS. Code and data will be publicly available at: \url{https://github.com/Jivnesh/SanDP}.
翻訳日:2022-01-28 22:42:29 公開日:2022-01-27
# (参考訳) Prabhupadavani: 25言語のためのコード混合音声翻訳データ

Prabhupadavani: A Code-mixed Speech Translation Data for 25 Languages ( http://arxiv.org/abs/2201.11391v1 )

ライセンス: CC BY 4.0
Jivnesh Sandhan, Ayush Daksh, Om Adideva Paranjay, Laxmidhar Behera and Pawan Goyal(参考訳) 近年,自然言語処理(NLP)ではコードミキシングが普及しているが,音声翻訳(ST)タスクに対処するための取り組みは行われていない。 これは単に、コードミキシングされたSTタスクのラベル付きデータがないためである。 そこで本研究では,25言語を対象とした多言語コード混合stデータセットであるprabhupadavaniについて紹介する。 Prabhupadvaniは、私たちの知る限り、ST文献で利用可能な初めてのコード混合STデータセットです。 このデータは、コード混合機械翻訳タスクにも使用できる。 すべてのデータセットとコードは、以下の場所でアクセスすることができる。

Nowadays, code-mixing has become ubiquitous in Natural Language Processing (NLP); however, no efforts have been made to address this phenomenon for Speech Translation (ST) task. This can be solely attributed to the lack of code-mixed ST task labelled data. Thus, we introduce Prabhupadavani, a multilingual code-mixed ST dataset for 25 languages, covering ten language families, containing 94 hours of speech by 130+ speakers, manually aligned with corresponding text in the target language. Prabhupadvani is the first code-mixed ST dataset available in the ST literature to the best of our knowledge. This data also can be used for a code-mixed machine translation task. All the dataset and code can be accessed at: \url{https://github.com/frozentoad9/CMST}
翻訳日:2022-01-28 22:27:11 公開日:2022-01-27
# (参考訳) ICASSP 2022 ADDチャレンジのためのMSXF TTSシステム

The MSXF TTS System for ICASSP 2022 ADD Challenge ( http://arxiv.org/abs/2201.11400v1 )

ライセンス: CC BY 4.0
Chunyong Yang, Pengfei Liu, Yanli Chen, Hongbin Wang, Min Liu(参考訳) 本稿では,Audio Deep Synthesis Detection (ADD) Challenge 2022のタスク3.1におけるMSXF TTSシステムについて述べる。 エンド・ツー・エンドのテキストを音声システムに使用し、訓練段階において制約損失をシステムに追加する。 エンドツーエンドのTSSシステムはVITSであり、事前訓練された自己管理モデルはwav2vec 2.0である。 また,スプーフィングにおける発話速度と音量の影響についても検討する。 より速い音声は、音声の沈黙部分が少ないほど、検出器を騙しやすくする。 ボリュームも小さくなり、スプーフィング能力も向上していますが、提出のボリュームは正規化しています。 当社のチームはC2と認識されており、チャレンジで4位を獲得しました。

This paper presents our MSXF TTS system for Task 3.1 of the Audio Deep Synthesis Detection (ADD) Challenge 2022. We use an end to end text to speech system, and add a constraint loss to the system when training stage. The end to end TTS system is VITS, and the pre-training self-supervised model is wav2vec 2.0. And we also explore the influence of the speech speed and volume in spoofing. The faster speech means the less the silence part in audio, the easier to fool the detector. We also find the smaller the volume, the better spoofing ability, though we normalize volume for submission. Our team is identified as C2, and we got the fourth place in the challenge.
翻訳日:2022-01-28 22:16:42 公開日:2022-01-27
# (参考訳) 自己改善シミュレータを用いたPMDPのオンライン計画

Online Planning in POMDPs with Self-Improving Simulators ( http://arxiv.org/abs/2201.11404v1 )

ライセンス: CC BY 4.0
Jinke He, Miguel Suau, Hendrik Baier, Michael Kaisers, Frans A. Oliehoek(参考訳) 時間予算が制限された大規模で複雑な環境でどのように効率的に計画できるのか? 計算的に非常に要求される環境シミュレータの原型を考えると、時間とともに改善する近似的だがより高速なシミュレータをオンラインで学習することを提案する。 近似シミュレータが学習中に確実にかつ効率的に計画を行うため,近似シミュレータの精度を計測する統計量に基づいて,各シミュレーションに使用するシミュレータを適応的に決定する手法を開発した。 これにより、近似シミュレータを用いて、現在の状況下での精度が十分であれば、元のシミュレータを高速なシミュレーションに置き換えることができる。 2つの大きなドメインの実験的結果は、POMCPと統合すると、我々のアプローチは時間とともに効率を向上して計画できることを示している。

How can we plan efficiently in a large and complex environment when the time budget is limited? Given the original simulator of the environment, which may be computationally very demanding, we propose to learn online an approximate but much faster simulator that improves over time. To plan reliably and efficiently while the approximate simulator is learning, we develop a method that adaptively decides which simulator to use for every simulation, based on a statistic that measures the accuracy of the approximate simulator. This allows us to use the approximate simulator to replace the original simulator for faster simulations when it is accurate enough under the current context, thus trading off simulation speed and accuracy. Experimental results in two large domains show that when integrated with POMCP, our approach allows to plan with improving efficiency over time.
翻訳日:2022-01-28 22:11:06 公開日:2022-01-27
# (参考訳) 時空畳み込みを用いたビデオフレーム補間の非線形運動推定

Non-linear Motion Estimation for Video Frame Interpolation using Space-time Convolutions ( http://arxiv.org/abs/2201.11407v1 )

ライセンス: CC BY 4.0
Saikat Dutta, Arulkumar Subramaniam, Anurag Mittal(参考訳) ビデオフレーム補間は、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。 スローモーションビデオ生成、フレームレートアップスケーリング、ビデオコーデックの開発など、幅広いアプリケーションがある。 いくつかの古い作品では、ビデオフレーム間のピクセル単位の線形動きを仮定することでこの問題に対処した。 しかし、オブジェクトはしばしば実領域の非線形運動パターンに従い、最近の手法では非線形モデル(例えば二次)によってピクセル単位の動きをモデル化しようとする。 二次モデルは不正確な場合もあり、特に時間的不連続(すなわち突然の不連続)や閉塞の場合、フロー情報のいくつかが無効または不正確な場合である。 本稿では,使用中の動作モデルを適応的に選択できる時空畳み込みネットワークを用いて,画素単位の動きを近似する手法を提案する。 具体的には、線形モデルと二次モデルとをソフトに切り替えることができる。 この目的に向けて,双方向光流とオクルージョンマップ上のエンドツーエンド3次元cnnエンコーダ・デコーダアーキテクチャを用いて,各画素の非線形運動モデルの推定を行う。 さらに、非直線運動を洗練させるために動き改善モジュールを用い、その補間フレームを、画素当たりの運動を推定した隣接するフレームの簡単なワープによって推定する。 一連の総合実験を通して,本手法の有効性を検証し,4つのデータセット(Vimeo, DAVIS, HD, GoPro)で最先端のアルゴリズムより優れていることを示す。

Video frame interpolation aims to synthesize one or multiple frames between two consecutive frames in a video. It has a wide range of applications including slow-motion video generation, frame-rate up-scaling and developing video codecs. Some older works tackled this problem by assuming per-pixel linear motion between video frames. However, objects often follow a non-linear motion pattern in the real domain and some recent methods attempt to model per-pixel motion by non-linear models (e.g., quadratic). A quadratic model can also be inaccurate, especially in the case of motion discontinuities over time (i.e. sudden jerks) and occlusions, where some of the flow information may be invalid or inaccurate. In our paper, we propose to approximate the per-pixel motion using a space-time convolution network that is able to adaptively select the motion model to be used. Specifically, we are able to softly switch between a linear and a quadratic model. Towards this end, we use an end-to-end 3D CNN encoder-decoder architecture over bidirectional optical flows and occlusion maps to estimate the non-linear motion model of each pixel. Further, a motion refinement module is employed to refine the non-linear motion and the interpolated frames are estimated by a simple warping of the neighboring frames with the estimated per-pixel motion. Through a set of comprehensive experiments, we validate the effectiveness of our model and show that our method outperforms state-of-the-art algorithms on four datasets (Vimeo, DAVIS, HD and GoPro).
翻訳日:2022-01-28 21:53:55 公開日:2022-01-27
# (参考訳) 再開された非凸型加速勾配降下:$o(\epsilon^{-7/4})$複雑性の多対数因子

Restarted Nonconvex Accelerated Gradient Descent: No More Polylogarithmic Factor in the $O(\epsilon^{-7/4})$ Complexity ( http://arxiv.org/abs/2201.11411v1 )

ライセンス: CC BY 4.0
Huan Li and Zhouchen Lin(参考訳) 本稿では、勾配リプシッツおよびヘッセンリプシッツ仮定の下での一般非凸問題に対する加速勾配勾配について検討する。 単純な再スタート型加速勾配降下 (agd) は、簡単な証明で$o(\epsilon^{-7/4})$勾配計算において、$\epsilon$-approximate 1-order stationary pointを求める。 複雑性は多対数因子を隠蔽しないので、o(\log\frac{1}{\epsilon})$ファクタによって最先端の因子よりも改善します。 我々の単純なアルゴリズムは、ネステロフの古典的なagdと再起動機構のみで構成されており、正則化サーロゲート関数の負の曲率利用や最適化は不要である。 技術的には、我々の単純な証明は、$O(\log\frac{1}{\epsilon})$ factor を除去することが不可欠である強い凸 AGD の解析を引き起こさない。

This paper studies the accelerated gradient descent for general nonconvex problems under the gradient Lipschitz and Hessian Lipschitz assumptions. We establish that a simple restarted accelerated gradient descent (AGD) finds an $\epsilon$-approximate first-order stationary point in $O(\epsilon^{-7/4})$ gradient computations with simple proofs. Our complexity does not hide any polylogarithmic factors, and thus it improves over the state-of-the-art one by the $O(\log\frac{1}{\epsilon})$ factor. Our simple algorithm only consists of Nesterov's classical AGD and a restart mechanism, and it does not need the negative curvature exploitation or the optimization of regularized surrogate functions. Technically, our simple proof does not invoke the analysis for the strongly convex AGD, which is crucial to remove the $O(\log\frac{1}{\epsilon})$ factor.
翻訳日:2022-01-28 21:38:55 公開日:2022-01-27
# (参考訳) docsegtr: インスタンスレベルのエンドツーエンドドキュメントイメージセグメンテーショントランスフォーマ

DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer ( http://arxiv.org/abs/2201.11438v1 )

ライセンス: CC BY-SA 4.0
Sanket Biswas, Ayan Banerjee, Josep Llad\'os, and Umapada Pal(参考訳) リッチなレイアウトでドキュメントを理解することは、情報抽出への重要なステップです。 ビジネスインテリジェンスプロセスは、後続の意思決定タスクのために、文書から有用なセマンティックコンテンツを大規模に抽出する必要があることが多い。 この文脈では、異なるドキュメントオブジェクト(タイトル、セクション、フィギュア、テーブルなど)のインスタンスレベルのセグメンテーションが、ドキュメントレイアウト分析コミュニティにとって興味深い問題となっている。 この方向の研究を進めるために,文書画像の複雑なレイアウトをエンドツーエンドに分割するトランスフォーマーモデルを提案する。 私たちの知る限り、トランスフォーマーベースの文書セグメンテーションに関する最初の研究である。 PubLayNetデータセットの大規模な実験により、我々のモデルは既存の最先端のアプローチと比べて、同等またはより良いセグメンテーション性能を達成した。 ドキュメントイメージにおけるインスタンスレベルの認識タスクのベースラインとして,私たちのシンプルで柔軟なフレームワークが役立つことを願っています。

Understanding documents with rich layouts is an essential step towards information extraction. Business intelligence processes often require the extraction of useful semantic content from documents at a large scale for subsequent decision-making tasks. In this context, instance-level segmentation of different document objects(title, sections, figures, tables and so on) has emerged as an interesting problem for the document layout analysis community. To advance the research in this direction, we present a transformer-based model for end-to-end segmentation of complex layouts in document images. To our knowledge, this is the first work on transformer-based document segmentation. Extensive experimentation on the PubLayNet dataset shows that our model achieved comparable or better segmentation performance than the existing state-of-the-art approaches. We hope our simple and flexible framework could serve as a promising baseline for instance-level recognition tasks in document images.
翻訳日:2022-01-28 19:56:03 公開日:2022-01-27
# (参考訳) 民主的aiを用いた人間中心機構設計

Human-centered mechanism design with Democratic AI ( http://arxiv.org/abs/2201.11441v1 )

ライセンス: CC BY 4.0
Raphael Koster, Jan Balaguer, Andrea Tacchetti, Ari Weinstein, Tina Zhu, Oliver Hauser, Duncan Williams, Lucy Campbell-Gillingham, Phoebe Thacker, Matthew Botvinick and Christopher Summerfield(参考訳) 人間の価値に合わせた人工知能(AI)の構築は未解決の問題である。 そこで我々は,人間に好まれる社会メカニズムの設計に強化学習を用いる,Democratic AIという,ループ内人間研究パイプラインを開発した。 大勢の人間がオンライン投資ゲームを行い、金銭的支援を維持するか、集団的利益のために他人と共有するかを決めました。 シェアされた収益は、2つの異なる再分配メカニズムの下でプレイヤーに返却された。 AIは、最初の富の均衡を遅らせ、自由な乗客を制裁し、多数決に勝ったメカニズムを発見した。 人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。

Building artificial intelligence (AI) that aligns with human values is an unsolved problem. Here, we developed a human-in-the-loop research pipeline called Democratic AI, in which reinforcement learning is used to design a social mechanism that humans prefer by majority. A large group of humans played an online investment game that involved deciding whether to keep a monetary endowment or to share it with others for collective benefit. Shared revenue was returned to players under two different redistribution mechanisms, one designed by the AI and the other by humans. The AI discovered a mechanism that redressed initial wealth imbalance, sanctioned free riders, and successfully won the majority vote. By optimizing for human preferences, Democratic AI may be a promising method for value-aligned policy innovation.
翻訳日:2022-01-28 19:44:48 公開日:2022-01-27
# (参考訳) Yes-Yes-Yes: ACLローリングレビューのための寄付ベースのピアレビューデータコレクション

Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL Rolling Review and Beyond ( http://arxiv.org/abs/2201.11443v1 )

ライセンス: CC BY 4.0
Nils Dycke, Ilia Kuznetsov, Iryna Gurevych(参考訳) ピーア・レビューは科学的メリットと品質の主要なゲートキーパーであるが、バイアスを起こしやすく、効率の低下に悩まされる。 これにより、ピアレビューの根底にあるプロセスの学際的検証が求められるが、定量的な研究はデータの可用性によって制限される。 既存のデータ収集の取り組みは、ほとんど科学的領域に重点を置いておらず、ピアレビューデータに関連する倫理的、ライセンス、機密に関する問題に対処せず、広範囲の研究やアプリケーション開発を妨げている。 最近のピアレビュー分析と処理の方法は有望だが、ピアレビューにおける計算研究のための堅固なデータ基盤はいまだに欠落している。 そこで我々は、ピアレビューデータに関する詳細な議論を行い、ピアレビューデータ収集のための倫理的および法的デシダータの概要を述べ、これらの要件を満たす最初の継続的な寄付ベースのデータ収集ワークフローを提案する。 acl rolling reviewで現在進行中のこのワークフローの実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。

Peer review is the primary gatekeeper of scientific merit and quality, yet it is prone to bias and suffers from low efficiency. This demands cross-disciplinary scrutiny of the processes that underlie peer reviewing; however, quantitative research is limited by the data availability, as most of the peer reviewing data across research disciplines is never made public. Existing data collection efforts focus on few scientific domains and do not address a range of ethical, license- and confidentiality-related issues associated with peer reviewing data, preventing wide-scale research and application development. While recent methods for peer review analysis and processing show promise, a solid data foundation for computational research in peer review is still missing. To address this, we present an in-depth discussion of peer reviewing data, outline the ethical and legal desiderata for peer reviewing data collection, and propose the first continuous, donation-based data collection workflow that meets these requirements. We report on the ongoing implementation of this workflow at the ACL Rolling Review and deliver the first insights obtained with the newly collected data.
翻訳日:2022-01-28 19:43:50 公開日:2022-01-27
# (参考訳) 大腸内視鏡ビデオからのポリープ追跡のためのカルマンフィルタの防御

In Defense of Kalman Filtering for Polyp Tracking from Colonoscopy Videos ( http://arxiv.org/abs/2201.11450v1 )

ライセンス: CC BY 4.0
David Butler, Yuan Zhang, Tim Chen, Seon Ho Shin, Rajvinder Singh, Gustavo Carneiro(参考訳) 大腸内視鏡ビデオからのポリープのリアルタイムかつロバストな自動検出は,検査中の医師のパフォーマンス向上に不可欠である。 この分野の現在の焦点は、リアルタイムアプリケーションを可能にしない正確だが非効率な検出器の開発である。 我々は、実時間ポリプ検出器の実装を可能にするために、効率的なトラッカーと組み合わせた単純で効率的な検出器の開発に焦点をあてるべきである。 本稿では,実時間ポリープ検出器の実装を実現するために,強力だが効率的な検出器と連携可能なカルマンフィルタリングトラッカを提案する。 特に,kalmanフィルタと検出器pp-yoloの組み合わせは,最先端(sota)検出精度とリアルタイム処理を示している。 より具体的には、このアプローチはcvc-clinicdbデータセット上で sota 結果を持ち、リコールは 0.740、精度は 0.869、スコアは 0.799、平均精度 (ap) は 0.837、リアルタイム(すなわち毎秒 30 フレーム)で動作する。 また, 臨床協力者によって注釈されたHyper-Kvasirのサブセットについて評価し, 0.956, 0.975, $F_1$ score of 0.914, AP of 0.952, リアルタイム動作が可能なSOTA結果を得た。

Real-time and robust automatic detection of polyps from colonoscopy videos are essential tasks to help improve the performance of doctors during this exam. The current focus of the field is on the development of accurate but inefficient detectors that will not enable a real-time application. We advocate that the field should instead focus on the development of simple and efficient detectors that an be combined with effective trackers to allow the implementation of real-time polyp detectors. In this paper, we propose a Kalman filtering tracker that can work together with powerful, but efficient detectors, enabling the implementation of real-time polyp detectors. In particular, we show that the combination of our Kalman filtering with the detector PP-YOLO shows state-of-the-art (SOTA) detection accuracy and real-time processing. More specifically, our approach has SOTA results on the CVC-ClinicDB dataset, with a recall of 0.740, precision of 0.869, $F_1$ score of 0.799, an average precision (AP) of 0.837, and can run in real time (i.e., 30 frames per second). We also evaluate our method on a subset of the Hyper-Kvasir annotated by our clinical collaborators, resulting in SOTA results, with a recall of 0.956, precision of 0.875, $F_1$ score of 0.914, AP of 0.952, and can run in real time.
翻訳日:2022-01-28 19:23:35 公開日:2022-01-27
# (参考訳) AIをコンテキストに設定する:自動化運転におけるコンテキストと運用設計領域の定義に関するケーススタディ

Setting AI in context: A case study on defining the context and operational design domain for automated driving ( http://arxiv.org/abs/2201.11451v1 )

ライセンス: CC BY 4.0
Hans-Martin Heyn and Padmini Subbiash and Jennifer Linder and Eric Knauss and Olof Eriksson(参考訳) 状況とモチベーション] 自動運転システムでは、パフォーマンスと安全性の保証を記述するために、運用コンテキストを知っておく必要があります。 運用設計ドメイン(ODD)は運用コンテキストの抽象化であり、その定義はシステム開発プロセスの不可欠な部分である。 質問/問題] 自動車産業のような多様な分散開発環境において、運用コンテキストを明確に定義し、文書化する方法には、依然として大きな不確実性があります。 本稿では,機械学習を自動走行に用いた知覚機能開発における文脈定義の課題について検討する。 [主観/結果] 半構造化面接からのデータの質的分析に基づいて, 事例研究では, 業界全体での文脈定義の標準化の欠如, 操作的文脈に関する仮定の資料の欠如, 文脈定義における機能開発者の関与の欠如, の導出につながるプロセスの曖昧さが示された。 【帰結】機械学習を用いたシステムの運用コンテキストを定義する際に自動車サプライヤー会社が経験する課題を概説する。 さらに、実践者の視点から潜在的な解決策のアイデアを収集した。

[Context and motivation] For automated driving systems, the operational context needs to be known in order to state guarantees on performance and safety. The operational design domain (ODD) is an abstraction of the operational context, and its definition is an integral part of the system development process. [Question / problem] There are still major uncertainties in how to clearly define and document the operational context in a diverse and distributed development environment such as the automotive industry. This case study investigates the challenges with context definitions for the development of perception functions that use machine learning for automated driving. [Principal ideas/results] Based on qualitative analysis of data from semi-structured interviews, the case study shows that there is a lack of standardisation for context definitions across the industry, ambiguities in the processes that lead to deriving the ODD, missing documentation of assumptions about the operational context, and a lack of involvement of function developers in the context definition. [Contribution] The results outline challenges experienced by an automotive supplier company when defining the operational context for systems using machine learning. Furthermore, the study collected ideas for potential solutions from the perspective of practitioners.
翻訳日:2022-01-28 19:11:35 公開日:2022-01-27
# (参考訳) ビデオにおけるベル麻痺の眼焦点検出

Eye-focused Detection of Bell's Palsy in Videos ( http://arxiv.org/abs/2201.11479v1 )

ライセンス: CC BY 4.0
Sharik Ali Ansari, Koteswar Rao Jerripothula, Pragya Nagpal, Ankush Mittal(参考訳) 本稿では,脳神経疾患であるBell's Palsyが,被験者の目からどのように検出できるかをビデオで紹介する。 ベルの麻痺の患者は、しばしば患者側の目を点滅させるのに苦労している。 その結果,両眼の瞬きパターン間の明確なコントラストが観察できる。 以前の作品では、画像やビデオを使ってこの障害を検知していたが、目がはっきりと焦点を合わせていない。 ほとんどが顔全体を必要とする。 目に焦点を当てた検出システムを持つことの明らかな利点は、被験者の匿名性が危険ではないことである。 また、単純な点滅パターンに基づく私たちのAI決定は、それらを説明しやすく、簡単にします。 具体的には,2つの点滅パターンの類似性を測定する点滅類似性と呼ばれる新しい特徴を考案する。 我々の広範な実験は、提案された機能が非常に堅牢であることを示し、非常に少ないラベルでもベルのPalsy検出に役立ちます。 提案する目焦点検出システムは,従来の方法よりも安価であるだけでなく,有用である。

In this paper, we present how Bell's Palsy, a neurological disorder, can be detected just from a subject's eyes in a video. We notice that Bell's Palsy patients often struggle to blink their eyes on the affected side. As a result, we can observe a clear contrast between the blinking patterns of the two eyes. Although previous works did utilize images/videos to detect this disorder, none have explicitly focused on the eyes. Most of them require the entire face. One obvious advantage of having an eye-focused detection system is that subjects' anonymity is not at risk. Also, our AI decisions based on simple blinking patterns make them explainable and straightforward. Specifically, we develop a novel feature called blink similarity, which measures the similarity between the two blinking patterns. Our extensive experiments demonstrate that the proposed feature is quite robust, for it helps in Bell's Palsy detection even with very few labels. Our proposed eye-focused detection system is not only cheaper but also more convenient than several existing methods.
翻訳日:2022-01-28 18:59:45 公開日:2022-01-27
# (参考訳) マルチスケール深部特徴スパース符号化による網膜画像の異常検出

Anomaly Detection in Retinal Images using Multi-Scale Deep Feature Sparse Coding ( http://arxiv.org/abs/2201.11506v1 )

ライセンス: CC BY 4.0
Sourya Dipta Das, Saikat Dutta, Nisarg A. Shah, Dwarikanath Mahapatra, Zongyuan Ge(参考訳) 畳み込みニューラルネットワークモデルは、光コヒーレンストモグラフィ(oct)および眼底画像から網膜疾患を検出できた。 これらのCNNモデルはトレーニングのために大量のラベル付きデータに依存しており、特にまれな疾患では入手が困難である。 さらに、1つまたは数個の疾患からなるデータセットでトレーニングされた深層学習システムは、他の疾患を検出できず、疾患識別におけるシステムの実用的な使用を制限している。 我々は,網膜画像の異常を検出するための教師なしアプローチを導入し,この問題を克服した。 我々は,多段階のトレーニング手法であるオートエンコーダトレーニングと,正常スパース符号化の拡張版であるMDFSC(Multi-Scale Deep Feature Sparse Coding)を併用して,多様な種類の網膜データセットに対応するための,シンプルで,メモリ効率が高く、訓練が容易な方法を提案する。 我々は、Eye-Q, IDRiD, OCTIDデータセット上の最先端SPADEに対して、相対AUCスコアを7.8\%, 6.7\%, 12.1\%向上させる。

Convolutional Neural Network models have successfully detected retinal illness from optical coherence tomography (OCT) and fundus images. These CNN models frequently rely on vast amounts of labeled data for training, difficult to obtain, especially for rare diseases. Furthermore, a deep learning system trained on a data set with only one or a few diseases cannot detect other diseases, limiting the system's practical use in disease identification. We have introduced an unsupervised approach for detecting anomalies in retinal images to overcome this issue. We have proposed a simple, memory efficient, easy to train method which followed a multi-step training technique that incorporated autoencoder training and Multi-Scale Deep Feature Sparse Coding (MDFSC), an extended version of normal sparse coding, to accommodate diverse types of retinal datasets. We achieve relative AUC score improvement of 7.8\%, 6.7\% and 12.1\% over state-of-the-art SPADE on Eye-Q, IDRiD and OCTID datasets respectively.
翻訳日:2022-01-28 18:50:25 公開日:2022-01-27
# (参考訳) transfer portal: サッカーにおける選手の移動の影響を正確に予測する

Transfer Portal: Accurately Forecasting the Impact of a Player Transfer in Soccer ( http://arxiv.org/abs/2201.11533v1 )

ライセンス: CC BY 4.0
Daniel Dinsdale and Joe Gallagher(参考訳) サッカーにおける最も重要で困難な問題の1つは、異なるリーグ内の他のクラブに移籍した選手のパフォーマンスを予測することである。 チームが最も価値のある予測であることに加えて、考慮する必要がある場合に実行する分析タスクとしては、最も複雑なものでもある。 a) プレーヤーの現在のチームとターゲットチームとのプレースタイルの違い。 b) 各チームにおける他の選手のスタイルと能力の違い c) リーグの質とスタイルの相違、及び d) プレーヤがプレイしたい役割。 本稿では,これらの問題に対処し,将来の性能を正確に予測する手法を提案する。 私たちのトランスファーポータルモデルは、プレイヤー、チーム、リーグのスタイルと能力レベルの入力表現の両方をパーソナライズされたニューラルネットワークで計算し、選択したクラブでの選手の将来のパフォーマンスをシミュレートします。 さらに,ベイジアン更新フレームワークを用いてプレイヤーとチームの表現を時間とともに動的に変更することにより,少量のデータで星の上昇を予測できる。

One of the most important and challenging problems in football is predicting future player performance when transferred to another club within and between different leagues. In addition to being the most valuable prediction a team makes, it is also the most complex analytics task to perform as it needs to take into consideration: a) differences in playing style between the player's current team and target team, b) differences in style and ability of other players on each team, c) differences in league quality and style, and d) the role the player is desired to play. In this paper, we present a method which addresses these issues and enables us to make accurate predictions of future performance. Our Transfer Portal model utilizes a personalized neural network accounting for both stylistic and ability level input representations for players, teams, and leagues to simulate future player performance at any chosen club. Furthermore, we use a Bayesian updating framework to dynamically modify player and team representations over time which enables us to generate predictions for rising stars with small amounts of data.
翻訳日:2022-01-28 18:40:26 公開日:2022-01-27
# (参考訳) ファイドモードMIMO IM/DD光ファイバチャネルの容量と達成率

Capacity and Achievable Rates of Fading Few-mode MIMO IM/DD Optical Fiber Channels ( http://arxiv.org/abs/2201.11538v1 )

ライセンス: CC BY 4.0
Metodi P. Yankov, Francesco Da Ros, S{\o}ren Forchhammer, and Lars Gruner-Nielsen(参考訳) 光ファイバー多重出力多重出力(MIMO)チャネルは、強度変調及び空間パス毎の直接検出(IM/DD)を行う。 空間次元は伝送に使用される多重モードを表し、それらの間のクロストークは分極に依存する多重化器と多重化器に由来する。 自由空間IM/DDMIMOチャネルの上界はファイバケースに適応し、コンステレーション制約容量はブラフト・アリモトアルゴリズムを用いて構成的に推定される。 次に、送信機におけるチャネル分布知識を想定したプリコーダと検出器の観点で、実用的なmimo伝送を最適化するオートエンコーダを提案する。 プリコーダはチャネルの変更に対して堅牢であることが示されている。

The optical fiber multiple-input multiple-output (MIMO) channel with intensity modulation and direct detection (IM/DD) per spatial path is treated. The spatial dimensions represent the multiple modes employed for transmission and the cross-talk between them originates in the multiplexers and demultiplexers, which are polarization dependent and thus timevarying. The upper bounds from free-space IM/DD MIMO channels are adapted to the fiber case, and the constellation constrained capacity is constructively estimated using the Blahut-Arimoto algorithm. An autoencoder is then proposed to optimize a practical MIMO transmission in terms of pre-coder and detector assuming channel distribution knowledge at the transmitter. The pre-coders are shown to be robust to changes in the channel.
翻訳日:2022-01-28 18:20:40 公開日:2022-01-27
# (参考訳) asoc:適応型自己認識オブジェクトのコローカライズ

ASOC: Adaptive Self-aware Object Co-localization ( http://arxiv.org/abs/2201.11547v1 )

ライセンス: CC BY 4.0
Koteswar Rao Jerripothula, Prerana Mukherjee(参考訳) 本論文の主な目的は,オブジェクトの局所化問題(コローカライズ問題)として,意味論的に類似した画像群を共同で対象にローカライズすることである。 既存の作品の多くは本質的に弱い監督を受けており、近隣のイメージの弱いスーパービジョンに大きく依存している。 弱い監督は有益であるが、完全に信頼できないため、結果は近隣の画像に非常に敏感である。 本稿では,この問題を軽減するために,自己認識現象と組み合わせる。 ここでは、自己認識によって、画像自体から得られる解を、サラエンシー・キュー(saliency cue)という形で参照する。 しかし、これらの2つのパラダイムを組み合わせることで、より優れたコローカライゼーション能力が得られる。 具体的には,2つの静的解の間に適切なバランスをとる動的メディエータを導入し,最適解を提供する。 したがって、このメソッドを \textit{asoc}:adaptive self-aware object co-localizationと呼ぶ。 我々は,いくつかのベンチマークデータセットで徹底的な実験を行い,自己認識で補う弱いスーパービジョンが,比較比較手法よりも優れた性能を示すことを確認した。

The primary goal of this paper is to localize objects in a group of semantically similar images jointly, also known as the object co-localization problem. Most related existing works are essentially weakly-supervised, relying prominently on the neighboring images' weak-supervision. Although weak supervision is beneficial, it is not entirely reliable, for the results are quite sensitive to the neighboring images considered. In this paper, we combine it with a self-awareness phenomenon to mitigate this issue. By self-awareness here, we refer to the solution derived from the image itself in the form of saliency cue, which can also be unreliable if applied alone. Nevertheless, combining these two paradigms together can lead to a better co-localization ability. Specifically, we introduce a dynamic mediator that adaptively strikes a proper balance between the two static solutions to provide an optimal solution. Therefore, we call this method \textit{ASOC}: Adaptive Self-aware Object Co-localization. We perform exhaustive experiments on several benchmark datasets and validate that weak-supervision supplemented with self-awareness has superior performance outperforming several compared competing methods.
翻訳日:2022-01-28 18:03:21 公開日:2022-01-27
# (参考訳) マルチストーカーTSを用いた義足音声認識の合成

Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition ( http://arxiv.org/abs/2201.11571v1 )

ライセンス: CC BY 4.0
Mohammad Soleymanpour, Michael T. Johnson, Rahim Soleymanpour, Jeffrey Berry(参考訳) Dysarthria は、しばしば発声筋の緩やかで非協調的な制御によって発声能力の低下を特徴とする運動性発声障害である。 自動音声認識システム(ASR)は、難聴者のより効果的なコミュニケーションを支援する。 頑健な変形性関節症特異的なASRを得るためには、十分な訓練音声が必要である。 テキスト音声合成システム(TTS)の最近の進歩は、データ拡張に合成を利用する可能性を示している。 本稿では, 変形性関節症特異的DNN-HMM ASRの訓練を改善するために, マルチスピーカ・エンド・ツー・エンドTSシステムの改良を目指している。 合成音声では, ピッチ, エネルギー, 持続時間などの他の制御パラメータに構音重症度レベルとポーズ挿入機構を付加する。 以上の結果から,DNN-HMMモデルでは, ベースラインに比べてWERが12.2%向上し, 重度レベルが増加し, ポーズ挿入制御が6.5%減少し, これらのパラメータを追加する効果が示された。 オーディオサンプルはこちらで入手できる。

Dysarthria is a motor speech disorder often characterized by reduced speech intelligibility through slow, uncoordinated control of speech production muscles. Automatic Speech recognition (ASR) systems may help dysarthric talkers communicate more effectively. To have robust dysarthria-specific ASR, sufficient training speech is required, which is not readily available. Recent advances in Text-To-Speech (TTS) synthesis multi-speaker end-to-end TTS systems suggest the possibility of using synthesis for data augmentation. In this paper, we aim to improve multi-speaker end-to-end TTS systems to synthesize dysarthric speech for improved training of a dysarthria-specific DNN-HMM ASR. In the synthesized speech, we add dysarthria severity level and pause insertion mechanisms to other control parameters such as pitch, energy, and duration. Results show that a DNN-HMM model trained on additional synthetic dysarthric speech achieves WER improvement of 12.2% compared to the baseline, the addition of the severity level and pause insertion controls decrease WER by 6.5%, showing the effectiveness of adding these parameters. Audio samples are available at
翻訳日:2022-01-28 17:52:49 公開日:2022-01-27
# (参考訳) トランジットネットワーク設計問題における多目的最適化の役割について

On the Role of Multi-Objective Optimization to the Transit Network Design Problem ( http://arxiv.org/abs/2201.11616v1 )

ライセンス: CC BY 4.0
Vasco D. Silva, Anna Finamore, Rui Henriques(参考訳) 新型コロナウイルス(COVID-19)のパンデミックによって引き起こされるような交通の変化は、我々の公共交通機関を変わらぬユーザーのニーズに適応させる必要性を明らかにしている。 本研究は,トランジットネットワーク設計問題(tndp)に対して,単一および多目的の姿勢を相乗的に組み合わせ,よりよく解くことができることを示す。 単一の客観的定式化は、近似された(多目的)パレートフロントのネットワークの評価から動的に推論され、回帰アプローチは、転送要求、時間、距離、カバレッジ、コストの最適な重みを推定するために用いられる。 ポルトガルのリスボン市におけるマルチモーダル公共交通ネットワークにおいて,本手法を適用した。 このシステムは、CARRISバスやMETRO地下鉄の駅で、スマートカードの検証によって得られた個々の旅行データを収集し、市内の発祥先需要を推定する。 次に、単一目的と多目的の両方を考慮した遺伝的アルゴリズムを用いて、観測された交通需要に適合するバスネットワークを再設計する。 提案するtndp最適化により, 目的関数の最大28.3%削減が可能となった。 このシステムはルート数を大幅に削減し、旅行時間や1回の移動を含む全ての乗客関連目的が大幅に改善された。 自動運賃収集データに基づいて、システムはバスネットワークをインクリメンタルに再設計し、都市交通の継続的な変化を動的に処理することができる。

Ongoing traffic changes, including those triggered by the COVID-19 pandemic, reveal the necessity to adapt our public transport systems to the ever-changing users' needs. This work shows that single and multi objective stances can be synergistically combined to better answer the transit network design problem (TNDP). Single objective formulations are dynamically inferred from the rating of networks in the approximated (multi-objective) Pareto Front, where a regression approach is used to infer the optimal weights of transfer needs, times, distances, coverage, and costs. As a guiding case study, the solution is applied to the multimodal public transport network in the city of Lisbon, Portugal. The system takes individual trip data given by smartcard validations at CARRIS buses and METRO subway stations and uses them to estimate the origin-destination demand in the city. Then, Genetic Algorithms are used, considering both single and multi objective approaches, to redesign the bus network that better fits the observed traffic demand. The proposed TNDP optimization proved to improve results, with reductions in objective functions of up to 28.3%. The system managed to extensively reduce the number of routes, and all passenger related objectives, including travel time and transfers per trip, significantly improve. Grounded on automated fare collection data, the system can incrementally redesign the bus network to dynamically handle ongoing changes to the city traffic.
翻訳日:2022-01-28 17:43:55 公開日:2022-01-27
# (参考訳) ディープラーニングを用いたネットワーク攻撃の早期検出

Early Detection of Network Attacks Using Deep Learning ( http://arxiv.org/abs/2201.11628v1 )

ライセンス: CC BY 4.0
Tanwir Ahmad, Dragos Truscan, Juri Vain, Ivan Porres(参考訳) インターネットは、攻撃者によるセキュリティ攻撃や侵入の対象となっている。 これらの攻撃はシステム障害、ネットワークの故障、データの破損、盗難につながる可能性がある。 ネットワーク侵入検知システム(英: network intrusion detection system、ids)は、ネットワークトラフィックを監視して不正かつ悪意のある行動を特定するためのツールである。 最先端の侵入検知システムは、攻撃に関する完全な情報を検査することで攻撃を検出するように設計されている。 これは、idsが攻撃対象のシステム上で実行された後のみ、攻撃を検出でき、システムにダメージを与える可能性があることを意味する。 本稿では,攻撃対象のシステムにダメージを与える前にネットワーク攻撃を防止し,予期せぬダウンタイムや中断を防止するために,エンド・ツー・エンドの早期侵入検知システムを提案する。 攻撃識別にはディープニューラルネットワークを用いた分類器を用いる。 ネットワークは、ほとんどの関連するアプローチで使用される手動の特徴選択プロセスに頼るのではなく、生のネットワークトラフィックデータから関連する特徴を抽出する教師ありの方法で訓練される。 さらに,提案手法がどの程度早期に攻撃を検知できるかを評価するために,earninessと呼ばれる新しい指標を導入する。 われわれはCICIDS2017データセットに対する我々のアプローチを実証的に評価した。 その結果,本手法は良好に動作し,0.803のバランス精度が得られた。

The Internet has become a prime subject to security attacks and intrusions by attackers. These attacks can lead to system malfunction, network breakdown, data corruption or theft. A network intrusion detection system (IDS) is a tool used for identifying unauthorized and malicious behavior by observing the network traffic. State-of-the-art intrusion detection systems are designed to detect an attack by inspecting the complete information about the attack. This means that an IDS would only be able to detect an attack after it has been executed on the system under attack and might have caused damage to the system. In this paper, we propose an end-to-end early intrusion detection system to prevent network attacks before they could cause any more damage to the system under attack while preventing unforeseen downtime and interruption. We employ a deep neural network-based classifier for attack identification. The network is trained in a supervised manner to extract relevant features from raw network traffic data instead of relying on a manual feature selection process used in most related approaches. Further, we introduce a new metric, called earliness, to evaluate how early our proposed approach detects attacks. We have empirically evaluated our approach on the CICIDS2017 dataset. The results show that our approach performed well and attained an overall 0.803 balanced accuracy.
翻訳日:2022-01-28 17:31:21 公開日:2022-01-27
# (参考訳) 多重発生を考慮した頻度シリアルエピソードのインクリメンタルマイニング

Incremental Mining of Frequent Serial Episodes Considering Multiple Occurrence ( http://arxiv.org/abs/2201.11650v1 )

ライセンス: CC0 1.0
Thomas Guyet, Wenbin Zhang and Albert Bifet(参考訳) ストリームから情報を分析する必要性は、さまざまなアプリケーションに現れます。 基本的な研究方向の1つは、データストリーム上のシーケンシャルパターンをマイニングすることだ。 最近の研究では、取引におけるパターンの存在に基づいて一連のアイテムを発掘するが、一連のアイテムセットとその複数発生には注意を払わない。 しかし、アイテムセットストリームのウィンドウ上のパターンとその複数の発生は、既存のアイテムや存在に基づく研究では識別できないパターンの本質的特徴と相互関係を認識する付加的な能力を提供する。 本稿では,このような新たな逐次パターンマイニング問題について検討し,探索空間を効率的にプルーンする新しい戦略を持つ効率的な逐次マイナを提案する。 実データと合成データの両方の実験は、我々のアプローチの有用性を示している。

The need to analyze information from streams arises in a variety of applications. One of the fundamental research directions is to mine sequential patterns over data streams. Current studies mine series of items based on the existence of the pattern in transactions but pay no attention to the series of itemsets and their multiple occurrences. The pattern over a window of itemsets stream and their multiple occurrences, however, provides additional capability to recognize the essential characteristics of the patterns and the inter-relationships among them that are unidentifiable by the existing items and existence based studies. In this paper, we study such a new sequential pattern mining problem and propose a corresponding efficient sequential miner with novel strategies to prune search space efficiently. Experiments on both real and synthetic data show the utility of our approach.
翻訳日:2022-01-28 17:14:59 公開日:2022-01-27
# (参考訳) SSLGuard: 自己教師型学習事前トレーニングエンコーダのための透かし方式

SSLGuard: A Watermarking Scheme for Self-supervised Learning Pre-trained Encoders ( http://arxiv.org/abs/2201.11692v1 )

ライセンス: CC BY 4.0
Tianshuo Cong and Xinlei He and Yang Zhang(参考訳) 自己教師型学習は、新しい機械学習(ML)パラダイムである。 優れたパフォーマンスを達成するために高品質のラベル付きデータセットを活用する教師付き学習と比較すると、自己教師付き学習はラベル付きデータセットを使用して強力なエンコーダを事前学習する。 膨大な量のデータと計算資源の消費により、エンコーダ自体がモデル所有者の貴重な知的財産となる。 近年の研究では、MLモデルの著作権はモデル盗難攻撃によって脅かされていることが示されている。 トレーニング済みのエンコーダは、モデル盗難攻撃に対して非常に脆弱であることを示す。 しかし、指紋や透かしなどの著作権保護アルゴリズムの現在の取り組みのほとんどは、分類器に集中している。 一方、事前訓練されたエンコーダの著作権保護に関する本質的な課題はほとんど研究されていない。 トレーニング済みエンコーダのための最初の透かしアルゴリズムであるSSLGuardを提案することで、このギャップを埋める。 クリーンなプリトレーニングエンコーダが与えられると、sslguardはウォーターマークを組み込んで、ウォーターマーク付きバージョンを出力する。 シャドートレーニング技術は、潜在的なモデル盗み攻撃で透かしを保存するためにも用いられる。 SSLGuardはウォーターマーク注入や検証に有効であり, モデル盗難やプルーニングやファインタニングなどのウォーターマーク除去攻撃に対して堅牢であることを示す。

Self-supervised learning is an emerging machine learning (ML) paradigm. Compared to supervised learning that leverages high-quality labeled datasets to achieve good performance, self-supervised learning relies on unlabeled datasets to pre-train powerful encoders which can then be treated as feature extractors for various downstream tasks. The huge amount of data and computational resources consumption makes the encoders themselves become a valuable intellectual property of the model owner. Recent research has shown that the ML model's copyright is threatened by model stealing attacks, which aims to train a surrogate model to mimic the behavior of a given model. We empirically show that pre-trained encoders are highly vulnerable to model stealing attacks. However, most of the current efforts of copyright protection algorithms such as fingerprinting and watermarking concentrate on classifiers. Meanwhile, the intrinsic challenges of pre-trained encoder's copyright protection remain largely unstudied. We fill the gap by proposing SSLGuard, the first watermarking algorithm for pre-trained encoders. Given a clean pre-trained encoder, SSLGuard embeds a watermark into it and outputs a watermarked version. The shadow training technique is also applied to preserve the watermark under potential model stealing attacks. Our extensive evaluation shows that SSLGuard is effective in watermark injection and verification, and is robust against model stealing and other watermark removal attacks such as pruning and finetuning.
翻訳日:2022-01-28 16:56:45 公開日:2022-01-27
# (参考訳) 単純な畳み込みフィルタ

Simplicial Convolutional Filters ( http://arxiv.org/abs/2201.11720v1 )

ライセンス: CC BY-SA 4.0
Maosheng Yang, Elvin Isufi, Michael T. Schaub, Geert Leus(参考訳) 本稿では, ノード, エッジ, 三角形面などを考慮したグラフの一般化として解釈できる, 抽象位相空間をモデル化した線形フィルタについて検討する。 このような信号を処理するために,下方ホッジラプラシアンと上方ホッジラプラシアンの行列多項式として定義される単純畳み込みフィルタを開発した。 まず,これらのフィルタの特性について検討し,線形およびシフト不変であり,置換および配向同値であることを示す。 これらのフィルタは、上から下への単純なシフトのみを含むため、計算複雑性の低い分散方式で実装することもできる。 第2に, エッジフローに着目し, これらのフィルタの周波数応答について検討し, 勾配, カール, ハーモニック周波数の導出にホッジ分解を用いる方法について検討する。 これらの周波数がホッジラプラシアンの低次結合と上次結合とどのように対応するかについて議論し、フィルタ設計によって独立に調整することができる。 第3に,単純な畳み込みフィルタを設計するための異なる手順を検討し,それらの相対的利点について考察する。 最後に、単純化されたフィルタをいくつかのアプリケーションでコラボレートし、単純化された信号の異なる周波数成分を抽出し、エッジフローをデノベートし、金融市場やトラフィックネットワークを分析します。

We study linear filters for processing signals supported on abstract topological spaces modeled as simplicial complexes, which may be interpreted as generalizations of graphs that account for nodes, edges, triangular faces etc. To process such signals, we develop simplicial convolutional filters defined as matrix polynomials of the lower and upper Hodge Laplacians. First, we study the properties of these filters and show that they are linear and shift-invariant, as well as permutation and orientation equivariant. These filters can also be implemented in a distributed fashion with a low computational complexity, as they involve only (multiple rounds of) simplicial shifting between upper and lower adjacent simplices. Second, focusing on edge-flows, we study the frequency responses of these filters and examine how we can use the Hodge-decomposition to delineate gradient, curl and harmonic frequencies. We discuss how these frequencies correspond to the lower- and the upper-adjacent couplings and the kernel of the Hodge Laplacian, respectively, and can be tuned independently by our filter designs. Third, we study different procedures for designing simplicial convolutional filters and discuss their relative advantages. Finally, we corroborate our simplicial filters in several applications: to extract different frequency components of a simplicial signal, to denoise edge flows, and to analyze financial markets and traffic networks.
翻訳日:2022-01-28 16:31:58 公開日:2022-01-27
# (参考訳) データセンターにおける協調負荷分散の強化

Reinforced Cooperative Load Balancing in Data Center ( http://arxiv.org/abs/2201.11727v1 )

ライセンス: CC0 1.0
Zhiyuan Yao, Zihan Ding, Thomas Clausen(参考訳) ネットワークロードバランサは,アプリケーションサーバ間で高い到着率のワークロードを協調的に分散することで,スケーラブルなサービスの提供に寄与する,現代のデータセンタの中心的なコンポーネントである。 独立で"利己的な"ロードバランシング戦略は必ずしもグローバルに最適な戦略ではない。 本稿では,負荷分散問題をシステム状態に対する観測が限定された協調型チームゲームとして表現し,処理遅延を発生させることなく,負荷分散を公平に決定するマルチエージェント強化学習手法を採用する。 シミュレーションとエミュレーションシステムの両方において,提案手法は,最先端のヒューリスティックスや学習に基づく戦略など,他の負荷分散アルゴリズムに対して評価される。 異なる設定と複雑な条件下での実験は,提案手法の利点を示す。

Network load balancers are central components in modern data centers, that cooperatively distribute workloads of high arrival rates across application servers, thereby contribute to offering scalable services. The independent and "selfish" load balancing strategy is not necessarily the globally optimal one. This paper represents the load balancing problem as a cooperative team-game with limited observations over system states, and adopts multi-agent reinforcement learning methods to make fair load balancing decisions without inducing additional processing latency. On both a simulation and an emulation system, the proposed method is evaluated against other load balancing algorithms, including state-of-the-art heuristics and learning-based strategies. Experiments under different settings and complexities show the advantageous performance of the proposed method.
翻訳日:2022-01-28 15:50:28 公開日:2022-01-27
# 交通調査における交通タイミングの偏りの緩和 II。 RIVERS: ケプラー-1972周辺のツイン共鳴型地球型惑星はケプラーの偽陽性から回復した

Alleviating the Transit Timing Variations bias in transit surveys. II. RIVERS: Twin resonant Earth-sized planets around Kepler-1972 recovered from Kepler's false positive ( http://arxiv.org/abs/2201.11459v1 )

ライセンス: Link先を確認
A. Leleu, J.-B. Delisle, R. Mardling, S. Udry, G. Chatel, Y. Alibert and P. Eggenberger(参考訳) トランジットタイミング変動(transit timing variations, ttvs)は、観測された惑星の質量や偏心性に制約を加えることで、トランジットによって観測されるシステムにとって有用な情報を提供する。 しかし、ttvは、トランジットサーベイにおける小さな惑星の検出や、回収された惑星やトランジットパラメータのバイアスを防ぐこともできる。 ここでは、ケプラー-1972 cがケプラー-1972 b(初期はKOI-3184.01)によって摂動される地球サイズの惑星であることを示す。 このペアは平均3:2の運動共鳴でロックされ、各惑星はケプラーミッションの期間中に6時間以上の振幅でTTVを表示する。 2つの惑星は類似質量が $m_b/m_c =0.956_{-0.051}^{+0.056}$ と radii $R_b=0.802_{-0.041}^{+0.042}R_{Earth}$, $R_c=0.868_{-0.050}^{+0.051}R_{Earth}$ を持つ。 ケプラー-1972bとケプラー-1972cの各トランジットでは1.35r、ケプラー-1972cでは1.10である)信号の弱さにもかかわらず、川図中の惑星の軌跡を機械学習で認識し、光曲線の光力学的適合度に基づいて惑星の通過を回復した。 惑星の正しいエフェメリドの復元は、観測された惑星系の完全な画像を持つことが不可欠である。 特に、ケプラー-1972では、惑星と惑星の相互作用を考慮していないと、惑星bとcの半径に$\sim 30\%の誤差が生じる。 このバイアスを緩和することは、ケプラー系、TESS星のいくつか、そして今後のPLATOミッションの偏見のない視点に不可欠である。

Transit Timing Variations (TTVs) can provide useful information for systems observed by transit, by putting constraints on the masses and eccentricities of the observed planets, or even constrain the existence of non-transiting companions. However, TTVs can also prevent the detection of small planets in transit surveys, or bias the recovered planetary and transit parameters. Here we show that Kepler-1972 c, initially the "not transit-like" false positive KOI-3184.02, is an Earth-sized planet whose orbit is perturbed by Kepler-1972 b (initially KOI-3184.01). The pair is locked in a 3:2 Mean-motion resonance, each planet displaying TTVs of more than 6h hours of amplitude over the duration of the Kepler mission. The two planets have similar masses $m_b/m_c =0.956_{-0.051}^{+0.056}$ and radii $R_b=0.802_{-0.041}^{+0.042}R_{Earth}$, $R_c=0.868_{-0.050}^{+0.051}R_{Earth}$, and the whole system, including the inner candidate KOI-3184.03, appear to be coplanar. Despite the faintness of the signals (SNR of 1.35 for each transit of Kepler-1972 b and 1.10 for Kepler-1972 c), we recovered the transits of the planets using the RIVERS method, based on the recognition of the tracks of planets in river diagrams using machine learning, and a photo-dynamic fit of the lightcurve. Recovering the correct ephemerides of the planets is essential to have a complete picture of the observed planetary systems. In particular, we show that in Kepler-1972, not taking into account planet-planet interactions yields an error of $\sim 30\%$ on the radii of planets b and c, in addition to generating in-transit scatter, which leads to mistake KOI3184.02 for a false positive. Alleviating this bias is essential for an unbiased view of Kepler systems, some of the TESS stars, and the upcoming PLATO mission.
翻訳日:2022-01-28 15:39:21 公開日:2022-01-27
# GraphTune: 可変構造を持つ学習ベースのグラフ生成モデル

GraphTune: A Learning-based Graph Generative Model with Tunable Structural Features ( http://arxiv.org/abs/2201.11494v1 )

ライセンス: Link先を確認
Shohei Nakazawa, Yoshiki Sato, Sho Tsugawa, Kenji Nakagawa, Kohei Watabe(参考訳) グラフ生成モデルは数十年にわたって活発に研究されており、幅広い応用例がある。 近年,実世界のグラフを再現する学習に基づくグラフ生成が,多くの研究者の注目を集めている。 現代の機械学習技術を利用したいくつかの生成モデルが提案されているが、一般グラフの条件付き生成はこの分野では研究されていない。 本稿では,グローバルレベルの構造特徴の値を条件としてチューニング可能な生成モデルを提案する。 GraphTuneと呼ばれるモデルにより、Long Short Term Memory (LSTM) と Conditional Variational AutoEncoder (CVAE) を用いて、生成されたグラフの構造的特徴の値を調整できます。 実グラフデータセットを用いてグラフチューンと従来のモデルの比較評価を行った。 評価の結果、GraphTuneは従来のモデルと比較して、グローバルレベルの構造的特徴の値をはっきりと調整できることがわかった。

Generative models for graphs have been actively studied for decades, and they have a wide range of applications. Recently, learning-based graph generation that reproduces real-world graphs has gradually attracted the attention of many researchers. Several generative models that utilize modern machine learning technologies have been proposed, though a conditional generation of general graphs is less explored in the field. In this paper, we propose a generative model that allows us to tune a value of a global-level structural feature as a condition. Our model called GraphTune enables to tune a value of any structural feature of generated graphs using Long Short Term Memory (LSTM) and Conditional Variational AutoEncoder (CVAE). We performed comparative evaluations of GraphTune and conventional models with a real graph dataset. The evaluations show that GraphTune enables to clearly tune a value of a global-level structural feature compared to the conventional models.
翻訳日:2022-01-28 15:38:32 公開日:2022-01-27
# プライベートエンコーダを用いた脳波からのドメイン不変表現学習

Domain-Invariant Representation Learning from EEG with Private Encoders ( http://arxiv.org/abs/2201.11613v1 )

ライセンス: Link先を確認
David Bethge, Philipp Hallgarten, Tobias Grosse-Puppendahl, Mohamed Kari, Ralf Mikut, Albrecht Schmidt, Ozan \"Ozdenizci(参考訳) eeg(deep learning based electroencephalography)信号処理手法は、データ分布の変化により、テスト時間の一般化に苦しむことが知られている。 これは、プライバシ保存型表現学習が臨床設定などに興味を持つ場合に、さらに難しい問題になる。 そこで我々は,データセット固有のプライベートエンコーダからドメイン不変表現を抽出するマルチソース学習アーキテクチャを提案する。 本モデルでは,最大平均差分法(MMD)に基づくドメインアライメント手法を用いて,脳波に基づく感情分類における最先端のアプローチよりも優れた領域不変性を符号化表現に適用する。 さらに、私たちのパイプラインで学んだ表現は、データセット固有のプライベートエンコーディングとしてドメインプライバシを保持します。

Deep learning based electroencephalography (EEG) signal processing methods are known to suffer from poor test-time generalization due to the changes in data distribution. This becomes a more challenging problem when privacy-preserving representation learning is of interest such as in clinical settings. To that end, we propose a multi-source learning architecture where we extract domain-invariant representations from dataset-specific private encoders. Our model utilizes a maximum-mean-discrepancy (MMD) based domain alignment approach to impose domain-invariance for encoded representations, which outperforms state-of-the-art approaches in EEG-based emotion classification. Furthermore, representations learned in our pipeline preserve domain privacy as dataset-specific private encoding alleviates the need for conventional, centralized EEG-based deep neural network training approaches with shared parameters.
翻訳日:2022-01-28 15:38:17 公開日:2022-01-27
# 眼鏡カメラを用いた人間とロボットのインタラクションのための頭と目の中心的なジェスチャー認識

Head and eye egocentric gesture recognition for human-robot interaction using eyewear cameras ( http://arxiv.org/abs/2201.11500v1 )

ライセンス: Link先を確認
Javier Marina-Miranda, V. Javier Traver(参考訳) 非言語コミュニケーションは、人間-ロボットインタラクション(HRI)の幅広いシナリオにおいて特に重要な役割を果たす。 そこで本研究では,人間のジェスチャー認識の問題に対処する。 特に、頭部と眼のジェスチャーに焦点を合わせ、アイウェアカメラを用いた自我中心(ファーストパーソナリティ)の視点を採用する。 この自我中心の視点は、シーンやロボット中心の視点よりも、概念的、技術的に多くの利点をもたらすと我々は主張する。 2つの時間的粒度で動作する動きに基づく認識手法を提案する。 局所的に、畳み込みニューラルネットワーク(cnn)を用いてフレーム間相同性を推定する。 このCNNの出力は、長い短期記憶(LSTM)に入力され、ジェスチャーの特徴付けに関連する長期の時間的視覚的関係をキャプチャする。 ネットワークアーキテクチャの構成に関して、特に興味深い発見は、ホモグラフィCNNの内部層の出力を使用することで、ホモグラフィ行列自体の使用に対する認識率が増加することである。 この研究はアクション認識に焦点を当てており、ロボットやユーザーによる研究はまだ行われていないが、システムはリアルタイムの制約を満たすために署名されていない。 奨励的な結果から,提案する自己中心的視点は実現可能であり,この概念実証はhriのエキサイティングな領域に新規で有用な貢献を与える。

Non-verbal communication plays a particularly important role in a wide range of scenarios in Human-Robot Interaction (HRI). Accordingly, this work addresses the problem of human gesture recognition. In particular, we focus on head and eye gestures, and adopt an egocentric (first-person) perspective using eyewear cameras. We argue that this egocentric view offers a number of conceptual and technical benefits over scene- or robot-centric perspectives. A motion-based recognition approach is proposed, which operates at two temporal granularities. Locally, frame-to-frame homographies are estimated with a convolutional neural network (CNN). The output of this CNN is input to a long short-term memory (LSTM) to capture longer-term temporal visual relationships, which are relevant to characterize gestures. Regarding the configuration of the network architecture, one particularly interesting finding is that using the output of an internal layer of the homography CNN increases the recognition rate with respect to using the homography matrix itself. While this work focuses on action recognition, and no robot or user study has been conducted yet, the system has been de signed to meet real-time constraints. The encouraging results suggest that the proposed egocentric perspective is viable, and this proof-of-concept work provides novel and useful contributions to the exciting area of HRI.
翻訳日:2022-01-28 15:37:46 公開日:2022-01-27
# 依存的非周期通信の存在下での分散勾配に基づく最適化

Distributed gradient-based optimization in the presence of dependent aperiodic communication ( http://arxiv.org/abs/2201.11343v1 )

ライセンス: Link先を確認
Adrian Redder, Arunselvan Ramaswamy, Holger Karl(参考訳) 反復的分散最適化アルゴリズムは、グローバル目的を最小化/最大化するために、時間とともに互いに通信する複数のエージェントを含む。 信頼できない通信ネットワークが存在する場合、受信したデータの鮮度を測定する情報年齢(aoi)は大きく、それゆえアルゴリズム的な収束を妨げる可能性がある。 本稿では,一般分散勾配に基づく最適化アルゴリズムの収束を,周期的にも確率的にも時間的に独立な点でも起こり得ない通信の存在下で検討する。 aoiプロセスに関連する確率変数が確率的に有限第一モーメントの確率変数に支配されている場合、収束は保証される。 これは、最初の瞬間以上の境界性の以前の要求を改善する。 次に,時間変動ネットワークのための新しい確率的接続性である確率的強結合(ssc)ネットワークを紹介する。 任意の$p \ge0$に対して、sscネットワーク内のエージェント間の通信の成功を記述するプロセスが$\alpha$-mixingで$n^{p-1}\alpha(n)$ summableであれば、関連するaoiプロセスは確率的に、有限の$p$-thモーメントを持つ確率変数によって支配される。 最初の寄与と組み合わせると、分散確率勾配は AoI の存在下で収束し、$\alpha(n)$ が総和可能であることを意味する。

Iterative distributed optimization algorithms involve multiple agents that communicate with each other, over time, in order to minimize/maximize a global objective. In the presence of unreliable communication networks, the Age-of-Information (AoI), which measures the freshness of data received, may be large and hence hinder algorithmic convergence. In this paper, we study the convergence of general distributed gradient-based optimization algorithms in the presence of communication that neither happens periodically nor at stochastically independent points in time. We show that convergence is guaranteed provided the random variables associated with the AoI processes are stochastically dominated by a random variable with finite first moment. This improves on previous requirements of boundedness of more than the first moment. We then introduce stochastically strongly connected (SSC) networks, a new stochastic form of strong connectedness for time-varying networks. We show: If for any $p \ge0$ the processes that describe the success of communication between agents in a SSC network are $\alpha$-mixing with $n^{p-1}\alpha(n)$ summable, then the associated AoI processes are stochastically dominated by a random variable with finite $p$-th moment. In combination with our first contribution, this implies that distributed stochastic gradient descend converges in the presence of AoI, if $\alpha(n)$ is summable.
翻訳日:2022-01-28 15:36:03 公開日:2022-01-27
# HYPERLOCK:Memristorクロスバーアレイにおけるメモリ内超次元暗号化

HYPERLOCK: In-Memory Hyperdimensional Encryption in Memristor Crossbar Array ( http://arxiv.org/abs/2201.11362v1 )

ライセンス: Link先を確認
Jack Cai, Amirali Amirsoleimani, and Roman Genov(参考訳) 本稿では, memristor クロスバーアレイ,binary hypervectors,neural network に基づく新しい暗号アーキテクチャを提案する。 memristorクロスバーの確率的かつ不可解な性質と、バイナリハイパーベクトルとニューラルネットワークのエラー許容性を利用して、memristorクロスバーシミュレーションによるアルゴリズムの実装が可能となる。 双対超ベクトルの次元が増加すると、memristor回路の非理想性が効果的に制御できることを実証する。 制御されたクロスバー非理想性の細かいレベルでは、メモリ回路からのノイズを使用してデータを暗号化し、復号化のためにニューラルネットワークによって十分に解釈できる。 提案アルゴリズムは,概念実証のための画像暗号に応用し,クロスバーノイズにもかかわらず100%復号精度でエン/復号する。 本研究は, ベクトル行列乗算高速化装置として, 既存の暗号機能の上に, 制限不能な確率エンコーダ単位としてmemristorクロスバーを用いることの可能性と実現可能性を示す。

We present a novel cryptography architecture based on memristor crossbar array, binary hypervectors, and neural network. Utilizing the stochastic and unclonable nature of memristor crossbar and error tolerance of binary hypervectors and neural network, implementation of the algorithm on memristor crossbar simulation is made possible. We demonstrate that with an increasing dimension of the binary hypervectors, the non-idealities in the memristor circuit can be effectively controlled. At the fine level of controlled crossbar non-ideality, noise from memristor circuit can be used to encrypt data while being sufficiently interpretable by neural network for decryption. We applied our algorithm on image cryptography for proof of concept, and to text en/decryption with 100% decryption accuracy despite crossbar noises. Our work shows the potential and feasibility of using memristor crossbars as an unclonable stochastic encoder unit of cryptography on top of their existing functionality as a vector-matrix multiplication acceleration device.
翻訳日:2022-01-28 15:35:37 公開日:2022-01-27
# fingan: 銀行と保険における顧客関係分析のための生成的広告ネットワーク

FinGAN: Generative Adversarial Network for Analytical Customer Relationship Management in Banking and Insurance ( http://arxiv.org/abs/2201.11486v1 )

ライセンス: Link先を確認
Prateek Kate, Vadlamani Ravi and Akhilesh Gangwar(参考訳) クレジットカードにおけるチャーン予測、保険における不正検出、ローンデフォルト予測は分析顧客関係管理(acrm)の重要な問題である。 不正、不正、デフォルトが頻繁に発生するので、これらの問題のデータセットは自然に非常に不均衡である。 その結果、教師付き機械学習分類器は、そのようなバランスの取れていないデータセットでトレーニングすると、かなり偽陽性になる傾向にある。 我々はデータバランスの2つの方法を提案する。 まず,GAN(Generative Adversarial Network)を用いてマイノリティクラスの合成サンプルを生成するオーバーサンプリング手法を提案する。 我々はマイノリティクラスサンプルをオーバーサンプリングするために、Vanilla GAN [1], Wasserstein GAN [2], CTGAN [3] を別々に採用する。 提案手法の有効性を評価するために、ランダムフォレスト、決定木、サポートベクターマシン(SVM)、GANがバランスをとるデータに対するロジスティック回帰を含む機械学習分類器のホストを用いる。 第2の方法では,データ不均衡を扱うハイブリッド手法を提案する。 第2に,一級サポートビゴーマシン(OCSVM) [4] で得られたアンダーサンプリングされたマイノリティクラスデータと,GANによって過剰にサンプリングされたマイノリティクラスデータを増強することにより,アンダーサンプリングとオーバーサンプリングの力を両立させる。 我々は, GAN が生成した過剰サンプリングデータと OCSVM [4] がアンダーサンプリングしたデータを組み合わせて,結果のデータを分類器に渡す。 結果とFarquadらを比較した。 5],sundarkumar,ravi,siddeshwar [6],提案手法は,全データセットのroc曲線(auc)下の領域において,これまでの結果よりも優れていた。

Churn prediction in credit cards, fraud detection in insurance, and loan default prediction are important analytical customer relationship management (ACRM) problems. Since frauds, churns and defaults happen less frequently, the datasets for these problems turn out to be naturally highly unbalanced. Consequently, all supervised machine learning classifiers tend to yield substantial false-positive rates when trained on such unbalanced datasets. We propose two ways of data balancing. In the first, we propose an oversampling method to generate synthetic samples of minority class using Generative Adversarial Network (GAN). We employ Vanilla GAN [1], Wasserstein GAN [2] and CTGAN [3] separately to oversample the minority class samples. In order to assess the efficacy of our proposed approach, we use a host of machine learning classifiers, including Random Forest, Decision Tree, support vector machine (SVM), and Logistic Regression on the data balanced by GANs. In the second method, we introduce a hybrid method to handle data imbalance. In this second way, we utilize the power of undersampling and over-sampling together by augmenting the synthetic minority class data oversampled by GAN with the undersampled majority class data obtained by one-class support vigor machine (OCSVM) [4]. We combine both over-sampled data generated by GAN and the data under-sampled by OCSVM [4] and pass the resultant data to classifiers. When we compared our results to those of Farquad et al. [5], Sundarkumar, Ravi, and Siddeshwar [6], our proposed methods outperform the previous results in terms of the area under the ROC curve (AUC) on all datasets.
翻訳日:2022-01-28 15:35:19 公開日:2022-01-27
# KoopmanizingFlowsによるデータ駆動型LQRの実現

Towards Data-driven LQR with KoopmanizingFlows ( http://arxiv.org/abs/2201.11640v1 )

ライセンス: Link先を確認
Petar Bevanda, Max Beier, Shahab Heshmati-Alamdari, Stefan Sosnowski, Sandra Hirche(参考訳) クープマン作用素の表現に基づく連続時間非自律非線形ダイナミクスのクラスに対する線形時間不変(LTI)モデルを学習するための新しいフレームワークを提案する。 一般に、作用素は無限次元であるが、決定的に線型である。 これを効率的なlti制御に利用するために,制御に線形なkoopman演算子の有限表現を学習し,有意義な昇降座標を同時に学習する。 後者については、KoopmanizingFlows - Koopman演算子の微分同相に基づく表現に依存する。 このような学習モデルを用いて,非線形無限ホリゾン最適制御問題を線形二次レギュレータ (lqr) の2次コストで置き換えることができ,非線形システムの最適制御が容易になる。 提案手法の予測と制御の有効性をシミュレーション例で検証した。

We propose a novel framework for learning linear time-invariant (LTI) models for a class of continuous-time non-autonomous nonlinear dynamics based on a representation of Koopman operators. In general, the operator is infinite-dimensional but, crucially, linear. To utilize it for efficient LTI control, we learn a finite representation of the Koopman operator that is linear in controls while concurrently learning meaningful lifting coordinates. For the latter, we rely on KoopmanizingFlows - a diffeomorphism-based representation of Koopman operators. With such a learned model, we can replace the nonlinear infinite-horizon optimal control problem with quadratic costs to that of a linear quadratic regulator (LQR), facilitating efficacious optimal control for nonlinear systems. The prediction and control efficacy of the proposed method is verified on simulation examples.
翻訳日:2022-01-28 15:34:47 公開日:2022-01-27
# (参考訳) vision checklist: 画像モデルのテスト可能なエラー解析に向けて - システム設計者がモデルの能力に疑問を呈するのに役立つ

Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities ( http://arxiv.org/abs/2201.11674v1 )

ライセンス: CC BY 4.0
Xin Du, Benedicte Legastelois, Bhargavi Ganesh, Ajitha Rajan, Hana Chockler, Vaishak Belle, Stuart Anderson, Subramanian Ramamoorthy(参考訳) 視覚トランスフォーマーなどの最近のモデルや、vggやresnetといったcnnベースのモデルの成功により、画像認識タスクに大規模な事前訓練済みモデルを使用することが増えている。 ベンチマークタスクにおけるこれらのモデルの高精度さは、自動運転や医療診断のような安全クリティカルなアプリケーションを含む、多くのドメインで実用化されている。 広く使われているにもかかわらず、画像モデルは運用環境の変化に弱いことが示され、その堅牢性に疑問が呈されている。 設計者が安全性と堅牢性を理解し、保証するために、これらのモデルの能力を体系的に特徴付け、定量化する手法が緊急に必要である。 本稿では,システム設計者がロバスト性評価に使用できるレポートを作成するために,モデルの能力を問うことを目的としたフレームワークであるvision checklistを提案する。 このフレームワークは、異なるタイプのテストサンプルを生成するために基礎となるデータに適用できる一連の摂動操作を提案する。 摂動は運用環境の潜在的な変化を反映し、厳密な量から質的な性質まで様々な特性を問う。 我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。 われわれのvision checklistは、モデルカードのコンセプトに組み込むことのできる、特定の評価セットを提案している。 私たちのチェックリストのようなロバストネス評価は、視覚認識モジュールの将来の安全性評価に不可欠であり、これらのシステムの認証に関わるデザイナー、デプロイ者、規制官を含む幅広い利害関係者に役立ちます。 Vision Checklistのソースコードは一般に公開されている。

Using large pre-trained models for image recognition tasks is becoming increasingly common owing to the well acknowledged success of recent models like vision transformers and other CNN-based models like VGG and Resnet. The high accuracy of these models on benchmark tasks has translated into their practical use across many domains including safety-critical applications like autonomous driving and medical diagnostics. Despite their widespread use, image models have been shown to be fragile to changes in the operating environment, bringing their robustness into question. There is an urgent need for methods that systematically characterise and quantify the capabilities of these models to help designers understand and provide guarantees about their safety and robustness. In this paper, we propose Vision Checklist, a framework aimed at interrogating the capabilities of a model in order to produce a report that can be used by a system designer for robustness evaluations. This framework proposes a set of perturbation operations that can be applied on the underlying data to generate test samples of different types. The perturbations reflect potential changes in operating environments, and interrogate various properties ranging from the strictly quantitative to more qualitative. Our framework is evaluated on multiple datasets like Tinyimagenet, CIFAR10, CIFAR100 and Camelyon17 and for models like ViT and Resnet. Our Vision Checklist proposes a specific set of evaluations that can be integrated into the previously proposed concept of a model card. Robustness evaluations like our checklist will be crucial in future safety evaluations of visual perception modules, and be useful for a wide range of stakeholders including designers, deployers, and regulators involved in the certification of these systems. Source code of Vision Checklist would be open for public use.
翻訳日:2022-01-28 15:32:32 公開日:2022-01-27
# catch(pan-tumor canine cutaneous cancer histology)データセット

Pan-Tumor CAnine cuTaneous Cancer Histology (CATCH) Dataset ( http://arxiv.org/abs/2201.11446v1 )

ライセンス: Link先を確認
Frauke Wilm, Marco Fragoso, Christian Marzahl, Jingna Qiu, Christof A. Bertram, Robert Klopfleisch, Andreas Maier, Katharina Breininger, Marc Aubreville(参考訳) 形態学的類似性から,皮膚腫瘍の組織学的部分の個々の亜型への分化は困難である。 近年、深層学習に基づくアプローチは、この点において病理学者を支援する可能性を証明している。 しかし、これらの教師付きアルゴリズムの多くは、堅牢な開発のために大量の注釈付きデータを必要とする。 12,424個のポリゴンアノテーションと7種類の皮膚腫瘍を含む13の組織学的分類を補完する7種類の犬皮膚腫瘍の350枚のスライド画像からなる公開データセットを報告する。 サンプルのサイズとアノテーションの範囲に関して、これはほとんどの公開データセットを超え、しばしば腫瘍領域に制限されるか、単にパッチレベルのアノテーションを提供する。 組織セグメンテーションモデルの妥当性を確認し,クラス平均jaccard係数0.7047,腫瘍0.9044を得た。 腫瘍の亜型分類では,スライドレベルの精度は0.9857。 犬皮膚腫瘍はヒト腫瘍に様々な組織像を有するため,本データセットの付加価値は獣医学に限らず,より一般的な応用分野にまで及んでいると考えられる。

Due to morphological similarities, the differentiation of histologic sections of cutaneous tumors into individual subtypes can be challenging. Recently, deep learning-based approaches have proven their potential for supporting pathologists in this regard. However, many of these supervised algorithms require a large amount of annotated data for robust development. We present a publicly available dataset consisting of 350 whole slide images of seven different canine cutaneous tumors complemented by 12,424 polygon annotations for 13 histologic classes including seven cutaneous tumor subtypes. Regarding sample size and annotation extent, this exceeds most publicly available datasets which are oftentimes limited to the tumor area or merely provide patch-level annotations. We validated our model for tissue segmentation, achieving a class-averaged Jaccard coefficient of 0.7047, and 0.9044 for tumor in particular. For tumor subtype classification, we achieve a slide-level accuracy of 0.9857. Since canine cutaneous tumors possess various histologic homologies to human tumors, we believe that the added value of this dataset is not limited to veterinary pathology but extends to more general fields of application.
翻訳日:2022-01-28 15:18:14 公開日:2022-01-27
# 光音響イメージングを用いた小児神経筋疾患の自動分類

Automatic Classification of Neuromuscular Diseases in Children Using Photoacoustic Imaging ( http://arxiv.org/abs/2201.11630v1 )

ライセンス: Link先を確認
Maja Schlereth, Daniel Stromer, Katharina Breininger, Alexandra Wagner, Lina Tan, Andreas Maier, Ferdinand Knieling(参考訳) 神経筋疾患(NMD)は、医療システムと社会の両方に重大な負担をもたらす。 重度の進行性筋力低下、筋変性、拘縮、変形、進行性障害につながる可能性がある。 この研究で評価されたNMDは、幼少期にしばしば現れる。 Duchenne Muscular Dystropy (DMD) や Spinal Muscular Atrophy (SMA) などの疾患のサブタイプは、当初は区別が難しいため、迅速かつ信頼性の高い鑑別診断が重要である。 光音響および超音波イメージングは、異なる疾患の範囲を可視化し定量化する大きな可能性を示している。 このような画像データの自動分類の追加は、標準診断手順をさらに改善する可能性がある。 VGG16に基づく深層学習に基づく2クラス分類法と3クラス分類法の比較を行った。 本研究は,3クラス問題に対する0.86以上の精度の高い有望な結果を示し,NMDの早期診断と治療モニタリングのための概念実証として利用することができる。

Neuromuscular diseases (NMDs) cause a significant burden for both healthcare systems and society. They can lead to severe progressive muscle weakness, muscle degeneration, contracture, deformity and progressive disability. The NMDs evaluated in this study often manifest in early childhood. As subtypes of disease, e.g. Duchenne Muscular Dystropy (DMD) and Spinal Muscular Atrophy (SMA), are difficult to differentiate at the beginning and worsen quickly, fast and reliable differential diagnosis is crucial. Photoacoustic and ultrasound imaging has shown great potential to visualize and quantify the extent of different diseases. The addition of automatic classification of such image data could further improve standard diagnostic procedures. We compare deep learning-based 2-class and 3-class classifiers based on VGG16 for differentiating healthy from diseased muscular tissue. This work shows promising results with high accuracies above 0.86 for the 3-class problem and can be used as a proof of concept for future approaches for earlier diagnosis and therapeutic monitoring of NMDs.
翻訳日:2022-01-28 15:17:57 公開日:2022-01-27
# マッチング照明

Matched Illumination ( http://arxiv.org/abs/2201.11700v1 )

ライセンス: Link先を確認
Yuteng Zhu and Graham D. Finlayson(参考訳) 以前の研究では、光学経路に特別に設計されたカラーフィルタを配置することで、理論上はRGBがXYZトリ刺激とより線形な関係を持つように、カメラをより色付けできることを示した。 先行技術はこの原理を実証したが、最適な色補正フィルタは実際には製造されなかった。 本稿では,光源のスペクトルをスペクトル調整可能な照明システムを用いて変調し,照明面からプリフィルタ効果を再キャストすることで,物理フィルタを作らずにカラーフィルタ効果を作り出す新しい方法を提案する。 提案手法によれば,D65光の下で色を測りたい場合は,光変調が先行技術における色前処理の効果を模倣する変調D65スペクトルでシーンをリライトする。 適度に変調された光を 一致した照明と呼びます 実験では, 合成および実測値を用いて, シミュレーションデータでは約50%以上, 実画像では約25%以上の色測定誤差を低減できることを示した。

In previous work, it was shown that a camera can theoretically be made more colorimetric - its RGBs become more linearly related to XYZ tristimuli - by placing a specially designed color filter in the optical path. While the prior art demonstrated the principle, the optimal color-correction filters were not actually manufactured. In this paper, we provide a novel way of creating the color filtering effect without making a physical filter: we modulate the spectrum of the light source by using a spectrally tunable lighting system to recast the prefiltering effect from a lighting perspective. According to our method, if we wish to measure color under a D65 light, we relight the scene with a modulated D65 spectrum where the light modulation mimics the effect of color prefiltering in the prior art. We call our optimally modulated light, the matched illumination. In the experiments, using synthetic and real measurements, we show that color measurement errors can be reduced by about 50% or more on simulated data and 25% or more on real images when the matched illumination is used.
翻訳日:2022-01-28 15:17:42 公開日:2022-01-27
# WebカメラとスマートフォンビデオのためのPRNUに基づくソースカメラ識別

PRNU Based Source Camera Identification for Webcam and Smartphone Videos ( http://arxiv.org/abs/2201.11737v1 )

ライセンス: Link先を確認
Fernando Mart\'in-Rodr\'iguez, Fernando Isasi-de-Vicente(参考訳) このコミュニケーションは、webカメラ/スマートフォンビデオのソースカメラ(sci: source camera identification)を識別するためにカメラセンサー指紋を使用する画像検査の応用に関するものです。 センサーやカメラの指紋は、不完全物の製造のためにこの種のセンサーに常に存在する固有のノイズを計算している。 これは、各センサとノイズパターンをリンクする避けられない特性である。 PRNU (Photo Response Non-Uniformity) は、カメラの指紋を計算するデフォルト技術となっている。 近年,静止画像を用いたカメラ識別のためのPRNUパターンを扱うアプリケーションが多数存在する。 本研究では、まずウェブカメラビデオ、次にスマートフォンビデオに焦点を当てる。 ウェブカメラとスマートフォンは、近年最も使われているビデオカメラだ。 SCIの3つの方法が実装され、評価される。

This communication is about an application of image forensics where we use camera sensor fingerprints to identify source camera (SCI: Source Camera Identification) in webcam/smartphone videos. Sensor or camera fingerprints are based on computing the intrinsic noise that is always present in this kind of sensors due to manufacturing imperfections. This is an unavoidable characteristic that links each sensor with its noise pattern. PRNU (Photo Response Non-Uniformity) has become the default technique to compute a camera fingerprint. There are many applications nowadays dealing with PRNU patterns for camera identification using still images. In this work we focus on video, first on webcam video and afterwards on smartphone video. Webcams and smartphones are the most used video cameras nowadays. Three possible methods for SCI are implemented and assessed in this work.
翻訳日:2022-01-28 15:17:24 公開日:2022-01-27
# 6gエッジインテリジェンスのための強化学習型モバイルエッジコンピューティング

Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence ( http://arxiv.org/abs/2201.11410v1 )

ライセンス: Link先を確認
Peng Wei, Kun Guo, Ye Li, Jue Wang, Wei Feng, Shi Jin, Ning Ge, and Ying-Chang Liang(参考訳) モバイルエッジコンピューティング(MEC)は、第5世代(5G)ネットワークなどにおける計算集約的かつ遅延に敏感なタスクのための新しいパラダイムであると考えられている。 しかし、その不確実性は、モバイルデバイス、無線チャネル、エッジネットワーク側からの動的およびランダム性と呼ばれ、高次元、非凸、非線形、NPハード最適化の問題をもたらす。 進化した強化学習(RL)により、動的でランダムな環境と反復的に相互作用することで、その訓練されたエージェントはMECの最適なポリシーをインテリジェントに得ることができる。 さらに、Dep RL(DRL)のような進化したバージョンは、大規模状態-作用空間のパラメトリック近似に基づいて、より高収束速度効率と学習精度を達成することができる。 本稿は、RL対応MECに関する総合的な研究レビューと、この分野の開発に対する洞察を提供する。 さらに重要なことは、自由移動性、動的チャネル、分散サービスに関連するため、様々な種類のRLアルゴリズムによって解決できるMEC課題が特定され、続いて、多様なモバイルアプリケーションにおいてRLソリューションによって解決される方法が示される。 最後に、RLトレーニングおよびMEC学習における今後の研究に役立つガイダンスを提供するために、オープンな課題について論じる。

Mobile edge computing (MEC) is considered a novel paradigm for computation-intensive and delay-sensitive tasks in fifth generation (5G) networks and beyond. However, its uncertainty, referred to as dynamic and randomness, from the mobile device, wireless channel, and edge network sides, results in high-dimensional, nonconvex, nonlinear, and NP-hard optimization problems. Thanks to the evolved reinforcement learning (RL), upon iteratively interacting with the dynamic and random environment, its trained agent can intelligently obtain the optimal policy in MEC. Furthermore, its evolved versions, such as deep RL (DRL), can achieve higher convergence speed efficiency and learning accuracy based on the parametric approximation for the large-scale state-action space. This paper provides a comprehensive research review on RL-enabled MEC and offers insight for development in this area. More importantly, associated with free mobility, dynamic channels, and distributed services, the MEC challenges that can be solved by different kinds of RL algorithms are identified, followed by how they can be solved by RL solutions in diverse mobile applications. Finally, the open challenges are discussed to provide helpful guidance for future research in RL training and learning MEC.
翻訳日:2022-01-28 15:17:11 公開日:2022-01-27
# 最大平均差を用いた未知のポストチェンジカーネルを持つマルコフカーネルの変更検出

Change Detection of Markov Kernels with Unknown Post Change Kernel using Maximum Mean Discrepancy ( http://arxiv.org/abs/2201.11722v1 )

ライセンス: Link先を確認
Hao Chen, Jiacheng Tang, Abhishek Gupta(参考訳) 本稿では,ポストチェンジカーネルが未知な距離空間上でマルコフカーネルの変化を検出するための新しい変更検出アルゴリズムを開発する。 前および後のマルコフ核が幾何学的にエルゴード的であるという仮定の下で、平均遅延の上限と偽アラーム間の平均時間における下界を導出する。

In this paper, we develop a new change detection algorithm for detecting a change in the Markov kernel over a metric space in which the post-change kernel is unknown. Under the assumption that the pre- and post-change Markov kernel is geometrically ergodic, we derive an upper bound on the mean delay and a lower bound on the mean time between false alarms.
翻訳日:2022-01-28 15:16:29 公開日:2022-01-27
# (参考訳) 多目的進化アルゴリズムの探索軌跡ネットワーク

Search Trajectories Networks of Multiobjective Evolutionary Algorithms ( http://arxiv.org/abs/2201.11726v1 )

ライセンス: CC BY 4.0
Yuri Lavinas, Claus Aranha, Gabriela Ochoa(参考訳) 多目的進化アルゴリズム(MOEA)の探索力学を理解することは、まだ未解決の問題である。 本稿では,MOEAの動作をモデル化するために,最近のネットワークベースツールであるサーチトラジェクトリ・ネットワーク(STN)を拡張した。 本手法では,多重目的問題を複数の単一目的問題に変換する分解の考え方を用いる。 2 目的と 3 目的の連続ベンチマーク問題10 を用いて,多目的アルゴリズム moea/d と nsga-ii の探索行動のモデル化と識別に stn が有効であることを示した。 この結果から, アルゴリズム解析にSTNを用いてMOEAの理解を改善することが可能であることが示唆された。

Understanding the search dynamics of multiobjective evolutionary algorithms (MOEAs) is still an open problem. This paper extends a recent network-based tool, search trajectory networks (STNs), to model the behavior of MOEAs. Our approach uses the idea of decomposition, where a multiobjective problem is transformed into several single-objective problems. We show that STNs can be used to model and distinguish the search behavior of two popular multiobjective algorithms, MOEA/D and NSGA-II, using 10 continuous benchmark problems with 2 and 3 objectives. Our findings suggest that we can improve our understanding of MOEAs using STNs for algorithm analysis.
翻訳日:2022-01-28 15:12:00 公開日:2022-01-27
# CodeSearchNet Corpusを用いたコード検索のための深部意味モデル学習

Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus ( http://arxiv.org/abs/2201.11313v1 )

ライセンス: Link先を確認
Chen Wu and Ming Yan(参考訳) セマンティックコード検索は、自然言語クエリによって関連するコードスニペットを取得するタスクである。 典型的な情報検索タスクとは違って、コード検索は言語と自然言語のセマンティックなギャップを埋め、本質的な概念と意味論をよりよく記述する必要がある。 近年,コード検索のためのディープニューラルネットワークがホットな研究トピックとなっている。 ニューラルコード検索の典型的な方法は、まずコードスニペットとクエリテキストを別々の埋め込みとして表現し、次にベクトル距離(ドット製品やコサインなど)を使用してそれらの意味的類似度を計算する。 バイエンコーダ、クロスエンコーダ、ポリエンコーダなど、コードの可変長やクエリトークンを学習可能な埋め込みに集約する方法には、さまざまなものがある。 クエリエンコーダとコードエンコーダの目標は、関連するクエリペアと対応する所望のコードスニペットに対して互いに近接した埋め込みを生成し、エンコーダの選択と設計が非常に重要であることである。 本稿では,マルチモーダル音源の効用を利用するだけでなく,自己アテンション,集約ベクトル,中間表現の組み合わせといった特徴抽出器も活用した,新しい深層意味モデルを提案する。 提案したモデルを用いて,意味コード検索に関するCodeSearchNetの課題に取り組む。 マルチモーダル学習のための言語間埋め込みを,大規模バッチやハードサンプルマイニングと整合させ,異なる学習表現を組み合わせることで,表現学習の向上を図る。 我々のモデルはCodeSearchNetコーパスでトレーニングされ、保持データに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。 モデルとコードはhttps://github.com/overwindows/semanticcodesearch.gitで入手できる。

Semantic code search is the task of retrieving relevant code snippet given a natural language query. Different from typical information retrieval tasks, code search requires to bridge the semantic gap between the programming language and natural language, for better describing intrinsic concepts and semantics. Recently, deep neural network for code search has been a hot research topic. Typical methods for neural code search first represent the code snippet and query text as separate embeddings, and then use vector distance (e.g. dot-product or cosine) to calculate the semantic similarity between them. There exist many different ways for aggregating the variable length of code or query tokens into a learnable embedding, including bi-encoder, cross-encoder, and poly-encoder. The goal of the query encoder and code encoder is to produce embeddings that are close with each other for a related pair of query and the corresponding desired code snippet, in which the choice and design of encoder is very significant. In this paper, we propose a novel deep semantic model which makes use of the utilities of not only the multi-modal sources, but also feature extractors such as self-attention, the aggregated vectors, combination of the intermediate representations. We apply the proposed model to tackle the CodeSearchNet challenge about semantic code search. We align cross-lingual embedding for multi-modality learning with large batches and hard example mining, and combine different learned representations for better enhancing the representation learning. Our model is trained on CodeSearchNet corpus and evaluated on the held-out data, the final model achieves 0.384 NDCG and won the first place in this benchmark. Models and code are available at https://github.com/overwindows/SemanticCodeSearch.git.
翻訳日:2022-01-28 15:01:00 公開日:2022-01-27
# stock2vec:企業の予測モデルを改善する組込み

Stock2Vec: An Embedding to Improve Predictive Models for Companies ( http://arxiv.org/abs/2201.11290v1 )

ライセンス: Link先を確認
Ziruo Yi, Ting Xiao, Kaz-Onyeakazi Ijeoma, Ratnam Cheran, Yuvraj Baweja, Phillip Nelson(参考訳) 企業の予測モデルの構築は、しばしば同じ産業分野の企業の過去のデータを用いた推測に依存する。 しかし、企業は関連する予測問題で活用されるべきさまざまな次元にわたって類似している。 これは、単一の業界で十分に定義されておらず、明確な仲間を持たない、大規模で複雑な組織に特に当てはまる。 さまざまな次元にわたる企業情報を用いた予測を可能にするため、企業株の埋め込みであるStock2Vecを作成し、関連する価格の企業に適用可能な予測モデルを容易に追加できる。 株価変動からこの豊かなベクトル表現を作成する過程を説明し、その次元が何を表現しているかを特徴付ける。 そして、様々なビジネスコンテキストにおける応用機械学習問題へのこの埋め込みを評価するための総合的な実験を行う。 実験の結果,Stock2Vec埋め込みの4つの特徴は,既存のクロスコンパニオンモデルを容易に拡張し,クロスコンパニオン予測を強化できることが示されている。

Building predictive models for companies often relies on inference using historical data of companies in the same industry sector. However, companies are similar across a variety of dimensions that should be leveraged in relevant prediction problems. This is particularly true for large, complex organizations which may not be well defined by a single industry and have no clear peers. To enable prediction using company information across a variety of dimensions, we create an embedding of company stocks, Stock2Vec, which can be easily added to any prediction model that applies to companies with associated stock prices. We describe the process of creating this rich vector representation from stock price fluctuations, and characterize what the dimensions represent. We then conduct comprehensive experiments to evaluate this embedding in applied machine learning problems in various business contexts. Our experiment results demonstrate that the four features in the Stock2Vec embedding can readily augment existing cross-company models and enhance cross-company predictions.
翻訳日:2022-01-28 15:00:22 公開日:2022-01-27
# 動きから筋肉まで

From Motion to Muscle ( http://arxiv.org/abs/2201.11501v1 )

ライセンス: Link先を確認
Marie Dominique Schmidt, Tobias Glasmachers, Ioannis Iossifidis(参考訳) 随意運動は、運動皮質領域の上流運動計画から生じる筋活動の産物である。 筋活動は, 位置, 速度, 加速度などの運動特徴に基づいて人工的に生成できることを示す。 この目的のために,教師付き学習セッションでトレーニングされたリカレントニューラルネットワークに基づくアプローチを特に開発し,追加のニューラルネットワークアーキテクチャを検討・評価する。 パフォーマンスはゼロラインスコアと呼ばれる新しいスコアによって評価される。 後者は、筋活動の全体範囲を比較する全てのチャネルで生成された信号の損失関数を適応的に再スケールし、両方の信号の類似性を動的に評価する。 このモデルは、以前に訓練された動きに対して顕著な精度を達成し、これまで訓練されていなかった新しい動きに対して非常に高い精度を維持する。 さらに、これらのモデルは複数の被験者で訓練され、個人間で一般化することができる。 さらに,複数の対象に対して訓練を行った一般モデルと,対象別モデルと,その基礎として一般モデルを使用し,その後に特定の対象に適応した特定の事前学習モデルとを区別する。 筋活動の主題特異的な発生は、筋電義手と機能的電気刺激による神経筋疾患のリハビリテーションを改善するためにさらに使用できる。

Voluntary human motion is the product of muscle activity that results from upstream motion planning of the motor cortical areas. We show that muscle activity can be artificially generated based on motion features such as position, velocity, and acceleration. For this purpose, we specifically develop an approach based on recurrent neural network that is trained in a supervised learning session; additional neural network architectures are considered and evaluated. The performance is evaluated by a new score called the zero-line score. The latter adaptively rescales the loss function of the generated signal for all channels comparing the overall range of muscle activity and thus dynamically evaluates similarities between both signals. The model achieves remarkable precision for previously trained movements and maintains significantly high precision for new movements that have not been previously trained. Further, these models are trained on multiple subjects and thus are able to generalize across individuals. In addition, we distinguish between a general model that has been trained on several subjects, a subject-specific model, and a specific pre-trained model that uses the general model as a basis and is adapted to a specific subject afterward. The subject-specific generation of muscle activity can be further used to improve the rehabilitation of neuromuscular diseases with myoelectric prostheses and functional electric stimulation.
翻訳日:2022-01-28 15:00:05 公開日:2022-01-27
# FairMod: グラフ修正によるリンク予測と推奨

FairMod: Fair Link Prediction and Recommendation via Graph Modification ( http://arxiv.org/abs/2201.11596v1 )

ライセンス: Link先を確認
Sean Current, Yuntian He, Saket Gurukar, Srinivasan Parthasarathy(参考訳) 機械学習がドメインにまたがって広く採用されるようになるにつれて、研究者やMLエンジニアは、モデルによって永続される可能性のあるデータ固有のバイアスについて考えることが重要である。 近年,入力グラフにバイアスがある場合,グラフニューラルネットワーク(GNN)モデルにもそのようなバイアスが組み込まれていることが多くの研究で示されている。 本研究では,GNNが学習したバイアスを,入力グラフの変更によって緩和することを目的とする。 そこで本研究では,グローバルフェアネス最適化(gfo),コミュニティフェアネス最適化(cfo),フェアエッジ重みモデル(few)の3つの定式化を持つ,公正グラフ修正手法であるfairmodを提案する。 提案するモデルでは,GNNのトレーニング中にGNNの微視的あるいはマクロ的な編集を行い,リンクレコメンデーションのコンテキスト下で正確かつ公平なノード埋め込みを学習する。 提案手法の有効性を実世界の4つのデータセットに示すとともに,予測精度をリンクするために,いくつかの要因で推奨公正性を向上できることを示す。

As machine learning becomes more widely adopted across domains, it is critical that researchers and ML engineers think about the inherent biases in the data that may be perpetuated by the model. Recently, many studies have shown that such biases are also imbibed in Graph Neural Network (GNN) models if the input graph is biased. In this work, we aim to mitigate the bias learned by GNNs through modifying the input graph. To that end, we propose FairMod, a Fair Graph Modification methodology with three formulations: the Global Fairness Optimization (GFO), Community Fairness Optimization (CFO), and Fair Edge Weighting (FEW) models. Our proposed models perform either microscopic or macroscopic edits to the input graph while training GNNs and learn node embeddings that are both accurate and fair under the context of link recommendations. We demonstrate the effectiveness of our approach on four real world datasets and show that we can improve the recommendation fairness by several factors at negligible cost to link prediction accuracy.
翻訳日:2022-01-28 14:59:47 公開日:2022-01-27
# 多変量時系列分類のためのロバスト拡張

Robust Augmentation for Multivariate Time Series Classification ( http://arxiv.org/abs/2201.11739v1 )

ライセンス: Link先を確認
Hong Yang, Travis Desell(参考訳) ニューラルネットワークはデータの強力な表現を学習することができるが、パラメータの数によって過剰に適合する可能性がある。 これは、データセットが100以上のトレーニング例を含む可能性がある時系列分類の領域で特に難しい。 本稿では,カットアウト,カットミックス,ミックスアップ,ウィンドウワープの簡便な手法により,時系列分類のための畳み込み,再帰,自己保持に基づくアーキテクチャを統計的に有意な方法で向上させることを示す。 本手法は,東アングリア大学多変量時系列分類(uea mtsc)アーカイブの26のデータセット上で評価し,様々な時系列データに対してどのように機能するかを分析した。 . 拡張を伴うインセプションタイムネットワークは、18の異なるデータセットにおいて、拡張なしでの精度を1%から45%向上させる。 また,再帰性および自己注意性に基づくアーキテクチャの精度向上を図っている。

Neural networks are capable of learning powerful representations of data, but they are susceptible to overfitting due to the number of parameters. This is particularly challenging in the domain of time series classification, where datasets may contain fewer than 100 training examples. In this paper, we show that the simple methods of cutout, cutmix, mixup, and window warp improve the robustness and overall performance in a statistically significant way for convolutional, recurrent, and self-attention based architectures for time series classification. We evaluate these methods on 26 datasets from the University of East Anglia Multivariate Time Series Classification (UEA MTSC) archive and analyze how these methods perform on different types of time series data.. We show that the InceptionTime network with augmentation improves accuracy by 1% to 45% in 18 different datasets compared to without augmentation. We also show that augmentation improves accuracy for recurrent and self attention based architectures.
翻訳日:2022-01-28 14:59:28 公開日:2022-01-27
# サイン付きソーシャルグラフによるスタンス埋め込みの学習

Learning Stance Embeddings from Signed Social Graphs ( http://arxiv.org/abs/2201.11675v1 )

ライセンス: Link先を確認
John Pougu\'e-Biyong, Akshay Gupta, Aria Haghighi, Ahmed El-Kishky(参考訳) ソーシャルネットワーク分析における重要な課題は、大量のトピックについて、グラフ内の人々の位置や姿勢を理解することである。 過去の研究は、署名付きグラフを用いたソーシャルネットワークにおける(非)理解をモデル化してきたが、これらのアプローチは、さまざまな関連トピックにわたる合意パターンをモデル化していない。 例えば、あるトピックに対する意見の相違は、関連するトピックに対する意見の相違(あるいは合意)をより高める可能性がある。 本研究では,各トピックごとに異なるエッジ型を持つサイン付きソーシャルグラフにおいて,各ユーザとトピックの埋め込みを共同で学習するStance Embeddings Model(SEM)を提案する。 ユーザとトピックの埋め込みを共同で学習することにより、SEMはコールドスタートトピックスタンス検出を行い、ユーザのエンゲージメントを観察していないトピックに対するスタンスを予測できる。 オープンソース化した2つの大規模Twitter署名グラフデータセットを用いて,SEMの有効性を示す。 ひとつのデータセット、twittersg、ラベル(dis)は、ツイートを通じてユーザー間のエンゲージメントを利用して、トピックのない署名されたエッジを導出する。 もう1つ、BirdwatchSGは、誤情報や誤解を招くコンテンツに関するコミュニティレポートを活用している。 TwitterSGとBirdwatchSGでは、SEMは強いベースラインに対してそれぞれ39%と26%のエラー削減を示している。

A key challenge in social network analysis is understanding the position, or stance, of people in the graph on a large set of topics. While past work has modeled (dis)agreement in social networks using signed graphs, these approaches have not modeled agreement patterns across a range of correlated topics. For instance, disagreement on one topic may make disagreement(or agreement) more likely for related topics. We propose the Stance Embeddings Model(SEM), which jointly learns embeddings for each user and topic in signed social graphs with distinct edge types for each topic. By jointly learning user and topic embeddings, SEM is able to perform cold-start topic stance detection, predicting the stance of a user on topics for which we have not observed their engagement. We demonstrate the effectiveness of SEM using two large-scale Twitter signed graph datasets we open-source. One dataset, TwitterSG, labels (dis)agreements using engagements between users via tweets to derive topic-informed, signed edges. The other, BirdwatchSG, leverages community reports on misinformation and misleading content. On TwitterSG and BirdwatchSG, SEM shows a 39% and 26% error reduction respectively against strong baselines.
翻訳日:2022-01-28 14:57:35 公開日:2022-01-27
# HistoKT:計算病理学におけるクロス知識伝達

HistoKT: Cross Knowledge Transfer in Computational Pathology ( http://arxiv.org/abs/2201.11246v1 )

ライセンス: Link先を確認
Ryan Zhang and Jiadai Zhu and Stephen Yang and Mahdi S. Hosseini and Angelo Genovese and Lina Chen and Corwyn Rowsell and Savvas Damaskinos and Sonal Varma and Konstantinos N. Plataniotis(参考訳) 計算病理学(cpath)における注釈付きデータセットの欠如は、医学画像の分類にディープラーニング技術を適用することを妨げている。 病理医の時間は高価であるため,データセットのキュレーションは本質的に困難である。 多くのcpathワークフローは、転送学習を通じて様々な画像ドメイン間で学習知識を転送する。 現在、ほとんどの転送学習研究はモデル中心のアプローチに従っており、ネットワークパラメータをチューニングして、少数のデータセットで転送結果を改善する。 本稿では,移動学習問題に対するデータ中心のアプローチと,組織学的データセット間の一般化可能な知識の存在について検討する。 まず,既存の病理組織データを集約するための標準化ワークフローを作成する。 次に,resnet18モデルを複数の病理組織学的データセットにまたがってトレーニングし,それらの間を相互に伝達することにより,固有知識の量と品質を決定する。 さらに,重量蒸留を用いてモデル間の知識を付加訓練なしで共有する。 また、imagenetのような大きなソースドメインを組み込んだ2段階の学習フレームワークによって、より小さなデータセットをより有効活用することができます。 さらに, 重み蒸留により, 純粋に病理組織学的特徴を訓練したモデルが, 外部自然画像データを用いたモデルよりも優れていることがわかった。

The lack of well-annotated datasets in computational pathology (CPath) obstructs the application of deep learning techniques for classifying medical images. %Since pathologist time is expensive, dataset curation is intrinsically difficult. Many CPath workflows involve transferring learned knowledge between various image domains through transfer learning. Currently, most transfer learning research follows a model-centric approach, tuning network parameters to improve transfer results over few datasets. In this paper, we take a data-centric approach to the transfer learning problem and examine the existence of generalizable knowledge between histopathological datasets. First, we create a standardization workflow for aggregating existing histopathological data. We then measure inter-domain knowledge by training ResNet18 models across multiple histopathological datasets, and cross-transferring between them to determine the quantity and quality of innate shared knowledge. Additionally, we use weight distillation to share knowledge between models without additional training. We find that hard to learn, multi-class datasets benefit most from pretraining, and a two stage learning framework incorporating a large source domain such as ImageNet allows for better utilization of smaller datasets. Furthermore, we find that weight distillation enables models trained on purely histopathological features to outperform models using external natural image data.
翻訳日:2022-01-28 14:56:13 公開日:2022-01-27
# (参考訳) DRE-CUSUMを用いた教師なし変更検出

Unsupervised Change Detection using DRE-CUSUM ( http://arxiv.org/abs/2201.11678v1 )

ライセンス: CC BY 4.0
Sudarshan Adiga, Ravi Tandon(参考訳) 本稿では,DRE-CUSUMについて述べる。DRE-CUSUMは教師なし密度比推定(DRE)に基づく手法で,事前および後変化分布の知識がない場合に時系列データの統計的変化を決定する。 提案手法の背後にある基本的な考え方は、時系列を任意の点で分割し、分割点の前後の分布密度(ニューラルネットワークのようなパラメトリックモデルを用いて)の比率を推定することである。 DRE-CUSUM変化検出統計は、推定密度比の対数の累積和(CUSUM)から導出される。 理論的な正当化と精度保証を提示し,提案する統計学は,分割点によらず,統計的変化を確実に検出できることを示す。 変更検出に密度比に基づく方法を使用するという以前の取り組みは、我々の知る限りでは最善だが、理論的正当性と正確性を保証する最初の教師なし変更検出アプローチである。 提案手法の単純さにより,様々な実践的状況(高次元時系列データを含む)に容易に適用でき,オンライン変更検出の一般化についても論じる。 我々は,既存の非教師付きアルゴリズム(ベイジアンオンライン変化検出,変種,その他のヒューリスティック手法など)に対して,合成データセットと実世界のデータセットの両方を用いて,DRE-CUSUMの優位性を実験的に示す。

This paper presents DRE-CUSUM, an unsupervised density-ratio estimation (DRE) based approach to determine statistical changes in time-series data when no knowledge of the pre-and post-change distributions are available. The core idea behind the proposed approach is to split the time-series at an arbitrary point and estimate the ratio of densities of distribution (using a parametric model such as a neural network) before and after the split point. The DRE-CUSUM change detection statistic is then derived from the cumulative sum (CUSUM) of the logarithm of the estimated density ratio. We present a theoretical justification as well as accuracy guarantees which show that the proposed statistic can reliably detect statistical changes, irrespective of the split point. While there have been prior works on using density ratio based methods for change detection, to the best of our knowledge, this is the first unsupervised change detection approach with a theoretical justification and accuracy guarantees. The simplicity of the proposed framework makes it readily applicable in various practical settings (including high-dimensional time-series data); we also discuss generalizations for online change detection. We experimentally show the superiority of DRE-CUSUM using both synthetic and real-world datasets over existing state-of-the-art unsupervised algorithms (such as Bayesian online change detection, its variants as well as several other heuristic methods).
翻訳日:2022-01-28 14:54:39 公開日:2022-01-27
# 特徴量に基づく動的価格設定をめざす:未知雑音による線形ポリシーと線形評価

Towards Agnostic Feature-based Dynamic Pricing: Linear Policies vs Linear Valuation with Unknown Noise ( http://arxiv.org/abs/2201.11341v1 )

ライセンス: Link先を確認
Jianyu Xu and Yu-Xiang Wang(参考訳) 機能ベースの動的価格設定では、売り手は、以前の販売セッションのバイナリ結果から学び、(特徴ベクトルによって説明される)一連の製品に対して適切な価格を設定する(“Sold” if valuation $\geq$ price, “Not Sold” など)。 既存の研究はノイズのない線形評価を仮定するか、正確には既知のノイズ分布を仮定している。 本研究では,2つの非依存モデルについて検討する。 (a)データを前提にすることなく、最良の線形価格政策と競合することを目的とした「線形ポリシー」問題 (b)無作為なバリュエーションが線形であり、未知で仮定のないノイズである「線形ノイズバリュエーション」問題。 前者のモデルでは、対数因子に対して$\tilde{\theta}(d^{\frac13}t^{\frac23})$ minimaxの後悔を示す。 後者のモデルでは、$\tilde{O}(T^{\frac34})を後悔し、最もよく知られた下限を$\Omega(T^{\frac35})$から$\tilde{\Omega}(T^{\frac23})$に改善するアルゴリズムを提案する。 これらの結果から,弱い仮定下では,機能ベースの動的価格設定ではリグレット学習は不可能であるが,後悔の軽減におけるバンディットフィードバックに比べて,一見リッチな価格フィードバックはそれほど有用ではないという残念な事実が明らかになった。

In feature-based dynamic pricing, a seller sets appropriate prices for a sequence of products (described by feature vectors) on the fly by learning from the binary outcomes of previous sales sessions ("Sold" if valuation $\geq$ price, and "Not Sold" otherwise). Existing works either assume noiseless linear valuation or precisely-known noise distribution, which limits the applicability of those algorithms in practice when these assumptions are hard to verify. In this work, we study two more agnostic models: (a) a "linear policy" problem where we aim at competing with the best linear pricing policy while making no assumptions on the data, and (b) a "linear noisy valuation" problem where the random valuation is linear plus an unknown and assumption-free noise. For the former model, we show a $\tilde{\Theta}(d^{\frac13}T^{\frac23})$ minimax regret up to logarithmic factors. For the latter model, we present an algorithm that achieves an $\tilde{O}(T^{\frac34})$ regret, and improve the best-known lower bound from $\Omega(T^{\frac35})$ to $\tilde{\Omega}(T^{\frac23})$. These results demonstrate that no-regret learning is possible for feature-based dynamic pricing under weak assumptions, but also reveal a disappointing fact that the seemingly richer pricing feedback is not significantly more useful than the bandit-feedback in regret reduction.
翻訳日:2022-01-28 14:46:48 公開日:2022-01-27
# 非カルト的k空間軌跡と再構成ネットワークのベンチマーク学習

Benchmarking learned non-Cartesian k-space trajectories and reconstruction networks ( http://arxiv.org/abs/2201.11356v1 )

ライセンス: Link先を確認
Chaithya G R (NEUROSPIN, PARIETAL), Philippe Ciuciu (NEUROSPIN, PARIETAL)(参考訳) 本稿では,非カルテ的k空間軌道と再構成を共同で学習するための既存の手法であるpilot,bjorkをベンチマークし,最近開発されたhyblearn(generalized hybrid learning)フレームワークから得られたものと比較する。 本稿では,MRスキャナのハードウェア制約を,コスト関数に付加的なペナルティを使用する場合と比較して,予測勾配勾配を用いた場合の利点を示す。 さらに,このhyblearnスキームを用いてfastmriバリデーションデータセットのふりかえり調査を行い,結果の学習と比較を行った。

We benchmark the current existing methods to jointly learn non-Cartesian k-space trajectory and reconstruction: PILOT, BJORK, and compare them with those obtained from the recently developed generalized hybrid learning (HybLearn) framework. We present the advantages of using projected gradient descent to enforce MR scanner hardware constraints as compared to using added penalties in the cost function. Further, we use the novel HybLearn scheme to jointly learn and compare our results through a retrospective study on fastMRI validation dataset.
翻訳日:2022-01-28 14:46:18 公開日:2022-01-27
# 保護カテゴリー属性の符号化の公平性

Fairness implications of encoding protected categorical attributes ( http://arxiv.org/abs/2201.11358v1 )

ライセンス: Link先を確認
Carlos Mougan, Jose M. Alvarez, Gourab K Patro, Salvatore Ruggieri, Steffen Staab(参考訳) 保護された属性は、機械学習アルゴリズムに与える前にエンコードする必要があるカテゴリの特徴として提示されることが多い。 これらの属性をエンコーディングすることは、アルゴリズムがデータから学ぶ方法を決定する上で最重要である。 分類学的特徴エンコーディングは、モデルの性能と公平性に直接影響を与える。 本研究では、最もよく知られたエンコーダであるワンホットエンコーディングとターゲットエンコーダの精度と公平性を比較検討する。 これらの符号化を用いて生じる2種類の誘導バイアスを区別し、不公平なモデルに導く。 第1の型である既約バイアスは、直接群分類によるものであり、第2の型である既約バイアスは、より統計的に表現されたグループにおいて大きなばらつきによるものである。 対象符号化の正規化手法が,分類学的特徴を符号化しながら誘導バイアスを改善する方法について,より深く検討する。 さらに、2つの保護されたカテゴリー的特徴を混合して高い濃度に導く際に生じる交叉フェアネスの問題に取り組む。 このプラクティスは,モデルのパフォーマンス向上に使用される強力な機能エンジニアリングテクニックである。 両種類の誘導バイアスを増大させるため, 公平性に対する影響について検討する。

Protected attributes are often presented as categorical features that need to be encoded before feeding them into a machine learning algorithm. Encoding these attributes is paramount as they determine the way the algorithm will learn from the data. Categorical feature encoding has a direct impact on the model performance and fairness. In this work, we compare the accuracy and fairness implications of the two most well-known encoders: one-hot encoding and target encoding. We distinguish between two types of induced bias that can arise while using these encodings and can lead to unfair models. The first type, irreducible bias, is due to direct group category discrimination and a second type, reducible bias, is due to large variance in less statistically represented groups. We take a deeper look into how regularization methods for target encoding can improve the induced bias while encoding categorical features. Furthermore, we tackle the problem of intersectional fairness that arises when mixing two protected categorical features leading to higher cardinality. This practice is a powerful feature engineering technique used for boosting model performance. We study its implications on fairness as it can increase both types of induced bias
翻訳日:2022-01-28 14:46:07 公開日:2022-01-27
# 高次元問題に対する高速進行自然進化戦略

Fast Moving Natural Evolution Strategy for High-Dimensional Problems ( http://arxiv.org/abs/2201.11422v1 )

ライセンス: Link先を確認
Masahiro Nomura, Isao Ono(参考訳) 本研究では,高次元ブラックボックス最適化問題に対する自然進化戦略(NES)の新たな変種を提案する。 提案手法であるcr-fm-nesは,最近提案された最先端のnes,高速移動型自然進化戦略(fm-nes)を拡張し,高次元問題に適用する。 CR-FM-NESは、FM-NESの効率を継承しながら、完全な共分散行列ではなく、共分散行列の制限された表現を用いたアイデアに基づいている。 共分散行列の制限された表現により、CR-FM-NESは線形時間と空間の複雑さの多変量正規分布のパラメータを更新することができる。 実験結果から, CR-FM-NESはFM-NESの効率を損なわないことが明らかとなった。 さらに,200,600,1000次元のベンチマーク問題を用いた数値実験により,CR-FM-NESは拡張性のあるベースライン法,VD-CMA,Sep-CMAに対して有効であることが示された。

In this work, we propose a new variant of natural evolution strategies (NES) for high-dimensional black-box optimization problems. The proposed method, CR-FM-NES, extends a recently proposed state-of-the-art NES, Fast Moving Natural Evolution Strategy (FM-NES), in order to be applicable in high-dimensional problems. CR-FM-NES builds on an idea using a restricted representation of a covariance matrix instead of using a full covariance matrix, while inheriting an efficiency of FM-NES. The restricted representation of the covariance matrix enables CR-FM-NES to update parameters of a multivariate normal distribution in linear time and space complexity, which can be applied to high-dimensional problems. Our experimental results reveal that CR-FM-NES does not lose the efficiency of FM-NES, and on the contrary, CR-FM-NES has achieved significant speedup compared to FM-NES on some benchmark problems. Furthermore, our numerical experiments using 200, 600, and 1000-dimensional benchmark problems demonstrate that CR-FM-NES is effective over scalable baseline methods, VD-CMA and Sep-CMA.
翻訳日:2022-01-28 14:45:49 公開日:2022-01-27
# リカレントニューラルネットワークを用いたホログラフィック画像再構成のためのマイナショット転送学習

Few-shot Transfer Learning for Holographic Image Reconstruction using a Recurrent Neural Network ( http://arxiv.org/abs/2201.11333v1 )

ライセンス: Link先を確認
Luzhe Huang, Xilin Yang, Tairan Liu, Aydogan Ozcan(参考訳) 深層学習に基づく計算顕微鏡の手法は強力であることが示されているが、一般には、新しいタイプのサンプルと大規模で多様な訓練データに対する要求への一般化が限られているため、いくつかの課題に直面している。 本稿では,ホログラフィック画像再構成の深層ニューラルネットワークが,小規模データセットを用いて新たなタイプのサンプルに迅速に一般化することを支援する,数ショット転送学習手法を示す。 バックボーンモデルとして機能する多種多様なサンプルを持つ大規模データセット上で,畳み込みリカレントニューラルネットワークを事前訓練した。 リカレントブロックを修正して、事前学習されたモデルの畳み込みブロックの残りを転送することで、トレーニング可能なパラメータの数を標準転送学習と比較して90%程度削減し、同等の一般化を達成する。 訓練用小型ホログラフデータセットを用いて新しいタイプのサンプルに最適化し,本手法の有効性を検証し,その有効性を確認した。 (i)約2.5倍収束速度加速 (二)エポック当たりの計算時間の20%削減、及び (iii)スクラッチからトレーニングしたベースラインネットワークモデルに対する再構成性能の向上。 この数発の転送学習アプローチは、他の顕微鏡イメージング手法にも適用可能であり、広範囲のトレーニング時間とデータを必要としない新しいタイプのサンプルへの一般化に役立つ。

Deep learning-based methods in computational microscopy have been shown to be powerful but in general face some challenges due to limited generalization to new types of samples and requirements for large and diverse training data. Here, we demonstrate a few-shot transfer learning method that helps a holographic image reconstruction deep neural network rapidly generalize to new types of samples using small datasets. We pre-trained a convolutional recurrent neural network on a large dataset with diverse types of samples, which serves as the backbone model. By fixing the recurrent blocks and transferring the rest of the convolutional blocks of the pre-trained model, we reduced the number of trainable parameters by ~90% compared with standard transfer learning, while achieving equivalent generalization. We validated the effectiveness of this approach by successfully generalizing to new types of samples using small holographic datasets for training, and achieved (i) ~2.5-fold convergence speed acceleration, (ii) ~20% computation time reduction per epoch, and (iii) improved reconstruction performance over baseline network models trained from scratch. This few-shot transfer learning approach can potentially be applied in other microscopic imaging methods, helping to generalize to new types of samples without the need for extensive training time and data.
翻訳日:2022-01-28 14:45:27 公開日:2022-01-27
# ディープリーフネットワークの量子データを用いた圧縮映像のマルチフレーム品質向上

Multi-Frame Quality Enhancement On Compressed Video Using Quantised Data of Deep Belief Networks ( http://arxiv.org/abs/2201.11389v1 )

ライセンス: Link先を確認
Dionne Takudzwa Chasi, Mkhuseli Ngxande(参考訳) ストリーミングと監視の時代に圧縮ビデオの強化は、常に改善を必要とする問題となっている。 本稿では,マルチフレーム品質向上手法の改善方法について検討する。 このアプローチは、この領域で最高品質のフレームを使用することで、その領域で低品質のフレームを改善できる。 このアプローチは、深い信念ネットワークを使ってビデオから定量化されたデータを取得することで成り立っている。 量子化されたデータは、圧縮されたビデオを改善するためにMF-CNNアーキテクチャに入力される。 さらに,ピーク品質フレームの検出にBi-LSTMを用いることによる影響について検討する。 提案手法は,PQF検出にSVMを用いるMFQEの最初の手法よりも優れた結果が得られる。 一方、我々のMFQEアプローチは、PQF検出にBi-LSTMを使用するMQFEアプローチの最新バージョンを上回るものではない。

In the age of streaming and surveillance compressed video enhancement has become a problem in need of constant improvement. Here, we investigate a way of improving the Multi-Frame Quality Enhancement approach. This approach consists of making use of the frames that have the peak quality in the region to improve those that have a lower quality in that region. This approach consists of obtaining quantized data from the videos using a deep belief network. The quantized data is then fed into the MF-CNN architecture to improve the compressed video. We further investigate the impact of using a Bi-LSTM for detecting the peak quality frames. Our approach obtains better results than the first approach of the MFQE which uses an SVM for PQF detection. On the other hand, our MFQE approach does not outperform the latest version of the MQFE approach that uses a Bi-LSTM for PQF detection.
翻訳日:2022-01-28 14:45:07 公開日:2022-01-27
# 北朝鮮を韓国に翻訳する方法を学ぶ

Learning How to Translate North Korean through South Korean ( http://arxiv.org/abs/2201.11258v1 )

ライセンス: Link先を確認
Hwichan Kim, Sangwhan Moon, Naoaki Okazaki, and Mamoru Komachi(参考訳) 韓国と北朝鮮はどちらも韓国語を使用している。 しかし、韓国のNLP研究は韓国のみに焦点を当てており、ニューラルマシン翻訳(NMT)モデルのような既存の韓国語のNLPシステムは北朝鮮の入力を適切に扱えない。 北朝鮮のデータを用いたモデルのトレーニングは、この問題を解決するための最も簡単なアプローチであるが、NTTモデルのトレーニングには不十分なデータがある。 本研究では,北朝鮮のNMTモデルに対して,同等のコーパスを用いてデータを作成する。 まず,自動アライメントと機械翻訳のための評価データを作成する。 次に,北朝鮮に適した自動アライメント手法について検討する。 最後に,人間のアノテーションを持たない北朝鮮のバイリンガルデータによって訓練されたモデルが,ゼロショット設定の既存の韓国モデルと比較して,北朝鮮の翻訳精度を著しく向上させることができることを検証した。

South and North Korea both use the Korean language. However, Korean NLP research has focused on South Korean only, and existing NLP systems of the Korean language, such as neural machine translation (NMT) models, cannot properly handle North Korean inputs. Training a model using North Korean data is the most straightforward approach to solving this problem, but there is insufficient data to train NMT models. In this study, we create data for North Korean NMT models using a comparable corpus. First, we manually create evaluation data for automatic alignment and machine translation. Then, we investigate automatic alignment methods suitable for North Korean. Finally, we verify that a model trained by North Korean bilingual data without human annotation can significantly boost North Korean translation accuracy compared to existing South Korean models in zero-shot settings.
翻訳日:2022-01-28 14:42:16 公開日:2022-01-27
# 高階セマンティクス依存構文解析器

A Higher-Order Semantic Dependency Parser ( http://arxiv.org/abs/2201.11312v1 )

ライセンス: Link先を確認
Bin Li, Yunlong Fan, Yikemaiti Sataer, Zhiqiang Gao(参考訳) 高次機能は意味依存構文解析においてかなりの精度向上をもたらす。 しかし、正確な推論による高次特徴のモデリングはnp困難である。 グラフニューラルネットワーク(GNN)は、多くのグラフ学習タスクにおいて近似推論を用いてNPハード問題を解く効果的なツールであることが示されている。 GNNの成功に触発されて、GNNを適用して高階のセマンティック依存パーサを構築する。 中間解析グラフから高次機能を明示的に抽出する代わりに、複数のGNN層を積み重ねることで、高次情報を簡潔に集約する。 実験の結果,SemEval 2015 Task 18 の英語データセットでは,従来の最先端パーサよりも優れていた。

Higher-order features bring significant accuracy gains in semantic dependency parsing. However, modeling higher-order features with exact inference is NP-hard. Graph neural networks (GNNs) have been demonstrated to be an effective tool for solving NP-hard problems with approximate inference in many graph learning tasks. Inspired by the success of GNNs, we investigate building a higher-order semantic dependency parser by applying GNNs. Instead of explicitly extracting higher-order features from intermediate parsing graphs, GNNs aggregate higher-order information concisely by stacking multiple GNN layers. Experimental results show that our model outperforms the previous state-of-the-art parser on the SemEval 2015 Task 18 English datasets.
翻訳日:2022-01-28 14:42:04 公開日:2022-01-27
# 数発学習のためのオントロジエンハンスド・プロンプト・チューニング

Ontology-enhanced Prompt-tuning for Few-shot Learning ( http://arxiv.org/abs/2201.11332v1 )

ライセンス: Link先を確認
Hongbin Ye, Ningyu Zhang, Shumin Deng, Xiang Chen, Hui Chen, Feiyu Xiong, Xi Chen, Huajun Chen(参考訳) FSL(Few-shot Learning)は、限られたサンプル数に基づいて予測を行うことを目的としている。 知識グラフやオントロジーライブラリなどの構造化データは、様々なタスクにおける数ショット設定の恩恵を受けるために利用されてきた。 しかし,従来の手法では,知識の欠如,知識ノイズ,知識の不均一性といった難易度に悩まされ,数発の学習性能が損なわれている。 本研究では,事前学習型言語モデルを用いたFSLの知識注入について検討し,オントロジー強化型プロンプトチューニング(OntoPrompt)を提案する。 具体的には,構造知識をテキストに変換する知識不足問題に対処するために,外部知識グラフに基づくオントロジ変換を開発する。 さらに,可視マトリクスを用いたスパンセンシティブな知識インジェクションを導入することで,知識ノイズに対処するための情報的知識を選択する。 知識とテキストのギャップを埋めるため,共同で表現を最適化する集合学習アルゴリズムを提案する。 提案手法は8つのデータセットを用いた関係抽出,イベント抽出,知識グラフ補完の3つのタスクで評価した。 実験結果から,本手法はベースラインよりも精度が良いことを示す。

Few-shot Learning (FSL) is aimed to make predictions based on a limited number of samples. Structured data such as knowledge graphs and ontology libraries has been leveraged to benefit the few-shot setting in various tasks. However, the priors adopted by the existing methods suffer from challenging knowledge missing, knowledge noise, and knowledge heterogeneity, which hinder the performance for few-shot learning. In this study, we explore knowledge injection for FSL with pre-trained language models and propose ontology-enhanced prompt-tuning (OntoPrompt). Specifically, we develop the ontology transformation based on the external knowledge graph to address the knowledge missing issue, which fulfills and converts structure knowledge to text. We further introduce span-sensitive knowledge injection via a visible matrix to select informative knowledge to handle the knowledge noise issue. To bridge the gap between knowledge and text, we propose a collective training algorithm to optimize representations jointly. We evaluate our proposed OntoPrompt in three tasks, including relation extraction, event extraction, and knowledge graph completion, with eight datasets. Experimental results demonstrate that our approach can obtain better few-shot performance than baselines.
翻訳日:2022-01-28 14:41:53 公開日:2022-01-27
# Pan More Gold from the Sand: Refining Open Domain Dialogue Training with Noisy Self-Rerieval Generation

Pan More Gold from the Sand: Refining Open-domain Dialogue Training with Noisy Self-Retrieval Generation ( http://arxiv.org/abs/2201.11367v1 )

ライセンス: Link先を確認
Yihe Wang, Yitong Li, Yasheng Wang, Fei Mi, Pingyi Zhou, Xin Wang, Jin Liu, Qun Liu, Xin Jiang(参考訳) 実際の人間の会話データは複雑で異種でノイズが多いため、オープンドメインの対話システムを構築することは難しい課題である。 事実、そのような対話データは豊富な情報や知識を含んでいるが、完全には調査されていない。 本稿では,コンテキスト応答データと因果的あるいは符号化復号型言語モデルとを記憶することにより,既存のオープンドメイン対話生成手法を提案する。 外部知識を用いて,異種・雑音の訓練データを「証拠」として直接検討することにより,学習データの利用量を増加させる検索世代トレーニングフレームワークを探索する。 公開されているデータセットに対する実験は、我々の手法がモデルがより良いレスポンスを生成するのに役立つことを示した。 このようなパフォーマンス向上は、トレーニングセットを拡大することで改善されたものと同等です。 また, モデル性能は, 得られた証拠の関連性に正の相関が認められた。 さらに,本手法は実世界のデータに対してより堅牢であることを示すゼロショット実験で良好に動作した。

Real human conversation data are complicated, heterogeneous, and noisy, from whom building open-domain dialogue systems remains a challenging task. In fact, such dialogue data can still contain a wealth of information and knowledge, however, they are not fully explored. In this paper, we show existing open-domain dialogue generation methods by memorizing context-response paired data with causal or encode-decode language models underutilize the training data. Different from current approaches, using external knowledge, we explore a retrieval-generation training framework that can increase the usage of training data by directly considering the heterogeneous and noisy training data as the "evidence". Experiments over publicly available datasets demonstrate that our method can help models generate better responses, even such training data are usually impressed as low-quality data. Such performance gain is comparable with those improved by enlarging the training set, even better. We also found that the model performance has a positive correlation with the relevance of the retrieved evidence. Moreover, our method performed well on zero-shot experiments, which indicates that our method can be more robust to real-world data.
翻訳日:2022-01-28 14:41:32 公開日:2022-01-27
# 行動概念を用いたAI説明手法の診断

Diagnosing AI Explanation Methods with Folk Concepts of Behavior ( http://arxiv.org/abs/2201.11239v1 )

ライセンス: Link先を確認
Alon Jacovi, Jasmijn Bastings, Sebastian Gehrmann, Yoav Goldberg, Katja Filippova(参考訳) 人間にAIの振る舞いを説明するとき、コミュニケーションされた情報は人間の説明者にどのように解釈されるのか。 説明が何かを説明するといつ言えるだろうか。 我々は,人間が行動を理解するために使用する民意概念について,心文学の理論を活用することで,回答を提供することを目指している。 我々は、人間の説明者による社会的帰属の枠組みを確立し、人間の理解する具体的な情報である説明の機能を記述する。 具体的には、効果的な説明はコヒーレント(他のコントラストケースに一般化するコミュニケーション情報)、完全(明示的なコントラストケース、客観的原因、主観的原因)、インタラクティブ(反復を通して一般化特性に対する矛盾を表面化し解決する)である。 我々は,多くのXAI機構を民生的な行動概念にマッピングできることを実証した。 これにより、現在のメソッドが効果的に説明できないような障害モードと、一貫性のある説明を可能にするために必要なものを明らかにすることができます。

When explaining AI behavior to humans, how is the communicated information being comprehended by the human explainee, and does it match what the explanation attempted to communicate? When can we say that an explanation is explaining something? We aim to provide an answer by leveraging theory of mind literature about the folk concepts that humans use to understand behavior. We establish a framework of social attribution by the human explainee, which describes the function of explanations: the concrete information that humans comprehend from them. Specifically, effective explanations should be coherent (communicate information which generalizes to other contrast cases), complete (communicating an explicit contrast case, objective causes, and subjective causes), and interactive (surfacing and resolving contradictions to the generalization property through iterations). We demonstrate that many XAI mechanisms can be mapped to folk concepts of behavior. This allows us to uncover their modes of failure that prevent current methods from explaining effectively, and what is necessary to enable coherent explanations.
翻訳日:2022-01-28 14:40:27 公開日:2022-01-27
# DecisionHoldem:不完全な情報ゲームのためのディバイスポンジェントによる安全な深さ制限問題解決

DecisionHoldem: Safe Depth-Limited Solving With Diverse Opponents for Imperfect-Information Games ( http://arxiv.org/abs/2201.11580v1 )

ライセンス: Link先を確認
Qibin Zhou, Dongdong Bai, Junge Zhang, Fuqing Duan, Kaiqi Huang(参考訳) 不完全情報ゲームは、非対称情報を持つゲームの一種である。 人生では完全情報ゲームよりも一般的である。 ポーカーのような不完全な情報ゲームにおける人工知能(AI)は近年大きく進歩し成功している。 LibratusやDeepstackのような超人的なポーカーAIの大成功は、ポーカー研究に注意を払う研究者を惹きつける。 しかし、オープンソースコードの欠如は、テキサスホールドエムAIの開発をある程度制限している。 本稿では、対戦者の私的手の範囲を考慮し、戦略の悪用性を低減することで、安全な深度制限付きサブゲーム問題解決が可能な、テキサスの無限界ホールディングスのためのハイレベルAIであるDecisionHoldemを紹介する。 実験結果から、DecisionHoldemは、Slumbot、Deepstack、viz、Openstackのハイレベルな再現を730mbb/h以上、700mbb/hで達成した。 さらに,不完全な情報ゲームにおけるAI開発を促進するために,DecisionHoldemのソースコードとツールをリリースする。

An imperfect-information game is a type of game with asymmetric information. It is more common in life than perfect-information game. Artificial intelligence (AI) in imperfect-information games, such like poker, has made considerable progress and success in recent years. The great success of superhuman poker AI, such as Libratus and Deepstack, attracts researchers to pay attention to poker research. However, the lack of open-source code limits the development of Texas hold'em AI to some extent. This article introduces DecisionHoldem, a high-level AI for heads-up no-limit Texas hold'em with safe depth-limited subgame solving by considering possible ranges of opponent's private hands to reduce the exploitability of the strategy. Experimental results show that DecisionHoldem defeats the strongest openly available agent in heads-up no-limit Texas hold'em poker, namely Slumbot, and a high-level reproduction of Deepstack, viz, Openstack, by more than 730 mbb/h (one-thousandth big blind per round) and 700 mbb/h. Moreover, we release the source codes and tools of DecisionHoldem to promote AI development in imperfect-information games.
翻訳日:2022-01-28 14:40:10 公開日:2022-01-27
# 類似性保存型ハイパーベクトル表現のための再帰結合

Recursive Binding for Similarity-Preserving Hypervector Representations of Sequences ( http://arxiv.org/abs/2201.11691v1 )

ライセンス: Link先を確認
Dmitri A. Rachkovskij, Denis Kleyko(参考訳) hyperdimensional computing (hdc) または vector symbolic architectures (vsa) は、人工知能と認知コンピューティングで使われる計算フレームワークであり、大きな固定次元の分散ベクトル表現を扱う。 HDC/VSAソリューションを設計するための重要なステップは、入力データからそのような表現を得ることである。 ここでは、列に焦点をあて、それらの分散表現への変換を提案し、どちらも近傍の同じ配列要素の類似性を保ち、配列シフトに同値である。 これらの特性は再帰的結合と重ね合わせ操作を用いてシーケンス位置の表現を形成することによって実現される。 提案する変換は、単語の類似性の人間の知覚をモデル化するシンボリック文字列を用いて実験的に研究された。 得られた結果は、文学のより洗練されたアプローチと同等である。 この変換はFourier Holographic Reduced Representationsとして知られるHDC/VSAモデルのために設計された。 しかし、他のHDC/VSAモデルにも適用可能である。

Hyperdimensional computing (HDC), also known as vector symbolic architectures (VSA), is a computing framework used within artificial intelligence and cognitive computing that operates with distributed vector representations of large fixed dimensionality. A critical step for designing the HDC/VSA solutions is to obtain such representations from the input data. Here, we focus on sequences and propose their transformation to distributed representations that both preserve the similarity of identical sequence elements at nearby positions and are equivariant to the sequence shift. These properties are enabled by forming representations of sequence positions using recursive binding and superposition operations. The proposed transformation was experimentally investigated with symbolic strings used for modeling human perception of word similarity. The obtained results are on a par with more sophisticated approaches from the literature. The proposed transformation was designed for the HDC/VSA model known as Fourier Holographic Reduced Representations. However, it can be adapted to some other HDC/VSA models.
翻訳日:2022-01-28 14:39:45 公開日:2022-01-27
# 天蓋形状によるUAVおよび地上LiDAR点雲の効率的な分割・対数登録

Efficient divide-and-conquer registration of UAV and ground LiDAR point clouds through canopy shape context ( http://arxiv.org/abs/2201.11296v1 )

ライセンス: Link先を確認
Jie Shao, Wei Yao, Peng Wan, Lei Luo, Jiaxin Lyu, Wuming Zhang(参考訳) 森林における無人航空機レーザ走査(uls)と地上光検出・測光(lidar)点雲の登録は、森林構造の詳細な表現と森林パラメータの正確な反転を作成するのに不可欠である。 しかし,森林伐採はマーカベース登録法では課題となり,マーカフリー自動登録法では対象物(樹冠,樹冠など)のセグメンテーションにより効率が低下する。 そこで本研究では,森林におけるALSと地上のLiDAR点雲を自動かつ効率的に登録する手法を提案する。 登録には粗いアライメントと細かな登録が含まれており、ポイント雲の粗いアライメントは垂直と水平に分けられる。 垂直アライメントは、接地点雲の正規ベクトルと水平平面との変換関係によって達成される接地アライメントによって達成され、水平アライメントはキャノピー投影画像マッチングにより達成される。 画像マッチングにおいて、植生点をまず地表面フィルタリングアルゴリズムで識別し、次いで水平面に植生点を投影して2つのバイナリ画像を得る。 2つの画像とマッチングするために、2点合同集合とキャノピー重なりによって記述されるキャノピー形状の文脈特徴に基づいてマッチング戦略を用いる。 最後に、地上アライメントと画像マッチングの結果を組み合わせて、ULSと地上LiDARデータセットの粗いアライメントを実装し、詳細な登録を行う。 また,提案手法の有効性,精度,効率を森林プロットのフィールド計測により実証した。 実験の結果,異なるプロットにおけるulsデータと地上lidarデータが登録されており,水平方向アライメント誤差は0.02m以下であり,提案手法の平均実行時間は1秒以下であることがわかった。

Registration of unmanned aerial vehicle laser scanning (ULS) and ground light detection and ranging (LiDAR) point clouds in forests is critical to create a detailed representation of a forest structure and an accurate inversion of forest parameters. However, forest occlusion poses challenges for marker-based registration methods, and some marker-free automated registration methods have low efficiency due to the process of object (e.g., tree, crown) segmentation. Therefore, we use a divide-and-conquer strategy and propose an automated and efficient method to register ULS and ground LiDAR point clouds in forests. Registration involves coarse alignment and fine registration, where the coarse alignment of point clouds is divided into vertical and horizontal alignment. The vertical alignment is achieved by ground alignment, which is achieved by the transformation relationship between normal vectors of the ground point cloud and the horizontal plane, and the horizontal alignment is achieved by canopy projection image matching. During image matching, vegetation points are first distinguished by the ground filtering algorithm, and then, vegetation points are projected onto the horizontal plane to obtain two binary images. To match the two images, a matching strategy is used based on canopy shape context features, which are described by a two-point congruent set and canopy overlap. Finally, we implement coarse alignment of ULS and ground LiDAR datasets by combining the results of ground alignment and image matching and finish fine registration. Also, the effectiveness, accuracy, and efficiency of the proposed method are demonstrated by field measurements of forest plots. Experimental results show that the ULS and ground LiDAR data in different plots are registered, of which the horizontal alignment errors are less than 0.02 m, and the average runtime of the proposed method is less than 1 second.
翻訳日:2022-01-28 14:39:06 公開日:2022-01-27
# 3次元部分形状登録のための深部信頼誘導距離

Deep Confidence Guided Distance for 3D Partial Shape Registration ( http://arxiv.org/abs/2201.11379v1 )

ライセンス: Link先を確認
Dvir Ginzburg and Dan Raviv(参考訳) 部分的から部分的な3次元形状登録のための新しい非定型学習法を提案する。 部分アライメントタスクは非常に複雑であり、協調して点間の一致を図り、どの点が対応する形状に現れないかを識別しようとすると、解が不合理で不適切な場合が多い。 これまで、この問題を解決するために2つの主要な方法論が提案されてきた: 対応性のある点のサブセットをサンプリングしたり、点雲間のソフトアライメントを実行したり、隠された部分との一致を避けようとする。 これらのヒューリスティックスは、部分性が弱いときや変換が小さいとき、あるいは重度の閉塞や外れ値が存在するときに作用する。 そこで我々は,点埋め込みと点雲間空間距離の学習可能な類似性を融合させ,その1つの形状にのみ現れる部分を無視しながら,重なり合う点に対する最適化解を誘導する,信頼誘導距離ネットワーク(CGD-net)というユニークなアプローチを提案する。 点特徴生成は、異なる埋め込みを持つために遠点を撃退する自己教師付きアーキテクチャによってなされるため、過剰な内部対称性や急回転であっても、形状の部分的視点の整列に成功する。 我々は最近,ネットワークを学習ベースおよび公理的手法と比較し,性能の根本的な向上を報告した。

We present a novel non-iterative learnable method for partial-to-partial 3D shape registration. The partial alignment task is extremely complex, as it jointly tries to match between points and identify which points do not appear in the corresponding shape, causing the solution to be non-unique and ill-posed in most cases. Until now, two principal methodologies have been suggested to solve this problem: sample a subset of points that are likely to have correspondences or perform soft alignment between the point clouds and try to avoid a match to an occluded part. These heuristics work when the partiality is mild or when the transformation is small but fails for severe occlusions or when outliers are present. We present a unique approach named Confidence Guided Distance Network (CGD-net), where we fuse learnable similarity between point embeddings and spatial distance between point clouds, inducing an optimized solution for the overlapping points while ignoring parts that only appear in one of the shapes. The point feature generation is done by a self-supervised architecture that repels far points to have different embeddings, therefore succeeds to align partial views of shapes, even with excessive internal symmetries or acute rotations. We compare our network to recently presented learning-based and axiomatic methods and report a fundamental boost in performance.
翻訳日:2022-01-28 14:37:18 公開日:2022-01-27
# U変換器を用いた一般化画像出力

Generalised Image Outpainting with U-Transformer ( http://arxiv.org/abs/2201.11403v1 )

ライセンス: Link先を確認
Penglei Gao, Xi Yang, Rui Zhang, Kaizhu Huang, and Yujie Geng(参考訳) 現在,ほとんどの画像外挿は水平外挿を行うが,画像周囲の視覚的コンテキストを外挿する一般化画像外挿問題について検討する。 そこで本研究では,複雑な風景画像であっても,画像境界を可算な構造と細部で拡張できるu-transformerという,トランスフォーマベース生成逆ネットワークを開発した。 具体的には,人気のあるスウィントランスブロックを組み込んだエンコーダからデコーダへの構造としてジェネレータを設計する。 そのため,このフレームワークは,画像の描画において重要な画像の長距離依存性に対処できる。 画像の自己再構成と未知部分予測を円滑かつ現実的に強化するU字型構造と多視点時空間予測ネットワークを提案する。 提案手法が,最先端画像に対する一般画像よりも視覚的に魅力的な結果が得られることを実験的に証明した。

While most present image outpainting conducts horizontal extrapolation, we study the generalised image outpainting problem that extrapolates visual context all-side around a given image. To this end, we develop a novel transformer-based generative adversarial network called U-Transformer able to extend image borders with plausible structure and details even for complicated scenery images. Specifically, we design a generator as an encoder-to-decoder structure embedded with the popular Swin Transformer blocks. As such, our novel framework can better cope with image long-range dependencies which are crucially important for generalised image outpainting. We propose additionally a U-shaped structure and multi-view Temporal Spatial Predictor network to reinforce image self-reconstruction as well as unknown-part prediction smoothly and realistically. We experimentally demonstrate that our proposed method could produce visually appealing results for generalized image outpainting against the state-of-the-art image outpainting approaches.
翻訳日:2022-01-28 14:36:55 公開日:2022-01-27
# RelTR:シーングラフ生成のためのリレーショナルトランス

RelTR: Relation Transformer for Scene Graph Generation ( http://arxiv.org/abs/2201.11460v1 )

ライセンス: Link先を確認
Yuren Cong, Michael Ying Yang, Bodo Rosenhahn(参考訳) 同じシーンの異なるオブジェクトは、ほとんど、あるいはそれと関係があるが、これらの関係の限られた数だけが注目に値する。 オブジェクト検出に優れるDETRに着想を得て,シーングラフ生成をセット予測問題とみなし,エンコーダ・デコーダアーキテクチャを持つエンドツーエンドのシーングラフ生成モデルRelTRを提案する。 エンコーダは視覚的特徴コンテキストを理由とし、デコーダは、異なるタイプの注意機構と結合した被写体とオブジェクトクエリを用いて、固定サイズの三重項述語オブジェクトのセットを推論する。 提案手法は, 終末訓練において, 地上の真理と予測三重項のマッチングを行う集合予測損失を設計する。 既存のシーングラフ生成手法とは対照的に、RelTRは、エンティティを結合したり、可能なすべての述語をラベル付けすることなく、視覚的な外観だけで直接関係を予測できるワンステージ手法である。 視覚ゲノムとオープン画像v6データセットに関する広範な実験は、このモデルの優れた性能と高速な推論を示している。

Different objects in the same scene are more or less related to each other, but only a limited number of these relationships are noteworthy. Inspired by DETR, which excels in object detection, we view scene graph generation as a set prediction problem and propose an end-to-end scene graph generation model RelTR which has an encoder-decoder architecture. The encoder reasons about the visual feature context while the decoder infers a fixed-size set of triplets subject-predicate-object using different types of attention mechanisms with coupled subject and object queries. We design a set prediction loss performing the matching between the ground truth and predicted triplets for the end-to-end training. In contrast to most existing scene graph generation methods, RelTR is a one-stage method that predicts a set of relationships directly only using visual appearance without combining entities and labeling all possible predicates. Extensive experiments on the Visual Genome and Open Images V6 datasets demonstrate the superior performance and fast inference of our model.
翻訳日:2022-01-28 14:36:41 公開日:2022-01-27
# クロスドメインリモートセンシング画像意味セグメンテーションのためのresize-residual dualgan

ResiDualGAN: Resize-Residual DualGAN for Cross-Domain Remote Sensing Images Semantic Segmentation ( http://arxiv.org/abs/2201.11523v1 )

ライセンス: Link先を確認
Yang Zhao, Han Gao, Peng Guo, Zihao Sun(参考訳) アノテーション付きデータセットで事前訓練されたリモートセンシング(RS)画像のセマンティックセグメンテーションモデルの性能は、ドメインギャップのため、他のアノテーションなしデータセットでテストすると大幅に低下する。 DualGANのような逆生成法は、アン教師なし領域適応(UDA)の一般的なアプローチの1つであるピクセルレベルの領域ギャップを最小限に抑えるために、未ペア画像から画像への変換に利用される。 しかし、既存の画像変換法は、RS画像変換を行う際に2つの問題に直面している。 1)2つのrsデータセット間のスケールの不一致は,スケール不変オブジェクトの精度に大きく影響する。 2) モデルのトレーニングに不安定な要因をもたらすrs画像のリアル・トゥ・リアル変換の特徴を無視する。 本稿では,RS画像翻訳におけるResiDualGANを提案する。RSデータセットのスケール差に対処するためにResizerモジュールを使用し,実画像翻訳の安定性を高め,ドメイン間セマンティックセマンティックセマンティクスタスクの性能を向上させるために,残差接続を用いる。 提案手法は,出力空間適応法と組み合わせることで,共通ベンチマークの精度を大幅に向上させ,residuanganの優位性と信頼性を実証する。 論文の最後には、ResiDualGANの改善に関する合理的な説明をするために、徹底的な議論もおこなわれている。

The performance of a semantic segmentation model for remote sensing (RS) images pretrained on an annotated dataset would greatly decrease when testing on another unannotated dataset because of the domain gap. Adversarial generative methods, e.g., DualGAN, are utilized for unpaired image-to-image translation to minimize the pixel-level domain gap, which is one of the common approaches for unsupervised domain adaptation (UDA). However, existing image translation methods are facing two problems when performing RS images translation: 1) ignoring the scale discrepancy between two RS datasets which greatly affect the accuracy performance of scale-invariant objects, 2) ignoring the characteristic of real-to-real translation of RS images which brings an unstable factor for the training of the models. In this paper, ResiDualGAN is proposed for RS images translation, where a resizer module is used for addressing the scale discrepancy of RS datasets, and a residual connection is used for strengthening the stability of real-to-real images translation and improving the performance in cross-domain semantic segmentation tasks. Combining with an output space adaptation method, the proposed method greatly improves the accuracy performance on common benchmarks, which demonstrates the superiority and reliability of ResiDuanGAN. At the end of the paper, a thorough discussion is also conducted to give a reasonable explanation for the improvement of ResiDualGAN.
翻訳日:2022-01-28 14:36:23 公開日:2022-01-27
# imagenetアタックを超えて:ブラックボックスドメインの敵の例を作る

Beyond ImageNet Attack: Towards Crafting Adversarial Examples for Black-box Domains ( http://arxiv.org/abs/2201.11528v1 )

ライセンス: Link先を確認
Qilong Zhang, Xiaodan Li, Yuefeng Chen, Jingkuan Song, Lianli Gao, Yuan He and Hui Xue(参考訳) 敵対的な例は、転送可能な性質のため、ディープニューラルネットワークに深刻な脅威をもたらしている。 現在,様々な研究が,対象モデルと同じ領域で代替モデルが訓練されていることを前提として,クロスモデル転送可能性の向上に多大な努力を払っている。 しかし、実際には、デプロイされたモデルの関連する情報が漏洩する可能性は低い。 したがって、この制限を克服し、デプロイされたモデルの脆弱性を評価するために、より実用的なブラックボックス脅威モデルを構築することが不可欠である。 本稿では,ImageNetドメインの知識のみで,ブラックボックスドメインへの転送可能性(未知の分類タスク)を調べるために,Beyond ImageNet Attack (BIA)を提案する。 具体的には、生成モデルを利用して、入力画像の低レベル特徴をディスラプトする敵関数を学習する。 このフレームワークに基づき、データとモデルの観点からそれぞれソースドメインとターゲットドメインのギャップを狭める2つのバリエーションを提案する。 粗粒度および細粒度領域に関する広範な実験により,提案手法の有効性が示された。 特筆すべきは、我々の手法は、最先端のアプローチを平均で7.71\%(粗粒度ドメインへ)、25.91\%(細粒度ドメインへ)で上回っていることです。 私たちのコードは \url{https://github.com/qilong-zhang/Beyond-ImageNet-Attack} で利用可能です。

Adversarial examples have posed a severe threat to deep neural networks due to their transferable nature. Currently, various works have paid great efforts to enhance the cross-model transferability, which mostly assume the substitute model is trained in the same domain as the target model. However, in reality, the relevant information of the deployed model is unlikely to leak. Hence, it is vital to build a more practical black-box threat model to overcome this limitation and evaluate the vulnerability of deployed models. In this paper, with only the knowledge of the ImageNet domain, we propose a Beyond ImageNet Attack (BIA) to investigate the transferability towards black-box domains (unknown classification tasks). Specifically, we leverage a generative model to learn the adversarial function for disrupting low-level features of input images. Based on this framework, we further propose two variants to narrow the gap between the source and target domains from the data and model perspectives, respectively. Extensive experiments on coarse-grained and fine-grained domains demonstrate the effectiveness of our proposed methods. Notably, our methods outperform state-of-the-art approaches by up to 7.71\% (towards coarse-grained domains) and 25.91\% (towards fine-grained domains) on average. Our code is available at \url{https://github.com/qilong-zhang/Beyond-ImageNet-Attack}.
翻訳日:2022-01-28 14:35:53 公開日:2022-01-27
# ランキング情報ノイズのコントラスト推定:ランキング陽性によるコントラスト学習の促進

Ranking Info Noise Contrastive Estimation: Boosting Contrastive Learning via Ranked Positives ( http://arxiv.org/abs/2201.11736v1 )

ライセンス: Link先を確認
David T. Hoffmann, Nadine Behrmann, Juergen Gall, Thomas Brox, Mehdi Noroozi(参考訳) 本稿では,正のサンプルのランク付けを保ったInfoNCE 損失の族に属する新しいメンバーである Ranking Info Noise Contrastive Estimation (RINCE) を紹介する。 標準的なInfoNCEの損失とは対照的に、トレーニングペアを類似した異なるサンプルに厳格に分離する必要があるため、RINCEは対応する埋め込み空間を学習するために類似度ランキングに関する情報を利用することができる。 提案する損失関数は、少なくとも騒がしいランキング情報が得られる場合や、正と負の定義がぼやけている場合において、標準情報と比較して好適な埋め込みを学習する。 超クラスラベルの追加とノイズの類似度スコアを備えた教師付き分類タスクでこれを実証する。 さらに,ビデオからの教師なし表現学習の実験により,教師なし学習にもRINCEが適用可能であることを示す。 特に、埋め込みにより、分類精度、検索レートが向上し、標準InfoNCE損失よりも分布外検出の精度が向上する。

This paper introduces Ranking Info Noise Contrastive Estimation (RINCE), a new member in the family of InfoNCE losses that preserves a ranked ordering of positive samples. In contrast to the standard InfoNCE loss, which requires a strict binary separation of the training pairs into similar and dissimilar samples, RINCE can exploit information about a similarity ranking for learning a corresponding embedding space. We show that the proposed loss function learns favorable embeddings compared to the standard InfoNCE whenever at least noisy ranking information can be obtained or when the definition of positives and negatives is blurry. We demonstrate this for a supervised classification task with additional superclass labels and noisy similarity scores. Furthermore, we show that RINCE can also be applied to unsupervised training with experiments on unsupervised representation learning from videos. In particular, the embedding yields higher classification accuracy, retrieval rates and performs better in out-of-distribution detection than the standard InfoNCE loss.
翻訳日:2022-01-28 14:35:29 公開日:2022-01-27
# (参考訳) 複数インスタンス学習におけるモデル非依存解釈可能性

Model Agnostic Interpretability for Multiple Instance Learning ( http://arxiv.org/abs/2201.11701v1 )

ライセンス: CC BY 4.0
Joseph Early, Christine Evers and Sarvapali Ramchurn(参考訳) 複数のインスタンス学習(mil:multiple instance learning)では、モデルは、各バッグに単一のラベルのみを提供する、インスタンスの袋を使ってトレーニングされる。 バッグラベルは、しばしばバッグ内の一握りのキーインスタンスによってのみ決定されるため、分類器が意思決定に使用する情報を理解するのが困難である。 本研究では,MILモデルを解釈するための重要な要件を確立する。 次に、これらの要件を満たすモデルに依存しないアプローチをいくつか開発します。 提案手法は,複数のデータセット上の既存の解釈可能なMILモデルと比較し,解釈可能性の精度を最大30%向上させる。 また、インスタンス間の相互作用を識別し、より大きなデータセットにスケールする手法の能力を検証し、実世界の問題への適用性を向上させる。

In Multiple Instance Learning (MIL), models are trained using bags of instances, where only a single label is provided for each bag. A bag label is often only determined by a handful of key instances within a bag, making it difficult to interpret what information a classifier is using to make decisions. In this work, we establish the key requirements for interpreting MIL models. We then go on to develop several model-agnostic approaches that meet these requirements. Our methods are compared against existing inherently interpretable MIL models on several datasets, and achieve an increase in interpretability accuracy of up to 30%. We also examine the ability of the methods to identify interactions between instances and scale to larger datasets, improving their applicability to real-world problems.
翻訳日:2022-01-28 14:33:24 公開日:2022-01-27
# 信頼性: 分散シフト下でのグラフニューラルネットワークの自己評価

Confidence May Cheat: Self-Training on Graph Neural Networks under Distribution Shift ( http://arxiv.org/abs/2201.11349v1 )

ライセンス: Link先を確認
Hongrui Liu, Binbin Hu, Xiao Wang, Chuan Shi, Zhiqiang Zhang, Jun Zhou(参考訳) グラフ畳み込みネットワーク(GCN)は、最近、大きな関心を集め、グラフ上で最先端のパフォーマンスを達成したが、その成功は通常、高価で時間を要するラベル付きデータによる注意深いトレーニングにヒンジする可能性がある。 ラベル付きデータの不足を軽減するために、高信頼なラベル付きノードをラベル付けし、トレーニングステップに追加することで、グラフに自己学習手法が広く採用されている。 本稿では,グラフ上での現在の自己学習手法について実験的に検討する。 驚くべきことに、高信頼の未ラベルノードは必ずしも有用ではなく、自己学習によるラベル付きデータセットと拡張データセットの分散シフトの問題さえも導入し、グラフ上での自己学習の能力を著しく損なうことになる。 そこで本稿では,既存のラベル付きデータセットの分布を復元可能な,新しい分布回復グラフ自己学習フレームワーク(dr-gst)を提案する。 具体的には,各擬似ラベルノードが適切な係数で重み付けされている場合,分布シフトの場合の自己学習フレームワークにおける損失関数の等式と人口分布を最初に証明する。 この係数の抽出性を考慮すると,情報ゲインと情報ゲインを同じ変化傾向を観測し,情報ゲインをDR-GSTのドロップアウト変分推論とドロップエッジ変分推論の両方を用いてそれぞれ推定し,その係数を情報ゲインに置き換えることを提案する。 しかし、そのような重み付き損失関数は、誤った擬似ラベルの影響を大きくする。 その結果,損失補正手法を擬似ラベルの品質向上に適用した。 提案したDR-GSTとDR-GSTの各々のよく設計されたコンポーネントの有効性を示すため、5つのベンチマークデータセットの理論的解析と広範な実験を行った。

Graph Convolutional Networks (GCNs) have recently attracted vast interest and achieved state-of-the-art performance on graphs, but its success could typically hinge on careful training with amounts of expensive and time-consuming labeled data. To alleviate labeled data scarcity, self-training methods have been widely adopted on graphs by labeling high-confidence unlabeled nodes and then adding them to the training step. In this line, we empirically make a thorough study for current self-training methods on graphs. Surprisingly, we find that high-confidence unlabeled nodes are not always useful, and even introduce the distribution shift issue between the original labeled dataset and the augmented dataset by self-training, severely hindering the capability of self-training on graphs. To this end, in this paper, we propose a novel Distribution Recovered Graph Self-Training framework (DR-GST), which could recover the distribution of the original labeled dataset. Specifically, we first prove the equality of loss function in self-training framework under the distribution shift case and the population distribution if each pseudo-labeled node is weighted by a proper coefficient. Considering the intractability of the coefficient, we then propose to replace the coefficient with the information gain after observing the same changing trend between them, where information gain is respectively estimated via both dropout variational inference and dropedge variational inference in DR-GST. However, such a weighted loss function will enlarge the impact of incorrect pseudo labels. As a result, we apply the loss correction method to improve the quality of pseudo labels. Both our theoretical analysis and extensive experiments on five benchmark datasets demonstrate the effectiveness of the proposed DR-GST, as well as each well-designed component in DR-GST.
翻訳日:2022-01-28 14:08:40 公開日:2022-01-27
# 強化学習のための量子ベースのポリシー最適化

Quantile-Based Policy Optimization for Reinforcement Learning ( http://arxiv.org/abs/2201.11463v1 )

ライセンス: Link先を確認
Jinyang Jiang, Jiaqiao Hu, Yijie Peng(参考訳) 古典的強化学習(RL)は、期待される累積報酬を最適化することを目的としている。 本研究では,累積報酬の量的最適化を目標とする rl 設定について考察する。 本稿では,ニューラルネットによるポリシー制御行動をパラメータ化し,qpo(quantile-based policy optimization)と呼ばれる新しいポリシー勾配アルゴリズムと,その変種であるquantile-based proximal policy optimization(qppo)を提案する。 QPOは、異なる時間スケールで実行されている2つの結合反復を用いて、量子とポリシーパラメータを同時に推定し、ある条件下でのグローバル最適ポリシーに収束することが示される。 数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていることが示された。

Classical reinforcement learning (RL) aims to optimize the expected cumulative rewards. In this work, we consider the RL setting where the goal is to optimize the quantile of the cumulative rewards. We parameterize the policy controlling actions by neural networks and propose a novel policy gradient algorithm called Quantile-Based Policy Optimization (QPO) and its variant Quantile-Based Proximal Policy Optimization (QPPO) to solve deep RL problems with quantile objectives. QPO uses two coupled iterations running at different time scales for simultaneously estimating quantiles and policy parameters and is shown to converge to the global optimal policy under certain conditions. Our numerical results demonstrate that the proposed algorithms outperform the existing baseline algorithms under the quantile criterion.
翻訳日:2022-01-28 14:08:07 公開日:2022-01-27
# ディープリカレントニューラルネットワークのためのLiteLSTMアーキテクチャ

LiteLSTM Architecture for Deep Recurrent Neural Networks ( http://arxiv.org/abs/2201.11624v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Anthony S. Maida(参考訳) LSTM(Long Short-term memory)は、時空間シーケンシャルデータを学習するための堅牢なリカレントニューラルネットワークアーキテクチャである。 しかし、ソフトウェアとハードウェアの両方の側面から学び、実装するには、かなりの計算能力が必要です。 本稿では,LiteLSTMアーキテクチャを提案する。LiteLSTMアーキテクチャはアーキテクチャ全体のコスト削減とアーキテクチャ性能の維持を目的として,軽量化の概念を用いてLSTMの計算成分を削減する。 提案されたLiteLSTMは、IoTデバイスや医療データのセキュリティなど、時間消費が不可欠であるビッグデータを学習するために重要である。 さらに、CO2フットプリントの削減にも役立ちます。 提案モデルはコンピュータビジョンとサイバーセキュリティドメインの2つの異なるデータセット上で評価および実証的にテストされた。

Long short-term memory (LSTM) is a robust recurrent neural network architecture for learning spatiotemporal sequential data. However, it requires significant computational power for learning and implementing from both software and hardware aspects. This paper proposes a novel LiteLSTM architecture based on reducing the computation components of the LSTM using the weights sharing concept to reduce the overall architecture cost and maintain the architecture performance. The proposed LiteLSTM can be significant for learning big data where time-consumption is crucial such as the security of IoT devices and medical data. Moreover, it helps to reduce the CO2 footprint. The proposed model was evaluated and tested empirically on two different datasets from computer vision and cybersecurity domains.
翻訳日:2022-01-28 14:07:52 公開日:2022-01-27
# 強化学習のための生成的敵探索

Generative Adversarial Exploration for Reinforcement Learning ( http://arxiv.org/abs/2201.11685v1 )

ライセンス: Link先を確認
Weijun Hong, Menghui Zhu, Minghuan Liu, Weinan Zhang, Ming Zhou, Yong Yu, Peng Sun(参考訳) 探索は、国家訪問が新規であるかどうかを識別することが鍵となる最適な強化学習(RL)政策の訓練に不可欠である。 以前の研究では、経験則や距離メトリクスの設計に重点を置いており、学習可能な識別過程を考慮せずに、状態が新しいかどうかをチェックする。 本稿では,ジェネラティブ・アドバーサリアン・ネットワークから得られる内在的な報酬を導入することで,rlの探索を促進するためのジェネラティブ・アドバーサリアン・エクスプロレーション(gaex)と呼ばれる新しい手法を提案する。 したがって、エージェントは、被差別者が訪問したように判断する自信が低い状態を訪れることを奨励される。 GAEXは実装が容易で、訓練効率が高い。 実験では,DQNとDQN-GAEXにGAEXを適用し,複雑な学習アルゴリズムをさらに微調整することなく,ゲームVenture,Montzuma's Revenge,Super Mario Brosなどの探索問題に対する説得力のある性能を実現する。 我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。

Exploration is crucial for training the optimal reinforcement learning (RL) policy, where the key is to discriminate whether a state visiting is novel. Most previous work focuses on designing heuristic rules or distance metrics to check whether a state is novel without considering such a discrimination process that can be learned. In this paper, we propose a novel method called generative adversarial exploration (GAEX) to encourage exploration in RL via introducing an intrinsic reward output from a generative adversarial network, where the generator provides fake samples of states that help discriminator identify those less frequently visited states. Thus the agent is encouraged to visit those states which the discriminator is less confident to judge as visited. GAEX is easy to implement and of high training efficiency. In our experiments, we apply GAEX into DQN and the DQN-GAEX algorithm achieves convincing performance on challenging exploration problems, including the game Venture, Montezuma's Revenge and Super Mario Bros, without further fine-tuning on complicate learning algorithms. To our knowledge, this is the first work to employ GAN in RL exploration problems.
翻訳日:2022-01-28 14:07:22 公開日:2022-01-27
# 特権付き双立支援ベクトルマシンによる多視点学習

Multi-view learning with privileged weighted twin support vector machine ( http://arxiv.org/abs/2201.11306v1 )

ライセンス: Link先を確認
Ruxin Xu, Huiru Wang(参考訳) 重み付き双対サポートベクターマシン(wltsvm)は、可能な限りサンプル内の潜在的な類似情報をマイニングし、非平行平面分類器の共通短所を改善する。 ツインサポートベクトルマシン (TWSVM) と比較して、クラス間K-Nearest Neighbor (KNN) を用いて過剰な制約を削除することにより、時間の複雑さを低減する。 マルチビュー学習(Multi-view learning, MVL)は、複数の特徴セットによって示されるデータから情報を取得することに焦点を当てた、機械学習の新たな方向性である。 本稿では,制限付きツインサポートベクトルマシン(MPWTSVM)を用いたマルチビュー学習を提案する。 WLTSVMの利点を継承するだけでなく、その特徴も持っている。 第一に、同じ観点からクラス内情報をマイニングすることで、一般化能力を高める。 第二に、クラス間情報の助けを借りて冗長性の制約を減らし、実行速度を改善する。 最も重要なことは、マルチビュー分類モデルとして、コンセンサスと相補性原理の両方を同時に従えることである。 コンセンサス原理は、2つのビューの結合項目を元の目的関数で最小化することによって実現される。 補完原理は、特権情報パラダイムとMVLを確立することで達成される。 標準的な二次プログラミング解法は、その問題を解決するために用いられる。 SVM-2K, MVTSVM, MCPK, PSVM-2Vなどの多視点分類モデルと比較して, 精度と分類効率が向上した。 45個のバイナリデータセットの実験結果から,本手法の有効性が確認された。

Weighted twin support vector machines (WLTSVM) mines as much potential similarity information in samples as possible to improve the common short-coming of non-parallel plane classifiers. Compared with twin support vector machines (TWSVM), it reduces the time complexity by deleting the superfluous constraints using the inter-class K-Nearest Neighbor (KNN). Multi-view learning (MVL) is a newly developing direction of machine learning, which focuses on learning acquiring information from the data indicated by multiple feature sets. In this paper, we propose multi-view learning with privileged weighted twin support vector machines (MPWTSVM). It not only inherits the advantages of WLTSVM but also has its characteristics. Firstly, it enhances generalization ability by mining intra-class information from the same perspective. Secondly, it reduces the redundancy constraints with the help of inter-class information, thus improving the running speed. Most importantly, it can follow both the consensus and the complementarity principle simultaneously as a multi-view classification model. The consensus principle is realized by minimizing the coupling items of the two views in the original objective function. The complementary principle is achieved by establishing privileged information paradigms and MVL. A standard quadratic programming solver is used to solve the problem. Compared with multi-view classification models such as SVM-2K, MVTSVM, MCPK, and PSVM-2V, our model has better accuracy and classification efficiency. Experimental results on 45 binary data sets prove the effectiveness of our method.
翻訳日:2022-01-28 14:05:30 公開日:2022-01-27
# 良性オーバーフィッティングの必然的バイアス

The Implicit Bias of Benign Overfitting ( http://arxiv.org/abs/2201.11489v1 )

ライセンス: Link先を確認
Ohad Shamir(参考訳) 予測器がノイズの多いトレーニングデータに完全に適合し、期待損失が低いという良性過剰化現象は近年注目されているが、単純な線形回帰のセットアップ以外には未だ完全には理解されていない。 本稿では,回帰においては,ある学習問題の存在が他の学習問題の存在を除外するという意味で,ある種の問題に対して良性過剰フィッティングが「偏り」であることを示す。 負の面では、これまで研究されてきた平面線形回帰問題に対するいくつかの自然な拡張に対して、ベニグオーバーフィッティングが一般的に起こることを期待してはならない。 次に分類問題に目を向け、状況がより有利であることを示します。 具体的には、ある固定次元$k$の任意の入力分布が高次元分布と連結されたモデルを考え、最大マージン予測器(勾配に基づく方法が方向収束することが知られている)が期待される*2乗ヒンジ損失を最小化するために漸近的にバイアスを受けていることを証明する。 これにより、分類における良性過剰適合の問題を、この損失が予測誤差のよい代役であるかどうかというより単純な問題に減らし、新しい設定で良性過剰適合を示すために使用することができる。

The phenomenon of benign overfitting, where a predictor perfectly fits noisy training data while attaining low expected loss, has received much attention in recent years, but still remains not fully understood beyond simple linear regression setups. In this paper, we show that for regression, benign overfitting is "biased" towards certain types of problems, in the sense that its existence on one learning problem excludes its existence on other learning problems. On the negative side, we use this to argue that one should not expect benign overfitting to occur in general, for several natural extensions of the plain linear regression problems studied so far. We then turn to classification problems, and show that the situation there is much more favorable. Specifically, we consider a model where an arbitrary input distribution of some fixed dimension $k$ is concatenated with a high-dimensional distribution, and prove that the max-margin predictor (to which gradient-based methods are known to converge in direction) is asymptotically biased towards minimizing the expected *squared hinge loss* w.r.t. the $k$-dimensional distribution. This allows us to reduce the question of benign overfitting in classification to the simpler question of whether this loss is a good surrogate for the prediction error, and use it to show benign overfitting in some new settings.
翻訳日:2022-01-28 14:05:06 公開日:2022-01-27
# 非パラメトリックブートストラップによる不確実性推定によるモデル劣化のモニタリング

Monitoring Model Deterioration with Explainable Uncertainty Estimation via Non-parametric Bootstrap ( http://arxiv.org/abs/2201.11676v1 )

ライセンス: Link先を確認
Carlos Mougan, Dan Saattrup Nielsen(参考訳) 一度デプロイされた機械学習モデルを監視することは難しい。 ラベル付きデータが到達範囲を超え、パフォーマンスメトリクスの監視が不可能になった場合、実際のシナリオでモデルを再トレーニングする時期を決定することは、さらに難しい。 本研究では、非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて、デプロイメント環境における機械学習モデルの劣化を監視し、ターゲットラベルが利用できない場合のモデル劣化の原因を決定する技術として、説明可能な不確実性推定を提供する。 古典的手法は純粋に分布シフトを検出することを目的としており、これはデータ分布の変化にもかかわらずモデルが劣化していないという意味で偽陽性につながる可能性がある。 モデルの不確かさを推定するために, Kumar & Srivastava (2012) の作業を改善する新しいブートストラップ法を用いて予測区間を構築する。 その結果, モデル劣化検出システムと不確実性推定手法の両方が, 現状よりも優れた性能を実現することがわかった。 最後に,モデル劣化の要因を理解するために,説明可能なai技術を用いる。 提案手法を実装したPythonパッケージをオープンソースとしてリリースし,実験を再現するためのコードも公開しています。

Monitoring machine learning models once they are deployed is challenging. It is even more challenging to decide when to retrain models in real-case scenarios when labeled data is beyond reach, and monitoring performance metrics becomes unfeasible. In this work, we use non-parametric bootstrapped uncertainty estimates and SHAP values to provide explainable uncertainty estimation as a technique that aims to monitor the deterioration of machine learning models in deployment environments, as well as determine the source of model deterioration when target labels are not available. Classical methods are purely aimed at detecting distribution shift, which can lead to false positives in the sense that the model has not deteriorated despite a shift in the data distribution. To estimate model uncertainty we construct prediction intervals using a novel bootstrap method, which improves upon the work of Kumar & Srivastava (2012). We show that both our model deterioration detection system as well as our uncertainty estimation method achieve better performance than the current state-of-the-art. Finally, we use explainable AI techniques to gain an understanding of the drivers of model deterioration. We release an open source Python package, doubt, which implements our proposed methods, as well as the code used to reproduce our experiments.
翻訳日:2022-01-28 14:04:41 公開日:2022-01-27
# グラフに基づく半教師付きノード分類のための密度対応ハイパーグラフニューラルネットワーク

Density-Aware Hyper-Graph Neural Networks for Graph-based Semi-supervised Node Classification ( http://arxiv.org/abs/2201.11511v1 )

ライセンス: Link先を確認
Jianpeng Liao, Qian Tao, Jun Yan(参考訳) ラベル付きデータとラベルなしデータの接続関係を活用できるグラフベースの半教師付き学習は、多くの人工知能アプリケーションで最先端技術を上回ることが示されている。 グラフベースの半教師付きノード分類の最も難しい問題の1つは、様々なデータ間で暗黙の情報を使って分類の性能を改善する方法である。 グラフに基づく半教師付き学習における従来の研究は、データ間の相互接続に焦点を当ててきた。 しかし、実際のアプリケーションにおけるデータ相関は、ペアでさらに複雑になる可能性がある。 密度情報は重要な手がかりであることが示されているが、既存のグラフベースの半教師付きノード分類法では、深く探究されることはまれである。 グラフベース半教師付きノード分類のための柔軟かつ効果的なモデルを構築するために,新しい密度対応ハイパーグラフニューラルネットワーク(da-hgnn)を提案する。 提案手法では,データ間の高次セマンティック相関を探索するためにハイパーグラフを提供し,高次接続関係を探索するために密度対応ハイパーグラフアテンションネットワークを提案する。 様々なベンチマークデータセットで大規模な実験を行い,提案手法の有効性を実証した。

Graph-based semi-supervised learning, which can exploit the connectivity relationship between labeled and unlabeled data, has been shown to outperform the state-of-the-art in many artificial intelligence applications. One of the most challenging problems for graph-based semi-supervised node classification is how to use the implicit information among various data to improve the performance of classifying. Traditional studies on graph-based semi-supervised learning have focused on the pairwise connections among data. However, the data correlation in real applications could be beyond pairwise and more complicated. The density information has been demonstrated to be an important clue, but it is rarely explored in depth among existing graph-based semi-supervised node classification methods. To develop a flexible and effective model for graph-based semi-supervised node classification, we propose a novel Density-Aware Hyper-Graph Neural Networks (DA-HGNN). In our proposed approach, hyper-graph is provided to explore the high-order semantic correlation among data, and a density-aware hyper-graph attention network is presented to explore the high-order connection relationship. Extensive experiments are conducted in various benchmark datasets, and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2022-01-28 14:04:20 公開日:2022-01-27
# DropNAS: 異なるアーキテクチャ検索のためのグループ化されたオペレーションドロップアウト

DropNAS: Grouped Operation Dropout for Differentiable Architecture Search ( http://arxiv.org/abs/2201.11679v1 )

ライセンス: Link先を確認
Weijun Hong, Guilin Li, Weinan Zhang, Ruiming Tang, Yunhe Wang, Zhenguo Li, Yong Yu(参考訳) ニューラルアーキテクチャサーチ(NAS)は、アーキテクチャ設計の自動化に励む結果を示している。 最近dartsは、すべての候補操作を同時にトレーニングするウェイトシェアリングとsgdを活用する、微分可能な定式化で検索プロセスを緩和している。 実験の結果,このような手法が共適応問題やマシュー効果をもたらすことが明らかとなった。 これは2つの問題を引き起こす: 第一に、より多くのパラメータを持つ操作は、ジョブを既に完了しているため、望ましい関数を表現できないかもしれない;第二に、システムは、アーキテクチャパラメータを下げることで、それらのパフォーマンスの低い操作を罰し、損失勾配を小さくし、matthew効果を引き起こす。 本稿では,これらの問題を体系的に研究し,DARTSの問題を解決するためにDropNASというグループ化されたオペレーションドロップアウトアルゴリズムを提案する。 大規模な実験では、DropNASが上記の問題を解決し、有望なパフォーマンスを実現している。 具体的には、DropNASはCIFAR-10で2.26%、CIFAR-100で16.39%、ImageNetで23.4%を達成している。 また、DropNASはDARTSの検索空間の変形に対して堅牢であることも観察された。 コードはhttps://github.com/wiljohnhong/DropNASで入手できる。

Neural architecture search (NAS) has shown encouraging results in automating the architecture design. Recently, DARTS relaxes the search process with a differentiable formulation that leverages weight-sharing and SGD where all candidate operations are trained simultaneously. Our empirical results show that such procedure results in the co-adaption problem and Matthew Effect: operations with fewer parameters would be trained maturely earlier. This causes two problems: firstly, the operations with more parameters may never have the chance to express the desired function since those with less have already done the job; secondly, the system will punish those underperforming operations by lowering their architecture parameter, and they will get smaller loss gradients, which causes the Matthew Effect. In this paper, we systematically study these problems and propose a novel grouped operation dropout algorithm named DropNAS to fix the problems with DARTS. Extensive experiments demonstrate that DropNAS solves the above issues and achieves promising performance. Specifically, DropNAS achieves 2.26% test error on CIFAR-10, 16.39% on CIFAR-100 and 23.4% on ImageNet (with the same training hyperparameters as DARTS for a fair comparison). It is also observed that DropNAS is robust across variants of the DARTS search space. Code is available at https://github.com/wiljohnhong/DropNAS.
翻訳日:2022-01-28 14:02:28 公開日:2022-01-27
# バイアス増幅に関する体系的研究

A Systematic Study of Bias Amplification ( http://arxiv.org/abs/2201.11706v1 )

ライセンス: Link先を確認
Melissa Hall, Laurens van der Maaten, Laura Gustafson, Aaron Adcock(参考訳) 最近の研究は、機械学習モデルによる予測がトレーニングデータに存在するバイアスを増幅できることを示唆している。 モデルがバイアスを増幅すると、トレーニングデータ統計に基づいて、いくつかのグループで予想よりも高い確率で特定の予測を行う。 このようなバイアス増幅の緩和には、その増幅を引き起こす現代の機械学習のメカニズムを深く理解する必要がある。 バイアス増幅の発生時期と方法に関する、最初の体系的で制御された研究を行う。 本研究を可能にするために,我々は,(合成)バイアスを厳しく制御できる簡易な画像分類問題を設計した。 本研究は,モデル精度,モデル容量,モデル過剰信頼度,トレーニングデータの量といった尺度とバイアス増幅の強さが相関していることを明らかにする。 また、トレーニング中にバイアス増幅が大きく変化することもわかりました。 最後に,バイアス増幅は,グループメンバシップ認識の難しさに対する分類課題の難しさに依存する可能性があることを見出し,バイアス増幅は主に,クラスメンバシップよりもグループメンバシップの認識が容易な場合に発生する。 以上の結果から,機械学習モデルをトレーニングするためのベストプラクティスが示唆され,より優れた緩和戦略の開発への道を開くことを期待する。

Recent research suggests that predictions made by machine-learning models can amplify biases present in the training data. When a model amplifies bias, it makes certain predictions at a higher rate for some groups than expected based on training-data statistics. Mitigating such bias amplification requires a deep understanding of the mechanics in modern machine learning that give rise to that amplification. We perform the first systematic, controlled study into when and how bias amplification occurs. To enable this study, we design a simple image-classification problem in which we can tightly control (synthetic) biases. Our study of this problem reveals that the strength of bias amplification is correlated to measures such as model accuracy, model capacity, model overconfidence, and amount of training data. We also find that bias amplification can vary greatly during training. Finally, we find that bias amplification may depend on the difficulty of the classification task relative to the difficulty of recognizing group membership: bias amplification appears to occur primarily when it is easier to recognize group membership than class membership. Our results suggest best practices for training machine-learning models that we hope will help pave the way for the development of better mitigation strategies.
翻訳日:2022-01-28 14:02:02 公開日:2022-01-27
# エクスポーレーション時に、どの程度AIモデルを信頼すべきなのか?

To what extent should we trust AI models when they extrapolate? ( http://arxiv.org/abs/2201.11260v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh and Xuenan Cao(参考訳) 人間の生活に影響を与える多くのアプリケーションは、機械学習と人工知能の傘の下で知られるようになったモデルに依存している。 これらのAIモデルは、通常、入力空間から出力空間にマッピングする複雑な数学的関数である。 利害関係者は、モデルの意思決定と機能的行動の背後にある理論的根拠を知りたがっている。 モデル作成に使用するデータに関連して,この機能挙動について検討する。 この話題について、学者はしばしばモデルを外挿しない、すなわち訓練サンプルから学習し、補間によって新しい入力を処理すると仮定している。 この仮定は疑わしい: モデルは頻繁に外挿することを示し、外挿の程度は異なり、社会的に連続的である。 我々は、1つ以上のデータセットのかなりの部分で外挿が合理的と考えられることを実証する。 モデルが外挿しているかどうかを知らなければ、どうやってモデルを信じられるのか? 患者に対して臨床手順を推奨するモデルを考えると、トレーニングセットのすべてのサンプルより高齢または若年者を考慮した場合、推奨を信頼できるだろうか? トレーニングセットが大半が白人であれば、ブラックとヒスパニックの患者の推奨事項をどの程度信頼できるだろうか? どの次元(人種、性別、年齢)が外挿されるのか? たとえモデルが全ての人種の人々に訓練されたとしても、レースに関連する重要な方法で外挿される可能性がある。 最大の疑問は、トレーニングセット外にある入力を処理する場合、AIモデルをどの程度信頼できるのか、ということです。 本稿では,AIの社会的応用について検討し,モデルが不注意に外挿する方法を示す。 また、AIモデルに属する特定の個人に対する外挿の異なる部分空間を調べ、これらの外挿がどのように解釈できるかを数学的ではなく人文論的観点から報告する。

Many applications affecting human lives rely on models that have come to be known under the umbrella of machine learning and artificial intelligence. These AI models are usually complicated mathematical functions that map from an input space to an output space. Stakeholders are interested to know the rationales behind models' decisions and functional behavior. We study this functional behavior in relation to the data used to create the models. On this topic, scholars have often assumed that models do not extrapolate, i.e., they learn from their training samples and process new input by interpolation. This assumption is questionable: we show that models extrapolate frequently; the extent of extrapolation varies and can be socially consequential. We demonstrate that extrapolation happens for a substantial portion of datasets more than one would consider reasonable. How can we trust models if we do not know whether they are extrapolating? Given a model trained to recommend clinical procedures for patients, can we trust the recommendation when the model considers a patient older or younger than all the samples in the training set? If the training set is mostly Whites, to what extent can we trust its recommendations about Black and Hispanic patients? Which dimension (race, gender, or age) does extrapolation happen? Even if a model is trained on people of all races, it still may extrapolate in significant ways related to race. The leading question is, to what extent can we trust AI models when they process inputs that fall outside their training set? This paper investigates several social applications of AI, showing how models extrapolate without notice. We also look at different sub-spaces of extrapolation for specific individuals subject to AI models and report how these extrapolations can be interpreted, not mathematically, but from a humanistic point of view.
翻訳日:2022-01-28 14:01:20 公開日:2022-01-27
# 疎局所モデルによる個人化フェデレーション学習の実現

Achieving Personalized Federated Learning with Sparse Local Models ( http://arxiv.org/abs/2201.11380v1 )

ライセンス: Link先を確認
Tiansheng Huang, Shiwei Liu, Li Shen, Fengxiang He, Weiwei Lin, and Dacheng Tao(参考訳) flの共通グローバルモデルは、各ユーザの異種データ分布に適応できない可能性があるため、フェデレーション学習(fl)は異種分散データに対して脆弱である。 この問題に対処するため、個人ごとに専用のローカルモデルを作成するためにパーソナライズされたFL(PFL)が提案された。 しかし、既存のPFLソリューションは異なるモデルアーキテクチャに対する不満足な一般化を示すか、余分な計算とメモリを犠牲にしている。 本研究では,パーソナライズされたスパースマスクを用いたフェデレーション学習(FedSpa)を提案する。 無傷(あるいは高密度)のPFLモデルをトレーニングする代わりに、FedSpaはトレーニング全体を通して一定の数のアクティブパラメータ(スパース・トゥ・スパーストレーニング)しか保持しないため、安価な通信、計算、メモリコストでパーソナライズを達成できる。 理論的には、FedSpaによって得られたイテレートは、定式化されたSPFL問題の局所最小化に$\mathcal{O}(\frac{1}{\sqrt{T}})$で収束する。 包括的実験により、FedSpaは通信コストと計算コストを大幅に削減し、同時に複数の最先端PFL法に対して高いモデル精度と高速収束速度を実現する。

Federated learning (FL) is vulnerable to heterogeneously distributed data, since a common global model in FL may not adapt to the heterogeneous data distribution of each user. To counter this issue, personalized FL (PFL) was proposed to produce dedicated local models for each individual user. However, PFL is far from its maturity, because existing PFL solutions either demonstrate unsatisfactory generalization towards different model architectures or cost enormous extra computation and memory. In this work, we propose federated learning with personalized sparse mask (FedSpa), a novel PFL scheme that employs personalized sparse masks to customize sparse local models on the edge. Instead of training an intact (or dense) PFL model, FedSpa only maintains a fixed number of active parameters throughout training (aka sparse-to-sparse training), which enables users' models to achieve personalization with cheap communication, computation, and memory cost. We theoretically show that the iterates obtained by FedSpa converge to the local minimizer of the formulated SPFL problem at rate of $\mathcal{O}(\frac{1}{\sqrt{T}})$. Comprehensive experiments demonstrate that FedSpa significantly saves communication and computation costs, while simultaneously achieves higher model accuracy and faster convergence speed against several state-of-the-art PFL methods.
翻訳日:2022-01-28 14:00:53 公開日:2022-01-27
# (参考訳) grad2task:タスク表現のための勾配を用いたテキスト分類の改善

Grad2Task: Improved Few-shot Text Classification Using Gradients for Task Representation ( http://arxiv.org/abs/2201.11576v1 )

ライセンス: CC BY 4.0
Jixuan Wang, Kuan-Chieh Wang, Frank Rudzicz, Michael Brudno(参考訳) BERTのような大規模な事前学習言語モデル(LM)は、多くの異なる自然言語処理(NLP)タスクのパフォーマンスを改善した。 しかしながら、これらのモデルの微調整には、各ターゲットタスクのトレーニング例が必要となる。 同時に、多くの現実的なNLP問題は、十分に大きなトレーニングセットを持たない「ファウショット」である。 本稿では,多種多様なタスクからリッチなアノテーションで移行することを学ぶ,条件付きニューラルプロセスに基づくテキスト分類手法を提案する。 我々の重要なアイデアは,基本モデルからの勾配情報を用いて各タスクを表現し,タスク表現に基づくテキスト分類器を変調する適応ネットワークを訓練することである。 従来のタスク認識型少数ショット学習者は入力エンコーディングによってタスクを表現するが,その勾配がタスクの入力-出力関係を捉えるため,我々の新しいタスク表現はより強力である。 実験の結果,従来の微調整,シーケンシャル転送学習,最先端メタ学習のアプローチに勝っていることがわかった。 デザインの選択を正当化するための分析と改善も実施しました。

Large pretrained language models (LMs) like BERT have improved performance in many disparate natural language processing (NLP) tasks. However, fine tuning such models requires a large number of training examples for each target task. Simultaneously, many realistic NLP problems are "few shot", without a sufficiently large training set. In this work, we propose a novel conditional neural process-based approach for few-shot text classification that learns to transfer from other diverse tasks with rich annotation. Our key idea is to represent each task using gradient information from a base model and to train an adaptation network that modulates a text classifier conditioned on the task representation. While previous task-aware few-shot learners represent tasks by input encoding, our novel task representation is more powerful, as the gradient captures input-output relationships of a task. Experimental results show that our approach outperforms traditional fine-tuning, sequential transfer learning, and state-of-the-art meta learning approaches on a collection of diverse few-shot tasks. We further conducted analysis and ablations to justify our design choices.
翻訳日:2022-01-28 13:58:17 公開日:2022-01-27
# IGLUE: モダリティ、タスク、言語間のトランスファー学習のベンチマーク

IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages ( http://arxiv.org/abs/2201.11732v1 )

ライセンス: Link先を確認
Emanuele Bugliarello and Fangyu Liu and Jonas Pfeiffer and Siva Reddy and Desmond Elliott and Edoardo Maria Ponti and Ivan Vuli\'c(参考訳) 再現性と包括性のために設計された信頼性の高い評価ベンチマークは、機械学習の進歩を促した。 しかし、多言語ベンチマークがないため、視覚と言語の研究は主に英語のタスクに焦点を当てている。 このギャップを埋めるために,画像に基づく言語理解評価ベンチマークを提案する。 iglueは、既存のデータセットを集約し、新しいones visual question answering、cross-modal retrieval、grounded reasoning、grounded entailmentタスクを20の多様な言語にまたがって作成する。 本ベンチマークでは, ゼロショット設定だけでなく, 新たに定義された少数ショット学習設定においても, 移動学習のための多言語マルチモーダルモデルの評価が可能である。 現状技術モデルの評価結果から, トランスファーがゼロショット転送よりも優れていること, 少数ショット学習が多くのタスクに役立てることが困難であることが判明した。 さらに、ダウンストリーム性能は、事前学習のための未学習テキストデータの量によって部分的に説明され、ターゲットソース言語のタイプ的距離によってのみ弱められる。 ベンチマークをコミュニティにリリースすることで、この分野における今後の研究努力を奨励したいと考えています。

Reliable evaluation benchmarks designed for replicability and comprehensiveness have driven progress in machine learning. Due to the lack of a multilingual benchmark, however, vision-and-language research has mostly focused on English language tasks. To fill this gap, we introduce the Image-Grounded Language Understanding Evaluation benchmark. IGLUE brings together - by both aggregating pre-existing datasets and creating new ones - visual question answering, cross-modal retrieval, grounded reasoning, and grounded entailment tasks across 20 diverse languages. Our benchmark enables the evaluation of multilingual multimodal models for transfer learning, not only in a zero-shot setting, but also in newly defined few-shot learning setups. Based on the evaluation of the available state-of-the-art models, we find that translate-test transfer is superior to zero-shot transfer and that few-shot learning is hard to harness for many tasks. Moreover, downstream performance is partially explained by the amount of available unlabelled textual data for pretraining, and only weakly by the typological distance of target-source languages. We hope to encourage future research efforts in this area by releasing the benchmark to the community.
翻訳日:2022-01-28 13:35:25 公開日:2022-01-27
# GANの効率的なショートカット技術

Effective Shortcut Technique for GAN ( http://arxiv.org/abs/2201.11351v1 )

ライセンス: Link先を確認
Seung Park, Cheol-Hwan Yoo, Yong-Goo Shin(参考訳) 近年,GAN(Generative Adversarial Network)に基づく画像生成技術は,複数の残差ブロックを積み重ねて生成体を設計している。 残余ブロックは一般に、ネットワーク内の情報伝達を効果的にサポートするショートカット \ie スキップ接続を含む。 本稿では,残差ブロックの強度点を包含するだけでなく,gan性能をさらに向上させるゲートショートカットと呼ばれる新しいショートカット手法を提案する。 より具体的には、ゲーティング機構に基づいて、提案手法は、生成される画像に関連(または関連しない)情報を保持する(または削除する)ために残差ブロックを導く。 提案手法は,CIFAR-10, CIFAR-100, LSUN, little-ImageNetなどの各種標準データセットに対して, GAN性能の大幅な改善をもたらすことを示す。 また,Frechet Inception distance (FID) およびInception score (IS) を用いて,ゲートショートカットにより印象的なGAN性能が得られることを示した。 例えば、提案手法は、小画像NetデータセットのFIDとISスコアを35.13から27.90、20.23から23.42に改善する。

In recent years, generative adversarial network (GAN)-based image generation techniques design their generators by stacking up multiple residual blocks. The residual block generally contains a shortcut, \ie skip connection, which effectively supports information propagation in the network. In this paper, we propose a novel shortcut method, called the gated shortcut, which not only embraces the strength point of the residual block but also further boosts the GAN performance. More specifically, based on the gating mechanism, the proposed method leads the residual block to keep (or remove) information that is relevant (or irrelevant) to the image being generated. To demonstrate that the proposed method brings significant improvements in the GAN performance, this paper provides extensive experimental results on the various standard datasets such as CIFAR-10, CIFAR-100, LSUN, and tiny-ImageNet. Quantitative evaluations show that the gated shortcut achieves the impressive GAN performance in terms of Frechet inception distance (FID) and Inception score (IS). For instance, the proposed method improves the FID and IS scores on the tiny-ImageNet dataset from 35.13 to 27.90 and 20.23 to 23.42, respectively.
翻訳日:2022-01-28 13:35:05 公開日:2022-01-27
# 3次元点雲分類における相対的埋め込み分布制限とエントロピー認識

Contrastive Embedding Distribution Refinement and Entropy-Aware Attention for 3D Point Cloud Classification ( http://arxiv.org/abs/2201.11388v1 )

ライセンス: Link先を確認
Feng Yang, Yichao Cao, Qifan Xue, Shuai Jin, Xuanpeng Li, and Weigong Zhang(参考訳) ポイントクラウドから強力な表現を学ぶことは、コンピュータビジョンの分野における根本的な課題である。 rgbのピクセルが通常のグリッドに格納される画像とは異なり、ポイントクラウドの基本的な意味的および構造的な情報は、ポイントの空間的レイアウトである。 さらに、インコンテキストとバックグラウンドノイズに挑戦する特性は、ポイントクラウド分析にさらに課題をもたらす。 1つの仮定は、分類モデルの貧弱な性能は、最適分類器の探索を妨げる不明瞭な埋め込み特徴に起因できるということである。 この研究は、任意のポイントクラウド分類ネットワークに組み込むことができるコントラスト学習アプローチを通じて、強力な表現を学ぶための新しい戦略を提供する。 まず, クラス内コンパクト性とクラス間分離性を改善し, 埋め込み特徴分布の細分化を実現するための教師付き対比分類法を提案する。 第二に、小クラス間コンパクト性とクラス間分離性に起因する混乱問題を解決する。 第2に,類似するカテゴリ間の小クラス間変動に起因する混乱問題を解決するため,混乱効果を緩和するための混乱傾向クラスマイニング戦略を提案する。 最後に, 組込み空間におけるサンプルクラスタの外れ値が性能劣化を引き起こす可能性があることを考慮し, 情報エントロピー理論を持つエントロピー対応アテンションモジュールを設計し, 予測確率の不確かさを測定して, 異常ケースと不安定サンプルを同定する。 その結果,本手法は実世界のScanObjectNNデータセットにおいて82.9%の精度を実現し,DCGNNでは2.9%,PointNet++では3.1%,GBNetでは2.4%に向上した。

Learning a powerful representation from point clouds is a fundamental and challenging problem in the field of computer vision. Different from images where RGB pixels are stored in the regular grid, for point clouds, the underlying semantic and structural information of point clouds is the spatial layout of the points. Moreover, the properties of challenging in-context and background noise pose more challenges to point cloud analysis. One assumption is that the poor performance of the classification model can be attributed to the indistinguishable embedding feature that impedes the search for the optimal classifier. This work offers a new strategy for learning powerful representations via a contrastive learning approach that can be embedded into any point cloud classification network. First, we propose a supervised contrastive classification method to implement embedding feature distribution refinement by improving the intra-class compactness and inter-class separability. Second, to solve the confusion problem caused by small inter-class compactness and inter-class separability. Second, to solve the confusion problem caused by small inter-class variations between some similar-looking categories, we propose a confusion-prone class mining strategy to alleviate the confusion effect. Finally, considering that outliers of the sample clusters in the embedding space may cause performance degradation, we design an entropy-aware attention module with information entropy theory to identify the outlier cases and the unstable samples by measuring the uncertainty of predicted probability. The results of extensive experiments demonstrate that our method outperforms the state-of-the-art approaches by achieving 82.9% accuracy on the real-world ScanObjectNN dataset and substantial performance gains up to 2.9% in DCGNN, 3.1% in PointNet++, and 2.4% in GBNet.
翻訳日:2022-01-28 13:34:43 公開日:2022-01-27
# 連続地盤推定法による3次元環境における動的物体認識の確率的枠組み

A Probabilistic Framework for Dynamic Object Recognition in 3D Environment With A Novel Continuous Ground Estimation Method ( http://arxiv.org/abs/2201.11608v1 )

ライセンス: Link先を確認
Pouria Mehrabi(参考訳) 本稿では,3次元環境における動的物体認識のための確率的フレームワークを開発した。 ソフトウェアパッケージは、検出および追跡タスクを実行するROSでC++とPythonを使用して開発される。 さらに, 正規, 傾斜, 粗の異なる都市シナリオにおける接地点を検出するために, ガウス過程回帰(GPR)に基づく新しい手法を開発した。 地表面の挙動は局所的な入力依存の滑らかさしか示さないと仮定される。 カーネルの長さスケールが取得される。 ベイズ推論は、song \textit{Maximum a Posteriori} criterionとして実装されている。 対数確率関数をマルチタスク目的関数と仮定し、隣接するセグメントが不均一なシーンで類似した基底構造を持つことなく、ハイパーパラメータ値を共有しているため、各フレームにおける接地全体の偏りのない視点を表す。 シミュレーションの結果,提案手法がガウス過程に基づく地盤分断法より優れている不均一かつ粗い場面において有効であることが示された。

In this thesis a probabilistic framework is developed and proposed for Dynamic Object Recognition in 3D Environments. A software package is developed using C++ and Python in ROS that performs the detection and tracking task. Furthermore, a novel Gaussian Process Regression (GPR) based method is developed to detect ground points in different urban scenarios of regular, sloped and rough. The ground surface behavior is assumed to only demonstrate local input-dependent smoothness. kernel's length-scales are obtained. Bayesian inference is implemented sing \textit{Maximum a Posteriori} criterion. The log-marginal likelihood function is assumed to be a multi-task objective function, to represent a whole-frame unbiased view of the ground at each frame because adjacent segments may not have similar ground structure in an uneven scene while having shared hyper-parameter values. Simulation results shows the effectiveness of the proposed method in uneven and rough scenes which outperforms similar Gaussian process based ground segmentation methods.
翻訳日:2022-01-28 13:34:14 公開日:2022-01-27
# ビデオの一貫性と伝搬に先立つディープビデオ

Deep Video Prior for Video Consistency and Propagation ( http://arxiv.org/abs/2201.11632v1 )

ライセンス: Link先を確認
Chenyang Lei, Yazhou Xing, Hao Ouyang, Qifeng Chen(参考訳) 各ビデオフレームに独立して画像処理アルゴリズムを適用すると、結果の映像に時間的矛盾が生じてしまう。 そこで本研究では,ブラインドビデオの時間的一貫性に対する新しい一般的アプローチを提案する。 提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。 従来の光学フローとの時間的一貫性を強制する手法と異なり,dvp(deep video prior)を用いたビデオ上で畳み込みニューラルネットワークを訓練することで時間的一貫性を実現することができる。 さらに,マルチモーダル不整合問題に対処するために,注意深く設計した反復的重み付けトレーニング戦略を提案する。 ビデオ上での7つのコンピュータビジョンタスクに対するアプローチの有効性を示す。 広汎な定量的および知覚的実験により,目視ビデオの時間的一貫性に関する最先端手法よりも優れた性能が得られることが示された。 さらに,dvpを映像伝搬に拡張し,その効果を3種類の情報(色,芸術的スタイル,オブジェクトのセグメンテーション)で実証する。 また,ビデオ伝搬におけるdvpの性能を高めるために,擬似ラベルを用いたプログレッシブ伝播戦略も提案されている。 ソースコードはhttps://github.com/ChenyangLEI/deep-video-prior.comで公開されています。

Applying an image processing algorithm independently to each video frame often leads to temporal inconsistency in the resulting video. To address this issue, we present a novel and general approach for blind video temporal consistency. Our method is only trained on a pair of original and processed videos directly instead of a large dataset. Unlike most previous methods that enforce temporal consistency with optical flow, we show that temporal consistency can be achieved by training a convolutional neural network on a video with Deep Video Prior (DVP). Moreover, a carefully designed iteratively reweighted training strategy is proposed to address the challenging multimodal inconsistency problem. We demonstrate the effectiveness of our approach on 7 computer vision tasks on videos. Extensive quantitative and perceptual experiments show that our approach obtains superior performance than state-of-the-art methods on blind video temporal consistency. We further extend DVP to video propagation and demonstrate its effectiveness in propagating three different types of information (color, artistic style, and object segmentation). A progressive propagation strategy with pseudo labels is also proposed to enhance DVP's performance on video propagation. Our source codes are publicly available at https://github.com/ChenyangLEI/deep-video-prior.
翻訳日:2022-01-28 13:33:57 公開日:2022-01-27
# シーングラフ生成のための制約付き構造学習

Constrained Structure Learning for Scene Graph Generation ( http://arxiv.org/abs/2201.11697v1 )

ライセンス: Link先を確認
Daqi Liu, Miroslaw Bober, Josef Kittler(参考訳) 構造化予測タスクとして、シーングラフ生成は、オブジェクトとその関係を入力画像で明示的にモデル化する視覚的なシーングラフを構築することを目的としている。 現在、平均場変分ベイズフレームワークは、既存の方法が使用する事実上の方法論であり、制約のない推論ステップは、メッセージパッシングニューラルネットワークによってしばしば実装される。 しかし、そのような定式化は他の推論戦略を探求できず、より一般的な制約付き最適化モデルを無視している。 本稿では,明示的な制約付き変分推論目標を提案する制約構造学習手法を提案する。 ユビキタスメッセージパス戦略を適用する代わりに、一般的な制約付き最適化手法であるエントロピックミラー降下を用いて、制約付き変動推論のステップを解決する。 提案手法を各種人気のあるシーングラフ生成ベンチマークで検証し,最先端手法よりも優れていることを示す。

As a structured prediction task, scene graph generation aims to build a visually-grounded scene graph to explicitly model objects and their relationships in an input image. Currently, the mean field variational Bayesian framework is the de facto methodology used by the existing methods, in which the unconstrained inference step is often implemented by a message passing neural network. However, such formulation fails to explore other inference strategies, and largely ignores the more general constrained optimization models. In this paper, we present a constrained structure learning method, for which an explicit constrained variational inference objective is proposed. Instead of applying the ubiquitous message-passing strategy, a generic constrained optimization method - entropic mirror descent - is utilized to solve the constrained variational inference step. We validate the proposed generic model on various popular scene graph generation benchmarks and show that it outperforms the state-of-the-art methods.
翻訳日:2022-01-28 13:33:37 公開日:2022-01-27
# プログラム実行者のような推論

Reasoning Like Program Executors ( http://arxiv.org/abs/2201.11473v1 )

ライセンス: Link先を確認
Xinyu Pi, Qian Liu, Bei Chen, Morteza Ziyadi, Zeqi Lin, Yan Gao, Qiang Fu, Jian-Guang Lou, Weizhu Chen(参考訳) 自然言語に対する推論は、研究コミュニティにとって長年の目標です。 しかし、既存の言語モデルは推論に不十分であることが研究で示されている。 この問題に対処するため,新しい事前学習パラダイムであるPOETを提案する。 プログラムによる言語モデルの事前学習と実行結果を通じて、POETはプログラム実行者が持つ推論知識をデータ駆動アプローチで獲得する言語モデルに権限を与える。 POETは概念的にはシンプルで、様々な種類のプログラムでインスタンス化できる。 本稿では,POET-Math,POET-Logic,POET-SQLの3つの実例を示す。 6つのベンチマークによる実験結果から,数値推論や論理推論,マルチホップ推論など,自然言語推論におけるモデルパフォーマンスが大幅に向上することが示された。 DROPベンチマークを代表例として、POETはBARTのF1メトリックを69.2%から80.6%に改善した。 さらに、POETは巨大な言語モデルで輝き、T5-11BのF1メートル法を87.6%に押し上げ、DROPで新しい最先端のパフォーマンスを達成する。 POETは推論の事前訓練に関する新たな門を開き、我々の分析がプログラム実行者のような推論に関する将来の研究に光を当ててくれることを期待しています。

Reasoning over natural language is a long-standing goal for the research community. However, studies have shown that existing language models are inadequate in reasoning. To address the issue, we present POET, a new pre-training paradigm. Through pre-training language models with programs and their execution results, POET empowers language models to harvest the reasoning knowledge possessed in program executors via a data-driven approach. POET is conceptually simple and can be instantiated by different kinds of programs. In this paper, we show three empirically powerful instances, i.e., POET-Math, POET-Logic, and POET-SQL. Experimental results on six benchmarks demonstrate that POET can significantly boost model performance on natural language reasoning, such as numerical reasoning, logical reasoning, and multi-hop reasoning. Taking the DROP benchmark as a representative example, POET improves the F1 metric of BART from 69.2% to 80.6%. Furthermore, POET shines in giant language models, pushing the F1 metric of T5-11B to 87.6% and achieving a new state-of-the-art performance on DROP. POET opens a new gate on reasoning-enhancement pre-training and we hope our analysis would shed light on the future research of reasoning like program executors.
翻訳日:2022-01-28 13:33:21 公開日:2022-01-27
# (参考訳) 勾配手術における異なる損失関数の影響の分別

Dissecting the impact of different loss functions with gradient surgery ( http://arxiv.org/abs/2201.11307v1 )

ライセンス: CC BY 4.0
Hong Xuan and Robert Pless(参考訳) ペアワイズ・ロス(Pair-wise Los)は、同じセマンティッククラスのイメージを異なるクラスのイメージよりも近くマッピングするロス関数を最適化することにより、セマンティックな埋め込みを学ぶメトリクス学習のアプローチである。 文献は、ペアワイズ損失戦略の大規模かつ増大するバリエーションを報告している。 ここでは、これらの損失関数の勾配を、アンカー正対とアンカー負対の相対的特徴位置の押し方に関連する成分に分解する。 この分解により、現在のペアワイズ損失関数の大規模な集合を統一することができる。 さらに、これらの効果を分離するためにペアワイズグレードの更新を明示的に構築することで、最も影響の大きいものに関する洞察が得られ、CAR、CUB、Stanford Onlineの製品データセット上の画像検索の最先端を克服するシンプルなアルゴリズムが実現される。

Pair-wise loss is an approach to metric learning that learns a semantic embedding by optimizing a loss function that encourages images from the same semantic class to be mapped closer than images from different classes. The literature reports a large and growing set of variations of the pair-wise loss strategies. Here we decompose the gradient of these loss functions into components that relate to how they push the relative feature positions of the anchor-positive and anchor-negative pairs. This decomposition allows the unification of a large collection of current pair-wise loss functions. Additionally, explicitly constructing pair-wise gradient updates to separate out these effects gives insights into which have the biggest impact, and leads to a simple algorithm that beats the state of the art for image retrieval on the CAR, CUB and Stanford Online products datasets.
翻訳日:2022-01-28 13:31:18 公開日:2022-01-27
# テキストによる敬礼に基づく説明の人間的解釈

Human Interpretation of Saliency-based Explanation Over Text ( http://arxiv.org/abs/2201.11569v1 )

ライセンス: Link先を確認
Hendrik Schuff, Alon Jacovi, Heike Adel, Yoav Goldberg and Ngoc Thang Vu(参考訳) 説明可能なaiに関する多くの研究は、効果的な説明を生み出すことに焦点を当てているが、人々が説明をどのように理解し、解釈するかという問題に費やされる作業は少ない。 そこで本研究では,テキストデータに対するサリエンシに基づく説明を通じて,この問題に焦点をあてる。 テキストモデルの特徴帰属説明は、入力テキストのどの部分がモデル決定に対して他の部分よりも影響力があるかを伝えることを目的としている。 勾配法やシェープ法のような現在の多くの説明法は、数学的によく理解されている重要な尺度を提供する。 しかし、説明を受けた人はどのように理解するのだろうか? 彼らの理解は 説明が伝えようとしたものと一致していますか? 本研究は, 様々な入力要因, 特徴属性説明, 可視化手順が, 在職者の説明解釈に及ぼす影響を実証的に検討した。 我々は、英語とドイツ語のタスクに対する解釈をクラウドワーカーに問い合わせ、興味のある要素を考慮してGAMMモデルに適合させる。 単語の長さなどの表面的・無関係な要因は, 直接的に重要度を伝える説明にもかかわらず, 説明者の重要度に影響を及ぼす。 そこで本研究では,過度知覚と過度知覚のモデル推定に基づいて塩分濃度を調整する手法を提案し,熱マップの塩分濃度可視化の代替としてバーチャートを探索する。 どちらの手法も、特定の要因の歪曲効果を減衰させ、説明のより良い校正を行うことができる。

While a lot of research in explainable AI focuses on producing effective explanations, less work is devoted to the question of how people understand and interpret the explanation. In this work, we focus on this question through a study of saliency-based explanations over textual data. Feature-attribution explanations of text models aim to communicate which parts of the input text were more influential than others towards the model decision. Many current explanation methods, such as gradient-based or Shapley value-based methods, provide measures of importance which are well-understood mathematically. But how does a person receiving the explanation (the explainee) comprehend it? And does their understanding match what the explanation attempted to communicate? We empirically investigate the effect of various factors of the input, the feature-attribution explanation, and visualization procedure, on laypeople's interpretation of the explanation. We query crowdworkers for their interpretation on tasks in English and German, and fit a GAMM model to their responses considering the factors of interest. We find that people often mis-interpret the explanations: superficial and unrelated factors, such as word length, influence the explainees' importance assignment despite the explanation communicating importance directly. We then show that some of this distortion can be attenuated: we propose a method to adjust saliencies based on model estimates of over- and under-perception, and explore bar charts as an alternative to heatmap saliency visualization. We find that both approaches can attenuate the distorting effect of specific factors, leading to better-calibrated understanding of the explanation.
翻訳日:2022-01-28 13:22:19 公開日:2022-01-27
# 階層的テンソル因子化と深部畳み込みニューラルネットワークにおける帰納規則化

Implicit Regularization in Hierarchical Tensor Factorization and Deep Convolutional Neural Networks ( http://arxiv.org/abs/2201.11729v1 )

ライセンス: Link先を確認
Noam Razin, Asaf Maman, Nadav Cohen(参考訳) ディープラーニングにおける暗黙の正規化を説明するために、単純化されたニューラルネットワークに対応する行列とテンソル因子化に顕著な焦点が当てられた。 これらのモデルはそれぞれ低行列とテンソル階への暗黙の正則化を示すことが示された。 実用的な深層学習に近づき、本論文では階層的テンソル因子化における暗黙の正規化を理論的に分析する。 動的システムレンズを通じて、階層構造に関連した課題を克服し、低階層テンソルランクに対する暗黙の正規化を確立する。 これは、関連する畳み込みネットワークの局所性に対する暗黙の正規化を意味する。 この理論に触発されて,我々は局所性を損なう明示的な正規化をデザインし,建築上の変化が必要な従来の知識に反し,非局所タスクにおける現代的な畳み込みネットワークの性能を向上させる能力を示す。 我々の研究は、暗黙の正規化の理論解析を通じてニューラルネットワークを強化する可能性を強調している。

In the pursuit of explaining implicit regularization in deep learning, prominent focus was given to matrix and tensor factorizations, which correspond to simplified neural networks. It was shown that these models exhibit implicit regularization towards low matrix and tensor ranks, respectively. Drawing closer to practical deep learning, the current paper theoretically analyzes the implicit regularization in hierarchical tensor factorization, a model equivalent to certain deep convolutional neural networks. Through a dynamical systems lens, we overcome challenges associated with hierarchy, and establish implicit regularization towards low hierarchical tensor rank. This translates to an implicit regularization towards locality for the associated convolutional networks. Inspired by our theory, we design explicit regularization discouraging locality, and demonstrate its ability to improve performance of modern convolutional networks on non-local tasks, in defiance of conventional wisdom by which architectural changes are needed. Our work highlights the potential of enhancing neural networks via theoretical analysis of their implicit regularization.
翻訳日:2022-01-28 13:21:32 公開日:2022-01-27
# 深層畳み込みニューラルネットワークを用いたアンサンブル学習最適化医用画像分類の解析

An Analysis on Ensemble Learning optimized Medical Image Classification with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2201.11440v1 )

ライセンス: Link先を確認
Dominik M\"uller, I\~naki Soto-Rey and Frank Kramer(参考訳) 新規かつ高性能な医用画像分類パイプラインは,アンサンブル学習戦略を多用している。 アンサンブル学習の考え方は、多様なモデルや複数の予測を組み立て、予測性能を高めることである。 しかしながら、深層学習に基づく医用画像分類パイプラインにおいて、どのアンサンブル学習戦略が有益かという点については、まだ疑問の余地がある。 そこで本研究では,アンサンブル学習技術であるAugmenting, Stacking, Baggingのパフォーマンスへの影響を分析するために,再現可能な医用画像分類パイプラインを提案する。 このパイプラインは、最先端のプリプロセスと画像拡張方法、および9つのディープ畳み込みニューラルネットワークアーキテクチャで構成されている。 複雑度が異なる4つの一般的な医用画像データセットに適用した。 さらに,非重み付き平均化のような単純な統計関数から,サポートベクターマシンのようなより複雑な学習ベースの関数まで,複数の予測を組み合わせるための12のプーリング関数を分析した。 その結果,Stackingは最大13%のF1スコアアップを達成した。 拡張によって、一貫した改善機能が最大4%向上し、単一のモデルベースのパイプラインにも適用できる。 クロスバリデーションベースのバッキングは最も複雑なアンサンブル学習法であり、解析されたデータセット(最大-10%)すべてにおいてf1-scoreが減少することを示した。 さらに,単純な統計プーリング関数は,より複雑なプーリング関数よりも等しく,あるいはしばしば優れていることを示した。 重ね合わせと強化アンサンブル学習技術の統合は,ロバスト性の向上とパフォーマンス向上のための医用画像分類パイプラインの強力な手法である。

Novel and high-performance medical image classification pipelines are heavily utilizing ensemble learning strategies. The idea of ensemble learning is to assemble diverse models or multiple predictions and, thus, boost prediction performance. However, it is still an open question to what extent as well as which ensemble learning strategies are beneficial in deep learning based medical image classification pipelines. In this work, we proposed a reproducible medical image classification pipeline for analyzing the performance impact of the following ensemble learning techniques: Augmenting, Stacking, and Bagging. The pipeline consists of state-of-the-art preprocessing and image augmentation methods as well as 9 deep convolution neural network architectures. It was applied on four popular medical imaging datasets with varying complexity. Furthermore, 12 pooling functions for combining multiple predictions were analyzed, ranging from simple statistical functions like unweighted averaging up to more complex learning-based functions like support vector machines. Our results revealed that Stacking achieved the largest performance gain of up to 13% F1-score increase. Augmenting showed consistent improvement capabilities by up to 4% and is also applicable to single model based pipelines. Cross-validation based Bagging demonstrated to be the most complex ensemble learning method, which resulted in an F1-score decrease in all analyzed datasets (up to -10%). Furthermore, we demonstrated that simple statistical pooling functions are equal or often even better than more complex pooling functions. We concluded that the integration of Stacking and Augmentation ensemble learning techniques is a powerful method for any medical image classification pipeline to improve robustness and boost performance.
翻訳日:2022-01-28 13:21:13 公開日:2022-01-27
# マンモグラフィにおける深層学習に基づく質量検出における領域一般化--大規模多施設共同研究

Domain generalization in deep learning-based mass detection in mammography: A large-scale multi-center study ( http://arxiv.org/abs/2201.11620v1 )

ライセンス: Link先を確認
Lidia Garrucho, Kaisar Kushibar, Socayna Jouide, Oliver Diaz, Laura Igual and Karim Lekadir(参考訳) 深層学習に基づくコンピュータ支援検出システムは乳がん検出に大きな可能性を示している。 しかし、ニューラルネットワークの領域一般化の欠如は、臨床環境の変化への展開にとって重要な障害である。 本研究では,デジタルマンモグラフィにおける集団検出のための深層学習法のドメイン一般化を探究し,大規模マルチセンター環境での領域シフトの源を深く分析する。 そこで本研究では,Transformerベースのモデルを含む8つの最先端検出手法の性能を比較し,単一のドメインでトレーニングし,未知の5つのドメインでテストする。 さらに、単一ソースの質量検出訓練パイプラインは、新しいドメインの画像を必要とすることなく、ドメインの一般化を改善するように設計されている。 その結果,5つの領域のうち4つの領域において,最先端のトランスファーベースアプローチよりもワークフローを一般化し,異なる取得プロトコルやスキャナーメーカーによるドメインシフトを低減することができた。 その後, 患者年齢, 乳房密度, 体重, 大量悪性度の違いなど, 検出性能により大きな影響を及ぼす共変量変化を特定するために, 広範囲な解析を行った。 最終的に、この包括的な研究は、深層学習に基づく乳癌検出における領域の一般化に関する今後の研究に重要な洞察とベストプラクティスを提供する。

Computer-aided detection systems based on deep learning have shown great potential in breast cancer detection. However, the lack of domain generalization of artificial neural networks is an important obstacle to their deployment in changing clinical environments. In this work, we explore the domain generalization of deep learning methods for mass detection in digital mammography and analyze in-depth the sources of domain shift in a large-scale multi-center setting. To this end, we compare the performance of eight state-of-the-art detection methods, including Transformer-based models, trained in a single domain and tested in five unseen domains. Moreover, a single-source mass detection training pipeline is designed to improve the domain generalization without requiring images from the new domain. The results show that our workflow generalizes better than state-of-the-art transfer learning-based approaches in four out of five domains while reducing the domain shift caused by the different acquisition protocols and scanner manufacturers. Subsequently, an extensive analysis is performed to identify the covariate shifts with bigger effects on the detection performance, such as due to differences in patient age, breast density, mass size, and mass malignancy. Ultimately, this comprehensive study provides key insights and best practices for future research on domain generalization in deep learning-based breast cancer detection.
翻訳日:2022-01-28 13:20:45 公開日:2022-01-27
# (参考訳) グラフのスペクトル領域におけるトランスの表現性の検討

Investigating Expressiveness of Transformer in Spectral Domain for Graphs ( http://arxiv.org/abs/2201.09332v2 )

ライセンス: CC BY 4.0
Anson Bastos, Abhishek Nadgeri, Kuldeep Singh, Hiroki Kanezashi, Toyotaro Suzumura, Isaiah Onando Mulang'(参考訳) トランスフォーマーはグラフ表現学習に不適当であることが証明されている。 この不適切さを理解するためには、変換器のスペクトル分析が表現力に関する洞察を明らかにするかどうかを検討する必要がある。 同様の研究により、グラフニューラルネットワーク(gnns)のスペクトル分析は、その表現力に関するさらなる視点をもたらすことが既に証明されている。 本研究では, 変圧器領域における空間領域とスペクトル領域の関係を系統的に研究し, 証明する。 さらに,変圧器の空間的注意機構が所望の周波数応答を効果的に捉えることができず,スペクトル空間における表現性を本質的に制限する理論解析を行った。 そこで本稿では,空間空間における注目に類似したグラフスペクトル全体に注意を向けるフレームワークFeTAを提案する。 実証的な結果は、FeTAが標準ベンチマーク上の全てのタスクに対してバニラ変換器に対して均質な性能向上をもたらし、低パス特性(例えばGAT)を持つGNNベースのモデルに容易に拡張可能であることを示唆している。 さらに、最近提案された位置符号化方式でバニラトランスモデルをfetaに置き換えることで、トランスフォーマやgnnのベースラインと同等あるいは優れた性能を実現している。

Transformers have been proven to be inadequate for graph representation learning. To understand this inadequacy, there is need to investigate if spectral analysis of transformer will reveal insights on its expressive power. Similar studies already established that spectral analysis of Graph neural networks (GNNs) provides extra perspectives on their expressiveness. In this work, we systematically study and prove the link between the spatial and spectral domain in the realm of the transformer. We further provide a theoretical analysis that the spatial attention mechanism in the transformer cannot effectively capture the desired frequency response, thus, inherently limiting its expressiveness in spectral space. Therefore, we propose FeTA, a framework that aims to perform attention over the entire graph spectrum analogous to the attention in spatial space. Empirical results suggest that FeTA provides homogeneous performance gain against vanilla transformer across all tasks on standard benchmarks and can easily be extended to GNN based models with low-pass characteristics (e.g., GAT). Furthermore, replacing the vanilla transformer model with FeTA in recently proposed position encoding schemes has resulted in comparable or better performance than transformer and GNN baselines.
翻訳日:2022-01-28 13:19:22 公開日:2022-01-27
# (参考訳) ニューラルネットワークにおける最適経路探索とタスク依存学習の組み合わせ

Combining optimal path search with task-dependent learning in a neural network ( http://arxiv.org/abs/2201.11104v2 )

ライセンス: CC BY 4.0
Tomas Kulvicius, Minija Tamosiunaite and Florentin W\"org\"otter(参考訳) 連結グラフの最適経路を見つけるには、グラフの端を移動する際の最小の総コストを決定する必要がある。 この問題は、通常すべてのエッジに対してコストが予め定義された古典的なアルゴリズムによって解決できる。 従来の計画手法は、通常、あるタスクの要求に従う適応的な方法でコストを変更したい場合、使用できない。 ここでは、コスト値をシナプス重みに変換することで、経路探索問題のニューラルネットワーク表現を定義できることを示し、ネットワーク学習機構を用いたオンラインウェイト適応を可能にする。 1 の最初のアクティビティ値から始めると、このネットワークにおけるアクティビティの伝播は、ベルマン・フォードアルゴリズムによって発見されたものと同一の解へとつながる。 ニューラルネットワークは、Bellman Fordと同じアルゴリズムの複雑さを持ち、さらに、ネットワーク学習機構(例えば、Hebbian Learning)が、手作業に応じて結果のパスを増大させるネットワークの重みを適応可能であることを示すことができる。 障害のある環境でのナビゲーションの学習や,特定の経路ノードのシーケンスに従う学習によってこれを実証する。 したがって、この表現された新しいアルゴリズムは、経路拡張(学習による)が自然な方法で経路発見と直接結合される、異なるタイプのアプリケーションを開くことができる。

Finding optimal paths in connected graphs requires determining the smallest total cost for traveling along the graph's edges. This problem can be solved by several classical algorithms where, usually, costs are predefined for all edges. Conventional planning methods can, thus, normally not be used when wanting to change costs in an adaptive way following the requirements of some task. Here we show that one can define a neural network representation of path finding problems by transforming cost values into synaptic weights, which allows for online weight adaptation using network learning mechanisms. When starting with an initial activity value of one, activity propagation in this network will lead to solutions, which are identical to those found by the Bellman Ford algorithm. The neural network has the same algorithmic complexity as Bellman Ford and, in addition, we can show that network learning mechanisms (such as Hebbian learning) can adapt the weights in the network augmenting the resulting paths according to some task at hand. We demonstrate this by learning to navigate in an environment with obstacles as well as by learning to follow certain sequences of path nodes. Hence, the here-presented novel algorithm may open up a different regime of applications where path-augmentation (by learning) is directly coupled with path finding in a natural way.
翻訳日:2022-01-28 12:04:53 公開日:2022-01-27
# 差別的に訓練されたゼロショット学習モデルについて

How Robust are Discriminatively Trained Zero-Shot Learning Models? ( http://arxiv.org/abs/2201.10972v2 )

ライセンス: Link先を確認
Mehmet Kerim Yucel, Ramazan Gokberk Cinbis, Pinar Duygulu(参考訳) データシフトの堅牢性は主に教師付きの観点から研究されており、ゼロショット学習(ZSL)モデルの堅牢性はほとんど無視されている。 本稿では,画像劣化に対する識別的ZSLの堅牢性に関する新しい解析法を提案する。 いくつかのZSLモデルを、共通の汚職と防衛の大規模なセットに適用する。 汚損解析を実現するため,最初のZSL汚損頑健性データセットSUN-C,CUB-C,AWA2-Cをキュレート・リリースする。 我々は、データセットの特徴、クラス不均衡、見知らぬクラスと見えないクラス間のクラス遷移、およびZSLとGZSLのパフォーマンスの相違を考慮し、その結果を分析した。 この傾向は,ZSL法に固有の厳密なクラス不均衡とモデル弱さによってさらに悪化している。 次に,zslにおける敵意攻撃に基づく結果と組み合わせることで,敵意攻撃時に発生する疑似ロバスト効果など,腐敗と敵意の異なる効果を浮き彫りにする。 また, 両モデルに対して, 防御手法による新たな強いベースラインを得る。 最後に,ZSLモデルにおいて,ロバスト性向上のための既存手法はやや有効であるが,具体的な効果は得られないことを示す。

Data shift robustness has been primarily investigated from a fully supervised perspective, and robustness of zero-shot learning (ZSL) models have been largely neglected. In this paper, we present novel analyses on the robustness of discriminative ZSL to image corruptions. We subject several ZSL models to a large set of common corruptions and defenses. In order to realize the corruption analysis, we curate and release the first ZSL corruption robustness datasets SUN-C, CUB-C and AWA2-C. We analyse our results by taking into account the dataset characteristics, class imbalance, class transitions between seen and unseen classes and the discrepancies between ZSL and GZSL performances. Our results show that discriminative ZSL suffers from corruptions and this trend is further exacerbated by the severe class imbalance and model weakness inherent in ZSL methods. We then combine our findings with those based on adversarial attacks in ZSL, and highlight the different effects of corruptions and adversarial examples, such as the pseudo-robustness effect present under adversarial attacks. We also obtain new strong baselines for both models with the defense methods. Finally, our experiments show that although existing methods to improve robustness somewhat work for ZSL models, they do not produce a tangible effect.
翻訳日:2022-01-28 11:45:29 公開日:2022-01-27
# 同所性政策ミラー降下:政策収束、暗黙的正則化、サンプル複雑性の改善

Homotopic Policy Mirror Descent: Policy Convergence, Implicit Regularization, and Improved Sample Complexity ( http://arxiv.org/abs/2201.09457v3 )

ライセンス: Link先を確認
Yan Li, Tuo Zhao, Guanghui Lan(参考訳) 本稿では,有限状態と作用空間を持つ無限大地平線mdpを解くためのホモトピー・ポリシーミラー降下(hpmd)法を提案し,その政策収束について検討する。 We report three properties that seem to be new in the literature of policy gradient methods: (1) The policy first converges linearly, then superlinearly with order $\gamma^{-2}$ to the set of optimal policies, after $\mathcal{O}(\log(1/\Delta^*))$ number of iterations, where $\Delta^*$ is defined via a gap quantity associated with the optimal state-action value function; (2) HPMD also exhibits last-iterate convergence, with the limiting policy corresponding exactly to the optimal policy with the maximal entropy for every state. 最適化の目的に正規化は加えられず、従って第2の観測はホモトピーポリシー勾配法のアルゴリズム的性質としてのみ発生する。 (3) 確率HPMD法では、政策評価のための生成モデルを想定した場合、小さな最適性ギャップに対して、$\mathcal{O}(|\mathcal{S}| |\mathcal{A}| / \epsilon^2)$のサンプル複雑性よりも優れていることを示す。

We propose the homotopic policy mirror descent (HPMD) method for solving discounted, infinite horizon MDPs with finite state and action space, and study its policy convergence. We report three properties that seem to be new in the literature of policy gradient methods: (1) The policy first converges linearly, then superlinearly with order $\gamma^{-2}$ to the set of optimal policies, after $\mathcal{O}(\log(1/\Delta^*))$ number of iterations, where $\Delta^*$ is defined via a gap quantity associated with the optimal state-action value function; (2) HPMD also exhibits last-iterate convergence, with the limiting policy corresponding exactly to the optimal policy with the maximal entropy for every state. No regularization is added to the optimization objective and hence the second observation arises solely as an algorithmic property of the homotopic policy gradient method. (3) For the stochastic HPMD method, we further demonstrate a better than $\mathcal{O}(|\mathcal{S}| |\mathcal{A}| / \epsilon^2)$ sample complexity for small optimality gap $\epsilon$, when assuming a generative model for policy evaluation.
翻訳日:2022-01-28 11:45:06 公開日:2022-01-27
# マルチエージェント強化学習におけるセマンティクス・エプシロン・グリーディ探索戦略の活用

Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2201.10803v2 )

ライセンス: Link先を確認
Hon Tik Tse, Ho-fung Leung(参考訳) マルチエージェント強化学習(marl)は多くの実世界のアプリケーションをモデル化できる。 しかし、多くのMARLアプローチはエプシロンの欲求に依存しており、ハードシナリオにおける有利な状態の訪問を妨げかねない。 本稿では,MARL 処理のための新しいアプローチ QMIX(SEG) を提案する。 本手法では,QMIX値関数分解法を用いてエージェントごとのポリシーを訓練し,新しいセマンティック・エプシロン・グリーディ(SEG)探索戦略を提案する。 SEGは従来のエプシロングリード探査戦略の単純な拡張であるが、MARLの性能を大幅に改善することが実験的に示されている。 まず、同様の効果を持つアクションのグループにアクションをクラスタ化し、次に、アクション選択のための二段階のエプシロングリーディ探索階層でグループを使用します。 我々はSEGが原子行動よりも豊かな意味を持つ行動群を探索することで意味探索を促進することを論じる。 実験により、QMIX(SEG)はQMIXよりも優れており、StarCraft Multi-Agent Challenge (SMAC)ベンチマークにおける現在の最先端のMARLアプローチと強い性能の競合をもたらすことが示された。

Multi-agent reinforcement learning (MARL) can model many real world applications. However, many MARL approaches rely on epsilon greedy for exploration, which may discourage visiting advantageous states in hard scenarios. In this paper, we propose a new approach QMIX(SEG) for tackling MARL. It makes use of the value function factorization method QMIX to train per-agent policies and a novel Semantic Epsilon Greedy (SEG) exploration strategy. SEG is a simple extension to the conventional epsilon greedy exploration strategy, yet it is experimentally shown to greatly improve the performance of MARL. We first cluster actions into groups of actions with similar effects and then use the groups in a bi-level epsilon greedy exploration hierarchy for action selection. We argue that SEG facilitates semantic exploration by exploring in the space of groups of actions, which have richer semantic meanings than atomic actions. Experiments show that QMIX(SEG) largely outperforms QMIX and leads to strong performance competitive with current state-of-the-art MARL approaches on the StarCraft Multi-Agent Challenge (SMAC) benchmark.
翻訳日:2022-01-28 11:44:40 公開日:2022-01-27
# テーブル事前トレーニング:モデルアーキテクチャ、事前トレーニング目標、ダウンストリームタスクに関する調査

Table Pre-training: A Survey on Model Architectures, Pretraining Objectives, and Downstream Tasks ( http://arxiv.org/abs/2201.09745v2 )

ライセンス: Link先を確認
Haoyu Dong, Zhoujun Cheng, Xinyi He, Mengyu Zhou, Anda Zhou, Fan Zhou, Ao Liu, Shi Han, Dongmei Zhang(参考訳) Webページやスプレッドシート,PDF,その他さまざまなドキュメントタイプから,膨大な数のテーブルを簡単に収集できるため,テキストや画像の成功に伴い,テーブル事前学習フレームワークの急激な普及が提案され,テーブル質問応答,テーブル型認識,列関係分類,テーブル検索,公式予測など,さまざまなタスクにおいて,新たな最先端技術を実現している。 ラベルのないテーブルで監視信号を完全に活用するために、セル値の表記、数値関係の予測、暗黙的なSQLの実行など、事前学習対象のさまざまな設計と評価がなされている。 また、(半)構造化テーブルの特性を最大限活用するために、様々な表言語モデル、特に特別に設計された注意機構について検討した。 テーブルは通常、自由形式のテキストで表示され、相互作用するため、テーブル事前学習は通常、テーブル-テキスト共同学習の形式を取る。 本調査は,テーブル事前トレーニングのための異なるモデル設計,事前トレーニング目標,下流タスクの総合的なレビューを提供することを目的としており,既存の課題と今後の機会に関する考え方とビジョンをさらに共有する。

Since a vast number of tables can be easily collected from web pages, spreadsheets, PDFs, and various other document types, a flurry of table pre-training frameworks have been proposed following the success of text and images, and they have achieved new state-of-the-arts on various tasks such as table question answering, table type recognition, column relation classification, table search, formula prediction, etc. To fully use the supervision signals in unlabeled tables, a variety of pre-training objectives have been designed and evaluated, for example, denoising cell values, predicting numerical relationships, and implicitly executing SQLs. And to best leverage the characteristics of (semi-)structured tables, various tabular language models, particularly with specially-designed attention mechanisms, have been explored. Since tables usually appear and interact with free-form text, table pre-training usually takes the form of table-text joint pre-training, which attracts significant research interests from multiple domains. This survey aims to provide a comprehensive review of different model designs, pre-training objectives, and downstream tasks for table pre-training, and we further share our thoughts and vision on existing challenges and future opportunities.
翻訳日:2022-01-28 11:44:17 公開日:2022-01-27
# コールドスタートレコメンデーションのためのスパーシティ規則化

Sparsity Regularization For Cold-Start Recommendation ( http://arxiv.org/abs/2201.10711v2 )

ライセンス: Link先を確認
Aksheshkumar Ajaykumar Shah and Hemanth Venkateswara(参考訳) 近年, コールドスタート勧告問題に対してGAN(Generative Adversarial Networks)が適用されているが, これらのモデルのトレーニング性能は, 温かいユーザの購入行動の極端に疎らさによって阻害されている。 本稿では,ユーザ人口統計とユーザの嗜好を組み合わせることにより,ユーザ-ベクトルの新たな表現法を提案する。 本システムでは,二元的ユーザ製品間インタラクション(簡易フィードバック)ではなく,重み付けされたユーザ製品選好(テストフィードバック)を用いて,ユーザ購入行動のモデル化を行う。 これを用いて, 温かいユーザへの過度な適合を回避し, トレーニング安定性を保証したスパースユーザ購入行動を活用した, 冷水星推薦のための新しいスパース対逆モデルSRLGANを開発した。 SRLGANを2つの一般的なデータセットで評価し、最先端の結果を示す。

Recently, Generative Adversarial Networks (GANs) have been applied to the problem of Cold-Start Recommendation, but the training performance of these models is hampered by the extreme sparsity in warm user purchase behavior. In this paper we introduce a novel representation for user-vectors by combining user demographics and user preferences, making the model a hybrid system which uses Collaborative Filtering and Content Based Recommendation. Our system models user purchase behavior using weighted user-product preferences (explicit feedback) rather than binary user-product interactions (implicit feedback). Using this we develop a novel sparse adversarial model, SRLGAN, for Cold-Start Recommendation leveraging the sparse user-purchase behavior which ensures training stability and avoids over-fitting on warm users. We evaluate the SRLGAN on two popular datasets and demonstrate state-of-the-art results.
翻訳日:2022-01-28 11:43:54 公開日:2022-01-27