このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210905となっている論文です。

PDF登録状況(公開日: 20210905)

TitleAuthorsAbstract論文公表日・翻訳日
# DexRay: Bytecodeの画像表現に基づくAndroidのマルウェア検出のためのシンプルで効果的なディープラーニングアプローチ

DexRay: A Simple, yet Effective Deep Learning Approach to Android Malware Detection based on Image Representation of Bytecode ( http://arxiv.org/abs/2109.03326v1 )

ライセンス: Link先を確認
Nadia Daoudi, Jordan Samhi, Abdoul Kader Kabore, Kevin Allix, Tegawend\'e F. Bissyand\'e, and Jacques Klein(参考訳) コンピュータビジョンは近年、深層表現学習研究による前例のない業績でいくつかの進歩を目撃している。 これにより、画像の深層学習は、様々なマルウェアの変種に一般化した包括的な手作り機能の必要性を軽減する。 この研究の方向性がAndroidマルウェア検出の次のフロンティアになると仮定し、新しいアプローチが本当に新しい貢献をもたらすためには明確なロードマップが必要である。 画像に基づくマルウェア検出のためのベースラインパイプラインを,簡単なステップで開発し,評価することで,最初のビルディングブロックに貢献する。 本稿では,アプリケーションdexファイルのバイトコードをgrey-scale "vector" 画像に変換し,それらを1次元畳み込みニューラルネットワークモデルに供給するdexrayを提案する。 我々は、DexRayをデザイン選択の極めて基本的な性質から基礎的なものとみなし、マルウェア検出におけるイメージベースの学習によって得られる最小性能を推測する。 158k以上のアプリケーションで評価したDexRayの性能は,単純ながら高い検出率(F1-score=0.96)で有効であることを示す。 最後に, 時間減衰と画像の縮小がDexRayの性能に及ぼす影響について検討し, その難燃性を評価する。 本論文は,この領域を十分に発展させるために必要な多くの重大な疑問を対象とする,健全でシンプルで効果的なアプローチ(アーティファクトが利用可能な)を提供することによって,ディープラーニングに基づくマルウェア検出の領域に寄与する。

Computer vision has witnessed several advances in recent years, with unprecedented performance provided by deep representation learning research. Image formats thus appear attractive to other fields such as malware detection, where deep learning on images alleviates the need for comprehensively hand-crafted features generalising to different malware variants. We postulate that this research direction could become the next frontier in Android malware detection, and therefore requires a clear roadmap to ensure that new approaches indeed bring novel contributions. We contribute with a first building block by developing and assessing a baseline pipeline for image-based malware detection with straightforward steps. We propose DexRay, which converts the bytecode of the app DEX files into grey-scale "vector" images and feeds them to a 1-dimensional Convolutional Neural Network model. We view DexRay as foundational due to the exceedingly basic nature of the design choices, allowing to infer what could be a minimal performance that can be obtained with image-based learning in malware detection. The performance of DexRay evaluated on over 158k apps demonstrates that, while simple, our approach is effective with a high detection rate(F1-score= 0.96). Finally, we investigate the impact of time decay and image-resizing on the performance of DexRay and assess its resilience to obfuscation. This work-in-progress paper contributes to the domain of Deep Learning based Malware detection by providing a sound, simple, yet effective approach (with available artefacts) that can be the basis to scope the many profound questions that will need to be investigated to fully develop this domain.
翻訳日:2021-09-09 13:35:07 公開日:2021-09-05
# レコメンデーションフェアネス:静的から動的へ

Recommendation Fairness: From Static to Dynamic ( http://arxiv.org/abs/2109.03150v1 )

ライセンス: Link先を確認
Dell Zhang and Jun Wang(参考訳) ユーザの関心の高まりを捉え、長期的な経験を最適化する必要性によって、より多くの推奨システムは、マルコフ決定プロセスとして推奨をモデル化し、この問題に対処するために強化学習を採用するようになった。 推奨システムの公正性に関する研究は、静的評価とワンショット介入から動的監視、非ストップ制御まで、同じ傾向を辿るべきではないだろうか? 本稿では,まずレコメンダシステムにおける最近の展開を描き,その後,レコメンデーションのための強化学習手法に公平性を組み込む方法について論じる。 さらに,推薦公正性をさらに向上させるためには,確率ゲーム全般の枠組みにおいて,マルチエージェント(ゲーム理論)最適化,マルチオブジェクト(パレート)最適化,シミュレーションに基づく最適化を検討する必要がある。

Driven by the need to capture users' evolving interests and optimize their long-term experiences, more and more recommender systems have started to model recommendation as a Markov decision process and employ reinforcement learning to address the problem. Shouldn't research on the fairness of recommender systems follow the same trend from static evaluation and one-shot intervention to dynamic monitoring and non-stop control? In this paper, we portray the recent developments in recommender systems first and then discuss how fairness could be baked into the reinforcement learning techniques for recommendation. Moreover, we argue that in order to make further progress in recommendation fairness, we may want to consider multi-agent (game-theoretic) optimization, multi-objective (Pareto) optimization, and simulation-based optimization, in the general framework of stochastic games.
翻訳日:2021-09-08 14:45:14 公開日:2021-09-05
# (参考訳) 空腹ガチョウにおける深層学習法の探索 [全文訳有]

An Exploration of Deep Learning Methods in Hungry Geese ( http://arxiv.org/abs/2109.01954v1 )

ライセンス: CC BY 4.0
Nikzad Khani and Matthew Kluska(参考訳) ハングリー・ジーゼ(Hungry Geese)は、人気ゲームヘビのn-playerのバリエーションである。 本稿では,Deep Reinforcement Learning Value Methodsの現状について述べる。 本論文の目的は,価値に基づく手法の研究を集約し,他の環境に適用することである。 バニラディープqネットワーク、ダブルqネットワーク、デュエルqネットワークはいずれも、空腹のガチョウの環境で検討され、テストされた。 最も優れたモデルは、単純な状態表現とより小さなネットワーク構造のため、バニラディープqネットワークであった。 最適政策への収束は, ランダムガチョウの初期化と食物生成が原因で困難であることが判明した。 そこで,このような確率的環境に対して,ディープqネットワークが適切なモデルではない可能性を示し,さらに,より適切な環境モデルとともに実現可能な改良を提案する。

Hungry Geese is a n-player variation of the popular game snake. This paper looks at state of the art Deep Reinforcement Learning Value Methods. The goal of the paper is to aggregate research of value based methods and apply it as an exercise to other environments. A vanilla Deep Q Network, a Double Q-network and a Dueling Q-Network were all examined and tested with the Hungry Geese environment. The best performing model was the vanilla Deep Q Network due to its simple state representation and smaller network structure. Converging towards an optimal policy was found to be difficult due to random geese initialization and food generation. Therefore we show that Deep Q Networks may not be the appropriate model for such a stochastic environment and lastly we present improvements that can be made along with more suitable models for the environment.
翻訳日:2021-09-08 07:29:50 公開日:2021-09-05
# (参考訳) 因果推論のための最適輸送重み付け

Optimal transport weights for causal inference ( http://arxiv.org/abs/2109.01991v1 )

ライセンス: CC BY 4.0
Eric Dunipace(参考訳) 重み付け法は因果効果の推定を偏りなくするための一般的なツールである。 そして、異なるように見える方法が増えているが、その多くが一つの統一体制(因果的最適輸送)に折り畳むことができる。 本手法は, 処理群と制御群間の最適な輸送距離を最小化することにより, 直接分布バランスを目標とする。 我々のアプローチはモデルフリーであるが、研究者がバランスをとろうとするモーメントや他の重要な共変量関数を組み込むこともできる。 因果的最適輸送は、確率スコアと結果モデルの両方が誤特定された場合に競合する手法よりも優れており、一般的な重み付け法に対する堅牢な代替手段であることを示す。 以上の結果から,ミソプロストロールとオキシトシンの併用による出血後治療効果について検討した。

Weighting methods are a common tool to de-bias estimates of causal effects. And though there are an increasing number of seemingly disparate methods, many of them can be folded into one unifying regime: causal optimal transport. This new method directly targets distributional balance by minimizing optimal transport distances between treatment and control groups or, more generally, between a source and target population. Our approach is model-free but can also incorporate moments or any other important functions of covariates that the researcher desires to balance. We find that the causal optimal transport outperforms competitor methods when both the propensity score and outcome models are misspecified, indicating it is a robust alternative to common weighting methods. Finally, we demonstrate the utility of our method in an external control study examining the effect of misoprostol versus oxytocin for treatment of post-partum hemorrhage.
翻訳日:2021-09-08 07:23:08 公開日:2021-09-05
# (参考訳) リカレントニューラルネットワークによる画像圧縮と一般化分割正規化 [全文訳有]

Image Compression with Recurrent Neural Network and Generalized Divisive Normalization ( http://arxiv.org/abs/2109.01999v1 )

ライセンス: CC BY 4.0
Khawar Islam, L. Minh Dang, Sujin Lee, Hyeonjoon Moon(参考訳) 画像圧縮は、隣接画素間の空間的冗長性を除去し、高品質な画像の再構成を行う方法である。 近年, 深層学習は研究コミュニティから大きな注目を集め, 有望な画像再構成結果を生み出している。 そのため、近年の手法は、ネットワークの複雑さを大幅に増大させるより深い複雑なネットワークの開発に焦点を当てている。 本稿では、畳み込み層を用いた解析と合成ブロックと、可変レートエンコーダとデコーダ側における一般化分割正規化(GDN)の2つの有効な新しいブロックを開発する。 我々のネットワークは、量子化のためのピクセルRNNアプローチを利用している。 さらに,ネットワーク全体を改善するため,LSTMセルを用いて残像を符号化し,不要な情報を削減する。 実験の結果,新しいブロックを持つ可変レートフレームワークは,George の ~\cite{002} やJPEG など,既存の手法や標準画像コーデックよりも画像類似性が高いことがわかった。 プロジェクトページとコードとモデルはhttps://khawar512.gi thub.io/cvpr/で入手できる。

Image compression is a method to remove spatial redundancy between adjacent pixels and reconstruct a high-quality image. In the past few years, deep learning has gained huge attention from the research community and produced promising image reconstruction results. Therefore, recent methods focused on developing deeper and more complex networks, which significantly increased network complexity. In this paper, two effective novel blocks are developed: analysis and synthesis block that employs the convolution layer and Generalized Divisive Normalization (GDN) in the variable-rate encoder and decoder side. Our network utilizes a pixel RNN approach for quantization. Furthermore, to improve the whole network, we encode a residual image using LSTM cells to reduce unnecessary information. Experimental results demonstrated that the proposed variable-rate framework with novel blocks outperforms existing methods and standard image codecs, such as George's ~\cite{002} and JPEG in terms of image similarity. The project page along with code and models are available at https://khawar512.gi thub.io/cvpr/
翻訳日:2021-09-08 07:22:09 公開日:2021-09-05
# (参考訳) 周期整合生成逆数ネットワークを用いた2段階複合ネットワークによる音声強調

A Two-stage Complex Network using Cycle-consistent Generative Adversarial Networks for Speech Enhancement ( http://arxiv.org/abs/2109.02011v1 )

ライセンス: CC BY 4.0
Guochen Yu, Yutian Wang, Hui Wang, Qin Zhang, Chengshi Zheng(参考訳) cycle- consistent generative adversarial networks (cyclegan) は音声強調(se)に有望な性能を示しているが、cycleganベースのseシステムの難解な欠点は、ノイズ成分がサイクルを通じて伝播し完全に排除できないことである。 加えて、従来のCycleGANベースのSEシステムはスペクトルの大きさしか推定しないが、位相は変化しない。 本稿では,多段階学習の概念に動機づけられ,サイクルガンに基づく等級拡張ネットワークとそれに続く複雑なスペクトル精錬ネットワークを組み合わせた新しい二段階除算システムを提案する。 具体的には、第1段階では、CycleGANに基づくモデルが大きさのみを推定し、その後元の雑音相と結合して粗く拡張された複素スペクトルを得る。 その後、2段目は、複素2次元畳み込み/縮畳み込みと複素時間周波数注意ブロックからなる純粋な複素値ネットワークである複素スペクトルマッピングネットワークにより、残響成分をさらに抑制し、クリーン位相を推定する。 2つの公開データセットによる実験結果から,提案手法は従来の1段階のCycleGANや他の最先端のSEシステムを,特に背景雑音抑制の指標として一貫して上回っていることが示された。

Cycle-consistent generative adversarial networks (CycleGAN) have shown their promising performance for speech enhancement (SE), while one intractable shortcoming of these CycleGAN-based SE systems is that the noise components propagate throughout the cycle and cannot be completely eliminated. Additionally, conventional CycleGAN-based SE systems only estimate the spectral magnitude, while the phase is unaltered. Motivated by the multi-stage learning concept, we propose a novel two-stage denoising system that combines a CycleGAN-based magnitude enhancing network and a subsequent complex spectral refining network in this paper. Specifically, in the first stage, a CycleGAN-based model is responsible for only estimating magnitude, which is subsequently coupled with the original noisy phase to obtain a coarsely enhanced complex spectrum. After that, the second stage is applied to further suppress the residual noise components and estimate the clean phase by a complex spectral mapping network, which is a pure complex-valued network composed of complex 2D convolution/deconvol ution and complex temporal-frequency attention blocks. Experimental results on two public datasets demonstrate that the proposed approach consistently surpasses previous one-stage CycleGANs and other state-of-the-art SE systems in terms of various evaluation metrics, especially in background noise suppression.
翻訳日:2021-09-08 07:15:49 公開日:2021-09-05
# (参考訳) 全地形自律農業ロボットのナビゲーション経路計画 [全文訳有]

Navigational Path-Planning For All-Terrain Autonomous Agricultural Robot ( http://arxiv.org/abs/2109.02015v1 )

ライセンス: CC BY 4.0
Vedant Ghodke(参考訳) 労働力不足とメンテナンスコストの増大により、多くの農夫は自動化され機械化されたアプローチに移行せざるを得なくなった。 自律システムの主要なコンポーネントは、使用するパス計画技術である。 被覆経路計画 (CPP) アルゴリズムは、農耕地を航行し、種苗、プラウイング、農薬や肥料の散布など様々な農業活動を行うために用いられる。 本稿では,農地の自律ナビゲーションのための新しいアルゴリズムの比較を行う。 航法制約の低減のために、インド環境に特有な高解像度グリッドマップ表現を考慮に入れた。 自由空間は、グリッドセルを覆い、探索されず、部分的に探索し、障害物の存在を区別することでカバーされる。 比較アルゴリズムの性能は、時間効率、空間効率、精度、環境の変化に対するロバスト性などの指標を用いて評価される。 ロボットオペレーティング・システム(ROS)、ダッソー・システムズ・エクスペリエンス・プラットフォーム(3DS Experience)、PythonのMATLABが比較アルゴリズムのシミュレーションに使用された。 その結果、自律的なフィールドナビゲーションのためのアルゴリズムの適用性とロボット経路計画の実現性が確認された。

The shortage of workforce and increasing cost of maintenance has forced many farm industrialists to shift towards automated and mechanized approaches. The key component for autonomous systems is the path planning techniques used. Coverage path planning (CPP) algorithm is used for navigating over farmlands to perform various agricultural operations such as seeding, ploughing, or spraying pesticides and fertilizers. This report paper compares novel algorithms for autonomous navigation of farmlands. For reduction of navigational constraints, a high-resolution grid map representation is taken into consideration specific to Indian environments. The free space is covered by distinguishing the grid cells as covered, unexplored, partially explored and presence of an obstacle. The performance of the compared algorithms is evaluated with metrics such as time efficiency, space efficiency, accuracy, and robustness to changes in the environment. Robotic Operating System (ROS), Dassault Systemes Experience Platform (3DS Experience), MATLAB along Python were used for the simulation of the compared algorithms. The results proved the applicability of the algorithms for autonomous field navigation and feasibility with robotic path planning.
翻訳日:2021-09-08 07:13:48 公開日:2021-09-05
# (参考訳) 分散機械学習における逆攻撃とビザンチン障害の許容 [全文訳有]

Tolerating Adversarial Attacks and Byzantine Faults in Distributed Machine Learning ( http://arxiv.org/abs/2109.02018v1 )

ライセンス: CC BY 4.0
Yusen Wu, Hao Chen, Xin Wang, Chao Liu, Phuong Nguyen, Yelena Yesha(参考訳) 敵攻撃は、大規模分散機械学習システムにおける人工知能と機械学習モデルのトレーニング、再訓練、活用を妨害しようとする。 これにより、その予測結果にセキュリティリスクが生じる。 例えば、攻撃者は不正確な表現データを提示するか、モデルのパラメータを変更してモデルを毒殺しようとする。 さらに、ソフトウェア、ハードウェア、ネットワークの問題を含むビザンチンの障害が分散システムで発生し、予測結果に悪影響を及ぼす。 本稿では,敵対的攻撃を防御し,ビザンツ断層を許容する分散学習アルゴリズムParSGDを提案する。 本アルゴリズムは,機械学習モデルとビザンチン断層の訓練段階での3つの共通敵攻撃に対して有効性を示す。 その結果,parsgdを用いたmlモデルでは,攻撃されていないか,あるいはノードのほぼ半分が侵害されたり,あるいは障害が発生した場合の障害発生を予測できることがわかった。 他のアルゴリズムと比較してparsgdの実験評価を報告する。

Adversarial attacks attempt to disrupt the training, retraining and utilizing of artificial intelligence and machine learning models in large-scale distributed machine learning systems. This causes security risks on its prediction outcome. For example, attackers attempt to poison the model by either presenting inaccurate misrepresentative data or altering the models' parameters. In addition, Byzantine faults including software, hardware, network issues occur in distributed systems which also lead to a negative impact on the prediction outcome. In this paper, we propose a novel distributed training algorithm, partial synchronous stochastic gradient descent (ParSGD), which defends adversarial attacks and/or tolerates Byzantine faults. We demonstrate the effectiveness of our algorithm under three common adversarial attacks again the ML models and a Byzantine fault during the training phase. Our results show that using ParSGD, ML models can still produce accurate predictions as if it is not being attacked nor having failures at all when almost half of the nodes are being compromised or failed. We will report the experimental evaluations of ParSGD in comparison with other algorithms.
翻訳日:2021-09-08 07:06:52 公開日:2021-09-05
# (参考訳) 変分物理学インフォームドニューラルネットワーク:二次関数とテスト関数の役割 [全文訳有]

Variational Physics Informed Neural Networks: the role of quadratures and test functions ( http://arxiv.org/abs/2109.02035v1 )

ライセンス: CC BY 4.0
Stefano Berrone, Claudio Canuto and Moreno Pintore(参考訳) 本研究では,異なる精度のガウスあるいはニュートン・コートの二次規則と,異なる次数の多項式テスト関数が,メッシュの洗練に関する変分物理学情報ニューラルネットワーク(VPINN)の収束率にどのように影響するかを,楕円境界値問題を解きながら解析する。 inf-sup条件に依存するpetrov-galerkinフレームワークを用いて、計算されたニューラルネットワークの適切な高次区分補間と厳密な解の間のエネルギーノルムにおけるa優先誤差推定を導出する。 数値実験により理論的予測が確定し、ニューラルネットワークが補間されていない場合の誤差崩壊が同じ挙動を辿ることを示す。 この結果から, 滑らかな解法において, 誤差の崩壊率の高い最適戦略は, 適度に高い精度の二次式を用いながら, 最小多項式の試験関数を選択することであることが示唆された。

In this work we analyze how Gaussian or Newton-Cotes quadrature rules of different precisions and piecewise polynomial test functions of different degrees affect the convergence rate of Variational Physics Informed Neural Networks (VPINN) with respect to mesh refinement, while solving elliptic boundary-value problems. Using a Petrov-Galerkin framework relying on an inf-sup condition, we derive an a priori error estimate in the energy norm between the exact solution and a suitable high-order piecewise interpolant of a computed neural network. Numerical experiments confirm the theoretical predictions, and also indicate that the error decay follows the same behavior when the neural network is not interpolated. Our results suggest, somehow counterintuitively, that for smooth solutions the best strategy to achieve a high decay rate of the error consists in choosing test functions of the lowest polynomial degree, while using quadrature formulas of suitably high precision.
翻訳日:2021-09-08 06:49:30 公開日:2021-09-05
# (参考訳) 話者照合自動検出のための複合損失機能付き高能率注意分岐ネットワーク [全文訳有]

Efficient Attention Branch Network with Combined Loss Function for Automatic Speaker Verification Spoof Detection ( http://arxiv.org/abs/2109.02051v1 )

ライセンス: CC BY 4.0
Amir Mohammad Rostami, Mohammad Mehdi Homayounpour, Ahmad Nickabadi(参考訳) 多くの取り組みは、スプーフ攻撃に対してより堅牢にするために、自動話者検証(ASV)システムの強化として対策技術を開発しようとしてきた。 最新の ASVspoof 2019 対策の課題によって証明されているように、現在 ASV のタスク用に配備されているモデルは、最も良いことに、目に見えない攻撃に対して適切な一般化の度合いを欠いている。 提案手法のさらなる検討により,提案方式のより広範な3段階の視点が得られた。 分類器、特徴抽出フェーズ、およびモデル損失関数からなると、ある程度問題を減少させることができる。 そこで本研究では、一般化問題に対処するために、損失関数を組み合わせた効率的な注意分岐ネットワーク(EABN)アーキテクチャを提案する。

Many endeavors have sought to develop countermeasure techniques as enhancements on Automatic Speaker Verification (ASV) systems, in order to make them more robust against spoof attacks. As evidenced by the latest ASVspoof 2019 countermeasure challenge, models currently deployed for the task of ASV are, at their best, devoid of suitable degrees of generalization to unseen attacks. Upon further investigation of the proposed methods, it appears that a broader three-tiered view of the proposed systems. comprised of the classifier, feature extraction phase, and model loss function, may to some extent lessen the problem. Accordingly, the present study proposes the Efficient Attention Branch Network (EABN) modular architecture with a combined loss function to address the generalization problem...
翻訳日:2021-09-08 06:25:23 公開日:2021-09-05
# (参考訳) 人間行動認識におけるコントラスト学習のための再サンプリングによるセンサデータ拡張 [全文訳有]

Sensor Data Augmentation with Resampling for Contrastive Learning in Human Activity Recognition ( http://arxiv.org/abs/2109.02054v1 )

ライセンス: CC BY 4.0
Jinqiang Wang, Tao Zhu, Jingyuan Gan, Huansheng Ning and Yaping Wan(参考訳) ヒトの活動認識は、日常生活だけでなく、医療やリハビリテーションの分野でもますます重要な役割を担っている。 深層学習の発展は、人間の活動認識の発展にも寄与しているが、深層学習モデルの訓練に必要な大量のデータアノテーション作業は、人間の活動認識の発展の大きな障害である。 対照的な学習は、大規模なデータセットのラベル付けコストを回避する能力と、異なるインスタンスのサンプル表現を区別する能力から、センサベースのヒューマンアクティビティ認識の分野で使われ始めている。 その中でも、コントラスト学習の重要な部分であるデータ拡張は、モデルの有効性に大きな影響を及ぼすが、現在のデータ拡張方法は、ウェアラブルセンサーによるアクティビティ認識のためのコントラスト学習フレームワークでは、あまりうまく機能しない。 本稿では,コントラスト学習モデルの効果を最適化するために,センサのサンプリング周波数を調査し,サンプルデータ拡張手法を提案する。 また,人間行動認識に基づくコントラスト学習フレームワークを提案し,コントラスト学習のデータ増補フェーズにサンプル化強調法を適用した。 実験結果から, コントラスト学習を少量のラベル付きデータで微調整した場合, UCI HARでは9.88%, モーションセンサでは7.69%, 教師あり学習では9.88%に向上し, また, コントラスト学習フレームワークにおいてすべてのデータ拡張手法が肯定的な効果を持つわけではないことが明らかになった。 最後に,異なる強化法の組み合わせがコントラスト学習に与える影響について検討し,実験結果から,組み合わせ強化法が単強化法よりも優れていることが示された。

Human activity recognition plays an increasingly important role not only in our daily lives, but also in the medical and rehabilitation fields. The development of deep learning has also contributed to the advancement of human activity recognition, but the large amount of data annotation work required to train deep learning models is a major obstacle to the development of human activity recognition. Contrastive learning has started to be used in the field of sensor-based human activity recognition due to its ability to avoid the cost of labeling large datasets and its ability to better distinguish between sample representations of different instances. Among them, data augmentation, an important part of contrast learning, has a significant impact on model effectiveness, but current data augmentation methods do not perform too successfully in contrast learning frameworks for wearable sensor-based activity recognition. To optimize the effect of contrast learning models, in this paper, we investigate the sampling frequency of sensors and propose a resampling data augmentation method. In addition, we also propose a contrast learning framework based on human activity recognition and apply the resampling augmentation method to the data augmentation phase of contrast learning. The experimental results show that the resampling augmentation method outperforms supervised learning by 9.88% on UCI HAR and 7.69% on Motion Sensor in the fine-tuning evaluation of contrast learning with a small amount of labeled data, and also reveal that not all data augmentation methods will have positive effects in the contrast learning framework. Finally, we explored the influence of the combination of different augmentation methods on contrastive learning, and the experimental results showed that the effect of most combination augmentation methods was better than that of single augmentation.
翻訳日:2021-09-08 06:10:53 公開日:2021-09-05
# (参考訳) ロバストNLUトレーニングのためのエンドツーエンド自己劣化フレームワーク [全文訳有]

End-to-End Self-Debiasing Framework for Robust NLU Training ( http://arxiv.org/abs/2109.02071v1 )

ライセンス: CC BY 4.0
Abbas Ghaddar, Philippe Langlais, Mehdi Rezagholizadeh, Ahmad Rashid(参考訳) 既存の自然言語理解(NLU)モデルでは、データセットバイアスが組み込まれ、ID(In-distriion)テストセットのパフォーマンスは高いが、out-of-distriion(OOD )モデルのパフォーマンスは低いことが示されている。 本稿では,主モデルの浅い表現をバイアスモデルに導出し,両方のモデルを同時に訓練する,単純かつ効果的なデバイアスフレームワークを提案する。 我々は3つのよく研究されたNLUタスクについて,その単純さにもかかわらず,本手法が競合するOOD結果をもたらすことを示す。 2つのタスクにおいて、他のデバイアスのアプローチよりも大幅に優れています。

Existing Natural Language Understanding (NLU) models have been shown to incorporate dataset biases leading to strong performance on in-distribution (ID) test sets but poor performance on out-of-distribution (OOD) ones. We introduce a simple yet effective debiasing framework whereby the shallow representations of the main model are used to derive a bias model and both models are trained simultaneously. We demonstrate on three well studied NLU tasks that despite its simplicity, our method leads to competitive OOD results. It significantly outperforms other debiasing approaches on two tasks, while still delivering high in-distribution performance.
翻訳日:2021-09-08 05:55:59 公開日:2021-09-05
# (参考訳) Fusformer:ハイパースペクトル画像超解像のための変換器による融合手法 [全文訳有]

Fusformer: A Transformer-based Fusion Approach for Hyperspectral Image Super-resolution ( http://arxiv.org/abs/2109.02079v1 )

ライセンス: CC BY 4.0
Jin-Fan Hu and Ting-Zhu Huang and Liang-Jian Deng(参考訳) スペクトル情報の豊富なため、ハイパースペクトル画像はますます重要になっている。 しかし,現在の撮像機構の限界により空間分解能は低下している。 近年,高スペクトル画像超解像問題に対して多くの畳み込みニューラルネットワークが提案されている。 しかし、畳み込みニューラルネットワーク(cnn)に基づく手法では、畳み込み動作における受容フィールドのカーネルサイズが制限されたグローバル情報ではなく、ローカル情報のみを考慮する。 本稿では,高分解能ハイパースペクトル画像と高分解能マルチスペクトル画像とを融合させて高分解能ハイパースペクトル画像を得るトランスフォーマに基づくネットワークを設計する。 トランスフォーマーの表現能力のおかげで、我々のアプローチは、機能の本質的な関係をグローバルに探求することができる。 さらに、LR-HSIが主スペクトル構造を持つことを考慮し、全データ再構成の負担から解放される空間的詳細推定に焦点を当てた。 これにより、提案するネットワークのマッピングスペースが削減され、最終的な性能が向上する。 様々な実験と品質指標は、他の最先端手法と比較してアプローチの優位性を示している。

Hyperspectral image has become increasingly crucial due to its abundant spectral information. However, It has poor spatial resolution with the limitation of the current imaging mechanism. Nowadays, many convolutional neural networks have been proposed for the hyperspectral image super-resolution problem. However, convolutional neural network (CNN) based methods only consider the local information instead of the global one with the limited kernel size of receptive field in the convolution operation. In this paper, we design a network based on the transformer for fusing the low-resolution hyperspectral images and high-resolution multispectral images to obtain the high-resolution hyperspectral images. Thanks to the representing ability of the transformer, our approach is able to explore the intrinsic relationships of features globally. Furthermore, considering the LR-HSIs hold the main spectral structure, the network focuses on the spatial detail estimation releasing from the burden of reconstructing the whole data. It reduces the mapping space of the proposed network, which enhances the final performance. Various experiments and quality indexes show our approach's superiority compared with other state-of-the-art methods.
翻訳日:2021-09-08 05:46:59 公開日:2021-09-05
# (参考訳) ディープ・パーソン・ジェネレーション:顔・ポーズ・布の合成からみた調査

Deep Person Generation: A Survey from the Perspective of Face, Pose and Cloth Synthesis ( http://arxiv.org/abs/2109.02081v1 )

ライセンス: CC BY 4.0
Tong Sha, Wei Zhang, Tong Shen, Zhoujun Li, Tao Mei(参考訳) ディープ・パーソン・ジェネレーションは、仮想エージェント、ビデオ会議、オンラインショッピング、アート/映画制作に広く応用されているため、幅広い研究の注目を集めている。 深層学習の進展により、人像の視覚的外観(顔、ポーズ、布)を容易に生成したり、必要に応じて操作することができる。 本研究は,まず,人間生成のスコープを概観し,その後,ディープパーソン世代における最近の進歩と技術動向を体系的にレビューし,トーキングヘッド生成(face),ポーズ誘導型人生成(pose),衣服指向人生成(cloth)の3つの主なタスクをカバーした。 200以上の論文が概観のためにカバーされており、マイルストーンワークは技術的ブレークスルーを目撃するために強調されている。 これらの基本的なタスクに基づいて、仮想フィッティング、デジタルヒューマン、生成データ拡張など、多くのアプリケーションを調査します。 この調査が、ディープパーソン世代の将来的な展望に光を当て、デジタル人間への完全な応用のための有用な基盤を提供することを願っている。

Deep person generation has attracted extensive research attention due to its wide applications in virtual agents, video conferencing, online shopping and art/movie production. With the advancement of deep learning, visual appearances (face, pose, cloth) of a person image can be easily generated or manipulated on demand. In this survey, we first summarize the scope of person generation, and then systematically review recent progress and technical trends in deep person generation, covering three major tasks: talking-head generation (face), pose-guided person generation (pose) and garment-oriented person generation (cloth). More than two hundred papers are covered for a thorough overview, and the milestone works are highlighted to witness the major technical breakthrough. Based on these fundamental tasks, a number of applications are investigated, e.g., virtual fitting, digital human, generative data augmentation. We hope this survey could shed some light on the future prospects of deep person generation, and provide a helpful foundation for full applications towards digital human.
翻訳日:2021-09-08 05:38:19 公開日:2021-09-05
# (参考訳) (M)SLAe-Net:網膜血管セグメンテーションのためのマルチスケールマルチレベル注意組込みネットワーク [全文訳有]

(M)SLAe-Net: Multi-Scale Multi-Level Attention embedded Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2109.02084v1 )

ライセンス: CC BY 4.0
Shreshth Saini, Geetika Agrawal(参考訳) セグメンテーションは診断において重要な役割を果たす。 基底画像からの網膜血管の研究は、糖尿病網膜症などの多くの重要な疾患の早期の兆候を特定するのに役立つ。 網膜血管の形状、大きさ、パターンが異なり、眼底画像のアーティファクトやノイズとともに、単段法では網膜血管を正確に分割することはできない。 本研究では、網膜血管の堅牢かつ正確なセグメンテーションのための多段階処理の課題に対処するため、マルチスケールでマルチレベルなCNNアーキテクチャ((M)SLAe-Net)を提案する。 私たちは、複数のスケールとネットワークの複数のレベルにある特徴を抽出し、モデルが局所的かつグローバルな特徴を段階的に抽出できるようにします。 動的拡張ピラミッドプール (D-DPP) モジュールを用いて, マルチスケールの特徴を抽出した。 また、すべてのネットワークレベルから機能を集約します。 これにより、様々な形状や工芸品の問題が効果的に解決され、複数のステージが必要になった。 Squeeze and Attention(SA)モジュールは、Squeeze and Excitation(SE)モジュールのスマートに適応したバージョンで、当社のネットワーク内のセグメンテーションタスクに使用し、ピクセルグループ注意を促す。 ネットワーク設計に特有なd-dppモジュールと,薄型容器のタスク固有損失機能により,クロスデータ性能が向上した。 DRIVE, STARE, HRF, CHASE-DB1の試験結果から, 本法の有用性が示された。

Segmentation plays a crucial role in diagnosis. Studying the retinal vasculatures from fundus images help identify early signs of many crucial illnesses such as diabetic retinopathy. Due to the varying shape, size, and patterns of retinal vessels, along with artefacts and noises in fundus images, no one-stage method can accurately segment retinal vessels. In this work, we propose a multi-scale, multi-level attention embedded CNN architecture ((M)SLAe-Net) to address the issue of multi-stage processing for robust and precise segmentation of retinal vessels. We do this by extracting features at multiple scales and multiple levels of the network, enabling our model to holistically extracts the local and global features. Multi-scale features are extracted using our novel dynamic dilated pyramid pooling (D-DPP) module. We also aggregate the features from all the network levels. These effectively resolved the issues of varying shapes and artefacts and hence the need for multiple stages. To assist in better pixel-level classification, we use the Squeeze and Attention(SA) module, a smartly adapted version of the Squeeze and Excitation(SE) module for segmentation tasks in our network to facilitate pixel-group attention. Our unique network design and novel D-DPP module with efficient task-specific loss function for thin vessels enabled our model for better cross data performance. Exhaustive experimental results on DRIVE, STARE, HRF, and CHASE-DB1 show the superiority of our method.
翻訳日:2021-09-08 05:37:11 公開日:2021-09-05
# (参考訳) 変分オートエンコーディングと周期整合逆ネットワークを用いた音色伝達 [全文訳有]

Timbre Transfer with Variational Auto Encoding and Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2109.02096v1 )

ライセンス: CC BY 4.0
Russell Sammut Bonnici, Charalampos Saitis, Martin Benning(参考訳) 本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。 提案手法は,変分オートエンコーダとジェネレーティブ・アドバーサリアル・ネットワークを組み合わせることで,音源の有意義な表現を構築し,ターゲット音声の現実的な世代を生成し,話者間で声帯を伝達するFlickr 8k Audioデータセットと楽器間で音色を伝達するURMPデータセットに適用する。 さらに、採用手法のバリエーションを訓練し、SSIM(Structural similarity Index)とFAD(Frech\'et Audio Distance)を用いて一般化性能を比較する。 多対多のアプローチは、復元能力の観点から1対1のアプローチに取って代わり、ボトルネック残余ブロック設計よりも基本の採用が潜在空間に関するコンテンツ情報を強化するのにより適していることが判明した。 また, 周期的損失が変分オートエンコーダやバニラオートエンコーダアプローチに負うか否かの決定は, モデルの再構成および対角翻訳面に有意な影響を及ぼさないことがわかった。

This research project investigates the application of deep learning to timbre transfer, where the timbre of a source audio can be converted to the timbre of a target audio with minimal loss in quality. The adopted approach combines Variational Autoencoders with Generative Adversarial Networks to construct meaningful representations of the source audio and produce realistic generations of the target audio and is applied to the Flickr 8k Audio dataset for transferring the vocal timbre between speakers and the URMP dataset for transferring the musical timbre between instruments. Furthermore, variations of the adopted approach are trained, and generalised performance is compared using the metrics SSIM (Structural Similarity Index) and FAD (Frech\'et Audio Distance). It was found that a many-to-many approach supersedes a one-to-one approach in terms of reconstructive capabilities, and that the adoption of a basic over a bottleneck residual block design is more suitable for enriching content information about a latent space. It was also found that the decision on whether cyclic loss takes on a variational autoencoder or vanilla autoencoder approach does not have a significant impact on reconstructive and adversarial translation aspects of the model.
翻訳日:2021-09-08 05:26:47 公開日:2021-09-05
# (参考訳) 実演による複雑なタスクの自己回帰型言語モデル指導

Teaching Autoregressive Language Models Complex Tasks By Demonstration ( http://arxiv.org/abs/2109.02102v1 )

ライセンス: CC BY 4.0
Gabriel Recchia(参考訳) 本稿では,ステップバイステップで適切に構成された自己回帰言語モデル(GPT-Neo)を微調整することにより,トランスフォーマー(長期変調演算)において従来困難であった数学的タスクの実行を比較的少数の例で行うことができることを示す。 具体的には、GPT-Neoを微調整し、DeepMindの数学データセットからNumber_div_remainder タスクを解く。 (arxiv:1904.01557) このタスクの精度は、200万のトレーニング例で40%以下である。 長い分割問題を解き,残余を報告する200個の適切に構成されたデモを微調整した結果,最小のGPT-Neoモデルで80%以上の精度が得られた。 これは、学習アルゴリズムを変更することなく、微調整に適したデータセットを構築することで達成される。 これらの結果から,機械学習のトレーニングを受けない個人が,複雑な多段階タスクを実行するために,微調整された自己回帰型言語モデルが有用なパラダイムである可能性が示唆された。

This paper demonstrates that by fine-tuning an autoregressive language model (GPT-Neo) on appropriately structured step-by-step demonstrations, it is possible to teach it to execute a mathematical task that has previously proved difficult for Transformers - longhand modulo operations - with a relatively small number of examples. Specifically, we fine-tune GPT-Neo to solve the numbers__div_remaind er task from the DeepMind Mathematics Dataset; Saxton et al. (arXiv:1904.01557) reported below 40% accuracy on this task with 2 million training examples. We show that after fine-tuning on 200 appropriately structured demonstrations of solving long division problems and reporting the remainders, the smallest available GPT-Neo model achieves over 80% accuracy. This is achieved by constructing an appropriate dataset for fine-tuning, with no changes to the learning algorithm. These results suggest that fine-tuning autoregressive language models on small sets of well-crafted demonstrations may be a useful paradigm for enabling individuals without training in machine learning to coax such models to perform some kinds of complex multi-step tasks.
翻訳日:2021-09-08 05:11:04 公開日:2021-09-05
# (参考訳) CNNを用いた胸部X線画像を用いた新型コロナウイルスの認識 [全文訳有]

Recognition of COVID-19 Disease Utilizing X-Ray Imaging of the Chest Using CNN ( http://arxiv.org/abs/2109.02103v1 )

ライセンス: CC BY-SA 4.0
Md Gulzar Hussain, Ye Shiren(参考訳) このCOVID-19パンデミックが盛んになってから、RT-PCR検査に補完的なスクリーニング技術としてChest(CXR)のX線画像が利用されるようになり、その臨床利用が呼吸障害に繋がるようになる。 その結果、多くの新しいディープラーニングアプローチが発展した。 本研究の目的は、胸部X線画像を用いた新型コロナウイルスの診断のために、畳み込みニューラルネットワーク(CNN)を評価することである。 本研究では, 1層, 3層, 4層からなるCNNの性能評価を行った。 この研究には13,808枚のCXR写真が使用されている。 データセットを3分割したx線画像で評価すると、3層畳み込み層を持つcnnモデルが96%の精度で確実に検出できることを示す予備実験結果が得られた。 この事実は、covid-19の信頼できるスクリーニングのための提案モデルのコミットメントを示している。

Since this COVID-19 pandemic thrives, the utilization of X-Ray images of the Chest (CXR) as a complementary screening technique to RT-PCR testing grows to its clinical use for respiratory complaints. Many new deep learning approaches have developed as a consequence. The goal of this research is to assess the convolutional neural networks (CNNs) to diagnosis COVID-19 utisizing X-ray images of chest. The performance of CNN with one, three, and four convolution layers has been evaluated in this research. A dataset of 13,808 CXR photographs are used in this research. When evaluated on X-ray images with three splits of the dataset, our preliminary experimental results show that the CNN model with three convolution layers can reliably detect with 96 percent accuracy (precision being 96 percent). This fact indicates the commitment of our suggested model for reliable screening of COVID-19.
翻訳日:2021-09-08 05:01:43 公開日:2021-09-05
# (参考訳) 追跡による最先端物体検出によるドライバ電話利用違反の同定 [全文訳有]

Identification of Driver Phone Usage Violations via State-of-the-Art Object Detection with Tracking ( http://arxiv.org/abs/2109.02119v1 )

ライセンス: CC BY 4.0
Steven Carrell and Amir Atapour-Abarghouei(参考訳) 自動車運転における携帯電話の利用は、道路交通のインシデントにおいて大きな要因であり、そのような違反を捕捉するプロセスは、手間のかかる作業である。 現代のオブジェクト検出フレームワークと高性能ハードウェアの両方の進歩は、ビデオ監視に関してより自動化されたアプローチへの道を開いた。 そこで本研究では,道路カメラと協調して,人間の介入を必要とせず,運転者の携帯電話使用状況を把握するカスタム学習型物体検出装置を提案する。 提案手法はウインドスクリーンのグラアによって引き起こされる問題にも対処し、修正に必要な手順を導入する。 12の事前トレーニングされたモデルは、YOLO、SSD、Faster R-CNN、CenterNetの4つの一般的なオブジェクト検出方法を使用して、私たちのカスタムデータセットで微調整されます。 テストされたすべての物体検出器のうち、yoloは最大96%(ap10)の精度と最大30fpsのフレームレートを実現している。 deepsort object trackingアルゴリズムは、最もパフォーマンスの高いモデルに統合され、ユニークな違反のみの記録を収集し、提案手法により車両数を数えることができる。 提案した自動システムは、識別された違反の出力画像、各違反のタイムスタンプ、および総車両数を収集する。 データは、ユーザーインターフェイスを通じてアクセスすることができる。

The use of mobiles phones when driving have been a major factor when it comes to road traffic incidents and the process of capturing such violations can be a laborious task. Advancements in both modern object detection frameworks and high-performance hardware has paved the way for a more automated approach when it comes to video surveillance. In this work, we propose a custom-trained state-of-the-art object detector to work with roadside cameras to capture driver phone usage without the need for human intervention. The proposed approach also addresses the issues caused by windscreen glare and introduces the steps required to remedy this. Twelve pre-trained models are fine-tuned with our custom dataset using four popular object detection methods: YOLO, SSD, Faster R-CNN, and CenterNet. Out of all the object detectors tested, the YOLO yields the highest accuracy levels of up to 96% (AP10) and frame rates of up to ~30 FPS. DeepSort object tracking algorithm is also integrated into the best-performing model to collect records of only the unique violations, and enable the proposed approach to count the number of vehicles. The proposed automated system will collect the output images of the identified violations, timestamps of each violation, and total vehicle count. Data can be accessed via a purpose-built user interface.
翻訳日:2021-09-08 04:52:20 公開日:2021-09-05
# (参考訳) 確率的ニューラルラジアンス場:入射3次元表現の不確かさの定量化 [全文訳有]

Stochastic Neural Radiance Fields:Quantifying Uncertainty in Implicit 3D Representations ( http://arxiv.org/abs/2109.02123v1 )

ライセンス: CC BY 4.0
Jianxiong Shen, Adria Ruiz, Antonio Agudo, Francesc Moreno(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、暗黙の3次元表現を学習し、新規ビュー合成や深度マップ推定といった様々なタスクに対処するための一般的なフレームワークとなっている。 しかし,自動予測に基づく意思決定が必要な下流アプリケーションでは,モデル推定に関連する信頼度を活用することが重要である。 不確実性定量化は機械学習の長年の問題であるが、最近のNeRF文献ではほとんど見過ごされている。 そこで,本研究では,シーンをモデル化する全ての確率分布を学習する標準nerfの一般化である確率的神経放射場(s-nerf)を提案する。 この分布は、モデルが提供するシーン情報に関連する不確かさを定量化することができる。 S-NeRF最適化は変分推論フレームワークを用いて効率よく対処するベイズ学習問題として提案される。 ベンチマークデータセットに対する実験により、S-NeRFは他の領域における不確実性推定のためにこれまで提案された一般的なアプローチよりも信頼性の高い予測と信頼性値を提供できることが示された。

Neural Radiance Fields (NeRF) has become a popular framework for learning implicit 3D representations and addressing different tasks such as novel-view synthesis or depth-map estimation. However, in downstream applications where decisions need to be made based on automatic predictions, it is critical to leverage the confidence associated with the model estimations. Whereas uncertainty quantification is a long-standing problem in Machine Learning, it has been largely overlooked in the recent NeRF literature. In this context, we propose Stochastic Neural Radiance Fields (S-NeRF), a generalization of standard NeRF that learns a probability distribution over all the possible radiance fields modeling the scene. This distribution allows to quantify the uncertainty associated with the scene information provided by the model. S-NeRF optimization is posed as a Bayesian learning problem which is efficiently addressed using the Variational Inference framework. Exhaustive experiments over benchmark datasets demonstrate that S-NeRF is able to provide more reliable predictions and confidence values than generic approaches previously proposed for uncertainty estimation in other domains.
翻訳日:2021-09-08 04:37:59 公開日:2021-09-05
# (参考訳) 時間を考慮した深層強化学習 [全文訳有]

Temporal Aware Deep Reinforcement Learning ( http://arxiv.org/abs/2109.02145v1 )

ライセンス: CC BY 4.0
Deepak-George Thomas(参考訳) 従来の画像に基づくDeep Reinforcement Learning (DRL)アルゴリズムが採用する関数近似器は通常、時間的学習要素を欠き、代わりに空間成分の学習に集中する。 本研究では,時間的・空間的要素を共に学習する手法を提案する。 テストは汎用DQNで実施し,最大報酬およびサンプルの複雑さの観点から比較した。 このアルゴリズムは、ロボット工学とシーケンシャルな意思決定領域に影響を及ぼす。

The function approximators employed by traditional image based Deep Reinforcement Learning (DRL) algorithms usually lack a temporal learning component and instead focus on learning the spatial component. We propose a technique wherein both temporal as well as spatial components are jointly learned. Our tested was tested with a generic DQN and it outperformed it in terms of maximum rewards as well as sample complexity. This algorithm has implications in the robotics as well as sequential decision making domains.
翻訳日:2021-09-08 04:20:42 公開日:2021-09-05
# (参考訳) 最適ベイズ変換学習における誤り推定のためのロバスト重要サンプリング [全文訳有]

Robust Importance Sampling for Error Estimation in the Context of Optimal Bayesian Transfer Learning ( http://arxiv.org/abs/2109.02150v1 )

ライセンス: CC BY 4.0
Omar Maddouri, Xiaoning Qian, Francis J. Alexander, Edward R. Dougherty, Byung-Jun Yoon(参考訳) 分類は、不確実性の下で意思決定を可能にするため、インテリジェントシステムを構築するための主要なタスクである。 分類器の設計は、機能ラベル分布を表すトレーニングデータからモデルを構築することを目的としている。 多くの科学や臨床において、訓練データは一般的に制限されており、正確な分類器の設計と分類誤差の評価は極めて困難である。 転送学習(TL)は、関連するソースドメインからのデータを組み込んで異なるターゲットドメインでの学習を改善することでこの問題を軽減することができるが、特にエラー推定においてパフォーマンス評価にはほとんど注目されていない。 本稿では,ベイズパラダイムにおける分類誤差推定の文脈における知識伝達可能性の検討により,このギャップを埋める。 本稿では,ベイズ最小平均二乗誤差(MMSE)を最適ベイズ変換学習(OBTL)に適用し,不確実性を考慮した分類誤差の厳密な評価を可能にする。 モンテカルロ重要度サンプリングを用いて,多種多様な学習能力にまたがる分類器の分類精度を評価するために,提案手法を用いた。 合成データと実世界のRNAシークエンシング(RNA-seq)データの両方に基づく実験結果から,提案したOBTLエラー推定手法は,他の関連ドメインからのデータを取り込むことで,特に小サンプル環境での標準誤差推定よりも明らかに優れていることが示された。

Classification has been a major task for building intelligent systems as it enables decision-making under uncertainty. Classifier design aims at building models from training data for representing feature-label distributions--eithe r explicitly or implicitly. In many scientific or clinical settings, training data are typically limited, which makes designing accurate classifiers and evaluating their classification error extremely challenging. While transfer learning (TL) can alleviate this issue by incorporating data from relevant source domains to improve learning in a different target domain, it has received little attention for performance assessment, notably in error estimation. In this paper, we fill this gap by investigating knowledge transferability in the context of classification error estimation within a Bayesian paradigm. We introduce a novel class of Bayesian minimum mean-square error (MMSE) estimators for optimal Bayesian transfer learning (OBTL), which enables rigorous evaluation of classification error under uncertainty in a small-sample setting. Using Monte Carlo importance sampling, we employ the proposed estimator to evaluate the classification accuracy of a broad family of classifiers that span diverse learning capabilities. Experimental results based on both synthetic data as well as real-world RNA sequencing (RNA-seq) data show that our proposed OBTL error estimation scheme clearly outperforms standard error estimators, especially in a small-sample setting, by tapping into the data from other relevant domains.
翻訳日:2021-09-08 04:17:14 公開日:2021-09-05
# (参考訳) 非拘束手書きマラヤラム文字認識のための空間領域特徴抽出法 [全文訳有]

Spatial Domain Feature Extraction Methods for Unconstrained Handwritten Malayalam Character Recognition ( http://arxiv.org/abs/2109.02153v1 )

ライセンス: CC BY 4.0
Jomy John(参考訳) 手書き文字認識は、特にインド文字に対する積極的な研究課題である。 本論文は,手書きのマラヤラムを扱っており,基本文字,母音,子音記号,文字に含まれる複合文字の完全セットを扱っている。 本研究では,認識に適した空間領域特徴を選定する。 分類には k-NN, SVM, ELM を用いる。

Handwritten character recognition is an active research challenge,especially for Indian scripts. This paper deals with handwritten Malayalam, with a complete set of basic characters, vowel and consonant signs and compound characters that may be present in the script. Spatial domain features suitable for recognition are chosen in this work. For classification, k-NN, SVM and ELM are employed
翻訳日:2021-09-08 03:42:18 公開日:2021-09-05
# (参考訳) 都市消防署立地計画:需要予測とサービス品質指標を用いた体系的アプローチ [全文訳有]

Urban Fire Station Location Planning: A Systematic Approach using Predicted Demand and Service Quality Index ( http://arxiv.org/abs/2109.02160v1 )

ライセンス: CC BY 4.0
Arnab Dey, Andrew Heger and Darin England(参考訳) 本稿では,消防署の立地計画のための体系的アプローチを提案する。 本研究では,需要予測のためのランダムフォレストに基づく機械学習モデルを構築し,さらに,都市環境における火災サービス品質測定のための一般化指標を定義する。 私たちのモデルは、複数の異なるソースから収集された空間データに基づいています。 適切な施設計画の有効性は、既存の駅と共に消防署を配置できる候補の選択に依存する。 また, 火災安全基準の維持には, 受験者から所要所までの所要時間も考慮する必要がある。 本稿では,適切な候補を特定するための旅行時間に基づくクラスタリング手法を提案する。 最後に,新しい消防署を設置する最善の場所を選択する最適化問題を開発する。 我々の最適化問題は整数計画に基づく最大カバレッジ問題に基づいている。 本研究は,アメリカ合衆国MNのビクトリア消防署と共同で実施した,提案手法の詳細な実験研究である。 需要予測モデルは70%の真正率と約22%の偽陽性率を達成している。 私たちはビクトリア消防署に、我々のアプローチで新しい消防署の場所を選ぶよう支援します。 本研究は,ビクトリア市に提案する新しい施設の選定による改善統計の詳細な結果を示す。

In this article, we propose a systematic approach for fire station location planning. We develop a machine learning model, based on Random Forest, for demand prediction and utilize the model further to define a generalized index to measure quality of fire service in urban settings. Our model is built upon spatial data collected from multiple different sources. Efficacy of proper facility planning depends on choice of candidates where fire stations can be located along with existing stations, if any. Also, the travel time from these candidates to demand locations need to be taken care of to maintain fire safety standard. Here, we propose a travel time based clustering technique to identify suitable candidates. Finally, we develop an optimization problem to select best locations to install new fire stations. Our optimization problem is built upon maximum coverage problem, based on integer programming. We present a detailed experimental study of our proposed approach in collaboration with city of Victoria Fire Department, MN, USA. Our demand prediction model achieves true positive rate of 70% and false positive rate of 22% approximately. We aid Victoria Fire Department to select a location for a new fire station using our approach. We present detailed results on improvement statistics by locating a new facility, as suggested by our methodology, in the city of Victoria.
翻訳日:2021-09-08 03:38:01 公開日:2021-09-05
# (参考訳) テキストコヒーレンス評価のためのトランスフォーマーモデル [全文訳有]

Transformer Models for Text Coherence Assessment ( http://arxiv.org/abs/2109.02176v1 )

ライセンス: CC BY 4.0
Tushar Abhishek, Daksh Rawat, Manish Gupta, and Vasudeva Varma(参考訳) コヒーレンスはテキスト品質の重要な側面であり、その可読性を確保するために重要である。 要約,質問応答,機械翻訳,質問生成,テーブル・ツー・テキストなど,テキスト生成システムからの出力には必須である。 自動コヒーレンススコアリングモデルは、エッセイスコアリングや書き込みフィードバックの提供にも役立ちます。 これまでの多くの研究は、エンティティベースの手法、構文パターン、談話関係、さらに最近ではテキストコヒーレンスアセスメントのための従来のディープラーニングアーキテクチャを活用してきた。 これまでの作業では、長距離依存関係の処理不能、語彙外単語、モデルシーケンス情報といった欠点に苦しめられている。 コヒーレンス評価は認知的に複雑なタスクであり、より深いモデルが必要であり、他の関連するタスクの恩恵を受けることができると仮定する。 そこで本稿では,このタスクに対して,バニラトランス,階層的トランスフォーマ,マルチタスク学習ベースモデル,ファクトベース入力表現モデルという4種類のトランスフォーマアーキテクチャを提案する。 4つの異なるコヒーレンス評価タスクで、複数のドメインにまたがる人気のあるベンチマークデータセットを用いて実験を行い、既存のモデルよりも優れた結果が得られることを示した。

Coherence is an important aspect of text quality and is crucial for ensuring its readability. It is essential desirable for outputs from text generation systems like summarization, question answering, machine translation, question generation, table-to-text, etc. An automated coherence scoring model is also helpful in essay scoring or providing writing feedback. A large body of previous work has leveraged entity-based methods, syntactic patterns, discourse relations, and more recently traditional deep learning architectures for text coherence assessment. Previous work suffers from drawbacks like the inability to handle long-range dependencies, out-of-vocabulary words, or model sequence information. We hypothesize that coherence assessment is a cognitively complex task that requires deeper models and can benefit from other related tasks. Accordingly, in this paper, we propose four different Transformer-based architectures for the task: vanilla Transformer, hierarchical Transformer, multi-task learning-based model, and a model with fact-based input representation. Our experiments with popular benchmark datasets across multiple domains on four different coherence assessment tasks demonstrate that our models achieve state-of-the-art results outperforming existing models by a good margin.
翻訳日:2021-09-08 03:21:25 公開日:2021-09-05
# 時間的セット予測のためのグローバルローカルアイテム埋め込み

Global-Local Item Embedding for Temporal Set Prediction ( http://arxiv.org/abs/2109.02074v1 )

ライセンス: Link先を確認
Seungjae Jung, Young-Jin Park, Jisu Jeong, Kyung-Min Kim, Hiun Kim, Minkyu Kim, Hanock Kwak(参考訳) ショッピングバスケットの個人購入予測など、オンラインビジネスでレコメンデーションシステムを採用する企業が多くなり、時間的セット予測の重要性が高まっている。 これまでのほとんどのテクニックは、ユーザの履歴を活用することに重点を置いてきたが、それと他人の履歴を組み合わせる研究は、まだ未解決の可能性を秘めている。 本稿では,ユーザ全体およびユーザ内における集合の時間的特性を,二つの時間的パターンを識別するためのグローバル・ローカル情報として表現することで活用することを学ぶ,グローバル・ローカル・アイテム埋め込み(gloie)を提案する。 GLOIEは、変動オートエンコーダ(VAE)と動的グラフベースのモデルを使用して、グローバルおよびローカル情報をキャプチャし、結果のアイテム埋め込みを統合する。 さらに,VAE のデコーダに Tweedie 出力を用いることで,ガウス分布や多項分布よりも実世界の複数のデータ分布に適するゼロ膨張分布やロングテール分布を容易にモデル化できることを示す。 3つの公開ベンチマークで評価すると、ほとんどのランキング指標において、従来の最先端手法を一貫して上回っています。

Temporal set prediction is becoming increasingly important as many companies employ recommender systems in their online businesses, e.g., personalized purchase prediction of shopping baskets. While most previous techniques have focused on leveraging a user's history, the study of combining it with others' histories remains untapped potential. This paper proposes Global-Local Item Embedding (GLOIE) that learns to utilize the temporal properties of sets across whole users as well as within a user by coining the names as global and local information to distinguish the two temporal patterns. GLOIE uses Variational Autoencoder (VAE) and dynamic graph-based model to capture global and local information and then applies attention to integrate resulting item embeddings. Additionally, we propose to use Tweedie output for the decoder of VAE as it can easily model zero-inflated and long-tailed distribution, which is more suitable for several real-world data distributions than Gaussian or multinomial counterparts. When evaluated on three public benchmarks, our algorithm consistently outperforms previous state-of-the-art methods in most ranking metrics.
翻訳日:2021-09-07 17:28:12 公開日:2021-09-05
# ビッグデータと教師なし学習手法を用いたeコマースソーシャルネットワークにおける顧客品質予測手法の提案

Providing an Approach to Predicting Customer Quality in E-Commerce Social Networks Based on Big Data and Unsupervised Learning Method ( http://arxiv.org/abs/2109.02080v1 )

ライセンス: Link先を確認
Mohammad Arab(参考訳) あらゆるビジネス企業の目標の1つは、顧客の忠誠心を高めることです。 顧客ロイヤリティの度合いは顧客品質と呼ばれ、その予測は戦略的マーケティングプラクティスに影響を与える。 本研究の目的は,ビッグデータアルゴリズムと教師なし学習による大規模eコマースソーシャルネットワークの顧客品質の予測である。 この目的のために,Stanford Network Analysis Platform (SNAP) のコミュニティ検出にグラフベースのソーシャルネットワーク分析フレームワークを用いた。 そして、見つかったコミュニティでは、顧客の品質が予測された。 その結果、37.13%のインパクトを持つ様々な訪問は顧客品質に最も大きな影響を与え、他のパラメータの影響の順序は、頻繁な顧客訪問(28.56%)、ソーシャルネットワークにおける役割(28.37%)、間接取引(26.74%)、活動日(25.62%)、顧客ソーシャルネットワークのサイズ(25.06%)である。

One of the goals of every business enterprise is to increase customer loyalty. The degree of customer loyalty is called customer quality which its forecasting will affect strategic marketing practices. The purpose of this study is to predict the quality of customers of large e-commerce social networks by big data algorithms and unsupervised learning. For this purpose, a graph-based social network analysis framework was used for community detection in the Stanford Network Analysis Platform (SNAP). Then in the found communities, the quality of customers was predicted. The results showed that various visits with an impact of 37.13% can have the greatest impact on customer quality and the order of impact of other parameters were from highest to lowest: number of frequent customer visits (28.56%), role in social networks (28.37%), Indirect transactions (26.74%), activity days (25.62%) and customer social network size (25.06%).
翻訳日:2021-09-07 17:27:52 公開日:2021-09-05
# フィッシングURL検出のためのトランスフォーマーベースモデル

A Transformer-based Model to Detect Phishing URLs ( http://arxiv.org/abs/2109.02138v1 )

ライセンス: Link先を確認
Pingfan Xu(参考訳) フィッシング攻撃は、最近サイバーセキュリティコミュニティで大きな注目を集めているセキュリティ問題の1つだ。 フィッシングURL検出には数多くのアプローチがある。 しかし、攻撃者は新たな検出メカニズムを回避できるため、悪意のあるURL検出は依然として研究ホットスポットである。 本稿では,現在検出手法に匹敵する精度と精度を有する,トランスフォーマによる悪質なurl検出モデルを提案する。 実験を行い、既存の6つの古典的検出モデルと比較する。 実験により, トランスフォーマーモデルが最も優れたモデルであり, 検出精度は97.3%であることがわかった。

Phishing attacks are among emerging security issues that recently draws significant attention in the cyber security community. There are numerous existing approaches for phishing URL detection. However, malicious URL detection is still a research hotspot because attackers can bypass newly introduced detection mechanisms by changing their tactics. This paper will introduce a transformer-based malicious URL detection model, which has significant accuracy and outperforms current detection methods. We conduct experiments and compare them with six existing classical detection models. Experiments demonstrate that our transformer-based model is the best performing model from all perspectives among the seven models and achieves 97.3 % of detection accuracy.
翻訳日:2021-09-07 17:27:35 公開日:2021-09-05
# 翼上圧縮性乱流の高精度深層学習推定に向けて

Towards high-accuracy deep learning inference of compressible turbulent flows over aerofoils ( http://arxiv.org/abs/2109.02183v1 )

ライセンス: Link先を確認
Li-Wei Chen and Nils Thuerey(参考訳) 本研究では,Reynolds-averaged Navier-Stokes法を用いて,深層ニューラルネットワークを用いた2次元のエアロフォイル上における圧縮性流れの精度評価を行った。 提案手法は,正準空間への対応するマッピングのエンコードを提供することにより,体に適合した構造化グリッドの正確な流れ場を生成するネットワークを実現する。 ディープニューラルネットワークモデルをランダムに与えられた攻撃角とレイノルズ数での非圧縮性流れのベンチマークケースに適用し、以前の研究と比べて1桁以上の改善を実現した。 さらに, 超超音速流の場合, ディープニューラルネットモデルは, 衝撃波/境界層相互作用などのレイノルズ数の高い複雑な流れ挙動, 圧力係数, 皮膚摩擦係数, およびエアロフォイル下流のウェイクトータル圧力プロファイルなどの定量的分布を正確に予測する。 提案する深層学習法は, 流れ場の予測を著しく高速化し, 高速空力設計の実現を期待できる。

The present study investigates the accurate inference of Reynolds-averaged Navier-Stokes solutions for the compressible flow over aerofoils in two dimensions with a deep neural network. Our approach yields networks that learn to generate precise flow fields for varying body-fitted, structured grids by providing them with an encoding of the corresponding mapping to a canonical space for the solutions. We apply the deep neural network model to a benchmark case of incompressible flow at randomly given angles of attack and Reynolds numbers and achieve an improvement of more than an order of magnitude compared to previous work. Further, for transonic flow cases, the deep neural network model accurately predicts complex flow behaviour at high Reynolds numbers, such as shock wave/boundary layer interaction, and quantitative distributions like pressure coefficient, skin friction coefficient as well as wake total pressure profiles downstream of aerofoils. The proposed deep learning method significantly speeds up the predictions of flow fields and shows promise for enabling fast aerodynamic designs.
翻訳日:2021-09-07 17:27:11 公開日:2021-09-05
# Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description

The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description ( http://arxiv.org/abs/2109.02052v1 )

ライセンス: Link先を確認
Josef Slav\'i\v{c}ek and Albert Swart and Michal Kl\v{c}o and Niko Br\"ummer(参考訳) 教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。 私たちのソリューションは、IDLabがVoxSRC-20で勝ったのと非常によく似ています。 モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。 続いて、疑似話者ラベルを割り当てるクラスタリングが数回実施され、教師付きインクリプタトレーニングに使用された。 最後に、5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。 また,コサインスコアではなく,DNN埋め込みではなくiベクターを組み込んだ解やPLDAについても簡潔に述べる。

We describe the Phonexia submission for the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC-21) in the unsupervised speaker verification track. Our solution was very similar to IDLab's winning submission for VoxSRC-20. An embedding extractor was bootstrapped using momentum contrastive learning, with input augmentations as the only source of supervision. This was followed by several iterations of clustering to assign pseudo-speaker labels that were then used for supervised embedding extractor training. Finally, a score fusion was done, by averaging the zt-normalized cosine scores of five different embedding extractors. We briefly also describe unsuccessful solutions involving i-vectors instead of DNN embeddings and PLDA instead of cosine scoring.
翻訳日:2021-09-07 17:23:24 公開日:2021-09-05
# 視覚と言語のための効率的マスキング言語モデリング

Data Efficient Masked Language Modeling for Vision and Language ( http://arxiv.org/abs/2109.02040v1 )

ライセンス: Link先を確認
Yonatan Bitton, Gabriel Stanovsky, Michael Elhadad, Roy Schwartz(参考訳) Masked Language Modeling (MLM)は、視覚言語事前学習における重要なサブタスクの1つである。 クロスモーダル設定では、文中のトークンはランダムにマスクされ、モデルは画像とテキストが与えられたマスクされたトークンを予測する。 本稿では,MLMのいくつかの重要な欠点について考察する。 まず、キャプションが短い傾向があるため、文の3分の1でトークンはサンプリングされない。 第二に、マスクされたトークンの大部分はストップワードと句読点であり、画像の活用不足につながる。 これらの欠点に対処し,学習表現におけるテキストと画像の融合を改善するために,クロスモーダル設定に特有のマスキング戦略について検討した。 LXMERTモデルの事前学習では、特に低リソース設定において、従来の3つの下流タスクにおけるマスキング戦略よりも、マスキング戦略が一貫して改善される。 さらに,画像オブジェクトを導出するプロンプトベースの探索タスクでは,事前学習アプローチがベースラインモデルを大きく上回っている。 これらの結果と分析は,本手法がトレーニングデータのより良い活用を可能にすることを示唆している。

Masked language modeling (MLM) is one of the key sub-tasks in vision-language pretraining. In the cross-modal setting, tokens in the sentence are masked at random, and the model predicts the masked tokens given the image and the text. In this paper, we observe several key disadvantages of MLM in this setting. First, as captions tend to be short, in a third of the sentences no token is sampled. Second, the majority of masked tokens are stop-words and punctuation, leading to under-utilization of the image. We investigate a range of alternative masking strategies specific to the cross-modal setting that address these shortcomings, aiming for better fusion of text and image in the learned representation. When pre-training the LXMERT model, our alternative masking strategies consistently improve over the original masking strategy on three downstream tasks, especially in low resource settings. Further, our pre-training approach substantially outperforms the baseline model on a prompt-based probing task designed to elicit image objects. These results and our analysis indicate that our method allows for better utilization of the training data.
翻訳日:2021-09-07 17:03:10 公開日:2021-09-05
# Sparse-MLP: 条件計算を備えたフルMLPアーキテクチャ

Sparse-MLP: A Fully-MLP Architecture with Conditional Computation ( http://arxiv.org/abs/2109.02008v1 )

ライセンス: Link先を確認
Yuxuan Lou, Fuzhao Xue, Zangwei Zheng, Yang You(参考訳) 厳密な条件計算を伴うMoE(Mixture of Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャとして証明されている。 本稿では,最近のmlp-mixerモデルを疎moe層でスケーリングし,より計算効率の高いアーキテクチャを実現するsparse-mlpを提案する。 MLP-Mixerモデルの高密度なMLPブロックのサブセットをスパースブロックに置き換える。 各Sparseブロックでは、MLPの専門家が画像パッチ次元に沿ってチャネル内で情報を混合する手法と、MLP専門家がチャネル次元に沿ってパッチ内で情報を混合する手法の2つの段階をMoE層に適用する。 さらに、ルーティングの計算コストを削減し、専門家の能力を向上させるため、各Sparseブロックに再表現層を設計する。 これらの層は2つの単純かつ効果的な線形変換によって画像表現を再スケールする。 ImageNet-1kをMoCo v3アルゴリズムで事前トレーニングすることにより、我々のモデルは、複数の下流画像分類タスクにおいて、同等のパラメータと計算コストの少ない高密度MLPモデルより優れる。

Mixture of Experts (MoE) with sparse conditional computation has been proved an effective architecture for scaling attention-based models to more parameters with comparable computation cost. In this paper, we propose Sparse-MLP, scaling the recent MLP-Mixer model with sparse MoE layers, to achieve a more computation-efficien t architecture. We replace a subset of dense MLP blocks in the MLP-Mixer model with Sparse blocks. In each Sparse block, we apply two stages of MoE layers: one with MLP experts mixing information within channels along image patch dimension, one with MLP experts mixing information within patches along the channel dimension. Besides, to reduce computational cost in routing and improve experts capacity, we design Re-represent layers in each Sparse block. These layers are to re-scale image representations by two simple but effective linear transformations. By pre-training on ImageNet-1k with MoCo v3 algorithm, our models can outperform dense MLP models with comparable parameters and less computational cost on several downstream image classification tasks.
翻訳日:2021-09-07 17:02:18 公開日:2021-09-05
# 人物をセンサとして用いたマルチエージェント変動咬合推定

Multi-Agent Variational Occlusion Inference Using People as Sensors ( http://arxiv.org/abs/2109.02173v1 )

ライセンス: Link先を確認
Masha Itkina, Ye-Ji Mun, Katherine Driggs-Campbell, and Mykel J. Kochenderfer(参考訳) 自動運転車は、過度に注意を払わずに安全を確保するために、都市環境における空間閉塞を推論する必要がある。 先行研究は道路エージェントの観察された社会的行動からの咬合推定を考察した。 エージェントの行動から占有率を推測することは本質的にマルチモーダルな問題であり、ドライバーは前もって異なる占有パターンに対して同じように振る舞うことができる(例えば、ドライバーは交通の一定速度で移動したり、公道で移動したりできる)。 しかし、過去の研究はこのマルチモダリティを考慮していないため、ドライバーの行動と環境の関係において、この不確実性の原因をモデル化することを怠っている。 本稿では,人間のエージェントの観察した動作をセンサ計測として特徴付け,標準センサースイートの動作と融合する咬合推定法を提案する。 そこで我々は,観測されたドライバ軌跡からドライバ前方のビューの占有グリッド表現へのマルチモーダルマッピングを学習するために,個別の遅延空間を持つ条件付き変分オートエンコーダを訓練する。 本手法はマルチエージェントシナリオを処理し,複数の観測ドライバからの計測値を組み合わせてセンサ融合問題を解く。 我々のアプローチは、実世界のデータセットで検証され、ベースラインを上回り、リアルタイムに有能なパフォーマンスを示す。 私たちのコードはhttps://github.com/s isl/MultiAgentVariat ionalOcclusionInfere nceで利用可能です。

Autonomous vehicles must reason about spatial occlusions in urban environments to ensure safety without being overly cautious. Prior work explored occlusion inference from observed social behaviors of road agents. Inferring occupancy from agent behaviors is an inherently multimodal problem; a driver may behave in the same manner for different occupancy patterns ahead of them (e.g., a driver may move at constant speed in traffic or on an open road). Past work, however, does not account for this multimodality, thus neglecting to model this source of aleatoric uncertainty in the relationship between driver behaviors and their environment. We propose an occlusion inference method that characterizes observed behaviors of human agents as sensor measurements, and fuses them with those from a standard sensor suite. To capture the aleatoric uncertainty, we train a conditional variational autoencoder with a discrete latent space to learn a multimodal mapping from observed driver trajectories to an occupancy grid representation of the view ahead of the driver. Our method handles multi-agent scenarios, combining measurements from multiple observed drivers using evidential theory to solve the sensor fusion problem. Our approach is validated on a real-world dataset, outperforming baselines and demonstrating real-time capable performance. Our code is available at https://github.com/s isl/MultiAgentVariat ionalOcclusionInfere nce .
翻訳日:2021-09-07 17:00:57 公開日:2021-09-05
# 偽否定を知る: 遠隔監視関係抽出のための逆学習法

Knowing False Negatives: An Adversarial Training Method for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2109.02099v1 )

ライセンス: Link先を確認
Kailong Hao and Botao Yu and Wei Hu(参考訳) 遠隔教師付き関係抽出(RE)は、知識ベース(KB)における非構造化テキストと関係インスタンスを自動的に調整する。 現在のKBの不完全性のため、ある関係を示す文はN/Aインスタンスとして注釈付けされ、いわゆる偽陰性(FN)問題を引き起こす。 現在のREメソッドは通常この問題を見落とし、トレーニングとテストの両方で不適切なバイアスを引き起こす。 この問題に対処するために,我々は二段階アプローチを提案する。 まず、深層ニューラルネットワークのメモリ機構をヒューリスティックに活用することで、fnサンプルを見つける。 そして、これらの未ラベルデータとトレーニングデータとを、擬似ラベルを割り当てる対向訓練により統合された特徴空間に整合させ、それらに含まれる情報をさらに活用する。 2つの大胆なベンチマークデータセットの実験は、我々のアプローチの有効性を実証している。

Distantly supervised relation extraction (RE) automatically aligns unstructured text with relation instances in a knowledge base (KB). Due to the incompleteness of current KBs, sentences implying certain relations may be annotated as N/A instances, which causes the so-called false negative (FN) problem. Current RE methods usually overlook this problem, inducing improper biases in both training and testing procedures. To address this issue, we propose a two-stage approach. First, it finds out possible FN samples by heuristically leveraging the memory mechanism of deep neural networks. Then, it aligns those unlabeled data with the training data into a unified feature space by adversarial training to assign pseudo labels and further utilize the information contained in them. Experiments on two wildly-used benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2021-09-07 17:00:10 公開日:2021-09-05
# 自信蒸留を用いた効率的な行動認識

Efficient Action Recognition Using Confidence Distillation ( http://arxiv.org/abs/2109.02137v1 )

ライセンス: Link先を確認
Shervin Manzuri Shalmani, Fei Chiang, Rong Zheng(参考訳) 現代のニューラルネットワークは強力な予測モデルです。 しかし、予測が間違っている可能性があると認識した場合は、パフォーマンスが悪くなります。 例えば、最も一般的なアクティベーション関数の1つであるReLUとその変種の場合、よく校正されたモデルでさえ、誤ったが高い信頼性の予測を生成することができる。 アクション認識のタスクでは、ほとんどの現行の分類法は、クリップレベルの分類器に基づいて、重複しない同じサイズのクリップに対して所定のビデオを密にサンプリングし、その結果を集約する(通常平均化)。 このアプローチは有効であることが示されているが、認識精度が最適であり、計算オーバーヘッドが高い。 これら2つの問題を緩和するために,教師の不確実性の表現を学生サンプルに教える信頼性蒸留フレームワークを提案し,学生と教師モデルの間で全映像予測のタスクを分割する。 3つの行動認識データセットについて広範な実験を行い,提案手法が行動認識精度(最大20%)と計算効率(40%以上)の大幅な改善を実現することを実証した。

Modern neural networks are powerful predictive models. However, when it comes to recognizing that they may be wrong about their predictions, they perform poorly. For example, for one of the most common activation functions, the ReLU and its variants, even a well-calibrated model can produce incorrect but high confidence predictions. In the related task of action recognition, most current classification methods are based on clip-level classifiers that densely sample a given video for non-overlapping, same-sized clips and aggregate the results using an aggregation function - typically averaging - to achieve video level predictions. While this approach has shown to be effective, it is sub-optimal in recognition accuracy and has a high computational overhead. To mitigate both these issues, we propose the confidence distillation framework to teach a representation of uncertainty of the teacher to the student sampler and divide the task of full video prediction between the student and the teacher models. We conduct extensive experiments on three action recognition datasets and demonstrate that our framework achieves significant improvements in action recognition accuracy (up to 20%) and computational efficiency (more than 40%).
翻訳日:2021-09-07 16:57:40 公開日:2021-09-05
# オンライン・マルチソース・ドメインの自動適応

Automatic Online Multi-Source Domain Adaptation ( http://arxiv.org/abs/2109.01996v1 )

ライセンス: Link先を確認
Renchunzi Xie, Mahardhika Pratama(参考訳) 複数のストリーミングプロセス間の知識伝達は、各ストリームの分布が異なるだけでなく、データストリームの急激な変化と絶え間ない環境のため、依然として困難な問題である。 この領域における研究成果の増大にもかかわらず、既存の研究の多くは、そのレジリエンスを制限して、概念のドリフトから素早く回復し、負の転送問題を避けるために、複数のソースドメインを活用するために有用である。 本稿では,マルチソースストリーミングプロセスに基づくオンラインドメイン適応手法であるautomated online multi-source domain adaptation (aomsda)を提案する。 AOMSDAのオンラインドメイン適応戦略は、中央モーメント不一致(CMD)ベースの正規化器を統合化して複数ソースドメインの存在を処理し、相補的な情報ソースを利用する、自動エンコーダ(DAE)の生成的および識別的アプローチで定式化される。 異なる期間に発生する非同期の概念ドリフトは、自己組織化構造とノード再重み付け戦略によって対処される。 本研究は,aomsdaが8例中5例で,aomsdaの成績を上回ることができ,一方,アブレーション研究では各学習成分の利点が示される。 さらに、AOMSDAは任意の数のソースストリームに対して一般的なものである。 AOMSDAのソースコードはhttps://github.com/R enchunzi-Xie/AOMSDA. gitで公開されている。

Knowledge transfer across several streaming processes remain challenging problem not only because of different distributions of each stream but also because of rapidly changing and never-ending environments of data streams. Albeit growing research achievements in this area, most of existing works are developed for a single source domain which limits its resilience to exploit multi-source domains being beneficial to recover from concept drifts quickly and to avoid the negative transfer problem. An online domain adaptation technique under multisource streaming processes, namely automatic online multi-source domain adaptation (AOMSDA), is proposed in this paper. The online domain adaptation strategy of AOMSDA is formulated under a coupled generative and discriminative approach of denoising autoencoder (DAE) where the central moment discrepancy (CMD)-based regularizer is integrated to handle the existence of multi-source domains thereby taking advantage of complementary information sources. The asynchronous concept drifts taking place at different time periods are addressed by a self-organizing structure and a node re-weighting strategy. Our numerical study demonstrates that AOMSDA is capable of outperforming its counterparts in 5 of 8 study cases while the ablation study depicts the advantage of each learning component. In addition, AOMSDA is general for any number of source streams. The source code of AOMSDA is shared publicly in https://github.com/R enchunzi-Xie/AOMSDA. git.
翻訳日:2021-09-07 16:56:20 公開日:2021-09-05
# 構造最適化はグラフの分類をシンプルかつ良くする

Structural Optimization Makes Graph Classification Simpler and Better ( http://arxiv.org/abs/2109.02027v1 )

ライセンス: Link先を確認
Junran Wu, Jianhao Li, Yicheng Pan, Ke Xu(参考訳) ディープニューラルネットワークでは、従来開発された基本モデルの複雑さを増大させることで、よりよい結果が得られることが多い。 しかし、そのようなモデルの複雑さを減らして性能を高める方法があるかどうかは不明である。 そこで本研究では,モデル学習プロセスを簡素化しつつ,グラフ分類性能の向上の可能性を検討する。 構造情報アセスメントの進歩に触発されて、グラフから木をコードするデータサンプルを最適化する。 特に、変換された符号化木の構造エントロピーを最小化し、グラフの基礎となるキー構造をデコードする。 この変換は構造最適化と呼ばれる。 さらに,木をエンコードするための新しい特徴結合スキームである階層的レポートを提案する。 このスキームでは、特徴をエンコーディングツリーの階層構造に従って葉ノードから根ノードに転送する。 次に,木カーネルと畳み込みネットワークにおけるスキームの実装を行い,グラフ分類を行う。 ツリーカーネルはWeisfeiler-Lehman(WL )サブツリーカーネルでラベルの伝搬に従うが、ランタイムの複雑さは$O(n)$である。 The convolutional network is a special implementation of our tree kernel in the Deep Learning field, is called Encoding Tree Learning (ETL)。 木カーネルと畳み込みネットワークをいくつかのグラフ分類ベンチマークで実証的に検証し,本手法が競合する手法よりも優れた性能と少ない計算消費を実現することを示す。

In deep neural networks, better results can often be obtained by increasing the complexity of previously developed basic models. However, it is unclear whether there is a way to boost performance by decreasing the complexity of such models. Here, based on an optimization method, we investigate the feasibility of improving graph classification performance while simplifying the model learning process. Inspired by progress in structural information assessment, we optimize the given data sample from graphs to encoding trees. In particular, we minimize the structural entropy of the transformed encoding tree to decode the key structure underlying a graph. This transformation is denoted as structural optimization. Furthermore, we propose a novel feature combination scheme, termed hierarchical reporting, for encoding trees. In this scheme, features are transferred from leaf nodes to root nodes by following the hierarchical structures of encoding trees. We then present an implementation of the scheme in a tree kernel and a convolutional network to perform graph classification. The tree kernel follows label propagation in the Weisfeiler-Lehman (WL) subtree kernel, but it has a lower runtime complexity $O(n)$. The convolutional network is a special implementation of our tree kernel in the deep learning field and is called Encoding Tree Learning (ETL). We empirically validate our tree kernel and convolutional network with several graph classification benchmarks and demonstrate that our methods achieve better performance and lower computational consumption than competing approaches.
翻訳日:2021-09-07 16:55:51 公開日:2021-09-05
# Multitask (Multitask) Gradient Boosted Tree のスケーラブルな特徴選択

Scalable Feature Selection for (Multitask) Gradient Boosted Trees ( http://arxiv.org/abs/2109.01965v1 )

ライセンス: Link先を確認
Cuize Han, Nikhil Rao, Daria Sorokina, Karthik Subbian(参考訳) gradient boosted decision tree (gbdts) は検索とレコメンデーションのランク付けと関連モデルの構築に広く使われている。 レイテンシや解釈可能性といった考慮事項は、これらのモデルをトレーニングするために可能な限り少数の機能を使用するように規定する。 gbdtモデルにおける特徴の選択は、通常、重要度によって特徴をヒューリスティックにランク付けし、上位数を選ぶか、完全な後方的特徴排除ルーチンを実行することによって行われる。 従来提案したオン・ザ・フライ特徴選択法は,高次元設定で顕著な特徴量に比例して拡張可能である。 GBDTのための拡張性のある前方特徴選択変種を,高次元で良好に動作し,理論性能と計算保証を良好に享受する新しいグループテスト手法により開発する。 提案手法は,パブリックデータセットとプロプライエタリデータセットの両方において,既存のgbdt法と同様,モデル性能指標の面での競争力が保たれながら,トレーニング時間の大幅な高速化が期待できることを示す。 また,マルチタスク設定にメソッドを拡張して,タスク間の共通機能の選択やタスク固有の機能の選択を可能にした。

Gradient Boosted Decision Trees (GBDTs) are widely used for building ranking and relevance models in search and recommendation. Considerations such as latency and interpretability dictate the use of as few features as possible to train these models. Feature selection in GBDT models typically involves heuristically ranking the features by importance and selecting the top few, or by performing a full backward feature elimination routine. On-the-fly feature selection methods proposed previously scale suboptimally with the number of features, which can be daunting in high dimensional settings. We develop a scalable forward feature selection variant for GBDT, via a novel group testing procedure that works well in high dimensions, and enjoys favorable theoretical performance and computational guarantees. We show via extensive experiments on both public and proprietary datasets that the proposed method offers significant speedups in training time, while being as competitive as existing GBDT methods in terms of model performance metrics. We also extend the method to the multitask setting, allowing the practitioner to select common features across tasks, as well as selecting task-specific features.
翻訳日:2021-09-07 16:53:55 公開日:2021-09-05
# ネットワーク量子化損失最小化のためのビットドロップによるクラスタプロモーティング量子化

Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss ( http://arxiv.org/abs/2109.02100v1 )

ライセンス: Link先を確認
Jung Hyun Lee, Jihun Yun, Sung Ju Hwang, Eunho Yang(参考訳) ネットワーク量子化(network quantization)は、ネットワークの重み付けとアクティベーションのビット長を削減することを目的としている。 近年の研究では、完全精度ネットワークの離散化に成功しているが、トレーニング後に大きな量子化エラーが発生するため、完全精度ネットワークと量子化ネットワークの間に大きなパフォーマンスギャップが生じる。 本研究では,ニューラルネットワークのための新しい量子化手法であるクラスタ・プロモーティング量子化(cpq)を提案する。 CPQのこの特性は, 異なる量子化を可能にする2つの主成分のおかげである: i) 後方パスにおける特定の確率的パラメトリゼーションによって設計されたカテゴリー分布の使用, i) 後方パスにおける提案した多クラスストレートスルー推定器(STE)。 第2のコンポーネントであるマルチクラスSTEは本質的にバイアスを受けているため、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ手法であるDropBitsも提案する。 DropBitsの自然な拡張として、DropBitsにさらなる正規化を加えることで、各層に対して適切なビット長を求めるための異種量子化レベルを学習する方法をさらに導入する。 本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証し,量子化の新しい仮説を支持した。

Network quantization, which aims to reduce the bit-lengths of the network weights and activations, has emerged for their deployments to resource-limited devices. Although recent studies have successfully discretized a full-precision network, they still incur large quantization errors after training, thus giving rise to a significant performance gap between a full-precision network and its quantized counterpart. In this work, we propose a novel quantization method for neural networks, Cluster-Promoting Quantization (CPQ) that finds the optimal quantization grids while naturally encouraging the underlying full-precision weights to gather around those quantization grids cohesively during training. This property of CPQ is thanks to our two main ingredients that enable differentiable quantization: i) the use of the categorical distribution designed by a specific probabilistic parametrization in the forward pass and ii) our proposed multi-class straight-through estimator (STE) in the backward pass. Since our second component, multi-class STE, is intrinsically biased, we additionally propose a new bit-drop technique, DropBits, that revises the standard dropout regularization to randomly drop bits instead of neurons. As a natural extension of DropBits, we further introduce the way of learning heterogeneous quantization levels to find proper bit-length for each layer by imposing an additional regularization on DropBits. We experimentally validate our method on various benchmark datasets and network architectures, and also support a new hypothesis for quantization: learning heterogeneous quantization levels outperforms the case using the same but fixed quantization levels from scratch.
翻訳日:2021-09-07 16:52:13 公開日:2021-09-05
# 移動可能な逆襲に対するメタサーロゲートモデルの訓練

Training Meta-Surrogate Model for Transferable Adversarial Attack ( http://arxiv.org/abs/2109.01983v1 )

ライセンス: Link先を確認
Yunxiao Qin, Yuanhao Xiong, Jinfeng Yi, Cho-Jui Hsieh(参考訳) クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。 この設定では、多くのメソッドがサーロゲートモデルを直接攻撃し、得られた逆の例をターゲットモデルを騙すために転送する。 以前の多くの研究で、サーロゲートモデルに対する攻撃がより転送可能な敵の例を生み出す可能性があるが、サーロゲートモデルとターゲットモデルとのミスマッチのため、その性能は依然として制限されている。 本稿では,この問題を新たな角度から解くこと -- オリジナルのサロゲートモデルを使う代わりに,このモデルへの攻撃が他のモデルに容易に伝達できるメタサーロゲートモデル(msm)を入手することができるか? 本研究は, この目標を2段階最適化問題として数学的に定式化し, 識別可能なアタッカーを設計し, 訓練を可能とした。 そこで本手法は,一組あるいは一組のサロゲートモデルを用いて,MSM 上で生成した逆例を有効利用可能な MSM を得る。 Cifar-10 と ImageNet の総合的な実験により、MSM を攻撃することにより、既存の手法よりもはるかに高い成功率で、敵に訓練されたものを含むブラックボックスモデルを騙すための、より強力な転送可能な敵の例が得られることを示した。 提案手法は深部モデルの重大なセキュリティ上の課題を明らかにし,ブラックボックス設定における深部モデルの堅牢性を評価するための最先端ベンチマークとして機能することを約束している。

We consider adversarial attacks to a black-box model when no queries are allowed. In this setting, many methods directly attack surrogate models and transfer the obtained adversarial examples to fool the target model. Plenty of previous works investigated what kind of attacks to the surrogate model can generate more transferable adversarial examples, but their performances are still limited due to the mismatches between surrogate models and the target model. In this paper, we tackle this problem from a novel angle -- instead of using the original surrogate models, can we obtain a Meta-Surrogate Model (MSM) such that attacks to this model can be easier transferred to other models? We show that this goal can be mathematically formulated as a well-posed (bi-level-like) optimization problem and design a differentiable attacker to make training feasible. Given one or a set of surrogate models, our method can thus obtain an MSM such that adversarial examples generated on MSM enjoy eximious transferability. Comprehensive experiments on Cifar-10 and ImageNet demonstrate that by attacking the MSM, we can obtain stronger transferable adversarial examples to fool black-box models including adversarially trained ones, with much higher success rates than existing methods. The proposed method reveals significant security challenges of deep models and is promising to be served as a state-of-the-art benchmark for evaluating the robustness of deep models in the black-box setting.
翻訳日:2021-09-07 16:49:38 公開日:2021-09-05
# 多元的部分観測環境のためのソフト階層グラフリカレントネットワーク

Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially Observable Environments ( http://arxiv.org/abs/2109.02032v1 )

ライセンス: Link先を確認
Zhenhui Ye, Xiaohong Jiang, Guanghua Song, Bowei Yang(参考訳) マルチエージェントディープ強化学習(MADRL)の最近の進歩により、現実のタスクではより実用的になるが、スケーラビリティが比較的低く、部分的に観察可能な制約がパフォーマンスとデプロイメントに課題をもたらす。 人間の社会は、近隣の人とコミュニケーションし、自身の経験を記憶する機能を持つ大規模な部分観測可能な環境とみなすことができるという直感的な観察に基づいて、部分観測性の下でのマルチエージェント協調のための階層グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。 具体的には,マルチエージェントシステムをグラフとして構築し,階層型グラフアテンションネットワーク(hgat)を用いて隣接エージェント間の通信を実現し,エージェントが履歴情報を記録できるようにする。 探索を奨励し、ロバスト性を向上させるために、設定可能なターゲットアクションエントロピーの確率的ポリシーを学習するための最大エントロピー学習法を設計する。 以上の技術に基づいて、Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと、SAC-HRGNというアクタクリティカルな変種を提案する。 3つの均質なタスクと1つの異質な環境に基づく実験結果から,提案手法が4つのベースラインと比較して明らかに改善されるだけでなく,提案モデルの解釈性,拡張性,転送性も示された。 アブレーション研究は各成分の機能と必要性を証明する。

The recent progress in multi-agent deep reinforcement learning(MADRL) makes it more practical in real-world tasks, but its relatively poor scalability and the partially observable constraints raise challenges to its performance and deployment. Based on our intuitive observation that the human society could be regarded as a large-scale partially observable environment, where each individual has the function of communicating with neighbors and remembering its own experience, we propose a novel network structure called hierarchical graph recurrent network(HGRN) for multi-agent cooperation under partial observability. Specifically, we construct the multi-agent system as a graph, use the hierarchical graph attention network(HGAT) to achieve communication between neighboring agents, and exploit GRU to enable agents to record historical information. To encourage exploration and improve robustness, we design a maximum-entropy learning method to learn stochastic policies of a configurable target action entropy. Based on the above technologies, we proposed a value-based MADRL algorithm called Soft-HGRN and its actor-critic variant named SAC-HRGN. Experimental results based on three homogeneous tasks and one heterogeneous environment not only show that our approach achieves clear improvements compared with four baselines, but also demonstrates the interpretability, scalability, and transferability of the proposed model. Ablation studies prove the function and necessity of each component.
翻訳日:2021-09-07 16:49:13 公開日:2021-09-05
# ホログラフィック還元表現による学習

Learning with Holographic Reduced Representations ( http://arxiv.org/abs/2109.02157v1 )

ライセンス: Link先を確認
Ashwinkumar Ganesan, Hang Gao, Sunil Gandhi, Edward Raff, Tim Oates, James Holt, Mark McLean(参考訳) Holographic Reduced Representations (HRR) は、各ベクトルを抽象的な概念に関連付け、ベクトルを古典的な記号オブジェクトのように操作する数学的操作を提供することにより、実数値ベクトルの上にシンボルAIを実行する方法である。 この方法は、古い象徴的なAI作業や認知科学以外ではほとんど使われていない。 私たちの目標は、ディープラーニングアーキテクチャの差別化可能なコンポーネントとして、学習へのハイブリッドニューラルシンボリックアプローチが有効かどうかを理解するために、このアプローチを再検討することにあります。 現在のHRRは数値的な不安定性のために微分可能解には有効ではなく、空間のよく振る舞う点にベクトルを強制する射影ステップを導入することで解決する。 これにより,HRRの検索効率を100\times$以上向上する。 マルチラベル分類を用いて,HRRのシンボル特性を活用して,効果的に学習可能な出力層と損失関数を開発する方法を示し,HRRのニューロシンボリック学習アプローチの長所と短所について検討する。

Holographic Reduced Representations (HRR) are a method for performing symbolic AI on top of real-valued vectors \cite{Plate1995} by associating each vector with an abstract concept, and providing mathematical operations to manipulate vectors as if they were classic symbolic objects. This method has seen little use outside of older symbolic AI work and cognitive science. Our goal is to revisit this approach to understand if it is viable for enabling a hybrid neural-symbolic approach to learning as a differentiable component of a deep learning architecture. HRRs today are not effective in a differentiable solution due to numerical instability, a problem we solve by introducing a projection step that forces the vectors to exist in a well behaved point in space. In doing so we improve the concept retrieval efficacy of HRRs by over $100\times$. Using multi-label classification we demonstrate how to leverage the symbolic HRR properties to develop an output layer and loss function that is able to learn effectively, and allows us to investigate some of the pros and cons of an HRR neuro-symbolic learning approach.
翻訳日:2021-09-07 16:48:47 公開日:2021-09-05
# FBCNN: ポータブルで高速な脳-コンピュータインタフェースのためのディープニューラルネットワークアーキテクチャ

FBCNN: A Deep Neural Network Architecture for Portable and Fast Brain-Computer Interfaces ( http://arxiv.org/abs/2109.02165v1 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi and Romis Attux(参考訳) 目的: フィルタバンク畳み込みニューラルネットワーク(FBCNN)である新しいディープニューラルネットワーク(DNN)アーキテクチャを提案し、小さなデータ長を持つシングルチャネルBCIにおけるSSVEP分類を改善する。 方法: FBCNN-2DとFBCNN-3Dの2つのモデルを提案する。 FBCNN-2Dはフィルタバンクを用いて脳波(EEG)信号のサブバンド成分を生成し、高速フーリエ変換(FFT)を用いて変換し、2D CNNで解析する。 FBCNN-3Dは、同じフィルタバンクを使用するが、サブバンドコンポーネントを短時間フーリエ変換(STFT)により分光器に変換し、3D CNNで解析する。 私たちは転校学習を利用した。 FBCNN-3Dを訓練するために,2次元DNNから3次元DNNへ知識を伝達する,相互伝達学習と呼ばれる新しい手法を提案した。 bciは最終ユーザからの校正を必要としないように考案されたため,試験対象データはトレーニングと検証から分離された。 結果: FBCCA-2Dは85.7%, FBCCA-3Dは85%であった。 平均F1スコアは0.858と0.853である。 代替分類法であるSVM、FBCCA、CNNはそれぞれ79.2%、80.1%、81.4%の精度であった。 結論: シミュレーションBCIでは, FBCNNが従来のSSVEP分類法をかなり上回り, 精度は5%向上した。 トランスファー学習と次元間トランスファー学習により、トレーニングの迅速化と予測性が向上した。 意義:我々は,携帯型および高速なBCIのためのSSVEP分類における標準手法よりも優れた性能を有する,新しいフレキシブルなDNNを提案した。

Objective: To propose a novel deep neural network (DNN) architecture -- the filter bank convolutional neural network (FBCNN) -- to improve SSVEP classification in single-channel BCIs with small data lengths. Methods: We propose two models: the FBCNN-2D and the FBCNN-3D. The FBCNN-2D utilizes a filter bank to create sub-band components of the electroencephalograp hy (EEG) signal, which it transforms using the fast Fourier transform (FFT) and analyzes with a 2D CNN. The FBCNN-3D utilizes the same filter bank, but it transforms the sub-band components into spectrograms via short-time Fourier transform (STFT), and analyzes them with a 3D CNN. We made use of transfer learning. To train the FBCNN-3D, we proposed a new technique, called inter-dimensional transfer learning, to transfer knowledge from a 2D DNN to a 3D DNN. Our BCI was conceived so as not to require calibration from the final user: therefore, the test subject data was separated from training and validation. Results: The mean test accuracy was 85.7% for the FBCCA-2D and 85% for the FBCCA-3D. Mean F1-Scores were 0.858 and 0.853. Alternative classification methods, SVM, FBCCA and a CNN, had mean accuracy of 79.2%, 80.1% and 81.4%, respectively. Conclusion: The FBCNNs surpassed traditional SSVEP classification methods in our simulated BCI, by a considerable margin (about 5% higher accuracy). Transfer learning and inter-dimensional transfer learning made training much faster and more predictable. Significance: We proposed a new and flexible type of DNN, which had a better performance than standard methods in SSVEP classification for portable and fast BCIs.
翻訳日:2021-09-07 16:48:25 公開日:2021-09-05
# エンベロープ抽出・ピーク検出・クラスタリングのための時系列非パラメトリックエクストリーム解析

Nonparametric Extrema Analysis in Time Series for Envelope Extraction, Peak Detection and Clustering ( http://arxiv.org/abs/2109.02082v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本稿では,エンベロープ抽出,ピークバースト検出,時系列クラスタリングに使用できる非パラメトリック手法を提案する。 我々の問題定式化は、自然に定義された時系列の分割/フォークをもたらす。 階層的実装の可能性があるため、機械学習、信号処理、数学的ファイナンスといった様々な用途に使用できる。 入力信号から,累積$l_1$ドリフトを最小化することにより,2つの信号(1つの上限信号と1つの下限信号)を順次生成する。 最適除去ルールとともに,ビタビ様経路追跡アルゴリズムを用いて解を効率的に計算できることを示す。 我々は、アルゴリズムが線形に近い時間複雑性を持つ多くの興味深い設定を考える。

In this paper, we propose a nonparametric approach that can be used in envelope extraction, peak-burst detection and clustering in time series. Our problem formalization results in a naturally defined splitting/forking of the time series. With a possibly hierarchical implementation, it can be used for various applications in machine learning, signal processing and mathematical finance. From an incoming input signal, our iterative procedure sequentially creates two signals (one upper bounding and one lower bounding signal) by minimizing the cumulative $L_1$ drift. We show that a solution can be efficiently calculated by use of a Viterbi-like path tracking algorithm together with an optimal elimination rule. We consider many interesting settings, where our algorithm has near-linear time complexities.
翻訳日:2021-09-07 16:47:36 公開日:2021-09-05
# 視覚障害の軽減に先立つ深層塩分濃度

Deep Saliency Prior for Reducing Visual Distraction ( http://arxiv.org/abs/2109.01980v1 )

ライセンス: Link先を確認
Kfir Aberman, Junfeng He, Yossi Gandelsman, Inbar Mosseri, David E. Jacobs, Kai Kohlhoff, Yael Pritch, Michael Rubinstein(参考訳) 画像がどこにあるかを予測するためにトレーニングされたモデルのみを使用し、追加のトレーニングデータがないため、画像の歪みを減らすための強力な編集効果が生成される。 画像と編集対象領域を指定するマスクが与えられた場合、我々は最先端のサリエンシーモデルを介してバックプロパゲーションを行い、マスキング領域内のサリエンシーを減少させるように、差別化可能な編集演算子をパラメータ化する。 色変換を学習し、周囲に注意をそらす色変換を施す recoloring operator や、注意をそらすために画像領域を弱め、徐々にオブジェクトを自分自身に分解し、それらを効果的に除去する warping operator や、画像領域を完全に置き換えるためにセマンティクスを使用する gan operator など、いくつかの演算子を実演する。 結果として得られる効果は、人間の視覚システムに関する認知研究(例えば、色ミスマッチはサルエントであるため、再色操作者は、周囲の色と周囲の色を調和させることを学び、サルエンシーを減少させる)と一致し、最も重要なのは、事前訓練されたサルエンシーモデルの指導によってのみ、追加の監督なしで達成されることである。 本研究は,様々な自然画像について結果を提示し,原画像と編集結果との視線の変化を評価し,検証するための知覚研究を行う。

Using only a model that was trained to predict where people look at images, and no additional training data, we can produce a range of powerful editing effects for reducing distraction in images. Given an image and a mask specifying the region to edit, we backpropagate through a state-of-the-art saliency model to parameterize a differentiable editing operator, such that the saliency within the masked region is reduced. We demonstrate several operators, including: a recoloring operator, which learns to apply a color transform that camouflages and blends distractors into their surroundings; a warping operator, which warps less salient image regions to cover distractors, gradually collapsing objects into themselves and effectively removing them (an effect akin to inpainting); a GAN operator, which uses a semantic prior to fully replace image regions with plausible, less salient alternatives. The resulting effects are consistent with cognitive research on the human visual system (e.g., since color mismatch is salient, the recoloring operator learns to harmonize objects' colors with their surrounding to reduce their saliency), and, importantly, are all achieved solely through the guidance of the pretrained saliency model, with no additional supervision. We present results on a variety of natural images and conduct a perceptual study to evaluate and validate the changes in viewers' eye-gaze between the original images and our edited results.
翻訳日:2021-09-07 16:46:51 公開日:2021-09-05
# SideControl: 付加側ネットワークによるオープンドメイン対話生成制御

SideControl: Controlled Open-domain Dialogue Generation via Additive Side Networks ( http://arxiv.org/abs/2109.01958v1 )

ライセンス: Link先を確認
Wanyu Du, Yangfeng Ji(参考訳) トランスフォーマティブベースの事前学習言語モデルにより、オープンドメイン対話システムの性能が向上する。 先行研究はTransformerベースの事前学習言語モデルを利用して、2つの一般的なアプローチで所望の属性を持つテキストを生成する。 1) 勾配ベースのメソッド: 属性モデルからの勾配で事前学習されたモデルの潜在表現を更新する。 しかし、勾配に基づく手法は高い計算コストをもたらし、低分散ハイバイアス事前学習モデルにより重み付き復号法が本質的に制約される一方で、小さなトレーニングセットに容易に過度に適合する。 本研究では,トランスフォーマーをベースとした事前学習型言語モデルを生成するための新しい手法を提案する。SideControlフレームワークは,新しい制御属性の損失を利用して,有用な制御信号を組み込むことで,非常に限られたトレーニングサンプルで良好に動作することを示す。 提案手法を2つのベンチマークオープンドメイン対話データセットで評価した結果,SideControlフレームワークは既存の勾配ベースおよび重み付きデコードベースラインよりも制御性,生成品質,サンプル効率がよいことがわかった。

Transformer-based pre-trained language models boost the performance of open-domain dialogue systems. Prior works leverage Transformer-based pre-trained language models to generate texts with desired attributes in two general approaches: (1) gradient-based methods: updating all latent representations of pre-trained models with gradients from attribute models; (2) weighted-decoding methods: re-ranking beam candidates from pre-trained models with attribute functions. However, gradient-based methods lead to high computation cost and can easily get overfitted on small training sets, while weighted-decoding methods are inherently constrained by the low-variance high-bias pre-trained model. In this work, we propose a novel approach to control the generation of Transformer-based pre-trained language models: the SideControl framework, which leverages a novel control attributes loss to incorporate useful control signals, and is shown to perform well with very limited training samples. We evaluate our proposed method on two benchmark open-domain dialogue datasets, and results show that the SideControl framework has better controllability, higher generation quality and better sample-efficiency than existing gradient-based and weighted-decoding baselines.
翻訳日:2021-09-07 16:45:33 公開日:2021-09-05
# 説明可能なAIの事実評価

Counterfactual Evaluation for Explainable AI ( http://arxiv.org/abs/2109.01962v1 )

ライセンス: Link先を確認
Yingqiang Ge, Shuchang Liu, Zelong Li, Shuyuan Xu, Shijie Geng, Yunqi Li, Juntao Tan, Fei Sun, Yongfeng Zhang(参考訳) 近年、機械学習における様々な説明可能な方法の出現を目撃しているが、モデル予測の背後にある推論プロセス(つまり説明の忠実さ)がどの程度表現されているかは、まだ未解決の問題である。 忠実性を測定する一般的な方法は、 \textit{erasure-based} 基準である。 概念的には単純だが、消去に基づく基準は必然的にバイアスやアーティファクトをもたらす可能性がある。 本論文では,説明の忠実性を評価するための新しい手法として,原文の入力とそれに対応する偽文の出力を忠実な特徴で生成する手法を提案する。 特に,離散シナリオと連続シナリオの両方において適切な反事実を見つけるための2つのアルゴリズムを導入し,得られた反事実を用いて忠実性を測定する。 いくつかのデータセットの実証実験結果から,提案手法は既存の指標と比較すると,拡散下での地上の真理とトップ相関が得られることが示された。

While recent years have witnessed the emergence of various explainable methods in machine learning, to what degree the explanations really represent the reasoning process behind the model prediction -- namely, the faithfulness of explanation -- is still an open problem. One commonly used way to measure faithfulness is \textit{erasure-based} criteria. Though conceptually simple, erasure-based criterion could inevitably introduce biases and artifacts. We propose a new methodology to evaluate the faithfulness of explanations from the \textit{counterfactual reasoning} perspective: the model should produce substantially different outputs for the original input and its corresponding counterfactual edited on a faithful feature. Specially, we introduce two algorithms to find the proper counterfactuals in both discrete and continuous scenarios and then use the acquired counterfactuals to measure faithfulness. Empirical results on several datasets show that compared with existing metrics, our proposed counterfactual evaluation method can achieve top correlation with the ground truth under diffe
翻訳日:2021-09-07 16:45:10 公開日:2021-09-05
# 微分非決定論的スタックを用いた階層構造学習

Learning Hierarchical Structures with Differentiable Nondeterministic Stacks ( http://arxiv.org/abs/2109.01982v1 )

ライセンス: Link先を確認
Brian DuSell and David Chiang(参考訳) 単純なアルゴリズムパターンから自然言語まで、シーケンシャルなデータの階層構造を信頼性が高く一般化可能な方法で学習することは、ニューラルネットワークモデルにとって難しい問題です。 過去の研究によると、リカレントニューラルネットワーク(recurrent neural networks、rnn)は、監視や帰納的バイアスなしに、保持されたアルゴリズムや構文パターンの一般化に苦労している。 これを改善するために、多くの論文が有限オートマトンとプッシュダウンオートマトンを例に、様々な異なるスタックでRNNを増強することを検討した。 本稿では,最近提案されている非決定性スタックrnn(ns-rnn)に基づくスタックrnnモデルを提案する。これは5つのコンテキストフリー言語モデリングタスク(情報理論上の下界の0.05natsを含む)において,従来のスタックrnnベースラインよりも低いクロスエントロピーを実現する。 本モデルでは,確率ではなく任意の正の重み付けを重み付けし,これがトレーニングを改善する理由を解析する。 また,自然言語を用いた言語モデリングやPenn Treebank corpus での成果の提示に活用できるようにする NS-RNN の限定バージョンを提案する。

Learning hierarchical structures in sequential data -- from simple algorithmic patterns to natural language -- in a reliable, generalizable way remains a challenging problem for neural language models. Past work has shown that recurrent neural networks (RNNs) struggle to generalize on held-out algorithmic or syntactic patterns without supervision or some inductive bias. To remedy this, many papers have explored augmenting RNNs with various differentiable stacks, by analogy with finite automata and pushdown automata. In this paper, we present a stack RNN model based on the recently proposed Nondeterministic Stack RNN (NS-RNN) that achieves lower cross-entropy than all previous stack RNNs on five context-free language modeling tasks (within 0.05 nats of the information-theoreti c lower bound), including a task in which the NS-RNN previously failed to outperform a deterministic stack RNN baseline. Our model assigns arbitrary positive weights instead of probabilities to stack actions, and we provide an analysis of why this improves training. We also propose a restricted version of the NS-RNN that makes it practical to use for language modeling on natural language and present results on the Penn Treebank corpus.
翻訳日:2021-09-07 16:44:54 公開日:2021-09-05
# 自己指導型学習によるオンライン会話の再エントリー予測

Re-entry Prediction for Online Conversations via Self-Supervised Learning ( http://arxiv.org/abs/2109.02020v1 )

ライセンス: Link先を確認
Lingzhi Wang, Xingshan Zeng, Huang Hu, Kam-Fai Wong, Daxin Jiang(参考訳) 近年,オンライン議論における世界ビジネスやソーシャルメディアでの意見共有が盛んになっている。 そのため、継続したい議論の追跡を支援するために、再突入予測タスクが提案されている。 それにもかかわらず、既存の作品はチャット履歴とコンテキスト情報のみを活用し、会話スレッドパターンやターゲットユーザーの繰り返しのエンゲージメントといった会話データの基礎となる有用な学習信号を無視し、会話中のターゲットユーザーの振る舞いをより理解するのに役立つ。 本稿では,再突入予測のための自己監督信号として,拡散パターン,反復ターゲットユーザ,ターンオーサシップという3つの興味深く,確立された補助タスクを提案する。 これらの補助タスクは、メインタスクとともにマルチタスクでトレーニングされる。 Twitter と Reddit から新たに収集した2つのデータセットによる実験結果から,本手法は従来手法よりも少ないパラメータと高速収束率で優れていた。 大規模な実験と分析は,提案モデルの有効性を示すとともに,自己指導型タスクの設計における重要なアイデアを指摘する。

In recent years, world business in online discussions and opinion sharing on social media is booming. Re-entry prediction task is thus proposed to help people keep track of the discussions which they wish to continue. Nevertheless, existing works only focus on exploiting chatting history and context information, and ignore the potential useful learning signals underlying conversation data, such as conversation thread patterns and repeated engagement of target users, which help better understand the behavior of target users in conversations. In this paper, we propose three interesting and well-founded auxiliary tasks, namely, Spread Pattern, Repeated Target user, and Turn Authorship, as the self-supervised signals for re-entry prediction. These auxiliary tasks are trained together with the main task in a multi-task manner. Experimental results on two datasets newly collected from Twitter and Reddit show that our method outperforms the previous state-of-the-arts with fewer parameters and faster convergence. Extensive experiments and analysis show the effectiveness of our proposed models and also point out some key ideas in designing self-supervised tasks.
翻訳日:2021-09-07 16:44:31 公開日:2021-09-05
# GTG-Shapley:フェデレートラーニングにおける効率的かつ正確な参加者貢献評価

GTG-Shapley: Efficient and Accurate Participant Contribution Evaluation in Federated Learning ( http://arxiv.org/abs/2109.02053v1 )

ライセンス: Link先を確認
Zelei Liu, Yuanyuan Chen, Han Yu, Yang Liu and Lizhen Cui(参考訳) Federated Learning(FL)は、コラボレーティブ機械学習とデータのプライバシ保護のギャップを埋めるものだ。 FLエコシステムの長期運用を維持するためには,高品質なデータ所有者を適切なインセンティブ方式で惹きつけることが重要である。 このようなインセンティブスキームの重要なビルディングブロックとして、個人データを公開せずに最終FLモデルの性能に対する参加者の貢献を適切に評価することが不可欠である。 FL参加者の貢献を公平に評価するために,共有価値(SV)に基づく技術が広く採用されている。 しかし、既存のアプローチでは計算コストが大きくなり、実際に適用するのは困難である。 本稿では,この課題に対処するために,GTG-Shapley(GTG-Sha pley)アプローチを提案する。 FL参加者の異なる組み合わせで繰り返しトレーニングする代わりに、SV計算のための勾配更新からFLモデルを再構成する。 さらに,多様な現実的なデータ配信環境下での広範囲な実験を通じて,モンテカルロサンプリング手法と,内部および内部のトランケーションを併用して,モデル再構成と評価のさらなる削減を図る。 その結果,gtg-shapley は実際のシャプリー値と密接に近似できるが,特に非i.i.d 条件下では計算効率が著しく向上することが示された。 設定。

Federated Learning (FL) bridges the gap between collaborative machine learning and preserving data privacy. To sustain the long-term operation of an FL ecosystem, it is important to attract high quality data owners with appropriate incentive schemes. As an important building block of such incentive schemes, it is essential to fairly evaluate participants' contribution to the performance of the final FL model without exposing their private data. Shapley Value (SV)-based techniques have been widely adopted to provide fair evaluation of FL participant contributions. However, existing approaches incur significant computation costs, making them difficult to apply in practice. In this paper, we propose the Guided Truncation Gradient Shapley (GTG-Shapley) approach to address this challenge. It reconstructs FL models from gradient updates for SV calculation instead of repeatedly training with different combinations of FL participants. In addition, we design a guided Monte Carlo sampling approach combined with within-round and between-round truncation to further reduce the number of model reconstructions and evaluations required, through extensive experiments under diverse realistic data distribution settings. The results demonstrate that GTG-Shapley can closely approximate actual Shapley values, while significantly increasing computational efficiency compared to the state of the art, especially under non-i.i.d. settings.
翻訳日:2021-09-07 16:41:27 公開日:2021-09-05
# Visuomotor言語接地のためのモジュールフレームワーク

Modular Framework for Visuomotor Language Grounding ( http://arxiv.org/abs/2109.02161v1 )

ライセンス: Link先を確認
Kolby Nottingham, Litian Liang, Daeyun Shin, Charless C. Fowlkes, Roy Fox, Sameer Singh(参考訳) 自然言語に追従するタスクは、基礎言語とロボット研究のための貴重なテストベッドとして機能する。 しかし、これらのタスクのデータ収集は高価であり、エンドツーエンドのアプローチはデータ非効率に悩まされる。 我々は、言語、行動、視覚タスクを個別に訓練可能な別々のモジュールに構造化することを提案する。 言語、アクション、ビジョン(LAV)フレームワークを使用することで、データセットに従う命令に対するアクションとビジョンモジュールの依存が取り除かれ、トレーニングの効率が向上する。 また,視覚的およびインタラクティブな指導のためのALFREDタスク上でのLAVの予備評価を行った。

Natural language instruction following tasks serve as a valuable test-bed for grounded language and robotics research. However, data collection for these tasks is expensive and end-to-end approaches suffer from data inefficiency. We propose the structuring of language, acting, and visual tasks into separate modules that can be trained independently. Using a Language, Action, and Vision (LAV) framework removes the dependence of action and vision modules on instruction following datasets, making them more efficient to train. We also present a preliminary evaluation of LAV on the ALFRED task for visual and interactive instruction following.
翻訳日:2021-09-07 16:41:08 公開日:2021-09-05
# オブジェクトナビゲーションのための階層型オブジェクトツーゾーングラフ

Hierarchical Object-to-Zone Graph for Object Navigation ( http://arxiv.org/abs/2109.02066v1 )

ライセンス: Link先を確認
Sixian Zhang, Xinhang Song, Yubing Bai, Weijie Li, Yakui Chu, Shuqiang Jiang(参考訳) オブジェクトナビゲーションの目標は、目に見えない環境の視覚情報に従って、期待されるオブジェクトに到達することである。 従来の作業は通常、エージェントを訓練してリアルタイムでアクションを予測するディープモデルを実装する。 しかし、目に見えない環境では、対象のオブジェクトが自我中心の視点にない場合、エージェントはガイダンスの欠如により賢明な判断を下せない可能性がある。 本稿では,エージェントを粗大に誘導する階層的オブジェクト・ツー・ゾーン(HOZ)グラフを提案するとともに,新しい環境におけるリアルタイム観測に基づいてHOZを更新するためのオンライン学習機構も提案する。 特にHOZグラフはシーンノード、ゾーンノード、オブジェクトノードで構成されている。 事前学習したHOZグラフ、リアルタイム観測、目標目標を用いて、エージェントはゾーンからゾーンへの最適な経路を常に計画することができる。 推定された経路では、次のポテンシャルゾーンはサブゴールと見なされ、アクション予測のための深層強化学習モデルにも供給される。 提案手法はAI2-Thorシミュレータを用いて評価する。 また,広く用いられている評価指標srとsplに加えて,効果的な行動率に着目したsaeの新しい評価指標を提案する。 実験の結果,提案手法の有効性と有効性を示した。

The goal of object navigation is to reach the expected objects according to visual information in the unseen environments. Previous works usually implement deep models to train an agent to predict actions in real-time. However, in the unseen environment, when the target object is not in egocentric view, the agent may not be able to make wise decisions due to the lack of guidance. In this paper, we propose a hierarchical object-to-zone (HOZ) graph to guide the agent in a coarse-to-fine manner, and an online-learning mechanism is also proposed to update HOZ according to the real-time observation in new environments. In particular, the HOZ graph is composed of scene nodes, zone nodes and object nodes. With the pre-learned HOZ graph, the real-time observation and the target goal, the agent can constantly plan an optimal path from zone to zone. In the estimated path, the next potential zone is regarded as sub-goal, which is also fed into the deep reinforcement learning model for action prediction. Our methods are evaluated on the AI2-Thor simulator. In addition to widely used evaluation metrics SR and SPL, we also propose a new evaluation metric of SAE that focuses on the effective action rate. Experimental results demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2021-09-07 16:37:56 公開日:2021-09-05
# 光場を用いた水中3次元再構成

Underwater 3D Reconstruction Using Light Fields ( http://arxiv.org/abs/2109.02116v1 )

ライセンス: Link先を確認
Yuqi Ding, Yu Ji, Jingyi Yu, Jinwei Ye(参考訳) 水中3D再構成は、水面界面の光の屈折により困難である(ほとんどの電子機器は水に直接沈められない)。 本稿では,光電界カメラを用いた水中3次元再構成法を提案する。 まず,水-空気界面のカメラパラメータと形状を同時に推定する光電界カメラキャリブレーションアルゴリズムを開発した。 次に、3次元再構成のための新しい深度推定アルゴリズムを設計する。 具体的には,水屈折による曲線状エピポーラ線の対応を一致させる。 また、視界依存性のスペクトル反射は水中環境において非常に弱いため、光界の角検光線は均一な強度を持つ。 そこで我々は,深度最適化のための角の均一性制約を提案する。 また,非線形光路の存在下で角度パッチを探索する高速アルゴリズムを開発した。 広範囲な合成および実実験により, 水中3次元再構成を高精度に行うことができた。

Underwater 3D reconstruction is challenging due to the refraction of light at the water-air interface (most electronic devices cannot be directly submerged in water). In this paper, we present an underwater 3D reconstruction solution using light field cameras. We first develop a light field camera calibration algorithm that simultaneously estimates the camera parameters and the geometry of the water-air interface. We then design a novel depth estimation algorithm for 3D reconstruction. Specifically, we match correspondences on curved epipolar lines caused by water refraction. We also observe that the view-dependent specular reflection is very weak in the underwater environment, resulting the angularly sampled rays in light field has uniform intensity. We therefore propose an angular uniformity constraint for depth optimization. We also develop a fast algorithm for locating the angular patches in presence of non-linear light paths. Extensive synthetic and real experiments demonstrate that our method can perform underwater 3D reconstruction with high accuracy.
翻訳日:2021-09-07 16:37:36 公開日:2021-09-05
# gan生成顔のロバストな注意深層ニューラルネットワーク

Robust Attentive Deep Neural Network for Exposing GAN-generated Faces ( http://arxiv.org/abs/2109.02167v1 )

ライセンス: Link先を確認
Hui Guo, Shu Hu, Xin Wang, Ming-Ching Chang, Siwei Lyu(参考訳) 現実的な顔を生成し、合成するGANベースの技術は、深刻な社会的懸念とセキュリティ問題を引き起こしている。 GAN生成顔を検出する既存の方法は、限られた公開データセットでよく機能する。 しかしながら、既存の公開データセットからのイメージは、ビューのバリエーションやデータ分布(実際の顔が合成顔より圧倒的に多い)に関して、実世界のシナリオを十分に表現していない。 最先端の手法は実世界の問題ではうまく一般化せず、検出結果の解釈性に欠ける。 既存のGAN面検出モデルの性能は、不均衡なデータ分布に直面すると著しく低下する。 これらの欠点に対処するために,GAN生成顔の視線不整合を解析して検出できる頑健で注意深いエンドツーエンドネットワークを提案する。 具体的には,両眼間における虹彩アーチファクトの局所化と比較により,両眼間の不整合成分の同定を学習する。 我々は,AUCの損失と従来のクロスエントロピーの損失を共同で考慮し,不均衡な学習問題に対処する。 均衡シナリオと不均衡シナリオの両方の観点からffhqデータセットの包括的評価は,提案手法の優越性を示している。

GAN-based techniques that generate and synthesize realistic faces have caused severe social concerns and security problems. Existing methods for detecting GAN-generated faces can perform well on limited public datasets. However, images from existing public datasets do not represent real-world scenarios well enough in terms of view variations and data distributions (where real faces largely outnumber synthetic faces). The state-of-the-art methods do not generalize well in real-world problems and lack the interpretability of detection results. Performance of existing GAN-face detection models degrades significantly when facing imbalanced data distributions. To address these shortcomings, we propose a robust, attentive, end-to-end network that can spot GAN-generated faces by analyzing their eye inconsistencies. Specifically, our model learns to identify inconsistent eye components by localizing and comparing the iris artifacts between the two eyes automatically. Our deep network addresses the imbalance learning issues by considering the AUC loss and the traditional cross-entropy loss jointly. Comprehensive evaluations of the FFHQ dataset in terms of both balanced and imbalanced scenarios demonstrate the superiority of the proposed method.
翻訳日:2021-09-07 16:37:22 公開日:2021-09-05
# Sliding-Window Bundle Adjustment のための正方形ルートマージナリゼーション

Square Root Marginalization for Sliding-Window Bundle Adjustment ( http://arxiv.org/abs/2109.02182v1 )

ライセンス: Link先を確認
Nikolaus Demmel, David Schubert, Christiane Sommer, Daniel Cremers, Vladyslav Usenko(参考訳) 本稿では,実時間オドメトリー応用に適した新しい正方根スライディング・ウインドバンドル調整を提案する。 平方根の定式化は最適化に基づくスライディング・ウインドウ推定器の3つの主要な側面に及んでいる: バンドル調整のためには、ヌル空間射影を持つランドマーク変数を排除し、辺化を保存するためには、ヘッセンの行列平方根を用いる。 提案する正方根辺化は、ヘッシアン上のシュール補数 (sc) の従来の使用と代数的に等価であることを示す。 さらに、階数不足のヤコビアンをエレガントに扱い、ムーア=ペンローズ逆数を持つ SC と同値である。 実世界のデータセットにおける視覚および視覚慣性オドメトリの評価は,提案手法がベースラインよりも36%高速であることを示す。 さらに, 単一精度では, 従来のヘッセン系辺縁化は数値的故障を生じ, 精度を低下させることを示した。 正方根形式が同じ効果を及ぼさない理由を説明する前に、辺化の数値的性質を解析し、それゆえ優れた性能をもたらす。

In this paper we propose a novel square root sliding-window bundle adjustment suitable for real-time odometry applications. The square root formulation pervades three major aspects of our optimization-based sliding-window estimator: for bundle adjustment we eliminate landmark variables with nullspace projection; to store the marginalization prior we employ a matrix square root of the Hessian; and when marginalizing old poses we avoid forming normal equations and update the square root prior directly with a specialized QR decomposition. We show that the proposed square root marginalization is algebraically equivalent to the conventional use of Schur complement (SC) on the Hessian. Moreover, it elegantly deals with rank-deficient Jacobians producing a prior equivalent to SC with Moore-Penrose inverse. Our evaluation of visual and visual-inertial odometry on real-world datasets demonstrates that the proposed estimator is 36% faster than the baseline. It furthermore shows that in single precision, conventional Hessian-based marginalization leads to numeric failures and reduced accuracy. We analyse numeric properties of the marginalization prior to explain why our square root form does not suffer from the same effect and therefore entails superior performance.
翻訳日:2021-09-07 16:37:06 公開日:2021-09-05
# NAS-OoD: 分布外一般化のためのニューラルネットワーク探索

NAS-OoD: Neural Architecture Search for Out-of-Distribution Generalization ( http://arxiv.org/abs/2109.02038v1 )

ライセンス: Link先を確認
Haoyue Bai, Fengwei Zhou, Lanqing Hong, Nanyang Ye, S.-H. Gary Chan, Zhenguo Li(参考訳) out-of-distribution( ood)一般化の最近の進歩は、分布シフトに対するディープラーニングモデルの堅牢性を明らかにしている。 しかし、既存の研究は、リスク最小化やドメインの一般化、安定した学習といったOoDアルゴリズムに重点を置いており、深層モデルアーキテクチャがOoD一般化に与える影響を考慮せず、それが準最適性能をもたらす可能性がある。 ニューラルアーキテクチャサーチ(NAS)手法は、トレーニングデータに基づくアーキテクチャを探索し、OoDタスクの一般化が不十分になる可能性がある。 本研究では,OoD 一般化のための堅牢なニューラルアーキテクチャ探索 (NAS-OoD) を提案する。 具体的には、異なるニューラルネットワークで計算される損失を最大化することで、データジェネレータがoodデータを合成することを学び、アーキテクチャ探索の目的は、合成oodデータ損失を最小化する最適なアーキテクチャパラメータを見つけることである。 データジェネレータとニューラルアーキテクチャは、エンドツーエンドで共同最適化され、ミニマックストレーニングプロセスは、異なる分散シフトに対して適切に一般化される堅牢なアーキテクチャを効果的に発見する。 実験結果から,NAS-OoDは,パラメータ数がはるかに少ない深部モデルを用いた様々なOoD一般化ベンチマークにおいて,優れた性能を発揮することが示された。 さらに,実業界データセットでは,本手法の実用性を示すため,実業界で提案するnas-ood法は最先端手法と比較して誤差率を70%以上低減する。

Recent advances on Out-of-Distribution (OoD) generalization reveal the robustness of deep learning models against distribution shifts. However, existing works focus on OoD algorithms, such as invariant risk minimization, domain generalization, or stable learning, without considering the influence of deep model architectures on OoD generalization, which may lead to sub-optimal performance. Neural Architecture Search (NAS) methods search for architecture based on its performance on the training data, which may result in poor generalization for OoD tasks. In this work, we propose robust Neural Architecture Search for OoD generalization (NAS-OoD), which optimizes the architecture with respect to its performance on generated OoD data by gradient descent. Specifically, a data generator is learned to synthesize OoD data by maximizing losses computed by different neural architectures, while the goal for architecture search is to find the optimal architecture parameters that minimize the synthetic OoD data losses. The data generator and the neural architecture are jointly optimized in an end-to-end manner, and the minimax training process effectively discovers robust architectures that generalize well for different distribution shifts. Extensive experimental results show that NAS-OoD achieves superior performance on various OoD generalization benchmarks with deep models having a much fewer number of parameters. In addition, on a real industry dataset, the proposed NAS-OoD method reduces the error rate by more than 70% compared with the state-of-the-art method, demonstrating the proposed method's practicality for real applications.
翻訳日:2021-09-07 16:30:41 公開日:2021-09-05
# VARGAN:ネットワーク強化GANの分散化

VARGAN: Variance Enforcing Network Enhanced GAN ( http://arxiv.org/abs/2109.02117v1 )

ライセンス: Link先を確認
Sanaz Mohammadjafari, Mucahit Cevik, Ayse Basar(参考訳) generative adversarial network (gans) は最も広く使われている生成モデルの一つである。 GANは複雑なマルチモーダル分布を学習し、リアルライクなサンプルを生成することができる。 合成データ生成におけるgansの大きな成功にもかかわらず、それらは不安定なトレーニングプロセスとモード崩壊に苦しむ可能性がある。 本稿では,生成したサンプルに多様性を導入するために,第3のネットワークを組み込んだ分散型gan(vargan)と呼ばれる新しいganアーキテクチャを提案する。 第3のネットワークは生成したサンプルの多様性を測定し、低多様性サンプルに対するジェネレータの損失をペナルティ化するために使用される。 ネットワークは、利用可能なトレーニングデータと、モダリティに制限のある望ましくない分散に基づいて訓練される。 合成および実世界の画像データに基づいて、VARGANは最近の最先端モデルと比較してより多様なサンプルを生成する。 高多様性と低計算複雑性、および高速収束により、VARGANはモード崩壊を緩和する有望なモデルとなる。

Generative adversarial networks (GANs) are one of the most widely used generative models. GANs can learn complex multi-modal distributions, and generate real-like samples. Despite the major success of GANs in generating synthetic data, they might suffer from unstable training process, and mode collapse. In this paper, we introduce a new GAN architecture called variance enforcing GAN (VARGAN), which incorporates a third network to introduce diversity in the generated samples. The third network measures the diversity of the generated samples, which is used to penalize the generator's loss for low diversity samples. The network is trained on the available training data and undesired distributions with limited modality. On a set of synthetic and real-world image data, VARGAN generates a more diverse set of samples compared to the recent state-of-the-art models. High diversity and low computational complexity, as well as fast convergence, make VARGAN a promising model to alleviate mode collapse.
翻訳日:2021-09-07 16:30:15 公開日:2021-09-05
# 推薦のための協調指導による注意深い知識認識グラフ畳み込みネットワーク

Attentive Knowledge-aware Graph Convolutional Networks with Collaborative Guidance for Recommendation ( http://arxiv.org/abs/2109.02046v1 )

ライセンス: Link先を確認
Yankai Chen, Yaming Yang, Yujing Wang, Jing Bai, Xiangchen Song, Irwin King(参考訳) 近年,従来のレコメンデータシステム(RS)におけるデータ分散やコールドスタートの問題を緩和するために,補助情報を補うための知識グラフ(KG)の導入が注目されている。 しかし、現在のKGベースのRSモデルに単にKGを統合することは、必ずしも推奨性能を改善するための保証ではない。 これは、これらのkgsの構築が、歴史的ユーザ・テーマの相互作用の収集とは独立しているため、これらのkgs内の情報は、常にすべてのユーザへのレコメンデーションに役立つとは限らないためである。 本稿では,パーソナライズドレコメンデーション(cg-kgr)のための協調ガイダンスを用いて,知識認識型グラフ畳み込みネットワークを提案する。 CG-KGRは,提案した協調指導機構を通じて,KGとユーザ・イテムインタラクションの完全かつ一貫性のある学習を可能にする,知識認識型推薦モデルである。 具体的には、CG-KGRは、インタラクティブな情報要約に対する歴史的相互作用をカプセル化する。 そして、CG-KGRはKGから情報を抽出するためのガイダンスとして利用し、最終的にはより正確にパーソナライズされたレコメンデーションを提供する。 我々は,2つのレコメンデーションタスク,すなわちトップkレコメンデーションとクリックスルー率(ctr)予測について,実世界の4つのデータセットについて広範な実験を行う。 実験結果から、CG-KGRモデルは、Top-Kレコメンデーションのリコール基準とCTR予測のAUCにおいて、最新の最先端モデルの4.0-53.2%と0.4-3.2%を大きく上回っていることが示された。

To alleviate data sparsity and cold-start problems of traditional recommender systems (RSs), incorporating knowledge graphs (KGs) to supplement auxiliary information has attracted considerable attention recently. However, simply integrating KGs in current KG-based RS models is not necessarily a guarantee to improve the recommendation performance, which may even weaken the holistic model capability. This is because the construction of these KGs is independent of the collection of historical user-item interactions; hence, information in these KGs may not always be helpful for recommendation to all users. In this paper, we propose attentive Knowledge-aware Graph convolutional networks with Collaborative Guidance for personalized Recommendation (CG-KGR). CG-KGR is a novel knowledge-aware recommendation model that enables ample and coherent learning of KGs and user-item interactions, via our proposed Collaborative Guidance Mechanism. Specifically, CG-KGR first encapsulates historical interactions to interactive information summarization. Then CG-KGR utilizes it as guidance to extract information out of KGs, which eventually provides more precise personalized recommendation. We conduct extensive experiments on four real-world datasets over two recommendation tasks, i.e., Top-K recommendation and Click-Through rate (CTR) prediction. The experimental results show that the CG-KGR model significantly outperforms recent state-of-the-art models by 4.0-53.2% and 0.4-3.2%, in terms of Recall metric on Top-K recommendation and AUC on CTR prediction, respectively.
翻訳日:2021-09-07 16:27:16 公開日:2021-09-05
# ヘテロジニアスグラフからのコミュニティ検出:コンテキストパスに基づくグラフニューラルネットワークモデル

Detecting Communities from Heterogeneous Graphs: A Context Path-based Graph Neural Network Model ( http://arxiv.org/abs/2109.02058v1 )

ライセンス: Link先を確認
Linhao Luo, Yixiang Fang, Xin Cao, Xiaofeng Zhang, Wenjie Zhang(参考訳) グラフノードを深い内部接続を持つクラスタにグループ化することを目的としたコミュニティ検出は、基本的なグラフマイニングタスクである。 近年,複数種類のノードとエッジを含む異種グラフが研究されており,ノード間の高次関係をモデル化する上で大きな課題となっている。 グラフ埋め込み機構の急増に伴い、コミュニティ検出にも採用されている。 注目すべき作品群は、メタパスを使用してノード間の高次関係をキャプチャし、それらをノードの埋め込みに埋め込み、コミュニティ検出を容易にする。 しかし、有意義なメタパスを定義するには、多くのドメイン知識が必要である。 この問題を軽減するために,本稿では,ノード間の高次関係を捕捉するコンテキストパスを利用して,コンテキストパスに基づくグラフニューラルネットワーク(CP-GNN)モデルを構築することを提案する。 ノード間の高次関係を注意機構を組み込んだノードに再帰的に埋め込んで、異なる関係の重要性を識別する。 コンテキストパスによって接続されるノードの共起の期待を最大化することにより、ノード間の高次関係を良好に保ち、コミュニティ検出に役立つノードの埋め込みを学習することができる。 4つの実世界のデータセットに対する大規模な実験結果から、CP-GNNは最先端のコミュニティ検出方法よりも優れていることが示された。

Community detection, aiming to group the graph nodes into clusters with dense inner-connection, is a fundamental graph mining task. Recently, it has been studied on the heterogeneous graph, which contains multiple types of nodes and edges, posing great challenges for modeling the high-order relationship between nodes. With the surge of graph embedding mechanism, it has also been adopted to community detection. A remarkable group of works use the meta-path to capture the high-order relationship between nodes and embed them into nodes' embedding to facilitate community detection. However, defining meaningful meta-paths requires much domain knowledge, which largely limits their applications, especially on schema-rich heterogeneous graphs like knowledge graphs. To alleviate this issue, in this paper, we propose to exploit the context path to capture the high-order relationship between nodes, and build a Context Path-based Graph Neural Network (CP-GNN) model. It recursively embeds the high-order relationship between nodes into the node embedding with attention mechanisms to discriminate the importance of different relationships. By maximizing the expectation of the co-occurrence of nodes connected by context paths, the model can learn the nodes' embeddings that both well preserve the high-order relationship between nodes and are helpful for community detection. Extensive experimental results on four real-world datasets show that CP-GNN outperforms the state-of-the-art community detection methods.
翻訳日:2021-09-07 16:26:30 公開日:2021-09-05
# 短軸・長軸MRIからの情報遷移による右室分極

Right Ventricular Segmentation from Short- and Long-Axis MRIs via Information Transition ( http://arxiv.org/abs/2109.02171v1 )

ライセンス: Link先を確認
Lei Li, Wangbin Ding, Liqun Huang, and Xiahai Zhuang(参考訳) 磁気共鳴画像(MRI)からの右室分画は、心臓形態学および機能解析において重要なステップである。 しかし、MRIからの自動RVセグメンテーションは、主に異種強度、複雑な可変形状、不明瞭なRV境界のため、依然として困難である。 また,現在のRVセグメンテーション法は,MRIの基部および根尖部におけるパフォーマンス劣化に悩まされる傾向にある。 本研究では、長軸(LA)ビューからの情報を活用して、情報遷移による短軸(SA)ビューのセグメンテーションを支援する自動RVセグメンテーションフレームワークを提案する。 具体的には、LAビューから変換されたセグメンテーションを事前情報として、SAビューからROIを抽出し、セグメンテーションを改善する。 情報遷移は、SAビューの周囲の曖昧な領域を取り除くことを目的としている。 %,三尖弁領域など。 LAMRIとSAMRIの両方からなる360度マルチセンター,マルチベンダ,マルチディスリーズ対象のパブリックデータセット上で,我々のモデルを検証した。 実験の結果, LAビューを含めることで, SAセグメンテーションの精度を向上させることができることがわかった。 私たちのモデルはhttps://github.com/N anYoMy/MMs-2で公開されています。

Right ventricular (RV) segmentation from magnetic resonance imaging (MRI) is a crucial step for cardiac morphology and function analysis. However, automatic RV segmentation from MRI is still challenging, mainly due to the heterogeneous intensity, the complex variable shapes, and the unclear RV boundary. Moreover, current methods for the RV segmentation tend to suffer from performance degradation at the basal and apical slices of MRI. In this work, we propose an automatic RV segmentation framework, where the information from long-axis (LA) views is utilized to assist the segmentation of short-axis (SA) views via information transition. Specifically, we employed the transformed segmentation from LA views as a prior information, to extract the ROI from SA views for better segmentation. The information transition aims to remove the surrounding ambiguous regions in the SA views. %, such as the tricuspid valve regions. We tested our model on a public dataset with 360 multi-center, multi-vendor and multi-disease subjects that consist of both LA and SA MRIs. Our experimental results show that including LA views can be effective to improve the accuracy of the SA segmentation. Our model is publicly available at https://github.com/N anYoMy/MMs-2.
翻訳日:2021-09-07 16:22:57 公開日:2021-09-05
# (参考訳) travelbert: ドメイン固有の異種知識を統一表現に組み込んだ事前学習言語モデル [全文訳有]

TravelBERT: Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation ( http://arxiv.org/abs/2109.01048v2 )

ライセンス: CC BY 4.0
Hongyin Zhu, Hao Peng, Zhiheng Lyu, Lei Hou, Juanzi Li, Jinghui Xiao(参考訳) 既存の技術は様々な観点からBERTを拡張している。 異なる事前トレーニングタスク、異なるセマンティックな粒度、異なるモデルアーキテクチャを設計する。 BERTを異なるテキストフォーマットから拡張することを検討するモデルは少ない。 本稿では,非構造化テキスト,半構造化テキスト,よく構造化されたテキストを含む,すべての形式のテキストに対する統合事前学習言語モデル(plm)であるヘテロジニアス知識言語モデル(hklm)を提案する。 これら多形式的知識の対応関係を捉えるために,単語知識の学習にはマスキング言語モデル目的,エンティティ知識とトピック知識の学習には3つの分類目標とタイトルマッチング目標を用いる。 上記の多形式テキストを得るため,観光領域にコーパスを構築し,観光NLPデータセット5種について実験を行った。 その結果,本手法はデータの1/4のみを用いて,プレーンテキストの事前学習よりも優れていた。 コード、データセット、コーパス、ナレッジグラフがリリースされる。

Existing technologies expand BERT from different perspectives, e.g. designing different pre-training tasks, different semantic granularities and different model architectures. Few models consider expanding BERT from different text formats. In this paper, we propose a heterogeneous knowledge language model (HKLM), a unified pre-trained language model (PLM) for all forms of text, including unstructured text, semi-structured text and well-structured text. To capture the corresponding relations among these multi-format knowledge, our approach uses masked language model objective to learn word knowledge, uses triple classification objective and title matching objective to learn entity knowledge and topic knowledge respectively. To obtain the aforementioned multi-format text, we construct a corpus in the tourism domain and conduct experiments on 5 tourism NLP datasets. The results show that our approach outperforms the pre-training of plain text using only 1/4 of the data. The code, datasets, corpus and knowledge graph will be released.
翻訳日:2021-09-07 13:22:22 公開日:2021-09-05