このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210425となっている論文です。

PDF登録状況(公開日: 20210425)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) トランスフォーマーを用いたエンドツーエンドビデオインスタンスセグメンテーション [全文訳有]

End-to-End Video Instance Segmentation with Transformers ( http://arxiv.org/abs/2011.14503v4 )

ライセンス: CC BY 4.0
Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia(参考訳) ビデオインスタンスセグメンテーション(英: video instance segmentation、vis)は、ビデオに興味のあるオブジェクトインスタンスの分類、セグメンテーション、追跡を同時に行うタスクである。 最近の手法では、この課題に対処するための洗練されたパイプラインを開発するのが一般的である。 本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。 入力として複数の画像フレームからなるビデオクリップが与えられると、VisTRはビデオ内の各インスタンスのマスクのシーケンスを直接出力する。 コアには、新しい効果的なインスタンスシーケンスマッチングとセグメンテーション戦略があり、シーケンスレベルでインスタンスを監視およびセグメンテーションする。 VisTRはインスタンスのセグメンテーションとトラッキングを類似性学習の視点でフレーム化し、パイプライン全体を大幅に単純化し、既存のアプローチと大きく異なる。 ベルとホイッスルがなければ、VisTRは既存のすべてのVISモデルの中で最高速度を達成し、YouTube-VISデータセットの単一モデルを用いた手法の中で最高の結果を得る。 初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争の精度を実現した。 VisTRが今後の研究を動機づけて、より多くのビデオ理解タスクを実現できることを願っている。

Video instance segmentation (VIS) is the task that requires simultaneously classifying, segmenting and tracking object instances of interest in video. Recent methods typically develop sophisticated pipelines to tackle this task. Here, we propose a new video instance segmentation framework built upon Transformers, termed VisTR, which views the VIS task as a direct end-to-end parallel sequence decoding/prediction problem. Given a video clip consisting of multiple image frames as input, VisTR outputs the sequence of masks for each instance in the video in order directly. At the core is a new, effective instance sequence matching and segmentation strategy, which supervises and segments instances at the sequence level as a whole. VisTR frames the instance segmentation and tracking in the same perspective of similarity learning, thus considerably simplifying the overall pipeline and is significantly different from existing approaches. Without bells and whistles, VisTR achieves the highest speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
翻訳日:2021-06-07 07:25:25 公開日:2021-04-25
# NPAS: リアルタイムモバイルアクセラレーションを超えて、統一ネットワークプルーニングとアーキテクチャ検索を実現するコンパイラ対応フレームワーク

NPAS: A Compiler-aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration ( http://arxiv.org/abs/2012.00596v2 )

ライセンス: Link先を確認
Zhengang Li, Geng Yuan, Wei Niu, Pu Zhao, Yanyu Li, Yuxuan Cai, Xuan Shen, Zheng Zhan, Zhenglun Kong, Qing Jin, Zhiyu Chen, Sijia Liu, Kaiyuan Yang, Bin Ren, Yanzhi Wang, Xue Lin(参考訳) モバイルエッジデバイスにDNNを効率的にデプロイする需要が高まるにつれ、不要な計算の削減と実行速度の向上がますます重要になる。 モデル圧縮やネットワークアーキテクチャ検索(nas)を含むこの目標に向けた以前の手法は独立して実行されており、モバイルアクセラレーションに必要なコンパイラレベルの最適化を十分に考慮していない。 本研究では、まず、(i)様々なDNN層に適用可能なきめ細かい構造化プルーニングの一般的なカテゴリを提案し、(ii)モデル圧縮とNASのギャップを埋める異なるDNNと異なるプルーニングスキームをサポートする包括的なコンパイラ自動コード生成フレームワークを提案する。 さらに,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。 大規模な探索空間を扱うため,高速な評価とベイズ最適化による強化学習に基づくメタモデリング手法を提案し,NASフレームワークに匹敵するトレーニングエポックの総数を確保する。 6.7ms,5.9ms,3.9ms画像ネット推定時間を78.2%,75%(mobilenet- v3レベル),71%(mobilenet-v2レベル)top-1精度で達成した。

With the increasing demand to efficiently deploy DNNs on mobile edge devices, it becomes much more important to reduce unnecessary computation and increase the execution speed. Prior methods towards this goal, including model compression and network architecture search (NAS), are largely performed independently and do not fully consider compiler-level optimizations which is a must-do for mobile acceleration. In this work, we first propose (i) a general category of fine-grained structured pruning applicable to various DNN layers, and (ii) a comprehensive, compiler automatic code generation framework supporting different DNNs and different pruning schemes, which bridge the gap of model compression and NAS. We further propose NPAS, a compiler-aware unified network pruning, and architecture search. To deal with large search space, we propose a meta-modeling procedure based on reinforcement learning with fast evaluation and Bayesian optimization, ensuring the total number of training epochs comparable with representative NAS frameworks. Our framework achieves 6.7ms, 5.9ms, 3.9ms ImageNet inference times with 78.2%, 75% (MobileNet-V3 level), and 71% (MobileNet-V2 level) Top-1 accuracy respectively on an off-the-shelf mobile phone, consistently outperforming prior work.
翻訳日:2021-05-30 20:11:28 公開日:2021-04-25
# 分解、圧縮、合成に基づくビデオ符号化:参照に基づく超解像によるニューラルアプローチ

Decomposition, Compression, and Synthesis Based Video Coding: A Neural Approach Through Reference-Based Super Resolution ( http://arxiv.org/abs/2012.00650v2 )

ライセンス: Link先を確認
Ming Lu, Tong Chen, zhenyu Dai, Dong Wang, Dandan Ding, and Zhan Ma(参考訳) 高い圧縮効率を求めるため、潜在的な解決策はダウンサンプリングベースのビデオ符号化(DSVC)であり、入力ビデオは比較的低い解像度で符号化するためにまずダウンスケールされ、デコードされたフレームはディープニューラルネットワーク(DNN)を介して超解かれる。 しかし、一様分解能サンプリングが高周波成分の深刻な損失を招いたか、既存のdsvc法で不均一にサンプリングされたフレームにまたがる情報集約が不十分であったため、符号化ゲインはしばしば境界づけされる。 そこで本研究では,まず,各空間テクスチャフレーム (STF) に入力映像を分解し,その空間的細部を保存し,他の時間的動きフレーム (TMF) を低空間解像度に分解し,動きの滑らかさを保ちながら圧縮し,次に,一般的なビデオコーダを用いて圧縮し,最終的に高精細度ビデオ再構成のための復号STFとTMFを,そのネイティブな入力と同じ解像度で合成する。 この研究は、分解におけるバイコビックサンプリングと圧縮におけるヴァーサタイルビデオ符号化(VVC)準拠コーデックを単純に適用し、合成部に焦点をあてる。 このようなクロスレゾリューション合成はRefSR(Reference-base d Super-Resolution)によって容易にできる。 具体的には、TMF上に動き補償ネットワーク(MCN)を考案し、テクスチャ転送ネットワーク(TTN)を用いて対応するSTFと協調して処理される時間的動き特徴を効率よく整合・集約し、空間的詳細を向上し、圧縮及び分解再サンプリングノイズをより高率歪み(R−D)効率で効果的に緩和することができる。

In pursuit of higher compression efficiency, a potential solution is the Down-Sampling based Video Coding (DSVC) where a input video is first downscaled for encoding at a relatively lower resolution, and then decoded frames are super-resolved through deep neural networks (DNNs). However, the coding gains are often bounded due to either uniform resolution sampling induced severe loss of high-frequency component, or insufficient information aggregation across non-uniformly sampled frames in existing DSVC methods. To address this, we propose to first decompose the input video into respective spatial texture frames (STFs) at its native spatial resolution that preserve the rich spatial details, and the other temporal motion frames (TMFs) at a lower spatial resolution that retain the motion smoothness; then compress them together using any popular video coder; and finally synthesize decoded STFs and TMFs for high-fidelity video reconstruction at the same resolution as its native input. This work simply applies the bicubic sampling in decomposition and Versatile Video Coding (VVC) compliant codec in compression, and puts the focus on the synthesis part. Such cross-resolution synthesis can be facilitated by Reference-based Super-Resolution (RefSR). Specifically, a motion compensation network (MCN) is devised on TMFs to efficiently align and aggregate temporal motion features that will be jointly processed with corresponding STFs using a texture transfer network (TTN) to better augment spatial details, by which the compression and resolution re-sampling noises can be effectively alleviated with better rate-distortion (R-D) efficiency, etc.
翻訳日:2021-05-30 19:35:22 公開日:2021-04-25
# semeval-2021タスク6:テキストと画像における説得技術の検出

SemEval-2021 Task 6: Detection of Persuasion Techniques in Texts and Images ( http://arxiv.org/abs/2105.09284v1 )

ライセンス: Link先を確認
Dimitar Dimitrov, Bishr Bin Ali, Shaden Shaar, Firoj Alam, Fabrizio Silvestri, Hamed Firooz, Preslav Nakov, Giovanni Da San Martino(参考訳) 本稿では,SemEval-2021 Task 6 on Detection of Persuasion Techniques in Texts and Images: the data, the annotations guidelines, the evaluation setup, the results, and the member systemについて述べる。 タスクはミームに焦点をあて、(i)テキスト中のテクニックの検出、(ii)テクニックが使われているテキストスパンの検出、(iii)ミーム全体、すなわちテキストと画像の両方のテクニックの3つのサブタスクを持っていた。 71の登録と22のチームが参加し、最終的にテストセットへの公式提出が行われた。 第3サブタスクの評価結果は、モダリティ、テキスト、画像の両方の重要性を確認した。 さらに、いくつかのチームは、早期融合や後期融合といった2つのモダリティを結合するだけでなく、両者の相互作用をジョイントモデルでモデル化することで、利点を報告した。

We describe SemEval-2021 task 6 on Detection of Persuasion Techniques in Texts and Images: the data, the annotation guidelines, the evaluation setup, the results, and the participating systems. The task focused on memes and had three subtasks: (i) detecting the techniques in the text, (ii) detecting the text spans where the techniques are used, and (iii) detecting techniques in the entire meme, i.e., both in the text and in the image. It was a popular task, attracting 71 registrations, and 22 teams that eventually made an official submission on the test set. The evaluation results for the third subtask confirmed the importance of both modalities, the text and the image. Moreover, some teams reported benefits when not just combining the two modalities, e.g., by using early or late fusion, but rather modeling the interaction between them in a joint model.
翻訳日:2021-05-20 18:29:56 公開日:2021-04-25
# 人物再識別のための教師なし事前訓練

Unsupervised Pre-training for Person Re-identification ( http://arxiv.org/abs/2012.03753v2 )

ライセンス: Link先を確認
Dengpan Fu, Dongdong Chen, Jianmin Bao, Hao Yang, Lu Yuan, Lei Zhang, Houqiang Li, Dong Chen(参考訳) 本稿では,Re-IDデータセット "LUPerson" について述べるとともに,学習者のRe-ID特徴表現の一般化能力を向上させるための教師なし事前学習を初めて行おうとする。 これは、既存のRe-IDデータセットはすべて、データアノテーションに必要なコストがかかるため、制限されたスケールである、という問題に対処するためです。 以前の研究では、ImageNetで事前訓練されたモデルを活用して、人物Re-IDデータの不足を軽減するが、ImageNetと人物Re-IDデータの大きなドメインギャップに悩まされている。 lupersonは、既存の最大のre-idデータセットの30倍の大きさの、200万以上のidの4mイメージのラベルなしデータセットである。 また、非常に多様な撮影環境(例えば、カメラの設定、シーンなど)もカバーしている。 このデータセットに基づいて、データ拡張とコントラスト損失という2つの視点からRe-ID特徴を学習するための重要な要素を体系的に研究する。 この大規模なデータセットで実施された教師なしの事前トレーニングは、既存のすべてのRe-IDメソッドに利益をもたらす一般的なRe-ID機能に効果的に結びつく。 いくつかのフレームワークで事前学習したモデルを用いて、CUHK03、Market1501、DukeMTMC、MSMT17の4つの広く使われているRe-IDデータセットに対して、ベルやホイッスルを使わずに最先端の結果を得る。 また,小規模のターゲットデータセットや少数ショット設定では,性能改善がより重要であることを示した。

In this paper, we present a large scale unlabeled person re-identification (Re-ID) dataset "LUPerson" and make the first attempt of performing unsupervised pre-training for improving the generalization ability of the learned person Re-ID feature representation. This is to address the problem that all existing person Re-ID datasets are all of limited scale due to the costly effort required for data annotation. Previous research tries to leverage models pre-trained on ImageNet to mitigate the shortage of person Re-ID data but suffers from the large domain gap between ImageNet and person Re-ID data. LUPerson is an unlabeled dataset of 4M images of over 200K identities, which is 30X larger than the largest existing Re-ID dataset. It also covers a much diverse range of capturing environments (eg, camera settings, scenes, etc.). Based on this dataset, we systematically study the key factors for learning Re-ID features from two perspectives: data augmentation and contrastive loss. Unsupervised pre-training performed on this large-scale dataset effectively leads to a generic Re-ID feature that can benefit all existing person Re-ID methods. Using our pre-trained model in some basic frameworks, our methods achieve state-of-the-art results without bells and whistles on four widely used Re-ID datasets: CUHK03, Market1501, DukeMTMC, and MSMT17. Our results also show that the performance improvement is more significant on small-scale target datasets or under few-shot setting.
翻訳日:2021-05-16 21:23:08 公開日:2021-04-25
# (参考訳) 潜在的慣用表現(PIE)-英: Corpus for Classes of Idioms [全文訳有]

Potential Idiomatic Expression (PIE)-English: Corpus for Classes of Idioms ( http://arxiv.org/abs/2105.03280v1 )

ライセンス: CC BY 4.0
Tosin P. Adewumi, Saleha Javed, Roshanak Vadoodi, Aparajita Tripathy, Konstantina Nikolaidou, Foteini Liwicki and Marcus Liwicki(参考訳) 我々は、自然言語処理(NLP)のためのかなり大きな潜在慣用表現(PIE)データセットを英語で提示する。 機械翻訳(MT)、単語感覚の曖昧化(WSD)、情報検索といったタスクに関するNLPシステムにおける課題は、この作業のクラスのようなラベル付きイディオムデータセットを持つことを必須にしている。 著者の知る限りでは、これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のイディオムコーパスである。 特に、以下のクラスはデータセットにラベル付けされている: メタファ、シミール、オイフェミズム、並列主義、人格化、オキシモロン、パラドックス、ハイパーボイル、皮肉、リテラル。 過去の多くの試みは、コーパスサイズとサンプルのクラスで制限されてきたが、このデータセットは10のクラス(または感覚)から約1,200のイディオムのケースを持つ20,100以上のサンプルを含んでいる。 コーパスは、研究者が特定のニーズを満たすために拡張することもできる。 コーパスには、NLTKライブラリからの音声タグ(PoS)の一部が含まれている。 BERTモデルを含む3つの一般的なモデルのベースラインと比較を得るためにコーパスで実施された分類実験は良い結果を得た。 また、NLPタスクのためのコーパスと関連するコードも公開しています。

We present a fairly large, Potential Idiomatic Expression (PIE) dataset for Natural Language Processing (NLP) in English. The challenges with NLP systems with regards to tasks such as Machine Translation (MT), word sense disambiguation (WSD) and information retrieval make it imperative to have a labelled idioms dataset with classes such as it is in this work. To the best of the authors' knowledge, this is the first idioms corpus with classes of idioms beyond the literal and the general idioms classification. In particular, the following classes are labelled in the dataset: metaphor, simile, euphemism, parallelism, personification, oxymoron, paradox, hyperbole, irony and literal. Many past efforts have been limited in the corpus size and classes of samples but this dataset contains over 20,100 samples with almost 1,200 cases of idioms (with their meanings) from 10 classes (or senses). The corpus may also be extended by researchers to meet specific needs. The corpus has part of speech (PoS) tagging from the NLTK library. Classification experiments performed on the corpus to obtain a baseline and comparison among three common models, including the BERT model, give good results. We also make publicly available the corpus and the relevant codes for working with it for NLP tasks.
翻訳日:2021-05-11 11:01:35 公開日:2021-04-25
# (参考訳) ニューラルネットワーク(anns)を用いたカルバートの水圧閉塞予測のための深部視覚特徴の回帰 [全文訳有]

Regression on Deep Visual Features using Artificial Neural Networks (ANNs) to Predict Hydraulic Blockage at Culverts ( http://arxiv.org/abs/2105.03233v1 )

ライセンス: CC BY 4.0
Umair Iqbal, Johan Barthelemy, Wanqing Li and Pascal Perez(参考訳) 都市景観における横断排水水理構造物(例えばカルバート、ブリッジ)は、輸送された破片によってブロックされやすく、しばしばフラッシュフラッドを引き起こす。 オーストラリアでは、Wollongong City Council (WCC) のブロック・コンジット・ポリシーが、設計プロセスにおけるブロックを考慮に入れた唯一の公式ガイドラインである。 しかし、この方針は洪水後の視覚検査に基づいており、水圧遮断の正確な表現とは考えられないという意見も多い。 この議論の結果として、視覚的遮断と水理的遮断は、両者の間に確立された定量的な関係を持たない2つの異なる用語と見なされる。 本稿では, 油圧遮断の予測に深い視覚的特徴を用いることにより, 両項を関連づけることを試みる。 入力として変換のイメージを取得し、ディープラーニングモデルを使用して視覚的特徴を抽出し、視覚的特徴を前処理し、回帰モデルにフィードし、対応する油圧閉塞を予測する。 本研究で使用したデータセット(Hydrology-Lab Dataset (HD), Visual Hydrology-Lab Dataset (VHD))は, 複数のブロックシナリオを大規模に再現した変圧器のスケールされた物理モデルを用いて実験した。 回帰モデルの性能は標準評価指標を用いて評価した。 さらに、モデルとハードウェア要求分析の相対比較の処理時間の観点から、全体的な機械学習パイプラインの性能を評価した。 MobileNetで使用したANNによる視覚的特徴抽出は,R^{2}$スコア0.7855で最高の回帰性能を達成した。 R^{2}$スコアの正の値は、視覚特徴と油圧遮断の相関の存在を示し、両者が相互に関連があることを示唆した。

Cross drainage hydraulic structures (i.e., culverts, bridges) in urban landscapes are prone to getting blocked by transported debris which often results in causing the flash floods. In context of Australia, Wollongong City Council (WCC) blockage conduit policy is the only formal guideline to consider blockage in design process. However, many argue that this policy is based on the post floods visual inspections and hence can not be considered accurate representation of hydraulic blockage. As a result of this on-going debate, visual blockage and hydraulic blockage are considered two distinct terms with no established quantifiable relation among both. This paper attempts to relate both terms by proposing the use of deep visual features for prediction of hydraulic blockage at a given culvert. An end-to-end machine learning pipeline is propounded which takes an image of culvert as input, extract visual features using deep learning models, pre-process the visual features and feed into regression model to predict the corresponding hydraulic blockage. Dataset (i.e., Hydrology-Lab Dataset (HD), Visual Hydrology-Lab Dataset (VHD)) used in this research was collected from in-lab experiments carried out using scaled physical models of culverts where multiple blockage scenarios were replicated at scale. Performance of regression models was assessed using standard evaluation metrics. Furthermore, performance of overall machine learning pipeline was assessed in terms of processing times for relative comparison of models and hardware requirement analysis. From the results ANN used with MobileNet extracted visual features achieved the best regression performance with $R^{2}$ score of 0.7855. Positive value of $R^{2}$ score indicated the presence of correlation between visual features and hydraulic blockage and suggested that both can be interrelated with each other.
翻訳日:2021-05-11 10:53:43 公開日:2021-04-25
# バッチ強化学習のための指数的下界:バッチRLはオンラインRLよりも指数的に難しい

Exponential Lower Bounds for Batch Reinforcement Learning: Batch RL can be Exponentially Harder than Online RL ( http://arxiv.org/abs/2012.08005v3 )

ライセンス: Link先を確認
Andrea Zanette(参考訳) 強化学習のいくつかの実践的応用は、エージェントが過去のデータから学習することを含む。 多くの場合、これらのアプリケーションでは、1)ほぼ最適なポリシーを特定したり、2)ターゲットポリシーの価値を見積もる必要があります。 いずれのタスクに対しても, 1 \emph{realizability} が成立しても,アクション値関数に対する線形関数表現を持つディスカウント無限大地平線mdpにおける情報理論的下限である \emph{exponential} を導出し, 2) バッチアルゴリズムは厳密な報酬と遷移を観測し, 3) バッチアルゴリズムは問題クラスに対する事前データ分布として \emph{best} を与えられる。 さらに、もしデータセットがポリシーのロールアウトから来ない場合、下界は、もし \emph{every} ポリシーのアクション値関数が線形表現を許すとしても保持する。 目的が最適に近いポリシーを見つけることなら、これらのハードインスタンスは \emph{online} アルゴリズムで容易に解けることを発見し、最も好ましいバッチデータ分布下であっても、オンライン RL よりも指数関数的に困難であるような RL 問題が存在することを示した。 言い換えれば、オンライン探索は、関数近似を用いたサンプル効率のよいRLを実現するために重要である。 第二の補題は、仮定の下で有限と無限のホライズンバッチ問題の指数的分離である。 技術的レベルでは、この研究は、すべての分布に保持される下位境界を証明し、特別なケースとして従来の固定分布の下限を自動的に回収する新しい 'oracle + batch algorithm' フレームワークを導入している。 最後に、この研究は \emph{deadly triad} として知られる問題を形式化し、 \emph{bootstrapping} 問題 \citep{sutton2018reinforcem ent} が RL の \emph{extrapolation} 問題よりも深刻な可能性があると説明する。

Several practical applications of reinforcement learning involve an agent learning from past data without the possibility of further exploration. Often these applications require us to 1) identify a near optimal policy or to 2) estimate the value of a target policy. For both tasks we derive \emph{exponential} information-theoreti c lower bounds in discounted infinite horizon MDPs with a linear function representation for the action value function even if 1) \emph{realizability} holds, 2) the batch algorithm observes the exact reward and transition \emph{functions}, and 3) the batch algorithm is given the \emph{best} a priori data distribution for the problem class. Furthermore, if the dataset does not come from policy rollouts then the lower bounds hold even if the action-value function of \emph{every} policy admits a linear representation. If the objective is to find a near-optimal policy, we discover that these hard instances are easily solved by an \emph{online} algorithm, showing that there exist RL problems where \emph{batch RL is exponentially harder than online RL} even under the most favorable batch data distribution. In other words, online exploration is critical to enable sample efficient RL with function approximation. A second corollary is the exponential separation between finite and infinite horizon batch problems under our assumptions. On a technical level, this work introduces a new `oracle + batch algorithm' framework to prove lower bounds that hold for every distribution, and automatically recovers traditional fixed distribution lower bounds as a special case. Finally this work helps formalize the issue known as \emph{deadly triad} and explains that the \emph{bootstrapping} problem \citep{sutton2018reinforcem ent} is potentially more severe than the \emph{extrapolation} issue for RL because unlike the latter, bootstrapping cannot be mitigated by adding more samples.
翻訳日:2021-05-08 14:42:14 公開日:2021-04-25
# (参考訳) クラウドデータセンターにおけるパフォーマンスと省エネ型双方向タスクスケジューリング [全文訳有]

Performance and Energy-Aware Bi-objective Tasks Scheduling for Cloud Data Centers ( http://arxiv.org/abs/2105.00843v1 )

ライセンス: CC BY 4.0
Huned Materwala and Leila Ismail(参考訳) クラウドコンピューティングはユーザタスクのリモート実行を可能にする。 スマートシティのサービスやアプリケーションにおけるクラウドコンピューティングの普及は、Quality of Services(QoS)に準拠したタスクのタイムリーな実行を必要とします。 しかし、コンピューティングサーバの利用の増加は、高エネルギー消費、運用コスト、環境汚染の問題を悪化させる。 クラウドデータセンターのパフォーマンスを最大化し、エネルギーを最小化するのは難しい。 本稿では,矛盾する性能とエネルギー目標をトレードオフする性能とエネルギー最適化の両対象アルゴリズムを提案する。 進化的アルゴリズムに基づく多目的最適化は、システム性能カウンタを用いて初めて提案される。 提案モデルの性能は,クラウドコンピューティング環境における現実的なクラウドデータセットを用いて評価する。 実験の結果, 技術アルゴリズムと比較すると, 高い性能と低エネルギー化を実現している。

Cloud computing enables remote execution of users tasks. The pervasive adoption of cloud computing in smart cities services and applications requires timely execution of tasks adhering to Quality of Services (QoS). However, the increasing use of computing servers exacerbates the issues of high energy consumption, operating costs, and environmental pollution. Maximizing the performance and minimizing the energy in a cloud data center is challenging. In this paper, we propose a performance and energy optimization bi-objective algorithm to tradeoff the contradicting performance and energy objectives. An evolutionary algorithm-based multi-objective optimization is for the first time proposed using system performance counters. The performance of the proposed model is evaluated using a realistic cloud dataset in a cloud computing environment. Our experimental results achieve higher performance and lower energy consumption compared to a state of the art algorithm.
翻訳日:2021-05-06 06:52:58 公開日:2021-04-25
# (参考訳) ランダム埋め込みと線形回帰はタンパク質機能を予測する [全文訳有]

Random Embeddings and Linear Regression can Predict Protein Function ( http://arxiv.org/abs/2104.14661v1 )

ライセンス: CC BY 4.0
Tianyu Lu, Alex X. Lu, Alan M. Moses(参考訳) 数百万のタンパク質配列で事前訓練された大規模な自己制御モデルが、タンパク質機能予測のためのタンパク質配列の埋め込みを生成することで最近人気を集めている。 しかし、ランダムなベースラインがないため、事前学習がタンパク質機能予測に有用な情報を学んだかどうかを判断することは困難である。 ここでは, プレトレーニングを必要としないワンホット符号化とランダム埋め込みが, 14種類の配列対機能タスクにまたがるタンパク質機能予測の強力なベースラインであることを示す。

Large self-supervised models pretrained on millions of protein sequences have recently gained popularity in generating embeddings of protein sequences for protein function prediction. However, the absence of random baselines makes it difficult to conclude whether pretraining has learned useful information for protein function prediction. Here we show that one-hot encoding and random embeddings, both of which do not require any pretraining, are strong baselines for protein function prediction across 14 diverse sequence-to-function tasks.
翻訳日:2021-05-04 04:34:16 公開日:2021-04-25
# ウォバッシュ川流域における極端水文現象の誘導予測

Inductive Predictions of Extreme Hydrologic Events in The Wabash River Watershed ( http://arxiv.org/abs/2104.14658v1 )

ライセンス: Link先を確認
Nicholas Majeske, Bidisha Abesh, Chen Zhu, Ariful Azad(参考訳) 本研究では,水文データと気象データとの時間的変動から,水文現象を予測する機械学習手法を提案する。 ワバッシュ川流域の80年以上にわたって観測・シミュレーションされた時系列データから,数値計算と記憶の必要量を削減し,双方向lstmネットワークを訓練し,土壌水と流れの予測を行った。 我々の単純なモデルは、GeoMANのような複雑な注意ネットワークよりも、精度を犠牲にすることなく、はるかに高速に訓練できることを示す。 土壌水および河川流量の予測値に基づいて,干ばつなどの極端な水文現象の発生と深刻度を予測した。 また、トレーニングプロセス中に観測された位置とは別の地理的な場所で極端な事象を予測できることを実証した。 この空間的インダクティブな設定により,ワバッシュ盆地データを用いてトレーニングしたモデルを用いて,米国および世界の他の地域における極端な事象を予測できる。

We present a machine learning method to predict extreme hydrologic events from spatially and temporally varying hydrological and meteorological data. We used a timestep reduction technique to reduce the computational and memory requirements and trained a bidirection LSTM network to predict soil water and stream flow from time series data observed and simulated over eighty years in the Wabash River Watershed. We show that our simple model can be trained much faster than complex attention networks such as GeoMAN without sacrificing accuracy. Based on the predicted values of soil water and stream flow, we predict the occurrence and severity of extreme hydrologic events such as droughts. We also demonstrate that extreme events can be predicted in geographical locations separate from locations observed during the training process. This spatially-inductive setting enables us to predict extreme events in other areas in the US and other parts of the world using our model trained with the Wabash Basin data.
翻訳日:2021-05-03 19:51:23 公開日:2021-04-25
# ハイブリッドネットワークを用いた深層学習によるダブルウェル問題の再検討

Revisiting the double-well problem by deep learning with a hybrid network ( http://arxiv.org/abs/2104.14657v1 )

ライセンス: Link先を確認
Shurui Li, Jianqin Xu and Jing Qian(参考訳) 深層学習による物理問題の解決は正確で効率的であり、主に精巧なニューラルネットワークの利用を考慮に入れている。 本稿では,システムの時間進化の強振動ダイナミクスを解くことの難しさを克服するために,LSTMとResNetの2つの異なる種類のニューラルネットワークを統合した新しいハイブリッドネットワークを提案する。 ダブルウェルモデルを例にとると,本手法はlstmネットワークを用いた事前学習と周波数周期性検証の恩恵を受けると同時に,単一ネットワークでは不可能であるresnetを用いたシステム全体のダイナミクスの忠実度を高い精度で予測できることを示す。 このようなハイブリッドネットワークは、高速空間的または時間的変調を持つシステムにおける協調ダイナミクスの解決に応用でき、実験条件下での現実的な振動計算を期待できる。

Solving physical problems by deep learning is accurate and efficient mainly accounting for the use of an elaborate neural network. We propose a novel hybrid network which integrates two different kinds of neural networks: LSTM and ResNet, in order to overcome the difficulty met in solving strongly-oscillating dynamics of the system's time evolution. By taking the double-well model as an example we show that our new method can benefit from a pre-learning and verification of the periodicity of frequency by using the LSTM network, simultaneously making a high-fidelity prediction about the whole dynamics of system with ResNet, which is impossibly achieved in the case of single network. Such a hybrid network can be applied for solving cooperative dynamics in a system with fast spatial or temporal modulations, promising for realistic oscillation calculations under experimental conditions.
翻訳日:2021-05-03 19:51:06 公開日:2021-04-25
# (参考訳) 文生成研究の包括的試み [全文訳有]

A Comprehensive Attempt to Research Statement Generation ( http://arxiv.org/abs/2104.14339v1 )

ライセンス: CC BY 4.0
Wenhao Wu and Sujian Li(参考訳) 研究者にとって、優れた研究声明を書くことは重要だが、多くの時間と労力がかかる。 本稿では,研究成果を要約し,正式な研究成果を作成することを目的とした研究成果生成(RSG)タスクを提案する。 本研究では,コーパス構築,メソッド設計,性能評価などの総合的な試みを行う。 まず、62の研究ステートメントと対応する1,203の出版物からなるrsgデータセットを構築する。 資源の制限により,トピックモデリングとクラスタリング技術を用いて研究者の研究方向を特定し,ニューラルネットワーク要約器により有能な文章を抽出する実践的RSG手法を提案する。 最後に,本手法は,コンテンツカバレッジとコヒーレンスを向上し,すべてのベースラインに優れることを示す。

For a researcher, writing a good research statement is crucial but costs a lot of time and effort. To help researchers, in this paper, we propose the research statement generation (RSG) task which aims to summarize one's research achievements and help prepare a formal research statement. For this task, we conduct a comprehensive attempt including corpus construction, method design, and performance evaluation. First, we construct an RSG dataset with 62 research statements and the corresponding 1,203 publications. Due to the limitation of our resources, we propose a practical RSG method which identifies a researcher's research directions by topic modeling and clustering techniques and extracts salient sentences by a neural text summarizer. Finally, experiments show that our method outperforms all the baselines with better content coverage and coherence.
翻訳日:2021-05-01 04:14:38 公開日:2021-04-25
# レゾリューションボックスを用いたニューラルネットワークのカスタマイズ可能な参照実行監視

Customizable Reference Runtime Monitoring of Neural Networks using Resolution Boxes ( http://arxiv.org/abs/2104.14435v1 )

ライセンス: Link先を確認
Changshun Wu, Yli\`es Falcone, Saddek Bensalem(参考訳) データ抽象化による分類システムのモニタリング手法を提案する。 データ抽象化は、解決を伴うボックスの概念に依存します。 Boxベースの抽象化は、各次元の最小値と最大値で値の集合を表現する。 ボックスを解像度の概念で拡張し、クラスタリングのカバレッジを定義します。 これにより、構築されたボックスに異なるクラスタリングパラメータが与える影響を研究し、サブ最適パラメータの間隔を推定できる。 さらに,システムの正しい動作と不正確な動作の両方を利用するモニタを自動生成する。 これにより、モニタの抽象化のサイズをチェックし、ネットワークの分離性を分析することができる。 モニタは、選択された層に配置されたシステムの各クラスのサブモニターを組み合わせることで得られる。 本実験は,クラスタリングカバレッジ推定の有効性を実証し,選択したクラスタリングパラメータとモニタ層に基づいてモニタの有効性と精度を評価する方法を示す。

We present an approach for monitoring classification systems via data abstraction. Data abstraction relies on the notion of box with a resolution. Box-based abstraction consists in representing a set of values by its minimal and maximal values in each dimension. We augment boxes with a notion of resolution and define their clustering coverage, which is intuitively a quantitative metric that indicates the abstraction quality. This allows studying the effect of different clustering parameters on the constructed boxes and estimating an interval of sub-optimal parameters. Moreover, we automatically construct monitors that leverage both the correct and incorrect behaviors of a system. This allows checking the size of the monitor abstractions and analyzing the separability of the network. Monitors are obtained by combining the sub-monitors of each class of the system placed at some selected layers. Our experiments demonstrate the effectiveness of our clustering coverage estimation and show how to assess the effectiveness and precision of monitors according to the selected clustering parameter and monitored layers.
翻訳日:2021-04-30 13:14:16 公開日:2021-04-25
# 新型コロナウイルスのCT分類のための説明可能なAI:最初の比較研究

Explainable AI For COVID-19 CT Classifiers: An Initial Comparison Study ( http://arxiv.org/abs/2104.14506v1 )

ライセンス: Link先を確認
Qinghao Ye and Jun Xia and Guang Yang(参考訳) 人工知能(AI)は、特にディープラーニングが導入されたときに、すべての産業セクターで飛躍的な発展を遂げた。 ディープラーニングは、パターンを認識し解釈する方法を通じて、エンティティの振る舞いを学ぶのに役立つ。 無限の可能性にもかかわらず、深層学習アルゴリズムがそもそもどのように決定を下すのかは謎だ。 説明可能なAI(XAI)は、ディープラーニングのためのAIとブラックボックスをアンロックする鍵である。 XAIは、エンドユーザが理解できるように、目標、ロジック、意思決定を説明するためにプログラムされたAIモデルである。 エンドユーザは、ドメインエキスパート、規制機関、マネジャー、執行委員会メンバー、データサイエンティスト、AIを使用するユーザ、認識の有無に関わらず、あるいはAIモデルの決定に影響を受けている人である。 胸部CTは、COVID-19に関連する肺疾患の臨床的診断と治療のための貴重なツールとして登場した。 aiは、他の肺疾患とcovid-19所見を区別するために、ctスキャンの迅速な評価をサポートすることができる。 しかし、これらのAIツールやディープラーニングアルゴリズムがこのような決定にどのように到達し、一般的に深い層を持つニューラルネットワークから派生した最も影響力のある特徴は明確ではない。 本研究の目的は、比較調査による新型コロナウイルス分類モデルのためのXAI戦略の提案と開発である。 その結果,XAIモデルから得られた結果からより詳細な情報を用いて,臨床医の理解と意思決定をさらに促進できる有望な定量化と質的可視化が示された。

Artificial Intelligence (AI) has made leapfrogs in development across all the industrial sectors especially when deep learning has been introduced. Deep learning helps to learn the behaviour of an entity through methods of recognising and interpreting patterns. Despite its limitless potential, the mystery is how deep learning algorithms make a decision in the first place. Explainable AI (XAI) is the key to unlocking AI and the black-box for deep learning. XAI is an AI model that is programmed to explain its goals, logic, and decision making so that the end users can understand. The end users can be domain experts, regulatory agencies, managers and executive board members, data scientists, users that use AI, with or without awareness, or someone who is affected by the decisions of an AI model. Chest CT has emerged as a valuable tool for the clinical diagnostic and treatment management of the lung diseases associated with COVID-19. AI can support rapid evaluation of CT scans to differentiate COVID-19 findings from other lung diseases. However, how these AI tools or deep learning algorithms reach such a decision and which are the most influential features derived from these neural networks with typically deep layers are not clear. The aim of this study is to propose and develop XAI strategies for COVID-19 classification models with an investigation of comparison. The results demonstrate promising quantification and qualitative visualisations that can further enhance the clinician's understanding and decision making with more granular information from the results given by the learned XAI models.
翻訳日:2021-04-30 13:05:22 公開日:2021-04-25
# CTCモデルとRNN-TモデルのアンサンブルによるストリーミングASRシステムと非ストリーミングASRシステムのギャップを埋める

Bridging the gap between streaming and non-streaming ASR systems bydistilling ensembles of CTC and RNN-T models ( http://arxiv.org/abs/2104.14346v1 )

ライセンス: Link先を確認
Thibault Doutre, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Olivier Siohan, Liangliang Cao(参考訳) ストリームエンドツーエンド自動音声認識(ASR)システムは、音声をテキストにリアルタイムに書き起こす必要がある日常的なアプリケーションで広く使われている。 レイテンシの最小化は、そのようなタスクに適している。 ストリーミング以外のモデルと異なり、ストリーミングモデルは将来的な文脈では因果関係なく、より高い単語エラー率(WER)に悩まされる。 ストリーミングモデルを改善するために,最近の研究 [1] では教師の非教師モデルと教師の予測を用いて教師モデルを訓練することを提案した。 しかし、教師と学生のWERのパフォーマンス格差は依然として高い。 本稿では,非ストリーミング型教師モデルの多種多様な集合を用いて,認識出力投票誤り低減(ROVER)を用いて,このギャップを埋めることを目的とする。 特に、RNN-Tモデルよりも弱いにもかかわらず、CTCモデルは素晴らしい教師であることを示す。 さらに,RNN-TとCTCモデルを融合させることで,最強の教員を育成する。 結果として得られた学生モデルは、以前の作品のストリーミングモデルによって大幅に改善 [1]: werはスペイン語で41%、ポルトガル語で27%、フランス語で13%減少している。

Streaming end-to-end automatic speech recognition (ASR) systems are widely used in everyday applications that require transcribing speech to text in real-time. Their minimal latency makes them suitable for such tasks. Unlike their non-streaming counterparts, streaming models are constrained to be causal with no future context and suffer from higher word error rates (WER). To improve streaming models, a recent study [1] proposed to distill a non-streaming teacher model on unsupervised utterances, and then train a streaming student using the teachers' predictions. However, the performance gap between teacher and student WERs remains high. In this paper, we aim to close this gap by using a diversified set of non-streaming teacher models and combining them using Recognizer Output Voting Error Reduction (ROVER). In particular, we show that, despite being weaker than RNN-T models, CTC models are remarkable teachers. Further, by fusing RNN-T and CTC models together, we build the strongest teachers. The resulting student models drastically improve upon streaming models of previous work [1]: the WER decreases by 41% on Spanish, 27% on Portuguese, and 13% on French.
翻訳日:2021-04-30 12:51:45 公開日:2021-04-25
# (参考訳) マルチパスニューラルネットワークにおけるバランシング精度とレイテンシ [全文訳有]

Balancing Accuracy and Latency in Multipath Neural Networks ( http://arxiv.org/abs/2104.12040v1 )

ライセンス: CC BY 4.0
Mohammed Amer, Tom\'as Maul, Iman Yi Liao(参考訳) ニューラルネットワークの能力の増大は、複雑な機械学習タスクの成功に大きく貢献し、そのような大規模モデルの計算需要は、計算を加速するために必要なハードウェアの大幅な改善を刺激した。 しかし、レイテンシの高いモデルは、ハンドヘルドやIoTデバイスのような限られたリソース環境には適していない。 したがって、多くのディープラーニング技術は、限られたリソース制約に違反することなく、適切な精度のモデルを開発することでこの問題に対処することを目指している。 本研究では,一発のニューラルネットワーク探索モデルを用いて,難解な複数パスニューラルネットワークの性能を暗黙的に評価する。 このアーキテクチャ検索とプルーニング手法とアーキテクチャサンプル評価を組み合わせることで、グレードの複雑さを持つモデルのスペクトルの精度とレイテンシの関係をモデル化することができる。 提案手法は,異なるレイテンシを持つモデル間の相対的性能を精度良くモデル化し,異なるデータセット間で良好な精度で未知のモデルの性能を予測する。

The growing capacity of neural networks has strongly contributed to their success at complex machine learning tasks and the computational demand of such large models has, in turn, stimulated a significant improvement in the hardware necessary to accelerate their computations. However, models with high latency aren't suitable for limited-resource environments such as hand-held and IoT devices. Hence, many deep learning techniques aim to address this problem by developing models with reasonable accuracy without violating the limited-resource constraint. In this work, we use a one-shot neural architecture search model to implicitly evaluate the performance of an intractable number of multipath neural networks. Combining this architecture search with a pruning technique and architecture sample evaluation, we can model the relation between the accuracy and the latency of a spectrum of models with graded complexity. We show that our method can accurately model the relative performance between models with different latencies and predict the performance of unseen models with good precision across different datasets.
翻訳日:2021-04-28 11:51:26 公開日:2021-04-25
# (参考訳) オープンエンドソリューション分析とフィードバックのための数学操作埋め込み [全文訳有]

Math Operation Embeddings for Open-ended Solution Analysis and Feedback ( http://arxiv.org/abs/2104.12047v1 )

ライセンス: CC BY 4.0
Mengxue Zhang, Zichao Wang, Richard Baraniuk, Andrew Lan(参考訳) 解答に対するフィードバックや解答の中間段階でのフィードバックは数学教育において重要な要素である。 このようなフィードバックは、学生の誤りの修正に役立ち、最終的には学習結果の改善につながる。 学生ソリューションの自動分析とフィードバックのための既存のアプローチの多くは、手動で認知モデルを構築し、各質問に対する生徒の誤りを予測する必要がある。 このプロセスには多大な人的努力が必要であり、この情報を持っていない宿題や実践で使われるほとんどの質問にスケールしない。 本稿では,少人数の質問に対して開発した誤り診断とフィードバック機構を,より多くの質問にスケールアップする試みとして,学生の段階的解法から方程式解法へ分析する。 近年の数学式符号化法を用いて, 算数埋め込みベクトル空間における遷移として, 解ステップに適用される各算術演算を表現した。 我々は、認知チュータシステムに学生ソリューションステップを含むデータセットを使用して、算術演算の暗黙的かつ明示的な表現を学習する。 これらの表現が, 生徒が解答ステップで行おうとする数学的操作を, 正しく実行したか否かに関わらず特定できるかどうかを探索し, 誤ったステップに対して適切なフィードバックタイプを選択する。 実験の結果,学習した数学演算表現は,異なるデータ分布にまたがってよく一般化することがわかった。

Feedback on student answers and even during intermediate steps in their solutions to open-ended questions is an important element in math education. Such feedback can help students correct their errors and ultimately lead to improved learning outcomes. Most existing approaches for automated student solution analysis and feedback require manually constructing cognitive models and anticipating student errors for each question. This process requires significant human effort and does not scale to most questions used in homework and practices that do not come with this information. In this paper, we analyze students' step-by-step solution processes to equation solving questions in an attempt to scale up error diagnostics and feedback mechanisms developed for a small number of questions to a much larger number of questions. Leveraging a recent math expression encoding method, we represent each math operation applied in solution steps as a transition in the math embedding vector space. We use a dataset that contains student solution steps in the Cognitive Tutor system to learn implicit and explicit representations of math operations. We explore whether these representations can i) identify math operations a student intends to perform in each solution step, regardless of whether they did it correctly or not, and ii) select the appropriate feedback type for incorrect steps. Experimental results show that our learned math operation representations generalize well across different data distributions.
翻訳日:2021-04-28 10:45:52 公開日:2021-04-25
# (参考訳) 深い確率的グラフィカルモデリング

Deep Probabilistic Graphical Modeling ( http://arxiv.org/abs/2104.12053v1 )

ライセンス: CC BY-SA 4.0
Adji B. Dieng(参考訳) 確率的グラフィカルモデリング(PGM)は、データの解釈可能な生成プロセスを定式化し、未知に関する不確実性を表現するためのフレームワークを提供するが、柔軟性に欠ける。 ディープラーニング(DL)は、近年大きな実証的な成功を収めたデータから学ぶための代替フレームワークである。 DLは優れた柔軟性を提供するが、PGMの解釈可能性やキャリブレーションに欠ける。 この論文は、深い確率的グラフィカルモデリング(dpgm)を開発する。 DPGMはDLを活用してPGMをより柔軟にする。 DPGMは、PGMとDLの両方の利点を示すデータから学習する新しい方法をもたらす。 我々はPGM内でDLを用いて、解釈可能な潜在構造を持つフレキシブルモデルを構築する。 ニューラルネットワークを用いた指数関数型ファミリーPCAを拡張し,潜在因子の解釈可能性を高めながら予測性能を向上させる。 もうひとつ紹介するモデルクラスでは、シーケンシャルなデータをモデリングする際の長期的依存関係を説明できるようにしています。 最後に、DPGMは、PGMで広く使われているモデル群である確率論的トピックモデルのいくつかの際立った問題をうまく解決する。 DPGMは複雑なデータで学習するための新しいアルゴリズムも導入している。 ニューラルネットワークによってパラメータ化された学習モデルのための,既存の最大可能性に基づくアルゴリズムを統一するアルゴリズムである。 この統一ビューは、PGMの標準推論アルゴリズムである期待最大化を用いて実現される。 また,従来のPGMの最大極大アプローチから逸脱する学習パラダイムである,エントロピー規則化された逆数学習を開発する。 DLの観点からは、エントロピー規則化された逆数学習は、生成逆数ネットワークの長期モード崩壊問題に対する解決策を提供する。

Probabilistic graphical modeling (PGM) provides a framework for formulating an interpretable generative process of data and expressing uncertainty about unknowns, but it lacks flexibility. Deep learning (DL) is an alternative framework for learning from data that has achieved great empirical success in recent years. DL offers great flexibility, but it lacks the interpretability and calibration of PGM. This thesis develops deep probabilistic graphical modeling (DPGM.) DPGM consists in leveraging DL to make PGM more flexible. DPGM brings about new methods for learning from data that exhibit the advantages of both PGM and DL. We use DL within PGM to build flexible models endowed with an interpretable latent structure. One model class we develop extends exponential family PCA using neural networks to improve predictive performance while enforcing the interpretability of the latent factors. Another model class we introduce enables accounting for long-term dependencies when modeling sequential data, which is a challenge when using purely DL or PGM approaches. Finally, DPGM successfully solves several outstanding problems of probabilistic topic models, a widely used family of models in PGM. DPGM also brings about new algorithms for learning with complex data. We develop reweighted expectation maximization, an algorithm that unifies several existing maximum likelihood-based algorithms for learning models parameterized by neural networks. This unifying view is made possible using expectation maximization, a canonical inference algorithm in PGM. We also develop entropy-regularized adversarial learning, a learning paradigm that deviates from the traditional maximum likelihood approach used in PGM. From the DL perspective, entropy-regularized adversarial learning provides a solution to the long-standing mode collapse problem of generative adversarial networks, a widely used DL approach.
翻訳日:2021-04-28 10:26:35 公開日:2021-04-25
# (参考訳) 機械学習による肝疾患の診断と診断からの献血者検出 [全文訳有]

Machine Learning Approaches for Inferring Liver Diseases and Detecting Blood Donors from Medical Diagnosis ( http://arxiv.org/abs/2104.12055v1 )

ライセンス: CC BY 4.0
Fahad B. Mostafa and Md Easin Hasan(参考訳) 医学的診断では、医療専門家は、様々な種類の病理学的方法を用いて、患者の医療状況に関する医療報告を判断する。 現代では、コンピュータと技術の利点により、データを収集し、多くの隠れた結果を視覚化することができる。 特定の問題に基づく統計的機械学習アルゴリズムは、決定を下すのに役立つ。 機械学習のデータ駆動アルゴリズムは、既存の方法を検証し、研究者が潜在的な新しい決定を提案するのに役立つ。 本稿では,連鎖方程式による多重計算を欠落データに応用し,主成分分析により次元の減少を図る。 重要な発見を明らかにするために、データの可視化が実装された。 血液ドナーと非血液ドナーを肝炎,線維症,肝硬変の疾患で分類するために用いられた,多くの二分分類機械学習アルゴリズム(人工ニューラルネットワーク,ランダムフォレスト,サポートベクターマシン)を提示,比較した。 UCI-MLR [1]で公表されたデータから、血液ドナーと非血液ドナー(肝炎、線維症、硬変)の分類方法として、実験室の医療専門家がより良い判断を下すのに役立つ方法が見つかった。 提案手法では精度が向上した(例)。 98.23%)であった。 これにより分類の質が向上した。

For a medical diagnosis, health professionals use different kinds of pathological ways to make a decision for medical reports in terms of patients medical condition. In the modern era, because of the advantage of computers and technologies, one can collect data and visualize many hidden outcomes from them. Statistical machine learning algorithms based on specific problems can assist one to make decisions. Machine learning data driven algorithms can be used to validate existing methods and help researchers to suggest potential new decisions. In this paper, multiple imputation by chained equations was applied to deal with missing data, and Principal Component Analysis to reduce the dimensionality. To reveal significant findings, data visualizations were implemented. We presented and compared many binary classifier machine learning algorithms (Artificial Neural Network, Random Forest, Support Vector Machine) which were used to classify blood donors and non-blood donors with hepatitis, fibrosis and cirrhosis diseases. From the data published in UCI-MLR [1], all mentioned techniques were applied to find one better method to classify blood donors and non-blood donors (hepatitis, fibrosis, and cirrhosis) that can help health professionals in a laboratory to make better decisions. Our proposed ML-method showed better accuracy score (e.g. 98.23% for SVM). Thus, it improved the quality of classification.
翻訳日:2021-04-28 10:24:48 公開日:2021-04-25
# (参考訳) オーバーヘッドレースビデオによるスイマーストローク速度の推定 [全文訳有]

Swimmer Stroke Rate Estimation From Overhead Race Video ( http://arxiv.org/abs/2104.12056v1 )

ライセンス: CC BY 4.0
Timothy Woinoski and Ivan V. Baji\'c(参考訳) 本研究では,オーバヘッドレースビデオ(ORV)からスイマーストローク率を自動的に判定するスイミング分析システムを提案する。 ORVは競技中の水泳選手の映像として定義されており、観察や分析の目的で撮影されている。 例えば、ライブストリーム、放送、あるいは特殊なカメラ機器からの映像で、カメラの動きの有無は問わない。 これらは競泳競技の最も典型的な形態である。 興味ある競技のビデオを見ると、どんな競技でもスイマーのストローク率を自動的に収集するシステムを作る方法について詳述する。 この情報により、より良いシステムを作成することができ、分析システムに追加することで、他のスイミング指標を自動的に抽出することができる。

In this work, we propose a swimming analytics system for automatically determining swimmer stroke rates from overhead race video (ORV). General ORV is defined as any footage of swimmers in competition, taken for the purposes of viewing or analysis. Examples of this are footage from live streams, broadcasts, or specialized camera equipment, with or without camera motion. These are the most typical forms of swimming competition footage. We detail how to create a system that will automatically collect swimmer stroke rates in any competition, given the video of the competition of interest. With this information, better systems can be created and additions to our analytics system can be proposed to automatically extract other swimming metrics of interest.
翻訳日:2021-04-28 10:17:21 公開日:2021-04-25
# (参考訳) GAN生成画像の発見が難しい:合成画像検出機に対する新たな攻撃 [全文訳有]

Making GAN-Generated Images Difficult To Spot: A New Attack Against Synthetic Image Detectors ( http://arxiv.org/abs/2104.12069v1 )

ライセンス: CC BY 4.0
Xinwei Zhao, Matthew C. Stamm(参考訳) 視覚的にリアルなGAN生成画像は、最近重要な誤報の脅威として現れた。 これらの合成画像は、鑑識検出器によって容易に識別できる法医学的痕跡を含んでいることが研究によって示されている。 残念なことに、これらの検出器はニューラルネットワーク上に構築されている。 本稿では,gan生成画像検出器を騙すことができる新たなアンチフォレンス攻撃を提案する。 我々の攻撃は 敵対的に訓練された 発生装置を使って 検出者が実際の画像と 関連づけた痕跡を 合成する さらに,移動性を実現するために,攻撃を訓練する手法を提案する。 未知のCNNが明示的にトレーニングされていないことを騙すことができる。 そこで,我々は7種類のganを用いた合成画像を用いて8種類の最先端検出cnnを騙すことができることを示す実験を行った。

Visually realistic GAN-generated images have recently emerged as an important misinformation threat. Research has shown that these synthetic images contain forensic traces that are readily identifiable by forensic detectors. Unfortunately, these detectors are built upon neural networks, which are vulnerable to recently developed adversarial attacks. In this paper, we propose a new anti-forensic attack capable of fooling GAN-generated image detectors. Our attack uses an adversarially trained generator to synthesize traces that these detectors associate with real images. Furthermore, we propose a technique to train our attack so that it can achieve transferability, i.e. it can fool unknown CNNs that it was not explicitly trained against. We demonstrate the performance of our attack through an extensive set of experiments, where we show that our attack can fool eight state-of-the-art detection CNNs with synthetic images created using seven different GANs.
翻訳日:2021-04-28 10:07:58 公開日:2021-04-25
# (参考訳) 拡張可能なエンドツーエンドRF分類:畳み込みMSTによる大容量データセット正規化の一事例 [全文訳有]

Scalable End-to-End RF Classification: A Case Study on Undersized Dataset Regularization by Convolutional-MST ( http://arxiv.org/abs/2104.12103v1 )

ライセンス: CC BY 4.0
Khalid Youssef, Greg Schuette, Yubin Cai, Daisong Zhang, Yikun Huang, Yahya Rahmat-Samii, Louis-S. Bouchard(参考訳) 畳み込みと繰り返しニューラルネットワークに基づくアプローチがそれぞれの分野の性質に有効であることが証明されたコンピュータビジョンや音声認識のような分野とは異なり、ディープラーニング(DL)は、レーダー、信号インテリジェンス、電子戦争、通信といったRFシステムの固有の性質と課題に相応しい一般的なアプローチを欠いている。 既存のアプローチでは、堅牢性、一貫性、効率性、繰り返し可能性、スケーラビリティに問題がある。 レーダー目標識別などのRFセンシングにおける主な課題の1つは、データ取得の困難さとコストである。 1クラスあたり数百から数千のサンプルが、2から12のクラスに分類する訓練で使用されるのが一般的で、精度は87%から99%と報告されている。 本稿では,多段階学習に基づく新しいdl手法を提案し,rfセンシング信号の分類について実証する。 トレーニングでは,最大17種類のクラスに対して,最大99%の精度を継続的に達成し,標準のDLアプローチよりも最大35%の精度向上を実現した。

Unlike areas such as computer vision and speech recognition where convolutional and recurrent neural networks-based approaches have proven effective to the nature of the respective areas of application, deep learning (DL) still lacks a general approach suitable for the unique nature and challenges of RF systems such as radar, signals intelligence, electronic warfare, and communications. Existing approaches face problems in robustness, consistency, efficiency, repeatability and scalability. One of the main challenges in RF sensing such as radar target identification is the difficulty and cost of obtaining data. Hundreds to thousands of samples per class are typically used when training for classifying signals into 2 to 12 classes with reported accuracy ranging from 87% to 99%, where accuracy generally decreases with more classes added. In this paper, we present a new DL approach based on multistage training and demonstrate it on RF sensing signal classification. We consistently achieve over 99% accuracy for up to 17 diverse classes using only 11 samples per class for training, yielding up to 35% improvement in accuracy over standard DL approaches.
翻訳日:2021-04-28 09:52:59 公開日:2021-04-25
# (参考訳) Fair-Capacitated Clustering [全文訳有]

Fair-Capacitated Clustering ( http://arxiv.org/abs/2104.12116v1 )

ライセンス: CC BY 4.0
Tai Le Quy, Arjun Roy, Gunnar Friege and Eirini Ntoutsi(参考訳) 従来、クラスタリングアルゴリズムは、データを同様のインスタンスのグループに分割することに重点を置いていた。 しかし、類似性の目的は、各クラスタに対して性別や人種などの保護された属性の観点からグループを公平に表現するアプリケーションでは不十分である。 さらに、多くのアプリケーションにおいて、クラスタをエンドユーザにとって有用なものにするためには、クラスタ間の平衡基数が必要である。 我々のモチベーションは、学生が多様な学生集団でより良く学ぶことができることを示し、もちろん、類似の濃度の集団は、例えば、グループ割り当てにおいてより実践的であることを示唆する教育分野から来ており、この目的のために、クラスタの公平性を確保し、クラスタの濃度のバランスを保ちながら、データを類似のインスタンスのクラスタに分割する公平なクラスタリング問題を導入する。 本稿では,この問題に対する2段階の解法を提案する。i) 公平制約を満たす最小集合を生成するために,fairletsに頼り,ii) 階層クラスタリングとパーティショニングベースのクラスタリングという2つのアプローチを提案する。 階層的アプローチはマージステップ中に追加の濃度要求を埋め込み、分割ベースは追加要件を満たすためにクナップサック問題定式化を使用して割り当てステップを変更する。 4つの教育データセットに関する実験では,クラスタ品質を維持しつつ,公平性と濃度の両面で,バランスの取れたクラスタを提供する方法が示されている。

Traditionally, clustering algorithms focus on partitioning the data into groups of similar instances. The similarity objective, however, is not sufficient in applications where a fair-representation of the groups in terms of protected attributes like gender or race, is required for each cluster. Moreover, in many applications, to make the clusters useful for the end-user, a balanced cardinality among the clusters is required. Our motivation comes from the education domain where studies indicate that students might learn better in diverse student groups and of course groups of similar cardinality are more practical e.g., for group assignments.To this end, we introduce the fair-capacitated clustering problem that partitions the data into clusters of similar instances while ensuring cluster fairness and balancing cluster cardinalities. We propose a two-step solution to the problem: i) we rely on fairlets to generate minimal sets that satisfy the fair constraint and ii) we propose two approaches, namely hierarchical clustering and partitioning-based clustering, to obtain the fair-capacitated clustering. The hierarchical approach embeds the additional cardinality requirements during the merging step while the partitioning-based one alters the assignment step using a knapsack problem formulation to satisfy the additional requirements. Our experiments on four educational datasets show that our approaches deliver well-balanced clusters in terms of both fairness and cardinality while maintaining a good clustering quality.
翻訳日:2021-04-28 09:33:37 公開日:2021-04-25
# (参考訳) オフィスビルにおけるエネルギー柔軟性を活用したソフトアクタ批判者深層強化学習手法の開発 [全文訳有]

Development of a Soft Actor Critic Deep Reinforcement Learning Approach for Harnessing Energy Flexibility in a Large Office Building ( http://arxiv.org/abs/2104.12125v1 )

ライセンス: CC BY 4.0
Anjukan Kathirgamanathan, Eleni Mangina, Donal P. Finn(参考訳) 本研究は, 大規模商業ビルの冷却設定点(冷却負荷)を制御し, エネルギーの柔軟性を高めるため, 「ソフトアクター批判」に基づく深部強化学習(DRL)の新規適用と研究に関するものである。 この研究は、従来型のモデルベース制御手法の開発と適用に関する課題を、より広いビルの在庫に展開することによるものである。 SACは、連続的な行動空間を扱えるモデルフリーDRL技術であり、建築エネルギーシステムの自動化とインテリジェント制御の文脈において、実生活や高忠実性シミュレーションの実装に限定的な応用が見られた。 このような制御技術は、スマートで持続可能で将来の電力網の運用を支援するための1つの解決策と見なされている。 本研究は,オフィスビルのEnergyPlus環境におけるエージェントの訓練と展開を通じて,SAC DRL技術の適合性を検証した。 sac drlは、デフォルトのルールベース制御(rbc)方式と比較してエネルギーコストを9.7%削減できる最適な制御方針を学習し、1週間の試験期間で保温限界を改善または維持することができた。 アルゴリズムは異なるハイパーパラメータに対して堅牢であることが示され、この最適制御ポリシーは、容易に利用可能な変数からなる最小状態空間を使用することで学習された。 アルゴリズムの堅牢性は、学習の速度と異なる季節や気候に展開する能力の調査を通じて検証された。 SAC DRLは,3ヶ月の手術後にRBCを上回り,この期間の熱的快適さを損なうことなく,最小限のトレーニングサンプルポイントを必要とすることがわかった。 他の気候や季節に移行できるが、さらなる再訓練やハイパーパラメータチューニングが推奨される。

This research is concerned with the novel application and investigation of `Soft Actor Critic' (SAC) based Deep Reinforcement Learning (DRL) to control the cooling setpoint (and hence cooling loads) of a large commercial building to harness energy flexibility. The research is motivated by the challenge associated with the development and application of conventional model-based control approaches at scale to the wider building stock. SAC is a model-free DRL technique that is able to handle continuous action spaces and which has seen limited application to real-life or high-fidelity simulation implementations in the context of automated and intelligent control of building energy systems. Such control techniques are seen as one possible solution to supporting the operation of a smart, sustainable and future electrical grid. This research tests the suitability of the SAC DRL technique through training and deployment of the agent on an EnergyPlus based environment of the office building. The SAC DRL was found to learn an optimal control policy that was able to minimise energy costs by 9.7% compared to the default rule-based control (RBC) scheme and was able to improve or maintain thermal comfort limits over a test period of one week. The algorithm was shown to be robust to the different hyperparameters and this optimal control policy was learnt through the use of a minimal state space consisting of readily available variables. The robustness of the algorithm was tested through investigation of the speed of learning and ability to deploy to different seasons and climates. It was found that the SAC DRL requires minimal training sample points and outperforms the RBC after three months of operation and also without disruption to thermal comfort during this period. The agent is transferable to other climates and seasons although further retraining or hyperparameter tuning is recommended.
翻訳日:2021-04-28 09:20:10 公開日:2021-04-25
# (参考訳) ハイパースペクトル画像分類のための3D/2D正規化CNN特徴階層 [全文訳有]

3D/2D regularized CNN feature hierarchy for Hyperspectral image classification ( http://arxiv.org/abs/2104.12136v1 )

ライセンス: CC BY 4.0
Muhammad Ahmad, Manuel Mazzara, and Salvatore Distefano(参考訳) 畳み込みニューラルネットワーク(cnn)はハイパースペクトル画像分類(hsic)のために厳密に研究されており、ハードラベルとラベル上の非一様分布による一般化性能と学習速度の低下を犠牲にして、共同空間スペクトル情報の活用に有効であることが知られている。 aforesaid問題に対処するために、いくつかの正規化技術が使われてきた。 しかし、モデルはしばしば、一般化の観点からは良くないサンプルを極めて自信を持って予測することを学ぶ。 そこで本稿では,ハードラベルの重み付き平均値であるソフトラベルと地上ラベルの均一分布を用いて,HSIC用ハイブリッドCNNの一般化性能を向上させることを提案する。 提案手法はCNNが過信されるのを防ぐのに役立つ。 一般化性能の向上において,ラベル平滑化はモデルキャリブレーションも改善し,ビーム探索が大幅に向上することを示す。 公開されたハイパースペクトルデータセットは、最先端のモデルと比較して一般化性能、統計的重要性、計算複雑性が改善された実験評価を検証するために使用される。 コードはhttps://github.com/m ahmad00.comから入手できる。

Convolutional Neural Networks (CNN) have been rigorously studied for Hyperspectral Image Classification (HSIC) and are known to be effective in exploiting joint spatial-spectral information with the expense of lower generalization performance and learning speed due to the hard labels and non-uniform distribution over labels. Several regularization techniques have been used to overcome the aforesaid issues. However, sometimes models learn to predict the samples extremely confidently which is not good from a generalization point of view. Therefore, this paper proposed an idea to enhance the generalization performance of a hybrid CNN for HSIC using soft labels that are a weighted average of the hard labels and uniform distribution over ground labels. The proposed method helps to prevent CNN from becoming over-confident. We empirically show that in improving generalization performance, label smoothing also improves model calibration which significantly improves beam-search. Several publicly available Hyperspectral datasets are used to validate the experimental evaluation which reveals improved generalization performance, statistical significance, and computational complexity as compared to the state-of-the-art models. The code will be made available at https://github.com/m ahmad00.
翻訳日:2021-04-28 08:50:11 公開日:2021-04-25
# (参考訳) ポイントクラウドを超えた3d攻撃 [全文訳有]

3D Adversarial Attacks Beyond Point Cloud ( http://arxiv.org/abs/2104.12146v1 )

ライセンス: CC BY 4.0
Jinlai Zhang, Lyujie Chen, Binbin Liu, Bo Ouyang, Qizhi Xie, Jihong Zhu, Yanmei Meng(参考訳) 従来の3Dポイントクラウドに対する敵攻撃は主に、元のポイントクラウドに摂動を加えることに焦点を当てていたが、生成された敵ポイントクラウドの例は、物理的世界の3Dオブジェクトを厳密に表現するものではなく、転送可能性も低く、単純なSRS/SORによって容易に防御できる。 本稿では,この問題を解決するために,Mesh攻撃という新たな敵攻撃を提案する。 具体的には、ポイントクラウドの代わりにメッシュ上で摂動を行い、逆メッシュの例とポイントクラウドの例を同時に取得する。 逆の例を生成するために、ポイントクラウド分類器の損失をメッシュ頂点にバックプロパゲーションする差分サンプルモジュールと、メッシュを滑らかに規則化するメッシュ損失を使用する。 広範な実験により,提案手法がsota攻撃法を上回った。 私たちのコードは、次のように利用できる。

Previous adversarial attacks on 3D point clouds mainly focus on add perturbation to the original point cloud, but the generated adversarial point cloud example does not strictly represent a 3D object in the physical world and has lower transferability or easily defend by the simple SRS/SOR. In this paper, we present a novel adversarial attack, named Mesh Attack to address this problem. Specifically, we perform perturbation on the mesh instead of point clouds and obtain the adversarial mesh examples and point cloud examples simultaneously. To generate adversarial examples, we use a differential sample module that back-propagates the loss of point cloud classifier to the mesh vertices and a mesh loss that regularizes the mesh to be smooth. Extensive experiments demonstrated that the proposed scheme outperforms the SOTA attack methods. Our code is available at: {\footnotesize{\url{https://github.com/c uge1995/Mesh-Attack}}}.
翻訳日:2021-04-28 08:40:52 公開日:2021-04-25
# (参考訳) 変形可能なオブジェクト操作のための潜在グラフダイナミクスの学習 [全文訳有]

Learning Latent Graph Dynamics for Deformable Object Manipulation ( http://arxiv.org/abs/2104.12149v1 )

ライセンス: CC BY 4.0
Xiao Ma, David Hsu, Wee Sun Lee(参考訳) 布やロープなどの変形可能な物体を操作することは、ロボット工学における長年の課題である。 本研究の目的は、DefOrmable Object Manipulation (G-DOOM)のための潜伏グラフのダイナミクスを学ぶことである。 多くのdofと複雑なダイナミクスの課題に取り組むため、g-doomは相互作用するキーポイントのスパースセットとして変形可能なオブジェクトを近似し、キーポイントの幾何と相互作用のダイナミクスを抽象的に捉えたグラフニューラルネットワークを学習する。 さらに、知覚的課題、具体的にはオブジェクトの自己隠蔽に対処するために、G-DOOMは、時間とともにキーポイントを追跡し、履歴上のインタラクションを条件付けるために、繰り返しニューラルネットワークを追加する。 次に、高忠実度シミュレータのコントラスト学習により、結果の反復グラフダイナミクスモデルを訓練する。 操作計画のために、g-doomは各キーポイントに適用されるモデル予測制御を通じて学習力学モデルについて明示的に理由を定める。 我々は,G-DOOM が最先端の手法よりも優れていることを示すために,一連の挑戦的な布地やロープ操作作業において G-DOOM を評価する。 さらに,シミュレーションデータに基づいてトレーニングを行ったが,g-doomは実際のロボットに直接移動し,布とロープの操作を行う。

Manipulating deformable objects, such as cloth and ropes, is a long-standing challenge in robotics: their large number of degrees of freedom (DoFs) and complex non-linear dynamics make motion planning extremely difficult. This work aims to learn latent Graph dynamics for DefOrmable Object Manipulation (G-DOOM). To tackle the challenge of many DoFs and complex dynamics, G-DOOM approximates a deformable object as a sparse set of interacting keypoints and learns a graph neural network that captures abstractly the geometry and interaction dynamics of the keypoints. Further, to tackle the perceptual challenge, specifically, object self-occlusion, G-DOOM adds a recurrent neural network to track the keypoints over time and condition their interactions on the history. We then train the resulting recurrent graph dynamics model through contrastive learning in a high-fidelity simulator. For manipulation planning, G-DOOM explicitly reasons about the learned dynamics model through model-predictive control applied at each of the keypoints. We evaluate G-DOOM on a set of challenging cloth and rope manipulation tasks and show that G-DOOM outperforms a state-of-the-art method. Further, although trained entirely on simulation data, G-DOOM transfers directly to a real robot for both cloth and rope manipulation in our experiments.
翻訳日:2021-04-28 08:30:11 公開日:2021-04-25
# (参考訳) 代数的解集合プログラミング [全文訳有]

Algebraic answer set programming ( http://arxiv.org/abs/2104.12156v1 )

ライセンス: CC BY 4.0
Christian Antic(参考訳) 非単調推論は、人工知能研究において、解集合プログラミングを通じて顕著に形式化された人間の知能の重要な部分である。 複雑なオブジェクトを初等的なオブジェクトの合成として記述することは、コンピュータ科学および科学全般において共通の戦略である。 本稿では,解集合プログラミングと人工知能の基礎を,解集合プログラムの逐次構成の導入と研究を通じて提供する。 具体的には、合成の概念が有限モノイドと半ネアリングの族、baptized {\em ASP monoids} と {\em ASP seminearrings} を生み出すことを示す。 特に、構成と結合の組み合わせが有限等等等化半ニアリングの構造をもたらすことを示す。 また、ちょうど1つの原子を持つ規則のみを含む固有krom-hornプログラムの制限クラスは、有限等分半環を与えることを示した。 意味面では、プログラムのvan Emden-Kowalski即時帰結演算子は合成によって表現できることを示し、演算子への明示的な参照なしに、Hornプログラムの最小モデル意味論を計算することができる。 その結果、代数的に解集合を特徴づけ、数学的に満足な方法で解集合プログラムの構文と意味の間の概念的ギャップを橋渡しし、強で均一な同値性の代数的特徴を与える。 さらに、解集合プログラムに対する代数的メタ計算を生じさせる。 より広い意味では、本論文は、ルールに基づく論理理論の代数へのさらなるステップであり、将来的には、より広い形式的クラス、特に第一階および断続的な解集合プログラムおよびそれらの拡張に、本論文の手法を適応し、一般化する予定である。

Non-monotonic reasoning is an essential part of human intelligence prominently formalized in artificial intelligence research via answer set programming. Describing complex objects as the composition of elementary ones is a common strategy in computer science and science in general. This paper contributes to the foundations of answer set programming and artificial intelligence by introducing and studying the sequential composition of answer set programs. Specifically, we show that the notion of composition gives rise to a family of finite monoids and seminearrings, baptized {\em ASP monoids} and {\em ASP seminearrings} in this paper. Particularly, we show that the combination of composition and union yields the structure of a finite idempotent seminearring. We also show that the restricted class of proper Krom-Horn programs, which only contain rules with exactly one body atom, yields a finite idempotent semiring. On the semantic side, we show that the van Emden-Kowalski immediate consequence operator of a program can be represented via composition, which allows us to compute the least model semantics of Horn programs without any explicit reference to operators. As a result, we characterize answer sets algebraically, which bridges the conceptual gap between the syntax and semantics of an answer set program in a mathematically satisfactory way, and which provides an algebraic characterization of strong and uniform equivalence. Moreover, it gives rise to an algebraic meta-calculus for answer set programs. In a broader sense, this paper is a further step towards an algebra of rule-based logical theories and in the future we plan to adapt and generalize the methods of this paper to wider classes of formalisms, most importantly to first-order and disjunctive answer set programs and extensions thereof.
翻訳日:2021-04-28 08:07:02 公開日:2021-04-25
# (参考訳) 1対1音声変換のための適応学習型生成型逆ネットワーク [全文訳有]

An Adaptive Learning based Generative Adversarial Network for One-To-One Voice Conversion ( http://arxiv.org/abs/2104.12159v1 )

ライセンス: CC BY 4.0
Sandipan Dhar, Nanda Dulal Jana, Swagatam Das(参考訳) 近年、音声合成の分野では音声変換(vc)が重要な研究分野として登場し、音声合成技術や自動映画ダビング、音声合成から名前への変換に応用されている。 vcは基本的に、ある話者の発声スタイルを別の話者に変換するが、言語内容は変わらない。 VCタスクは、音声分析、音声特徴マッピング、音声再構成からなる3段階パイプラインを通じて実行される。 現在、gan(generative adversarial network)モデルは、ソースからターゲット話者への音声特徴マッピングに広く使われている。 本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。 ALGAN-VCフレームワークは、音源とターゲット話者間の音声品質と音声類似性を改善するためのいくつかのアプローチで構成されている。 このモデルは、Dense Residual Network(DRN)のようなアーキテクチャをジェネレータネットワークに組み込んで、効率的な音声特徴学習を行い、ソースからターゲットの音声特徴変換を行う。 また,提案モデルの損失関数を計算するために適応学習機構を統合する。 さらに,提案モデルの学習能力を高めるために,強化学習率アプローチを用いた。 このモデルは、1対1のVCに対して、フォワードマッピングと逆マッピングの両方を同時に使用することでトレーニングされる。 提案したモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020のデータセットと、インドの地域言語と英語で記録された自己準備された音声データセットでテストされている。 主観的・客観的評価により,提案手法は,高い話者類似性と適切な音声品質を実現し,音声変換タスクをエレガントに行うことができた。

Voice Conversion (VC) emerged as a significant domain of research in the field of speech synthesis in recent years due to its emerging application in voice-assisting technology, automated movie dubbing, and speech-to-singing conversion to name a few. VC basically deals with the conversion of vocal style of one speaker to another speaker while keeping the linguistic contents unchanged. VC task is performed through a three-stage pipeline consisting of speech analysis, speech feature mapping, and speech reconstruction. Nowadays the Generative Adversarial Network (GAN) models are widely in use for speech feature mapping from source to target speaker. In this paper, we propose an adaptive learning-based GAN model called ALGAN-VC for an efficient one-to-one VC of speakers. Our ALGAN-VC framework consists of some approaches to improve the speech quality and voice similarity between source and target speakers. The model incorporates a Dense Residual Network (DRN) like architecture to the generator network for efficient speech feature learning, for source to target speech feature conversion. We also integrate an adaptive learning mechanism to compute the loss function for the proposed model. Moreover, we use a boosted learning rate approach to enhance the learning capability of the proposed model. The model is trained by using both forward and inverse mapping simultaneously for a one-to-one VC. The proposed model is tested on Voice Conversion Challenge (VCC) 2016, 2018, and 2020 datasets as well as on our self-prepared speech dataset, which has been recorded in Indian regional languages and in English. A subjective and objective evaluation of the generated speech samples indicated that the proposed model elegantly performed the voice conversion task by achieving high speaker similarity and adequate speech quality.
翻訳日:2021-04-28 07:42:00 公開日:2021-04-25
# (参考訳) MIDeepSeg: 深層学習を用いた医用画像からの見えない物体の最小対話的セグメンテーション [全文訳有]

MIDeepSeg: Minimally Interactive Segmentation of Unseen Objects from Medical Images Using Deep Learning ( http://arxiv.org/abs/2104.12166v1 )

ライセンス: CC BY 4.0
Xiangde Luo, Guotai Wang, Tao Song, Jingyang Zhang, Michael Aertsen, Jan Deprest, Sebastien Ourselin, Tom Vercauteren, Shaoting Zhang(参考訳) 医療画像からの臓器や病変の分割は、診断や治療計画などの多くの臨床応用において重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)は自動セグメンテーションの最先端性能を達成したが、複雑な症例では臨床的に許容される精度と堅牢性の欠如によって制限されることが多い。 したがって、インタラクティブセグメンテーションはこれらの方法の実用的な代替手段である。 しかし,従来の対話的セグメンテーション手法では大量のユーザインタラクションが必要であり,最近提案されたCNNベースの対話的セグメンテーション手法は,これまで見つからなかったオブジェクトの性能の低下によって制限されている。 これらの問題を解決するために,ユーザ入力としてクリックを必要とするだけでなく,これまで見つからなかった範囲のオブジェクトを一般化する,ディープラーニングに基づく対話型セグメンテーション手法を提案する。 具体的には,提案する指数的測地距離によるユーザ提供の内部マージン点をエンコードし,cnnが先行および未発見のオブジェクトの良好な初期セグメンテーション結果を達成することを可能とし,その初期セグメンテーションと少数の追加ユーザクリックのみを組み合わせる新しい情報融合手法を用いて,高精度なセグメンテーションを得る。 2次元および3次元の医用画像セグメンテーションタスクについて,トレーニングセットに存在しない広範囲の未発見物体を用いて広範な実験を行い,提案手法の有効性を確認した。 実験結果から,提案したフレームワークは,現状の対話型フレームワークと比較してユーザインタラクションが小さく,時間も少なく,また,従来は見つからなかったオブジェクトに最適化できることがわかった。

Segmentation of organs or lesions from medical images plays an essential role in many clinical applications such as diagnosis and treatment planning. Though Convolutional Neural Networks (CNN) have achieved the state-of-the-art performance for automatic segmentation, they are often limited by the lack of clinically acceptable accuracy and robustness in complex cases. Therefore, interactive segmentation is a practical alternative to these methods. However, traditional interactive segmentation methods require a large amount of user interactions, and recently proposed CNN-based interactive segmentation methods are limited by poor performance on previously unseen objects. To solve these problems, we propose a novel deep learning-based interactive segmentation method that not only has high efficiency due to only requiring clicks as user inputs but also generalizes well to a range of previously unseen objects. Specifically, we first encode user-provided interior margin points via our proposed exponentialized geodesic distance that enables a CNN to achieve a good initial segmentation result of both previously seen and unseen objects, then we use a novel information fusion method that combines the initial segmentation with only few additional user clicks to efficiently obtain a refined segmentation. We validated our proposed framework through extensive experiments on 2D and 3D medical image segmentation tasks with a wide range of previous unseen objects that were not present in the training set. Experimental results showed that our proposed framework 1) achieves accurate results with fewer user interactions and less time compared with state-of-the-art interactive frameworks and 2) generalizes well to previously unseen objects.
翻訳日:2021-04-28 07:14:44 公開日:2021-04-25
# (参考訳) 3次元視線推定のための新しい統合ステレオ刺激型両眼眼眼追跡システム [全文訳有]

A Novel Unified Stereo Stimuli based Binocular Eye-Tracking System for Accurate 3D Gaze Estimation ( http://arxiv.org/abs/2104.12167v1 )

ライセンス: CC BY 4.0
Sunjing Lin, Yu Liu, Shaochu Wang, Chang Li, Han Wang(参考訳) 高いコストと複雑なセットアップに加えて、3次元の3dディスプレイの限界の主な理由は、ユーザの現在のpog(point-of-gaze)を3d空間で正確に推定することである。 本稿では,3次元立体表示システムと視線追跡システムを統合した立体環境におけるポグ推定のための新しい非接触手法を提案する。 3D立体表示システムは、ユーザーは機器を装着することなく、親しみやすく没入感のある高精細な視聴体験を提供できる。 視界におけるユーザの3D PoGを正確に特定するために,眼球運動データとステレオ刺激映像を入力として,回帰に基づく3Dアイトラッキングモデルを構築した。 さらに,最適な回帰モデルをトレーニングするために,2つのステレオテストシーンに対応する30人のユーザの視線追跡データを含むデータセットを設計・アノテートする。 このデータセットは、視線ベクトル推定のための目領域ランドマークと、視線深度推定のための複合特徴セットの間に特徴ベクトルを導入する。 さらに、5つの従来の回帰モデルをトレーニングし、このデータセットに基づいて評価する。 実験結果から,3d pogの平均誤差はx軸で約 0.90~cm,y軸で 0.83~cm,z軸に沿って 1.48~cm$/$0.12~m,シーン深度で75~cm$/8~mであった。

In addition to the high cost and complex setup, the main reason for the limitation of the three-dimensional (3D) display is the problem of accurately estimating the user's current point-of-gaze (PoG) in a 3D space. In this paper, we present a novel noncontact technique for the PoG estimation in a stereoscopic environment, which integrates a 3D stereoscopic display system and an eye-tracking system. The 3D stereoscopic display system can provide users with a friendly and immersive high-definition viewing experience without wearing any equipment. To accurately locate the user's 3D PoG in the field of view, we build a regression-based 3D eye-tracking model with the eye movement data and stereo stimulus videos as input. Besides, to train an optimal regression model, we also design and annotate a dataset that contains 30 users' eye-tracking data corresponding to two designed stereo test scenes. Innovatively, this dataset introduces feature vectors between eye region landmarks for the gaze vector estimation and a combined feature set for the gaze depth estimation. Moreover, five traditional regression models are trained and evaluated based on this dataset. Experimental results show that the average errors of the 3D PoG are about 0.90~cm on the X-axis, 0.83~cm on the Y-axis, and 1.48~cm$/$0.12~m along the Z-axis with the scene-depth range in 75~cm$/$8~m, respectively.
翻訳日:2021-04-28 06:46:12 公開日:2021-04-25
# (参考訳) ファウショットとワンショット学習のデミスティフィケーション [全文訳有]

Demystification of Few-shot and One-shot Learning ( http://arxiv.org/abs/2104.12174v1 )

ライセンス: CC BY 4.0
Ivan Y. Tyukin, Alexander N. Gorban, Muhammad H. Alkhudaydi, Qinghua Zhou(参考訳) 近年では、単発と単発の学習が活発で集中的な研究の対象となっており、実際に数発の学習アルゴリズムの実装と活用が成功したことを示す証拠が盛り込まれている。 古典的な統計的学習理論は、従来の一般化境界は、意味のある大規模なトレーニングとテストサンプルを必要とするため、ほとんどあるいはワンショットの学習が可能である理由を完全に説明していない。 これは、成功した単発および少数発の学習システムやアプリケーションの多くの例とは対照的である。 本研究では,単発・少数発の学習理論の数学的基礎を提示し,そのような学習スキームが成功する可能性を示す条件を明らかにする。 我々の理論は高次元空間の内在的性質に基づいている。 学習機械の環境・潜時決定空間が、この空間の大規模オブジェクトよりも十分に高次元であれば、特定のデータ非集中条件が満たされていると仮定した少数の例から容易に学習できることが示される。

Few-shot and one-shot learning have been the subject of active and intensive research in recent years, with mounting evidence pointing to successful implementation and exploitation of few-shot learning algorithms in practice. Classical statistical learning theories do not fully explain why few- or one-shot learning is at all possible since traditional generalisation bounds normally require large training and testing samples to be meaningful. This sharply contrasts with numerous examples of successful one- and few-shot learning systems and applications. In this work we present mathematical foundations for a theory of one-shot and few-shot learning and reveal conditions specifying when such learning schemes are likely to succeed. Our theory is based on intrinsic properties of high-dimensional spaces. We show that if the ambient or latent decision space of a learning machine is sufficiently high-dimensional than a large class of objects in this space can indeed be easily learned from few examples provided that certain data non-concentration conditions are met.
翻訳日:2021-04-28 06:18:52 公開日:2021-04-25
# (参考訳) シャプレー値推定のためのサンプリング順列

Sampling Permutations for Shapley Value Estimation ( http://arxiv.org/abs/2104.12199v1 )

ライセンス: CC BY 4.0
Rory Mitchell, Joshua Cooper, Eibe Frank, Geoffrey Holmes(参考訳) Shapley値に基づくゲーム理論属性技術は、ブラックボックス機械学習モデルの解釈に広く用いられているが、その正確な計算は一般にNPハードであり、非自明なモデルの近似法を必要とする。 シャプリー値の計算は置換集合上の和として表現できるので、近似のためのこれらの置換のサブセットをサンプリングする共通のアプローチである。 残念なことに、標準モンテカルロサンプリング法は緩やかな収束を示し、より洗練された準モンテカルロ法は置換空間において十分に定義されていない。 そこで本研究では,2つの近似法に基づく新しいアプローチについて検討し,経験的に比較する。 まず, 置換関数を含む rkhs において, mallows カーネルを用いて明示的な収束率である $o(1/n)$ を求め, モンテカルロの $o(1/\sqrt{n})$ を改善した。 RKHSパースペクティブはまた、擬モンテカルロ型エラー境界(英語版)を導き、置換で定義されるトラクタブルな離散測度を持つ。 次に、超球面$\mathbb{S}^{d-2}$と置換の間の接続を利用して、良好な性質を持つ置換サンプルを生成するための実用的なアルゴリズムを作成する。 実験の結果, 従来の手法に比べてシェープ値の推定精度が大幅に向上し, RMSEがより小さいモデル評価値に収束することがわかった。

Game-theoretic attribution techniques based on Shapley values are used extensively to interpret black-box machine learning models, but their exact calculation is generally NP-hard, requiring approximation methods for non-trivial models. As the computation of Shapley values can be expressed as a summation over a set of permutations, a common approach is to sample a subset of these permutations for approximation. Unfortunately, standard Monte Carlo sampling methods can exhibit slow convergence, and more sophisticated quasi Monte Carlo methods are not well defined on the space of permutations. To address this, we investigate new approaches based on two classes of approximation methods and compare them empirically. First, we demonstrate quadrature techniques in a RKHS containing functions of permutations, using the Mallows kernel to obtain explicit convergence rates of $O(1/n)$, improving on $O(1/\sqrt{n})$ for plain Monte Carlo. The RKHS perspective also leads to quasi Monte Carlo type error bounds, with a tractable discrepancy measure defined on permutations. Second, we exploit connections between the hypersphere $\mathbb{S}^{d-2}$ and permutations to create practical algorithms for generating permutation samples with good properties. Experiments show the above techniques provide significant improvements for Shapley value estimates over existing methods, converging to a smaller RMSE in the same number of model evaluations.
翻訳日:2021-04-28 05:33:51 公開日:2021-04-25
# (参考訳) 新型コロナウイルスのインフォデミックと戦うトランスフォーマー [全文訳有]

Transformers to Fight the COVID-19 Infodemic ( http://arxiv.org/abs/2104.12201v1 )

ライセンス: CC BY 4.0
Lasitha Uyangodage, Tharindu Ranasinghe, Hansi Hettiarachchi(参考訳) ソーシャルメディア上の偽情報の大量拡散は、特に新型コロナウイルス(COVID-19)のような世界的なパンデミックの状況において、世界的なリスクとなっている。 偽情報検出はここ数カ月で増加傾向にある研究トピックとなっている。 NLP4IF-2021は、偽情報検出における研究を強化するために、ツイート中の偽情報に関する7つの異なるバイナリラベルの予測を参加者に依頼するタスクを編成した。 共有タスクはアラビア語、ブルガリア語、英語の3つの言語で構成されている。 本稿では,変圧器を用いたタスク目的への取り組みについて述べる。 全体として,アラビア語では0.707 平均 f1 得点,ブルガリア語では0.578 平均 f1 得点,英語では0.864 平均 f1 得点を達成している。

The massive spread of false information on social media has become a global risk especially in a global pandemic situation like COVID-19. False information detection has thus become a surging research topic in recent months. NLP4IF-2021 shared task on fighting the COVID-19 infodemic has been organised to strengthen the research in false information detection where the participants are asked to predict seven different binary labels regarding false information in a tweet. The shared task has been organised in three languages; Arabic, Bulgarian and English. In this paper, we present our approach to tackle the task objective using transformers. Overall, our approach achieves a 0.707 mean F1 score in Arabic, 0.578 mean F1 score in Bulgarian and 0.864 mean F1 score in English ranking 4th place in all the languages.
翻訳日:2021-04-28 05:32:43 公開日:2021-04-25
# (参考訳) より高速なR-CNNによる乳房腫瘤の検出:雑音による学習の可能性について [全文訳有]

Breast Mass Detection with Faster R-CNN: On the Feasibility of Learning from Noisy Annotations ( http://arxiv.org/abs/2104.12218v1 )

ライセンス: CC BY 4.0
Sina Famouri, Lia Morra, Leonardo Mangia, Fabrizio Lamberti(参考訳) 本研究では,医療領域における物体検出ネットワークのトレーニングにおけるノイズの影響について検討し,トレーニング手順の改善によりその軽減を図る。 データ格納型ディープラーニングモデルのトレーニングのための大規模な医療データセットのアノテートは高価で時間がかかります。 臨床で既に収集されている情報を利用して、テキストレポート、ブックマーク、または病変の測定によって、このコストを大幅に削減する。 しかし, 自動採鉱法により, 箱を正確に拘束することは困難である。 本稿では,乳房腫瘤検出のための高速R-CNNオブジェクト検出ネットワークの性能に及ぼす境界ボックス座標ノイズの影響を定量的に評価する。 我々の実験では、境界ボックスは元のサイズの6倍まで拡大することができる。 ノイズはcbis-ddsmコレクションに注入され、正確な病変位置が確認できる、よく研究された公開マンモグラフィデータセットである。 基礎的真理とネットワーク境界箱の提案との一致が不完全であることから, 訓練中に雑音が伝播し, 病変を背景から正しく分類するネットワークの能力が低下することを示す。 標準のユニオン基準のインターセクションを使用する場合、FROC曲線の下の領域は9%まで減少する。 ノイズに対する耐性を向上させるために,新しいマッチング基準を提案する。

In this work we study the impact of noise on the training of object detection networks for the medical domain, and how it can be mitigated by improving the training procedure. Annotating large medical datasets for training data-hungry deep learning models is expensive and time consuming. Leveraging information that is already collected in clinical practice, in the form of text reports, bookmarks or lesion measurements would substantially reduce this cost. Obtaining precise lesion bounding boxes through automatic mining procedures, however, is difficult. We provide here a quantitative evaluation of the effect of bounding box coordinate noise on the performance of Faster R-CNN object detection networks for breast mass detection. Varying degrees of noise are simulated by randomly modifying the bounding boxes: in our experiments, bounding boxes could be enlarged up to six times the original size. The noise is injected in the CBIS-DDSM collection, a well curated public mammography dataset for which accurate lesion location is available. We show how, due to an imperfect matching between the ground truth and the network bounding box proposals, the noise is propagated during training and reduces the ability of the network to correctly classify lesions from background. When using the standard Intersection over Union criterion, the area under the FROC curve decreases by up to 9%. A novel matching criterion is proposed to improve tolerance to noise.
翻訳日:2021-04-28 05:24:46 公開日:2021-04-25
# (参考訳) DC3: 制約付き最適化のための学習方法 [全文訳有]

DC3: A learning method for optimization with hard constraints ( http://arxiv.org/abs/2104.12225v1 )

ライセンス: CC BY 4.0
Priya L. Donti, David Rolnick, J. Zico Kolter(参考訳) ハード制約を伴う大きな最適化問題は、多くの設定で発生するが、古典的解法はしばしば制限的に遅く、安価な「近似解法」としてディープネットワークの使用を動機付けている。 残念なことに、ナイーブなディープラーニングのアプローチは、一般的にそのような問題の厳しい制約を強制できないため、実現不可能なソリューションに繋がる。 本稿では,この問題に対処するアルゴリズムであるDeep Constraint Completion and Correction(DC3)を提案する。 具体的には、等式制約を満たすために部分解を暗黙的に完成し、不等式制約を満たすために勾配に基づく補正をアンロールする、微分可能な手順によって実現可能である。 本研究では,電気グリッドの物理をハード制約がエンコードする交流最適潮流の合成最適化タスクと実世界設定におけるdc3の有効性を実証する。 どちらの場合も、DC3は実現可能性を維持しながら、ほぼ最適の目標値を達成する。

Large optimization problems with hard constraints arise in many settings, yet classical solvers are often prohibitively slow, motivating the use of deep networks as cheap "approximate solvers." Unfortunately, naive deep learning approaches typically cannot enforce the hard constraints of such problems, leading to infeasible solutions. In this work, we present Deep Constraint Completion and Correction (DC3), an algorithm to address this challenge. Specifically, this method enforces feasibility via a differentiable procedure, which implicitly completes partial solutions to satisfy equality constraints and unrolls gradient-based corrections to satisfy inequality constraints. We demonstrate the effectiveness of DC3 in both synthetic optimization tasks and the real-world setting of AC optimal power flow, where hard constraints encode the physics of the electrical grid. In both cases, DC3 achieves near-optimal objective values while preserving feasibility.
翻訳日:2021-04-28 05:02:44 公開日:2021-04-25
# (参考訳) RP-DQN:Qラーニングの車両ルーティング問題への応用 [全文訳有]

RP-DQN: An application of Q-Learning to Vehicle Routing Problems ( http://arxiv.org/abs/2104.12226v1 )

ライセンス: CC BY-SA 4.0
Ahmad Bdeir, Simon Boeder, Tim Dernedde, Kirill Tkachuk, Jonas K. Falkner, Lars Schmidt-Thieme(参考訳) 本稿では,従来の手法よりも複雑なモデルを用いた状態表現を改良し,複雑なルーティング問題に対処する新しい手法を提案する。 これを時間差からトレーニングすることで実現します。 特にQ-Learningが採用されている。 提案手法は,CVRP上でノードを逐次挿入してソリューションを構築する自動回帰ポリシーの最先端性能を実現する。 さらに、機械学習メソッドでmdvrpに最初に取り組み、この問題タイプが、他のmlメソッドよりも我々のアプローチのメリットが大きいことを実証します。

In this paper we present a new approach to tackle complex routing problems with an improved state representation that utilizes the model complexity better than previous methods. We enable this by training from temporal differences. Specifically Q-Learning is employed. We show that our approach achieves state-of-the-art performance for autoregressive policies that sequentially insert nodes to construct solutions on the CVRP. Additionally, we are the first to tackle the MDVRP with machine learning methods and demonstrate that this problem type greatly benefits from our approach over other ML methods.
翻訳日:2021-04-28 04:42:04 公開日:2021-04-25
# (参考訳) 文脈における意見の不快表現の同定 [全文訳有]

Identifying Offensive Expressions of Opinion in Context ( http://arxiv.org/abs/2104.12227v1 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de G\'oes(参考訳) 古典的な情報抽出技術は、事実に関する質問と回答を構築することで構成される。 実際、文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。 感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。 この重要なギャップを埋めるために、本稿では、文脈依存と文脈非依存の2つのクラスで注釈付けされた、明示的で暗黙の攻撃的かつ誓約的な意見表現からなる、新たな言語的・文脈的攻撃的語彙を提供する。 また,ヘイトスピーチを識別するためのマーカーも提供する。 アノテーションを表現レベルで評価し,高い人間間アノテータ合意を達成した。 攻撃的辞書はポルトガル語と英語で提供されている。

Classic information extraction techniques consist in building questions and answers about the facts. Indeed, it is still a challenge to subjective information extraction systems to identify opinions and feelings in context. In sentiment-based NLP tasks, there are few resources to information extraction, above all offensive or hateful opinions in context. To fill this important gap, this short paper provides a new cross-lingual and contextual offensive lexicon, which consists of explicit and implicit offensive and swearing expressions of opinion, which were annotated in two different classes: context dependent and context-independent offensive. In addition, we provide markers to identify hate speech. Annotation approach was evaluated at the expression-level and achieves high human inter-annotator agreement. The provided offensive lexicon is available in Portuguese and English languages.
翻訳日:2021-04-28 04:31:17 公開日:2021-04-25
# (参考訳) ユーザの嗜好を意識した偽ニュース検出 [全文訳有]

User Preference-aware Fake News Detection ( http://arxiv.org/abs/2104.12259v1 )

ライセンス: CC BY 4.0
Yingtong Dou, Kai Shu, Congying Xia, Philip S. Yu, Lichao Sun(参考訳) 近年、偽情報や偽ニュースは個人や社会に有害な影響を与え、偽ニュースの検出に広く注目を集めている。 既存の偽ニュース検出アルゴリズムの大部分は、偽ニュースを広めるかどうかを判断するユーザの内在的好みを無視しながら、偽ニュースコンテンツおよび/またはその周辺外在的コンテキストをマイニングすることに焦点を当てている。 確認バイアス理論は、ユーザーが既存の信念/参照を確認すると、偽ニュースを広める可能性が高いことを示している。 投稿などのユーザの歴史的ソーシャルエンゲージメントは、ニュースに対するユーザの好みに関する豊富な情報を提供し、フェイクニュースの検出を前進させる大きな可能性を秘めている。 しかし、偽ニュース検出のためのユーザの好みを探究する作業は限られている。 そこで本稿では,偽ニュース検出におけるユーザの嗜好を活かす新たな課題について検討する。 本稿では,共同コンテンツとグラフモデリングにより,ユーザの好みから様々な信号を同時にキャプチャする新しいフレームワークUPFDを提案する。 実世界のデータセットにおける実験結果は,提案フレームワークの有効性を示す。 我々は、GNNベースのフェイクニュース検出のためのベンチマークとして、コードとデータをリリースしている。

Disinformation and fake news have posed detrimental effects on individuals and society in recent years, attracting broad attention to fake news detection. The majority of existing fake news detection algorithms focus on mining news content and/or the surrounding exogenous context for discovering deceptive signals; while the endogenous preference of a user when he/she decides to spread a piece of fake news or not is ignored. The confirmation bias theory has indicated that a user is more likely to spread a piece of fake news when it confirms his/her existing beliefs/preferences. Users' historical, social engagements such as posts provide rich information about users' preferences toward news and have great potential to advance fake news detection. However, the work on exploring user preference for fake news detection is somewhat limited. Therefore, in this paper, we study the novel problem of exploiting user preference for fake news detection. We propose a new framework, UPFD, which simultaneously captures various signals from user preferences by joint content and graph modeling. Experimental results on real-world datasets demonstrate the effectiveness of the proposed framework. We release our code and data as a benchmark for GNN-based fake news detection: https://github.com/s afe-graph/GNN-FakeNe ws.
翻訳日:2021-04-28 04:25:41 公開日:2021-04-25
# (参考訳) 文脈レキシコンに基づくヘイトスピーチと攻撃言語検出のアプローチ [全文訳有]

Contextual Lexicon-Based Approach for Hate Speech and Offensive Language Detection ( http://arxiv.org/abs/2104.12265v1 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Fabiana Rodrigues de G\'oes, Isabelle Carvalho, Fabr\'icio Benevenuto, Thiago Alexandre Salgueiro Pardo(参考訳) 本稿ではソーシャルメディア上での攻撃的言語とヘイトスピーチ検出の新しいアプローチを提案する。 本手法では,暗黙的かつ明示的な攻撃表現と,二進法でアノテートされた宣言表現(文脈依存的攻撃と文脈非依存攻撃)からなる攻撃的レキシコンを組み込む。 ブラジルにおけるヘイトスピーチの深刻さと、ポルトガル語における研究の欠如により、ブラジルポルトガル語は我々の方法を検証するために使用される言語である。 しかし、この提案は他の言語やドメインにも適用できる。 得られた結果に基づいて, 提案手法は, ヨーロッパおよびブラジルのポルトガル語のベースラインを上回って, 高性能な結果を示した。

This paper presents a new approach for offensive language and hate speech detection on social media. Our approach incorporates an offensive lexicon composed by implicit and explicit offensive and swearing expressions annotated with binary classes: context-dependent offensive and context-independent offensive. Due to the severity of the hate speech and offensive comments in Brazil and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate our method. However, the proposal may be applied to any other language or domain. Based on the obtained results, the proposed approach showed high performance results overcoming the current baselines for European and Brazilian Portuguese.
翻訳日:2021-04-28 04:12:02 公開日:2021-04-25
# (参考訳) 非構造ダイアログ学習のためのバイエンコーダLSTMモデル [全文訳有]

A Bi-Encoder LSTM Model For Learning Unstructured Dialogs ( http://arxiv.org/abs/2104.12269v1 )

ライセンス: CC BY-SA 4.0
Diwanshu Shekhar, Pooran S. Negi, Mohammad Mahoor(参考訳) 構造化されていないダイアログの大きなデータセットでトレーニングされたデータ駆動モデルを作成することは、RetrievalベースのChatbotシステムを開発する上で重要なステップである。 本稿では,非構造的マルチターンダイアログを学習するLong Short Term Memory(LSTM)アーキテクチャを提案する。 Ubuntu Dialog Corpus Version 2はトレーニング用コーパスとして使用された。 ベンチマークモデルと比較して,recall@1,recall@2,r ecall@5では0.8%,1.0%,0.3%の精度が得られた。 また,複数の類似度関数,モデルハイパーパラメータ,および提案アーキテクチャへの単語埋め込みを用いた実験結果を示す。

Creating a data-driven model that is trained on a large dataset of unstructured dialogs is a crucial step in developing Retrieval-based Chatbot systems. This paper presents a Long Short Term Memory (LSTM) based architecture that learns unstructured multi-turn dialogs and provides results on the task of selecting the best response from a collection of given responses. Ubuntu Dialog Corpus Version 2 was used as the corpus for training. We show that our model achieves 0.8%, 1.0% and 0.3% higher accuracy for Recall@1, Recall@2 and Recall@5 respectively than the benchmark model. We also show results on experiments performed by using several similarity functions, model hyper-parameters and word embeddings on the proposed architecture
翻訳日:2021-04-28 03:58:28 公開日:2021-04-25
# (参考訳) ラベルなしビデオによる未確認授業のセグメンテーションオブジェクトの学習 [全文訳有]

Learning to Better Segment Objects from Unseen Classes with Unlabeled Videos ( http://arxiv.org/abs/2104.12276v1 )

ライセンス: CC BY 4.0
Yuming Du, Yang Xiao, Vincent Lepetit(参考訳) 見えないクラスからオブジェクトをローカライズし、セグメンテーションする能力は、アクティブビジョンにおける自律的なオブジェクト学習のような新しいアプリケーションへの扉を開くだろう。 それでも、unseenクラスのパフォーマンス向上には、追加のトレーニングデータが必要だが、unseenクラスのオブジェクトに手動でアノテートすることは、労力とコストがかかる可能性がある。 本稿では,未確認クラスのオブジェクトに対するトレーニングデータを自動的に生成するためのラベルなしビデオシーケンスの利用について検討する。 原則として、既存のビデオセグメンテーション手法をラベルなしのビデオに適用し、オブジェクトマスクを自動的に取得し、手動ラベルのないクラスでもトレーニングセットとして使用することができる。 しかし,本実験は,これらの手法が十分な性能を発揮できないことを示す。 そこで我々は,そのようなトレーニングセットを自動生成するように特別に設計されたベイズ法を導入する: 提案手法は,対象提案の集合から始まり,すべてのフレームを同時に効率的に最適化することにより,(非現実的な)解析に頼って正しいものを選択する。 提案手法は,広範囲にわたる実験により高品質なトレーニングセットを生成でき,セグメンテーションオブジェクトの性能が著しく向上することを示す。 そこで我々は,豊富なインターネットビデオを用いたオープンワールドインスタンスセグメンテーションの扉を開くことができると考えている。

The ability to localize and segment objects from unseen classes would open the door to new applications, such as autonomous object learning in active vision. Nonetheless, improving the performance on unseen classes requires additional training data, while manually annotating the objects of the unseen classes can be labor-extensive and expensive. In this paper, we explore the use of unlabeled video sequences to automatically generate training data for objects of unseen classes. It is in principle possible to apply existing video segmentation methods to unlabeled videos and automatically obtain object masks, which can then be used as a training set even for classes with no manual labels available. However, our experiments show that these methods do not perform well enough for this purpose. We therefore introduce a Bayesian method that is specifically designed to automatically create such a training set: Our method starts from a set of object proposals and relies on (non-realistic) analysis-by-synthesi s to select the correct ones by performing an efficient optimization over all the frames simultaneously. Through extensive experiments, we show that our method can generate a high-quality training set which significantly boosts the performance of segmenting objects of unseen classes. We thus believe that our method could open the door for open-world instance segmentation using abundant Internet videos.
翻訳日:2021-04-28 03:48:33 公開日:2021-04-25
# (参考訳) 社会的責任を持つAIのための因果学習 [全文訳有]

Causal Learning for Socially Responsible AI ( http://arxiv.org/abs/2104.12278v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ahmadreza Mosallanezhad, Paras Sheth, Huan Liu(参考訳) 人工知能(AI)に対する懸念が高まっている。 AIが倫理的課題に対処し、望ましくない結果に対処するために、研究者は社会的責任を持つAI(SRAI)の開発を提案した。 これらのアプローチの1つは因果学習(CL)である。 SRAIにおけるCLの最先端手法について検討する。 まず、AIの社会的責任を高めるために7つのCLツールを調べ、その上で、既存の作業がどのようにしてこれらのツールを使用して公正性などのSRAI開発に対処したかをレビューする。 この調査の目的は、SRAIのCLの可能性と約束を前倒しにすることである。

There have been increasing concerns about Artificial Intelligence (AI) due to its unfathomable potential power. To make AI address ethical challenges and shun undesirable outcomes, researchers proposed to develop socially responsible AI (SRAI). One of these approaches is causal learning (CL). We survey state-of-the-art methods of CL for SRAI. We begin by examining the seven CL tools to enhance the social responsibility of AI, then review how existing works have succeeded using these tools to tackle issues in developing SRAI such as fairness. The goal of this survey is to bring forefront the potentials and promises of CL for SRAI.
翻訳日:2021-04-28 03:22:31 公開日:2021-04-25
# (参考訳) オンラインニューラルシンセティックグラディエントを用いた計算形態形成の高速化 [全文訳有]

Speeding up Computational Morphogenesis with Online Neural Synthetic Gradients ( http://arxiv.org/abs/2104.12282v1 )

ライセンス: CC BY 4.0
Yuyu Zhang, Heng Chi, Binghong Chen, Tsz Ling Elaine Tang, Lucia Mirabella, Le Son, Glaucio H. Paulino(参考訳) 偏微分方程式系(PDE)を制約とする最適化問題として、幅広い近代科学・工学応用が定式化されている。 これらのPDE制約付き最適化問題は、通常標準的な離散化最適化アプローチで解決される。 高解像度のソリューションを必要とする多くの業界アプリケーションにおいて、離散化された制約は簡単に数百万から数十億の変数を持つことができ、標準の反復最適化器が正確な勾配を解くのは非常に遅い。 そこで本研究では,オンラインニューラルネットワーク勾配(ONSG)を用いたPDE制約最適化の高速化を目的とした,新しい2スケール最適化手法を提案する。 我々はPDE制約最適化問題の代表的なクラスである計算形態形成にONSGフレームワークをうまく適用した。 大規模な実験により,提案手法は計算形態素(トポロジー最適化とも呼ばれる)を著しく高速化し,一方,標準最適化器と比較して最終解の質を維持可能であることが示された。 設計変数が約1,400,000の大規模3次元最適設計問題に対して,本手法は最大7.5倍の高速化を実現し,目標値に匹敵する最適化設計を実現する。

A wide range of modern science and engineering applications are formulated as optimization problems with a system of partial differential equations (PDEs) as constraints. These PDE-constrained optimization problems are typically solved in a standard discretize-then-opti mize approach. In many industry applications that require high-resolution solutions, the discretized constraints can easily have millions or even billions of variables, making it very slow for the standard iterative optimizer to solve the exact gradients. In this work, we propose a general framework to speed up PDE-constrained optimization using online neural synthetic gradients (ONSG) with a novel two-scale optimization scheme. We successfully apply our ONSG framework to computational morphogenesis, a representative and challenging class of PDE-constrained optimization problems. Extensive experiments have demonstrated that our method can significantly speed up computational morphogenesis (also known as topology optimization), and meanwhile maintain the quality of final solution compared to the standard optimizer. On a large-scale 3D optimal design problem with around 1,400,000 design variables, our method achieves up to 7.5x speedup while producing optimized designs with comparable objectives.
翻訳日:2021-04-28 03:07:19 公開日:2021-04-25
# (参考訳) 心電図データを用いた選択的拡張による完全畳み込みネットワークの精度向上 [全文訳有]

Accuracy Improvement for Fully Convolutional Networks via Selective Augmentation with Applications to Electrocardiogram Data ( http://arxiv.org/abs/2104.12284v1 )

ライセンス: CC BY 4.0
Lucas Cassiel Jacaruso(参考訳) 深層学習法は、健康・医療領域における時系列分類に適しており、心電図データ分類には有望な結果である。 心筋梗塞の診断に成功し、この領域の深層学習モデルに有意義な改善をもたらすことは大きな関心事である。 従来、データ解像度やサンプルサイズを改善するために、データが制限された場合、トレーニングセットにデータ拡張手法を普遍的に適用する。 本研究で提案する手法では,データ不足の文脈ではデータ拡張は適用されなかった。 代わりに、モデルが特定のクラスに強く関連しない特徴やパターンに対する感度を高めるために、信頼性の低い予測をもたらすサンプルを選択的に強化した。 このアプローチは、完全畳み込みネットワークの性能を改善するためにテストされた。 提案手法は, ベースラインの82%の精度に対して, 心筋梗塞の分類精度を90%向上させた。 さらに, 提案手法の精度は, 低信頼度試料の基準値に設定された上限付近で最適であり, 高い信頼度試料を含むように閾値を引き上げた。 これは、データ拡張のための信頼性の低いサンプルを排他的に選択することが、完全な畳み込みネットワークを用いた心電図データ分類に異なる利点をもたらすことを示唆している。

Deep learning methods have shown suitability for time series classification in the health and medical domain, with promising results for electrocardiogram data classification. Successful identification of myocardial infarction holds life saving potential and any meaningful improvement upon deep learning models in this area is of great interest. Conventionally, data augmentation methods are applied universally to the training set when data are limited in order to ameliorate data resolution or sample size. In the method proposed in this study, data augmentation was not applied in the context of data scarcity. Instead, samples that yield low confidence predictions were selectively augmented in order to bolster the model's sensitivity to features or patterns less strongly associated with a given class. This approach was tested for improving the performance of a Fully Convolutional Network. The proposed approach achieved 90 percent accuracy for classifying myocardial infarction as opposed to 82 percent accuracy for the baseline, a marked improvement. Further, the accuracy of the proposed approach was optimal near a defined upper threshold for qualifying low confidence samples and decreased as this threshold was raised to include higher confidence samples. This suggests exclusively selecting lower confidence samples for data augmentation comes with distinct benefits for electrocardiogram data classification with Fully Convolutional Networks.
翻訳日:2021-04-28 02:51:09 公開日:2021-04-25
# 効果的なシーンテキスト認識のための並列型スケールワイズアテンションネットワーク

Parallel Scale-wise Attention Network for Effective Scene Text Recognition ( http://arxiv.org/abs/2104.12076v1 )

ライセンス: Link先を確認
Usman Sajid, Michael Chow, Jin Zhang, Taejoon Kim, Guanghui Wang(参考訳) 本稿では,シーンテキスト画像のための新しいテキスト認識ネットワークを提案する。 多くの最先端の手法では、テキストアライメントのためにテキストエンコーダまたはデコーダで注意の仕組みを用いる。 エンコーダベースの注意は有望な結果をもたらすが、これらのスキームは顕著な制限を継承する。 彼らは、特徴抽出(FE)と視覚的注意(VA)を順次実行し、注意機構をFE最後の単一スケール出力のみに依存するように拘束する。 さらに,注目プロセスの利用は,単一スケールの特徴マップに直接適用することで制限される。 そこで本研究では,マルチスケールfeとvaを並列に実行する,テキスト認識のためのマルチスケールおよびエンコーダベースのアテンションネットワークを提案する。 マルチスケールチャネルは互いに定期的に融合し、協調した知識を共に開発する。 標準ベンチマークの定量的評価とロバスト性解析は,提案手法が最先端技術よりも優れていることを示す。

The paper proposes a new text recognition network for scene-text images. Many state-of-the-art methods employ the attention mechanism either in the text encoder or decoder for the text alignment. Although the encoder-based attention yields promising results, these schemes inherit noticeable limitations. They perform the feature extraction (FE) and visual attention (VA) sequentially, which bounds the attention mechanism to rely only on the FE final single-scale output. Moreover, the utilization of the attention process is limited by only applying it directly to the single scale feature-maps. To address these issues, we propose a new multi-scale and encoder-based attention network for text recognition that performs the multi-scale FE and VA in parallel. The multi-scale channels also undergo regular fusion with each other to develop the coordinated knowledge together. Quantitative evaluation and robustness analysis on the standard benchmarks demonstrate that the proposed network outperforms the state-of-the-art in most cases.
翻訳日:2021-04-27 15:00:36 公開日:2021-04-25
# 第5回AI都市チャレンジ

The 5th AI City Challenge ( http://arxiv.org/abs/2104.12233v1 )

ライセンス: Link先を確認
Milind Naphade, Shuo Wang, David C. Anastasiu, Zheng Tang, Ming-Ching Chang, Xiaodong Yang, Yue Yao, Liang Zheng, Pranamesh Chakraborty, Anuj Sharma, Qi Feng, Vitaly Ablavsky, Stan Sclaroff(参考訳) ai city challengeは、1)スマートシティーのユースケースにおけるインテリジェントビデオ分析における研究と開発の境界を押し上げること、(2)パフォーマンスのレベルが現実世界で採用されるのに十分なタスクを評価すること、の2つの目標を念頭に置いて作成された。 交通はそのような採用のためのセグメントリップである。 第5回AIシティチャレンジでは38カ国305チームが参加し、都市規模の実交通データと高品質の合成データを活用して5つの挑戦トラックで競った。 トラック1はビデオベースの自動車両計数に対処し、アルゴリズムの有効性と計算効率の両方で評価を行う。 トラック2は、拡張合成データを用いて都市規模の車両の再識別に対処し、タスクのトレーニングセットを大幅に増加させる。 トラック3は、都市規模のマルチターゲットマルチカメラ車両追跡に対応している。 トラック4は交通異常検知に対処した。 トラック5は自然言語記述を用いた車両検索のための新しいトラックである。 評価システムは、提出された全ての結果の総合的なリーダーボードと、チームが作業で外部データを使用できないコンテスト参加ルールに限定された公開リーダーボードとを示す。 公開リーダーボードは、注釈付きデータが制限された現実世界の状況に近い結果を表示する。 結果は、スマートトランスポーテーションにおけるAIの約束を示している。 いくつかのタスクの最先端のパフォーマンスは、これらの技術が現実世界のシステムで採用される準備ができていることを示している。

The AI City Challenge was created with two goals in mind: (1) pushing the boundaries of research and development in intelligent video analysis for smarter cities use cases, and (2) assessing tasks where the level of performance is enough to cause real-world adoption. Transportation is a segment ripe for such adoption. The fifth AI City Challenge attracted 305 participating teams across 38 countries, who leveraged city-scale real traffic data and high-quality synthetic data to compete in five challenge tracks. Track 1 addressed video-based automatic vehicle counting, where the evaluation being conducted on both algorithmic effectiveness and computational efficiency. Track 2 addressed city-scale vehicle re-identification with augmented synthetic data to substantially increase the training set for the task. Track 3 addressed city-scale multi-target multi-camera vehicle tracking. Track 4 addressed traffic anomaly detection. Track 5 was a new track addressing vehicle retrieval using natural language descriptions. The evaluation system shows a general leader board of all submitted results, and a public leader board of results limited to the contest participation rules, where teams are not allowed to use external data in their work. The public leader board shows results more close to real-world situations where annotated data is limited. Results show the promise of AI in Smarter Transportation. State-of-the-art performance for some tasks shows that these technologies are ready for adoption in real-world systems.
翻訳日:2021-04-27 15:00:21 公開日:2021-04-25
# セルフ教師付き事前トレーニングは、ストリーミングデータでどのように機能するか?

How Well Self-Supervised Pre-Training Performs with Streaming Data? ( http://arxiv.org/abs/2104.12081v1 )

ライセンス: Link先を確認
Dapeng Hu, Qizhengqiu Lu, Lanqing Hong, Hailin Hu, Yifan Zhang, Zhenguo Li, Alfred Shen, Jiashi Feng(参考訳) 一般的な自己教師付き事前訓練のプラクティスでは、大量のラベルのないデータをまとめて収集し、 \textbf{joint training} と呼ばれる表現モデルをトレーニングする必要がある。 しかしながら、ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。 より効率的な代替手段は、‘textbf{sequential training}’と呼ばれるストリーミングデータでモデルを継続的にトレーニングすることだ。 それでも、逐次的自己教師付き事前学習がストリーミングデータでどのように機能するかは不明だ。 本稿では,ストリーミングデータを用いた自己教師型事前学習の徹底的な実験を行う。 具体的には,3つの下流タスクにおける4つの異なるデータ列を用いた連続自己教師事前訓練の転送性能を評価し,共同自己教師事前訓練との比較を行った。 驚くべきことに、ストリーミングデータ内の分散シフトが穏やかな場合、逐次自己教師型学習は関節トレーニングとほぼ同等のパフォーマンスを示す。 分散シフトが大きいデータシーケンスであっても、パラメータ正規化やデータリプレイといった単純なテクニックによる逐次自己教師付きトレーニングは、共同トレーニングと相性がよい。 そこで本研究では,実世界のアプリケーションに対して,逐次的自己教師型トレーニングを,より効率的かつパフォーマンスに優れた表現学習プラクティスとして用いることを推奨する。

The common self-supervised pre-training practice requires collecting massive unlabeled data together and then trains a representation model, dubbed \textbf{joint training}. However, in real-world scenarios where data are collected in a streaming fashion, the joint training scheme is usually storage-heavy and time-consuming. A more efficient alternative is to train a model continually with streaming data, dubbed \textbf{sequential training}. Nevertheless, it is unclear how well sequential self-supervised pre-training performs with streaming data. In this paper, we conduct thorough experiments to investigate self-supervised pre-training with streaming data. Specifically, we evaluate the transfer performance of sequential self-supervised pre-training with four different data sequences on three different downstream tasks and make comparisons with joint self-supervised pre-training. Surprisingly, we find sequential self-supervised learning exhibits almost the same performance as the joint training when the distribution shifts within streaming data are mild. Even for data sequences with large distribution shifts, sequential self-supervised training with simple techniques, e.g., parameter regularization or data replay, still performs comparably to joint training. Based on our findings, we recommend using sequential self-supervised training as a \textbf{more efficient yet performance-competit ive} representation learning practice for real-world applications.
翻訳日:2021-04-27 14:56:20 公開日:2021-04-25
# StegaPos: 認識不能な位置エンコーディングによるクロップやスプライス防止

StegaPos: Preventing Crops and Splices with Imperceptible Positional Encodings ( http://arxiv.org/abs/2104.12290v1 )

ライセンス: Link先を確認
Gokhan Egri, Todd Zickler(参考訳) 本稿では,写真家が発行した画像の真正コピーである画像と,出版後の収穫,スプライシング,ダウンサンプリングによって操作された画像とを区別するモデルを提案する。 モデルは、写真家と居住するエンコーダと、オブザーバーが利用できる一致するデコーダで構成される。 エンコーダは、出版前に知覚不能な位置シグネチャを画像値に埋め込むことを学習する。 デコーダは、これらのステガノグラフィ位置(ステガポス)シグネチャを使用して、小さな画像パッチ毎に、パッチによって最初に公開された画像に保持された2D位置座標を決定する。 クロップ、スプライス、ダウンサンプル編集は、隠れた位置のシグネチャで生じる不整合によって検出される。 我々は,エンコーダとデコーダを組み合わせることで,位置を知覚的にエンコードするモデルが生成され,確立されたスプライス検出ベンチマークにおいて優れた性能が得られ,作物検出のための新たなベンチマークにおいて精度が向上することを示す。

We present a model for differentiating between images that are authentic copies of ones published by photographers, and images that have been manipulated by cropping, splicing or downsampling after publication. The model comprises an encoder that resides with the photographer and a matching decoder that is available to observers. The encoder learns to embed imperceptible positional signatures into image values prior to publication. The decoder learns to use these steganographic positional ("stegapos") signatures to determine, for each small image patch, the 2D positional coordinates that were held by the patch in its originally-published image. Crop, splice and downsample edits become detectable by the inconsistencies they cause in the hidden positional signatures. We find that training the encoder and decoder together produces a model that imperceptibly encodes position, and that enables superior performance on established benchmarks for splice detection and high accuracy on a new benchmark for crop detection.
翻訳日:2021-04-27 14:56:01 公開日:2021-04-25
# fedsup: コミュニケーション効率の高いfederated learning fatigue driving behaviors supervisor framework

FedSup: A Communication-Effici ent Federated Learning Fatigue Driving Behaviors Supervision Framework ( http://arxiv.org/abs/2104.12086v1 )

ライセンス: Link先を確認
Chen Zhao, Zhipeng Gao, Qian Wang, Kaile Xiao, Zijia Mo, M. Jamal Deen(参考訳) エッジスマートデバイスやiot(internet of vehicles, iov)技術の普及に伴い、インテリジェントな疲労検出は日々の運転で最もよく使われている方法の1つになっています。 検出モデルの性能を向上させるため,一連の手法が開発されている。 しかし、プライバシーの開示や通信コストなど、既存の作業は依然として望ましいままである。 これらの問題に対処するために、プライバシと効率的な疲労検出のためのクライアントエッジクラウドフレームワークであるFedSupを提案する。 fedsupは、連合学習技術に触発されて、クライアント、エッジ、クラウドサーバ間のコラボレーションをインテリジェントに活用し、エッジデータプライバシを保護しながら、動的モデルの最適化を実現する。 さらに,不必要なシステム通信のオーバーヘッドを軽減するため,クライアント上でのベイズ畳み込みニューラルネットワーク(BCNN)近似と,クラウド上での不確実な重み付け集約アルゴリズムを提案し,中央モデルトレーニング効率を向上させる。 大規模な実験では、FedSupフレームワークがIoVシナリオに適していることが示され、他の主流メソッドよりも優れている。

With the proliferation of edge smart devices and the Internet of Vehicles (IoV) technologies, intelligent fatigue detection has become one of the most-used methods in our daily driving. To improve the performance of the detection model, a series of techniques have been developed. However, existing work still leaves much to be desired, such as privacy disclosure and communication cost. To address these issues, we propose FedSup, a client-edge-cloud framework for privacy and efficient fatigue detection. Inspired by the federated learning technique, FedSup intelligently utilizes the collaboration between client, edge, and cloud server to realizing dynamic model optimization while protecting edge data privacy. Moreover, to reduce the unnecessary system communication overhead, we further propose a Bayesian convolutional neural network (BCNN) approximation strategy on the clients and an uncertainty weighted aggregation algorithm on the cloud to enhance the central model training efficiency. Extensive experiments demonstrate that the FedSup framework is suitable for IoV scenarios and outperforms other mainstream methods.
翻訳日:2021-04-27 14:52:21 公開日:2021-04-25
# breiman氏の2つの文化: どちらかを選ぶ必要はありません

Breiman's two cultures: You don't have to choose sides ( http://arxiv.org/abs/2104.12219v1 )

ライセンス: Link先を確認
Andrew C. Miller, Nicholas J. Foti, Emily B. Fox(参考訳) Breiman氏の古典的な論文は、データ解析を2つの文化 – データモデラーとアルゴリズムモデラー – の選択として挙げている。 広く述べられているように、データモデラーは、データ分析のためによく理解された理論特性を持つシンプルで解釈可能なモデルを使用する。 アルゴリズムモデラーは予測精度を優先順位付けし、より柔軟な関数近似を用いてデータを分析する。 この二分法は、科学理論(ODE/SDEシミュレータなど)に由来する$$$メカニスティックモデルの第3の集合を見渡す。 メカニスティックモデルは、データに関するアプリケーション固有の科学的知識を符号化する。 これらのカテゴリはモデル空間の極端な点を表すが、現代の計算とアルゴリズムのツールはこれらの点間の補間を可能にし、柔軟で解釈可能で科学的にインフォームドなハイブリッドを生成し、正確で堅牢な予測を楽しむことができ、レイマンが記述したラショモン効果やオッカムのジレンマのようなデータ解析の問題を解決する。 モデルコンポーネントの構成方法や各コンポーネントが推論を通知する程度については、多くの選択肢がある。

Breiman's classic paper casts data analysis as a choice between two cultures: data modelers and algorithmic modelers. Stated broadly, data modelers use simple, interpretable models with well-understood theoretical properties to analyze data. Algorithmic modelers prioritize predictive accuracy and use more flexible function approximations to analyze data. This dichotomy overlooks a third set of models $-$ mechanistic models derived from scientific theories (e.g., ODE/SDE simulators). Mechanistic models encode application-specific scientific knowledge about the data. And while these categories represent extreme points in model space, modern computational and algorithmic tools enable us to interpolate between these points, producing flexible, interpretable, and scientifically-infor med hybrids that can enjoy accurate and robust predictions, and resolve issues with data analysis that Breiman describes, such as the Rashomon effect and Occam's dilemma. Challenges still remain in finding an appropriate point in model space, with many choices on how to compose model components and the degree to which each component informs inferences.
翻訳日:2021-04-27 14:51:41 公開日:2021-04-25
# モデルベースメトリクス:予測モデルサブポピュレーション性能のサンプル効率推定

Model-based metrics: Sample-efficient estimates of predictive model subpopulation performance ( http://arxiv.org/abs/2104.12231v1 )

ライセンス: Link先を確認
Andrew C. Miller, Leon A. Gatys, Joseph Futoma, Emily B. Fox(参考訳) 機械学習モデル $-$は現在、様々なパフォーマンス指標を用いて、健康状態の表示、診断、予測のために一般的に開発されている。 モデルの実用性を評価するための重要な第一歩は、関心事全体の平均性能を評価することである。 多くの設定において、モデルが事前定義された部分集団内で良い予測を行うことも重要である。 例えば、モデルが公平であるか公平であることを示すには、異なる階層のサブグループでモデルのパフォーマンスを評価する必要がある。 しかしながら、サブグループのパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。 従来のサブサンプル推定よりもサンプル効率のよいサブポピュレーション性能を測定する手法を考案する。 本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。 提案手法はモデル検査と検証を取り入れ,従来の非パラメトリックブートストラップを計算効率よく近似して信頼区間を形成する手法を提案する。 本研究は,基礎的真理指標が利用できる半合成環境と,現実の病院入所予測タスクの2つのタスクについて,MBMを評価した。 MBMは小集団に対するモデル性能のより正確で低い分散推定値を生成する。

Machine learning models $-$ now commonly developed to screen, diagnose, or predict health conditions $-$ are evaluated with a variety of performance metrics. An important first step in assessing the practical utility of a model is to evaluate its average performance over an entire population of interest. In many settings, it is also critical that the model makes good predictions within predefined subpopulations. For instance, showing that a model is fair or equitable requires evaluating the model's performance in different demographic subgroups. However, subpopulation performance metrics are typically computed using only data from that subgroup, resulting in higher variance estimates for smaller groups. We devise a procedure to measure subpopulation performance that can be more sample-efficient than the typical subsample estimates. We propose using an evaluation model $-$ a model that describes the conditional distribution of the predictive model score $-$ to form model-based metric (MBM) estimates. Our procedure incorporates model checking and validation, and we propose a computationally efficient approximation of the traditional nonparametric bootstrap to form confidence intervals. We evaluate MBMs on two main tasks: a semi-synthetic setting where ground truth metrics are available and a real-world hospital readmission prediction task. We find that MBMs consistently produce more accurate and lower variance estimates of model performance for small subpopulations.
翻訳日:2021-04-27 14:51:20 公開日:2021-04-25
# Computed Tomography 画像のエッジデノナイズのためのマルチサイクル共振器ネットワーク

Multi-Cycle-Consiste nt Adversarial Networks for Edge Denoising of Computed Tomography Images ( http://arxiv.org/abs/2104.12044v1 )

ライセンス: Link先を確認
Xiaowe Xu, Jiawei Zhang, Jinglan Liu, Yukun Ding, Tianchen Wang, Hailong Qiu, Haiyun Yuan, Jian Zhuang, and Wen Xie, Yuhao Dong, Qianjun Jia, Meiping Huang, Yiyu Shi(参考訳) 最も一般的な画像検査の1つとして、ctスキャンは、患者に対するがんリスクを増加させる必然的な放射線被曝を伴う。 しかし、CT画像の品質は放射線線量に直接関係しているため、可能な限り少ない線量で高品質なCT画像を得ることが望ましい。 CT画像復調は、低線量低線量CT画像(ドメインY)から高線量CT画像(ドメインX)のような高線量を取得し、ソース領域X(ノイズ画像)とターゲット領域Y(クリーン画像)との変換を学習する画像画像変換タスクとして扱うことができる。 本稿では,中間ドメインを構築し,ct画像のエッジ分割に対して局所的および大域的サイクル一貫性を強制するマルチサイクル整合逆ネットワーク(mccan)を提案する。 グローバルサイクル整合性は、すべてのジェネレータを結合してデノナイジングプロセス全体をモデル化し、一方、局所サイクル整合性は隣り合うドメイン間のプロセスに効果的な監督を課す。 実験により、局所的およびグローバル的サイクル・コンシスタンスの両方がマカンの成功に重要であることが示され、これは少し少ない計算資源消費で品質の低下という点でsccadnを上回っている。

As one of the most commonly ordered imaging tests, computed tomography (CT) scan comes with inevitable radiation exposure that increases the cancer risk to patients. However, CT image quality is directly related to radiation dose, thus it is desirable to obtain high-quality CT images with as little dose as possible. CT image denoising tries to obtain high dose like high-quality CT images (domain X) from low dose low-quality CTimages (domain Y), which can be treated as an image-to-image translation task where the goal is to learn the transform between a source domain X (noisy images) and a target domain Y (clean images). In this paper, we propose a multi-cycle-consiste nt adversarial network (MCCAN) that builds intermediate domains and enforces both local and global cycle-consistency for edge denoising of CT images. The global cycle-consistency couples all generators together to model the whole denoising process, while the local cycle-consistency imposes effective supervision on the process between adjacent domains. Experiments show that both local and global cycle-consistency are important for the success of MCCAN, which outperformsCCADN in terms of denoising quality with slightly less computation resource consumption.
翻訳日:2021-04-27 14:49:52 公開日:2021-04-25
# 網膜画像における領域内ミス分類の学習

Learning to Address Intra-segment Misclassification in Retinal Imaging ( http://arxiv.org/abs/2104.12138v1 )

ライセンス: Link先を確認
Yukun Zhou, Moucheng Xu, Yipeng Hu, Hongxiang Lin, Joseph Jacob, Pearse Keane, Daniel Alexander(参考訳) 正確なマルチクラスセグメンテーションは、特にクラスが強い類似性を持つシナリオにおいて、医用画像における長年の課題である。 網膜写真で網膜血管を分割することは、動脈と静脈を互いに識別し、背景から区別する必要があるようなシナリオの1つである。 分節内誤分類、すなわち 動脈またはその逆の静脈は、動脈と静脈が交差するときに頻繁に発生するが、二分体網膜血管の分節では、誤差率はずっと低い。 そこで本研究では,マルチクラスセグメンテーションを複数のバイナリに分解し,次にバイナリからマルチクラスへの融合ネットワークを提案する。 このネットワークは動脈,静脈,マルチクラスの特徴マップの表現をマージし,それぞれが専門的な血管アノテーションによって教師される。 スキップ接続ベースのマージプロセスは、クラス固有の勾配を明示的に保持し、深い層で勾配が消えるのを避ける。 その結果, DRIVE-AV, LES-AV, HRF-AVの3種類の深層学習法と比較して, F1スコアを4.4 %, 5.1 %, 4.2 %改善した。

Accurate multi-class segmentation is a long-standing challenge in medical imaging, especially in scenarios where classes share strong similarity. Segmenting retinal blood vessels in retinal photographs is one such scenario, in which arteries and veins need to be identified and differentiated from each other and from the background. Intra-segment misclassification, i.e. veins classified as arteries or vice versa, frequently occurs when arteries and veins intersect, whereas in binary retinal vessel segmentation, error rates are much lower. We thus propose a new approach that decomposes multi-class segmentation into multiple binary, followed by a binary-to-multi-clas s fusion network. The network merges representations of artery, vein, and multi-class feature maps, each of which are supervised by expert vessel annotation in adversarial training. A skip-connection based merging process explicitly maintains class-specific gradients to avoid gradient vanishing in deep layers, to favor the discriminative features. The results show that, our model respectively improves F1-score by 4.4\%, 5.1\%, and 4.2\% compared with three state-of-the-art deep learning based methods on DRIVE-AV, LES-AV, and HRF-AV data sets.
翻訳日:2021-04-27 14:49:27 公開日:2021-04-25
# 教師なしセマンティッククラスタリングと依存性解析によるオープンインテント発見

Open Intent Discovery through Unsupervised Semantic Clustering and Dependency Parsing ( http://arxiv.org/abs/2104.12114v1 )

ライセンス: Link先を確認
Pengfei Liu, Youzhang Ning, King Keung Wu, Kun Li and Helen Meng(参考訳) インテント理解はダイアログシステムにおいて重要な役割を担い、典型的には教師付き分類問題として定式化される。 しかし、新しいドメインをサポートするためにインテントラベルを手動で設計するのは難しく、時間を要する。 本稿では,意図発見のための教師なし2段階アプローチを提案し,ラベルなし発話の集合から意味のある意図ラベルを自動的に生成する。 最初の段階では、各クラスタ内の発話が同じ意図を伝達するセマンティック・コヒーレントなクラスタの集合を生成することを目指している。 各種事前学習文の埋め込みから発話表現を取得し,K平均クラスタリングにおける最適なクラスタ数を決定するためのバランススコアの指標を示す。 第2段階では、各クラスタに対して自動的にインテントラベルを生成することが目的だ。 本稿では,各発話から依存パーサを用いてACTION-OBJECTペアを抽出し,各クラスタ内で最も頻繁なペア(例えば,ブックレストラン)を生成されたクラスタラベルとして取り出す。 提案手法は意味のある意図ラベルを自動的に生成し,発話クラスタリングや意図発見において高精度なリコールを実現する。

Intent understanding plays an important role in dialog systems, and is typically formulated as a supervised classification problem. However, it is challenging and time-consuming to design the intent labels manually to support a new domain. This paper proposes an unsupervised two-stage approach to discover intents and generate meaningful intent labels automatically from a collection of unlabeled utterances. In the first stage, we aim to generate a set of semantically coherent clusters where the utterances within each cluster convey the same intent. We obtain the utterance representation from various pre-trained sentence embeddings and present a metric of balanced score to determine the optimal number of clusters in K-means clustering. In the second stage, the objective is to generate an intent label automatically for each cluster. We extract the ACTION-OBJECT pair from each utterance using a dependency parser and take the most frequent pair within each cluster, e.g., book-restaurant, as the generated cluster label. We empirically show that the proposed unsupervised approach can generate meaningful intent labels automatically and achieves high precision and recall in utterance clustering and intent discovery.
翻訳日:2021-04-27 14:45:04 公開日:2021-04-25
# 中国語小説をベトナム語に翻訳する自動後編集

Automatic Post-Editing for Translating Chinese Novels to Vietnamese ( http://arxiv.org/abs/2104.12128v1 )

ライセンス: Link先を確認
Thanh Vu and Dai Quoc Nguyen(参考訳) 自動後編集(APE)は、機械翻訳(MT)システムやソフトウェア支援翻訳によって生成された原文の誤りを減らすための重要な手段である。 本稿ではベトナムにおけるAPE課題に取り組むための最初の試みについて述べる。 具体的には,ベトナム語訳文ペア5mの大規模データセットを構築した。 次に、構築したデータセットを用いて、APEタスクを処理するために強力なニューラルMTモデルを適用する。 ベトナムapタスクの処理における神経mtモデルの有効性を, 自動評価と人間評価の両方から実験的に示した。

Automatic post-editing (APE) is an important remedy for reducing errors of raw translated texts that are produced by machine translation (MT) systems or software-aided translation. In this paper, we present the first attempt to tackle the APE task for Vietnamese. Specifically, we construct the first large-scale dataset of 5M Vietnamese translated and corrected sentence pairs. We then apply strong neural MT models to handle the APE task, using our constructed dataset. Experimental results from both automatic and human evaluations show the effectiveness of the neural MT models in handling the Vietnamese APE task.
翻訳日:2021-04-27 14:44:44 公開日:2021-04-25
# XLM-T: Twitter用多言語言語モデルツールキット

XLM-T: A Multilingual Language Model Toolkit for Twitter ( http://arxiv.org/abs/2104.12250v1 )

ライセンス: Link先を確認
Francesco Barbieri and Luis Espinosa Anke and Jose Camacho-Collados(参考訳) 言語モデルは現在のNLPではユビキタスであり、その多言語能力は近年注目されている。 しかし、現在の分析は標準ベンチマーク(マルチリンガル変種)にのみ焦点を当てており、クリーンな事前学習やタスク固有のコーパスを多言語信号として依存している。 本稿では,Twitterにおける多言語言語モデルの利用と評価のためのフレームワークであるXLM-Tを紹介する。 このフレームワークは、(1)xlm-r(conneau et al)からなる強力な多言語ベースラインである。 2020年) 30以上の言語で何百万ものツイートを事前トレーニングしたモデルと、その後ターゲットタスクを微調整するスターターコード、2つの異なる言語による統合感情分析twitterデータセット。 これは、Twitter固有のデータセット(Barbieriら)の均質化を目的とした最近の取り組みと統合しただけでなく、追加タスクに簡単に拡張できるモジュラーフレームワークである。 2020).

Language models are ubiquitous in current NLP, and their multilingual capacity has recently attracted considerable attention. However, current analyses have almost exclusively focused on (multilingual variants of) standard benchmarks, and have relied on clean pre-training and task-specific corpora as multilingual signals. In this paper, we introduce XLM-T, a framework for using and evaluating multilingual language models in Twitter. This framework features two main assets: (1) a strong multilingual baseline consisting of an XLM-R (Conneau et al. 2020) model pre-trained on millions of tweets in over thirty languages, alongside starter code to subsequently fine-tune on a target task; and (2) a set of unified sentiment analysis Twitter datasets in eight different languages. This is a modular framework that can easily be extended to additional tasks, as well as integrated with recent efforts also aimed at the homogenization of Twitter-specific datasets (Barbieri et al. 2020).
翻訳日:2021-04-27 14:44:34 公開日:2021-04-25
# 構造化およびWebベース言語モデルを用いた機械翻訳仮説の再検討

Reranking Machine Translation Hypotheses with Structured and Web-based Language Models ( http://arxiv.org/abs/2104.12277v1 )

ライセンス: Link先を確認
Wen Wang and Andreas Stolcke and Jing Zheng(参考訳) 本稿では,統計的機械翻訳システムにおけるN-best仮説の再評価のための言語動機付けおよび計算効率の高い構造化言語モデルの利用について検討する。 これらの言語モデルはConstraint Dependency Grammar解析から開発され、単語の知識、形態的および語彙的特徴、構文的依存制約を密に統合する。 2つの構造化言語モデルがn-best rescoringに適用され、1つはほぼ並列な言語モデルであり、もう1つは単語間の構文依存を明示的にモデル化することでより構文的特徴を利用する。 また,1テラワードまでの web 文書から抽出した n-gram を用いた効率的な言語モデリング手法について検討した。 NIST と DARPA GALE プログラム 2006 と 2007 の機械翻訳評価タスクにおいて,これらの言語モデルをすべて N-best に適用し,これらの言語モデルを組み合わせることで,ブラインドテストセットにおけるBLEU のスコアが 1.6% まで向上することを確認した。

In this paper, we investigate the use of linguistically motivated and computationally efficient structured language models for reranking N-best hypotheses in a statistical machine translation system. These language models, developed from Constraint Dependency Grammar parses, tightly integrate knowledge of words, morphological and lexical features, and syntactic dependency constraints. Two structured language models are applied for N-best rescoring, one is an almost-parsing language model, and the other utilizes more syntactic features by explicitly modeling syntactic dependencies between words. We also investigate effective and efficient language modeling methods to use N-grams extracted from up to 1 teraword of web documents. We apply all these language models for N-best re-ranking on the NIST and DARPA GALE program 2006 and 2007 machine translation evaluation tasks and find that the combination of these language models increases the BLEU score up to 1.6% absolutely on blind test sets.
翻訳日:2021-04-27 14:44:19 公開日:2021-04-25
# 動的畳み込みとモット哲学による注意散布型高速トラッキング

Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy ( http://arxiv.org/abs/2104.12041v1 )

ライセンス: Link先を確認
Zikai Zhang, Bineng Zhong, Shengping Zhang, Zhenjun Tang, Xin Liu, Zhaoxiang Zhang(参考訳) 実用的な長期追跡装置は、典型的には3つの重要な特性を含む。 効率的なモデル設計、効果的なグローバル再検出戦略、堅牢なイントラクタ認識機構。 しかし、ほとんどの最先端の長期追跡装置(例えば、疑似および再検出ベース)は、3つの主要な特性をすべて考慮していないため、時間のかかるか、気晴らしになる可能性がある。 この問題に対処するために,2つのコアコンポーネント(ワンショット検出と再識別(re-id)アソシエーション)を利用して,動的畳み込み(d-conv)と複数オブジェクトトラッキング(mot)の哲学を通じて注意をそらした高速トラッキングを実現する2タスクトラッキングフレーム(dmtrack)を提案する。 高精度かつ高速なグローバル検出を実現するために,新たな動的畳み込み生成法を用いて,対象情報を探索フィールドに融合する統一的で柔軟な方法を提供する軽量なワンショット検出器を構築した。 ターゲットを邪魔者と区別するため、我々は全ての潜在的な類似点のトラックレットを維持して、注意をそらすためにmotの哲学に頼る。 高リコール検出と明示的オブジェクトアソシエーションの長所から、我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT2019LTベンチマーク上で最先端のパフォーマンスを達成し、比較より3倍高速に動作します。

A practical long-term tracker typically contains three key properties, i.e. an efficient model design, an effective global re-detection strategy and a robust distractor awareness mechanism. However, most state-of-the-art long-term trackers (e.g., Pseudo and re-detecting based ones) do not take all three key properties into account and therefore may either be time-consuming or drift to distractors. To address the issues, we propose a two-task tracking frame work (named DMTrack), which utilizes two core components (i.e., one-shot detection and re-identification (re-id) association) to achieve distractor-aware fast tracking via Dynamic convolutions (d-convs) and Multiple object tracking (MOT) philosophy. To achieve precise and fast global detection, we construct a lightweight one-shot detector using a novel dynamic convolutions generation method, which provides a unified and more flexible way for fusing target information into the search field. To distinguish the target from distractors, we resort to the philosophy of MOT to reason distractors explicitly by maintaining all potential similarities' tracklets. Benefited from the strength of high recall detection and explicit object association, our tracker achieves state-of-the-art performance on the LaSOT, OxUvA, TLP, VOT2018LT and VOT2019LT benchmarks and runs in real-time (3x faster than comparisons).
翻訳日:2021-04-27 14:40:08 公開日:2021-04-25
# エッジ計算のためのディープニューラルネットワークの量子化

Quantization of Deep Neural Networks for Accurate EdgeComputing ( http://arxiv.org/abs/2104.12046v1 )

ライセンス: Link先を確認
Wentao Chen, Hailong Qiu, Jian Zhuang, Chutong Zhang, Yu Hu, Qing Lu, Tianchen Wang, Yiyu Shi{\dag}, Meiping Huang, Xiaowe Xu(参考訳) 近年、ディープニューラルネットワーク(DNN)はその大きな可能性を実証しており、広範囲のアプリケーションでヒトの専門家のパフォーマンスを超越している。 しかし、その大きさが大きいため、重量量子化やプルーニングといった圧縮技術は通常、エッジに収まる前に適用される。 量子化は性能劣化を引き起こすと考えられており、多くの既存研究が最小精度の損失を目的とした量子化戦略を模索している。 本稿では,重み表現に本質的に正則化を課す量子化が,精度向上に役立つことがあることを論じる。 バイオメディカル画像セグメント化のためのFCN,イメージネット上の画像分類のための畳み込みニューラルネットワーク(CNN),自動音声認識のためのリカレントニューラルネットワーク(RNN)の3つの応用について総合的な実験を行い,3.5x-6.4xメモリ削減を伴う3つのアプリケーションにおいて量子化が精度を1%,1.95%,4.23%向上させることを示した。

Deep neural networks (DNNs) have demonstrated their great potential in recent years, exceeding the per-formance of human experts in a wide range of applications. Due to their large sizes, however, compressiontechnique s such as weight quantization and pruning are usually applied before they can be accommodated onthe edge. It is generally believed that quantization leads to performance degradation, and plenty of existingworks have explored quantization strategies aiming at minimum accuracy loss. In this paper, we argue thatquantization, which essentially imposes regularization on weight representations, can sometimes help toimprove accuracy. We conduct comprehensive experiments on three widely used applications: fully con-nected network (FCN) for biomedical image segmentation, convolutional neural network (CNN) for imageclassification on ImageNet, and recurrent neural network (RNN) for automatic speech recognition, and experi-mental results show that quantization can improve the accuracy by 1%, 1.95%, 4.23% on the three applicationsrespecti vely with 3.5x-6.4x memory reduction.
翻訳日:2021-04-27 14:39:35 公開日:2021-04-25
# ASPCNet:ハイパースペクトル画像分類のための深層適応空間パターンカプセルネットワーク

ASPCNet: A Deep Adaptive Spatial Pattern Capsule Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2104.12085v1 )

ライセンス: Link先を確認
Jinping Wang, Xiaojun Tan, Jianhuang Lai, Jun Li, Canqun Xiang(参考訳) これまでの研究で、超スペクトル画像(HSIs)から空間的文脈特徴抽出のためのカプセルネットワークの可能性が示された。 しかし、カプセルの畳み込み核のサンプリング位置は固定されており、HSIの一貫性のない意味情報に従って適応的に変更することはできない。 そこで本稿では,aspcnet(adaptive spatial pattern capsule network)アーキテクチャを提案する。asp(adaptive spatial pattern)ユニットは,畳み込み型カーネルのサンプリング位置を,拡大した受容場に基づいて回転させることができる。 このユニットはより少ないパラメータでより識別的なHSI表現を学習できる。 具体的には,2つのASPベースの畳み込み操作(ASPConvs)を入力画像に適用し,比較的高レベルの意味的特徴を学習し,カプセル間の階層構造を最も基本的な特徴よりも正確に伝達する。 さらに、aspベースのconv-capsule operations(aspcaps)にセマンティックな特徴を与え、カプセル内の物体の形状を適応的に探索し、カプセルネットワークの可能性をさらに探究する。 最後に、試験試料を中心とした画像パッチのクラスラベルを、全連結カプセル層に応じて決定することができる。 3つのパブリックデータセットに関する実験により、aspcnetは最先端のメソッドよりも高い精度で競合性能が得られることが示されている。

Previous studies have shown the great potential of capsule networks for the spatial contextual feature extraction from {hyperspectral images (HSIs)}. However, the sampling locations of the convolutional kernels of capsules are fixed and cannot be adaptively changed according to the inconsistent semantic information of HSIs. Based on this observation, this paper proposes an adaptive spatial pattern capsule network (ASPCNet) architecture by developing an adaptive spatial pattern (ASP) unit, that can rotate the sampling location of convolutional kernels on the basis of an enlarged receptive field. Note that this unit can learn more discriminative representations of HSIs with fewer parameters. Specifically, two cascaded ASP-based convolution operations (ASPConvs) are applied to input images to learn relatively high-level semantic features, transmitting hierarchical structures among capsules more accurately than the use of the most fundamental features. Furthermore, the semantic features are fed into ASP-based conv-capsule operations (ASPCaps) to explore the shapes of objects among the capsules in an adaptive manner, further exploring the potential of capsule networks. Finally, the class labels of image patches centered on test samples can be determined according to the fully connected capsule layer. Experiments on three public datasets demonstrate that ASPCNet can yield competitive performance with higher accuracies than state-of-the-art methods.
翻訳日:2021-04-27 14:39:13 公開日:2021-04-25
# エッジ誘導学習型双方向アテンションマップによる画像表示

Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps ( http://arxiv.org/abs/2104.12087v1 )

ライセンス: Link先を確認
Dongsheng Wang, Chaohao Xie, Shaohui Liu, Zhenxing Niu, Wangmeng Zuo(参考訳) 画像インペインティングでは、従来の方法では畳み込みニューラルネットワーク(cnn)が標準的な畳み込み演算子を採用することが多い。 その結果、不規則な穴の取扱いに制限があり、色覚やぼやけた塗装結果をもたらす傾向にある。 部分畳み込み(pconv)は、有効な画素のみを条件としたマスク畳み込みと特徴再正規化を行うが、マスクアップディングは手作りで画像構造情報とは独立している。 本稿では,不規則な穴の塗装性を改善するためのエッジ誘導学習型双方向アテンションマップ(Edge-LBAM)を提案する。 ハードな0-1マスクの代わりに、学習可能なアテンションマップモジュールを導入し、特徴の正規化とマスク更新をエンドツーエンドで学習する。 学習可能な逆アテンションマップは、すべてのピクセルを再構成するのではなく、未知のピクセルを埋めることを強調するデコーダでさらに提案されている。 フィリングイン順序は,結果の反映に不可欠であり,exemplarに基づく手法では画像構造に大きく依存するため,コヒーレントエッジを予測できるマルチスケールエッジ補完ネットワークを提案する。 エッジlbam法には,特徴再正規化のためにマスクが生成する注意マップやエッジを予測した構造認識マスクアップデーティングを含む2つの手順が含まれており,エッジlbamはコヒーレントな画像構造の生成や色差やぼやかしの防止に有効であり,質的指標や視覚品質の観点からは最先端の手法に対して好適に作用することを示す。

For image inpainting, the convolutional neural networks (CNN) in previous methods often adopt standard convolutional operator, which treats valid pixels and holes indistinguishably. As a result, they are limited in handling irregular holes and tend to produce color-discrepant and blurry inpainting result. Partial convolution (PConv) copes with this issue by conducting masked convolution and feature re-normalization conditioned only on valid pixels, but the mask-updating is handcrafted and independent with image structural information. In this paper, we present an edge-guided learnable bidirectional attention map (Edge-LBAM) for improving image inpainting of irregular holes with several distinct merits. Instead of using a hard 0-1 mask, a learnable attention map module is introduced for learning feature re-normalization and mask-updating in an end-to-end manner. Learnable reverse attention maps are further proposed in the decoder for emphasizing on filling in unknown pixels instead of reconstructing all pixels. Motivated by that the filling-in order is crucial to inpainting results and largely depends on image structures in exemplar-based methods, we further suggest a multi-scale edge completion network to predict coherent edges. Our Edge-LBAM method contains dual procedures,including structure-aware mask-updating guided by predict edges and attention maps generated by masks for feature re-normalization.Ext ensive experiments show that our Edge-LBAM is effective in generating coherent image structures and preventing color discrepancy and blurriness, and performs favorably against the state-of-the-art methods in terms of qualitative metrics and visual quality.
翻訳日:2021-04-27 14:38:51 公開日:2021-04-25
# Visual Saliency Transformer

Visual Saliency Transformer ( http://arxiv.org/abs/2104.12099v1 )

ライセンス: Link先を確認
Nian Liu and Ni Zhang and Kaiyuan Wan and Junwei Han and Ling Shao(参考訳) 近年,CNNアーキテクチャをベースとした大規模サリエンシ検出手法が実現している。 あるいは、このタスクを畳み込みのないシーケンスツーシーケンスの観点から再考し、畳み込みでは達成できない長距離依存関係をモデル化することで、塩分を予測します。 具体的には,rgb と rgb-d salient object detection (sod) の両方に対して,純粋変圧器に基づく新しい統一モデルである visual saliency transformer (vst) を開発した。 イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。 視覚トランスフォーマー(vit)で使用される従来のトランスフォーマーアーキテクチャとは別に,マルチレベルトークンフュージョンを利用して,トランスフォーマーフレームワーク下で新しいトークンアップサンプリング手法を提案し,高分解能検出結果を得る。 また,タスク関連トークンと新しいパッチ・タスク・アテンション機構を導入することで,サリエンシと境界検出を同時に行うトークンベースのマルチタスクデコーダを開発した。 実験結果から,RGBおよびRGB-D SODベンチマークのベンチマークデータにおいて,本モデルが既存の最先端結果より優れていることが示された。 最も重要なことは、我々のフレームワーク全体がSOD分野の新しい視点を提供するだけでなく、トランスフォーマーベースの高密度予測モデルのための新しいパラダイムも示しています。

Recently, massive saliency detection methods have achieved promising results by relying on CNN-based architectures. Alternatively, we rethink this task from a convolution-free sequence-to-sequence perspective and predict saliency by modeling long-range dependencies, which can not be achieved by convolution. Specifically, we develop a novel unified model based on a pure transformer, namely, Visual Saliency Transformer (VST), for both RGB and RGB-D salient object detection (SOD). It takes image patches as inputs and leverages the transformer to propagate global contexts among image patches. Apart from the traditional transformer architecture used in Vision Transformer (ViT), we leverage multi-level token fusion and propose a new token upsampling method under the transformer framework to get high-resolution detection results. We also develop a token-based multi-task decoder to simultaneously perform saliency and boundary detection by introducing task-related tokens and a novel patch-task-attention mechanism. Experimental results show that our model outperforms existing state-of-the-art results on both RGB and RGB-D SOD benchmark datasets. Most importantly, our whole framework not only provides a new perspective for the SOD field but also shows a new paradigm for transformer-based dense prediction models.
翻訳日:2021-04-27 14:38:19 公開日:2021-04-25
# 異常検出のためのマルチレベル構造の教師なし学習

Unsupervised Learning of Multi-level Structures for Anomaly Detection ( http://arxiv.org/abs/2104.12102v1 )

ライセンス: Link先を確認
Songmin Dai, Jide Li, Lu Wang, Congcong Zhu, Yifan Wu, Xiaoqiang Li(参考訳) 高次元異常検出タスクの主な困難は、トレーニングのための異常データがないことである。 そして、単に実世界、共通分布、あるいは正規データ多様体の境界から異常データを収集するだけで、異常モードの欠如が問題となる。 本稿では,複数のレベルで正規データの局所構造を保存しながら,グローバル構造を分割して異常データを生成する手法を提案する。 様々なレベルの局所的な異常構造を効率的に露呈することができる。 露出する多レベル異常構造をフル活用するために,複数レベルのパッチベース検出器を対照的な損失で訓練することを提案する。 各検出器は、全ての位置で対応するレベルの局所的な異常構造を検出し、パッチワイズ異常スコアを出力する。 全てのレベル固有検出器の出力を集約することにより、すべての潜在的な異常を検知できるモデルを得る。 この効果は、MNIST、CIFAR10、ImageNet10データセットで評価され、その結果が最先端の手法の精度を上回る。 定性的実験は、我々のモデルが不偏に全ての異常モードを検知できることを実証する。

The main difficulty in high-dimensional anomaly detection tasks is the lack of anomalous data for training. And simply collecting anomalous data from the real world, common distributions, or the boundary of normal data manifold may face the problem of missing anomaly modes. This paper first introduces a novel method to generate anomalous data by breaking up global structures while preserving local structures of normal data at multiple levels. It can efficiently expose local abnormal structures of various levels. To fully exploit the exposed multi-level abnormal structures, we propose to train multiple level-specific patch-based detectors with contrastive losses. Each detector learns to detect local abnormal structures of corresponding level at all locations and outputs patchwise anomaly scores. By aggregating the outputs of all level-specific detectors, we obtain a model that can detect all potential anomalies. The effectiveness is evaluated on MNIST, CIFAR10, and ImageNet10 dataset, where the results surpass the accuracy of state-of-the-art methods. Qualitative experiments demonstrate our model is robust that it unbiasedly detects all anomaly modes.
翻訳日:2021-04-27 14:37:57 公開日:2021-04-25
# 時流ネット:時間融合による3次元物体検出

Temp-Frustum Net: 3D Object Detection with Temporal Fusion ( http://arxiv.org/abs/2104.12106v1 )

ライセンス: Link先を確認
Eme\c{c} Er\c{c}elik, Ekim Yurtsever and Alois Knoll(参考訳) 3dオブジェクト検出は、自動運転システムのコアコンポーネントである。 最先端の手法は、3Dバウンディングボックスの回帰のためにRGBイメージとLiDARポイントクラウドデータフレームを融合する。 しかし、フレーム・バイ・フレームの3Dオブジェクト検出はノイズ、視野の障害物、空間性に悩まされている。 本稿では,これらの問題を緩和するために,従来の時間段階の情報を利用する新しい時間融合モジュール(TFM)を提案する。 まず、最先端のフラストムネットワークは、生のRGBとLiDARポイントクラウドデータフレームをフレーム単位で抽出する。 そして、tfmモジュールは、これらの機能をリカレントニューラルネットワークと融合します。 その結果、3次元物体検出は単一フレームの故障や過渡閉塞に対して堅牢となる。 kitti object trackingデータセットにおける実験では、フレーム毎のベースラインと比較して、それぞれ車、歩行者、自転車のクラスで6%、4%、6%の改善が得られたtfmの有効性が示された。 さらに、アブレーション研究は改善の主題が時間融合であることを強化し、対象検出パイプラインにおけるTFMの異なる配置の影響を示す。 私たちのコードはオープンソースで、https://gitlab.lrz.d e/emec_ercelik/temp- frustnetで利用可能です。

3D object detection is a core component of automated driving systems. State-of-the-art methods fuse RGB imagery and LiDAR point cloud data frame-by-frame for 3D bounding box regression. However, frame-by-frame 3D object detection suffers from noise, field-of-view obstruction, and sparsity. We propose a novel Temporal Fusion Module (TFM) to use information from previous time-steps to mitigate these problems. First, a state-of-the-art frustum network extracts point cloud features from raw RGB and LiDAR point cloud data frame-by-frame. Then, our TFM module fuses these features with a recurrent neural network. As a result, 3D object detection becomes robust against single frame failures and transient occlusions. Experiments on the KITTI object tracking dataset show the efficiency of the proposed TFM, where we obtain ~6%, ~4%, and ~6% improvements on Car, Pedestrian, and Cyclist classes, respectively, compared to frame-by-frame baselines. Furthermore, ablation studies reinforce that the subject of improvement is temporal fusion and show the effects of different placements of TFM in the object detection pipeline. Our code is open-source and available at https://gitlab.lrz.d e/emec_ercelik/temp- frustnet.
翻訳日:2021-04-27 14:37:41 公開日:2021-04-25
# インタラクションハンドのポーズ推定のための並列メッシュ再構成ストリーム

Parallel mesh reconstruction streams for pose estimation of interacting hands ( http://arxiv.org/abs/2104.12123v1 )

ライセンス: Link先を確認
Uri Wollner and Guy Ben-Yosef(参考訳) 単一のRGB画像から手動ポーズ推定を行うマルチストリーム3Dメッシュ再構成ネットワーク(MSMR-Net)を提案する。 我々のモデルは、画像エンコーダと、連結グラフ畳み込み層からなるメッシュ畳み込みデコーダからなる。 単一のメッシュデコードパスを形成する従来のモデルとは対照的に、デコーダネットワークは並列に実行される複数のクロスレゾリューショントラジェクトリを組み込んでいる。 これにより、グローバル情報とローカル情報が共有され、単一の軌道網に比べて小さな追加パラメータコストでリッチな復号表現を形成する。 本研究では,手動・手動のインタラクションシナリオにおける手法の有効性を,様々なレベルのインタラクションで示す。 前者のシナリオを評価するために,密接に相互作用する手によるRGB画像を生成する手法を提案する。 さらに、相互作用の度合いを定量化し、手近な相互作用が特に難しいことを示す指標を提案する。 実験の結果,MSMR-NetはFreiHANDデータセットや我々の手動データセットにおいて,既存のアルゴリズムよりも優れていることがわかった。

We present a new multi-stream 3D mesh reconstruction network (MSMR-Net) for hand pose estimation from a single RGB image. Our model consists of an image encoder followed by a mesh-convolution decoder composed of connected graph convolution layers. In contrast to previous models that form a single mesh decoding path, our decoder network incorporates multiple cross-resolution trajectories that are executed in parallel. Thus, global and local information are shared to form rich decoding representations at minor additional parameter cost compared to the single trajectory network. We demonstrate the effectiveness of our method in hand-hand and hand-object interaction scenarios at various levels of interaction. To evaluate the former scenario, we propose a method to generate RGB images of closely interacting hands. Moreoever, we suggest a metric to quantify the degree of interaction and show that close hand interactions are particularly challenging. Experimental results show that the MSMR-Net outperforms existing algorithms on the hand-object FreiHAND dataset as well as on our own hand-hand dataset.
翻訳日:2021-04-27 14:37:20 公開日:2021-04-25
# transformer meets dcfam: 高解像度リモートセンシング画像のための新しい意味セグメンテーションスキーム

Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for Fine-Resolution Remote Sensing Images ( http://arxiv.org/abs/2104.12137v1 )

ライセンス: Link先を確認
Libo Wang, Rui Li, Chenxi Duan, and Shenghui Fang(参考訳) エンコーダ・デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)は,セマンティックセグメンテーションの標準パラダイムとなっている。 エンコーダ-デコーダアーキテクチャは、マルチレベル特徴マップをキャプチャするためにエンコーダを使用し、デコーダによって最終予測に組み込まれる。 正確なセグメンテーションには文脈が不可欠であるため、拡張/拡張畳み込みやアテンションモジュールの挿入など、インテリジェントな方法で情報を抽出するための多大な努力がなされている。 しかし、上記の取り組みはすべて、ルートのコンテキスト問題に対処できないResNetバックボーンを備えたFCNアーキテクチャに基づいている。 対照的に、スウィントランスをバックボーンとして、コンテキスト情報を完全に抽出し、dancely connected feature aggregation module(dcfam)という新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。 2つのデータセットに関する広範な実験により,提案手法の有効性が示された。

The fully-convolutional network (FCN) with an encoder-decoder architecture has become the standard paradigm for semantic segmentation. The encoder-decoder architecture utilizes an encoder to capture multi-level feature maps, which are then incorporated into the final prediction by a decoder. As the context is critical for precise segmentation, tremendous effort has been made to extract such information in an intelligent manner, including employing dilated/atrous convolutions or inserting attention modules. However, the aforementioned endeavors are all based on the FCN architecture with ResNet backbone which cannot tackle the context issue from the root. By contrast, we introduce the Swin Transformer as the backbone to fully extract the context information and design a novel decoder named densely connected feature aggregation module (DCFAM) to restore the resolution and generate the segmentation map. The extensive experiments on two datasets demonstrate the effectiveness of the proposed scheme.
翻訳日:2021-04-27 14:37:04 公開日:2021-04-25
# 銀行小切手の署名のための新しいセグメンテーションデータセット

A novel segmentation dataset for signatures on bank checks ( http://arxiv.org/abs/2104.12203v1 )

ライセンス: Link先を確認
Muhammad Saif Ullah Khan(参考訳) 提示されたデータセットは、さまざまな複雑な背景を含むバンクチェックと、各フィールドで手書きのテキストとシグネチャ、およびチェックのシグネチャ用のピクセルレベルとパッチレベルのセグネチャマスクの高解像度画像を提供する。 銀行のチェックの画像は、他の公開可能なチェックデータセット、インターネット上で公開されているイメージ、実際のチェックのスキャンとイメージなど、さまざまなソースから取得された。 GIMPグラフィックスソフトウェアを用いて、これらのチェックの署名のためのピクセルレベルのセグメンテーションマスクを手動でバイナリ画像として生成した。 その後、自動スクリプトを使用してパッチレベルのマスクを生成する。 データセットは、銀行小切手やその他の非常に複雑な背景を持つ類似文書から署名を抽出するためのネットワークのトレーニングとテストのために作成された。

The dataset presented provides high-resolution images of real, filled out bank checks containing various complex backgrounds, and handwritten text and signatures in the respective fields, along with both pixel-level and patch-level segmentation masks for the signatures on the checks. The images of bank checks were obtained from different sources, including other publicly available check datasets, publicly available images on the internet, as well as scans and images of real checks. Using the GIMP graphics software, pixel-level segmentation masks for signatures on these checks were manually generated as binary images. An automated script was then used to generate patch-level masks. The dataset was created to train and test networks for extracting signatures from bank checks and other similar documents with very complex backgrounds.
翻訳日:2021-04-27 14:36:47 公開日:2021-04-25
# ベクトルニューロン:SO(3)-等価ネットワークのための一般的なフレームワーク

Vector Neurons: A General Framework for SO(3)-Equivariant Networks ( http://arxiv.org/abs/2104.12229v1 )

ライセンス: Link先を確認
Congyue Deng, Or Litany, Yueqi Duan, Adrien Poulenard, Andrea Tagliasacchi, Leonidas Guibas(参考訳) 回転群に対する不変性と同分散は、pointcloudsの3dディープラーニングコミュニティで広く議論されている。 しかし、ほとんどの提案手法は、アクセシビリティを制限する複雑な数学的ツールを使うか、特定の入力データ型とネットワークアーキテクチャに結びつくかのどちらかである。 本稿では,SO(3)-同変ニューラルネットワーク作成のためのベクトルニューロン表現(Vector Neuron representations)をベースとした汎用フレームワークを提案する。 ニューロンを1Dスカラーから3Dベクターに拡張することで、我々のベクトルニューロンはSO(3)アクションを潜在空間に簡単にマッピングできるので、線形層、非線形性、プール、正規化を含む、共通の神経操作における等式を構築するためのフレームワークを提供する。 その単純さから、ベクトルニューロンは汎用性があり、我々が示すように、様々なネットワークアーキテクチャのバックボーンに組み込むことができ、任意のポーズで幾何学入力を処理できる。 その単純さにもかかわらず、この手法は他のより複雑で専門的な分類および分割タスクにおいて、精度と一般化が両立する。 また, 回転同変再構成ネットワークを初めて示す。

Invariance and equivariance to the rotation group have been widely discussed in the 3D deep learning community for pointclouds. Yet most proposed methods either use complex mathematical tools that may limit their accessibility, or are tied to specific input data types and network architectures. In this paper, we introduce a general framework built on top of what we call Vector Neuron representations for creating SO(3)-equivariant neural networks for pointcloud processing. Extending neurons from 1D scalars to 3D vectors, our vector neurons enable a simple mapping of SO(3) actions to latent spaces thereby providing a framework for building equivariance in common neural operations -- including linear layers, non-linearities, pooling, and normalizations. Due to their simplicity, vector neurons are versatile and, as we demonstrate, can be incorporated into diverse network architecture backbones, allowing them to process geometry inputs in arbitrary poses. Despite its simplicity, our method performs comparably well in accuracy and generalization with other more complex and specialized state-of-the-art methods on classification and segmentation tasks. We also show for the first time a rotation equivariant reconstruction network.
翻訳日:2021-04-27 14:36:32 公開日:2021-04-25
# Single Stage Class Agnostic Common Object Detection: A Simple Baseline

Single Stage Class Agnostic Common Object Detection: A Simple Baseline ( http://arxiv.org/abs/2104.12245v1 )

ライセンス: Link先を確認
Chuong H. Nguyen, Thuy C. Nguyen, Anh H. Vo, Yamazaki Masayuki(参考訳) 本稿では,画像の集合から類似するカテゴリのオブジェクトを検出することを目的とした,共通物体検出の問題に対処する。 標準のオブジェクト検出とコセグメンテーションといくつかの類似点があるが、最近 \cite{Jiang2019a} によって推進された共通オブジェクト検出には、いくつかのユニークな利点と課題がある。 まず、クローズドセット条件とオープンセット条件の両方で動作するように設計されている。 未知の物体です 第二に、同じカテゴリのオブジェクトとマッチングできなければならないが、同じインスタンス、テクスチャ、姿勢に限定されない。 第三に、複数のオブジェクトを区別できる。 本研究では,SSCOD(Single Stage Common Object Detection)を導入し,画像集合からクラスに依存しない共通オブジェクトを検出する。 提案手法は, 標準単段物体検出器をベースとする。 さらに、オブジェクトの表現特徴を生成するために埋め込みブランチを導入し、その類似性をコサイン距離で測定する。 PASCAL VOC 2007とCOCO 2014データセットで実験が行われた。 単純でフレキシブルであるが、ATSSNet上に構築された提案SSCODは、未知のカテゴリのオブジェクトにマッチする一方で、標準オブジェクト検出のベースラインよりも大幅に性能が向上する。 ソースコードは \href{https://github.com/c ybercore-co-ltd/Sing le-Stage-Common-Obje ct-Detection}{(URL)} にある。

This paper addresses the problem of common object detection, which aims to detect objects of similar categories from a set of images. Although it shares some similarities with the standard object detection and co-segmentation, common object detection, recently promoted by \cite{Jiang2019a}, has some unique advantages and challenges. First, it is designed to work on both closed-set and open-set conditions, a.k.a. known and unknown objects. Second, it must be able to match objects of the same category but not restricted to the same instance, texture, or posture. Third, it can distinguish multiple objects. In this work, we introduce the Single Stage Common Object Detection (SSCOD) to detect class-agnostic common objects from an image set. The proposed method is built upon the standard single-stage object detector. Furthermore, an embedded branch is introduced to generate the object's representation feature, and their similarity is measured by cosine distance. Experiments are conducted on PASCAL VOC 2007 and COCO 2014 datasets. While being simple and flexible, our proposed SSCOD built upon ATSSNet performs significantly better than the baseline of the standard object detection, while still be able to match objects of unknown categories. Our source code can be found at \href{https://github.com/c ybercore-co-ltd/Sing le-Stage-Common-Obje ct-Detection}{(URL)}
翻訳日:2021-04-27 14:36:14 公開日:2021-04-25
# クーロン法則を用いたクラス平衡

Class Equilibrium using Coulomb's Law ( http://arxiv.org/abs/2104.12287v1 )

ライセンス: Link先を確認
Saheb Chhabra, Puspita Majumdar, Mayank Vatsa, Richa Singh(参考訳) 投影アルゴリズムは、クラス間距離を増加させるために、入力空間から特徴空間へデータを投影するために変換関数を学習する。 しかし,クラス間距離の増加はクラス間距離に影響を与える可能性がある。 データ分散のクラス間距離に影響を与えることなく、クラス間の最適なクラス間分離を維持することは難しい課題である。 本稿では、クーロンの静電気の法則に着想を得て、クラス間の分離が最適である任意のデータ分布の平衡空間を計算する新しいアルゴリズムを提案する。 このアルゴリズムはさらに、入力空間と平衡空間の間の変換を学習し、平衡空間の分類を行う。 提案アルゴリズムの性能を3つの異なる解像度で4つの公開データセットで評価する。 提案アルゴリズムは低解像度画像に対して良好に動作する。

Projection algorithms learn a transformation function to project the data from input space to the feature space, with the objective of increasing the inter-class distance. However, increasing the inter-class distance can affect the intra-class distance. Maintaining an optimal inter-class separation among the classes without affecting the intra-class distance of the data distribution is a challenging task. In this paper, inspired by the Coulomb's law of Electrostatics, we propose a new algorithm to compute the equilibrium space of any data distribution where the separation among the classes is optimal. The algorithm further learns the transformation between the input space and equilibrium space to perform classification in the equilibrium space. The performance of the proposed algorithm is evaluated on four publicly available datasets at three different resolutions. It is observed that the proposed algorithm performs well for low-resolution images.
翻訳日:2021-04-27 14:35:51 公開日:2021-04-25
# 非パラメトリックノイズモデルを用いたベイズニューラルネットワークを用いたシステム同定

System identification using Bayesian neural networks with nonparametric noise models ( http://arxiv.org/abs/2104.12119v1 )

ライセンス: Link先を確認
Christos Merkatas and Simo S\"arkk\"a(参考訳) システム識別は科学と工学に特に関心がある。 本論は, 確率力学系において発生するシステム同定問題に関するもので, 未知の雑音過程とともにシステムのパラメータを推定することを目的としている。 特に,マルコフ過程の順序のみを仮定した離散時間非線形ランダム力学系におけるシステム同定のためのベイズ的非パラメトリック手法を提案する。 提案手法は, ガウス分布誤差成分の仮定をベイズ非パラメトリック事前値に基づく高柔軟性確率密度関数群に置き換えるものである。 さらに、システムの機能形式はベイズニューラルネットワークを利用して推定され、柔軟性のある不確かさの定量化につながる。 隠れニューロンの数に漸近して、提案モデルは完全な非パラメトリックベイズ回帰モデルに収束する。 後部推論用ギブスサンプリング器を提案し,シミュレーションおよび実時間時系列でその有効性を示した。

System identification is of special interest in science and engineering. This article is concerned with a system identification problem arising in stochastic dynamic systems, where the aim is to estimating the parameters of a system along with its unknown noise processes. In particular, we propose a Bayesian nonparametric approach for system identification in discrete time nonlinear random dynamical systems assuming only the order of the Markov process is known. The proposed method replaces the assumption of Gaussian distributed error components with a highly flexible family of probability density functions based on Bayesian nonparametric priors. Additionally, the functional form of the system is estimated by leveraging Bayesian neural networks which also leads to flexible uncertainty quantification. Asymptotically on the number of hidden neurons, the proposed model converges to full nonparametric Bayesian regression model. A Gibbs sampler for posterior inference is proposed and its effectiveness is illustrated in simulated and real time series.
翻訳日:2021-04-27 14:27:20 公開日:2021-04-25
# 3D-TalkEmo: 3D Emotional Talking Headの合成学習

3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head ( http://arxiv.org/abs/2104.12051v1 )

ライセンス: Link先を確認
Qianyun Wang, Zhenfeng Fan, Shihong Xia(参考訳) 最近、音声駆動の3D顔アニメーションで印象的な進歩が見られたが、豊かな感情で3Dトーキングヘッドを合成することは、まだ未解決である。 これは、3d生成モデルと、同期オーディオを備えた3d感情データセットが欠如しているためである。 そこで我々は3D-TalkEmoというディープニューラルネットワークを導入し,様々な感情を持つ3Dトーキングヘッドアニメーションを生成する。 また,高度な3d顔再構成手法を用いて,音声と映像の同期化,コーパスの充実,さまざまな感情状態を備えた大規模3dデータセットを作成する。 感情生成ネットワークにおいて,従来の多次元スケーリング解析による3次元顔表現構造図を提案する。 3次元面上の頂点の座標を正準像平面にマッピングし、頂点から頂点への測地距離を最小二乗意味で保持する。 これは各頂点の隣接関係を維持し、3次元顔表面の効果的な畳み込み構造を保持する。 中立的な3Dメッシュと音声信号を入力として、この3D-TalkEmoは鮮やかな顔アニメーションを生成することができる。 さらに、アニメーションスピーカの感情状態を変更するためのアクセスも提供する。 提案手法の定量的,定性的な評価を行い,ユーザ研究に加えて,従来の最先端手法に比べて高い品質の音声ヘッドを生成する。

Impressive progress has been made in audio-driven 3D facial animation recently, but synthesizing 3D talking-head with rich emotion is still unsolved. This is due to the lack of 3D generative models and available 3D emotional dataset with synchronized audios. To address this, we introduce 3D-TalkEmo, a deep neural network that generates 3D talking head animation with various emotions. We also create a large 3D dataset with synchronized audios and videos, rich corpus, as well as various emotion states of different persons with the sophisticated 3D face reconstruction methods. In the emotion generation network, we propose a novel 3D face representation structure - geometry map by classical multi-dimensional scaling analysis. It maps the coordinates of vertices on a 3D face to a canonical image plane, while preserving the vertex-to-vertex geodesic distance metric in a least-square sense. This maintains the adjacency relationship of each vertex and holds the effective convolutional structure for the 3D facial surface. Taking a neutral 3D mesh and a speech signal as inputs, the 3D-TalkEmo is able to generate vivid facial animations. Moreover, it provides access to change the emotion state of the animated speaker. We present extensive quantitative and qualitative evaluation of our method, in addition to user studies, demonstrating the generated talking-heads of significantly higher quality compared to previous state-of-the-art methods.
翻訳日:2021-04-27 14:25:37 公開日:2021-04-25
# マルチスケール時間ガラス階層型核融合ネットワークによる画像評価

Multi-Scale Hourglass Hierarchical Fusion Network for Single Image Deraining ( http://arxiv.org/abs/2104.12100v1 )

ライセンス: Link先を確認
Xiang Chen, Yufeng Huang, Lei Xu(参考訳) 雨のストリークは、しばしばサイズ、方向、密度によって大きくぼやけ、視覚的品質の劣化をもたらす。 現在のCNN方式は, 降雨特性の描写や, 可視性に乏しい環境下でのイメージの復元に限られている。 これらの課題に対処するため,マルチスケールのHH2F-Net (MH2F-Net) をエンドツーエンドに提示し,マルチスケール抽出,階層蒸留,情報集約による雨天の特徴を正確に把握する。 特徴をよりよく抽出するために, ダウンサンプル・アップサンプル・プロセスを通じて, 局所的・グローバルな特徴を多スケール抽出ブロック(MHEB)として提案する。 さらに、階層的注意蒸留ブロック(hadb)は、二重注意機能応答を使用して階層的特徴を適応的に再調整し、冗長な特徴を取り除く。 さらに,機能学習を段階的に判別し,特徴の結合や付加ではなく,特徴の集約を行う残余投影型特徴融合(rpff)戦略を導入する。 人工雨天データセットと実雨天データセットの大規模な実験は、最近の最先端のデラミニングアルゴリズムと比較して設計されたMH2F-Netの有効性を示す。 ソースコードはGitHubで入手できる。 https://github.com/c xtalk/MH2F-Net。

Rain streaks bring serious blurring and visual quality degradation, which often vary in size, direction and density. Current CNN-based methods achieve encouraging performance, while are limited to depict rain characteristics and recover image details in the poor visibility environment. To address these issues, we present a Multi-scale Hourglass Hierarchical Fusion Network (MH2F-Net) in end-to-end manner, to exactly captures rain streak features with multi-scale extraction, hierarchical distillation and information aggregation. For better extracting the features, a novel Multi-scale Hourglass Extraction Block (MHEB) is proposed to get local and global features across different scales through down- and up-sample process. Besides, a Hierarchical Attentive Distillation Block (HADB) then employs the dual attention feature responses to adaptively recalibrate the hierarchical features and eliminate the redundant ones. Further, we introduce a Residual Projected Feature Fusion (RPFF) strategy to progressively discriminate feature learning and aggregate different features instead of directly concatenating or adding. Extensive experiments on both synthetic and real rainy datasets demonstrate the effectiveness of the designed MH2F-Net by comparing with recent state-of-the-art deraining algorithms. Our source code will be available on the GitHub: https://github.com/c xtalk/MH2F-Net.
翻訳日:2021-04-27 14:25:16 公開日:2021-04-25
# 高次元線形回帰における変分推論

Variational Inference in high-dimensional linear regression ( http://arxiv.org/abs/2104.12232v1 )

ライセンス: Link先を確認
Sumit Mukherjee and Subhabrata Sen(参考訳) 高次元ベイズ線形回帰を積優先で研究する。 非線形大偏差の新生理論(chatterjee and dembo,2016)を用いて,後方分布の対数正規化定数に対するナイーブ平均場近似の先行的正しさについて十分条件を導出する。 その後、観測データに対する真の線形モデルと仮定すると、後部の対数正規化定数に対する無限次元の変動式を導出する。 さらに,追加の「分離」条件下では,変分問題は一意なオプティマイザを持ち,このオプティマイザは後方分布の確率的性質を制御する。 この「分離」条件の有効性について,直感的に十分な条件を提供する。 最後に,具体的設計行列を用いた具体例について述べる。

We study high-dimensional Bayesian linear regression with product priors. Using the nascent theory of non-linear large deviations (Chatterjee and Dembo,2016), we derive sufficient conditions for the leading-order correctness of the naive mean-field approximation to the log-normalizing constant of the posterior distribution. Subsequently, assuming a true linear model for the observed data, we derive a limiting infinite dimensional variational formula for the log normalizing constant of the posterior. Furthermore, we establish that under an additional "separation" condition, the variational problem has a unique optimizer, and this optimizer governs the probabilistic properties of the posterior distribution. We provide intuitive sufficient conditions for the validity of this "separation" condition. Finally, we illustrate our results on concrete examples with specific design matrices.
翻訳日:2021-04-27 14:23:21 公開日:2021-04-25
# 循環サンプリングとランダム再シャッフルの比較について

On the Comparison between Cyclic Sampling and Random Reshuffling ( http://arxiv.org/abs/2104.12112v1 )

ライセンス: Link先を確認
Xinmeng Huang, Kun Yuan, Xianghui Mao, Wotao Yin(参考訳) 確率/増分アルゴリズムを適用する場合、サンプルを描く順序を選択する必要がある。 最も一般的なアプローチは循環サンプリングとランダムリシャッフルであり、一様イドサンプリングよりも経験的に高速でキャッシュフレンドリーである。 周期的なサンプリングは、サンプルを周期的に再シャッフルするよりも頑丈でない、固定された循環的な順序でサンプルを引き出す。 実際、既存の研究は循環サンプリングにおける最悪のケース収束率を確立しており、これは一般にランダムリシャフリングよりも悪い。 しかし,本論文では,ある周期順序はリシャッフルよりもはるかに高速であり,低コストで発見できることがわかった。 異なるサンプリング順序の研究と比較は、通常、新しい分析技術を必要とする。 本稿では, 解までの距離を測定するために, サンプリング順序に基づいて定義されるノルムを提案する。 この手法を近似Finito/MISOアルゴリズムに適用することにより、最適な固定順序付けを特定できる。 また,最適な固定順序を数値的に発見する戦略を提案する。 定価は前作に比べて最先端である。

When applying a stochastic/increment al algorithm, one must choose the order to draw samples. Among the most popular approaches are cyclic sampling and random reshuffling, which are empirically faster and more cache-friendly than uniform-iid-sampling . Cyclic sampling draws the samples in a fixed, cyclic order, which is less robust than reshuffling the samples periodically. Indeed, existing works have established worst case convergence rates for cyclic sampling, which are generally worse than that of random reshuffling. In this paper, however, we found a certain cyclic order can be much faster than reshuffling and one can discover it at a low cost! Studying and comparing different sampling orders typically require new analytic techniques. In this paper, we introduce a norm, which is defined based on the sampling order, to measure the distance to solution. Applying this technique on proximal Finito/MISO algorithm allows us to identify the optimal fixed ordering, which can beat random reshuffling by a factor up to log(n)/n in terms of the best-known upper bounds. We also propose a strategy to discover the optimal fixed ordering numerically. The established rates are state-of-the-art compared to previous works.
翻訳日:2021-04-27 14:22:00 公開日:2021-04-25
# 生成的対立ネットワーク:分析的視点

Generative Adversarial Network: Some Analytical Perspectives ( http://arxiv.org/abs/2104.12210v1 )

ライセンス: Link先を確認
Haoyang Cao and Xin Guo(参考訳) デビュー以来、gans(generative adversarial networks)は膨大な注目を集めてきた。 過去数年間、様々な種類のGANモデルが開発され、実際に異なる用途に適合している。 一方,gansの性能と訓練に関するいくつかの問題は,様々な理論的観点から指摘され,検討されている。 このサブチャプタは、分析的な観点からのGANの導入から始まり、SDE近似を通してGANのトレーニングを進め、最終的に高次元MFGの計算や数学的財政問題の解決にGANの応用について議論する。

Ever since its debut, generative adversarial networks (GANs) have attracted tremendous amount of attention. Over the past years, different variations of GANs models have been developed and tailored to different applications in practice. Meanwhile, some issues regarding the performance and training of GANs have been noticed and investigated from various theoretical perspectives. This subchapter will start from an introduction of GANs from an analytical perspective, then move on the training of GANs via SDE approximations and finally discuss some applications of GANs in computing high dimensional MFGs as well as tackling mathematical finance problems.
翻訳日:2021-04-27 14:21:41 公開日:2021-04-25
# 直交非負行列因子分解に基づく空間コヒーレントクラスタリング

Spatially Coherent Clustering Based on Orthogonal Nonnegative Matrix Factorization ( http://arxiv.org/abs/2104.12289v1 )

ライセンス: Link先を確認
Pascal Fernsel(参考訳) クラスター分析における古典的なアプローチは、典型的には特徴空間分析に基づいている。 しかし、多くのアプリケーションは空間情報と空間的に整合したクラスを持つ基底真理を持つデータセットに導かれるため、標準的なクラスタリング手法によって必ずしもうまく再構築されるとは限らない。 超スペクトルイメージングの応用に動機づけられた本研究では,クラスタメンバシップマトリックスに付加的な総変動(tv)正則化手順を含む直交非負行列分解に基づくクラスタリングモデルを導入し,クラスタ内の空間的コヒーレンスを強制する。 本研究では,後処理ステップとしてtv正規化を行うか,クラスタリングアルゴリズムに組み込むか,異なる最適化手法を用いた複数の手法を提案する。 最後に,マトリクス支援レーザー脱離イオン化イメージング測定から得られたハイパースペクトルデータセットのすべての提案手法を数値的に評価し,従来のクラスタリングモデルと比較して有意に優れたクラスタリング結果が得られることを示す。

Classical approaches in cluster analysis are typically based on a feature space analysis. However, many applications lead to datasets with additional spatial information and a ground truth with spatially coherent classes, which will not necessarily be reconstructed well by standard clustering methods. Motivated by applications in hyperspectral imaging, we introduce in this work clustering models based on orthogonal nonnegative matrix factorization, which include an additional total variation (TV) regularization procedure on the cluster membership matrix to enforce the needed spatial coherence in the clusters. We propose several approaches with different optimization techniques, where the TV regularization is either performed as a subsequent postprocessing step or included into the clustering algorithm. Finally, we provide a numerical evaluation of all proposed methods on a hyperspectral dataset obtained from a matrix-assisted laser desorption/ionisatio n imaging measurement, which leads to significantly better clustering results compared to classical clustering models.
翻訳日:2021-04-27 14:19:25 公開日:2021-04-25