このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210109となっている論文です。

PDF登録状況(公開日: 20210109)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルネットワークの表現力:次元の呪いを破る

The Representation Power of Neural Networks: Breaking the Curse of Dimensionality ( http://arxiv.org/abs/2012.05451v3 )

ライセンス: Link先を確認
Moise Blanchard and M. Amine Bennouna(参考訳) 本稿では,ニューラルネットワークが有界2次混合導関数-コロボフ関数の多変量関数を近似するために必要なニューロンの数とトレーニングパラメータを解析する。 浅層および深層ニューラルネットワークにおけるこれらの量に対する上限を証明し、次元の呪いを破る。 我々の境界は、ReLUを含む一般活性化関数を保っている。 さらに、これらの境界がコロボフ関数を近似するために必要となる連続関数近似器の最小パラメータとほぼ一致することを証明し、ニューラルネットワークが近似器に近い最適関数であることが示される。

In this paper, we analyze the number of neurons and training parameters that a neural networks needs to approximate multivariate functions of bounded second mixed derivatives -- Korobov functions. We prove upper bounds on these quantities for shallow and deep neural networks, breaking the curse of dimensionality. Our bounds hold for general activation functions, including ReLU. We further prove that these bounds nearly match the minimal number of parameters any continuous function approximator needs to approximate Korobov functions, showing that neural networks are near-optimal function approximators.
翻訳日:2021-05-15 06:06:13 公開日:2021-01-09
# マンガ翻訳の完全自動化に向けて

Towards Fully Automated Manga Translation ( http://arxiv.org/abs/2012.14271v3 )

ライセンス: Link先を確認
Ryota Hinami, Shonosuke Ishiwatari, Kazuhiko Yasuda, and Yusuke Matsui(参考訳) マンガや日本の漫画の機械翻訳問題に取り組む。 マンガ翻訳には、文脈認識とマルチモーダル翻訳の2つの重要な問題がある。 マンガではテキストと画像が非構造的に混ざり合っているため、マンガの翻訳には画像から文脈を取得することが不可欠である。 しかし、画像からコンテキストを抽出してmtモデルに統合する方法はまだ未解決の問題である。 さらに、これらのモデルのトレーニングと評価のためのコーパスとベンチマークは、現在利用できない。 本稿では,マンガ翻訳研究の基礎となる4つの貢献について述べる。 まず,マルチモーダルな文脈認識翻訳フレームワークを提案する。 マンガ画像から得られた文脈情報を最初に組み込んだ。 これにより、文脈情報(例えば、他の音声バブルのテキスト、話者の性別など)を使わずに翻訳できない音声バブルのテキストを翻訳することができる。 第2に,モデル学習のために,手作業によるラベリングを行わずに大規模並列コーパスを構築できるマンガと翻訳のペアからの自動コーパス構築手法を提案する。 第3に,マンガ翻訳を評価するための新しいベンチマークを作成した。 最後に,提案手法に加えて,完全自動マンガ翻訳のための最初の総合的なシステムを考案した。

We tackle the problem of machine translation of manga, Japanese comics. Manga translation involves two important problems in machine translation: context-aware and multimodal translation. Since text and images are mixed up in an unstructured fashion in Manga, obtaining context from the image is essential for manga translation. However, it is still an open problem how to extract context from image and integrate into MT models. In addition, corpus and benchmarks to train and evaluate such model is currently unavailable. In this paper, we make the following four contributions that establishes the foundation of manga translation research. First, we propose multimodal context-aware translation framework. We are the first to incorporate context information obtained from manga image. It enables us to translate texts in speech bubbles that cannot be translated without using context information (e.g., texts in other speech bubbles, gender of speakers, etc.). Second, for training the model, we propose the approach to automatic corpus construction from pairs of original manga and their translations, by which large parallel corpus can be constructed without any manual labeling. Third, we created a new benchmark to evaluate manga translation. Finally, on top of our proposed methods, we devised a first comprehensive system for fully automated manga translation.
翻訳日:2021-04-19 11:06:26 公開日:2021-01-09
# HAVANA: 人物再識別のための階層的・変分正規化オートエンコーダ

HAVANA: Hierarchical and Variation-Normalized Autoencoder for Person Re-identification ( http://arxiv.org/abs/2101.02568v2 )

ライセンス: Link先を確認
Jiawei Ren, Xiao Ma, Chen Xu, Haiyu Zhao, Shuai Yi(参考訳) 人物再識別(Re-ID)は多くのビデオ監視システムにおいて非常に重要である。 Re-IDの識別的特徴の学習は、画像空間の大きなバリエーション、例えば、人間のポーズ、照明、視点の連続的な変化のために、依然として課題である。 本稿では,クラス内変動にロバストな特徴を学習する拡張性,軽量階層性,変分正規化オートエンコーダであるhavanaを提案する。 ハバナは、過剰な教師付き信号で変種を損なう既存の生成的アプローチとは対照的に、変種正規化オートエンコーダでクラス内変種を抑制する。 また,Re-IDにおけるコントラスト分布学習のための新しいJensen-Shannon三重項損失を導入する。 さらに,階層的変動ディシラ(hierarchical Variation Distiller)という階層的変動ディシラ(hierarchical Variation Distiller)を提案する。 我々の知る限りでは、HAVANAは個人ReIDのための最初のVAEベースのフレームワークです。

Person Re-Identification (Re-ID) is of great importance to the many video surveillance systems. Learning discriminative features for Re-ID remains a challenge due to the large variations in the image space, e.g., continuously changing human poses, illuminations and point of views. In this paper, we propose HAVANA, a novel extensible, light-weight HierArchical and VAriation-Normalized Autoencoder that learns features robust to intra-class variations. In contrast to existing generative approaches that prune the variations with heavy extra supervised signals, HAVANA suppresses the intra-class variations with a Variation-Normalized Autoencoder trained with no additional supervision. We also introduce a novel Jensen-Shannon triplet loss for contrastive distribution learning in Re-ID. In addition, we present Hierarchical Variation Distiller, a hierarchical VAE to factorize the latent representation and explicitly model the variations. To the best of our knowledge, HAVANA is the first VAE-based framework for person ReID.
翻訳日:2021-04-11 00:13:07 公開日:2021-01-09
# (参考訳) 日本語依存構文解析のゲーム化 [全文訳有]

A Gamification of Japanese Dependency Parsing ( http://arxiv.org/abs/2101.03269v1 )

ライセンス: CC BY 4.0
Masayuki Asahara(参考訳) ゲーミフィケーションアプローチは、NLPのための言語リソースを作成する方法として使われてきた。 また、NLPや言語現象のアルゴリズムを提示し、教えるためにも用いられる。 本稿では,日本語構文依存構文解析のためのゲーミフィケーションの設計について論じる。 ユーザインタフェース設計は、日本の依存関係構造におけるShiFT(アタッチ)とREDUCE(アタッチ)の2つのアクションのみを必要とする、遷移ベースの依存性解析に基づく。 ゲームパッドや他のデバイス上での双方向制御に2つのアクションを割り当てる。 また,心理言語学研究の目標文も設計する。

Gamification approaches have been used as a way for creating language resources for NLP. It is also used for presenting and teaching the algorithms in NLP and linguistic phenomena. This paper argues about a design of gamification for Japanese syntactic dependendency parsing for the latter objective. The user interface design is based on a transition-based shift reduce dependency parsing which needs only two actions of SHIFT (not attach) and REDUCE (attach) in Japanese dependency structure. We assign the two actions for two-way directional control on a gamepad or other devices. We also design the target sentences from psycholinguistics researches.
翻訳日:2021-04-09 12:41:36 公開日:2021-01-09
# (参考訳) 顔マニフォールド上の逆向きフェイク画像の探索 [全文訳有]

Exploring Adversarial Fake Images on Face Manifold ( http://arxiv.org/abs/2101.03272v1 )

ライセンス: CC BY 4.0
Dongze Li, Wei Wang, Hongxing Fan, Jing Dong(参考訳) 強力な生成的敵ネットワーク(GAN)に基づく画像は、道徳的・プライバシー的な懸念を招いている。 画像鑑識モデルは実際の画像から偽画像を検出することで大きな成果を上げているが、これらのモデルは単純な敵の攻撃で簡単に騙すことができる。 しかし、反対のサンプルを付加するノイズも疑念を呼んでいる。 本稿では, 対向雑音を付加する代わりに, 顔多様体上の対向点を最適に探索し, 反forensic fake face imageを生成する。 我々は、生成モデルの潜在空間において、各小さなステップで勾配線を反復的に行う。 スタイルGANは、ノルムベースの逆数攻撃に似ているが潜時空間にある逆数ベクトルを見つける。 そして、GANの助けを借りて、逆潜伏ベクトルによって駆動される偽画像は、メインストリームの法医学モデルに打ち勝つことができる。 例えば、xception や efficientnet に基づくディープフェイク検出モデルの精度は、90% 以上から 0% 近くまで低下し、一方で高い視覚品質を維持している。 さらに、異なるレベルのノイズベクトル$n$が攻撃成功率に影響を与えるような、スタイルベクトル$z$を操作していることも分かりました。 生成した対向画像は、主に顔のテクスチャや顔の属性が変化する。

Images synthesized by powerful generative adversarial network (GAN) based methods have drawn moral and privacy concerns. Although image forensic models have reached great performance in detecting fake images from real ones, these models can be easily fooled with a simple adversarial attack. But, the noise adding adversarial samples are also arousing suspicion. In this paper, instead of adding adversarial noise, we optimally search adversarial points on face manifold to generate anti-forensic fake face images. We iteratively do a gradient-descent with each small step in the latent space of a generative model, e.g. Style-GAN, to find an adversarial latent vector, which is similar to norm-based adversarial attack but in latent space. Then, the generated fake images driven by the adversarial latent vectors with the help of GANs can defeat main-stream forensic models. For examples, they make the accuracy of deepfake detection models based on Xception or EfficientNet drop from over 90% to nearly 0%, meanwhile maintaining high visual quality. In addition, we find manipulating style vector $z$ or noise vectors $n$ at different levels have impacts on attack success rate. The generated adversarial images mainly have facial texture or face attributes changing.
翻訳日:2021-04-09 12:36:04 公開日:2021-01-09
# (参考訳) CNNを用いた人間の編集画像の同定 [全文訳有]

Identifying Human Edited Images using a CNN ( http://arxiv.org/abs/2101.03275v1 )

ライセンス: CC BY 4.0
Jordan Lee, Willy Lin, Konstantinos Ntalis, Anirudh Shah, William Tung, Maxwell Wulff(参考訳) プロでない写真操作のほとんどは、adobe photoshopのようなプロプライエタリなソフトウェアを使っていない。 代わりに、これらの個人はFaceTuneやPixlrのようなユーザーフレンドリーなモバイルアプリを選択し、人間の顔の編集や修正を行う。 残念ながら、これらのタイプの操作を分類するモデルをトレーニングする既存のデータセットはありません。 本稿では、人間の顔編集の分布を近似する生成モデルと、顔の顔に対する顔とピクサーの操作を検出する方法を提案する。

Most non-professional photo manipulations are not made using propriety software like Adobe Photoshop, which is expensive and complicated to use for the average consumer selfie-taker or meme-maker. Instead, these individuals opt for user friendly mobile applications like FaceTune and Pixlr to make human face edits and alterations. Unfortunately, there is no existing dataset to train a model to classify these type of manipulations. In this paper, we present a generative model that approximates the distribution of human face edits and a method for detecting Facetune and Pixlr manipulations to human faces.
翻訳日:2021-04-09 12:23:28 公開日:2021-01-09
# (参考訳) インテリジェントトランスポートシステムにおける欠落データの推定 [全文訳有]

Estimation of Missing Data in Intelligent Transportation System ( http://arxiv.org/abs/2101.03295v1 )

ライセンス: CC BY 4.0
Bahareh Najafi, Saeedeh Parsaeefard, Alberto Leon-Garcia(参考訳) データ不足は、インテリジェントトランスポートシステム(ITS)を含む多くのアプリケーションにおいて課題である。 本稿では,センサの不安定性や収集点における通信エラーにより収集データの一部が欠落している交通速度と走行時間の推定について検討する。 これらの実践的な問題は、主に統計学または機械学習(ml)ベースのアプローチに分類されるデータ分析の欠如によって再媒介することができる。 統計的手法では, 応用で未知なデータの事前確率分布が必要となる。 そこで我々はMLに基づくMulti-Directional Recurrent Neural Network (M-RNN)に焦点を当てた。 M-RNNは、データの時間的特性と空間的特性の両方を利用する。 トロント大都市圏(GTA)における車両の平均速度と走行時間の時空間計測を含むTomTomデータセットに対するこのアプローチの有効性を評価する。 本研究では,M-RNNが既存の解,例えばスプライン補間や行列の完備性を最大58%向上する根平均正方形誤差(RMSE)を,様々な条件下で評価した。

Missing data is a challenge in many applications, including intelligent transportation systems (ITS). In this paper, we study traffic speed and travel time estimations in ITS, where portions of the collected data are missing due to sensor instability and communication errors at collection points. These practical issues can be remediated by missing data analysis, which are mainly categorized as either statistical or machine learning(ML)-based approaches. Statistical methods require the prior probability distribution of the data which is unknown in our application. Therefore, we focus on an ML-based approach, Multi-Directional Recurrent Neural Network (M-RNN). M-RNN utilizes both temporal and spatial characteristics of the data. We evaluate the effectiveness of this approach on a TomTom dataset containing spatio-temporal measurements of average vehicle speed and travel time in the Greater Toronto Area (GTA). We evaluate the method under various conditions, where the results demonstrate that M-RNN outperforms existing solutions,e.g., spline interpolation and matrix completion, by up to 58% decreases in Root Mean Square Error (RMSE).
翻訳日:2021-04-09 11:57:35 公開日:2021-01-09
# (参考訳) 低血圧治療における安全かつ解釈可能な強化学習のための決定点の同定 [全文訳有]

Identifying Decision Points for Safe and Interpretable Reinforcement Learning in Hypotension Treatment ( http://arxiv.org/abs/2101.03309v1 )

ライセンス: CC BY 4.0
Kristine Zhang, Yuanheng Wang, Jianzhun Du, Brian Chu, Leo Anthony Celi, Ryan Kindle, Finale Doshi-Velez(参考訳) 多くのバッチRLヘルスアプリケーションは、まず時間を一定間隔に区別する。 しかし、この離散化はどちらも分解能を失い、各(潜在的に細かい)間隔でポリシー計算を強制する。 本研究では,連続的トラジェクタを,バッチデータが複数の代替手段をサポートするような,解釈可能な決定ポイント --places に圧縮する,新たなフレームワークを開発した。 我々は,高血圧患者データセットのコホートからレコメンデーションを作成するためのアプローチを適用した。 我々の状態空間の縮小はより高速な計画をもたらし、臨床専門家による簡単な検査を可能にします。

Many batch RL health applications first discretize time into fixed intervals. However, this discretization both loses resolution and forces a policy computation at each (potentially fine) interval. In this work, we develop a novel framework to compress continuous trajectories into a few, interpretable decision points --places where the batch data support multiple alternatives. We apply our approach to create recommendations from a cohort of hypotensive patients dataset. Our reduced state space results in faster planning and allows easy inspection by a clinical expert.
翻訳日:2021-04-09 10:08:51 公開日:2021-01-09
# (参考訳) 薄いき裂検出のエンベロープを押す [全文訳有]

Pushing the Envelope of Thin Crack Detection ( http://arxiv.org/abs/2101.03326v1 )

ライセンス: CC BY 4.0
Liang Xu, Taro Hatsutani, Xing Liu, Engkarat Techapanurak, Han Zou and Takayuki Okatani(参考訳) 本研究では,橋梁などのインフラストラクチャの自動検査において,コンクリート表面の画像から亀裂を検出する問題について考察する。 その全体的な精度は、サブピクセル幅の細い亀裂をどの程度正確に検出できるかによって決定される。 私たちの関心は、それが定義できる限り薄さの限界に近い亀裂を検出できるようにすることです。 そこで本研究では,まずcnnを人間よりも正確な亀裂検出を行うための訓練法を提案する。 この目的を達成するために、CNNのトレーニング中にラベルの解像度を維持しながら、意図的に入力画像の空間解像度を下げる。 これにより、人間が検出できないほど薄いクラックに注釈を付けることが可能になります。 これにより、アノテーションに使用される画像の3分の1の解像度の画像から、ほぼ同じ精度で亀裂を検出できることを実験的に示す。 さらに, 微細き裂の検出精度を向上させるための3つの手法を提案する。i) ダウンサンプリング操作中に小さな画像構造を維持するためのPプール,i) VAE-GANフレームワークを用いて学習した亀裂形状を利用した後処理工程におけるショートセグメントクラックの除去, 3) CNNの検出能力の限界を超えてハードラベルを処理できる予測の不確実性のモデル化。 これらの手法の有効性を実験的に検討する。

In this study, we consider the problem of detecting cracks from the image of a concrete surface for automated inspection of infrastructure, such as bridges. Its overall accuracy is determined by how accurately thin cracks with sub-pixel widths can be detected. Our interest is in making it possible to detect cracks close to the limit of thinness if it can be defined. Toward this end, we first propose a method for training a CNN to make it detect cracks more accurately than humans while training them on human-annotated labels. To achieve this seemingly impossible goal, we intentionally lower the spatial resolution of input images while maintaining that of their labels when training a CNN. This makes it possible to annotate cracks that are too thin for humans to detect, which we call super-human labels. We experimentally show that this makes it possible to detect cracks from an image of one-third the resolution of images used for annotation with about the same accuracy. We additionally propose three methods for further improving the detection accuracy of thin cracks: i) P-pooling to maintain small image structures during downsampling operations; ii) Removal of short-segment cracks in a post-processing step utilizing a prior of crack shapes learned using the VAE-GAN framework; iii) Modeling uncertainty of the prediction to better handle hard labels beyond the limit of CNNs' detection ability, which technically work as noisy labels. We experimentally examine the effectiveness of these methods.
翻訳日:2021-04-09 09:59:47 公開日:2021-01-09
# (参考訳) ジオタグ付きつぶやきを用いた土地利用検知・識別 [全文訳有]

Land Use Detection & Identification using Geo-tagged Tweets ( http://arxiv.org/abs/2101.03337v1 )

ライセンス: CC0 1.0
Saeed Khan and Md Shahzamal(参考訳) ジオタグ付きツイートは、周囲の環境とのインタラクションを検知するのに役立つ可能性がある。 この仮説に基づき,地理タグ付きつぶやきを用いて,都市・都市計画支援のための広い目的の土地利用を確認する。 提案手法は,Twitterの行動シグネチャを利用して,都市内の空間的土地利用を明らかにする。 具体的には、オーストラリアのブリスベン、メルボルン、シドニーの3都市からのツイートを利用する。 各市議会が提供したゾーニングデータに対して分析結果をチェックし、市議会が予測した土地利用と既存の土地ゾーニングとの間に良い一致が観察される。 ジオタグ付きつぶやきには,土地利用識別に有用な機能が含まれていることを示す。

Geo-tagged tweets can potentially help with sensing the interaction of people with their surrounding environment. Based on this hypothesis, this paper makes use of geotagged tweets in order to ascertain various land uses with a broader goal to help with urban/city planning. The proposed method utilises supervised learning to reveal spatial land use within cities with the help of Twitter activity signatures. Specifically, the technique involves using tweets from three cities of Australia namely Brisbane, Melbourne and Sydney. Analytical results are checked against the zoning data provided by respective city councils and a good match is observed between the predicted land use and existing land zoning by the city councils. We show that geo-tagged tweets contain features that can be useful for land use identification.
翻訳日:2021-04-09 09:44:54 公開日:2021-01-09
# (参考訳) 敵意検出のための変圧器のタスク適応プリトレーニング [全文訳有]

Task Adaptive Pretraining of Transformers for Hostility Detection ( http://arxiv.org/abs/2101.03382v1 )

ライセンス: CC BY 4.0
Tathagata Raha, Sayar Ghosh Roy, Ujwal Narayan, Zubair Abid, Vasudeva Varma(参考訳) web上の悪質で敵対的なコンテンツや、特にソーシャルメディア上のコンテンツの特定は、近年では重要な関心事となっている。 ますます人気が高まっている中、トランスフォーマーベースのエンコーダモデルの分類器ヘッドによる微調整が、徐々に自然言語分類タスクの新たなベースラインになりつつある。 本稿では、Transformerベースのアーキテクチャを微調整する前に、タスク適応事前学習(TAPT)に起因する利得について検討する。 具体的には、(a)ヒンディー語のツイートの粗い二分分類を敵対的か否か、(b)ツイートのきめ細かい多重ラベル分類を4つのカテゴリ(ヘイト、フェイク、アサルト、デマネーション)に分類する。 絵文字とセグメント化されたハッシュタグを分類に取り入れたアーキテクチャを構築すれば,TAPTによるパフォーマンス向上を実験的に示すことができる。 本システム(チーム名「iREL IIIT」)は, 粗粒度検出用F1スコア97.16%, 重み付きF1スコア62.96%で, 得られたブラインドテストコーパス上での細粒度多ラベル分類用F1スコアで第1位となった。

Identifying adverse and hostile content on the web and more particularly, on social media, has become a problem of paramount interest in recent years. With their ever increasing popularity, fine-tuning of pretrained Transformer-based encoder models with a classifier head are gradually becoming the new baseline for natural language classification tasks. In our work, we explore the gains attributed to Task Adaptive Pretraining (TAPT) prior to fine-tuning of Transformer-based architectures. We specifically study two problems, namely, (a) Coarse binary classification of Hindi Tweets into Hostile or Not, and (b) Fine-grained multi-label classification of Tweets into four categories: hate, fake, offensive, and defamation. Building up on an architecture which takes emojis and segmented hashtags into consideration for classification, we are able to experimentally showcase the performance upgrades due to TAPT. Our system (with team name 'iREL IIIT') ranked first in the 'Hostile Post Detection in Hindi' shared task with an F1 score of 97.16% for coarse-grained detection and a weighted F1 score of 62.96% for fine-grained multi-label classification on the provided blind test corpora.
翻訳日:2021-04-09 09:23:55 公開日:2021-01-09
# (参考訳) 推薦のための自然言語記述の生成 [全文訳有]

Generate Natural Language Explanations for Recommendation ( http://arxiv.org/abs/2101.03392v1 )

ライセンス: CC BY 4.0
Hanxiong Chen, Xu Chen, Shaoyun Shi, Yongfeng Zhang(参考訳) レコメンデーションにパーソナライズされた説明を提供することは、レコメンデーション結果の基盤となる洞察を理解するのに役立ち、レコメンデーションシステムの有効性、透明性、説得力、信頼性に役立ちます。 現在の説明可能なレコメンデーションモデルは、主に定義済みの文テンプレートに基づいてテキストの説明を生成する。 しかし、テンプレートに基づく説明文の表現力は予め定義された表現に限られており、手動で表現を定義するにはかなりの努力が必要である。 この問題に動機づけられて,パーソナライズドレコメンデーションのための自由テキスト自然言語説明の作成を提案する。 特に、パーソナライズされた説明生成のための階層列列列モデル(HSS)を提案する。 nlp研究における従来の文生成とは異なり、電子商取引推奨における説明生成の大きな課題は、ユーザーレビューのすべての文が説明目的であるとは限らないことである。 そこで本研究では,文生成のための話題項目特徴語に基づく自動復号化機構を提案する。 各種電子商取引製品ドメインの実験から,提案手法は推奨精度の向上だけでなく,オフライン対策や特徴語カバレッジの観点からも説明品質の向上が期待できる。 この研究は、知的エージェントに自然言語文に基づいて自己を説明する能力を与える最初のステップの1つである。

Providing personalized explanations for recommendations can help users to understand the underlying insight of the recommendation results, which is helpful to the effectiveness, transparency, persuasiveness and trustworthiness of recommender systems. Current explainable recommendation models mostly generate textual explanations based on pre-defined sentence templates. However, the expressiveness power of template-based explanation sentences are limited to the pre-defined expressions, and manually defining the expressions require significant human efforts. Motivated by this problem, we propose to generate free-text natural language explanations for personalized recommendation. In particular, we propose a hierarchical sequence-to-sequence model (HSS) for personalized explanation generation. Different from conventional sentence generation in NLP research, a great challenge of explanation generation in e-commerce recommendation is that not all sentences in user reviews are of explanation purpose. To solve the problem, we further propose an auto-denoising mechanism based on topical item feature words for sentence generation. Experiments on various e-commerce product domains show that our approach can not only improve the recommendation accuracy, but also the explanation quality in terms of the offline measures and feature words coverage. This research is one of the initial steps to grant intelligent agents with the ability to explain itself based on natural language sentences.
翻訳日:2021-04-09 09:16:49 公開日:2021-01-09
# (参考訳) 小分子創薬のための量子生成モデル [全文訳有]

Quantum Generative Models for Small Molecule Drug Discovery ( http://arxiv.org/abs/2101.03438v1 )

ライセンス: CC BY 4.0
Junde Li, Rasit Topaloglu, Swaroop Ghosh(参考訳) 既存の医薬品発見パイプラインには5~10年かかり、数十億ドルの費用がかかる。 計算的アプローチは、化学空間と呼ばれる分子および固体化合物全体の領域から1060の順にサンプリングすることを目的としている。 深い生成モデルは、薬物の物理的構造と性質の両方の基盤となる確率分布をモデル化し、それらを非線形に関連付けることができる。 大量のデータセットのパターンを活用することで、これらのモデルは分子を特徴づける健全な特徴を抽出することができる。 GAN(Generative Adversarial Networks)は、化学的および物理的性質に従う分子構造を生成し、標的疾患の受容体との結合に親和性を示すことによって、薬物候補を発見する。 しかし、古典的なガンは化学空間の特定の領域を探索することはできず、次元の呪いに苦しむ。 完全な量子GANは、QM9のような小さな分子を生成するのに90量子ビット以上を必要とする。 本稿では、量子ビット効率の高い量子GANとハイブリッドジェネレータ(QGAN-HG)を併用した量子GANを提案し、古典的なGANよりも効率の良い量子ビット数が少ない指数的に大きな化学空間を探索することで分子のより豊かな表現を学習する。 QGANHGモデルは、様々な量子ビットと量子回路層をサポートするハイブリッド量子発生器と、古典的な判別器で構成されている。 14.93%しか保持されていないQGAN-HGは、古典的なパラメータと同様に効率的に分子分布を学習することができる。 パッチ回路によるQGAN-HGの変動は、私たちの標準的なQGANHGトレーニングプロセスを大幅に加速し、ディープニューラルネットワークの潜在的な勾配の消滅を回避する。 コードはgithub https://github.com/j undeli/quantum-ganで入手できる。

Existing drug discovery pipelines take 5-10 years and cost billions of dollars. Computational approaches aim to sample from regions of the whole molecular and solid-state compounds called chemical space which could be on the order of 1060 . Deep generative models can model the underlying probability distribution of both the physical structures and property of drugs and relate them nonlinearly. By exploiting patterns in massive datasets, these models can distill salient features that characterize the molecules. Generative Adversarial Networks (GANs) discover drug candidates by generating molecular structures that obey chemical and physical properties and show affinity towards binding with the receptor for a target disease. However, classical GANs cannot explore certain regions of the chemical space and suffer from curse-of-dimensional ity. A full quantum GAN may require more than 90 qubits even to generate QM9-like small molecules. We propose a qubit-efficient quantum GAN with a hybrid generator (QGAN-HG) to learn richer representation of molecules via searching exponentially large chemical space with few qubits more efficiently than classical GAN. The QGANHG model is composed of a hybrid quantum generator that supports various number of qubits and quantum circuit layers, and, a classical discriminator. QGAN-HG with only 14.93% retained parameters can learn molecular distribution as efficiently as classical counterpart. The QGAN-HG variation with patched circuits considerably accelerates our standard QGANHG training process and avoids potential gradient vanishing issue of deep neural networks. Code is available on GitHub https://github.com/j undeli/quantum-gan.
翻訳日:2021-04-09 08:43:54 公開日:2021-01-09
# (参考訳) ニンニクを食べると新型コロナウイルス感染が防げる―twitterのアラビア語コンテンツの誤情報検出 [全文訳有]

Eating Garlic Prevents COVID-19 Infection: Detecting Misinformation on the Arabic Content of Twitter ( http://arxiv.org/abs/2101.05626v1 )

ライセンス: CC BY 4.0
Sarah Alqurashi, Btool Hamoui, Abdulaziz Alashaikh, Ahmad Alhindi, Eisa Alanazi(参考訳) 現在のパンデミックにおけるソーシャルメディアコンテンツの急速な成長は、誤報の根源となった情報を広めるための有用なツールを提供する。 そのため,ソーシャルメディアにおける誤情報検出には,ファクトチェックや効果的な手法が必要である。 本研究では,twitterのアラビア語コンテンツにおける誤情報について検討する。 私たちは、covid-19の誤った情報に関連する大きなアラビア語データセットを構築し、そのツイートを2つのカテゴリに分類します。 次に、単語埋め込みや単語頻度など、さまざまな機能を備えた8つの伝統的および深層機械学習モデルを適用する。 単語埋め込みモデル(\textsc{fasttext} と word2vec)は、covid-19に関連する200万以上のアラビア語ツイートを活用している。 実験により、曲線(AUC)下の領域を最適化することでモデルの性能が向上し、エクストリーム・グラディエント・ブースティング(XGBoost)は、オンラインで新型コロナウイルスの誤報を検出する上で最も正確であることが示されている。

The rapid growth of social media content during the current pandemic provides useful tools for disseminating information which has also become a root for misinformation. Therefore, there is an urgent need for fact-checking and effective techniques for detecting misinformation in social media. In this work, we study the misinformation in the Arabic content of Twitter. We construct a large Arabic dataset related to COVID-19 misinformation and gold-annotate the tweets into two categories: misinformation or not. Then, we apply eight different traditional and deep machine learning models, with different features including word embeddings and word frequency. The word embedding models (\textsc{FastText} and word2vec) exploit more than two million Arabic tweets related to COVID-19. Experiments show that optimizing the area under the curve (AUC) improves the models' performance and the Extreme Gradient Boosting (XGBoost) presents the highest accuracy in detecting COVID-19 misinformation online.
翻訳日:2021-04-09 08:27:50 公開日:2021-01-09
# (参考訳) CORD-19コーパスにおける候補治療の短期的言語動態の追跡 [全文訳有]

Tracking Short-Term Temporal Linguistic Dynamics to Characterize Candidate Therapeutics for COVID-19 in the CORD-19 Corpus ( http://arxiv.org/abs/2101.11710v1 )

ライセンス: CC BY 4.0
James Powell and Kari Sentz(参考訳) 科学文献は、特定の分野への資金提供や興味の関数として成長しがちである。 そのような文献の採掘は、すぐには明らかでない傾向を明らかにすることができる。 cord-19コーパスは、covid-19に関連する科学文献の集合体である。 本研究は,CORD-19コーパスの経時的症例と薬物補充試験で同定された一連の治療薬の交叉について検討し,経時的変化の発見と測定が可能かを検討した。 研究の早い段階で新規候補治療法の事前スクリーニングを行うためのツールの基礎となる手法を提案する。

Scientific literature tends to grow as a function of funding and interest in a given field. Mining such literature can reveal trends that may not be immediately apparent. The CORD-19 corpus represents a growing corpus of scientific literature associated with COVID-19. We examined the intersection of a set of candidate therapeutics identified in a drug-repurposing study with temporal instances of the CORD-19 corpus to determine if it was possible to find and measure changes associated with them over time. We propose that the techniques we used could form the basis of a tool to pre-screen new candidate therapeutics early in the research process.
翻訳日:2021-04-09 07:37:15 公開日:2021-01-09
# まだいるのか? 具体的指導追従における局所化の学習

Are We There Yet? Learning to Localize in Embodied Instruction Following ( http://arxiv.org/abs/2101.03431v1 )

ライセンス: Link先を確認
Shane Storks, Qiaozi Gao, Govind Thattai, Gokhan Tur(参考訳) 具体化命令の追従は、エージェントが複雑な言語と視覚入力から目標環境状態を達成するために一連の原始的なアクションを推測する必要がある難しい問題である。 リアル環境とディレクティブ(alfred)からのアクション学習(action learning from real environments and directives)は、この問題の最近提案されたベンチマークであり、究極のハイレベルな目標を達成するための、ステップバイステップの自然言語命令からなる。 このタスクの主な課題は、ターゲット位置のローカライズ、視覚入力によるナビゲーション、オブジェクトの視覚的外観に対する言語命令の接地である。 これらの課題に対処するため、本研究では、複数の視角を持つナビゲーションサブゴールにおいて、エージェントの視野を拡大し、各時刻における目標位置との相対空間関係を予測するようエージェントに訓練する。 また,モデルパイプラインに事前学習されたオブジェクト検出モジュールを導入することで,言語グランド化を改善する。 実験により,本手法がベースラインモデル性能を上回ることが示された。

Embodied instruction following is a challenging problem requiring an agent to infer a sequence of primitive actions to achieve a goal environment state from complex language and visual inputs. Action Learning From Realistic Environments and Directives (ALFRED) is a recently proposed benchmark for this problem consisting of step-by-step natural language instructions to achieve subgoals which compose to an ultimate high-level goal. Key challenges for this task include localizing target locations and navigating to them through visual inputs, and grounding language instructions to visual appearance of objects. To address these challenges, in this study, we augment the agent's field of view during navigation subgoals with multiple viewing angles, and train the agent to predict its relative spatial relation to the target location at each timestep. We also improve language grounding by introducing a pre-trained object detection module to the model pipeline. Empirical studies show that our approach exceeds the baseline model performance.
翻訳日:2021-04-09 07:28:25 公開日:2021-01-09
# 雑音テキストの教師なし正規化アルゴリズム:情報検索とスタンス検出を事例として

An Unsupervised Normalization Algorithm for Noisy Text: A Case Study for Information Retrieval and Stance Detection ( http://arxiv.org/abs/2101.03303v1 )

ライセンス: Link先を確認
Anurag Roy, Shalmoli Ghosh, Kripabandhu Ghosh, Saptarshi Ghosh(参考訳) 現在利用可能なテキストデータの多くは、デジタル化された文書のOCRノイズ、マイクロブログサイトのユーザによる非公式な書き込みスタイルによるノイズなど、様々な種類の「ノイズ」を含んでいる。 検索/検索やすべての利用可能なデータの分類などのタスクを可能にするためには、テキストの正規化、すなわちテキスト内の様々な種類のノイズを浄化するための堅牢なアルゴリズムが必要である。 ノイズの多いテキストのクリーニングや正規化への取り組みはいくつかあるが、既存のテキスト正規化手法の多くは、言語に依存したリソースや、入手が困難な大量のトレーニングデータを必要とする。 訓練データや人間の介入を必要としないテキスト正規化のための教師なしアルゴリズムを提案する。 提案アルゴリズムは、異なる言語上のテキストに適用でき、機械生成ノイズと人生成ノイズの両方を処理できる。 いくつかの標準データセットに対する実験により、提案アルゴリズムによるテキスト正規化は、複数のベースラインテキスト正規化手法と比較して、より良い検索と姿勢検出を可能にすることが示された。 アルゴリズムの実装はhttps://github.com/r anarag/unsupcleanで確認できます。

A large fraction of textual data available today contains various types of 'noise', such as OCR noise in digitized documents, noise due to informal writing style of users on microblogging sites, and so on. To enable tasks such as search/retrieval and classification over all the available data, we need robust algorithms for text normalization, i.e., for cleaning different kinds of noise in the text. There have been several efforts towards cleaning or normalizing noisy text; however, many of the existing text normalization methods are supervised and require language-dependent resources or large amounts of training data that is difficult to obtain. We propose an unsupervised algorithm for text normalization that does not need any training data / human intervention. The proposed algorithm is applicable to text over different languages, and can handle both machine-generated and human-generated noise. Experiments over several standard datasets show that text normalization through the proposed algorithm enables better retrieval and stance detection, as compared to that using several baseline text normalization methods. Implementation of our algorithm can be found at https://github.com/r anarag/UnsupClean.
翻訳日:2021-04-09 07:28:06 公開日:2021-01-09
# 医用画像レポート作成のための関係文の統一と検索

Unifying Relational Sentence Generation and Retrieval for Medical Image Report Composition ( http://arxiv.org/abs/2101.03287v1 )

ライセンス: Link先を確認
Fuyu Wang and Xiaodan Liang and Lin Xu and Liang Lin(参考訳) 従来のキャプションタスクにおける長文・トピックコヒーレントな段落の生成に加えて、医用画像レポート作成タスクは、高精度な医療用語診断と、印象や発見を含む多種多様な情報の両方を必要とすることにより、タスク指向の課題を提起する。 現在の手法では、各ケースのデータセットバイアスによって、キーエンティティや関係性を適切に捉えているかどうかに関わらず、最も一般的な文を生成することが多い。 このような制限は、比較的稀な異常な疾患の記述に最も批判的な文がある医療報告組成物における適用性と一般化能力を著しく阻害する。 さらに、ある報告に現れるいくつかの医療用語は、しばしば互いに絡み合っており、例えば、共起している。 特定の疾患に関連する症状。 最終報告に組み込む医療用語のセマンティック一貫性を強制し、稀な記述のための文生成を促進するために、検出された医療用語間のセマンティックコヒーレンシーを確保しつつ、一般的かつ稀な異常の両方を扱うテンプレート検索と文生成を統合する新しい枠組みを提案する。 具体的には,すべての異常な医学用語間の明示的な関係を生かして,視覚的注意学習とトピック表現のエンコーディングを誘導し,トピック指向の症状記述を改善すること,および,文脈的トピックエンコーダに従ってテンプレート検索と文生成の間に変化する適応生成モードを提案する。 2つの医療報告ベンチマークの実験結果は、人的・計量的評価の両面で提案された枠組みの優位性を示している。

Beyond generating long and topic-coherent paragraphs in traditional captioning tasks, the medical image report composition task poses more task-oriented challenges by requiring both the highly-accurate medical term diagnosis and multiple heterogeneous forms of information including impression and findings. Current methods often generate the most common sentences due to dataset bias for individual case, regardless of whether the sentences properly capture key entities and relationships. Such limitations severely hinder their applicability and generalization capability in medical report composition where the most critical sentences lie in the descriptions of abnormal diseases that are relatively rare. Moreover, some medical terms appearing in one report are often entangled with each other and co-occurred, e.g. symptoms associated with a specific disease. To enforce the semantic consistency of medical terms to be incorporated into the final reports and encourage the sentence generation for rare abnormal descriptions, we propose a novel framework that unifies template retrieval and sentence generation to handle both common and rare abnormality while ensuring the semantic-coherency among the detected medical terms. Specifically, our approach exploits hybrid-knowledge co-reasoning: i) explicit relationships among all abnormal medical terms to induce the visual attention learning and topic representation encoding for better topic-oriented symptoms descriptions; ii) adaptive generation mode that changes between the template retrieval and sentence generation according to a contextual topic encoder. Experimental results on two medical report benchmarks demonstrate the superiority of the proposed framework in terms of both human and metrics evaluation.
翻訳日:2021-04-09 07:27:47 公開日:2021-01-09
# LightXML: ハイパフォーマンスなマルチラベルテキスト分類のための動的負サンプリング付きトランス

LightXML: Transformer with Dynamic Negative Sampling for High-Performance Extreme Multi-label Text Classification ( http://arxiv.org/abs/2101.03305v1 )

ライセンス: Link先を確認
Ting Jiang, Deqing Wang, Leilei Sun, Huayi Yang, Zhengyang Zhao, Fuzhen Zhuang(参考訳) Extreme Multi-label text Classification (XMC)は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。 近年、深層学習に基づく手法はXMCにおいて大きな成功を収めている。 しかし、既存の方法(例えば attentionxml や x-transformer など)では、1つのデータセットのトレーニングと予測のために複数のモデルを組み合わせたり、ラベルのランク付けモデルのトレーニング中に負のラベルを静的にサンプリングしたりするなど、モデルの効率と精度を低下させる。 上記の問題に対処するため、私たちはエンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案しました。 lightxmlでは、ラベルリコール部が負のラベルと正のラベルを生成し、ラベルランキング部がこれらのラベルと正のラベルを区別する、ラベルのリコールとランク付けにジェネレーティブ協調ネットワークを使用する。 これらのネットワークを通じて、同じテキスト表現を供給してラベルランキングパートトレーニング中に、負のラベルを動的にサンプリングする。 広範な実験により、lightxmlは5つの極端なマルチラベルデータセットで最先端のメソッドよりもずっと小さいモデルサイズと計算の複雑さで優れています。 特に670Kラベルを持つAmazonデータセットでは、LightXMLはAttentionXMLと比較してモデルサイズを最大72%削減できる。

Extreme Multi-label text Classification (XMC) is a task of finding the most relevant labels from a large label set. Nowadays deep learning-based methods have shown significant success in XMC. However, the existing methods (e.g., AttentionXML and X-Transformer etc) still suffer from 1) combining several models to train and predict for one dataset, and 2) sampling negative labels statically during the process of training label ranking model, which reduces both the efficiency and accuracy of the model. To address the above problems, we proposed LightXML, which adopts end-to-end training and dynamic negative labels sampling. In LightXML, we use generative cooperative networks to recall and rank labels, in which label recalling part generates negative and positive labels, and label ranking part distinguishes positive labels from these labels. Through these networks, negative labels are sampled dynamically during label ranking part training by feeding with the same text representation. Extensive experiments show that LightXML outperforms state-of-the-art methods in five extreme multi-label datasets with much smaller model size and lower computational complexity. In particular, on the Amazon dataset with 670K labels, LightXML can reduce the model size up to 72% compared to AttentionXML.
翻訳日:2021-04-09 07:27:18 公開日:2021-01-09
# 深層学習による大腸内視鏡ビデオからのポリープの検出・局在化・分類

Detecting, Localising and Classifying Polyps from Colonoscopy Videos using Deep Learning ( http://arxiv.org/abs/2101.03285v1 )

ライセンス: Link先を確認
Yu Tian, Leonardo Zorron Cheng Tao Pu, Yuyuan Liu, Gabriel Maicas, Johan W. Verjans, Alastair D. Burt, Seon Ho Shin, Rajvinder Singh, Gustavo Carneiro(参考訳) 本稿では,大腸内視鏡画像からポリープを自動的に検出し,ローカライズし,分類するシステムを提案する。 ポリープを用いたフレームの検出は、トレーニングセットが通常画像を含むフレームとポリプを有するフレームからなる少数派フレームの大多数と高度にバランスのとれた、少数ショットの異常分類問題として定式化されている。 大腸内視鏡ビデオには、大腸をきれいにするために便と水ジェットスプレーを表示するぼやけた画像やフレームが含まれており、そのようなフレームは誤って異常として検出できるため、ポリプ検出が行われる前にこれらの2種類のフレームを拒否する分類器を実装した。 次に、ポリプを含むフレームが与えられると、このメソッドは(ポリプの周りのバウンディングボックスで)ローカライズし、それを5つの異なるクラスに分類する。 さらに,不確実性推定と分類校正を用いた分類結果の信頼性と解釈性を向上させる手法について検討した。 分類の不確実性と校正は、低い信頼度と高い判定結果を拒否して分類精度を向上させるだけでなく、医師がポリプの分類を決定する方法を決定するのに使うことができる。 提案手法は, 大規模データセットを用いて検出, 局所化, 分類を行い, 関連するベースライン手法と比較した。

In this paper, we propose and analyse a system that can automatically detect, localise and classify polyps from colonoscopy videos. The detection of frames with polyps is formulated as a few-shot anomaly classification problem, where the training set is highly imbalanced with the large majority of frames consisting of normal images and a small minority comprising frames with polyps. Colonoscopy videos may contain blurry images and frames displaying feces and water jet sprays to clean the colon -- such frames can mistakenly be detected as anomalies, so we have implemented a classifier to reject these two types of frames before polyp detection takes place. Next, given a frame containing a polyp, our method localises (with a bounding box around the polyp) and classifies it into five different classes. Furthermore, we study a method to improve the reliability and interpretability of the classification result using uncertainty estimation and classification calibration. Classification uncertainty and calibration not only help improve classification accuracy by rejecting low-confidence and high-uncertain results, but can be used by doctors to decide how to decide on the classification of a polyp. All the proposed detection, localisation and classification methods are tested using large data sets and compared with relevant baseline approaches.
翻訳日:2021-04-09 07:26:37 公開日:2021-01-09
# ランドサット8画像におけるアクティブ火災検知:大規模データセットと深層学習研究

Active Fire Detection in Landsat-8 Imagery: a Large-Scale Dataset and a Deep-Learning Study ( http://arxiv.org/abs/2101.03409v1 )

ライセンス: Link先を確認
Gabriel Henrique de Almeida Pereira and Andr\'e Minoro Fusioka and Bogdan Tomoyuki Nassu and Rodrigo Minetto(参考訳) 衛星画像におけるアクティブ火災検知は, 環境保全政策の管理, 意思決定, 法執行を支援する上で重要である。 これはよく確立された分野であり、多くの技術が長年にわたって提案され、通常はセンサー固有の閾値と近傍統計を含むピクセルや領域レベルの比較に基づいている。 本稿では,ディープラーニング技術を用いたアクティブ火災検知の問題点に対処する。 近年、ディープラーニング技術は多くの分野で大きな成功を収めているが、アクティブな火災検知には比較的新しく、オープンな質問や評価のためのデータセットやアーキテクチャの需要がある。 本稿は,2020年8月から9月にかけて世界中で撮影されたランドサット8号の画像から15万枚以上の画像パッチ(200GB以上のデータ)を抽出し,いくつかの場所での山火事を含む大規模火災検出データセットを導入することで,これらの課題に対処する。 データセットは2つの部分に分けられ、関連する出力を持つ10バンドのスペクトル画像を含み、第1部でアクティブな火災検知のための3つのよく知られた手作りアルゴリズムと第2部で手動でアノテートされたマスクによって生成される。 また、これらの手作りアルゴリズムを近似するために、異なる畳み込みニューラルネットワークアーキテクチャをどのように利用するか、そして、自動セグメント化されたパッチでトレーニングされたモデルを組み合わせることで、元のアルゴリズムよりも優れたパフォーマンスを達成する方法についての研究も行っています。 提案されたデータセット、ソースコード、トレーニングされたモデルはgithubで入手できる(https://github.com/ pereira-gha/activefi re)。

Active fire detection in satellite imagery is of critical importance to the management of environmental conservation policies, supporting decision-making and law enforcement. This is a well established field, with many techniques being proposed over the years, usually based on pixel or region-level comparisons involving sensor-specific thresholds and neighborhood statistics. In this paper, we address the problem of active fire detection using deep learning techniques. In recent years, deep learning techniques have been enjoying an enormous success in many fields, but their use for active fire detection is relatively new, with open questions and demand for datasets and architectures for evaluation. This paper addresses these issues by introducing a new large-scale dataset for active fire detection, with over 150,000 image patches (more than 200 GB of data) extracted from Landsat-8 images captured around the world in August and September 2020, containing wildfires in several locations. The dataset was split in two parts, and contains 10-band spectral images with associated outputs, produced by three well known handcrafted algorithms for active fire detection in the first part, and manually annotated masks in the second part. We also present a study on how different convolutional neural network architectures can be used to approximate these handcrafted algorithms, and how models trained on automatically segmented patches can be combined to achieve better performance than the original algorithms - with the best combination having 87.2% precision and 92.4% recall on our manually annotated dataset. The proposed dataset, source codes and trained models are available on Github (https://github.com/ pereira-gha/activefi re), creating opportunities for further advances in the field
翻訳日:2021-04-09 07:26:13 公開日:2021-01-09
# エンドツーエンドのバックプロパゲーションのないディープラーニングのトレーニング: 簡単な調査

Training Deep Architectures Without End-to-End Backpropagation: A Brief Survey ( http://arxiv.org/abs/2101.03419v1 )

ライセンス: Link先を確認
Shiyu Duan and Jose C. Principe(参考訳) このチュートリアルでは、ディープラーニングをトレーニングするためのデファクトスタンダードであるエンドツーエンドのバックプロパゲーション(E2EBP)に代わるトレーニング方法について調査する。 モジュールトレーニング(Modular training)とは、深層アーキテクチャを複数の非重複モジュールに分割し、エンド・ツー・エンド操作なしで個別にトレーニングすることである。 完全にグローバルなE2EBPと厳密なローカルなモジュラートレーニングの間には、後方パスのみなしでトレーニングを行う"弱いモジュラー"ハイブリッドが存在する。 これらの代替手段は、ImageNetのような挑戦的なデータセットでE2EBPのパフォーマンスに匹敵するか、上回る可能性がある。 特に、ディープラーニングワークフローにおけるモジュール化と透明性の向上を可能にし、ディープラーニングをスケーラビリティのためにモジュール化を大いに活用する主流のコンピュータサイエンスエンジニアリングと整合させる。 モジュールトレーニングはまた、学習に関する新しい洞察を明らかにし、他の重要な研究領域にさらに影響を及ぼす可能性がある。 具体的には、データ効率や転送可能性推定など、いくつかの重要な実用的な問題に対して、自然かつ効果的なソリューションを誘導する。

This tutorial paper surveys training alternatives to end-to-end backpropagation (E2EBP) -- the de facto standard for training deep architectures. Modular training refers to strictly local training without both the forward and the backward pass, i.e., dividing a deep architecture into several nonoverlapping modules and training them separately without any end-to-end operation. Between the fully global E2EBP and the strictly local modular training, there are "weakly modular" hybrids performing training without the backward pass only. These alternatives can match or surpass the performance of E2EBP on challenging datasets such as ImageNet, and are gaining increased attention primarily because they offer practical advantages over E2EBP, which will be enumerated herein. In particular, they allow for greater modularity and transparency in deep learning workflows, aligning deep learning with the mainstream computer science engineering that heavily exploits modularization for scalability. Modular training has also revealed novel insights about learning and may have further implications on other important research domains. Specifically, it induces natural and effective solutions to some important practical problems such as data efficiency and transferability estimation.
翻訳日:2021-04-09 07:25:16 公開日:2021-01-09
# マルチセンサ検出予測モデルにおけるセンサモードの影響の検討

Investigating the Effect of Sensor Modalities in Multi-Sensor Detection-Prediction Models ( http://arxiv.org/abs/2101.03279v1 )

ライセンス: Link先を確認
Abhishek Mohta, Fang-Chieh Chou, Brian C. Becker, Carlos Vallespi-Gonzalez, Nemanja Djuric(参考訳) 周囲物体の検出とその運動予測は、自動運転システムの重要な構成要素である。 最近提案された、これらのタスクを共同で処理するモデルは、最先端のパフォーマンスを達成するために多くのセンサーに依存している。 しかし、これによってシステムの複雑さが増大し、単一のセンサーのモダリティに過度に適合する不安定なモデルが得られ、一般化は減少する。 この重要な問題に焦点をあて、モデル性能に対するセンサモードの寄与を分析する。 さらに,センサドロップアウトを用いて上記の問題を緩和し,実世界の運転データに対してより堅牢で優れた性能のモデルを実現する。

Detection of surrounding objects and their motion prediction are critical components of a self-driving system. Recently proposed models that jointly address these tasks rely on a number of sensors to achieve state-of-the-art performance. However, this increases system complexity and may result in a brittle model that overfits to any single sensor modality while ignoring others, leading to reduced generalization. We focus on this important problem and analyze the contribution of sensor modalities towards the model performance. In addition, we investigate the use of sensor dropout to mitigate the above-mentioned issues, leading to a more robust, better-performing model on real-world driving data.
翻訳日:2021-04-09 07:24:57 公開日:2021-01-09
# モデル検証とプルーフオブステイクインスパイアコンセンサスを用いたロバストなブロックチェーン型フェデレーション学習

Robust Blockchained Federated Learning with Model Validation and Proof-of-Stake Inspired Consensus ( http://arxiv.org/abs/2101.03300v1 )

ライセンス: Link先を確認
Hang Chen, Syed Ali Asif, Jihong Park, Chien-Chung Shen, Mehdi Bennis(参考訳) フェデレーション学習(federated learning, fl)は,生データを明かすことなくモデルパラメータのみを交換する,有望な分散学習ソリューションである。 しかしながら、flの集中型アーキテクチャは単一障害点に対して脆弱である。 加えて、FLはローカルモデルの正当性を検証していないため、少数の悪意のあるデバイスでさえ、世界的なトレーニングを妨害する可能性がある。 本稿では、これらのFLの堅牢性問題を解決するために、ブロックチェーンアーキテクチャにおける2つのメカニズムを活用することにより、VBFLと呼ばれるブロックチェーンベースの分散FLフレームワークを提案する。 まず,ローカルモデル更新の正当性を個別の検証者によって検証できるように,分散検証機構を新たに導入した。 第2に,ブロックチェーンに付加されるブロックを判断する可能性を高めて,正当性のあるローカルモデル更新を保護する,ストレートなデバイスに対する利害関係をより頻繁に報奨する,専用の概念実証コンセンサス機構を設計した。 これらのソリューションは、正当性のあるデバイス内でのさらなるフェデレーションを促進し、堅牢なFLを可能にする。 MNIST分類のエミュレーション結果は、悪意のあるデバイスの15%で、VBFLは87%の精度で、Vanilla FLより7.4倍高い。

Federated learning (FL) is a promising distributed learning solution that only exchanges model parameters without revealing raw data. However, the centralized architecture of FL is vulnerable to the single point of failure. In addition, FL does not examine the legitimacy of local models, so even a small fraction of malicious devices can disrupt global training. To resolve these robustness issues of FL, in this paper, we propose a blockchain-based decentralized FL framework, termed VBFL, by exploiting two mechanisms in a blockchained architecture. First, we introduced a novel decentralized validation mechanism such that the legitimacy of local model updates is examined by individual validators. Second, we designed a dedicated proof-of-stake consensus mechanism where stake is more frequently rewarded to honest devices, which protects the legitimate local model updates by increasing their chances of dictating the blocks appended to the blockchain. Together, these solutions promote more federation within legitimate devices, enabling robust FL. Our emulation results of the MNIST classification corroborate that with 15% of malicious devices, VBFL achieves 87% accuracy, which is 7.4x higher than Vanilla FL.
翻訳日:2021-04-09 07:24:45 公開日:2021-01-09
# Covid-19のフェイクニュースとソーシャルメディアにおける敵対的ポスト検出

Combating Hostility: Covid-19 Fake News and Hostile Post Detection in Social Media ( http://arxiv.org/abs/2101.03291v1 )

ライセンス: Link先を確認
Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque(参考訳) 本稿では,AAAI-2021におけるConSTRAINT共有タスクへの参加の一環として開発されたシステムとその成果について詳述する。 共有タスクは2つのタスクから構成される: a) COVID19 フェイクニュース検出 (英語 b) ヒンディー語での敵対的ポスト検出。 Task-Aは偽クラスと実クラスのバイナリ分類問題であり、Task-Bは5つの敵対クラス(すなわち)を持つマルチラベルのマルチクラス分類問題である。 deame, fake, hate, offense, non-hostile) SVM, CNN, BiLSTM, CNN+BiLSTM など, tf-idf と Word2Vec を組み込んだ様々な手法を用いて分類処理を行う。 その結果、tf-idf機能を持つSVMは、タスクAにおけるテストセットで94.39%の重み付き$f_1$スコアを達成した。 n-gram の特徴を持つラベルパワーセット SVM は、タスク-B テストセットでそれぞれ86.03% と 50.98% の粗い粒度と細かい粒度の $f_1$ スコアを得た。

This paper illustrates a detail description of the system and its results that developed as a part of the participation at CONSTRAINT shared task in AAAI-2021. The shared task comprises two tasks: a) COVID19 fake news detection in English b) Hostile post detection in Hindi. Task-A is a binary classification problem with fake and real class, while task-B is a multi-label multi-class classification task with five hostile classes (i.e. defame, fake, hate, offense, non-hostile). Various techniques are used to perform the classification task, including SVM, CNN, BiLSTM, and CNN+BiLSTM with tf-idf and Word2Vec embedding techniques. Results indicate that SVM with tf-idf features achieved the highest 94.39% weighted $f_1$ score on the test set in task-A. Label powerset SVM with n-gram features obtained the maximum coarse-grained and fine-grained $f_1$ score of 86.03% and 50.98% on the task-B test set respectively.
翻訳日:2021-04-09 07:24:24 公開日:2021-01-09
# 構文情報を用いた文表現の学習

Learning Better Sentence Representation with Syntax Information ( http://arxiv.org/abs/2101.03343v1 )

ライセンス: Link先を確認
Chen Yang (University of Science and Technology of China)(参考訳) 文の意味理解は自然言語処理の分野で重要なトピックである。 近年,ELMO や BERT などの事前訓練された言語モデルから派生した文脈的単語表現は,幅広い意味的タスクにおいて顕著に改善されている。 質問応答、テキスト分類、感情分析。 しかし、モデルのセマンティックモデリング能力をさらに改善するために外部知識を追加するには、検討する価値がある。 本稿では,構文情報と事前学習された言語モデルを組み合わせた新しい手法を提案する。 まず, 事前学習モデルの効果を評価するために, rnnとtransformerを用いた事前学習言語モデルを導入し, 第二に, 事前学習モデルと統合した構文情報など, 外部知識の統合性を向上させるため, 依存性構文拡張(dse)モデルを提案する。 評価のために,文完成タスクと生物関係抽出タスクの2つのサブタスクを選択した。 実験の結果,本モデルは91.2\%の精度を達成し,文補完タスクでは37.8\%の精度でベースラインモデルを上回った。 また、関係抽出タスクにおいて75.1\%$f_{1}$スコアの競合性能を得る。

Sentence semantic understanding is a key topic in the field of natural language processing. Recently, contextualized word representations derived from pre-trained language models such as ELMO and BERT have shown significant improvements for a wide range of semantic tasks, e.g. question answering, text classification and sentiment analysis. However, how to add external knowledge to further improve the semantic modeling capability of model is worth probing. In this paper, we propose a novel approach to combining syntax information with a pre-trained language model. In order to evaluate the effect of the pre-training model, first, we introduce RNN-based and Transformer-based pre-trained language models; secondly, to better integrate external knowledge, such as syntactic information integrate with the pre-training model, we propose a dependency syntax expansion (DSE) model. For evaluation, we have selected two subtasks: sentence completion task and biological relation extraction task. The experimental results show that our model achieves 91.2\% accuracy, outperforming the baseline model by 37.8\% on sentence completion task. And it also gets competitive performance by 75.1\% $F_{1}$ score on relation extraction task.
翻訳日:2021-04-09 07:24:03 公開日:2021-01-09
# 一般化ゼロショット学習のためのエントロピーに基づく不確かさ校正

Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2101.03292v1 )

ライセンス: Link先を確認
Zhi Chen, Zi Huang, Jingjing Li, Zheng Zhang(参考訳) 一般ゼロショット学習 (gzsl) は, 既定のゼロショット学習 (zsl) が主目的あるいは唯一の目的であるのに対し, 一般ゼロショット学習 (gzsl) の目標は, 視認クラスと視認クラスの両方を認識することである。 ほとんどのGZSLメソッドは、通常、目に見えないクラスのセマンティック情報から視覚表現を合成することを学ぶ。 しかし、これらのタイプのモデルは見掛けられたクラスを過度に満たす傾向にあり、見掛けられたクラスと見当たらないクラスの生成されたフィーチャの間で分布の重なりが生じる。 重なり合う領域は、モデルが重なり合う部分からテストケースが見えるか見えないかを決定するのに苦労するため不確実性に満ちている。 さらに、これらの生成方法はスパーストレーニングサンプルのシナリオに苦しむ。 モデルは高次元の視覚的特徴の分布を学習するのに苦労し、したがって最も差別的なクラス間特徴を捉えられなかった。 本稿では,二変分オートエンコーダと三重項損失を利用して識別潜在特徴を学習し,エントロピーに基づくキャリブレーションを適用し,両クラス間の重複領域の不確実性を最小化する手法を提案する。 特に、三重項損失合成を持つ双対生成モデルは、視覚空間または意味空間からマッピングできるクラス間の判別的潜在性特徴を持つ。 授業の不確実性を校正するために,一般分類器からソフトマックス確率分布のエントロピーを計算する。 このアプローチでは、目に見えないクラス内のサンプルを認識することは比較的簡単であり、見ないサンプルが重複した領域の見えないクラスに誤分類されるリスクは低い。 6つのベンチマークデータセットに関する広範な実験は、提案手法が最先端のアプローチよりも優れていることを示している。

Compared to conventional zero-shot learning (ZSL) where recognising unseen classes is the primary or only aim, the goal of generalized zero-shot learning (GZSL) is to recognise both seen and unseen classes. Most GZSL methods typically learn to synthesise visual representations from semantic information on the unseen classes. However, these types of models are prone to overfitting the seen classes, resulting in distribution overlap between the generated features of the seen and unseen classes. The overlapping region is filled with uncertainty as the model struggles to determine whether a test case from within the overlap is seen or unseen. Further, these generative methods suffer in scenarios with sparse training samples. The models struggle to learn the distribution of high dimensional visual features and, therefore, fail to capture the most discriminative inter-class features. To address these issues, in this paper, we propose a novel framework that leverages dual variational autoencoders with a triplet loss to learn discriminative latent features and applies the entropy-based calibration to minimize the uncertainty in the overlapped area between the seen and unseen classes. Specifically, the dual generative model with the triplet loss synthesises inter-class discriminative latent features that can be mapped from either visual or semantic space. To calibrate the uncertainty for seen classes, we calculate the entropy over the softmax probability distribution from a general classifier. With this approach, recognising the seen samples within the seen classes is relatively straightforward, and there is less risk that a seen sample will be misclassified into an unseen class in the overlapped region. Extensive experiments on six benchmark datasets demonstrate that the proposed method outperforms state-of-the-art approaches.
翻訳日:2021-04-09 07:23:45 公開日:2021-01-09
# FakeBuster:ビデオ会議シナリオのためのDeepFakes検出ツール

FakeBuster: A DeepFakes Detection Tool for Video Conferencing Scenarios ( http://arxiv.org/abs/2101.03321v1 )

ライセンス: Link先を確認
Vineet Mehta, Parul Gupta, Ramanathan Subramanian, and Abhinav Dhall(参考訳) 本稿では,ソーシャルメディア上での映像会議および顔操作におけるインポスタ検出のための新しいDeepFake検出器FakeBusterを提案する。 FakeBusterはスタンドアロンのディープラーニングベースのソリューションで、ビデオ会議ベースのミーティング中に、他人のビデオが操作されるか、偽造されるかを検出することができる。 このツールはビデオ会議ソリューションとは独立しており、ZoomやSkypeアプリケーションでテストされている。 3D畳み込みニューラルネットワークを使用して、ビデオセグメントワイドのフェイクネススコアを予測する。 ネットワークは、deepforensics、dfdc、voxceleb、deepfake videoなどのデータセットの組み合わせでトレーニングされ、ローカルにキャプチャされた(ビデオ会議シナリオのための)イメージを使って作成された。 これによりデータセットのさまざまな環境や摂動が発生し、ディープフェイクネットワークの一般化が向上する。

This paper proposes a new DeepFake detector FakeBuster for detecting impostors during video conferencing and manipulated faces on social media. FakeBuster is a standalone deep learning based solution, which enables a user to detect if another person's video is manipulated or spoofed during a video conferencing based meeting. This tool is independent of video conferencing solutions and has been tested with Zoom and Skype applications. It uses a 3D convolutional neural network for predicting video segment-wise fakeness scores. The network is trained on a combination of datasets such as Deeperforensics, DFDC, VoxCeleb, and deepfake videos created using locally captured (for video conferencing scenarios) images. This leads to different environments and perturbations in the dataset, which improves the generalization of the deepfake network.
翻訳日:2021-04-09 07:23:10 公開日:2021-01-09
# 識別ノイズロバストな直交ラベル回帰に基づくドメイン適応

Discriminative Noise Robust Sparse Orthogonal Label Regression-based Domain Adaptation ( http://arxiv.org/abs/2101.04563v1 )

ライセンス: Link先を確認
Lingkun Luo, Liming Chen, Shiqiang Hu(参考訳) ドメイン適応(DA)は、2つのドメイン間のデータ分散のミスマッチにもかかわらず、ソースドメインからトレーニングされた学習モデルがターゲットドメインで適切に一般化できるようにすることを目的としている。 最先端のDA手法は、ソースとターゲットのドメインデータを統計的または幾何学的に整列できる潜在共有特徴空間の探索に焦点を当てている。 本稿では,新しい教師なしda法,すなわち不明瞭なノイズロバストな正規直交ラベル回帰に基づくドメイン適応法(doll-da)を提案する。 提案するDOLL-DAは、ソースとターゲットのドメインデータがある共有特徴部分空間を、いくつかの反発力項の最適化により、統計的に識別的に整合すると同時に、ラベル埋め込みトリックを用いて、その直交データラベルを復元する新しい統合モデルから導かれる。 さらに,NRS_OLR(Noss Robust Sparse Orthogonal Label Regression)という用語を最小化する際には,負の転送を避けるためにデータアウトレーヤを明示的に考慮し,データラベルの回帰時に空間特性を導入する。 キャラクタ制限のためです。 詳細な要約は私たちの論文で読んでください。

Domain adaptation (DA) aims to enable a learning model trained from a source domain to generalize well on a target domain, despite the mismatch of data distributions between the two domains. State-of-the-art DA methods have so far focused on the search of a latent shared feature space where source and target domain data can be aligned either statistically and/or geometrically. In this paper, we propose a novel unsupervised DA method, namely Discriminative Noise Robust Sparse Orthogonal Label Regression-based Domain Adaptation (DOLL-DA). The proposed DOLL-DA derives from a novel integrated model which searches a shared feature subspace where source and target domain data are, through optimization of some repulse force terms, discriminatively aligned statistically, while at same time regresses orthogonally data labels thereof using a label embedding trick. Furthermore, in minimizing a novel Noise Robust Sparse Orthogonal Label Regression(NRS_OLR) term, the proposed model explicitly accounts for data outliers to avoid negative transfer and introduces the property of sparsity when regressing data labels. Due to the character restriction. Please read our detailed abstract in our paper.
翻訳日:2021-04-09 07:22:56 公開日:2021-01-09
# ドメイン不変の単一画像デハージングを目指して

Towards Domain Invariant Single Image Dehazing ( http://arxiv.org/abs/2101.10449v1 )

ライセンス: Link先を確認
Pranjay Shyam, Kuk-Jin Yoon and Kyung-Soo Kim(参考訳) 画像中のヘイズの存在は、正確な環境情報を必要とするアプリケーションでは望ましくない基礎となる情報を隠蔽する。 このような画像の復元には,回復領域と隣接領域との一貫性を確保しつつ,対象領域の局所化と復元を行う必要がある。 しかし、畳み込みカーネルの固定受容場や非均一なヘイズ分布のため、領域間の一貫性の確保は困難である。 本稿では,エンコーダ・デコーダをベースとしたネットワークアーキテクチャを用いて,従来のカーネルの受容領域を超えて,関心事の特徴を高めるために,空間的に認識されたチャネルアテンション機構を統合した。 様々なhaze密度におけるパフォーマンスの一貫性を確保するために,局所的なデータ拡張機構を用いた。 合成データセットは、通常、大量のペアトレーニングサンプルを確保するために使用されるが、そのようなサンプルを生成する手法は、均一なヘイズ分布のみを考慮し、非均一なヘイズ分布のより現実的なシナリオを見越しながら、それらと実際のイメージのギャップを導入する。 それにもかかわらず、合成データセット内のペアサンプルの豊富さは無視できない。 したがって、多様なデータセット間で性能の整合性を確保するため、生成した画像と低周波成分に依存した逆方向の事前誘導フレームワーク内で提案するネットワークをトレーニングし、デハズド画像の特性が地上の真実と一致するかどうかを判断する。 提案するフレームワークが多様なドメインにまたがるデハージングとドメイン不変性を検証するために,広範囲にわたる実験を行い,その成果を報告する。

Presence of haze in images obscures underlying information, which is undesirable in applications requiring accurate environment information. To recover such an image, a dehazing algorithm should localize and recover affected regions while ensuring consistency between recovered and its neighboring regions. However owing to fixed receptive field of convolutional kernels and non uniform haze distribution, assuring consistency between regions is difficult. In this paper, we utilize an encoder-decoder based network architecture to perform the task of dehazing and integrate an spatially aware channel attention mechanism to enhance features of interest beyond the receptive field of traditional conventional kernels. To ensure performance consistency across diverse range of haze densities, we utilize greedy localized data augmentation mechanism. Synthetic datasets are typically used to ensure a large amount of paired training samples, however the methodology to generate such samples introduces a gap between them and real images while accounting for only uniform haze distribution and overlooking more realistic scenario of non-uniform haze distribution resulting in inferior dehazing performance when evaluated on real datasets. Despite this, the abundance of paired samples within synthetic datasets cannot be ignored. Thus to ensure performance consistency across diverse datasets, we train the proposed network within an adversarial prior-guided framework that relies on a generated image along with its low and high frequency components to determine if properties of dehazed images matches those of ground truth. We preform extensive experiments to validate the dehazing and domain invariance performance of proposed framework across diverse domains and report state-of-the-art (SoTA) results.
翻訳日:2021-04-09 07:22:34 公開日:2021-01-09
# 解釈可能な多重治療歳入上昇モデル

Interpretable Multiple Treatment Revenue Uplift Modeling ( http://arxiv.org/abs/2101.03336v1 )

ライセンス: Link先を確認
Robin M. Gubela and Stefan Lessmann(参考訳) ビッグデータとビジネス分析は、ビジネスと社会変革の重要な要因である。 昇降モデルは、治療による顧客の行動の変化を予測することによって、企業の意思決定を支援する。 先行研究では、単一治療とバイナリ顧客の応答のモデルを調べます。 本稿は,複数の治療と連続的な結果に対する上昇モデルを開発することにより,対応するアプローチを拡張する。 これにより、一連の選択肢から最適な治療を選択し、継続的なスケールのビジネス成果の形で治療効果を見積もることができる。 もう一つの貢献は、昇降モデルの解釈可能性の評価から生じるが、先行研究は予測性能にのみ焦点をあてている。 これらの目標を達成するために,最近導入された因果学習アルゴリズムである因果林に基づいて,複数の治療に対する収益引き上げモデルを構築した。 2つの実世界のマーケティングデータセットを用いた実証実験は、ベンチマークや標準的なマーケティングプラクティスよりも提案されたモデリングアプローチの利点を示している。

Big data and business analytics are critical drivers of business and societal transformations. Uplift models support a firm's decision-making by predicting the change of a customer's behavior due to a treatment. Prior work examines models for single treatments and binary customer responses. The paper extends corresponding approaches by developing uplift models for multiple treatments and continuous outcomes. This facilitates selecting an optimal treatment from a set of alternatives and estimating treatment effects in the form of business outcomes of continuous scale. Another contribution emerges from an evaluation of an uplift model's interpretability, whereas prior studies focus almost exclusively on predictive performance. To achieve these goals, the paper develops revenue uplift models for multiple treatments based on a recently introduced algorithm for causal machine learning, the causal forest. Empirical experimentation using two real-world marketing data sets demonstrates the advantages of the proposed modeling approach over benchmarks and standard marketing practices.
翻訳日:2021-04-09 07:22:03 公開日:2021-01-09
# パーソナルモバイルアシスタントを支援するためのコンテキスト認識型アプリ選択と推奨

Context-Aware Target Apps Selection and Recommendation for Enhancing Personal Mobile Assistants ( http://arxiv.org/abs/2101.03394v1 )

ライセンス: Link先を確認
Mohammad Aliannejadi and Hamed Zamani and Fabio Crestani and W. Bruce Croft(参考訳) ユーザーは多くのアプリをスマートフォンにインストールし、ユーザーの情報過負荷やデバイスのリソース管理に関する問題を提起する。 さらに、最近のパーソナルアシスタントの利用の増加により、モバイルデバイスはユーザーの生活にさらに浸透している。 本稿では,アプリ選択とレコメンデーションという,効果的なパーソナル・モバイル・アシスタントの開発に不可欠な2つの研究課題に対処する。 前者は統合されたモバイル検索システムの主要なコンポーネントであり、統一されたアクセスモードでデバイスにインストールされたすべてのアプリに必要なユーザー情報を扱うシステムである。 後者は、ユーザーが起動したいであろう次のアプリを予測する。 ここでは,モバイルデバイスで利用可能なリッチなコンテキスト情報を活用するために,コンテキスト認識モデルに注目する。 我々は、モバイルセンサーデータ(現在研究目的で公開されている)に富んだ何千ものモバイルクエリを収集するために、in situ研究を設計する。 このデータセットを用いて,これらのタスクのコンテキストにおけるユーザの行動を調査し,ユーザの逐次的,時間的,個人的行動を考慮したコンテキスト認識型ニューラルモデル群を提案する。 最先端モデルをいくつか検討し,提案モデルがベースラインを大きく上回ることを示した。

Users install many apps on their smartphones, raising issues related to information overload for users and resource management for devices. Moreover, the recent increase in the use of personal assistants has made mobile devices even more pervasive in users' lives. This paper addresses two research problems that are vital for developing effective personal mobile assistants: target apps selection and recommendation. The former is the key component of a unified mobile search system: a system that addresses the users' information needs for all the apps installed on their devices with a unified mode of access. The latter, instead, predicts the next apps that the users would want to launch. Here we focus on context-aware models to leverage the rich contextual information available to mobile devices. We design an in situ study to collect thousands of mobile queries enriched with mobile sensor data (now publicly available for research purposes). With the aid of this dataset, we study the user behavior in the context of these tasks and propose a family of context-aware neural models that take into account the sequential, temporal, and personal behavior of users. We study several state-of-the-art models and show that the proposed models significantly outperform the baselines.
翻訳日:2021-04-09 07:21:50 公開日:2021-01-09
# GnetSeg: 224mW CNN加速器チップ上で318FPSの速度で最適化されたセマンティックセグメンテーションモデル

GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN Accelerator Chip at the Speed of 318FPS ( http://arxiv.org/abs/2101.10444v1 )

ライセンス: Link先を確認
Baohua Sun, Weixiong Lin, Hao Sha, Jiapeng Su(参考訳) セマンティックセグメンテーションは、同じクラスに属する画像上にピクセルをクラスタ化するタスクである。 自動運転、医用画像分析、産業検査、パーソンセグメンテーション用のスマートフォンカメラなど、現実世界のアプリケーションで広く使われている。 モバイルとエッジデバイスにおけるセマンティクスセグメンテーションモデルを加速することは、業界にとって実用的なニーズである。 近年、CNN(Convolutional Neural Networks)アクセラレータが広く利用できるようになった。 それらは、エッジデバイス上のセマンティックセグメンテーションモデルを加速するのに理想的な電力効率、推論速度に利点がある。 しかし、CNNアクセラレータチップは、柔軟性とメモリにも制限がある。 さらに、CNNアクセラレータチップがホストCPUとのコプロセッサとして機能するため、CPU負荷は非常に重要である。 本稿では,CNNアクセラレータチップ上のメモリとサポート対象演算子を完全に活用するためにセマンティックセグメンテーションモデルを最適化し,同時にCNNモデルのCPU負荷をゼロにする。 結果として得られるモデルはGnetSegと呼ばれる。 さらに,cnnアクセラレータとホストcpu間のデータ転送のレイテンシを最小化するgnetsegモデルのマスクの整数符号化を提案する。 実験結果から,224mWチップ上で動作したモデルでは318FPSの高速化を実現し,人体セグメンテーションなどの応用に優れた精度が得られた。

Semantic segmentation is the task to cluster pixels on an image belonging to the same class. It is widely used in the real-world applications including autonomous driving, medical imaging analysis, industrial inspection, smartphone camera for person segmentation and so on. Accelerating the semantic segmentation models on the mobile and edge devices are practical needs for the industry. Recent years have witnessed the wide availability of CNN (Convolutional Neural Networks) accelerators. They have the advantages on power efficiency, inference speed, which are ideal for accelerating the semantic segmentation models on the edge devices. However, the CNN accelerator chips also have the limitations on flexibility and memory. In addition, the CPU load is very critical because the CNN accelerator chip works as a co-processor with a host CPU. In this paper, we optimize the semantic segmentation model in order to fully utilize the limited memory and the supported operators on the CNN accelerator chips, and at the same time reduce the CPU load of the CNN model to zero. The resulting model is called GnetSeg. Furthermore, we propose the integer encoding for the mask of the GnetSeg model, which minimizes the latency of data transfer between the CNN accelerator and the host CPU. The experimental result shows that the model running on the 224mW chip achieves the speed of 318FPS with excellent accuracy for applications such as person segmentation.
翻訳日:2021-04-09 07:21:31 公開日:2021-01-09
# SyReNN: ディープニューラルネットワークの分析ツール

SyReNN: A Tool for Analyzing Deep Neural Networks ( http://arxiv.org/abs/2101.03263v1 )

ライセンス: Link先を確認
Matthew Sotoudeh and Aditya V. Thakur(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな重要なドメインで急速に人気を集めています。 形式的には、DNNは様々なサイズと応用の複雑なベクトル値関数である。 残念なことに、現代のDNNは様々な攻撃やバギーな振る舞いに弱いことが示されている。 これは、そのようなDNNの特性を公式に分析する最近の研究の動機となった。 本稿では,そのシンボル表現を計算してDNNの理解と分析を行うSyReNNを紹介する。 重要な洞察は、DNNを線形関数に分解することである。 本ツールはDNN解析ツールの空間におけるユニークな設計点である入力空間の低次元部分集合を用いて解析するために設計されている。 ツールとその基礎となる理論を記述し、その使用と性能を3つのケーススタディで評価する: 計算統合グラディエント、DNNの決定境界の可視化、DNNのパッチング。

Deep Neural Networks (DNNs) are rapidly gaining popularity in a variety of important domains. Formally, DNNs are complicated vector-valued functions which come in a variety of sizes and applications. Unfortunately, modern DNNs have been shown to be vulnerable to a variety of attacks and buggy behavior. This has motivated recent work in formally analyzing the properties of such DNNs. This paper introduces SyReNN, a tool for understanding and analyzing a DNN by computing its symbolic representation. The key insight is to decompose the DNN into linear functions. Our tool is designed for analyses using low-dimensional subsets of the input space, a unique design point in the space of DNN analysis tools. We describe the tool and the underlying theory, then evaluate its use and performance on three case studies: computing Integrated Gradients, visualizing a DNN's decision boundaries, and patching a DNN.
翻訳日:2021-04-09 07:21:07 公開日:2021-01-09
# 画素レベル演算を用いた超高速低電力畳み込みニューラルネットワークイメージセンサ

An Ultra Fast Low Power Convolutional Neural Network Image Sensor with Pixel-level Computing ( http://arxiv.org/abs/2101.03308v1 )

ライセンス: Link先を確認
Ruibing Song, Kejie Huang, Zongsheng Wang, Haibin Shen(参考訳) 現代のビジョンシステムにおけるデータキャプチャーと分析の分離は、エンドデバイスとクラウドコンピュータの間で大量のデータ転送をもたらし、長いレイテンシ、遅い応答、高い消費電力をもたらす。 効率的なハードウェアアーキテクチャは、リソース制限されたエンドセンシングデバイスで人工知能(AI)を実現するために開発が進められている。 本稿では,カラム読み出し回路前の畳み込み動作が可能なpip( processing-in-pixel) cmosセンサアーキテクチャを提案する。 シミュレーションの結果,提案アーキテクチャは1080Pイメージセンサアレイにおける畳み込み操作(カーネルサイズ=3*3,ストライド=2,入力チャネル=3,出力チャネル=64)が可能であり,消費電力は22.62mWであることがわかった。 言い換えれば、計算効率は4.75 TOPS/wであり、最先端の約3.6倍である。

The separation of the data capture and analysis in modern vision systems has led to a massive amount of data transfer between the end devices and cloud computers, resulting in long latency, slow response, and high power consumption. Efficient hardware architectures are under focused development to enable Artificial Intelligence (AI) at the resource-limited end sensing devices. This paper proposes a Processing-In-Pixel (PIP) CMOS sensor architecture, which allows convolution operation before the column readout circuit to significantly improve the image reading speed with much lower power consumption. The simulation results show that the proposed architecture enables convolution operation (kernel size=3*3, stride=2, input channel=3, output channel=64) in a 1080P image sensor array with only 22.62 mW power consumption. In other words, the computational efficiency is 4.75 TOPS/w, which is about 3.6 times as higher as the state-of-the-art.
翻訳日:2021-04-09 07:20:44 公開日:2021-01-09
# SARS-Cov-2領域情報に基づくRNA配列分類

SARS-Cov-2 RNA Sequence Classification Based on Territory Information ( http://arxiv.org/abs/2101.03323v1 )

ライセンス: Link先を確認
Jingwei Liu(参考訳) CovID-19遺伝子解析はウイルスの種類、ウイルスの変異、ワクチンの評価に重要である。 本稿では,SARS-Cov-2 RNA配列の解析を行った。 SARS-Cov-2RNA配列を異なる次元空間に投影し,SARS-Cov-2の領域や起源情報を探索するために事前学習したSVMモデルの出力確率に応じて評価することにより,短・長・混合塩基間の遺伝的長の均一な配列SVMモデルを構築する。 データ分析では、トレーニングセットとテストセットの異なるサンプルサイズ比についても論じる。 2つのSARS-Cov-2RNA分類タスクは、GISAIDデータベースに基づいて構築されており、1つは本土、香港、台湾で、もう1つは7大陸の6クラス分類タスク(アフリカ、アジア、ヨーロッパ、北アメリカ、南アメリカ、中央アメリカ、海洋)である。 中国の3級分類では、Top-1精度率は82.45 %(列車60 %、試験=40 %)、中国の2級分類では97.35 %(列車80 %、試験20 %)、世界の6級分類では、トレーニングセットとテストセットの比率が20 %:80 %である場合、Top-1精度は30.30 %に達する。 また、Top-Nの結果もある。

CovID-19 genetics analysis is critical to determine virus type,virus variant and evaluate vaccines. In this paper, SARS-Cov-2 RNA sequence analysis relative to region or territory is investigated. A uniform framework of sequence SVM model with various genetics length from short to long and mixed-bases is developed by projecting SARS-Cov-2 RNA sequence to different dimensional space, then scoring it according to the output probability of pre-trained SVM models to explore the territory or origin information of SARS-Cov-2. Different sample size ratio of training set and test set is also discussed in the data analysis. Two SARS-Cov-2 RNA classification tasks are constructed based on GISAID database, one is for mainland, Hongkong and Taiwan of China, and the other is a 6-class classification task (Africa, Asia, Europe, North American, South American\& Central American, Ocean) of 7 continents. For 3-class classification of China, the Top-1 accuracy rate can reach 82.45\% (train 60\%, test=40\%); For 2-class classification of China, the Top-1 accuracy rate can reach 97.35\% (train 80\%, test 20\%); For 6-class classification task of world, when the ratio of training set and test set is 20\% : 80\% , the Top-1 accuracy rate can achieve 30.30\%. And, some Top-N results are also given.
翻訳日:2021-04-09 07:20:25 公開日:2021-01-09