このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210828)

# ニューラルネットワークモデルによるレーザー粉末充填Ti-6Al-4V合金の疲労寿命に及ぼす表面および細孔特性の影響

Impact of Surface and Pore Characteristics on Fatigue Life of Laser Powder Bed Fusion Ti-6Al-4V Alloy Described by Neural Network Models ( http://arxiv.org/abs/2109.09655v1 )

ライセンス: Link先を確認
Seunghyun Moon, Ruimin Ma, Ross Attardo, Charles Tomonto, Mark Nordin, Paul Wheelock, Michael Glavicic, Maxwell Layman, Richard Billo, Tengfei Luo(参考訳) 本研究では,レーザー粉末層融合(LPBF)Ti-6Al-4Vの疲労寿命に及ぼす表面粗さおよび細孔特性の影響について検討した。 197本の疲労バーは同じレーザーパワーで印刷されたが、走査速度は異なる。 これらの作用は微小孔のジオメトリーに変化をもたらし、マイクロ計算トモグラフィーを用いてその変動を特徴づけた。 疲労バーの表面粗さの違いを生じさせるため, 試料の半分をグリットブラスト, 残り半分を加工した。 表面粗さと気孔の統計について, 疲労挙動を解析した。 グリットブラスト試料では,LPBF法における凹面レーザースキャンにより細孔脱離帯と内部孔とに異なる特徴が認められた。 内部の細孔が内部の細孔に類似した加工試料に対して, 疲労寿命は応力方向に対して垂直な面内の平均細孔径および突出孔面積と高い相関を示した。 最後に, ドロップアウトニューラルネットワーク(donn)を用いた機械学習モデルを用いて, 疲労データ(logn)に対する表面特徴と細孔特徴のリンクを確立し, 良好な予測精度を示した。 疲労寿命の予測に加えて、DONNは予測の不確実性を推定することもできる。

In this study, the effects of surface roughness and pore characteristics on fatigue lives of laser powder bed fusion (LPBF) Ti-6Al-4V parts were investigated. The 197 fatigue bars were printed using the same laser power but with varied scanning speeds. These actions led to variations in the geometries of microscale pores, and such variations were characterized using micro-computed tomography. To generate differences in surface roughness in fatigue bars, half of the samples were grit-blasted and the other half machined. Fatigue behaviors were analyzed with respect to surface roughness and statistics of the pores. For the grit-blasted samples, the contour laser scan in the LPBF strategy led to a pore-depletion zone isolating surface and internal pores with different features. For the machined samples, where surface pores resemble internal pores, the fatigue life was highly correlated with the average pore size and projected pore area in the plane perpendicular to the stress direction. Finally, a machine learning model using a drop-out neural network (DONN) was employed to establish a link between surface and pore features to the fatigue data (logN), and good prediction accuracy was demonstrated. Besides predicting fatigue lives, the DONN can also estimate the prediction uncertainty.
翻訳日:2021-09-26 22:30:45 公開日:2021-08-28
# 生成型adversarial networkと顔ランドマーク検出による細粒度画像分類

Towards Fine-grained Image Classification with Generative Adversarial Networks and Facial Landmark Detection ( http://arxiv.org/abs/2109.00891v1 )

ライセンス: Link先を確認
Mahdi Darvish, Mahsa Pouramini, Hamid Bahador(参考訳) カテゴリーを区別するには複雑で局所的な違いを学習する必要があるため、きめ細かい分類は依然として難しい課題である。 画像内のオブジェクトのポーズ、スケール、位置の多様性は、問題をさらに難しくします。 最近のVision Transformerモデルは高い性能を実現するが、大量の入力データが必要である。 この問題に対処するため、GANベースのデータ拡張を最大限活用して、余分なデータセットインスタンスを生成しました。 Oxford-IIIT Petsはこの実験で選択したデータセットです。 規模、ポーズ、照明のバリエーションがある37種類の猫と犬で構成されており、分類作業の難しさを高めている。 さらに,最近のGAN(Generative Adversarial Network)であるStyleGAN2-ADAモデルの性能を向上し,トレーニングセットへの過度な適合を防止しつつ,よりリアルな画像を生成する。 私たちは、動物の顔のランドマークを予測するために、MobileNetV2のカスタマイズバージョンをトレーニングしました。 最後に、合成画像を元のデータセットと組み合わせ、提案手法を標準のGANに比較し、トレーニングデータの異なるサブセットで拡張しない。 近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。

Fine-grained classification remains a challenging task because distinguishing categories needs learning complex and local differences. Diversity in the pose, scale, and position of objects in an image makes the problem even more difficult. Although the recent Vision Transformer models achieve high performance, they need an extensive volume of input data. To encounter this problem, we made the best use of GAN-based data augmentation to generate extra dataset instances. Oxford-IIIT Pets was our dataset of choice for this experiment. It consists of 37 breeds of cats and dogs with variations in scale, poses, and lighting, which intensifies the difficulty of the classification task. Furthermore, we enhanced the performance of the recent Generative Adversarial Network (GAN), StyleGAN2-ADA model to generate more realistic images while preventing overfitting to the training set. We did this by training a customized version of MobileNetV2 to predict animal facial landmarks; then, we cropped images accordingly. Lastly, we combined the synthetic images with the original dataset and compared our proposed method with standard GANs augmentation and no augmentation with different subsets of training data. We validated our work by evaluating the accuracy of fine-grained image classification on the recent Vision Transformer (ViT) Model.
翻訳日:2021-09-05 08:56:22 公開日:2021-08-28
# (参考訳) DASH:人工知能のための視覚と言語を用いたモジュール化されたヒューマンマニピュレーションシミュレーション [全文訳有]

DASH: Modularized Human Manipulation Simulation with Vision and Language for Embodied AI ( http://arxiv.org/abs/2108.12536v1 )

ライセンス: CC BY-SA 4.0
Yifeng Jiang, Michelle Guo, Jiangshan Li, Ioannis Exarchos, Jiajun Wu, C. Karen Liu(参考訳) 人間のような知覚とアクチュレーションの制約を具体化し、仮想的な人間を作ることは、多くの科学や工学のアプリケーションのための統合シミュレーションプラットフォームを提供することを約束する。 自然言語コマンドが与えられたとき、人間の動作データを必要とせずに、人間の視覚知覚、固有感覚、触覚のみを使用して、物理的にシミュレートされたクラッタ環境において把持と積み重ねを行う、具体化された仮想人間である、動的かつ自律的なシミュレート人間(dash)を提案する。 DASHシステムを視覚モジュール、言語モジュール、および2つのスキルカテゴリの操作モジュールに分解することにより、DASHがランダムに配置されたタスクを高い成功率で実行できるように、異なるモジュールに対して解析的および機械学習テクニックを混在させ、マッチングすることができる。 モジュラーデザインはまた、より複雑な操作スキルに対して分析と拡張性を好む。

Creating virtual humans with embodied, human-like perceptual and actuation constraints has the promise to provide an integrated simulation platform for many scientific and engineering applications. We present Dynamic and Autonomous Simulated Human (DASH), an embodied virtual human that, given natural language commands, performs grasp-and-stack tasks in a physically-simulated cluttered environment solely using its own visual perception, proprioception, and touch, without requiring human motion data. By factoring the DASH system into a vision module, a language module, and manipulation modules of two skill categories, we can mix and match analytical and machine learning techniques for different modules so that DASH is able to not only perform randomly arranged tasks with a high success rate, but also do so under anthropomorphic constraints and with fluid and diverse motions. The modular design also favors analysis and extensibility to more complex manipulation skills.
翻訳日:2021-09-02 21:40:08 公開日:2021-08-28
# (参考訳) bitcoinネットワークにおけるランサムウェアアクタの識別 [全文訳有]

Identifying Ransomware Actors in the Bitcoin Network ( http://arxiv.org/abs/2108.13807v1 )

ライセンス: CC BY 4.0
Siddhartha Dalal, Zihe Wang, Siddhanth Sabharwal(参考訳) bitcoinネットワークの疑似匿名性のため、ユーザーは自分のbitcoinアドレスの後ろに隠れて、そのアドレス間の公式なリンクなしで、即座に無制限に生成することができる。 そのため、ランサムウェアなどの違法行為に関わった役者による支払いの転送に利用されている。 ギャンブルは違法な資金の送金によく用いられるため、私たちが考える他の活動はギャンブルに関連している。 ここでの問題は、Bitcoin取引の時間的に制限されたグラフが与えられた場合、不正行為に関連する共通パターンをどの程度特定し、他のランサムウェアアクターを見つけるために適用できるかということだ。 問題はかなり複雑で、何千ものアドレスが同一のアクターに属し、それらと共通の行動パターンの間に明らかなつながりがない。 本論文の主な貢献は,ローカルクラスタリングのための新しいアルゴリズムの導入と,悪意のあるアクタを識別するための教師付きグラフ機械学習の適用である。 既知のアクターの非常に局所的なサブグラフは、ランサムウェア、ランダム、ギャンブルのアクターを85%の精度で区別するのに十分であることを示す。

Due to the pseudo-anonymity of the Bitcoin network, users can hide behind their bitcoin addresses that can be generated in unlimited quantity, on the fly, without any formal links between them. Thus, it is being used for payment transfer by the actors involved in ransomware and other illegal activities. The other activity we consider is related to gambling since gambling is often used for transferring illegal funds. The question addressed here is that given temporally limited graphs of Bitcoin transactions, to what extent can one identify common patterns associated with these fraudulent activities and apply them to find other ransomware actors. The problem is rather complex, given that thousands of addresses can belong to the same actor without any obvious links between them and any common pattern of behavior. The main contribution of this paper is to introduce and apply new algorithms for local clustering and supervised graph machine learning for identifying malicious actors. We show that very local subgraphs of the known such actors are sufficient to differentiate between ransomware, random and gambling actors with 85% prediction accuracy on the test data set.
翻訳日:2021-09-02 07:15:19 公開日:2021-08-28
# (参考訳) 単一投影画像からの変形可能な形状再構成のための画像対グラフ畳み込みネットワーク [全文訳有]

Image-to-Graph Convolutional Network for Deformable Shape Reconstruction from a Single Projection Image ( http://arxiv.org/abs/2108.12533v1 )

ライセンス: CC BY 4.0
M. Nakao, F. Tong, M. Nakamura, T. Matsuda(参考訳) 二次元x線画像からの変形可能な臓器の形状再構成は画像誘導介入の重要な技術である。 本稿では,一視点投影画像からの変形可能な形状再構成のための画像間畳み込みネットワーク(IGCN)を提案する。 IGCNは、変形マッピングスキームに基づいて、形状/変形変動と深部画像特徴の関係を学習する。 腹部臓器の呼吸運動を標的とした実験では, 平均距離3.6mmの単一デジタル再構成X線写真から肝臓の形状を復元できる正規化損失関数の枠組みを確認した。

Shape reconstruction of deformable organs from two-dimensional X-ray images is a key technology for image-guided intervention. In this paper, we propose an image-to-graph convolutional network (IGCN) for deformable shape reconstruction from a single-viewpoint projection image. The IGCN learns relationship between shape/deformation variability and the deep image features based on a deformation mapping scheme. In experiments targeted to the respiratory motion of abdominal organs, we confirmed the proposed framework with a regularized loss function can reconstruct liver shapes from a single digitally reconstructed radiograph with a mean distance error of 3.6mm.
翻訳日:2021-09-01 09:15:58 公開日:2021-08-28
# (参考訳) SeeTheSeams:衛星画像におけるシーム彫刻画像の局所的検出 [全文訳有]

SeeTheSeams: Localized Detection of Seam Carving based Image Forgery in Satellite Imagery ( http://arxiv.org/abs/2108.12534v1 )

ライセンス: CC BY 4.0
Chandrakanth Gudavalli, Erik Rosten, Lakshmanan Nataraj, Shivkumar Chandrasekaran, B. S. Manjunath(参考訳) シーム彫刻はコンテンツ認識画像再ターゲティングの一般的な手法である。 例えば、建物のGPS位置を変更したり、衛星画像に道路を挿入/削除するなど、意図的に画像を操作できる。 本稿では,このような画像中のシームの検出と局所化のための新しい手法を提案する。 シーム彫刻に基づく操作を検出する方法は存在するが、シーム彫刻偽造のロバストなローカライズと検出が可能となるのはこれが初めてである。 また,海面局所化スコア(SLS)を用いて,海面局在化の有効性を評価する。 提案手法は,異なるソースからの大量の画像から広範囲に評価され,これらのデータセット間で高いレベルの検出とローカライズ性能を示す。 この作業中にキュレートされたデータセットは一般公開される予定だ。

Seam carving is a popular technique for content aware image retargeting. It can be used to deliberately manipulate images, for example, change the GPS locations of a building or insert/remove roads in a satellite image. This paper proposes a novel approach for detecting and localizing seams in such images. While there are methods to detect seam carving based manipulations, this is the first time that robust localization and detection of seam carving forgery is made possible. We also propose a seam localization score (SLS) metric to evaluate the effectiveness of localization. The proposed method is evaluated extensively on a large collection of images from different sources, demonstrating a high level of detection and localization performance across these datasets. The datasets curated during this work will be released to the public.
翻訳日:2021-09-01 09:06:44 公開日:2021-08-28
# (参考訳) 昆虫害虫画像検出のための畳み込みニューラルネットワークの高性能アンサンブル [全文訳有]

High performing ensemble of convolutional neural networks for insect pest image detection ( http://arxiv.org/abs/2108.12539v1 )

ライセンス: CC BY 4.0
Loris Nanni, Alessandro Manfe, Gianluca Maguolo, Alessandra Lumini and Sheryl Brahnam(参考訳) 害虫の感染は、世界の作物の被害と収入の喪失の主な原因である。 侵入昆虫の自動識別は、害虫の同定を大幅にスピードアップし、除去を早める。 本稿では,異なるトポロジ(ResNet50, GoogleNet, ShuffleNet, MobileNetv2, DenseNet201)に基づいたCNNのアンサンブルを生成する。 DGradに基づくディープネットワーク最適化のための2つの新しいAdamアルゴリズムが提案され、学習率のスケーリング係数が導入された。 データ拡張またはAdam最適化のタイプに異なる5つのCNNのセットは、Deng(SMALL)と大きなIP102害データセットの両方でトレーニングされた。 アンサンブルを3つの性能指標を用いて比較評価した。 異なる拡張法とここで提案された2つの新しいアダム変種を用いてcnnを結合した最高の演奏アンサンブルは、両方の昆虫データセットの最先端(95.52%がdeng、73.46%がip102、これは人間の専門家の分類と競合するdengのスコアである。 医学画像分類のためのデータセットで追加のテストが行われ、提案されたアダム最適化モデルの堅牢性とパワーがさらに検証された。 すべてのMATLABソースコードはhttps://github.com/L orisNanni/で入手できる。

Pest infestation is a major cause of crop damage and lost revenues worldwide. Automatic identification of invasive insects would greatly speedup the identification of pests and expedite their removal. In this paper, we generate ensembles of CNNs based on different topologies (ResNet50, GoogleNet, ShuffleNet, MobileNetv2, and DenseNet201) altered by random selection from a simple set of data augmentation methods or optimized with different Adam variants for pest identification. Two new Adam algorithms for deep network optimization based on DGrad are proposed that introduce a scaling factor in the learning rate. Sets of the five CNNs that vary in either data augmentation or the type of Adam optimization were trained on both the Deng (SMALL) and the large IP102 pest data sets. Ensembles were compared and evaluated using three performance indicators. The best performing ensemble, which combined the CNNs using the different augmentation methods and the two new Adam variants proposed here, achieved state of the art on both insect data sets: 95.52% on Deng and 73.46% on IP102, a score on Deng that competed with human expert classifications. Additional tests were performed on data sets for medical imagery classification that further validated the robustness and power of the proposed Adam optimization variants. All MATLAB source code is available at https://github.com/L orisNanni/.
翻訳日:2021-09-01 08:47:02 公開日:2021-08-28
# (参考訳) parallax eddie platformにおけるros自律ナビゲーションの実装 [全文訳有]

An implementation of ROS Autonomous Navigation on Parallax Eddie platform ( http://arxiv.org/abs/2108.12571v1 )

ライセンス: CC BY 4.0
Hafiq Anas, Wee Hong Ong(参考訳) 本稿では,ロボットオペレーティング・システム(ROS)に基づく自律ナビゲーション機能の実装について,Eddie Robotと呼ばれる車輪付きディファレンシャルドライブモバイルプラットフォーム上で実施する。 rosは、多くの再利用可能なソフトウェアスタックと、ロボットプロジェクト開発に理想的な環境を提供する可視化およびデバッグツールを含むフレームワークである。 本論文の主な貢献は,航法スタック(Navigation Stack)と呼ばれるROSの自律ナビゲーションシステムと連携し,自律ナビゲーションのための1つのアプリケーションユースケースを実装するための,Eddieロボットのカスタマイズハードウェアおよびソフトウェアシステムセットアップの説明である。 本稿では,この移動ロボットのユースケースを示すために写真撮影が選択される。

This paper presents an implementation of autonomous navigation functionality based on Robot Operating System (ROS) on a wheeled differential drive mobile platform called Eddie robot. ROS is a framework that contains many reusable software stacks as well as visualization and debugging tools that provides an ideal environment for any robotic project development. The main contribution of this paper is the description of the customized hardware and software system setup of Eddie robot to work with an autonomous navigation system in ROS called Navigation Stack and to implement one application use case for autonomous navigation. For this paper, photo taking is chosen to demonstrate a use case of the mobile robot.
翻訳日:2021-09-01 08:30:51 公開日:2021-08-28
# (参考訳) 相互情報に基づく層別モデル刈り込み [全文訳有]

Layer-wise Model Pruning based on Mutual Information ( http://arxiv.org/abs/2108.12594v1 )

ライセンス: CC BY 4.0
Chun Fan, Jiwei Li, Xiang Ao, Fei Wu, Yuxian Meng, Xiaofei Sun(参考訳) The proposed pruning strategy offers merits over weight-based pruning techniques: (1) it avoids irregular memory access since representations and matrices can be squeezed into their smaller but dense counterparts, leading to greater speedup; (2) in a manner of top-down pruning, the proposed method operates from a more global perspective based on training signals in the top layer, and prunes each layer by propagating the effect of global signals through layers, leading to better performances at the same sparsity level. 広汎な実験により、提案手法は重量ベースプルーニング法(マグニチュードプルーニング、ムーブプルーニングなど)よりも高いスピードアップと高いパフォーマンスを提供する。

The proposed pruning strategy offers merits over weight-based pruning techniques: (1) it avoids irregular memory access since representations and matrices can be squeezed into their smaller but dense counterparts, leading to greater speedup; (2) in a manner of top-down pruning, the proposed method operates from a more global perspective based on training signals in the top layer, and prunes each layer by propagating the effect of global signals through layers, leading to better performances at the same sparsity level. Extensive experiments show that at the same sparsity level, the proposed strategy offers both greater speedup and higher performances than weight-based pruning methods (e.g., magnitude pruning, movement pruning).
翻訳日:2021-09-01 08:19:17 公開日:2021-08-28
# (参考訳) あら 間違いです! ターンバック発話を含むリアル対話状態追跡に向けて [全文訳有]

Oh My Mistake!: Toward Realistic Dialogue State Tracking including Turnback Utterances ( http://arxiv.org/abs/2108.12637v1 )

ライセンス: CC BY 4.0
Takyoung Kim, Yukyung Lee, Hoonsang Yoon, Pilsung Kang, Misuk Kim(参考訳) エンド・ツー・エンドの会話システムの重要な構成要素である対話状態追跡(dst)の目的は、実世界の状況によく反応するモデルを構築することである。 通常の会話では心を変えることが多いが、現在のベンチマークデータセットはそのような出来事を適切に反映せず、代わりに過剰に単純化された会話で構成されている。 この研究を刺激する主要な質問として、‘現在のベンチマークデータセットは、頭が変わるカジュアルな会話を扱うのに十分な多様性を持っているか? テンプレートベースのターンバック発話を単に注入するだけでDSTモデルの性能が大幅に低下するため、その答えは ``No'' であることがわかった。 マルチウォズにおける試験目標精度は, 最も単純なターンバック発話を注入した場合, 5\%p以上低下した。 さらに、複雑なターンバックの状況に直面すると、パフォーマンスの劣化が悪化する。 しかし、学習データセットに返り値が適切に含まれている場合、パフォーマンスがリバウンドするのも観察し、問題はdstモデルではなく、ベンチマークデータセットの構築にあることを示唆した。

The primary purpose of dialogue state tracking (DST), a critical component of an end-to-end conversational system, is to build a model that responds well to real-world situations. Although we often change our minds during ordinary conversations, current benchmark datasets do not adequately reflect such occurrences and instead consist of over-simplified conversations, in which no one changes their mind during a conversation. As the main question inspiring the present study,``Are current benchmark datasets sufficiently diverse to handle casual conversations in which one changes their mind?'' We found that the answer is ``No'' because simply injecting template-based turnback utterances significantly degrades the DST model performance. The test joint goal accuracy on the MultiWOZ decreased by over 5\%p when the simplest form of turnback utterance was injected. Moreover, the performance degeneration worsens when facing more complicated turnback situations. However, we also observed that the performance rebounds when a turnback is appropriately included in the training dataset, implying that the problem is not with the DST models but rather with the construction of the benchmark dataset.
翻訳日:2021-09-01 08:00:04 公開日:2021-08-28
# (参考訳) 単一変数ダイナミクスを用いた遅延型リザーバコンピュータのマスタメモリ機能 [全文訳有]

Master memory function for delay-based reservoir computers with single-variable dynamics ( http://arxiv.org/abs/2108.12643v1 )

ライセンス: CC BY 4.0
Felix K\"oster, Serhiy Yanchuk, Kathy L\"udge(参考訳) 本論文では,多くの遅延型貯水池コンピュータがユニバーサルマスターメモリ機能(MMF)によって特徴付けられることを示す。 2つの独立したパラメータで計算すると、この関数は、小さな入力を持つ遅延ベースの1変数のリニアメモリ容量を提供する。 さらに,その効率的かつ高速な計算を可能にするMMFの解析記述を提案する。 本手法は,マッキーグラスや池田系などの既知の力学規則を満たした貯水池だけでなく,力学モデルが利用できない貯水池にも適用できる。 また,貯水池コンピュータの性能とMMFが与えるメモリ容量を比較した。

We show that many delay-based reservoir computers considered in the literature can be characterized by a universal master memory function (MMF). Once computed for two independent parameters, this function provides linear memory capacity for any delay-based single-variable reservoir with small inputs. Moreover, we propose an analytical description of the MMF that enables its efficient and fast computation. Our approach can be applied not only to reservoirs governed by known dynamical rules such as Mackey-Glass or Ikeda-like systems but also to reservoirs whose dynamical model is not available. We also present results comparing the performance of the reservoir computer and the memory capacity given by the MMF.
翻訳日:2021-09-01 07:44:15 公開日:2021-08-28
# (参考訳) denselidar: real-time pseudo dense depth guided depth completion network [全文訳有]

DenseLiDAR: A Real-Time Pseudo Dense Depth Guided Depth Completion Network ( http://arxiv.org/abs/2108.12655v1 )

ライセンス: CC BY 4.0
Jiaqi Gu, Zhiyu Xiang, Yuwen Ye, Lingxuan Wang(参考訳) Depth Completionはスパース入力から深度マップを生成し、環境のより完全な3D記述を提供する。 深さの完成に大きな進歩があったにもかかわらず、入力の空間性や基底の真理密度の低さがこの問題を難しくしている。 本研究では,実時間擬似奥行きガイド付きニューラルネットワークであるdeeplidarを提案する。 我々は,(1)出力の残差構造の構築,(2)スパース入力データの修正,(3)ネットワークのトレーニングのための構造的損失の密集という3つの側面において,単純な形態素演算から得られた密集した擬似深層マップを用いてネットワークを導出する。 これらの新しい設計のおかげで、出力のより高い性能が達成できた。 また,予測深度マップの品質を評価するための2つの新しい指標も提示した。 KITTI深度補完ベンチマークの大規模な実験により,50Hzのフレームレートで最先端の性能を達成できることが示唆された。 予測された深度は、下流のロボット知覚や位置決めタスクによってさらに評価される。 3Dオブジェクト検出のタスクでは、KITTI 3Dオブジェクト検出データセット上で、小さなオブジェクトカテゴリのパフォーマンスが3~5%向上する。 RGB-D SLAMでは、KITTIオドメトリーデータセットでも車両軌道の精度が向上している。 これらの有望な結果は、深度予測の高品質性を検証するだけでなく、深度完了結果を用いて下流タスクの改善の可能性も示している。

Depth Completion can produce a dense depth map from a sparse input and provide a more complete 3D description of the environment. Despite great progress made in depth completion, the sparsity of the input and low density of the ground truth still make this problem challenging. In this work, we propose DenseLiDAR, a novel real-time pseudo-depth guided depth completion neural network. We exploit dense pseudo-depth map obtained from simple morphological operations to guide the network in three aspects: (1) Constructing a residual structure for the output; (2) Rectifying the sparse input data; (3) Providing dense structural loss for training the network. Thanks to these novel designs, higher performance of the output could be achieved. In addition, two new metrics for better evaluating the quality of the predicted depth map are also presented. Extensive experiments on KITTI depth completion benchmark suggest that our model is able to achieve the state-of-the-art performance at the highest frame rate of 50Hz. The predicted dense depth is further evaluated by several downstream robotic perception or positioning tasks. For the task of 3D object detection, 3~5 percent performance gains on small objects categories are achieved on KITTI 3D object detection dataset. For RGB-D SLAM, higher accuracy on vehicle's trajectory is also obtained in KITTI Odometry dataset. These promising results not only verify the high quality of our depth prediction, but also demonstrate the potential of improving the related downstream tasks by using depth completion results.
翻訳日:2021-09-01 07:23:04 公開日:2021-08-28
# (参考訳) 政府がAI開発を監視すべき理由と方法 [全文訳有]

Why and How Governments Should Monitor AI Development ( http://arxiv.org/abs/2108.12427v1 )

ライセンス: CC BY 4.0
Jess Whittlestone, Jack Clark(参考訳) 本稿では,AIシステムの能力と影響を体系的に計測し,監視する政府の能力に投資することで,人工知能(AI)のガバナンスを改善するための提案を概説する。 もし採用されれば、政府はAIエコシステムに関するより多くの情報を提供し、より効果的にAI開発と展開を最も社会的かつ経済的に有益な方向に導くことができる。 また、戦略的に変革的な能力の出現や有害なシステムの展開など、AIエコシステムの変化によって起こりうる潜在的な脅威や害を迅速に特定するインフラストラクチャも構築される。 簡単に言うと、従来のガバナンスアプローチは、AIの進歩のスピードに合わせてペースを維持するのに苦労しています。 政府はインフラの計測とモニタリングに投資しなければならない。 我々はこの提案を詳細に議論し、政府が測定と監視にフォーカスできる具体的な内容と、それが政策立案にもたらすメリットについて概説する。 最後に,いくつかのパイロットプロジェクトの概要と,実際に実施するための考慮事項について概説する。

In this paper we outline a proposal for improving the governance of artificial intelligence (AI) by investing in government capacity to systematically measure and monitor the capabilities and impacts of AI systems. If adopted, this would give governments greater information about the AI ecosystem, equipping them to more effectively direct AI development and deployment in the most societally and economically beneficial directions. It would also create infrastructure that could rapidly identify potential threats or harms that could occur as a consequence of changes in the AI ecosystem, such as the emergence of strategically transformative capabilities, or the deployment of harmful systems. We begin by outlining the problem which motivates this proposal: in brief, traditional governance approaches struggle to keep pace with the speed of progress in AI. We then present our proposal for addressing this problem: governments must invest in measurement and monitoring infrastructure. We discuss this proposal in detail, outlining what specific things governments could focus on measuring and monitoring, and the kinds of benefits this would generate for policymaking. Finally, we outline some potential pilot projects and some considerations for implementing this in practice.
翻訳日:2021-09-01 07:06:42 公開日:2021-08-28
# (参考訳) 胎児脳自動計測のための二重反転校正フレームワーク

A Dual Adversarial Calibration Framework for Automatic Fetal Brain Biometry ( http://arxiv.org/abs/2108.12719v1 )

ライセンス: CC BY 4.0
Yuan Gao and Lok Hin Lee and Richard Droste and Rachel Craik and Sridevi Beriwal and Aris Papageorghiou and Alison Noble(参考訳) 本稿では,低所得国と中所得国の需要に動機付けられた胎児脳自動計測への新たなアプローチを提案する。 具体的には、ハイエンド(HE)超音波画像を利用して、低コスト(LC)超音波画像のバイオメトリソリューションを構築する。 画像タイプ間の重要な画像分布シフトに不変な深層モデルを訓練するための新しい教師なし領域適応手法を提案する。 提案手法は,デュアル・アドバーサル・キャリブレーション(dac)フレームワークを用いて,モデル不変性(i)lc画像から派生した特徴空間におけるアドバーサル・摂動,ii)出現領域の不一致を強制する逆経路からなる。 提案手法では,平均絶対誤差(mae)が2.43mmと1.65mmの低コスト超音波装置から得られた画像の頭部径と頭部周囲径を推定し,それぞれ7.28mmと5.65mmと算出した。

This paper presents a novel approach to automatic fetal brain biometry motivated by needs in low- and medium- income countries. Specifically, we leverage high-end (HE) ultrasound images to build a biometry solution for low-cost (LC) point-of-care ultrasound images. We propose a novel unsupervised domain adaptation approach to train deep models to be invariant to significant image distribution shift between the image types. Our proposed method, which employs a Dual Adversarial Calibration (DAC) framework, consists of adversarial pathways which enforce model invariance to; i) adversarial perturbations in the feature space derived from LC images, and ii) appearance domain discrepancy. Our Dual Adversarial Calibration method estimates transcerebellar diameter and head circumference on images from low-cost ultrasound devices with a mean absolute error (MAE) of 2.43mm and 1.65mm, compared with 7.28 mm and 5.65 mm respectively for SOTA.
翻訳日:2021-09-01 06:49:49 公開日:2021-08-28
# (参考訳) IoTネットワークにおける機械学習による侵入検出のための特徴抽出 [全文訳有]

Feature Extraction for Machine Learning-based Intrusion Detection in IoT Networks ( http://arxiv.org/abs/2108.12722v1 )

ライセンス: CC BY 4.0
Mohanad Sarhan, Siamak Layeghy, Nour Moustafa, Marcus Gallagher, Marius Portmann(参考訳) IoTネットワークで発生した膨大な数のネットワークセキュリティ違反は、現在のネットワーク侵入検知システム(NIDS)の信頼性を実証している。 その結果、ネットワークの中断と機密データの損失が発生し、nids技術を改善するための研究領域が活発になった。 関連研究の分析において、ほとんどの研究者は、NIDSデータセット上の特徴量削減(FR)と機械学習(ML)の未検索組み合わせを用いて、より良い分類結果を得ることを目標とした。 しかし、これらのデータセットは、機能セット、攻撃タイプ、ネットワーク設計で異なる。 そこで本稿は,これらの手法が様々なデータセットにまたがって一般化できるかどうかを明らかにすることを目的とする。 6つのMLモデル(Deep Feed Forward、Convolutional Neural Network、Recurrent Neural Network、Decision Tree、Logistic Regression、Naive Bayes)が使用されている。 主成分分析(PCA)、自動エンコーダ(AE)、線形識別分析(LDA)の3つの特徴抽出(FE)アルゴリズムの検出精度を,UNSW-NB15,ToN-IoT,C SE-CIC-IDS2018の3つのベンチマークデータセットを用いて評価した。 PCA と AE のアルゴリズムは広く用いられているが、抽出された次元の最適な数を決定することは見過ごされている。 その結果、すべてのデータセットに最適なスコアを得られる明確なFEメソッドやMLモデルは存在しないことがわかった。 抽出された次元の最適な数はデータセット毎に特定され、LDAは2つのデータセット上でのMLモデルの性能を低下させる。 分散はLDAとPCAの抽出次元を分析するために用いられる。 最後に,データセットの選択は応用技術の性能を著しく変化させることを結論づけるとともに,この研究分野のさらなる進歩と進歩を促進するための普遍的(ベンチマーク)機能セットの必要性を論じる。

The tremendous numbers of network security breaches that have occurred in IoT networks have demonstrated the unreliability of current Network Intrusion Detection Systems (NIDSs). Consequently, network interruptions and loss of sensitive data have occurred which led to an active research area for improving NIDS technologies. During an analysis of related works, it was observed that most researchers aimed to obtain better classification results by using a set of untried combinations of Feature Reduction (FR) and Machine Learning (ML) techniques on NIDS datasets. However, these datasets are different in feature sets, attack types, and network design. Therefore, this paper aims to discover whether these techniques can be generalised across various datasets. Six ML models are utilised: a Deep Feed Forward, Convolutional Neural Network, Recurrent Neural Network, Decision Tree, Logistic Regression, and Naive Bayes. The detection accuracy of three Feature Extraction (FE) algorithms; Principal Component Analysis (PCA), Auto-encoder (AE), and Linear Discriminant Analysis (LDA) is evaluated using three benchmark datasets; UNSW-NB15, ToN-IoT and CSE-CIC-IDS2018. Although PCA and AE algorithms have been widely used, determining their optimal number of extracted dimensions has been overlooked. The results obtained indicate that there is no clear FE method or ML model that can achieve the best scores for all datasets. The optimal number of extracted dimensions has been identified for each dataset and LDA decreases the performance of the ML models on two datasets. The variance is used to analyse the extracted dimensions of LDA and PCA. Finally, this paper concludes that the choice of datasets significantly alters the performance of the applied techniques and we argue for the need for a universal (benchmark) feature set to facilitate further advancement and progress in this field of research.
翻訳日:2021-09-01 06:39:16 公開日:2021-08-28
# DKM:ニューラルネットワーク圧縮のための微分可能なK平均クラスタリング層

DKM: Differentiable K-Means Clustering Layer for Neural Network Compression ( http://arxiv.org/abs/2108.12659v1 )

ライセンス: Link先を確認
Minsik Cho, Keivan A. Vahid, Saurabh Adya, Mohammad Rastegari(参考訳) 効率的なオンデバイス推論のためのディープニューラルネットワーク(dnn)モデル圧縮は、メモリ要件を削減し、ユーザデータをデバイス上に保持するためにますます重要になっている。 そこで本研究では,新しい微分可能なk-meansクラスタリング層(dkm)の提案と,それを用いたdnnモデル圧縮への応用について述べる。 DKMは、k平均クラスタリングを注目問題とし、パラメータの合同最適化とセントロイドのクラスタリングを可能にする。 追加の正規化器やパラメータに依存する以前の作業とは異なり、DKMベースの圧縮は元の損失関数とモデルアーキテクチャを固定し続ける。 コンピュータビジョンと自然言語処理(NLP)タスクのための様々なDNNモデルのDKMに基づく圧縮を評価した。 その結果, DMK は ImageNet1k および GLUE ベンチマークにおいて, 優れた圧縮と精度のトレードオフをもたらすことが示された。 例えば、DKMベースの圧縮は、3.3MBモデルサイズ(29.4倍)のResNet50 DNNモデル上で74.5%のトップ-1 ImageNet1kの精度を提供する。 圧縮が難しいMobileNet-v1では、DKMは62.8%のトップ-1 ImageNet1kの精度を0.74MBのモデルサイズ(22.4倍)で提供する。 この結果は6.8%の精度で、現在のDNN圧縮アルゴリズムよりもモデルサイズが33%小さい。 さらに、DKM は GLUE NLP ベンチマークで最小 (1.1%) の精度で DistilBERT モデルを 11.8x 圧縮できる。

Deep neural network (DNN) model compression for efficient on-device inference is becoming increasingly important to reduce memory requirements and keep user data on-device. To this end, we propose a novel differentiable k-means clustering layer (DKM) and its application to train-time weight clustering-based DNN model compression. DKM casts k-means clustering as an attention problem and enables joint optimization of the parameters and clustering centroids. Unlike prior works that rely on additional regularizers and parameters, DKM-based compression keeps the original loss function and model architecture fixed. We evaluated DKM-based compression on various DNN models for computer vision and natural language processing (NLP) tasks. Our results demonstrate that DMK delivers superior compression and accuracy trade-off on ImageNet1k and GLUE benchmarks. For example, DKM-based compression can offer 74.5% top-1 ImageNet1k accuracy on ResNet50 DNN model with 3.3MB model size (29.4x model compression factor). For MobileNet-v1, which is a challenging DNN to compress, DKM delivers 62.8% top-1 ImageNet1k accuracy with 0.74 MB model size (22.4x model compression factor). This result is 6.8% higher top-1 accuracy and 33% relatively smaller model size than the current state-of-the-art DNN compression algorithms. Additionally, DKM enables compression of DistilBERT model by 11.8x with minimal (1.1%) accuracy loss on GLUE NLP benchmarks.
翻訳日:2021-08-31 15:04:40 公開日:2021-08-28
# 効率的なオープンドメイン会話のための大規模生成モデルの知識を検索モデルに割く

Distilling the Knowledge of Large-scale Generative Models into Retrieval Models for Efficient Open-domain Conversation ( http://arxiv.org/abs/2108.12582v1 )

ライセンス: Link先を確認
Beomsu Kim, Seokjun Seo, Seungju Han, Enkhbayar Erdenee, Buru Chang(参考訳) オープンドメイン会話における大規模生成モデルの顕著な性能にもかかわらず、レイテンシが高いためにリアルタイム会話システムを構築するには実用的でないことが知られている。 一方,検索モデルはより低レイテンシで応答を返すことができるが,会話品質は予め定義された応答セットによって制限されているため,大規模生成モデルでは性能が劣る。 両者のアプローチを生かして, 生成モデルの知識を検索モデルに取り入れることで, 大規模生成モデルの会話能力を活用しつつ, 検索モデルの効率を保ちながら, g2r (generative-to-retri eval distillation) と呼ばれる新たな訓練法を提案する。 データレベルG2Rは、大規模生成モデルによって生成された追加応答で対話データセットを増強し、モデルレベルG2Rは、生成モデルによって評価された応答品質スコアを、知識蒸留損失により検索モデルのスコアに転送する。 人間の評価を含む広範囲な実験を通して,G2Rで訓練した検索ベースの会話システムは,ベースライン検索モデルと比較して大幅に性能が向上し,大規模な生成モデルよりも推論遅延が著しく低いことを示した。

Despite the remarkable performance of large-scale generative models in open-domain conversation, they are known to be less practical for building real-time conversation systems due to high latency. On the other hand, retrieval models could return responses with much lower latency but show inferior performance to the large-scale generative models since the conversation quality is bounded by the pre-defined response set. To take advantage of both approaches, we propose a new training method called G2R (Generative-to-Retri eval distillation) that preserves the efficiency of a retrieval model while leveraging the conversational ability of a large-scale generative model by infusing the knowledge of the generative model into the retrieval model. G2R consists of two distinct techniques of distillation: the data-level G2R augments the dialogue dataset with additional responses generated by the large-scale generative model, and the model-level G2R transfers the response quality score assessed by the generative model to the score of the retrieval model by the knowledge distillation loss. Through extensive experiments including human evaluation, we demonstrate that our retrieval-based conversation system trained with G2R shows a substantially improved performance compared to the baseline retrieval model while showing significantly lower inference latency than the large-scale generative models.
翻訳日:2021-08-31 15:02:09 公開日:2021-08-28
# QACE: イメージキャプションを評価するための質問

QACE: Asking Questions to Evaluate an Image Caption ( http://arxiv.org/abs/2108.12560v1 )

ライセンス: Link先を確認
Hwanhee Lee, Thomas Scialom, Seunghyun Yoon, Franck Dernoncourt, Kyomin Jung(参考訳) 本稿では,キャプション評価のための質問応答に基づく新しい尺度であるQACEを提案する。 QACEは評価されたキャプションの質問を生成し、参照キャプションまたはソースイメージの質問によってその内容をチェックする。 まず,評価されたキャプションの回答を基準と比較したQACE-Refを開発し,その結果を最先端の指標と比較した。 そこで本研究では,参照ではなく,画像上で直接質問を行うQACE-Imgを提案する。 QACE-ImgにはビジュアルQAシステムが必要である。 残念ながら、標準的なVQAモデルは、わずか数千のカテゴリに分類される。 代わりに、抽象的なVQAシステムであるVisual-T5を提案する。 結果として得られる計量 QACE-Img はマルチモーダル、参照なし、説明可能である。 実験の結果,QACE-Imgは良好にw.r.tと比較された。 他の参照なしメトリクス。 QACEを計算するためにトレーニング済みのモデルをリリースします。

In this paper, we propose QACE, a new metric based on Question Answering for Caption Evaluation. QACE generates questions on the evaluated caption and checks its content by asking the questions on either the reference caption or the source image. We first develop QACE-Ref that compares the answers of the evaluated caption to its reference, and report competitive results with the state-of-the-art metrics. To go further, we propose QACE-Img, which asks the questions directly on the image, instead of reference. A Visual-QA system is necessary for QACE-Img. Unfortunately, the standard VQA models are framed as a classification among only a few thousand categories. Instead, we propose Visual-T5, an abstractive VQA system. The resulting metric, QACE-Img is multi-modal, reference-less, and explainable. Our experiments show that QACE-Img compares favorably w.r.t. other reference-less metrics. We will release the pre-trained models to compute QACE.
翻訳日:2021-08-31 15:00:54 公開日:2021-08-28
# 画像のためのゴール駆動テキスト記述

Goal-driven text descriptions for images ( http://arxiv.org/abs/2108.12575v1 )

ライセンス: Link先を確認
Ruotian Luo(参考訳) AI(Artificial General Intelligence, AGI)の達成の大きな要因は、人間のように見聞きできるマシンを作ることだ。 画像分類、映像分類、物体検出、ポーズ推定、音声認識等のためのモデルの設計に多くの研究が集中しており、近年はディープラーニングによって大きな進歩を遂げている。 しかし、世界を理解するだけでは十分ではない。 AIエージェントは、会話の仕方、特に人間とのコミュニケーションの仕方を知る必要がある。 知覚(視覚など)は動物種の間で一般的であるが、複雑な言語の使用は人間特有のものであり、知性の最も重要な側面の1つである。 本論文では,視覚入力によるテキスト出力の生成に焦点をあてる。 第3章では、画像中のオブジェクトの参照表現、テキスト記述を生成し、受信者がどのオブジェクトが記述されているかを推測できるようにする。 我々は,生成した参照表現がより識別的になるように,理解機械を用いて直接ガイドする。 第4章では,画像キャプション生成における識別性を促進する手法を提案する。 識別的キャプションモデルがより記述的キャプションを生成することを示す。 第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。 一般的な字幕学習戦略は,字幕生成の多様性を損なうことが判明した。 第6章では,生成キャプションの長さを制御できるモデルを提案する。 所望の長さを変えることで、キャプションのスタイルや記述性に影響を与えることができる。 最後に,第7章では,情報の有用性に応じて情報タグをランク付け・生成する。 提案手法は、画像の最も重要なタグである人間の考えに合致する。

A big part of achieving Artificial General Intelligence(AGI) is to build a machine that can see and listen like humans. Much work has focused on designing models for image classification, video classification, object detection, pose estimation, speech recognition, etc., and has achieved significant progress in recent years thanks to deep learning. However, understanding the world is not enough. An AI agent also needs to know how to talk, especially how to communicate with a human. While perception (vision, for example) is more common across animal species, the use of complicated language is unique to humans and is one of the most important aspects of intelligence. In this thesis, we focus on generating textual output given visual input. In Chapter 3, we focus on generating the referring expression, a text description for an object in the image so that a receiver can infer which object is being described. We use a comprehension machine to directly guide the generated referring expressions to be more discriminative. In Chapter 4, we introduce a method that encourages discriminability in image caption generation. We show that more discriminative captioning models generate more descriptive captions. In Chapter 5, we study how training objectives and sampling methods affect the models' ability to generate diverse captions. We find that a popular captioning training strategy will be detrimental to the diversity of generated captions. In Chapter 6, we propose a model that can control the length of generated captions. By changing the desired length, one can influence the style and descriptiveness of the captions. Finally, in Chapter 7, we rank/generate informative image tags according to their information utility. The proposed method better matches what humans think are the most important tags for the images.
翻訳日:2021-08-31 15:00:42 公開日:2021-08-28
# AMMASurv:全スライド画像と遺伝子発現データを用いた生存分析のための非対称多モード注意

AMMASurv: Asymmetrical Multi-Modal Attention for Accurate Survival Analysis with Whole Slide Images and Gene Expression Data ( http://arxiv.org/abs/2108.12565v1 )

ライセンス: Link先を確認
Ruoqi Wang, Ziwang Huang, Haitao Wang, Hejun Wu(参考訳) 生存解析に全スライド画像(WSI)と遺伝子発現データの組み合わせなどのマルチモーダルデータを使用することにより、より正確な生存予測が可能になる。 従来のマルチモーダルサバイバルモデルは、各モーダリティ内の本質的な情報を効率的に掘り出すことができない。 さらに, 実験結果から, WSIsは遺伝子発現データよりも有効な情報を提供することが示されたが, 従来の手法では, 異なるモダリティからの情報を同様に重要視しており, モダリティ間の潜在的な接続を柔軟に利用できない。 上記の問題に対処するため、AMMASurvと呼ばれる新しい非対称多モード法を提案する。 具体的には、トランスフォーマーエンコーダの非対称なマルチモーダルアテンション機構(AMMA)を設計し、より柔軟なマルチモーダル情報融合による生存予測を実現する。 以前の研究と異なり、AMMASurvはすべてのモダリティにおいて本質的な情報を効果的に活用し、異なる重要性のモダリティに柔軟に適用することができる。 提案モデルの有効性を検証するために,広範な実験を行った。 提案手法は他の最先端手法よりも優れていることを示す。

The use of multi-modal data such as the combination of whole slide images (WSIs) and gene expression data for survival analysis can lead to more accurate survival predictions. Previous multi-modal survival models are not able to efficiently excavate the intrinsic information within each modality. Moreover, despite experimental results show that WSIs provide more effective information than gene expression data, previous methods regard the information from different modalities as similarly important so they cannot flexibly utilize the potential connection between the modalities. To address the above problems, we propose a new asymmetrical multi-modal method, termed as AMMASurv. Specifically, we design an asymmetrical multi-modal attention mechanism (AMMA) in Transformer encoder for multi-modal data to enable a more flexible multi-modal information fusion for survival prediction. Different from previous works, AMMASurv can effectively utilize the intrinsic information within every modality and flexibly adapts to the modalities of different importance. Extensive experiments are conducted to validate the effectiveness of the proposed model. Encouraging results demonstrate the superiority of our method over other state-of-the-art methods.
翻訳日:2021-08-31 15:00:18 公開日:2021-08-28
# 偽ニュース検出データセットにおけるダイアクロニックバイアスの軽減

Mitigation of Diachronic Bias in Fake News Detection Dataset ( http://arxiv.org/abs/2108.12601v1 )

ライセンス: Link先を確認
Taichi Murayama and Shoko Wakamiya and Eiji Aramaki(参考訳) フェイクニュースは、こうしたフェイクニュースに対処するために、検出モデルの構築とデータセットの整理に関するいくつかの研究が行われている。 偽ニュースデータセットのほとんどは、特定の期間に依存する。 したがって、このようなデータセットで訓練された検出モデルは、政治的変化や社会的変化によって生じる新しい偽ニュースの検出が困難であり、特定の人物名や組織名を含む入力からの偏りのある出力をもたらす可能性がある。 この問題は、各データセットにおけるニュースの生成日によって引き起こされるため、 \textbf{Diachronic Bias} と呼ぶ。 本研究では,各データセットにおける句出現の偏りから,人名を含む適切な名詞の偏りを確認する。 そこで本研究では,ウィキデータを用いたマスキング手法を提案し,ドメイン内およびドメイン外データを用いた実験により,人物名の影響を緩和し,偽ニュース検出モデルを堅牢化するかどうかを検証する。

Fake news causes significant damage to society.To deal with these fake news, several studies on building detection models and arranging datasets have been conducted. Most of the fake news datasets depend on a specific time period. Consequently, the detection models trained on such a dataset have difficulty detecting novel fake news generated by political changes and social changes; they may possibly result in biased output from the input, including specific person names and organizational names. We refer to this problem as \textbf{Diachronic Bias} because it is caused by the creation date of news in each dataset. In this study, we confirm the bias, especially proper nouns including person names, from the deviation of phrase appearances in each dataset. Based on these findings, we propose masking methods using Wikidata to mitigate the influence of person names and validate whether they make fake news detection models robust through experiments with in-domain and out-of-domain data.
翻訳日:2021-08-31 14:58:51 公開日:2021-08-28
# WALNUT: 自然言語理解のための弱教師付き学習ベンチマーク

WALNUT: A Benchmark on Weakly Supervised Learning for Natural Language Understanding ( http://arxiv.org/abs/2108.12603v1 )

ライセンス: Link先を確認
Guoqing Zheng, Giannis Karamanolakis, Kai Shu, Ahmed Hassan Awadallah(参考訳) 自然言語理解(nlu)タスクのための高品質な機械学習モデルの構築は、ラベル付きデータに大きく依存する。 大量のラベル付きデータが入手できない、あるいは入手に費用がかかる場合、弱みの監視が貴重な監視を提供することが示されている。 NLUの弱い監督を研究する研究は、主に特定のタスクに焦点をあてるか、または地上の真実のラベルから弱い監督信号をシミュレートする。 現在までに、NLUタスクのコレクションに対する現実の弱い監視信号を持つNLUのベンチマークは、まだ利用できない。 本稿では,NLUの弱監督研究を提唱し,促進するため,WALNUTというベンチマークを提案する。 WALNUTは、文書レベルの予測タスクとトークンレベルの予測タスクの両方を含む異なるタイプのNLUタスクで構成され、各タスクには複数の現実世界の弱いソースによって生成される弱いラベルが含まれている。 我々は,NLUタスクの弱い監督手法とモデルアーキテクチャを用いて,ベンチマークのベースライン評価を行い,弱い監督手法の価値を体系的に検証する。 我々は、低リソースのNLUタスクに対する弱い監督の利点を実証し、WALNUTが弱い監督を最大限活用するための方法論のさらなる研究を促進することを期待する。 ベースラインのベンチマークとコードは、aka.ms/walnut_benchm arkで公開される。

Building quality machine learning models for natural language understanding (NLU) tasks relies heavily on labeled data. Weak supervision has been shown to provide valuable supervision when large amount of labeled data is unavailable or expensive to obtain. Existing works studying weak supervision for NLU either mostly focus on a specific task or simulate weak supervision signals from ground-truth labels. To date a benchmark for NLU with real world weak supervision signals for a collection of NLU tasks is still not available. In this paper, we propose such a benchmark, named WALNUT, to advocate and facilitate research on weak supervision for NLU. WALNUT consists of NLU tasks with different types, including both document-level prediction tasks and token-level prediction tasks and for each task contains weak labels generated by multiple real-world weak sources. We conduct baseline evaluations on the benchmark to systematically test the value of weak supervision for NLU tasks, with various weak supervision methods and model architectures. We demonstrate the benefits of weak supervision for low-resource NLU tasks and expect WALNUT to stimulate further research on methodologies to best leverage weak supervision. The benchmark and code for baselines will be publicly available at aka.ms/walnut_benchm ark.
翻訳日:2021-08-31 14:58:35 公開日:2021-08-28
# HeadlineCause: 事件を検知するためのニュース見出しのデータセット

HeadlineCause: A Dataset of News Headlines for Detecting Casualties ( http://arxiv.org/abs/2108.12626v1 )

ライセンス: Link先を確認
Ilya Gusev and Alexey Tikhonov(参考訳) テキスト中の暗黙の因果関係を検出することは、常識と世界知識の両方を必要とする課題である。 既存のデータセットは、常識因果関係または明示因果関係に重点を置いている。 本稿では,ニュース見出しのペア間の暗黙的な因果関係を検出するデータセットであるHeadlineCauseを紹介する。 データセットには、英国のニュースから5000以上の見出しペアと、クラウドソーシングを通じてラベル付けされたロシアのニュースから9000以上の見出しペアが含まれている。 対は、全く無関係か、同じ一般トピックに属するものから、因果関係や反感関係を含むものまで様々である。 また、因果検出のための多言語XLM-RoBERTaモデルと、効果予測のためのGPT-2モデルを含む、データセットの有効性を示す一連のモデルと実験を示す。

Detecting implicit causal relations in texts is a task that requires both common sense and world knowledge. Existing datasets are focused either on commonsense causal reasoning or explicit causal relations. In this work, we present HeadlineCause, a dataset for detecting implicit causal relations between pairs of news headlines. The dataset includes over 5000 headline pairs from English news and over 9000 headline pairs from Russian news labeled through crowdsourcing. The pairs vary from totally unrelated or belonging to the same general topic to the ones including causation and refutation relations. We also present a set of models and experiments that demonstrates the dataset validity, including a multilingual XLM-RoBERTa based model for causality detection and a GPT-2 based model for possible effects prediction.
翻訳日:2021-08-31 14:58:15 公開日:2021-08-28
# オープン会話機械読解のための平滑な対話状態

Smoothing Dialogue States for Open Conversational Machine Reading ( http://arxiv.org/abs/2108.12599v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Siru Ouyang, Hai Zhao, Masao Utiyama and Eiichiro Sumita(参考訳) 会話型機械読取(cmr)は、意思決定と質問生成過程の2つの有能な対話状態間のマルチターンインタラクションを通じて機械と人間とのコミュニケーションを要求する。 オープンcmrの設定では、より現実的なシナリオとして、検索された背景知識は騒がしいため、情報伝達に深刻な課題が生じる。 既存の研究は通常、2つのサブタスクに対して独立したパイプラインシステムを訓練する。 しかし、これらの手法は、ハードラベル決定を用いて質問生成を活性化することで自明であり、最終的にはモデル性能を阻害する。 本研究では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,よりリッチな対話状態参照を提供する効果的なゲーティング戦略を提案する。 OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。

Conversational machine reading (CMR) requires machines to communicate with humans through multi-turn interactions between two salient dialogue states of decision making and question generation processes. In open CMR settings, as the more realistic scenario, the retrieved background knowledge would be noisy, which results in severe challenges in the information transmission. Existing studies commonly train independent or pipeline systems for the two subtasks. However, those methods are trivial by using hard-label decisions to activate question generation, which eventually hinders the model performance. In this work, we propose an effective gating strategy by smoothing the two dialogue states in only one decoder and bridge decision making and question generation to provide a richer dialogue state reference. Experiments on the OR-ShARC dataset show the effectiveness of our method, which achieves new state-of-the-art results.
翻訳日:2021-08-31 14:57:47 公開日:2021-08-28
# ロバスト学習のための一般化されたハマー損失とそのロバスト統計の効率的最小化

Generalized Huber Loss for Robust Learning and its Efficient Minimization for a Robust Statistics ( http://arxiv.org/abs/2108.12627v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) フーバー損失の一般化した定式化を提案する。 選択に適した関数、特にlog-exp変換により、絶対損失と二次損失の両方の望ましい性質を組み合わせた損失関数を実現できることを示す。 このような損失関数の最小化を求めるアルゴリズムを提供し、集中化計量の発見が従来の平均値や中央値よりもそれほど難しくないことを示す。

We propose a generalized formulation of the Huber loss. We show that with a suitable function of choice, specifically the log-exp transform; we can achieve a loss function which combines the desirable properties of both the absolute and the quadratic loss. We provide an algorithm to find the minimizer of such loss functions and show that finding a centralizing metric is not that much harder than the traditional mean and median.
翻訳日:2021-08-31 14:56:22 公開日:2021-08-28
# NoFASによる変分推論:計算費用モデルに対する適応サーロゲート付き流れの正規化

Variational Inference with NoFAS: Normalizing Flow with Adaptive Surrogate for Computationally Expensive Models ( http://arxiv.org/abs/2108.12657v1 )

ライセンス: Link先を確認
Yu Wang, Fang Liu and Daniele E. Schiavazzi(参考訳) データからの数値モデルパラメータの高速推論は、広範囲のアプリケーションに対して予測モデルを生成するための重要な前提条件である。 マルコフ連鎖モンテカルロのようなサンプリングベースアプローチの使用は、各可能性評価が計算コストが高い場合、難解になる可能性がある。 変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にのみ成長する計算コストを特徴とし、サンプリングではなく勾配に基づく最適化に依存し、モデルパラメータに関するベイズ推論をより効率的なアプローチを提供する。 さらに、高い確率を頻繁に評価するコストを、ニューラルネットワークのようなオフラインで訓練された代理モデルに置き換えることで軽減することができる。 しかし、この手法は後部モードの周囲のサロゲートの精度が不十分な場合に有意なバイアスを引き起こす可能性がある。 推定精度を犠牲にすることなく計算コストを削減するため,ニューラルネットワークサーロゲートモデルの正規化フローパラメータと重み付けを交互に更新する最適化戦略であるadaptive surrogate(nofas)による正規化フローを提案する。 また,サロゲートモデル学習のための効率的なサンプル重み付け手法を提案する。 基礎となるモデルが識別性に欠ける場合を含む、様々なベンチマークに対するnofasの推論と計算の優位性を示す。 この研究に使用されたソースコードと数値実験は、https://github.com/c edricwangyu/nofasで利用可能である。

Fast inference of numerical model parameters from data is an important prerequisite to generate predictive models for a wide range of applications. Use of sampling-based approaches such as Markov chain Monte Carlo may become intractable when each likelihood evaluation is computationally expensive. New approaches combining variational inference with normalizing flow are characterized by a computational cost that grows only linearly with the dimensionality of the latent variable space, and rely on gradient-based optimization instead of sampling, providing a more efficient approach for Bayesian inference about the model parameters. Moreover, the cost of frequently evaluating an expensive likelihood can be mitigated by replacing the true model with an offline trained surrogate model, such as neural networks. However, this approach might generate significant bias when the surrogate is insufficiently accurate around the posterior modes. To reduce the computational cost without sacrificing inferential accuracy, we propose Normalizing Flow with Adaptive Surrogate (NoFAS), an optimization strategy that alternatively updates the normalizing flow parameters and the weights of a neural network surrogate model. We also propose an efficient sample weighting scheme for surrogate model training that ensures some global accuracy of the surrogate while capturing the likely regions of the parameters that yield the observed data. We demonstrate the inferential and computational superiority of NoFAS against various benchmarks, including cases where the underlying model lacks identifiability. The source code and numerical experiments used for this study are available at https://github.com/c edricwangyu/NoFAS.
翻訳日:2021-08-31 14:56:14 公開日:2021-08-28
# 局所線形埋め込みにおける不要な結果を避ける:正規化の新しい理解

Avoiding unwanted results in locally linear embedding: A new understanding of regularization ( http://arxiv.org/abs/2108.12680v1 )

ライセンス: Link先を確認
Liren Lin(参考訳) 局所線形埋め込み (lle) は, 正規化が不要な場合, 元のアルゴリズムでは正規化が不要な場合においても, 本来不要な結果が認められることを実証する。 データの各近傍で正確な局所的線形関係が達成される状況において,「射影パターン」と呼ばれる特殊な結果が存在することが数学的に証明される。 これらの特別なパターンと、より一般的な状況で起こる可能性のある他の奇妙な結果は、高次元空間に穴が埋め込まれたスイスロールの数値例によって示される。 これらすべての悪い結果が、正則化を用いることで効果的に防止できることが観察される。

We demonstrate that locally linear embedding (LLE) inherently admits some unwanted results when no regularization is used, even for cases in which regularization is not supposed to be needed in the original algorithm. The existence of one special type of result, which we call ``projection pattern'', is mathematically proved in the situation that an exact local linear relation is achieved in each neighborhood of the data. These special patterns as well as some other bizarre results that may occur in more general situations are shown by numerical examples on the Swiss roll with a hole embedded in a high dimensional space. It is observed that all these bad results can be effectively prevented by using regularization.
翻訳日:2021-08-31 14:52:44 公開日:2021-08-28
# 自己充足バンド:アルゴリズム決定における内在性スパイルオーバーと動的選択

Self-fulfilling Bandits: Endogeneity Spillover and Dynamic Selection in Algorithmic Decision-making ( http://arxiv.org/abs/2108.12547v1 )

ライセンス: Link先を確認
Jin Li, Ye Luo, Xiaowei Zhang(参考訳) 本稿では,データと行動が相互依存するアルゴリズム決定における内在性問題について検討する。 文脈的多腕バンディットモデルに内在的共変量が存在するとき、その共変量の内在性が作用にこぼれるため、新しいバイアス(自己満足バイアス)が発生する。 本稿では,オンライン学習アルゴリズムにインストゥルメンタル変数を組み込むことでバイアスを補正するアルゴリズムのクラスを提案する。 これらのアルゴリズムは、内在性のない場合に最もよく知られた下限に合致する後悔レベルも達成する。 理論的性質を確立するため,データと行動間の相互依存を解き放つ一般的な手法を開発した。

In this paper, we study endogeneity problems in algorithmic decision-making where data and actions are interdependent. When there are endogenous covariates in a contextual multi-armed bandit model, a novel bias (self-fulfilling bias) arises because the endogeneity of the covariates spills over to the actions. We propose a class of algorithms to correct for the bias by incorporating instrumental variables into leading online learning algorithms. These algorithms also attain regret levels that match the best known lower bound for the cases without endogeneity. To establish the theoretical properties, we develop a general technique that untangles the interdependence between data and actions.
翻訳日:2021-08-31 14:50:50 公開日:2021-08-28
# タスク指向ダイアログシステムにおけるマイトショット学習のための事前学習の改善

Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems ( http://arxiv.org/abs/2108.12589v1 )

ライセンス: Link先を確認
Fei Mi, Wanhao Zhou, Fengyu Cai, Lingjing Kong, Minlie Huang, and Boi Faltings(参考訳) タスク指向ダイアログ(ToD)システムにおける異なるモジュールのラベリングコストは高価であるため、ラベル付きデータが最も少ない異なるモジュールをトレーニングすることが大きな課題である。 近年,大規模事前訓練型言語モデルでは,ToDにおける数発の学習に有望な結果が示されている。 本稿では,todシステムの少数学習シナリオにおける最先端の事前学習モデルをさらに改善するために,豊富なラベルなしダイアログデータを活用するための自己学習手法を考案する。 具体的には,最も自信のあるラベルのないデータを反復的にラベル付けして,より強力な学習モデルを構築する自己学習手法を提案する。 さらに,非クレーシアルトークンをマスキング言語モデルで置き換えることで,学生の学習を改善するための新しいテキスト拡張手法(gradaug)を提案する。 目的分類,ダイアログ状態追跡,ダイアログ行動予測,応答選択など,ToDの4つの下流タスクに関する広範な実験と分析を行った。 実験により,提案手法は,少数のラベル付きデータしか利用できない場合に,最先端の事前学習モデル(BERT,ToD-BERT)を一貫して改善することを示した。

As the labeling cost for different modules in task-oriented dialog (ToD) systems is expensive, a major challenge is to train different modules with the least amount of labeled data. Recently, large-scale pre-trained language models, have shown promising results for few-shot learning in ToD. In this paper, we devise a self-training approach to utilize the abundant unlabeled dialog data to further improve state-of-the-art pre-trained models in few-shot learning scenarios for ToD systems. Specifically, we propose a self-training approach that iteratively labels the most confident unlabeled data to train a stronger Student model. Moreover, a new text augmentation technique (GradAug) is proposed to better train the Student by replacing non-crucial tokens using a masked language model. We conduct extensive experiments and present analyses on four downstream tasks in ToD, including intent classification, dialog state tracking, dialog act prediction, and response selection. Empirical results demonstrate that the proposed self-training approach consistently improves state-of-the-art pre-trained models (BERT, ToD-BERT) when only a small number of labeled data are available.
翻訳日:2021-08-31 14:49:34 公開日:2021-08-28
# 自己監督深度推定による半教師付き領域適応セマンティックセマンティックセグメンテーションの改善

Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with Self-Supervised Depth Estimation ( http://arxiv.org/abs/2108.12545v1 )

ライセンス: Link先を確認
Lukas Hoyer, Dengxin Dai, Qin Wang, Yuhua Chen, Luc Van Gool(参考訳) セマンティックセグメンテーションのためのディープネットワークのトレーニングには、大量のラベル付きトレーニングデータが必要であり、セグメンテーションマスクのラベル付けは極めて労働集約的なプロセスであるため、実際には大きな課題となっている。 この問題に対処するために,半教師付きおよびドメイン適応型セマンティックセマンティックセマンティックセマンティクスのためのフレームワークを提案する。 まず、サンプルの多様性とSDEとセマンティックセグメンテーションの難易度との相関に基づいて、意味セグメンテーションにアノテートする最も有用なサンプルを自動的に選択する。 第2に,シーンの形状を用いて画像とラベルを混合することにより,強いデータ拡張を実現する。 第3に,sde中に学習した特徴から,伝達とマルチタスク学習による意味セグメンテーションへ知識を伝達する。 そして第4に、Cross-Domain DepthMixとMatching Geometry Smplingによるラベル付き合成データを利用して、合成データと実データを組み合わせる。 提案モデルをcityscapesデータセット上で検証し,これら4つのコントリビュートが有意な性能向上を示し,半教師付き意味セグメンテーションと半教師付きドメイン適応の最先端結果を得る。 特に,Cityscapesラベルの1/30に過ぎず,全教師付きベースライン性能の92%,GTAから追加データを利用する場合の97%を達成できた。 ソースコードはhttps://github.com/l hoyer/improving_segm entation_with_selfsu pervised_depthで入手できる。

Training deep networks for semantic segmentation requires large amounts of labeled training data, which presents a major challenge in practice, as labeling segmentation masks is a highly labor-intensive process. To address this issue, we present a framework for semi-supervised and domain-adaptive semantic segmentation, which is enhanced by self-supervised monocular depth estimation (SDE) trained only on unlabeled image sequences. In particular, we utilize SDE as an auxiliary task comprehensively across the entire learning framework: First, we automatically select the most useful samples to be annotated for semantic segmentation based on the correlation of sample diversity and difficulty between SDE and semantic segmentation. Second, we implement a strong data augmentation by mixing images and labels using the geometry of the scene. Third, we transfer knowledge from features learned during SDE to semantic segmentation by means of transfer and multi-task learning. And fourth, we exploit additional labeled synthetic data with Cross-Domain DepthMix and Matching Geometry Sampling to align synthetic and real data. We validate the proposed model on the Cityscapes dataset, where all four contributions demonstrate significant performance gains, and achieve state-of-the-art results for semi-supervised semantic segmentation as well as for semi-supervised domain adaptation. In particular, with only 1/30 of the Cityscapes labels, our method achieves 92% of the fully-supervised baseline performance and even 97% when exploiting additional data from GTA. The source code is available at https://github.com/l hoyer/improving_segm entation_with_selfsu pervised_depth.
翻訳日:2021-08-31 14:44:44 公開日:2021-08-28
# 視覚質問応答における問合せエンコーダ系列モデルの分散性能における意義について

On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering ( http://arxiv.org/abs/2108.12585v1 )

ライセンス: Link先を確認
Gouthaman KV, Anurag Mittal(参考訳) 経験を超えて一般化することは、実践的なAIシステムの開発において重要な役割を果たす。 現在の視覚質問応答(vqa)モデルは、列車から言語プライオリエント(質問タイプと最も頻繁な回答の相関関係)に過度に依存しており、out-of-distribution( ood)テストセットで性能が低下していることが示されている。 この行為はそれらの一般化性を制限し、現実の状況での利用を制限する。 本稿では,質問エンコーダで使用されるシーケンスモデルアーキテクチャが,VQAモデルの一般化に重要な役割を果たすことを示す。 そこで本研究では,既存のrnnベースおよびtransformerベースの質問エンコーダの詳細な解析を行い,新しいグラフアテンションネットワーク(gat)ベースの質問エンコーダを提案する。 質問エンコーダにおけるシーケンスモデルのより良い選択は、より複雑なバイアス緩和アプローチを使わずに、VQAモデルの一般化性を向上することを発見した。

Generalizing beyond the experiences has a significant role in developing practical AI systems. It has been shown that current Visual Question Answering (VQA) models are over-dependent on the language-priors (spurious correlations between question-types and their most frequent answers) from the train set and pose poor performance on Out-of-Distribution (OOD) test sets. This conduct limits their generalizability and restricts them from being utilized in real-world situations. This paper shows that the sequence model architecture used in the question-encoder has a significant role in the generalizability of VQA models. To demonstrate this, we performed a detailed analysis of various existing RNN-based and Transformer-based question-encoders, and along, we proposed a novel Graph attention network (GAT)-based question-encoder. Our study found that a better choice of sequence model in the question-encoder improves the generalizability of VQA models even without using any additional relatively complex bias-mitigation approaches.
翻訳日:2021-08-31 14:44:14 公開日:2021-08-28
# threshold: 密結合畳み込みネットワークのためのプルーニングツール

Threshold: Pruning Tool for Densely Connected Convolutional Networks ( http://arxiv.org/abs/2108.12604v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Ting-Yu Lin, Jen-Shiun Chiang(参考訳) ディープニューラルネットワークはコンピュータビジョンの分野で大きな進歩を遂げている。 近年の研究では、ニューラルネットワークアーキテクチャの深さ、幅、ショートカット接続が、その性能において重要な役割を果たすことが示されている。 最も先進的なニューラルネットワークアーキテクチャのひとつであるDenseNetは、高密度接続による優れた収束率を達成した。 しかし、メモリ使用量にはまだ明らかな欠点がある。 本稿では,MOSFETにおけるしきい値電圧の原理を参考に,新しいタイプのプルーニングツール「しきい値」を提案する。 この手法は、異なる深さのブロックを異なる方法で接続し、メモリの使用を減らすために使用される。 ThresholdNetと表記される。 フロッピーとメモリ使用量の異なるネットワークとしきい値ネットを比較した結果,しきい値ネットのメモリ使用量は,元々のdungnetより70%少ないことがわかった。

Deep neural networks have made significant progress in the field of computer vision. Recent studies have shown that depth, width and shortcut connections of neural network architectures play a crucial role in their performance. One of the most advanced neural network architectures, DenseNet, has achieved excellent convergence rates through dense connections. However, it still has obvious shortcomings in the usage of amount of memory. In this paper, we introduce a new type of pruning tool, threshold, which refers to the principle of the threshold voltage in MOSFET. This work employs this method to connect blocks of different depths in different ways to reduce the usage of memory. It is denoted as ThresholdNet. We compare ThresholdNet with other different networks for FLOPs and memory usage, and the experiments show that ThresholdNet is 70% less memory than that of the original DenseNet.
翻訳日:2021-08-31 14:43:54 公開日:2021-08-28
# リモートセンシング画像の道路分割のための適応的自己訓練による段階的教師なし領域適応

Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training for Road Segmentation of Remote Sensing Images ( http://arxiv.org/abs/2108.12611v1 )

ライセンス: Link先を確認
Lefei Zhang, Meng Lan, Jing Zhang, Dacheng Tao(参考訳) リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。 ディープニューラルネットワークは、大規模ラベル付きデータのパワーを活用することによって、この分野を進歩させてきた。 ひとつの解決策は、安価な利用可能なデータを使ってモデルをトレーニングし、それをデプロイして、特定のアプリケーションドメインから直接データを処理することです。 それでも、よく知られたドメインシフト(DS)問題は、トレーニングされたモデルがターゲットドメイン上でうまく一般化することを妨げる。 本稿では,この分野におけるDS問題に対処するため,RoadDAと呼ばれる段階的ドメイン適応モデルを提案する。 最初の段階では、RoadDAはターゲットドメインの特徴をGAN(Generative Adversarial Network)ベースのドメイン間適応を介してソースドメインと整合させる。 特に、長細い道路の情報損失を回避し、識別的でロバストな特徴を学ぶために、特徴ピラミッド融合モジュールが考案されている。 また,対象ドメインにおけるドメイン内不一致に対処するため,第2段階では,対向自己学習法を提案する。 我々は、訓練されたジェネレータを用いてターゲットドメインの擬似ラベルを生成し、道路信頼度スコアに基づいて、容易な分割と未ラベルのハード分割に分割する。 ハード分割の特徴は、対角学習を用いた容易な特徴と整合し、ドメイン内適応プロセスを繰り返してセグメント化性能を段階的に改善する。 2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。

Road segmentation from remote sensing images is a challenging task with wide ranges of application potentials. Deep neural networks have advanced this field by leveraging the power of large-scale labeled data, which, however, are extremely expensive and time-consuming to acquire. One solution is to use cheap available data to train a model and deploy it to directly process the data from a specific application domain. Nevertheless, the well-known domain shift (DS) issue prevents the trained model from generalizing well on the target domain. In this paper, we propose a novel stagewise domain adaptation model called RoadDA to address the DS issue in this field. In the first stage, RoadDA adapts the target domain features to align with the source ones via generative adversarial networks (GAN) based inter-domain adaptation. Specifically, a feature pyramid fusion module is devised to avoid information loss of long and thin roads and learn discriminative and robust features. Besides, to address the intra-domain discrepancy in the target domain, in the second stage, we propose an adversarial self-training method. We generate the pseudo labels of target domain using the trained generator and divide it to labeled easy split and unlabeled hard split based on the road confidence scores. The features of hard split are adapted to align with the easy ones using adversarial learning and the intra-domain adaptation process is repeated to progressively improve the segmentation performance. Experiment results on two benchmarks demonstrate that RoadDA can efficiently reduce the domain gap and outperforms state-of-the-art methods.
翻訳日:2021-08-31 14:43:39 公開日:2021-08-28
# 教師なしクロスドメインオブジェクト検出のための不確実性認識モデル適応

Uncertainty-Aware Model Adaptation for Unsupervised Cross-Domain Object Detection ( http://arxiv.org/abs/2108.12612v1 )

ライセンス: Link先を確認
Minjie Cai, Minyi Luo, Xionghu Zhong, Hao Chen(参考訳) 本研究は、事前学習対象検出器をラベルなしで新しいターゲットドメインに一般化することを目的とした、教師なしのクロスドメインオブジェクト検出問題に取り組む。 1)新しい領域におけるモデル不確実性の推定と活用は信頼性の高いドメイン適応には不可欠であり,2)入力(特徴のアライメント)と出力(自己学習)のための分布の協調的アライメントが必要である。 そこで我々は,物体検出における不確実性推定のためのベイズCNNベースのフレームワークを構築し,不確実性を考慮した擬似ラベル生成アルゴリズムを提案する。 また,不確実性を認識した擬似ラベルを用いたオブジェクト検出モデルの協調的特徴アライメントと自己学習の手法も考案した。 複数のクロスドメインオブジェクト検出ベンチマーク実験により,提案手法が最先端性能を実現することを示す。

This work tackles the unsupervised cross-domain object detection problem which aims to generalize a pre-trained object detector to a new target domain without labels. We propose an uncertainty-aware model adaptation method, which is based on two motivations: 1) the estimation and exploitation of model uncertainty in a new domain is critical for reliable domain adaptation; and 2) the joint alignment of distributions for inputs (feature alignment) and outputs (self-training) is needed. To this end, we compose a Bayesian CNN-based framework for uncertainty estimation in object detection, and propose an algorithm for generation of uncertainty-aware pseudo-labels. We also devise a scheme for joint feature alignment and self-training of the object detection model with uncertainty-aware pseudo-labels. Experiments on multiple cross-domain object detection benchmarks show that our proposed method achieves state-of-the-art performance.
翻訳日:2021-08-31 14:43:13 公開日:2021-08-28
# AP-10K:野生における動物行動推定のベンチマーク

AP-10K: A Benchmark for Animal Pose Estimation in the Wild ( http://arxiv.org/abs/2108.12617v1 )

ライセンス: Link先を確認
Hang Yu, Yufei Xu, Jing Zhang, Wei Zhao, Ziyu Guan, Dacheng Tao(参考訳) 正確な動物のポーズ推定は動物の行動を理解するための重要なステップであり、野生生物保護のような下流の多くの応用に利益をもたらす可能性がある。 以前の研究は特定の動物にのみ焦点をあて、動物種の多様性を無視して一般化能力を制限する。 本稿では,動物ポーズ推定における研究を容易にするために,動物ポーズ推定のための最初の大規模ベンチマークであるAP-10Kを提案する。 AP-10Kは、23の動物科と60の種から収集・フィルタリングされた10,015の画像と、手動でラベル付けされた高品質なキーポイントアノテーションから構成されている。 ap-10kに基づいて,(1)動物のポーズ推定のための教師付き学習,(2)人的ポーズ推定から動物的ポーズ推定へのクロスドメイン・トランスファー学習,(3)目に見えない動物の家族内および家族間ドメインの一般化,の3つのトラックで代表的なポーズ推定モデルをベンチマークした。 実験結果は, 精度と一般化能力の両方の観点から, 多様な動物種からの学習の優位性に関する実験的な証拠を提供する。 動物のポーズ推定の将来の研究を促進するための新しい方向を開く。 AP-10kはhttps://github.com/A lexTheBad/AP10Kで公開されている。

Accurate animal pose estimation is an essential step towards understanding animal behavior, and can potentially benefit many downstream applications, such as wildlife conservation. Previous works only focus on specific animals while ignoring the diversity of animal species, limiting the generalization ability. In this paper, we propose AP-10K, the first large-scale benchmark for general animal pose estimation, to facilitate the research in animal pose estimation. AP-10K consists of 10,015 images collected and filtered from 23 animal families and 60 species following the taxonomic rank and high-quality keypoint annotations labeled and checked manually. Based on AP-10K, we benchmark representative pose estimation models on the following three tracks: (1) supervised learning for animal pose estimation, (2) cross-domain transfer learning from human pose estimation to animal pose estimation, and (3) intra- and inter-family domain generalization for unseen animals. The experimental results provide sound empirical evidence on the superiority of learning from diverse animals species in terms of both accuracy and generalization ability. It opens new directions for facilitating future research in animal pose estimation. AP-10k is publicly available at https://github.com/A lexTheBad/AP10K.
翻訳日:2021-08-31 14:42:59 公開日:2021-08-28
# groupformer:クラスタ型空間時空間トランスフォーマによるグループアクティビティ認識

GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer ( http://arxiv.org/abs/2108.12630v1 )

ライセンス: Link先を確認
Shuaicheng Li, Qianggang Cao, Lingbo Liu, Kunlin Yang, Shinan Liu, Jun Hou and Shuai Yi(参考訳) グループ活動認識は、個人間の空間的時間的相互作用を完全に探索し、合理的なグループ表現を生成することが中心となる重要な問題である。 しかし、従来の手法では、空間的情報と時間的情報を別々にモデル化するか、個別の特徴を直接集約してグループの特徴を形成する。 そこで本稿では,グループ活動認識ネットワークであるgroupformerを提案する。 個人とグループ表現をクラスタ化された時空間変換器で効果的に増強する。 具体的には, グループフォーマーには3つの利点がある: 1) 個別表現とグループ表現を強化するために, クラスタ化された空間時間変換器, テーラー修飾変換器を提案する。 2)空間的・時間的依存関係を総合的にモデル化し,デコーダを用いて空間的・時間的情報間の橋渡しを行う。 3) クラスタ化された注意機構を用いて個人を複数のクラスタに動的に分割し,アクティビティを意識したセマンティック表現を学習する。 さらに, バレーボールデータセットと集団活動データセットにおいて, 提案フレームワークが最先端手法よりも優れていることを示した。 コードはhttps://github.com/x ueyee/groupformerで入手できる。

Group activity recognition is a crucial yet challenging problem, whose core lies in fully exploring spatial-temporal interactions among individuals and generating reasonable group representations. However, previous methods either model spatial and temporal information separately, or directly aggregate individual features to form group features. To address these issues, we propose a novel group activity recognition network termed GroupFormer. It captures spatial-temporal contextual information jointly to augment the individual and group representations effectively with a clustered spatial-temporal transformer. Specifically, our GroupFormer has three appealing advantages: (1) A tailor-modified Transformer, Clustered Spatial-Temporal Transformer, is proposed to enhance the individual representation and group representation. (2) It models the spatial and temporal dependencies integrally and utilizes decoders to build the bridge between the spatial and temporal information. (3) A clustered attention mechanism is utilized to dynamically divide individuals into multiple clusters for better learning activity-aware semantic representations. Moreover, experimental results show that the proposed framework outperforms state-of-the-art methods on the Volleyball dataset and Collective Activity dataset. Code is available at https://github.com/x ueyee/GroupFormer.
翻訳日:2021-08-31 14:42:38 公開日:2021-08-28
# ラベルのないビデオからオブジェクトを追跡する学習

Learning to Track Objects from Unlabeled Videos ( http://arxiv.org/abs/2108.12711v1 )

ライセンス: Link先を確認
Jilai Zheng, Chao Ma, Houwen Peng and Xiaokang Yang(参考訳) 本稿では,Unsupervised Single Object Tracker (USOT) をスクラッチから学習することを提案する。 我々は、オブジェクト発見、リッチな時間的変動回避、オンライン更新という3つの大きな課題が、既存の教師なしトラッカーのパフォーマンスボトルネックの中心的な原因であると特定した。 教師なしトラッカと教師なしトラッカのギャップを狭めるため,3段階からなる効果的な教師なし学習手法を提案する。 まず、ランダムな切り抜きではなく、教師なしの光フローと動的プログラミングで順次動くオブジェクトをサンプリングする。 第2に、単一フレームペアを使用して、ネイティブなSiameseトラッカーをスクラッチからトレーニングする。 第3に,トラッカを長い時間スパンで実行し,オンライン更新を可能にする,新たなサイクルメモリ学習スキームによるトレーニングを継続する。 広範囲にわたる実験の結果、unlabeledビデオから得られたusotは、最先端のunsupervisedトラッカーよりも大きなマージンで、そして最近のsupervised deep trackerと同等の性能を発揮していることがわかった。 コードはhttps://github.com/V ISION-SJTU/USOTで入手できる。

In this paper, we propose to learn an Unsupervised Single Object Tracker (USOT) from scratch. We identify that three major challenges, i.e., moving object discovery, rich temporal variation exploitation, and online update, are the central causes of the performance bottleneck of existing unsupervised trackers. To narrow the gap between unsupervised trackers and supervised counterparts, we propose an effective unsupervised learning approach composed of three stages. First, we sample sequentially moving objects with unsupervised optical flow and dynamic programming, instead of random cropping. Second, we train a naive Siamese tracker from scratch using single-frame pairs. Third, we continue training the tracker with a novel cycle memory learning scheme, which is conducted in longer temporal spans and also enables our tracker to update online. Extensive experiments show that the proposed USOT learned from unlabeled videos performs well over the state-of-the-art unsupervised trackers by large margins, and on par with recent supervised deep trackers. Code is available at https://github.com/V ISION-SJTU/USOT.
翻訳日:2021-08-31 14:42:18 公開日:2021-08-28
# 不整合性頭部電位によるDeepFake検出:再現性と解析

DeepFake Detection with Inconsistent Head Poses: Reproducibility and Analysis ( http://arxiv.org/abs/2108.12715v1 )

ライセンス: Link先を確認
Kevin Lutz and Robert Bassett(参考訳) ディープラーニングの合成メディア生成への応用により、DeepFakesと呼ばれる説得力のある偽造物を作ることができる。 DeepFake検出は、ますます活発な研究分野である。 本稿では,自動エンコーダベースの顔スワップを用いて偽画像を生成する場合に適用可能な頭部位置推定に基づく既存のディープフェイク検出手法を分析する。 既存の文献では、この手法は有効なDeepFake検出器であり、その動機付け原理は魅力的に単純である。 これらの原理を新しいDeepFake検出器の開発に活用することを目的として,本手法の再現性の検討を行った。 我々は、その名声にもかかわらず、そのメリットは劇的に誇張されていると結論づける。 この差異を調べることで、deepfake検出器における顔のランドマーク検出、アイデンティティ非依存な頭部ポーズ推定、アルゴリズムバイアスに関する、多くの重要かつ一般化された洞察を明らかにする。 以上の結果から,DeepFake検出のためのアートパフォーマンスに対する現在の文献の認識を正すことができた。

Applications of deep learning to synthetic media generation allow the creation of convincing forgeries, called DeepFakes, with limited technical expertise. DeepFake detection is an increasingly active research area. In this paper, we analyze an existing DeepFake detection technique based on head pose estimation, which can be applied when fake images are generated with an autoencoder-based face swap. Existing literature suggests that this method is an effective DeepFake detector, and its motivating principles are attractively simple. With an eye towards using these principles to develop new DeepFake detectors, we conduct a reproducibility study of the existing method. We conclude that its merits are dramatically overstated, despite its celebrated status. By investigating this discrepancy we uncover a number of important and generalizable insights related to facial landmark detection, identity-agnostic head pose estimation, and algorithmic bias in DeepFake detectors. Our results correct the current literature's perception of state of the art performance for DeepFake detection.
翻訳日:2021-08-31 14:41:58 公開日:2021-08-28
# 内在的動機づけエージェントに対する影響に基づく強化学習

Influence-based Reinforcement Learning for Intrinsically-motiva ted Agents ( http://arxiv.org/abs/2108.12581v1 )

ライセンス: Link先を確認
Ammar Fayad, Majd Ibrahim(参考訳) 強化学習(RL)研究領域は非常に活発であり、いくつかの重要な応用がある。 しかしながら、特定のタスクを解決しながら十分な探索と調整を達成するポリシーを見つける能力について言及できるような、特定の課題に対処する必要がある。 本研究では、2つのRLエージェントをそれぞれ異なる目的を持つアルゴリズムフレームワークを提案する。 我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。 F$を$\pi$の目的の正規化子として最適化する一方で、エージェントはソリューション空間の高逆領域を利用してチームの振る舞いを調整することを学ぶ。 さらに、どちらのエージェントも予測エラーを本質的な動機付けとして使用し、可能な限り異なる振る舞いをするポリシを学ぶ。 本手法は, エージェント集団が様々な身体的, 情報的コーディネーション戦略を発見でき, 有名なベースラインと比較して, 最先端のパフォーマンスを示すことができる, オープンAIジムタスクと協調・混合シナリオを用いて評価した。

The reinforcement learning (RL) research area is very active, with several important applications. However, certain challenges still need to be addressed, amongst which one can mention the ability to find policies that achieve sufficient exploration and coordination while solving a given task. In this work, we present an algorithmic framework of two RL agents each with a different objective. We introduce a novel function approximation approach to assess the influence $F$ of a certain policy on others. While optimizing $F$ as a regularizer of $\pi$'s objective, agents learn to coordinate team behavior while exploiting high-reward regions of the solution space. Additionally, both agents use prediction error as intrinsic motivation to learn policies that behave as differently as possible, thus achieving the exploration criterion. Our method was evaluated on the suite of OpenAI gym tasks as well as cooperative and mixed scenarios, where agent populations are able to discover various physical and informational coordination strategies, showing state-of-the-art performance when compared to famous baselines.
翻訳日:2021-08-31 14:32:45 公開日:2021-08-28
# 連続学習のためのプロトタイプ誘導メモリリプレイ

Prototypes-Guided Memory Replay for Continual Learning ( http://arxiv.org/abs/2108.12641v1 )

ライセンス: Link先を確認
Stella Ho, Ming Liu, Lan Du, Longxiang Gao and Yong Xiang(参考訳) 継続学習(英: Continual Learning, CL)とは、学習性能を高めるために、トレーニングサンプルの小さな記述と以前に学んだ知識のみを使用する機械学習パラダイムである。 CLモデルは、様々なドメインから連続的にタスクを学習する。 CLの最大の困難は、データ分布の変化によって引き起こされた、以前に学習されたタスクの破滅的な忘れである。 既存のCLモデルは、しばしば破滅的な忘れを抑えるためにリプレイベースのアプローチを採用する。 ほとんどのCLモデルは、学習知識を保持するために、前に見たサンプルを確率的に選択する。 しかし、占有メモリサイズは学習タスクの蓄積とともに拡大し続ける。 本稿ではメモリ効率のよいcl法を提案する。 我々は動的プロトタイプによるメモリリプレイモジュールを考案し,それをオンラインメタラーニングモデルに組み込む。 テキスト分類に関する広範な実験を行い,clモデル性能に対する集合順序の訓練の効果についても検討した。 実験により, 破滅的忘れを緩和し, 効率的な知識伝達を可能にする方法の優位性を検証した。

Continual learning (CL) refers to a machine learning paradigm that using only a small account of training samples and previously learned knowledge to enhance learning performance. CL models learn tasks from various domains in a sequential manner. The major difficulty in CL is catastrophic forgetting of previously learned tasks, caused by shifts in data distributions. The existing CL models often employ a replay-based approach to diminish catastrophic forgetting. Most CL models stochastically select previously seen samples to retain learned knowledge. However, occupied memory size keeps enlarging along with accumulating learned tasks. Hereby, we propose a memory-efficient CL method. We devise a dynamic prototypes-guided memory replay module, incorporating it into an online meta-learning model. We conduct extensive experiments on text classification and additionally investigate the effect of training set orders on CL model performance. The experimental results testify the superiority of our method in alleviating catastrophic forgetting and enabling efficient knowledge transfer.
翻訳日:2021-08-31 14:32:26 公開日:2021-08-28
# 重みプラニングと量子化による畳み込みニューラルネットワークのコンパクト表現

Compact representations of convolutional neural networks via weight pruning and quantization ( http://arxiv.org/abs/2108.12704v1 )

ライセンス: Link先を確認
Giosu\`e Cataldo Marin\`o, Alessandro Petrini, Dario Malchiodi, Marco Frasca(参考訳) いくつかの現実世界の問題に対する最先端のパフォーマンスは現在、畳み込みニューラルネットワーク(CNN)によって達成されている。 このような学習モデルは、ディープラーニングの分野における最近の結果を利用しており、通常は(少なくとも)数百万のパラメータを持つ高性能で、非常に大きなニューラルネットワークにつながる。 その結果、少量のramしか利用できない場合、あるいはリソース制限されたプラットフォーム内でのみ、そのようなモデルのデプロイは不可能となり、cnnを圧縮する戦略が最重要になった。 本稿では、ソース符号化と重み付けと量子化の両面を利用した新しいCNNのロスレスストレージフォーマットを提案する。 理論的には、提案した構造に対する空間上界を導出し、重み行列の空間性と量子化レベルとの関係を示す。 行列圧縮の基準法に対して圧縮速度と抽出時間の両方を試験し, 重み共有に基づく最先端量子化スキームの実証評価を行い, 畳み込み層と完全連結層の両方に適用した場合の性能への影響について検討した。 分類と回帰問題に対する4つのベンチマークと、ベースライン未圧縮ネットワークとの比較により、全接続層で最大0.6%、ネットワーク全体で最大5.44%の空間占有率を達成し、少なくともベースラインと同じくらいの競争力を発揮した。

The state-of-the-art performance for several real-world problems is currently reached by convolutional neural networks (CNN). Such learning models exploit recent results in the field of deep learning, typically leading to highly performing, yet very large neural networks with (at least) millions of parameters. As a result, the deployment of such models is not possible when only small amounts of RAM are available, or in general within resource-limited platforms, and strategies to compress CNNs became thus of paramount importance. In this paper we propose a novel lossless storage format for CNNs based on source coding and leveraging both weight pruning and quantization. We theoretically derive the space upper bounds for the proposed structures, showing their relationship with both sparsity and quantization levels of the weight matrices. Both compression rates and excution times have been tested against reference methods for matrix compression, and an empirical evaluation of state-of-the-art quantization schemes based on weight sharing is also discussed, to assess their impact on the performance when applied to both convolutional and fully connected layers. On four benchmarks for classification and regression problems and comparing to the baseline pre-trained uncompressed network, we achieved a reduction of space occupancy up to 0.6% on fully connected layers and 5.44% on the whole network, while performing at least as competitive as the baseline.
翻訳日:2021-08-31 14:32:14 公開日:2021-08-28
# 任意の確率的タスクと動作ポリシー

Anytime Stochastic Task and Motion Policies ( http://arxiv.org/abs/2108.12537v1 )

ライセンス: Link先を確認
Naman Shah, Siddharth Srivastava(参考訳) 複雑な長期的タスクを解決するためには、インテリジェントロボットは、動き計画と連動して高度な抽象的な計画と推論を実行する必要がある。 しかし、抽象モデルは一般的に損失が多く、それらを用いて計算された計画やポリシーは実行不可能である。 これらの問題は、ロボットが複数の状況について推論し計画する必要がある確率論的状況において悪化する。 確率的設定におけるタスクと動作計画の統合のための新しいアプローチを提案する。 この方向の先行作業とは対照的に,本手法では,複数の実行時コンティンジェンシーを処理するエージェントの振る舞いを分岐構造がエンコードする統合タスクとモーションポリシを効果的に計算できることを示す。 提案アルゴリズムは確率論的に完全であり,任意の方法で実現可能な解法ポリシーを計算し,未解決の並行性に遭遇する確率が時間の経過とともに減少することを示す。 課題の集合に関する実証的な結果は,本手法の有用性と適用範囲を示している。

In order to solve complex, long-horizon tasks, intelligent robots need to carry out high-level, abstract planning and reasoning in conjunction with motion planning. However, abstract models are typically lossy and plans or policies computed using them can be inexecutable. These problems are exacerbated in stochastic situations where the robot needs to reason about and plan for multiple contingencies. We present a new approach for integrated task and motion planning in stochastic settings. In contrast to prior work in this direction, we show that our approach can effectively compute integrated task and motion policies whose branching structures encode agent behaviors that handle multiple execution-time contingencies. We prove that our algorithm is probabilistically complete and can compute feasible solution policies in an anytime fashion so that the probability of encountering an unresolved contingency decreases over time. Empirical results on a set of challenging problems show the utility and scope of our method.
翻訳日:2021-08-31 14:28:58 公開日:2021-08-28
# CHAINGE: サブスクリプションサービスの支払い詳細アップデートを自動化するブロックチェーンソリューション

CHAINGE: A Blockchain Solution to Automate Payment Detail Updates to Subscription Services ( http://arxiv.org/abs/2108.12705v1 )

ライセンス: Link先を確認
David Buckley, Gueltoum Bendiab, Stavros Shiaeles, Nick Savage, Nicholas Kolokotronis(参考訳) サブスクリプションベースのビジネスモデルの台頭は、顧客が支払いを管理する必要があるサブスクリプションの数の増加につながった。 複数のサブスクリプションに対する支払いの管理は、特にカードが失われたり、盗まれたり、期限切れになったりした場合、顧客にとって非常に複雑で安全でないタスクとなっている。 さらに、主に手動で行うこのプロセスは、人間のエラー、デジタル詐欺、データ漏洩に対して脆弱である、とセキュリティレポートは述べている。 そこで本稿では,ユーザサブスクリプションへの支払いを更新・管理するプロセスにおいて,金融サプライチェーンを自動化・管理・簡素化する新たなアプローチを提案する。 これはHyperledger Sawtoothブロックチェーンフレームワークを利用して、消費者が支払いカードの詳細を中央のデジタルウォレットに入力し、サブスクリプションをカードにリンクすることを可能にする。 カードが更新されると、ブロックチェーン上のイベントがトリガーされ、支払いの詳細がサブスクリプションシステムで自動的に更新される。 提案システムのプロトタイプで実施した検証テストは,その実装が確実に達成されていることを示す。

The rise of the subscription-based business model has led to a corresponding increase in the number of subscriptions where a customer needs to manage their payments. This management of payments for multiple subscriptions has become a very complicated and insecure task for customers, especially when it comes to renewing payment details when the card is lost, stolen, or expires. In addition, this, mostly manual, process is vulnerable to human error, digital frauds, and data breaches, according to security reports. Thus, in this paper, we propose a novel approach to automate, manage and simplify the Financial Supply Chain involved in the process of updating and managing payments to user subscriptions. This is done by utilising the Hyperledger Sawtooth blockchain framework, that allows a consumer to enter their payment card details in a central digital wallet and link their subscriptions to their cards. The card being updated triggers an event on the blockchain, which allow for the payment details to be updated on subscription systems automatically. The verification tests performed on the prototype of the proposed system shows that its current implementation has been securely achieved.
翻訳日:2021-08-31 14:28:43 公開日:2021-08-28
# スペクトルスナップショット圧縮イメージングのための自己教師型ニューラルネットワーク

Self-supervised Neural Networks for Spectral Snapshot Compressive Imaging ( http://arxiv.org/abs/2108.12654v1 )

ライセンス: Link先を確認
Ziyi Meng and Zhenming Yu and Kun Xu and Xin Yuan(参考訳) 我々は,2次元(通常3次元)検出器を用いて高次元(通常3次元)データキューブを圧縮的にキャプチャする,スナップショット圧縮イメージング(SCI)の再構成問題を解決するために,.bf\em未学習ニューラルネットワークを用いる。 近年、高速ビデオやハイパースペクトル画像などのデータを取り込むために様々なsciシステムが構築され、ディープニューラルネットワークによって最先端の再構築が得られている。 しかし、これらのネットワークのほとんどは、しばしばシミュレーションされた地上真理、測定ペアを持つ大量のコーパスによってエンドツーエンドで訓練されている。 本稿では,DIP(Deep Image Priors)やディープデコーダ(Deep Decoder)といった未学習のニューラルネットワークにヒントを得て,DIPをプラグアンドプレイシステムに統合して,スペクトルSCI再構成のための自己教師型ネットワークを構築する。 広範な合成データと実データの結果から,提案アルゴリズムはトレーニングベースネットワークと競合する結果が得られることがわかった。 さらに,提案手法を事前学習したディープデノゲーションと統合することにより,最先端の成果を得た。 Our コードは \url{https://github.com/m engziyi64/CASSI-Self -Supervised} で利用可能である。

We consider using {\bf\em untrained neural networks} to solve the reconstruction problem of snapshot compressive imaging (SCI), which uses a two-dimensional (2D) detector to capture a high-dimensional (usually 3D) data-cube in a compressed manner. Various SCI systems have been built in recent years to capture data such as high-speed videos, hyperspectral images, and the state-of-the-art reconstruction is obtained by the deep neural networks. However, most of these networks are trained in an end-to-end manner by a large amount of corpus with sometimes simulated ground truth, measurement pairs. In this paper, inspired by the untrained neural networks such as deep image priors (DIP) and deep decoders, we develop a framework by integrating DIP into the plug-and-play regime, leading to a self-supervised network for spectral SCI reconstruction. Extensive synthetic and real data results show that the proposed algorithm without training is capable of achieving competitive results to the training based networks. Furthermore, by integrating the proposed method with a pre-trained deep denoising prior, we have achieved state-of-the-art results. {Our code is available at \url{https://github.com/m engziyi64/CASSI-Self -Supervised}.}
翻訳日:2021-08-31 14:27:20 公開日:2021-08-28
# 非局所クラマー・モヤル公式による確率的統治則の抽出

Extracting Stochastic Governing Laws by Nonlocal Kramers-Moyal Formulas ( http://arxiv.org/abs/2108.12570v1 )

ライセンス: Link先を確認
Yubin Lu, Yang Li and Jinqiao Duan(参考訳) 計算技術と科学ツールの急速な開発により、データから動的システムの法則を抽出するデータ駆動分析が大幅に進歩した。 非ガウス的ゆらぎの広さにもかかわらず、非ガウス的L'evyノイズを持つ確率微分方程式を同定する効果的なデータ駆動法は、今のところ比較的少ない。 本研究では,(ガウシアン)ブラウン運動と(非ガウシアン)l\'evy運動の両方の確率的支配則を,短いシミュレーションデータから抽出するデータ駆動手法を提案する。 具体的には,データから遷移確率密度関数(非局所フォッカー・プランク方程式の解法)を推定するために正規化流れ技術を用い,最近提案された非局所クラマーズ・モヤル公式に置き換え,l\'evy jump測度,ドリフト係数,拡散係数を近似する。 このアプローチがL'evy運動を伴う確率微分方程式を学習できることを実証する。 本手法を説明するために, 1次元および2次元のデカップリング結合系を用いて実例を示す。 このアプローチは確率的統治法則を発見し、複雑な力学挙動を理解するための効果的なツールとなる。

With the rapid development of computational techniques and scientific tools, great progress of data-driven analysis has been made to extract governing laws of dynamical systems from data. Despite the wide occurrences of non-Gaussian fluctuations, the effective data-driven methods to identify stochastic differential equations with non-Gaussian L\'evy noise are relatively few so far. In this work, we propose a data-driven approach to extract stochastic governing laws with both (Gaussian) Brownian motion and (non-Gaussian) L\'evy motion, from short bursts of simulation data. Specifically, we use the normalizing flows technology to estimate the transition probability density function (solution of nonlocal Fokker-Planck equation) from data, and then substitute it into the recently proposed nonlocal Kramers-Moyal formulas to approximate L\'evy jump measure, drift coefficient and diffusion coefficient. We demonstrate that this approach can learn the stochastic differential equation with L\'evy motion. We present examples with one- and two-dimensional, decoupled and coupled systems to illustrate our method. This approach will become an effective tool for discovering stochastic governing laws and understanding complex dynamical behaviors.
翻訳日:2021-08-31 14:24:29 公開日:2021-08-28
# 空間DNN加速器のパワーベース攻撃

Power-Based Attacks on Spatial DNN Accelerators ( http://arxiv.org/abs/2108.12579v1 )

ライセンス: Link先を確認
Ge Li, Mohit Tiwari, and Michael Orshansky(参考訳) DNNベースのアプリケーションの普及に伴い、DNNモデルの機密性は重要な商業目標である。 行列/ベクトル演算を並列化する空間加速器は、DNN計算のエネルギー効率を高めるために使用される。 近年,DPA(差分電力解析)による暗号デバイスへの攻撃から導いた手法を用いて,単純なアクセルに対するモデル抽出攻撃を,単一の処理要素やバイナライズされたネットワーク上で行った。 本稿では,一般,8ビット数表現を用いた現実空間加速器の脆弱性について検討する。 本研究では,(1)ドット積演算のための3$\times$ 1配列,(2)行列ベクトル乗算のための3$\times$ 3配列の2つのsystolic配列アーキテクチャについて検討した。 どちらもSAkura-G FPGAボード上に実装されている。 両方のアーキテクチャが最終的に脆弱であることを示します。 従来のDPAは1Dアレイで完全に成功し、20Kの電力測定を必要とする。 しかし、2Dアレイは460Kのトレースでも高いセキュリティを示す。 これは、2D配列が本質的に同じ入力に依存する複数のMACを同時に持つためである。 しかし,複数のプロファイリングフェーズを持つテンプレートベースの新しいDPAは,40Kのトレースしか持たない2次元配列を完全に破壊できることがわかった。 空間的DNN加速器の対応策を検討する必要がある。

With proliferation of DNN-based applications, the confidentiality of DNN model is an important commercial goal. Spatial accelerators, that parallelize matrix/vector operations, are utilized for enhancing energy efficiency of DNN computation. Recently, model extraction attacks on simple accelerators, either with a single processing element or running a binarized network, were demonstrated using the methodology derived from differential power analysis (DPA) attack on cryptographic devices. This paper investigates the vulnerability of realistic spatial accelerators using general, 8-bit, number representation. We investigate two systolic array architectures with weight-stationary dataflow: (1) a 3 $\times$ 1 array for a dot-product operation, and (2) a 3 $\times$ 3 array for matrix-vector multiplication. Both are implemented on the SAKURA-G FPGA board. We show that both architectures are ultimately vulnerable. A conventional DPA succeeds fully on the 1D array, requiring 20K power measurements. However, the 2D array exhibits higher security even with 460K traces. We show that this is because the 2D array intrinsically entails multiple MACs simultaneously dependent on the same input. However, we find that a novel template-based DPA with multiple profiling phases is able to fully break the 2D array with only 40K traces. Corresponding countermeasures need to be investigated for spatial DNN accelerators.
翻訳日:2021-08-31 14:23:13 公開日:2021-08-28
# 忘れることなく新しい知識を学習するための表現記憶

Representation Memorization for Fast Learning New Knowledge without Forgetting ( http://arxiv.org/abs/2108.12596v1 )

ライセンス: Link先を確認
Fei Mi, Tao Lin, and Boi Faltings(参考訳) 新しい知識(例えば、新しい知識)を素早く学ぶ能力 新しいクラスやデータ分布)は人間レベルの知性への大きな一歩です。 本稿では,実世界の動的環境においてしばしば発生するため,新しいクラスやデータ分布の学習を迅速かつ漸進的に行うシナリオについて考察する。 我々は,この目標を統一されたフレームワークで達成するための2つの大きな課題(破滅的な忘れとサンプル効率)に取り組むために,メモリベースのヘビアンパラメータ適応(Hebb)を提案する。 壊滅的な忘れを緩和するため、hebbは通常の神経分類器を連続的に更新したメモリモジュールで増強し、以前のデータの表現を格納する。 サンプル効率を向上させるために、メモリから取得した類似表現と出力ネットワークのパラメータを直接"配線"する、よく知られたヘビアン理論に基づくパラメータ適応手法を提案する。 我々は,様々な学習タスク(画像分類,言語モデル)と学習シナリオ(継続的な,インクリメンタル,オンライン)の広範な実験を通じて,hebbの優れた性能を実証する。 hebbは破滅的な忘れを効果的に軽減し、現在の最先端技術よりも、新しい知識をより良く、より速く学習できることを実証する。

The ability to quickly learn new knowledge (e.g. new classes or data distributions) is a big step towards human-level intelligence. In this paper, we consider scenarios that require learning new classes or data distributions quickly and incrementally over time, as it often occurs in real-world dynamic environments. We propose "Memory-based Hebbian Parameter Adaptation" (Hebb) to tackle the two major challenges (i.e., catastrophic forgetting and sample efficiency) towards this goal in a unified framework. To mitigate catastrophic forgetting, Hebb augments a regular neural classifier with a continuously updated memory module to store representations of previous data. To improve sample efficiency, we propose a parameter adaptation method based on the well-known Hebbian theory, which directly "wires" the output network's parameters with similar representations retrieved from the memory. We empirically verify the superior performance of Hebb through extensive experiments on a wide range of learning tasks (image classification, language model) and learning scenarios (continual, incremental, online). We demonstrate that Hebb effectively mitigates catastrophic forgetting, and it indeed learns new knowledge better and faster than the current state-of-the-art.
翻訳日:2021-08-31 14:22:53 公開日:2021-08-28
# 強化学習によるサーバレスコンピューティングにおけるアイドルリソースのハーベスティング

Harvesting Idle Resources in Serverless Computing via Reinforcement Learning ( http://arxiv.org/abs/2108.12717v1 )

ライセンス: Link先を確認
Hanfei Yu, Hao Wang, Jian Li, Seung-Jong Park(参考訳) サーバレスコンピューティングは新しいクラウドコンピューティングパラダイムとなり、コスト効率が高く、自動化されたリソーススケーリングを細かい粒度で実現する。 クラウドアプリケーションをチェーン関数に分離し、各サーバレス関数のメモリとCPU要求をそれぞれメガバイトレベルとコアレベルにプリセットする。 サーバレスプラットフォームは、ワークロードに対応する関数数を自動的にスケールする。 しかし、連鎖関数の複雑さは、ユーザに対する各関数のリソース要求を正確に決定することが非自明であり、個々の関数のリソースオーバープロビジョンかアンダープロビジョンのいずれかに繋がる。 本稿では、過給関数から過給関数からアイドルリソースを動的に回収し、リソース効率を最大化するサーバーレスプラットフォーム向けの新しいリソースマネージャであるFaaSRMを提案する。 faasrmは、各機能のリソース利用をリアルタイムで監視し、過剰なプロビジョンと過度なプロビジョンを検出し、保護機構を用いて安全にアイドルリソースを収集し、効率的に機能を加速する。 我々は,FaaSRMのプロトタイプを13ノードのApache OpenWhiskクラスタに実装し,デプロイした。 OpenWhiskクラスタの実験結果によると、FaaSRMは38.8%のアイドルリソースを収穫し、39.2%の呼び出しを加速することにより、ファンクション呼び出しの98%の実行時間をベースラインRMと比較して35.81%削減している。

Serverless computing has become a new cloud computing paradigm that promises to deliver high cost-efficiency and simplified cloud deployment with automated resource scaling at a fine granularity. Users decouple a cloud application into chained functions and preset each serverless function's memory and CPU demands at megabyte-level and core-level, respectively. Serverless platforms then automatically scale the number of functions to accommodate the workloads. However, the complexities of chained functions make it non-trivial to accurately determine the resource demands of each function for users, leading to either resource over-provision or under-provision for individual functions. This paper presents FaaSRM, a new resource manager (RM) for serverless platforms that maximizes resource efficiency by dynamically harvesting idle resources from functions over-supplied to functions under-supplied. FaaSRM monitors each function's resource utilization in real-time, detects over-provisioning and under-provisioning, and applies deep reinforcement learning to harvest idle resources safely using a safeguard mechanism and accelerate functions efficiently. We have implemented and deployed a FaaSRM prototype in a 13-node Apache OpenWhisk cluster. Experimental results on the OpenWhisk cluster show that FaaSRM reduces the execution time of 98% of function invocations by 35.81% compared to the baseline RMs by harvesting idle resources from 38.8% of the invocations and accelerating 39.2% of the invocations.
翻訳日:2021-08-31 14:22:31 公開日:2021-08-28
# (参考訳) 説明可能なバイオメディカルテキスト分類のためのラベル注意型微調整事前学習言語モデル [全文訳有]

Fine-tuning Pretrained Language Models with Label Attention for Explainable Biomedical Text Classification ( http://arxiv.org/abs/2108.11809v2 )

ライセンス: CC BY-SA 4.0
Bruce Nguyen and Shaoxiong Ji(参考訳) デジタルバイオメディカルデータの大規模成長により、バイオメディカルテキストのインデクシングと分類がますます重要になっている。 そのため、以前の研究では、フィードフォワード、畳み込み、または反復的なニューラルアーキテクチャの使用に焦点を当てた多くのディープラーニング技術が考案された。 最近では、多くの自然言語処理タスクにおいて、微調整トランスフォーマーベース事前訓練モデル(PTM)は、そのようなモデルよりも優れた性能を示している。 しかし、バイオメディカル領域におけるPTMの直接使用は、ラベル記述の豊富な意味情報を無視して、対象文書のみに限られる。 本稿では,PTMの微調整プロセスに意味ラベル記述を注入する改良されたラベルアテンションに基づくアーキテクチャを提案する。 2つの公開医療データセットの結果、提案手法は従来の微調整PTMと先行技術モデルよりも優れていた。 さらに, ラベル注意機構による微調整は, 解釈可能性研究において解釈可能であることを示す。

The massive growth of digital biomedical data is making biomedical text indexing and classification increasingly important. Accordingly, previous research has devised numerous deep learning techniques focused on using feedforward, convolutional or recurrent neural architectures. More recently, fine-tuned transformers-based pretrained models (PTMs) have demonstrated superior performance compared to such models in many natural language processing tasks. However, the direct use of PTMs in the biomedical domain is only limited to the target documents, ignoring the rich semantic information in the label descriptions. In this paper, we develop an improved label attention-based architecture to inject semantic label description into the fine-tuning process of PTMs. Results on two public medical datasets show that the proposed fine-tuning scheme outperforms the conventionally fine-tuned PTMs and prior state-of-the-art models. Furthermore, we show that fine-tuning with the label attention mechanism is interpretable in the interpretability study.
翻訳日:2021-08-31 11:43:28 公開日:2021-08-28
# MCML:少しショットスロットタグ付けのための新しいメモリベースコントラストメタラーニング手法

MCML: A Novel Memory-based Contrastive Meta-Learning Method for Few Shot Slot Tagging ( http://arxiv.org/abs/2108.11635v2 )

ライセンス: Link先を確認
Hongru Wang, Zezhong Wang, Gabriel Pui Cheong Fung, Kam-Fai Wong(参考訳) メタラーニングは、数ショット学習のタスクにおいて、数ショットスロットタギングに広く使用されている。 しかし、既存手法の性能は破滅的な忘れ込みの影響を強く受けている。 この現象は、トレーニングとテストモジュールが歴史的情報、すなわち歴史的情報を考慮していないため、ディープラーニングでは一般的である。 メトリックベースのメタラーニングでトレーニング済みのエピソード。 そこで本研究では,メモリベースのContrastive Meta-learning(MCML)手法を提案する。 具体的には,前訓練されたエピソードのラベル表現の追跡に明示的なメモリを使用する学習・メモリ機構を提案し,少数のショットエピソードに埋め込まれた現在のラベルとメモリに記憶されている歴史的なラベルを比較し,テストエピソードに埋め込まれた入力ラベルとメモリ内のラベルクラスタとのコントラストに基づいて出力ラベルを決定する適応型メモリ機構を提案する。 実験の結果,mmlはsnipsデータセットの1ショット,5ショット,10ショット,20ショットのシナリオすべてにおいて,メトリクスベースのメタラーニングと最適化に基づくメタラーニングよりも優れていた。

Meta-learning is widely used for few-shot slot tagging in the task of few-shot learning. The performance of existing methods is, however, seriously affected by catastrophic forgetting. This phenomenon is common in deep learning as the training and testing modules fail to take into account historical information, i.e. previously trained episodes in the metric-based meta-learning. To overcome this predicament, we propose the Memory-based Contrastive Meta-learning (MCML) method. Specifically, we propose a learn-from-memory mechanism that use explicit memory to keep track of the label representations of previously trained episodes and propose a contrastive learning method to compare the current label embedded in the few shot episode with the historic ones stored in the memory, and an adaption-from memory mechanism to determine the output label based on the contrast between the input labels embedded in the test episode and the label clusters in the memory. Experimental results show that MCML is scalable and outperforms metric-based meta-learning and optimization-based meta-learning on all 1shot, 5-shot, 10-shot, and 20-shot scenarios of the SNIPS dataset.
翻訳日:2021-08-31 10:26:15 公開日:2021-08-28