このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210402)

# ビデオ会議のためのワンショット・フリービューニューラルトーキングヘッド合成

One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing ( http://arxiv.org/abs/2011.15126v3 )

ライセンス: Link先を確認
Ting-Chun Wang, Arun Mallya, Ming-Yu Liu(参考訳) ニューラルトークヘッドビデオ合成モデルを提案し,そのビデオ会議への応用を実証する。 本モデルでは,対象者の外見を含む音源画像と,出力中の動きを指示する駆動映像を用いて,対話映像の合成を学習する。 私たちの動きは、アイデンティティと動きに関する情報が教師なしに分解される、新しいキーポイント表現に基づいてエンコードされます。 我々のモデルはベンチマークデータセット上で競合する手法よりも優れていることを示す。 また、このコンパクトキーポイント表現により、商用h.264標準と同じ視覚品質を、帯域幅の10分の1のみを用いて実現するビデオ会議システムを実現する。 さらに,このキーポイント表現により,ユーザが合成中に頭部を回転させることができることを示し,対面ビデオ会議体験のシミュレーションに有用である。

We propose a neural talking-head video synthesis model and demonstrate its application to video conferencing. Our model learns to synthesize a talking-head video using a source image containing the target person's appearance and a driving video that dictates the motion in the output. Our motion is encoded based on a novel keypoint representation, where the identity-specific and motion-related information is decomposed unsupervisedly. Extensive experimental validation shows that our model outperforms competing methods on benchmark datasets. Moreover, our compact keypoint representation enables a video conferencing system that achieves the same visual quality as the commercial H.264 standard while only using one-tenth of the bandwidth. Besides, we show our keypoint representation allows the user to rotate the head during synthesis, which is useful for simulating face-to-face video conferencing experiences.
翻訳日:2021-06-06 14:42:06 公開日:2021-04-02
# 私たちはジョイント以上の存在です 3dの身体の動きを予測して

We are More than Our Joints: Predicting how 3D Bodies Move ( http://arxiv.org/abs/2012.00619v2 )

ライセンス: Link先を確認
Yan Zhang and Michael J. Black and Siyu Tang(参考訳) 人間の行動を理解するための重要なステップは、人間の3D動作の予測である。 成功したソリューションは、ヒューマントラッキング、HCI、グラフィックに多くの応用がある。 これまでの研究のほとんどは、過去からのシーケンス3dジョイントを与えられた将来の3dジョイントの位置の時系列を予測することに重点を置いている。 このユークリッド公式は一般に、ジョイント回転の観点でポーズを予測するよりもうまく機能する。 しかし、身体の関節位置は人間の3Dポーズを完全に制約せず、自由度は未定義のままであり、関節だけから現実的な人間をアニメーションすることは困難である。 3Dジョイントはスパース点雲と見ることができることに注意。 したがって、人間の動き予測の問題は点雲予測とみなすことができる。 この観察により, 物体表面における運動捕捉マーカーに対応する位置のばらばらな集合を予測した。 このようなマーカーが与えられた場合、パラメトリックボディモデルを用いて人の3次元形状とポーズを復元する。 これらのまばらな表面マーカーは、関節に存在しない人間の動きに関する詳細な情報も含み、予測される動きの自然性を高める。 AMASSデータセットを用いて、潜時周波数から動きを生成する新しい変分オートエンコーダであるMOJOを訓練する。 MOJOは入力動作の完全な時間分解能を保持し、潜在周波数からのサンプリングは生成した動きに高周波成分を明示的に導入する。 動作予測手法は時間とともに誤差を蓄積し、結果として関節やマーカーが本物の人体から分岐する。 この問題に対処するため、SMPL-X を各時点の予測に適合させ、解を有効体の空間に投影する。 これらの有効なマーカーは時間内に伝播する。 実験により,最新の3次元ボディアニメーションが得られた。 研究目的のコードはhttps://yz-cnsdqz.gi thub.io/MOJO/MOJO.ht mlにある。

A key step towards understanding human behavior is the prediction of 3D human motion. Successful solutions have many applications in human tracking, HCI, and graphics. Most previous work focuses on predicting a time series of future 3D joint locations given a sequence 3D joints from the past. This Euclidean formulation generally works better than predicting pose in terms of joint rotations. Body joint locations, however, do not fully constrain 3D human pose, leaving degrees of freedom undefined, making it hard to animate a realistic human from only the joints. Note that the 3D joints can be viewed as a sparse point cloud. Thus the problem of human motion prediction can be seen as point cloud prediction. With this observation, we instead predict a sparse set of locations on the body surface that correspond to motion capture markers. Given such markers, we fit a parametric body model to recover the 3D shape and pose of the person. These sparse surface markers also carry detailed information about human movement that is not present in the joints, increasing the naturalness of the predicted motions. Using the AMASS dataset, we train MOJO, which is a novel variational autoencoder that generates motions from latent frequencies. MOJO preserves the full temporal resolution of the input motion, and sampling from the latent frequencies explicitly introduces high-frequency components into the generated motion. We note that motion prediction methods accumulate errors over time, resulting in joints or markers that diverge from true human bodies. To address this, we fit SMPL-X to the predictions at each time step, projecting the solution back onto the space of valid bodies. These valid markers are then propagated in time. Experiments show that our method produces state-of-the-art results and realistic 3D body animations. The code for research purposes is at https://yz-cnsdqz.gi thub.io/MOJO/MOJO.ht ml
翻訳日:2021-05-30 19:46:39 公開日:2021-04-02
# マウスポーズ推定のための構造化コンテキスト拡張ネットワーク

Structured Context Enhancement Network for Mouse Pose Estimation ( http://arxiv.org/abs/2012.00630v2 )

ライセンス: Link先を確認
Feixiang Zhou, Zheheng Jiang, Zhihua Liu, Fang Chen, Long Chen, Lei Tong, Zhile Yang, Haikuan Wang, Minrui Fei, Ling Li and Huiyu Zhou(参考訳) マウスの行動の自動分析は神経科学の多くの応用に不可欠である。 しかし、動画や画像からマウスの行動を定量化することは難しい問題であり、マウスの行動を記述する上でポーズ推定が重要な役割を果たす。 深層学習に基づく手法は、人間のポーズ推定において有望な進歩をもたらしたが、異なる生理的性質のためにマウスのポーズ推定に直接適用することはできない。 特に、マウスの体は非常に変形しやすいため、マウスの体に異なるキーポイントを正確に見つけることが困難である。 本稿では,構造化コンテキストミキサー (scm) とカスケードマルチレベル監督 (cmls) の2つの効果的なモジュールを実装した,新しい砂時計ネットワークモデル,すなわちcg-scenet (graphic model based structured context enhancement network) を提案する。 SCMは、身体部分間の運動差を考慮した新しいグラフィカルモデルにより、各マウス部分の構造的コンテキスト情報を適応的に学習し、強化することができる。 そして、CMLSモジュールは、提案したSCMとHourglassネットワークを協調的にトレーニングするために設計され、ネットワーク全体の堅牢性を高め、SCMとCMLSのマルチレベル予測情報を用いて、ローカライゼーション結果の精度を確保するための推論手法を開発した。 最後に,提案手法を複数のベースラインに対して評価する。

Automated analysis of mouse behaviours is crucial for many applications in neuroscience. However, quantifying mouse behaviours from videos or images remains a challenging problem, where pose estimation plays an important role in describing mouse behaviours. Although deep learning based methods have made promising advances in human pose estimation, they cannot be directly applied to pose estimation of mice due to different physiological natures. Particularly, since mouse body is highly deformable, it is a challenge to accurately locate different keypoints on the mouse body. In this paper, we propose a novel Hourglass network based model, namely Graphical Model based Structured Context Enhancement Network (GM-SCENet) where two effective modules, i.e., Structured Context Mixer (SCM) and Cascaded Multi-Level Supervision (CMLS) are subsequently implemented. SCM can adaptively learn and enhance the proposed structured context information of each mouse part by a novel graphical model that takes into account the motion difference between body parts. Then, the CMLS module is designed to jointly train the proposed SCM and the Hourglass network by generating multi-level information, increasing the robustness of the whole network.Using the multi-level prediction information from SCM and CMLS, we develop an inference method to ensure the accuracy of the localisation results. Finally, we evaluate our proposed approach against several baselines...
翻訳日:2021-05-30 19:46:01 公開日:2021-04-02
# PWCLO-Net:階層埋め込みマスク最適化を用いた3次元点雲の深部LiDARオドメトリー

PWCLO-Net: Deep LiDAR Odometry in 3D Point Clouds Using Hierarchical Embedding Mask Optimization ( http://arxiv.org/abs/2012.00972v2 )

ライセンス: Link先を確認
Guangming Wang, Xinrui Wu, Zhe Liu, Hesheng Wang(参考訳) 本稿では,階層型埋め込みマスク最適化を用いた深部LiDARの3次元クラウド学習モデルPWCLO-Netを提案する。 このモデルでは,LiDARオドメトリータスクのためのピラミッド,ウォーピング,コストボリューム(PWC)構造を構築し,粗大なアプローチで推定されたポーズを階層的に洗練する。 2つの点雲を関連付け、埋め込み動作パターンを得るための注意コストボリュームを構築する。 次に,全ての点の局所的な動きパターンを測り,全体のポーズを抑え,外乱点をフィルタする新しいトレーニング可能な埋め込みマスクを提案する。 推定された現在のポーズは、第1の点雲をワープして第2の点雲までの距離を橋渡しし、残留運動のコストボリュームを構築する。 同時に、埋め込みマスクを粗いものから細かいものへと階層的に最適化し、より正確なフィルタリング情報を得る。 トレーニング可能なポーズワープ補正プロセスは、ポーズ推定をより堅牢にするために反復的に使用される。 キッティオドメトリデータセットを用いて,lidarオドメトリモデルの優れた性能と有効性を示す。 提案手法は,KITTI odometry データセットのほとんどのシーケンスにおいて,最近の学習手法を上回り,幾何に基づくアプローチである LOAM よりも優れており,我々のソースコードはhttps://github.com/I RMVLab/PWCLONetで公開される。

A novel 3D point cloud learning model for deep LiDAR odometry, named PWCLO-Net, using hierarchical embedding mask optimization is proposed in this paper. In this model, the Pyramid, Warping, and Cost volume (PWC) structure for the LiDAR odometry task is built to refine the estimated pose in a coarse-to-fine approach hierarchically. An attentive cost volume is built to associate two point clouds and obtain embedding motion patterns. Then, a novel trainable embedding mask is proposed to weigh the local motion patterns of all points to regress the overall pose and filter outlier points. The estimated current pose is used to warp the first point cloud to bridge the distance to the second point cloud, and then the cost volume of the residual motion is built. At the same time, the embedding mask is optimized hierarchically from coarse to fine to obtain more accurate filtering information for pose refinement. The trainable pose warp-refinement process is iteratively used to make the pose estimation more robust for outliers. The superior performance and effectiveness of our LiDAR odometry model are demonstrated on KITTI odometry dataset. Our method outperforms all recent learning-based methods and outperforms the geometry-based approach, LOAM with mapping optimization, on most sequences of KITTI odometry dataset.Our source codes will be released on https://github.com/I RMVLab/PWCLONet.
翻訳日:2021-05-25 04:01:34 公開日:2021-04-02
# 空間デバイアスによるフェア属性分類

Fair Attribute Classification through Latent Space De-biasing ( http://arxiv.org/abs/2012.01469v3 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sunnie S. Y. Kim and Olga Russakovsky(参考訳) 認識システムが現実世界に大規模に展開されるにつれ、視覚認識の公平性は議論の目立って重要な話題になりつつある。 ターゲットラベルが保護属性(例えば、性別、人種)と相関しているデータから訓練されたモデルは、それらの相関を学習し、活用することが知られている。 本研究では,これらの相関関係から生じるバイアスを緩和しながら,正確な目標分類器を訓練する手法を提案する。 我々はGANを用いて現実的な画像を生成し、これらの画像を下層の潜伏空間に摂動させ、保護された属性ごとにバランスのとれたトレーニングデータを生成する。 この乱雑なデータで元のデータセットを拡大し、拡張データセットでトレーニングされたターゲット分類器が、定量と定性の両方の利点を示すことを実証的に示す。 celebaデータセット内の複数のターゲットラベルと保護属性を徹底的に評価し,この分野の既存文献との比較を行い,詳細な分析を行った。

Fairness in visual recognition is becoming a prominent and critical topic of discussion as recognition systems are deployed at scale in the real world. Models trained from data in which target labels are correlated with protected attributes (e.g., gender, race) are known to learn and exploit those correlations. In this work, we introduce a method for training accurate target classifiers while mitigating biases that stem from these correlations. We use GANs to generate realistic-looking images, and perturb these images in the underlying latent space to generate training data that is balanced for each protected attribute. We augment the original dataset with this perturbed generated data, and empirically demonstrate that target classifiers trained on the augmented dataset exhibit a number of both quantitative and qualitative benefits. We conduct a thorough evaluation across multiple target labels and protected attributes in the CelebA dataset, and provide an in-depth analysis and comparison to existing literature in the space.
翻訳日:2021-05-25 03:55:07 公開日:2021-04-02
# 動的室内環境における空間分割によるロバストなニューラルルーティング

Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments ( http://arxiv.org/abs/2012.04746v2 )

ライセンス: Link先を確認
Siyan Dong, Qingnan Fan, He Wang, Ji Shi, Li Yi, Thomas Funkhouser, Baoquan Chen, Leonidas Guibas(参考訳) カメラを既知の屋内環境に配置することは、シーンマッピング、ロボットナビゲーション、ARなどの重要なビルディングブロックである。 近年の進歩では、2D/3Dカメラ空間と3Dワールド空間の座標間の2D/3D-3D対応を最適化してカメラポーズを推定している。 このようなマッピングは畳み込みニューラルネットワークか、静的入力画像シーケンスのみを使用して決定木で推定されるため、実世界では非常に一般的だが難しい動的屋内環境に対して脆弱なアプローチとなる。 上記の課題に対処するため,本論文では,ディープラーニングと決定木アプローチという2つの世界を橋渡しする,新しい不整合認識ニューラルツリーを提案する。 a) 決定木を構築するための屋内シーン上の階層的空間分割、(b) 深い分類ネットワークとして実装され、より良い3dシーン理解のために使用される神経ルーティング機能、(c) 階層的ルーティングプロセス中に動的ポイントをフィルターアウトするために使用される外れ値拒絶モジュールである。 提案アルゴリズムは,動的屋内環境におけるカメラ再局在化のためのRIO-10ベンチマークを用いて評価した。 空間分割による堅牢なニューラルルーティングを実現し、カメラポーズの精度で最先端のアプローチを約30%上回り、評価のために比較可能な速度で実行します。

Localizing the camera in a known indoor environment is a key building block for scene mapping, robot navigation, AR, etc. Recent advances estimate the camera pose via optimization over the 2D/3D-3D correspondences established between the coordinates in 2D/3D camera space and 3D world space. Such a mapping is estimated with either a convolution neural network or a decision tree using only the static input image sequence, which makes these approaches vulnerable to dynamic indoor environments that are quite common yet challenging in the real world. To address the aforementioned issues, in this paper, we propose a novel outlier-aware neural tree which bridges the two worlds, deep learning and decision tree approaches. It builds on three important blocks: (a) a hierarchical space partition over the indoor scene to construct the decision tree; (b) a neural routing function, implemented as a deep classification network, employed for better 3D scene understanding; and (c) an outlier rejection module used to filter out dynamic points during the hierarchical routing process. Our proposed algorithm is evaluated on the RIO-10 benchmark developed for camera relocalization in dynamic indoor environments. It achieves robust neural routing through space partitions and outperforms the state-of-the-art approaches by around 30% on camera pose accuracy, while running comparably fast for evaluation.
翻訳日:2021-05-16 21:12:07 公開日:2021-04-02
# プログレッシブ・リファインメント・ネットワークによるマスクガイド・マットリング

Mask Guided Matting via Progressive Refinement Network ( http://arxiv.org/abs/2012.06722v2 )

ライセンス: Link先を確認
Qihang Yu, Jianming Zhang, He Zhang, Yilin Wang, Zhe Lin, Ning Xu, Yutong Bai, Alan Yuille(参考訳) 汎用的な粗いマスクを指導するロバストなマットリングフレームワークである,マスクガイド(mg)マットリングを提案する。 MG Matting はネットワーク (PRN) 設計を活用し、畳み込みモデルがデコードプロセスを通じて不確定領域を段階的に洗練する自己誘導を提供する。 トレーニングでは、外部誘導に対するロバスト性をさらに高めるため、一連の誘導マスク摂動操作も導入されている。 PRNは、トリマップや低品質のアルファマットなど、目に見えない種類の誘導マスクに一般化でき、様々なアプリケーションパイプラインに適していることを示す。 また,前景の色予測問題を再検討し,データセット問題に対処するための驚くほど単純な改良を提案する。 実および合成ベンチマークの評価は、MG Mattingが様々な種類のガイダンス入力を用いて最先端のパフォーマンスを達成することを示す。 コードとモデルはhttps://github.com/y ucornetto/MGMatting. comで入手できる。

We propose Mask Guided (MG) Matting, a robust matting framework that takes a general coarse mask as guidance. MG Matting leverages a network (PRN) design which encourages the matting model to provide self-guidance to progressively refine the uncertain regions through the decoding process. A series of guidance mask perturbation operations are also introduced in the training to further enhance its robustness to external guidance. We show that PRN can generalize to unseen types of guidance masks such as trimap and low-quality alpha matte, making it suitable for various application pipelines. In addition, we revisit the foreground color prediction problem for matting and propose a surprisingly simple improvement to address the dataset issue. Evaluation on real and synthetic benchmarks shows that MG Matting achieves state-of-the-art performance using various types of guidance inputs. Code and models are available at https://github.com/y ucornetto/MGMatting.
翻訳日:2021-05-10 05:19:18 公開日:2021-04-02
# Lips Don't Lie:顔偽造検出のための汎用的でロバストなアプローチ

Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection ( http://arxiv.org/abs/2012.07657v2 )

ライセンス: Link先を確認
Alexandros Haliassos, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic(参考訳) 現在のディープラーニングベースの顔偽造検知器は制約のあるシナリオで優れた性能を発揮するが、目に見えない操作法によって生成されたサンプルには弱い。 最近のいくつかの作品では一般化が改善されているが、圧縮のような一般的な後処理操作によって容易に崩壊する手がかりに依存している。 本稿では,新しい操作への一般化と様々な歪みに耐えられる検出手法であるLipForensicsを提案する。 LipForensicsは、多くの生成されたビデオで一般的な口の動きにおける高いレベルの意味的不規則をターゲットとしている。 まず、時空間ネットワークを事前学習し、視覚音声認識(リプリーディング)を行い、自然な口の動きに関する豊かな内部表現を学習する。 その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。 広範な実験により、この単純なアプローチは、目に見えない操作への一般化や摂動に対する頑健さ、そしてその性能の要因に光を当てるという点で、最先端を著しく上回っていることが示されている。

Although current deep learning-based face forgery detectors achieve impressive performance in constrained scenarios, they are vulnerable to samples created by unseen manipulation methods. Some recent works show improvements in generalisation but rely on cues that are easily corrupted by common post-processing operations such as compression. In this paper, we propose LipForensics, a detection approach capable of both generalising to novel manipulations and withstanding various distortions. LipForensics targets high-level semantic irregularities in mouth movements, which are common in many generated videos. It consists in first pretraining a spatio-temporal network to perform visual speech recognition (lipreading), thus learning rich internal representations related to natural mouth motion. A temporal network is subsequently finetuned on fixed mouth embeddings of real and forged data in order to detect fake videos based on mouth movements without overfitting to low-level, manipulation-specifi c artefacts. Extensive experiments show that this simple approach significantly surpasses the state-of-the-art in terms of generalisation to unseen manipulations and robustness to perturbations, as well as shed light on the factors responsible for its performance.
翻訳日:2021-05-08 14:28:40 公開日:2021-04-02
# (参考訳) SceneFormer: トランスフォーマーを用いた屋内シーン生成 [全文訳有]

SceneFormer: Indoor Scene Generation with Transformers ( http://arxiv.org/abs/2012.09793v2 )

ライセンス: CC BY 4.0
Xinpeng Wang, Chandan Yeshwanth, Matthias Nie{\ss}ner(参考訳) 室内シーン生成の課題は,室内レイアウトに条件づけられた位置や向きとともに,オブジェクトのシーケンスを生成することで解決する。 大規模屋内シーンデータセットは,ユーザが設計した屋内シーンからパターンを抽出し,そのパターンに基づいて新たなシーンを生成することができる。 既存の方法は、オブジェクトの位置に加えて、これらのシーンの2次元または3次元の外観に依存し、オブジェクト間の関係を仮定する。 対照的に,出現情報を用いず,トランスフォーマの自己照準機構を用いて暗黙的に物体関係を学習する。 モデル設計は,従来の手法と類似あるいは改善されたリアリズムのレベルにおいて,より高速なシーン生成につながることを示す。 また, 部屋のレイアウトだけでなく, 部屋のテキスト記述についても, トランスフォーマのクロスタッチ機構のみを用いて条件づけできるため, 柔軟な手法である。 ユーザスタディによると、我々の生成したシーンは、それぞれ寝室とリビングルームのシーンの53.9%と56.7%の最先端のFastSynthシーンに好まれている。 同時に、平均1.48秒でシーンを生成し、FastSynthよりも20%高速です。

We address the task of indoor scene generation by generating a sequence of objects, along with their locations and orientations conditioned on a room layout. Large-scale indoor scene datasets allow us to extract patterns from user-designed indoor scenes, and generate new scenes based on these patterns. Existing methods rely on the 2D or 3D appearance of these scenes in addition to object positions, and make assumptions about the possible relations between objects. In contrast, we do not use any appearance information, and implicitly learn object relations using the self-attention mechanism of transformers. We show that our model design leads to faster scene generation with similar or improved levels of realism compared to previous methods. Our method is also flexible, as it can be conditioned not only on the room layout but also on text descriptions of the room, using only the cross-attention mechanism of transformers. Our user study shows that our generated scenes are preferred to the state-of-the-art FastSynth scenes 53.9% and 56.7% of the time for bedroom and living room scenes, respectively. At the same time, we generate a scene in 1.48 seconds on average, 20% faster than FastSynth.
翻訳日:2021-05-02 13:13:34 公開日:2021-04-02
# マルチラベル画像分類のための深層意味辞書学習

Deep Semantic Dictionary Learning for Multi-label Image Classification ( http://arxiv.org/abs/2012.12509v2 )

ライセンス: Link先を確認
Fengtao Zhou and Sheng Huang and Yun Xing(参考訳) シングルラベル画像分類と比較して、マルチラベル画像分類はより実用的で困難である。 最近の研究では、複数ラベル画像の分類性能を改善するためにカテゴリの意味情報を活用しようと試みている。 しかし,これらの意味に基づく手法は,視覚表現の補完として意味情報のみを活用できる。 本稿では,これを辞書学習課題とみなすマルチラベル画像分類の解決に向けて,革新的な方法を提案する。 DSDL(Deep Semantic Dictionary Learning)と呼ばれる新しいエンドツーエンドモデルが設計されている。 dsdlでは、クラスレベルの意味論から意味辞書を生成するために自動エンコーダを適用し、畳み込みニューラルネットワーク(cnn)によって抽出された視覚的特徴をラベル埋め込みで表現する。 DSDLは、ラベル、セマンティック、および視覚空間を同時に活用し、相互に辞書学習を行うことによって、シンプルだがエレガントな方法を提供する。 さらに,従来の辞書学習の反復的最適化に触発されて,表現係数と意味辞書を前方および後方伝播で交互に最適化するdsdl最適化のための,交互パラメータ更新戦略(apus)と呼ばれる新しい学習戦略を考案した。 3つの一般的なベンチマークによる実験結果から,本手法は最先端技術と比較して有望な性能を達成できた。 私たちのコードとモデルは、https://github.com/Z FT-CQU/DSDL}でリリースされました。

Compared with single-label image classification, multi-label image classification is more practical and challenging. Some recent studies attempted to leverage the semantic information of categories for improving multi-label image classification performance. However, these semantic-based methods only take semantic information as type of complements for visual representation without further exploitation. In this paper, we present an innovative path towards the solution of the multi-label image classification which considers it as a dictionary learning task. A novel end-to-end model named Deep Semantic Dictionary Learning (DSDL) is designed. In DSDL, an auto-encoder is applied to generate the semantic dictionary from class-level semantics and then such dictionary is utilized for representing the visual features extracted by Convolutional Neural Network (CNN) with label embeddings. The DSDL provides a simple but elegant way to exploit and reconcile the label, semantic and visual spaces simultaneously via conducting the dictionary learning among them. Moreover, inspired by iterative optimization of traditional dictionary learning, we further devise a novel training strategy named Alternately Parameters Update Strategy (APUS) for optimizing DSDL, which alternately optimizes the representation coefficients and the semantic dictionary in forward and backward propagation. Extensive experimental results on three popular benchmarks demonstrate that our method achieves promising performances in comparison with the state-of-the-arts. Our codes and models have been released at {https://github.com/Z FT-CQU/DSDL}.
翻訳日:2021-04-25 18:09:33 公開日:2021-04-02
# Byzantine-Resilient Non-Convex Stochastic Gradient Descent

Byzantine-Resilient Non-Convex Stochastic Gradient Descent ( http://arxiv.org/abs/2012.14368v2 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu, Faeze Ebrahimian, Jerry Li, Dan Alistarh(参考訳) 本研究では, 機械が独立に確率勾配を計算し, 局所的目的関数に対して協調的に最適化できる対向型確率分布最適化について検討する。 しかし、マシンの$\alpha$-fractionは$\textit{Byzantine}$であり、任意の逆向きに振舞うことができる。 この手順の変種を、挑戦的な$\textit{non-convex}$ケースで考える。 我々の主な成果は、サドルポイントを確実に回避し、非凸目的の近似局所最小値を見つけることのできる新しいアルゴリズムSafeguardSGDである。 このアルゴリズムは、新しい濃度フィルタリング技術に基づいており、そのサンプルと時間複雑性の境界は、ビザンチンマシンが存在しない確率的分散設定における最もよく知られた理論境界と一致する。 我々のアルゴリズムは非常に実用的であり、ディープニューラルネットワークをトレーニングする際のすべての先行手法の性能を改善し、比較的軽量であり、最近提案された2つのビザンツ攻撃に耐える最初の方法である。

We study adversary-resilient stochastic distributed optimization, in which $m$ machines can independently compute stochastic gradients, and cooperate to jointly optimize over their local objective functions. However, an $\alpha$-fraction of the machines are $\textit{Byzantine}$, in that they may behave in arbitrary, adversarial ways. We consider a variant of this procedure in the challenging $\textit{non-convex}$ case. Our main result is a new algorithm SafeguardSGD which can provably escape saddle points and find approximate local minima of the non-convex objective. The algorithm is based on a new concentration filtering technique, and its sample and time complexity bounds match the best known theoretical bounds in the stochastic, distributed setting when no Byzantine machines are present. Our algorithm is very practical: it improves upon the performance of all prior methods when training deep neural networks, it is relatively lightweight, and it is the first method to withstand two recently-proposed Byzantine attacks.
翻訳日:2021-04-19 10:53:02 公開日:2021-04-02
# 表情認識のためのAU-Expression Knowledge Constrained Representation Learning

AU-Expression Knowledge Constrained Representation Learning for Facial Expression Recognition ( http://arxiv.org/abs/2012.14587v2 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Yuan Xie, Hefeng Wu, and Liang Lin(参考訳) 人間の感情や表現を自動的に認識することは、知的なロボット工学にとって期待できる能力である。 現在のディープラーニングベースのアルゴリズムは、実験室で制御された環境では印象的なパフォーマンスを達成しているが、制御不能な状況では表現を正確に認識できていない。 幸いなことに、顔のアクションユニット(AU)は微妙な顔の振る舞いを記述しており、不明瞭で曖昧な表情を区別するのに役立ちます。 本研究では,アクション単位と表情の相関について検討し,AUアノテーションを使わずにAU表現を学習するためのAU-Expression Knowledge Constrained Representation Learning (AUE-CRL) フレームワークを考案し,表情認識を容易にするために適応的に表現を使用する。 具体的には、AU-発現相関を利用してAU分類器の学習を誘導し、AUアノテーションを発生させることなくAU表現を得ることができる。 次に,AU-表現相関の制約の下で有用なAU表現をマイニングする,知識誘導型アテンション機構を導入する。 このようにして、このフレームワークは、表情認識のための顔表現を強化するために、局所的な識別的および補完的な特徴を捉えることができる。 提案手法が最先端の手法よりも優れていることを示すために,難解な非制御データセットについて実験を行った。 コードとトレーニングされたモデルはhttps://github.com/H CPLab-SYSU/AUE-CRLで公開されている。

Recognizing human emotion/expressions automatically is quite an expected ability for intelligent robotics, as it can promote better communication and cooperation with humans. Current deep-learning-based algorithms may achieve impressive performance in some lab-controlled environments, but they always fail to recognize the expressions accurately for the uncontrolled in-the-wild situation. Fortunately, facial action units (AU) describe subtle facial behaviors, and they can help distinguish uncertain and ambiguous expressions. In this work, we explore the correlations among the action units and facial expressions, and devise an AU-Expression Knowledge Constrained Representation Learning (AUE-CRL) framework to learn the AU representations without AU annotations and adaptively use representations to facilitate facial expression recognition. Specifically, it leverages AU-expression correlations to guide the learning of the AU classifiers, and thus it can obtain AU representations without incurring any AU annotations. Then, it introduces a knowledge-guided attention mechanism that mines useful AU representations under the constraint of AU-expression correlations. In this way, the framework can capture local discriminative and complementary features to enhance facial representation for facial expression recognition. We conduct experiments on the challenging uncontrolled datasets to demonstrate the superiority of the proposed framework over current state-of-the-art methods. Codes and trained models are available at https://github.com/H CPLab-SYSU/AUE-CRL.
翻訳日:2021-04-18 20:37:26 公開日:2021-04-02
# (参考訳) 画像分類・生成のための生成最大マハラノビス分類器 [全文訳有]

Generative Max-Mahalanobis Classifiers for Image Classification, Generation and More ( http://arxiv.org/abs/2101.00122v3 )

ライセンス: CC BY 4.0
Xiulong Yang, Hui Ye, Yang Ye, Xiang Li, Shihao Ji(参考訳) Grathwohlらの共同エネルギーモデル(JEM) 標準ソフトマックス分類器は、結合分布 p(x,y) のエネルギーベースモデル(EBM)として再解釈でき、その結果のモデルは、最近のGANベースのアプローチの質に匹敵するサンプルを生成しながら、キャリブレーション、ロバスト性、分布外検出を改善するために最適化できる。 しかし、JEMが活用するソフトマックス分類器は本質的に差別的であり、その潜在特徴空間は確率分布として十分に定式化されていないため、画像生成やトレーニングの不安定性を損なう可能性がある。 我々は、線形判別分析(lda)のような生成的分類器は、生成的分類器がデータ生成プロセスを明示的にモデル化するため、画像生成により適していると仮定する。 そこで本稿では,画像分類と生成のためのLDA分類器について検討する。 特に、LDAの特殊なケースであるMax-Mahalanobis Classifier (MMC)は、私たちの目標に非常に適しています。 我々の生成MC(GMMC)は、画像分類と生成のために、識別的に、生成的に、または共同的に訓練できることを示す。 複数のデータセットに対する大規模な実験により、GMMCは、キャリブレーション、対向ロバスト性、分布外検出において、JEMよりも優れた、最先端の識別的および生成的性能を達成することが示された。 ソースコードはhttps://github.com/s ndnyang/gmmcで入手できます。

Joint Energy-based Model (JEM) of Grathwohl et al. shows that a standard softmax classifier can be reinterpreted as an energy-based model (EBM) for the joint distribution p(x,y); the resulting model can be optimized to improve calibration, robustness, and out-of-distribution detection, while generating samples rivaling the quality of recent GAN-based approaches. However, the softmax classifier that JEM exploits is inherently discriminative and its latent feature space is not well formulated as probabilistic distributions, which may hinder its potential for image generation and incur training instability. We hypothesize that generative classifiers, such as Linear Discriminant Analysis (LDA), might be more suitable for image generation since generative classifiers model the data generation process explicitly. This paper therefore investigates an LDA classifier for image classification and generation. In particular, the Max-Mahalanobis Classifier (MMC), a special case of LDA, fits our goal very well. We show that our Generative MMC (GMMC) can be trained discriminatively, generatively, or jointly for image classification and generation. Extensive experiments on multiple datasets show that GMMC achieves state-of-the-art discriminative and generative performances, while outperforming JEM in calibration, adversarial robustness, and out-of-distribution detection by a significant margin. Our source code is available at https://github.com/s ndnyang/GMMC.
翻訳日:2021-04-17 15:09:45 公開日:2021-04-02
# (参考訳) 機械学習における量子優位性に関する情報理論境界

Information-theoreti c bounds on quantum advantage in machine learning ( http://arxiv.org/abs/2101.02464v2 )

ライセンス: CC BY 4.0
Hsin-Yuan Huang, Richard Kueng, John Preskill(参考訳) 物理実験の結果を予測するため,古典的および量子機械学習(ML)モデルの性能について検討した。 実験は入力パラメータ$x$に依存し、(おそらく未知の)量子プロセス$\mathcal{E}$の実行を含む。 私たちのメリットの図は、望ましい予測性能を達成するために必要な$\mathcal{E}$の実行数です。 我々は、$\mathcal{E}$の各実行後に古典的な結果を計測し記録する古典的MLモデルと、$\mathcal{E}$にコヒーレントにアクセスして量子データを取得する量子的MLモデルを考える。 任意の入力分布 $\mathcal{D}(x)$ に対して、古典的な ML モデルは、最適な量子ML モデルに匹敵する数倍の $\mathcal{E}$ にアクセスすることで、平均的な正確な予測を提供できることを証明している。 対照的に、全ての入力に対して正確な予測を達成するために、指数的量子優位が可能であることを示す。 例えば、$n$-qubitシステム$\rho$における全てのパウリ観測可能量の予測には、古典的なMLモデルは$$\rho$の270Omega(n)}$コピーを必要とするが、$\mathcal{O}(n)$コピーのみを使用する量子MLモデルを示す。 本研究は,古典的MLモデルが物理・化学における量子問題に挑戦する可能性を明らかにするものである。

We study the performance of classical and quantum machine learning (ML) models in predicting outcomes of physical experiments. The experiments depend on an input parameter $x$ and involve execution of a (possibly unknown) quantum process $\mathcal{E}$. Our figure of merit is the number of runs of $\mathcal{E}$ required to achieve a desired prediction performance. We consider classical ML models that perform a measurement and record the classical outcome after each run of $\mathcal{E}$, and quantum ML models that can access $\mathcal{E}$ coherently to acquire quantum data; the classical or quantum data is then used to predict outcomes of future experiments. We prove that for any input distribution $\mathcal{D}(x)$, a classical ML model can provide accurate predictions on average by accessing $\mathcal{E}$ a number of times comparable to the optimal quantum ML model. In contrast, for achieving accurate prediction on all inputs, we prove that exponential quantum advantage is possible. For example, to predict expectations of all Pauli observables in an $n$-qubit system $\rho$, classical ML models require $2^{\Omega(n)}$ copies of $\rho$, but we present a quantum ML model using only $\mathcal{O}(n)$ copies. Our results clarify where quantum advantage is possible and highlight the potential for classical ML models to address challenging quantum problems in physics and chemistry.
翻訳日:2021-04-10 17:44:40 公開日:2021-04-02
# (参考訳) 時系列分類のための動的時間プールの学習 [全文訳有]

Learnable Dynamic Temporal Pooling for Time Series Classification ( http://arxiv.org/abs/2104.02577v1 )

ライセンス: CC BY 4.0
Dongha Lee, Seonghyeon Lee, Hwanjo Yu(参考訳) 利用可能な時系列データの増加に伴い、クラスラベルの予測は、幅広い分野において最も重要な課題の1つとなっている。 最近の時系列分類研究では、畳み込みニューラルネットワーク(cnn)が単一の分類器として最先端のパフォーマンスを達成した。 本稿では,既存のCNN分類器が採用するグローバルプール層が高次特徴の時間的情報を捨てていることを指摘し,セグメントレベルの特徴を集約することで隠蔽表現の時間的サイズを低減する動的時間的プーリング(DTP)技術を提案する。 時系列全体を複数のセグメントに分割するために、動的時間ワープ(DTW)を用いて、各タイムポイントを時間順に調整し、セグメントの原型的特徴をCNN分類器のネットワークパラメータと同時に最適化する。 完全連結層と組み合わせたDTP層は、入力時系列内の時間的位置を考慮したさらなる識別的特徴の抽出に役立つ。 単変量および多変量時系列データセットの多変量実験により,提案したプールは分類性能を大幅に向上することが示された。

With the increase of available time series data, predicting their class labels has been one of the most important challenges in a wide range of disciplines. Recent studies on time series classification show that convolutional neural networks (CNN) achieved the state-of-the-art performance as a single classifier. In this work, pointing out that the global pooling layer that is usually adopted by existing CNN classifiers discards the temporal information of high-level features, we present a dynamic temporal pooling (DTP) technique that reduces the temporal size of hidden representations by aggregating the features at the segment-level. For the partition of a whole series into multiple segments, we utilize dynamic time warping (DTW) to align each time point in a temporal order with the prototypical features of the segments, which can be optimized simultaneously with the network parameters of CNN classifiers. The DTP layer combined with a fully-connected layer helps to extract further discriminative features considering their temporal position within an input time series. Extensive experiments on both univariate and multivariate time series datasets show that our proposed pooling significantly improves the classification performance.
翻訳日:2021-04-08 06:26:44 公開日:2021-04-02
# (参考訳) grASP: グラフベースのASP-Solver and Justification System [全文訳有]

grASP: A Graph Based ASP-Solver and Justification System ( http://arxiv.org/abs/2104.01190v1 )

ライセンス: CC BY 4.0
Fang Li, Huaduo Wang, Gopal Gupta(参考訳) Answer set programming (ASP) は、知識表現と組合せ問題を解くための一般的な非単調論理的パラダイムである。 aspプログラムの回答セットの計算は一般的にnp-hardであり、研究者は高速化に多大な投資をしている。 現在のASPソルバの大多数はSATソルバのような技術を使ってこれらの解集合を見つけている。 結果として、リテラルが答え集合にある理由を正当化することは困難である。 解集合を見つけるための依存グラフベースのアプローチは存在するが、依存グラフの表現的制限のため、そのようなアプローチは限られている。 本稿では,任意の解集合プログラムを一意に表現できるノードとして,ゴールの結合を明示的に表現する,新しい依存グラフに基づく解集合探索手法を提案する。 我々の表現は因果関係を保ち、回答集合内の各リテラルをエレガントに見つけるための正当化を可能にする。 実装のパフォーマンス結果も報告されている。 私たちの仕事は、プログラムを基盤にすることなく、解集合の計算の道を開きます。

Answer set programming (ASP) is a popular nonmonotonic-logic based paradigm for knowledge representation and solving combinatorial problems. Computing the answer set of an ASP program is NP-hard in general, and researchers have been investing significant effort to speed it up. The majority of current ASP solvers employ SAT solver-like technology to find these answer sets. As a result, justification for why a literal is in the answer set is hard to produce. There are dependency graph based approaches to find answer sets, but due to the representational limitations of dependency graphs, such approaches are limited. We propose a novel dependency graph-based approach for finding answer sets in which conjunction of goals is explicitly represented as a node which allows arbitrary answer set programs to be uniformly represented. Our representation preserves causal relationships allowing for justification for each literal in the answer set to be elegantly found. Performance results from an implementation are also reported. Our work paves the way for computing answer sets without grounding a program.
翻訳日:2021-04-08 06:12:58 公開日:2021-04-02
# (参考訳) 大規模二次的制約付き基底追跡の解法 [全文訳有]

Solving Large Scale Quadratic Constrained Basis Pursuit ( http://arxiv.org/abs/2104.02475v1 )

ライセンス: CC BY 4.0
Jirong Yi(参考訳) 乗算器の向きの交互化法と演算子分割の考え方に着想を得て,大規模2次制約付き基底探索の効率的な解法を提案する。 実験結果から,提案アルゴリズムはCVXで実装されたベースライン内点アルゴリズムと比較して50~100倍の高速化が可能であることがわかった。

Inspired by alternating direction method of multipliers and the idea of operator splitting, we propose a efficient algorithm for solving large-scale quadratically constrained basis pursuit. Experimental results show that the proposed algorithm can achieve 50~~100 times speedup when compared with the baseline interior point algorithm implemented in CVX.
翻訳日:2021-04-08 06:03:07 公開日:2021-04-02
# (参考訳) 記述論理オントロジーを学ぶ。 5つのアプローチ。 どこに立つのか? [全文訳有]

Learning Description Logic Ontologies. Five Approaches. Where Do They Stand? ( http://arxiv.org/abs/2104.01193v1 )

ライセンス: CC BY 4.0
Ana Ozaki(参考訳) 興味のある分野の知識を形式的に表現するための探求は、様々な背景を持つ研究者をオントロジー学習と呼ばれる様々な分野に惹きつけている。 我々は、記述論理(DL)オントロジーの作成を自動化するために提案された古典的な機械学習とデータマイニングのアプローチを強調した。 これらは関連ルールマイニング、形式的概念分析、帰納的論理プログラミング、計算学習理論、ニューラルネットワークに基づいている。 本稿では,それぞれのアプローチの概要と,DLオントロジーの扱い方について概説する。 最後に、DLオントロジーの学習におけるそれぞれの利点と限界について論じる。

The quest for acquiring a formal representation of the knowledge of a domain of interest has attracted researchers with various backgrounds into a diverse field called ontology learning. We highlight classical machine learning and data mining approaches that have been proposed for (semi-)automating the creation of description logic (DL) ontologies. These are based on association rule mining, formal concept analysis, inductive logic programming, computational learning theory, and neural networks. We provide an overview of each approach and how it has been adapted for dealing with DL ontologies. Finally, we discuss the benefits and limitations of each of them for learning DL ontologies.
翻訳日:2021-04-08 05:56:28 公開日:2021-04-02
# (参考訳) 最適輸送に基づく密度推定のための物理インフォームド凸型ニューラルネットワーク(PICANN) [全文訳有]

Physics Informed Convex Artificial Neural Networks (PICANNs) for Optimal Transport based Density Estimation ( http://arxiv.org/abs/2104.01194v1 )

ライセンス: CC BY 4.0
Amanpreet Singh, Martin Bauer, Sarang Joshi(参考訳) 最適物質輸送(OMT)は、物理学からコンピュータビジョン、特に統計学とデータサイエンスまで、様々な分野の様々な応用においてよく研究されている問題である。 1781年のモンジュの元々の定式化以来、最適輸送写像の存在、特異性、性質に関する重要な理論的進歩がなされた。 輸送マップの実際の数値計算、特に高次元での計算は依然として難しい問題である。 ブレニエの定理により、連続 OMT 問題は、凸函数を解いたモンジュ=アンペア型の非線形 PDE を解く問題に還元することができる。 本稿では,pde問題を解決するための入力凸ニューラルネットワークと物理学インフォームドニューラルネットワークの最近の発展に基づき,連続omt問題を解決するための深層学習手法を提案する。 本フレームワークの汎用性を示すため,統計学および機械学習におけるユビキタス密度推定および生成モデリングタスクに着目した。 最後に、我々のフレームワークをオートエンコーダに組み込んで効果的な確率的生成モデルを推定する方法を示す。

Optimal Mass Transport (OMT) is a well studied problem with a variety of applications in a diverse set of fields ranging from Physics to Computer Vision and in particular Statistics and Data Science. Since the original formulation of Monge in 1781 significant theoretical progress been made on the existence, uniqueness and properties of the optimal transport maps. The actual numerical computation of the transport maps, particularly in high dimensions, remains a challenging problem. By Brenier's theorem, the continuous OMT problem can be reduced to that of solving a non-linear PDE of Monge-Ampere type whose solution is a convex function. In this paper, building on recent developments of input convex neural networks and physics informed neural networks for solving PDE's, we propose a Deep Learning approach to solve the continuous OMT problem. To demonstrate the versatility of our framework we focus on the ubiquitous density estimation and generative modeling tasks in statistics and machine learning. Finally as an example we show how our framework can be incorporated with an autoencoder to estimate an effective probabilistic generative model.
翻訳日:2021-04-08 05:38:56 公開日:2021-04-02
# (参考訳) タイプ予測システム [全文訳有]

Type Prediction Systems ( http://arxiv.org/abs/2104.01207v1 )

ライセンス: CC BY 4.0
Sarthak Dash, Nandana Mihindukulasooriya, Alfio Gliozzo, Mustafa Canim(参考訳) テキスト文書内でエンティティ参照のセマンティック型を推論することは、セマンティックロールラベリング、エンティティの曖昧さ、知識ベース質問回答など、多くの下流NLPタスクにとって重要な資産である。 それまでの研究は主に、比較的小型から中級の型システムで動作する教師付きソリューションに重点を置いてきた。 本研究では,以下の2つのタスクの型情報予測を目的とした2つのシステムについて述べる。例えば,TypeSuggestモジュール,ユーザ入力されたクエリ項の型を予測するための教師なしシステム,Answer Type予測モジュールは,与えられたクエリに期待する応答の正しい型を決定するタスクのためのソリューションを提供する。 我々のシステムは任意の大きさの任意の型システムに一般化し、任意の粒度で型情報を抽出する非常に魅力的なソリューションとなる。

Inferring semantic types for entity mentions within text documents is an important asset for many downstream NLP tasks, such as Semantic Role Labelling, Entity Disambiguation, Knowledge Base Question Answering, etc. Prior works have mostly focused on supervised solutions that generally operate on relatively small-to-medium-size d type systems. In this work, we describe two systems aimed at predicting type information for the following two tasks, namely, a TypeSuggest module, an unsupervised system designed to predict types for a set of user-entered query terms, and an Answer Type prediction module, that provides a solution for the task of determining the correct type of the answer expected to a given query. Our systems generalize to arbitrary type systems of any sizes, thereby making it a highly appealing solution to extract type information at any granularity.
翻訳日:2021-04-08 05:28:28 公開日:2021-04-02
# (参考訳) コロナウイルスはバイオウェポンだ:コロナウイルスの偽ニュースの分析 [全文訳有]

The Coronavirus is a Bioweapon: Analysing Coronavirus Fact-Checked Stories ( http://arxiv.org/abs/2104.01215v1 )

ライセンス: CC BY 4.0
Lynnette Hui Xian Ng and Kathleen M. Carley(参考訳) 2020年の新型コロナウイルスの感染拡大で、新型コロナウイルス関連の誤報を警告する必要性が高まっている。 我々は、2020年1月から6月までにPolitiFact、Pynter、Snopesによって報告されたストーリーを6つのストーリークラスタに分類し、時系列とストーリー妥当性の傾向とサイト間の合意のレベルを分析した。 さらに、さまざまなストーリーソースをファクトチェックされたストーリーとつぶやきの両方で分類するために、BERT分類器でユニークな自動メソッドを提案することで、ストーリークラスタをより粒度の細かいストーリータイプに分解します。

The 2020 coronavirus pandemic has heightened the need to flag coronavirus-related misinformation, and fact-checking groups have taken to verifying misinformation on the Internet. We explore stories reported by fact-checking groups PolitiFact, Poynter and Snopes from January to June 2020, characterising them into six story clusters before then analyse time-series and story validity trends and the level of agreement across sites. We further break down the story clusters into more granular story types by proposing a unique automated method with a BERT classifier, which can be used to classify diverse story sources, in both fact-checked stories and tweets.
翻訳日:2021-04-08 05:21:54 公開日:2021-04-02
# (参考訳) 変形可能な登録アルゴリズム評価のための不確実性対応アノテーションプロトコル [全文訳有]

Uncertainty-Aware Annotation Protocol to Evaluate Deformable Registration Algorithms ( http://arxiv.org/abs/2104.01217v1 )

ライセンス: CC BY 4.0
Loic Peter, Daniel C. Alexander, Caroline Magnain, Juan Eugenio Iglesias(参考訳) ランドマーク対応は、画像登録において広く使われている金の標準である。 しかし、対応点の手動配置は、選択されたアノテート箇所や視覚的あいまいさの解釈において、ユーザ間のばらつきが高い。 本稿では, 変形可能な登録における金本位制構築の原則的戦略を紹介する。 我々のフレームワークは、 (i) 先行アノテーションとの冗長性を考慮し、次に注釈を付けるための最も有益な場所を反復的に提案し、 (ii) ユーザが直接指定したり、複数の専門家からポイントワイズアノテーションを集約したり、 (iii) 変形可能な登録アルゴリズムの評価のための新しい戦略を自然に提供する、各アノテーションの空間的不確実性を考慮して従来のポイントワイズアノテーションを拡張します。 我々のアプローチは4つの異なる登録タスクで検証される。 実験結果は,その情報量に応じてアノテーションを提案することの有効性と,登録アルゴリズムの出力品質を評価する能力の向上を示した。 さらに,本手法では,スパースアノテーションのみから,登録手法による誤りの詳細な可視化を行う。 2Dデータと3Dデータの両方をサポートするアプローチのソースコードはhttps://github.com/L oicPeter/evaluation- deformable-registrat ionで公開されています。

Landmark correspondences are a widely used type of gold standard in image registration. However, the manual placement of corresponding points is subject to high inter-user variability in the chosen annotated locations and in the interpretation of visual ambiguities. In this paper, we introduce a principled strategy for the construction of a gold standard in deformable registration. Our framework: (i) iteratively suggests the most informative location to annotate next, taking into account its redundancy with previous annotations; (ii) extends traditional pointwise annotations by accounting for the spatial uncertainty of each annotation, which can either be directly specified by the user, or aggregated from pointwise annotations from multiple experts; and (iii) naturally provides a new strategy for the evaluation of deformable registration algorithms. Our approach is validated on four different registration tasks. The experimental results show the efficacy of suggesting annotations according to their informativeness, and an improved capacity to assess the quality of the outputs of registration algorithms. In addition, our approach yields, from sparse annotations only, a dense visualization of the errors made by a registration method. The source code of our approach supporting both 2D and 3D data is publicly available at https://github.com/L oicPeter/evaluation- deformable-registrat ion.
翻訳日:2021-04-08 05:14:01 公開日:2021-04-02
# (参考訳) ドメインシフトに対するロバスト性を改善する誤分類認識ガウス平滑化 [全文訳有]

Misclassification-Aw are Gaussian Smoothing improves Robustness against Domain Shifts ( http://arxiv.org/abs/2104.01231v1 )

ライセンス: CC BY 4.0
Athanasios Tsiligkaridis, Theodoros Tsiligkaridis(参考訳) 深層ニューラルネットワークは、列車とテスト分布が一致すると高い予測精度を達成する。 しかし、実際には様々な種類の汚職がこの設定から逸脱し、性能が著しく低下する可能性がある。 デプロイ中に予期せぬドメインシフトが存在する場合に、一般化に対処する方法はごくわずかである。 本稿では, 画像分類器の様々な汚損に対する堅牢性を向上させるために, クリーンな精度を維持しつつ, 誤分類対応のガウス平滑化手法を提案する。 提案する誤分類認識目標の背後にある直観は,小雑音体制における局所的損失偏差の限界を通して明らかにされる。 本手法と付加的なデータ拡張を組み合わせると,いくつかの画像分類タスクにおけるロバスト性および不確かさのキャリブレーションを改善することが実証的に示されている。

Deep neural networks achieve high prediction accuracy when the train and test distributions coincide. However, in practice various types of corruptions can deviate from this setup and performance can be heavily degraded. There have been only a few methods to address generalization in presence of unexpected domain shifts observed during deployment. In this paper, a misclassification-aw are Gaussian smoothing approach is presented to improve the robustness of image classifiers against a variety of corruptions while maintaining clean accuracy. The intuition behind our proposed misclassification-aw are objective is revealed through bounds on the local loss deviation in the small-noise regime. When our method is coupled with additional data augmentations, it is empirically shown to improve upon the state-of-the-art in robustness and uncertainty calibration on several image classification tasks.
翻訳日:2021-04-08 04:50:40 公開日:2021-04-02
# (参考訳) 自動運転データチェーンとインターフェース [全文訳有]

Autonomous Driving Data Chain & Interfaces ( http://arxiv.org/abs/2104.01252v1 )

ライセンス: CC BY 4.0
Benjamin Kahl(参考訳) 最近の自動運転技術の発展により、マップデータは一般的なルーティング目的だけでなく、一般的なセンサーデータの強化と補完にも使われることが証明されている。 この文書は、自己修復マップデータチェーンの各ステップで最もよく使われるインターフェースとフォーマットをレビューします。

Recent developments in autonomous driving technology have proven that map data may be used, not only for general routing purposes, but also for to enhance and complement common sensor data. This document reviews the most commonly used interfaces and formats at each step of a selfhealing map data chain.
翻訳日:2021-04-08 04:37:32 公開日:2021-04-02
# (参考訳) 非ペア画像からの光フローデータセット合成 [全文訳有]

Optical Flow Dataset Synthesis from Unpaired Images ( http://arxiv.org/abs/2104.02615v1 )

ライセンス: CC BY 4.0
Adrian W\"alchli and Paolo Favaro(参考訳) 光流の推定は、咬合、影、反射、テクスチャの欠如、時間経過に伴う照明の変化に対する対応の欠如による曖昧な作業である。 したがって、教師なしのメソッドは、これらの曖昧さの源をそれぞれ扱うように設計された複数の用語で複雑なコスト関数をチューニングする必要があるため、大きな課題に直面している。 対照的に、教師付き手法は、合成データや実データから直接得られる露骨な真実の光の流れに頼ることによって、これらの課題を完全に回避している。 合成データの場合、基底真理は、与えられたシーンに割り当てるべき光の流れを正確に明示的に記述する。 しかし、合成データと実際のデータのドメインギャップは、しばしば訓練されたネットワークが一般化する能力を制限する。 実際のデータの場合、基盤となる真実は複数のセンサーと追加のデータ処理によって得られ、永続的なエラーを引き起こして汚染する可能性がある。 そこで本稿では,これらの問題を解決するために,光流を教師ありに訓練できる擬似実画像の訓練セットを構築する新しい手法を提案する。 我々のデータセットは、実際のデータから2つの未ペアフレームを使用し、ランダムなワープをシミュレートし、スーパーピクセルとオクルージョン、シャドウ、照明の変化とそれらを対応する正確な光学フローに関連付け、フレームのペアを生成する。 そこで我々は,真理を正確に把握しながら,実データを直接訓練する利点を得る。 SintelとKITTIベンチマークのデータセットを使用したトレーニングは簡単で、より高度なトレーニングアプローチと比較して、同等あるいは同等なパフォーマンスのモデルが得られる。

The estimation of optical flow is an ambiguous task due to the lack of correspondence at occlusions, shadows, reflections, lack of texture and changes in illumination over time. Thus, unsupervised methods face major challenges as they need to tune complex cost functions with several terms designed to handle each of these sources of ambiguity. In contrast, supervised methods avoid these challenges altogether by relying on explicit ground truth optical flow obtained directly from synthetic or real data. In the case of synthetic data, the ground truth provides an exact and explicit description of what optical flow to assign to a given scene. However, the domain gap between synthetic data and real data often limits the ability of a trained network to generalize. In the case of real data, the ground truth is obtained through multiple sensors and additional data processing, which might introduce persistent errors and contaminate it. As a solution to these issues, we introduce a novel method to build a training set of pseudo-real images that can be used to train optical flow in a supervised manner. Our dataset uses two unpaired frames from real data and creates pairs of frames by simulating random warps, occlusions with super-pixels, shadows and illumination changes, and associates them to their corresponding exact optical flow. We thus obtain the benefit of directly training on real data while having access to an exact ground truth. Training with our datasets on the Sintel and KITTI benchmarks is straightforward and yields models on par or with state of the art performance compared to much more sophisticated training approaches.
翻訳日:2021-04-08 04:31:52 公開日:2021-04-02
# (参考訳) RGB衛星画像を用いた都市規模の足跡抽出のためのセマンティックセグメンテーションネットワーク [全文訳有]

A Semantic Segmentation Network for Urban-Scale Building Footprint Extraction Using RGB Satellite Imagery ( http://arxiv.org/abs/2104.01263v1 )

ライセンス: CC BY 4.0
Aatif Jiwani, Shubhrakanti Ganguly, Chao Ding, Nan Zhou, and David M. Chan(参考訳) 都市部は世界のエネルギーの3分の2以上を消費し、世界の二酸化炭素排出量の70%以上を占めている。 IPCCのGlobal Warming of 1.5Cレポートで述べられているように、2050年までに炭素中立性を達成するには、グローバルコンテキストに適用可能なスケーラブルなアプローチが必要である。 従来のエネルギー利用と建物の排出に関するデータ収集手法は非常に高価であり、全ての都市が容易に利用できるわけではない特別な幾何学情報を必要とする。 衛星画像からの高品質な建物のフットプリント生成は、この予測プロセスを加速し、大規模な自治体の意思決定を促進することができる。 しかし、従来のディープラーニングベースのアプローチでは、ポイントクラウドデータ、ビルディングハイト情報、マルチバンドイメージなどの補足データを使用し、可用性が限られており、生成が困難だった。 本稿では,Dilated ResNetのバックボーンを付加したDeeplabV3+モジュールを提案する。 さらに,対象関数にfベータ尺度を導入し,歪んだクラス分布のモデル説明を支援する。 f-ベータの目的関数に加えて,指数関数重み付けされた境界損失を取り入れ,クロスデータセットのトレーニング戦略を用いて予測の質をさらに高める。 その結果,3つの標準ベンチマークにおいて最先端の性能を達成し,衛星画像の規模,解像度,都市密度に依存しないrgbのみの手法を実証した。

Urban areas consume over two-thirds of the world's energy and account for more than 70 percent of global CO2 emissions. As stated in IPCC's Global Warming of 1.5C report, achieving carbon neutrality by 2050 requires a scalable approach that can be applied in a global context. Conventional methods of collecting data on energy use and emissions of buildings are extremely expensive and require specialized geometry information that not all cities have readily available. High-quality building footprint generation from satellite images can accelerate this predictive process and empower municipal decision-making at scale. However, previous deep learning-based approaches use supplemental data such as point cloud data, building height information, and multi-band imagery - which has limited availability and is difficult to produce. In this paper, we propose a modified DeeplabV3+ module with a Dilated ResNet backbone to generate masks of building footprints from only three-channel RGB satellite imagery. Furthermore, we introduce an F-Beta measure in our objective function to help the model account for skewed class distributions. In addition to an F-Beta objective function, we incorporate an exponentially weighted boundary loss and use a cross-dataset training strategy to further increase the quality of predictions. As a result, we achieve state-of-the-art performance across three standard benchmarks and demonstrate that our RGB-only method is agnostic to the scale, resolution, and urban density of satellite imagery.
翻訳日:2021-04-08 04:20:30 公開日:2021-04-02
# (参考訳) K-12教育における人間-AI相補性の設計 [全文訳有]

Designing for human-AI complementarity in K-12 education ( http://arxiv.org/abs/2104.01266v1 )

ライセンス: CC BY 4.0
Kenneth Holstein and Vincent Aleven(参考訳) 近年の研究では、人間と人工知能(AI)システムの相補的な強みがいかに生産的に組み合わせられるかが研究されている。 しかし、人間とAIのパートナーシップの成功形態は、現実世界ではほとんど実証されていない。 本稿では,学生の学習,メタ認知,行動に関するリアルタイム分析を行い,生徒のai支援教室における支援を支援するスマートグラスlumiloの反復設計と評価を行った。 K-12教室で実施したフィールドスタディの結果,教師とAI教師が授業中に一緒に働くとき,学生はより多くを学ぶことが示唆された。 本稿では,人間-AI連携の設計,この分野の研究への参加的アプローチ,実世界の文脈における人間-AI意思決定研究の原則的アプローチについて論じる。

Recent work has explored how complementary strengths of humans and artificial intelligence (AI) systems might be productively combined. However, successful forms of human-AI partnership have rarely been demonstrated in real-world settings. We present the iterative design and evaluation of Lumilo, smart glasses that help teachers help their students in AI-supported classrooms by presenting real-time analytics about students' learning, metacognition, and behavior. Results from a field study conducted in K-12 classrooms indicate that students learn more when teachers and AI tutors work together during class. We discuss implications for the design of human-AI partnerships, arguing for participatory approaches to research in this area, and for principled approaches to studying human-AI decision-making in real-world contexts.
翻訳日:2021-04-08 04:07:41 公開日:2021-04-02
# (参考訳) スマートフォン記録からの機械学習によるCOVID-19検出:カフ、ブレス、スピーチ [全文訳有]

Machine Learning based COVID-19 Detection from Smartphone Recordings: Cough, Breath and Speech ( http://arxiv.org/abs/2104.02477v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Thomas Niesler(参考訳) 本研究は, スマートフォンから発声, 呼吸, 発声を自動検出する実験である。 この種のスクリーニングは、非接触性であり、専門的な医学的専門知識や検査施設を必要としないため、安価な消費者向けハードウェアに容易にデプロイできるため、魅力的である。 coswara と comparison の2つのデータセットに基づいて実験を行い,世界中の被験者から寄せ声,呼吸,発話の録音を行った。 我々は,機械学習分類器を7つ検討し,その全てを学習し,相互検証を用いて評価した。 coswaraのデータでは、resnet50アーキテクチャを用いて最大0.92のaucを達成した。 ComParEデータでは, 最上位のAUCは, 最上位12個の特徴を逐次前方選択(SFS)を用いて選択した後, コー記録上のk-nearest neighbors(KNN)分類器を用いて達成され, 最上位のAUCはSFSを用いて最上位23個の特徴を選択する際に, 多層パーセプトロン(MLP)により音声上でも達成された。 発声音声では、covid-19の最も強力な署名は、息とスピーチに続くものだと結論付けている。 これらのシグネチャは人間の耳では認識できないが、スマートフォンで録音された音声から機械学習によるCOVID-19検出が可能である。

We present an experimental investigation into the automatic detection of COVID-19 from smartphone recordings of coughs, breaths and speech. This type of screening is attractive because it is non-contact, does not require specialist medical expertise or laboratory facilities and can easily be deployed on inexpensive consumer hardware. We base our experiments on two datasets, Coswara and ComParE, containing recordings of coughing, breathing and speech from subjects around the globe. We have considered seven machine learning classifiers and all of them are trained and evaluated using leave-p-out cross-validation. For the Coswara data, the highest AUC of 0.92 was achieved using a Resnet50 architecture on breaths. For the ComParE data, the highest AUC of 0.93 was achieved using a k-nearest neighbours (KNN) classifier on cough recordings after selecting the best 12 features using sequential forward selection (SFS) and the highest AUC of 0.91 was also achieved on speech by a multilayer perceptron (MLP) when using SFS to select the best 23 features. We conclude that among all vocal audio, coughs carry the strongest COVID-19 signature followed by breath and speech. Although these signatures are not perceivable by human ear, machine learning based COVID-19 detection is possible from vocal audio recorded via smartphone.
翻訳日:2021-04-08 03:50:48 公開日:2021-04-02
# ニューロンは考えるよりもゆっくり学習する

Neurons learn slower than they think ( http://arxiv.org/abs/2104.02578v1 )

ライセンス: Link先を確認
Ilona Kulikovskikh(参考訳) 近年の研究では, 勾配法における複雑な収束ダイナミクスが明らかにされているが, これまでのところほとんど分かっていない。 高い収束率と小さな一般化誤差のバランスにステップサイズを変更するだけでは不十分である。 テスト精度を最大化するには、通常、トレーニング損失を最小化するよりも、大きな学習レートが必要になる。 本研究は,収束率の動的境界を探索するために,最適化プロセスに \textit{differential capability} を導入することで,モデルが分類問題において決定境界に近づくほど,テスト精度が向上するかどうかを測定する。 収束解析の結果, 1) 高い収束速度は能力の増大を遅らせる,2) 低い収束速度は能力の増大と崩壊を早める,3) どちらの方向にも収束速度を調整すれば能力の差が減少する,という結果が得られた。

Recent studies revealed complex convergence dynamics in gradient-based methods, which has been little understood so far. Changing the step size to balance between high convergence rate and small generalization error may not be sufficient: maximizing the test accuracy usually requires a larger learning rate than minimizing the training loss. To explore the dynamic bounds of convergence rate, this study introduces \textit{differential capability} into an optimization process, which measures whether the test accuracy increases as fast as a model approaches the decision boundary in a classification problem. The convergence analysis showed that: 1) a higher convergence rate leads to slower capability growth; 2) a lower convergence rate results in faster capability growth and decay; 3) regulating a convergence rate in either direction reduces differential capability.
翻訳日:2021-04-07 14:22:17 公開日:2021-04-02
# 臨床皮膚画像からの悪性度予測と病変同定

Malignancy Prediction and Lesion Identification from Clinical Dermatological Images ( http://arxiv.org/abs/2104.02652v1 )

ライセンス: Link先を確認
Meng Xia, Meenal K. Kheterpal, Samantha C. Wong, Christine Park, William Ratliff, Lawrence Carin, Ricardo Henao(参考訳) 臨床皮膚画像からの機械学習に基づく悪性腫瘍の予測と病変の同定について検討した。 さらに,画像は単一の病変を含むとは仮定せず,焦点画像と広視野画像の両方をサポートする。 具体的には, 画像中のすべての病変を, サブタイプや悪性度にかかわらず識別し, それらの悪性度を推定し, 凝集することにより, 高レベルのスクリーニングに使用できる画像レベルの悪性度の可能性も生み出す2段階アプローチを提案する。 さらに,提案手法を,臨床共変量(電子健康記録)と公開データ(isicデータセット)で強化することを検討する。 Comprehensive experiments validated on an independent test dataset demonstrate that i) the proposed approach outperforms alternative model architectures; ii) the model based on images outperforms a pure clinical model by a large margin, and the combination of images and clinical data does not significantly improves over the image-only model; and iii) the proposed framework offers comparable performance in terms of malignancy classification relative to three board certified dermatologists with different levels of experience.

We consider machine-learning-bas ed malignancy prediction and lesion identification from clinical dermatological images, which can be indistinctly acquired via smartphone or dermoscopy capture. Additionally, we do not assume that images contain single lesions, thus the framework supports both focal or wide-field images. Specifically, we propose a two-stage approach in which we first identify all lesions present in the image regardless of sub-type or likelihood of malignancy, then it estimates their likelihood of malignancy, and through aggregation, it also generates an image-level likelihood of malignancy that can be used for high-level screening processes. Further, we consider augmenting the proposed approach with clinical covariates (from electronic health records) and publicly available data (the ISIC dataset). Comprehensive experiments validated on an independent test dataset demonstrate that i) the proposed approach outperforms alternative model architectures; ii) the model based on images outperforms a pure clinical model by a large margin, and the combination of images and clinical data does not significantly improves over the image-only model; and iii) the proposed framework offers comparable performance in terms of malignancy classification relative to three board certified dermatologists with different levels of experience.
翻訳日:2021-04-07 14:20:24 公開日:2021-04-02
# 限られたデータによる学習の落とし穴について:表情認識ケーススタディ

On the Pitfalls of Learning with Limited Data: A Facial Expression Recognition Case Study ( http://arxiv.org/abs/2104.02653v1 )

ライセンス: Link先を確認
Miguel Rodr\'iguez Santander, Juan Hern\'andez Albarrac\'in, Ad\'in Ram\'irez Rivera(参考訳) ディープラーニングモデルは、トレーニングに大量のデータが必要です。 ビデオ認識と分類では、新しい大規模データベースの導入によって大きな進歩を遂げた。 しかし、トレーニング用の大規模データベースの作成は、いくつかのシナリオでは実現不可能である。 したがって、既存のあるいは小さな収集されたデータベースは通常、これらのモデルをトレーニングするために結合され、増幅されます。 それでも、限られたデータでニューラルネットワークをトレーニングするのは簡単ではありません。 本稿では,データベースの積み重ね,モデル初期化,データ増幅がディープラーニングモデルの性能に与える影響について検討する。 ビデオによる表情認識の問題に焦点をあてた。 4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。 We found that (i) complex training sets translate better to more stable test sets when trained with transfer learning and synthetically generated data, but their performance yields a high variance; (ii) training with more detailed data translates to more stable performance on novel scenarios (albeit with lower performance); (iii) merging heterogeneous data is not a straightforward improvement, as the type of augmentation and initialization is crucial; (iv) classical data augmentation cannot fill the holes created by joining largely separated datasets; and (v) inductive biases help to bridge the gap when paired with synthetic data, but this data is not enough when working with standard initialization techniques.

Deep learning models need large amounts of data for training. In video recognition and classification, significant advances were achieved with the introduction of new large databases. However, the creation of large-databases for training is infeasible in several scenarios. Thus, existing or small collected databases are typically joined and amplified to train these models. Nevertheless, training neural networks on limited data is not straightforward and comes with a set of problems. In this paper, we explore the effects of stacking databases, model initialization, and data amplification techniques when training with limited data on deep learning models' performance. We focused on the problem of Facial Expression Recognition from videos. We performed an extensive study with four databases at a different complexity and nine deep-learning architectures for video classification. We found that (i) complex training sets translate better to more stable test sets when trained with transfer learning and synthetically generated data, but their performance yields a high variance; (ii) training with more detailed data translates to more stable performance on novel scenarios (albeit with lower performance); (iii) merging heterogeneous data is not a straightforward improvement, as the type of augmentation and initialization is crucial; (iv) classical data augmentation cannot fill the holes created by joining largely separated datasets; and (v) inductive biases help to bridge the gap when paired with synthetic data, but this data is not enough when working with standard initialization techniques.
翻訳日:2021-04-07 14:20:05 公開日:2021-04-02
# 3d条件生成型逆ネットワークを用いた合成ctボリューム生成に向けて

Toward Generating Synthetic CT Volumes using a 3D-Conditional Generative Adversarial Network ( http://arxiv.org/abs/2104.02060v1 )

ライセンス: Link先を確認
Jayalakshmi Mangalagiri, David Chapman, Aryya Gangopadhyay, Yaacov Yesha, Joshua Galita, Sumeet Menon, Yelena Yesha, Babak Saboury, Michael Morris, Phuong Nguyen(参考訳) 本稿では,ノイズおよび/またはピクセル化近似からボクセルの3次元ctスキャンを生成できるとともに,完全な合成3次元スキャンボリュームを生成できる新しい条件付き生成逆ネットワーク(cgan)アーキテクチャを提案する。 フル解像度のディープフェイクを生成する問題は、GPUメモリの制限により、現在実行不可能であるにもかかわらず、条件付きcGANは3次元CTボリュームを生成するための難易度の高いアプローチであると信じている。 2つの新しいcovid-19 ctデータセットで訓練およびテストされたautoencoder, denoising, depixelatingタスクの結果を示す。 評価指標,ピーク信号とノイズ比(PSNR)は12.53から46.46dB,構造類似度指数(SSIM)は0.89から1。

We present a novel conditional Generative Adversarial Network (cGAN) architecture that is capable of generating 3D Computed Tomography scans in voxels from noisy and/or pixelated approximations and with the potential to generate full synthetic 3D scan volumes. We believe conditional cGAN to be a tractable approach to generate 3D CT volumes, even though the problem of generating full resolution deep fakes is presently impractical due to GPU memory limitations. We present results for autoencoder, denoising, and depixelating tasks which are trained and tested on two novel COVID19 CT datasets. Our evaluation metrics, Peak Signal to Noise ratio (PSNR) range from 12.53 - 46.46 dB, and the Structural Similarity index ( SSIM) range from 0.89 to 1.
翻訳日:2021-04-07 14:15:58 公開日:2021-04-02
# Query2Prod2VecがEコマース用ワード埋め込みを公開

Query2Prod2Vec Grounded Word Embeddings for eCommerce ( http://arxiv.org/abs/2104.02061v1 )

ライセンス: Link先を確認
Federico Bianchi, Jacopo Tagliabue and Bingqing Yu(参考訳) 私たちは、製品埋め込みにおける製品検索の語彙表現を基礎とするモデルであるquery2prod2vecを紹介します。 私たちの実験では、nlpやir文学の既知の技術よりも、私たちのモデルの方が正確であることが示されています。 最後に、小売大手以外の製品検索におけるデータ効率の重要性を強調し、Query2Prod2Vecが実践者が直面する現実的な制約にどのように適合するかを強調します。

We present Query2Prod2Vec, a model that grounds lexical representations for product search in product embeddings: in our model, meaning is a mapping between words and a latent space of products in a digital shop. We leverage shopping sessions to learn the underlying space and use merchandising annotations to build lexical analogies for evaluation: our experiments show that our model is more accurate than known techniques from the NLP and IR literature. Finally, we stress the importance of data efficiency for product search outside of retail giants, and highlight how Query2Prod2Vec fits with practical constraints faced by most practitioners.
翻訳日:2021-04-07 13:53:03 公開日:2021-04-02
# 機械翻訳への注意

Attention Forcing for Machine Translation ( http://arxiv.org/abs/2104.01264v1 )

ライセンス: Link先を確認
Qingyun Dou, Yiting Lu, Potsawee Manakul, Xixin Wu, Mark J. F. Gales(参考訳) 注意機構を持つ自動回帰シーケンス・ツー・シーケンスモデルでは,テキスト音声(TTS)やニューラル機械翻訳(NMT)など,さまざまなタスクにおいて最先端のパフォーマンスを実現している。 標準的なトレーニングアプローチである教師強制は、モデルの参照出力履歴を導く。 推論段階では、生成された出力履歴を使用する必要がある。 このミスマッチはパフォーマンスに影響を与えます。 しかし、生成された出力を使ってモデルをトレーニングするのは非常に難しい。 この問題を解決するために、通常は生成された出力履歴を選択的に使用することで、いくつかのアプローチが提案されている。 訓練を安定させるためには、しばしばヒューリスティックなスケジュールや補助的な分類器を必要とする。 本稿は,NMTの注意を喚起する。 このアプローチは、生成した出力履歴と参照アテンションでモデルをガイドし、スケジュールや分類器なしでトレーニングと推論のミスマッチを減らすことができる。 TTSにおいて注意強制は成功したが、出力空間の離散性と多重モードの性質のため、NTTへの適用はより困難である。 そこで本稿では,各トレーニングデータに対して適切なトレーニングアプローチを自動的に選択する,バニラ注意強制のための選択方式を提案する。 実験により、注意力は翻訳の全体的な品質と多様性を改善することが示されている。

Auto-regressive sequence-to-sequence models with attention mechanisms have achieved state-of-the-art performance in various tasks including Text-To-Speech (TTS) and Neural Machine Translation (NMT). The standard training approach, teacher forcing, guides a model with the reference output history. At inference stage, the generated output history must be used. This mismatch can impact performance. However, it is highly challenging to train the model using the generated output. Several approaches have been proposed to address this problem, normally by selectively using the generated output history. To make training stable, these approaches often require a heuristic schedule or an auxiliary classifier. This paper introduces attention forcing for NMT. This approach guides the model with the generated output history and reference attention, and can reduce the training-inference mismatch without a schedule or a classifier. Attention forcing has been successful in TTS, but its application to NMT is more challenging, due to the discrete and multi-modal nature of the output space. To tackle this problem, this paper adds a selection scheme to vanilla attention forcing, which automatically selects a suitable training approach for each pair of training data. Experiments show that attention forcing can improve the overall translation quality and the diversity of the translations.
翻訳日:2021-04-06 14:56:19 公開日:2021-04-02
# PATE-AAE:音声コマンド分類のための教師の私的集合体への対人オートエンコーダの導入

PATE-AAE: Incorporating Adversarial Autoencoder into Private Aggregation of Teacher Ensembles for Spoken Command Classification ( http://arxiv.org/abs/2104.01271v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) 本稿では,教師アンサンブルのプライベートアグリゲーション(PATE)におけるGAN(Generative Adversarial Network)の代替として,AAE(Adversarial Autoencoder)を用いることを提案する。 AAEアーキテクチャにより、潜伏ベクトルの識別訓練を利用した優れた合成音声が得られる。 このような合成音声は、パブリックドメインで十分な機密データが得られていない場合に、プライバシー保護の分類器を構築するために使用される。 この分類器は、ノイズ出力のアンサンブルを使用して合成サンプルをラベル付けし、派生した分類器に$\varepsilon$-differ ential privacy (DP)を保証するPATE方式に従う。 提案するフレームワークは,AAEベースのジェネレータとPATEベースの分類器(PATE-AAE)から構成される。 提案されたpate-aaeは、google speech commandのdatasetバージョンiiで評価され、pate-ganとdp-ganという代替プライバシ保存ソリューションと比較して、平均的な分類精度が2.11\%$と6.60\%$で向上する一方で、固定された$\delta$=10$^{-5}$で$\varepsilon$=0.01という高いプライバシターゲットレベルを維持している。

We propose using an adversarial autoencoder (AAE) to replace generative adversarial network (GAN) in the private aggregation of teacher ensembles (PATE), a solution for ensuring differential privacy in speech applications. The AAE architecture allows us to obtain good synthetic speech leveraging upon a discriminative training of latent vectors. Such synthetic speech is used to build a privacy-preserving classifier when non-sensitive data is not sufficiently available in the public domain. This classifier follows the PATE scheme that uses an ensemble of noisy outputs to label the synthetic samples and guarantee $\varepsilon$-differ ential privacy (DP) on its derived classifiers. Our proposed framework thus consists of an AAE-based generator and a PATE-based classifier (PATE-AAE). Evaluated on the Google Speech Commands Dataset Version II, the proposed PATE-AAE improves the average classification accuracy by +$2.11\%$ and +$6.60\%$, respectively, when compared with alternative privacy-preserving solutions, namely PATE-GAN and DP-GAN, while maintaining a strong level of privacy target at $\varepsilon$=0.01 with a fixed $\delta$=10$^{-5}$.
翻訳日:2021-04-06 14:47:04 公開日:2021-04-02
# 短いクリップを超えて:コラボレーション記憶によるエンドツーエンドのビデオレベル学習

Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories ( http://arxiv.org/abs/2104.01198v1 )

ライセンス: Link先を確認
Xitong Yang, Haoqi Fan, Lorenzo Torresani, Larry Davis and Heng Wang(参考訳) ビデオモデルをトレーニングする標準的な方法は、イテレーション毎にビデオから1つのクリップをサンプリングし、ビデオレベルのラベルに関してクリップ予測を最適化する。 ビデオデータセットは分類情報で弱められていることが多いが、密集した時間的アノテーションがないため、一つのクリップは認識するラベルを示すのに十分な時間的カバレッジを持っていない。 さらに、短いクリップでモデルを最適化することは、長期的な時間的依存関係を学習する能力を妨げる。 これらの制限を克服するために,各トレーニングイテレーションでビデオの複数のサンプルクリップにまたがって情報をエンコードする協調記憶機構を導入する。 これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。 最適化の困難さを和らげるために,協調記憶の異なる設計選択を探索する。 提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。 大規模な実験を通じて、我々のフレームワークが様々なビデオアーキテクチャやタスクに一般化し、アクション認識(Kinetics-400 & 700, Charades, Something-Something- V1)とアクション検出(AVA v2.1 & v2.2)の両方で、技術の現状を上回ります。

The standard way of training video models entails sampling at each iteration a single clip from a video and optimizing the clip prediction with respect to the video-level label. We argue that a single clip may not have enough temporal coverage to exhibit the label to recognize, since video datasets are often weakly labeled with categorical information but without dense temporal annotations. Furthermore, optimizing the model over brief clips impedes its ability to learn long-term temporal dependencies. To overcome these limitations, we introduce a collaborative memory mechanism that encodes information across multiple sampled clips of a video at each training iteration. This enables the learning of long-range dependencies beyond a single clip. We explore different design choices for the collaborative memory to ease the optimization difficulties. Our proposed framework is end-to-end trainable and significantly improves the accuracy of video classification at a negligible computational overhead. Through extensive experiments, we demonstrate that our framework generalizes to different video architectures and tasks, outperforming the state of the art on both action recognition (e.g., Kinetics-400 & 700, Charades, Something-Something- V1) and action detection (e.g., AVA v2.1 & v2.2).
翻訳日:2021-04-06 14:40:59 公開日:2021-04-02
# 階層的自己スーパービジョンを用いたインスタンスセグメンテーションにおけるロングテールの教師なし発見

Unsupervised Discovery of the Long-Tail in Instance Segmentation Using Hierarchical Self-Supervision ( http://arxiv.org/abs/2104.01257v1 )

ライセンス: Link先を確認
Zhenzhen Weng, Mehmet Giray Ogut, Shai Limonchik, Serena Yeung(参考訳) インスタンスセグメンテーションはコンピュータビジョンにおいて活発なトピックであり、通常はオブジェクトレベルのマスクで構成される非常に大きなデータセットに対する教師付き学習アプローチを使用して解決される。 そのようなデータセットを新しいドメインで取得することは、非常に高価で時間がかかります。 さらに、ある注釈付きカテゴリでトレーニングされたモデルは、見当たらないオブジェクトにうまく一般化しない。 本研究の目的は,マスキング領域のインスタンス埋め込みを学習することで,インスタンスセグメンテーションにおけるロングテールカテゴリを教師なしで発見する手法を提案することである。 画像内のオブジェクト間のリッチな関係と階層構造を利用して,マスク埋め込み学習のための自己教師付き損失を提案する。 ロングテールオブジェクトのアノテーションを追加せずにCOCOデータセットでトレーニングすることで、私たちのモデルはCOCOの一般的なカテゴリよりも新しくよりきめ細かなオブジェクトを発見できる。 本モデルでは,LVISにおいて,教師付きおよび部分教師付き手法と比較して,競合的な定量的結果が得られることを示す。

Instance segmentation is an active topic in computer vision that is usually solved by using supervised learning approaches over very large datasets composed of object level masks. Obtaining such a dataset for any new domain can be very expensive and time-consuming. In addition, models trained on certain annotated categories do not generalize well to unseen objects. The goal of this paper is to propose a method that can perform unsupervised discovery of long-tail categories in instance segmentation, through learning instance embeddings of masked regions. Leveraging rich relationship and hierarchical structure between objects in the images, we propose self-supervised losses for learning mask embeddings. Trained on COCO dataset without additional annotations of the long-tail objects, our model is able to discover novel and more fine-grained objects than the common categories in COCO. We show that the model achieves competitive quantitative results on LVIS as compared to the supervised and partially supervised methods.
翻訳日:2021-04-06 14:40:39 公開日:2021-04-02
# アジャイル操作とクイックトレーニング可能な検出機能を備えたロボット廃棄物センサ

Robotic Waste Sorter with Agile Manipulation and Quickly Trainable Detector ( http://arxiv.org/abs/2104.01260v1 )

ライセンス: Link先を確認
Takuya Kiyokawa, Hiroki Katayama, Yuya Tatsuta, Jun Takamatsu, Tsukasa Ogasawara(参考訳) 人的労働不足のため、労働集約型手作業廃棄物整理の自動化が必要である。 廃棄物処理を自動化する目的は、ロボットによる廃棄物の堅牢な検出とアジャイル操作の人間的役割を置き換えることである。 そこで我々は3つの手法を提案する。 まず,ハンドレスなプッシュ・アンド・ドロップ操作とピック・アンド・リリース操作を組み合わせた操作手法を提案する。 次に,物体画像を自動的に収集し,深層ニューラルネットワークモデルを迅速に訓練するロボットシステムを提案する。 第3に, リサイクル工場における廃棄物選別とデータセット収集の2つの場面から, 対象物の外観の違いを緩和する手法を提案する。 相違がある場合、訓練された廃棄物検知器の性能が低下する可能性がある。 対象のスケーリング,ヒストグラム等化とマッチングしたヒストグラム,背景画像への背景合成を応用して,照明と背景の差異に対処する。 本研究では, 室内における廃棄物選別実験において, アルミニウム缶, ガラス瓶, ペットボトルの3種類の廃棄物の訓練用画像集合を迅速に収集し, それらの差異を考慮しない方法よりも高い性能で検出できることを確認した。 また,提案手法によりロボットが素早く操作できることを確認した。

Owing to human labor shortages, the automation of labor-intensive manual waste-sorting is needed. The goal of automating the waste-sorting is to replace the human role of robust detection and agile manipulation of the waste items by robots. To achieve this, we propose three methods. First, we propose a combined manipulation method using graspless push-and-drop and pick-and-release manipulation. Second, we propose a robotic system that can automatically collect object images to quickly train a deep neural network model. Third, we propose the method to mitigate the differences in the appearance of target objects from two scenes: one for the dataset collection and the other for waste sorting in a recycling factory. If differences exist, the performance of a trained waste detector could be decreased. We address differences in illumination and background by applying object scaling, histogram matching with histogram equalization, and background synthesis to the source target-object images. Via experiments in an indoor experimental workplace for waste-sorting, we confirmed the proposed methods enable quickly collecting the training image sets for three classes of waste items, i.e., aluminum can, glass bottle, and plastic bottle and detecting them with higher performance than the methods that do not consider the differences. We also confirmed that the proposed method enables the robot quickly manipulate them.
翻訳日:2021-04-06 14:24:42 公開日:2021-04-02
# 尿管鏡およびレーザーリトリップシーのためのマルチクラスモーションベースセマンティックセグメンテーション

Multi-class motion-based semantic segmentation for ureteroscopy and laser lithotripsy ( http://arxiv.org/abs/2104.01268v1 )

ライセンス: Link先を確認
Soumya Gupta, Sharib Ali, Louise Goldsmith, Ben Turney and Jens Rittscher(参考訳) 腎臓結石は公衆衛生システムにとってかなりの負担を負っている。 レーザーリソトリプシーによる尿管内視鏡は腎臓結石の治療に最も一般的に用いられる技術として進化してきた。 腎臓結石とレーザーファイバーの自動分節化は、石の自動化された定量化、特に石の大きさの推定を行うための重要な最初のステップである。 空洞内の濁った流体、特異性、腎臓の動きによる動きのぼけ、カメラの動き、出血、そして石の破片などの要因は、腎臓内の視覚の質に影響を与え、手術時間を延ばす。 我々の知る限りでは、これは尿管鏡およびレーザーリトリップシーデータにおけるマルチクラスセグメンテーションに向けた最初の試みである。 石とレーザー繊維の分断のためのエンドツーエンドCNNベースのフレームワークを提案する。 提案手法では、u-netのエンコーダパスの残差接続を使用する残差u-netのバージョンであるhybresunetと、dvf予測を生成するdvfnetの2つのサブネットワークを使用する。 また,拡張畳み込み,繰り返しおよび残差接続,ASPPおよびアテンションゲートを組み合わせたアブレーション研究も行った。 セグメント化性能を向上させる複合損失関数を提案する。 また,データ拡張の最適戦略を決定するためのアブレーション研究も行った。 本手法は, invivo テストデータセットにおける dsc と ji の組合せ平均に対して,それぞれ 5.2% と 15.93% の改善を示す unet や deeplabv3+ などの sota 法よりも優れていた。 また,提案モデルでは,unet,hybresunet,dee plabv3+に対して,平均25.4%,20%,11%の改善率を示す新しい臨床データセットを,それぞれ同じ測定値で一般化することが示されている。

Kidney stones represent a considerable burden for public health-care systems. Ureteroscopy with laser lithotripsy has evolved as the most commonly used technique for the treatment of kidney stones. Automated segmentation of kidney stones and laser fiber is an important initial step to performing any automated quantitative analysis of the stones, particularly stone-size estimation, that helps the surgeon decide if the stone requires more fragmentation. Factors such as turbid fluid inside the cavity, specularities, motion blur due to kidney movements and camera motion, bleeding, and stone debris impact the quality of vision within the kidney and lead to extended operative times. To the best of our knowledge, this is the first attempt made towards multi-class segmentation in ureteroscopy and laser lithotripsy data. We propose an end-to-end CNN-based framework for the segmentation of stones and laser fiber. The proposed approach utilizes two sub-networks: HybResUNet, a version of residual U-Net, that uses residual connections in the encoder path of U-Net and a DVFNet that generates DVF predictions which are then used to prune the prediction maps. We also present ablation studies that combine dilated convolutions, recurrent and residual connections, ASPP and attention gate. We propose a compound loss function that improves our segmentation performance. We have also provided an ablation study to determine the optimal data augmentation strategy. Our qualitative and quantitative results illustrate that our proposed method outperforms SOTA methods such as UNet and DeepLabv3+ showing an improvement of 5.2% and 15.93%, respectively, for the combined mean of DSC and JI in our invivo test dataset. We also show that our proposed model generalizes better on a new clinical dataset showing a mean improvement of 25.4%, 20%, and 11% over UNet, HybResUNet, and DeepLabv3+, respectively, for the same metric.
翻訳日:2021-04-06 14:24:22 公開日:2021-04-02
# 量子回帰ニューラルネットワークによるモビリティ需要のモデル化

Modeling Censored Mobility Demand through Quantile Regression Neural Networks ( http://arxiv.org/abs/2104.01214v1 )

ライセンス: Link先を確認
Inon Peled, Filipe Rodrigues, Francisco C. Pereira(参考訳) 共有モビリティサービスは、効果的なサービス計画のための正確な需要モデルを必要とする。 一方、完全な不確実性構造は意思決定に有用な情報を保持するため、需要の完全な確率分布をモデル化することが有利である。 一方、需要はサービス自体の使用によってしばしば観測されるため、利用可能な供給によって本質的に制限されるため、観察は検閲される。 1980年代以降、Censored Quantile Regressionモデルに関する様々な研究がそのような条件下でうまく機能することが示され、過去20年間、ニューラルネットワーク(CQRNN)を通じて柔軟に実装することを提案した。 しかしながら、トランスポートドメインにCQRNNを適用する作業はまだ行われていないようだ。 デンマークのコペンハーゲン大都市圏の2つの共有モビリティプロバイダのデータセットと、一般的な合成ベースラインデータセットにCQRNNを適用することで、このギャップに対処する。 その結果、CQRNNは検閲無意識モデルとパラメトリック検閲モデルの両方よりも、意図した分布を推定できることがわかった。

Shared mobility services require accurate demand models for effective service planning. On one hand, modeling the full probability distribution of demand is advantageous, because the full uncertainty structure preserves valuable information for decision making. On the other hand, demand is often observed through usage of the service itself, so that the observations are censored, as they are inherently limited by available supply. Since the 1980s, various works on Censored Quantile Regression models have shown them to perform well under such conditions, and in the last two decades, several works have proposed to implement them flexibly through Neural Networks (CQRNN). However, apparently no works have yet applied CQRNN in the Transport domain. We address this gap by applying CQRNN to datasets from two shared mobility providers in the Copenhagen metropolitan area in Denmark, as well as common synthetic baseline datasets. The results show that CQRNN can estimate the intended distributions better than both censorship-unaware models and parametric censored models.
翻訳日:2021-04-06 14:21:42 公開日:2021-04-02
# K空間(SPARK)ニューラルネットの走査特異的アーチファクト低減と物理ベース再構成によるMRIの高速化

Scan Specific Artifact Reduction in K-space (SPARK) Neural Networks Synergize with Physics-based Reconstruction to Accelerate MRI ( http://arxiv.org/abs/2104.01188v1 )

ライセンス: Link先を確認
Yamin Arefeen (1), Onur Beker (2), Heng Yu (3), Elfar Adalsteinsson (1 and 4 and 5), Berkin Bilgic (4 and 6 and 7) ((1) Massachusetts Institute of Technology, (2) \'Ecole Polytechnique F\'ed\'erale de Lausanne (3), Tsinghua University, (4) Harvard-MIT Health Sciences and Technology, (5) Institute for Medical Engineering and Science, (6) Athinoula A. Martinos Center for Biomedical Imaging, (7) Harvard Medical School)(参考訳) 目的: mri(accelerated magnetic resonance imaging)データの再構成時に生じるk空間誤差を推定し補正するスキャン固有モデルを開発すること。 方法: SPARK(Scan-Specific Artifact Reduction in k-space)は、自己校正信号(ACS)と入力技法の再構成ACS間の平均2乗誤差損失から逆伝搬することで、入力再構成技術によって行われるk-spaceエラーを推定するために畳み込みニューラルネットワークを訓練する。 まず、SPARKはGRAPPAに適用され、他のスキャン固有のモデルよりも堅牢性が改善されている。 次に、2D仮想コイル(VC-)GRAPPA, 2D LORAKS, 3D GRAPPAをACS領域を含まない場合の画質向上と2D/3Dウェーブエンコードイメージングにより、SPARKと高度な再構成技術との相乗効果を示す。 結果: GRAPPAに適用した場合, SPARKは1.5~2倍のRMSE低下を示し, 他の走査特異的手法と比較して, ACSサイズに対する堅牢性を向上させる。 2D VC-GRAPPAやLORAKSのような高度な並列イメージング技術に適用すると、SPARKは最大20%のRMSE改善を達成する。 3D GRAPPAのSPARKは、完全なサンプルACS領域を使わずにRMSE性能と画像品質を向上する。 最後に、sparkは非カルテ語、2d、および3dのウェーブエンコーディングイメージングと、rmseを20〜25%削減し、質的改善を提供する。 結論: SPARKは,k空間における再構成誤差を推定・補正するために,走査特異的モデルを訓練することにより,加速MRIを改善する物理ベースの再構成手法と相乗化する。

Purpose: To develop a scan-specific model that estimates and corrects k-space errors made when reconstructing accelerated Magnetic Resonance Imaging (MRI) data. Methods: Scan-Specific Artifact Reduction in k-space (SPARK) trains a convolutional neural network to estimate k-space errors made by an input reconstruction technique by back-propagating from the mean-squared-error loss between an auto-calibration signal (ACS) and the input technique's reconstructed ACS. First, SPARK is applied to GRAPPA and demonstrates improved robustness over other scan-specific models. Then, SPARK is shown to synergize with advanced reconstruction techniques by improving image quality when applied to 2D virtual coil (VC-) GRAPPA, 2D LORAKS, 3D GRAPPA without an integrated ACS region, and 2D/3D wave-encoded imaging. Results: SPARK yields 1.5 - 2x RMSE reduction when applied to GRAPPA and improves robustness to ACS size for various acceleration rates in comparison to other scan-specific techniques. When applied to advanced parallel imaging techniques such as 2D VC-GRAPPA and LORAKS, SPARK achieves up to 20% RMSE improvement. SPARK with 3D GRAPPA also improves RMSE performance and perceived image quality without a fully sampled ACS region. Finally, SPARK synergizes with non-cartesian, 2D and 3D wave-encoding imaging by reducing RMSE between 20 - 25% and providing qualitative improvements. Conclusion: SPARK synergizes with physics-based reconstruction techniques to improve accelerated MRI by training scan-specific models to estimate and correct reconstruction errors in k-space.
翻訳日:2021-04-06 14:15:54 公開日:2021-04-02
# (参考訳) Tusom2021: ユニバーサル音声認識実験のための絶滅危惧言語音声データセット [全文訳有]

Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered Language for Universal Phone Recognition Experiments ( http://arxiv.org/abs/2104.00824v1 )

ライセンス: CC BY 4.0
David R. Mortensen, Jordan Picone, Xinjian Li, and Kathleen Siminyu(参考訳) 言語に依存しない方法で携帯電話を認識できるASRシステムへの関心が高まっている。 また、低リソースおよび絶滅危惧言語のための言語技術の構築にも関心がある。 しかし、そのようなシステムや技術をテストするのに使える現実的なデータのpaucityがある。 本稿では,インドで主に話されているチベット・ビルマ語多言語であるタングク語東トゥーサム語(ISO 639-3コードなし)の2255語(単語と短いフレーズ)の公用コーパスについて述べる。 データセットは音素ではなく電話で書き起こされるので、多くの大きな(音素的に書き起こされる)データセットよりも、普遍的な音声認識システムに適している。 本稿では,データセットとその製造方法について述べる。 さらに、将来の実験のベースラインとして、データセット上で最先端のユニバーサル電話認識システムの基本的なベンチマークを示す。

There is growing interest in ASR systems that can recognize phones in a language-independent fashion. There is additionally interest in building language technologies for low-resource and endangered languages. However, there is a paucity of realistic data that can be used to test such systems and technologies. This paper presents a publicly available, phonetically transcribed corpus of 2255 utterances (words and short phrases) in the endangered Tangkhulic language East Tusom (no ISO 639-3 code), a Tibeto-Burman language variety spoken mostly in India. Because the dataset is transcribed in terms of phones, rather than phonemes, it is a better match for universal phone recognition systems than many larger (phonemically transcribed) datasets. This paper describes the dataset and the methodology used to produce it. It further presents basic benchmarks of state-of-the-art universal phone recognition systems on the dataset as baselines for future experiments.
翻訳日:2021-04-05 22:16:35 公開日:2021-04-02
# (参考訳) フィルタの学習:ロバストトラッキングのためのシームズ関係ネットワーク [全文訳有]

Learning to Filter: Siamese Relation Network for Robust Tracking ( http://arxiv.org/abs/2104.00829v1 )

ライセンス: CC BY 4.0
Siyuan Cheng, Bineng Zhong, Guorong Li, Xin Liu, Zhenjun Tang, Xianxian Li, Jing Wang(参考訳) シームズベースのトラッカーの大きな成功にもかかわらず、複雑なシナリオでの彼らのパフォーマンスはまだ満足していない。 そこで本研究では, 2つの効率的なモジュール,すなわち, 新規なシャム関係ネットワークを提案する。 リレーショナル検出器(RD)とリファインメントモジュール(RM)。 rdはメタラーニングの方法で実行され、背景から邪魔者をフィルタリングする学習能力を得る一方で、rmは提案されたrdをsiameseフレームワークに効果的に統合し、正確な追跡結果を生成することを目標としている。 さらに,トラッカーの識別性やロバスト性をさらに向上するために,同一対象のマッチングを学習するだけでなく,異なる対象を識別する方法を学ぶための対照的なトレーニング戦略を導入する。 したがって,トラッカは背景クラッタや高速運動,咬合などに対して正確な追跡結果を得ることができる。 VOT2018, VOT2019, OTB100, LaSOT, UAV123 の5つのベンチマークによる実験結果から,提案手法は有効であり, 最先端の結果が得られることが示された。 コードはhttps://github.com/h qucv/siamrnで入手できる。

Despite the great success of Siamese-based trackers, their performance under complicated scenarios is still not satisfying, especially when there are distractors. To this end, we propose a novel Siamese relation network, which introduces two efficient modules, i.e. Relation Detector (RD) and Refinement Module (RM). RD performs in a meta-learning way to obtain a learning ability to filter the distractors from the background while RM aims to effectively integrate the proposed RD into the Siamese framework to generate accurate tracking result. Moreover, to further improve the discriminability and robustness of the tracker, we introduce a contrastive training strategy that attempts not only to learn matching the same target but also to learn how to distinguish the different objects. Therefore, our tracker can achieve accurate tracking results when facing background clutters, fast motion, and occlusion. Experimental results on five popular benchmarks, including VOT2018, VOT2019, OTB100, LaSOT, and UAV123, show that the proposed method is effective and can achieve state-of-the-art results. The code will be available at https://github.com/h qucv/siamrn
翻訳日:2021-04-05 22:07:45 公開日:2021-04-02
# (参考訳) VLADを最適化したASURFとクラウドフォレスト分類器を用いた非拘束顔認識 [全文訳有]

Unconstrained Face Recognition using ASURF and Cloud-Forest Classifier optimized with VLAD ( http://arxiv.org/abs/2104.00842v1 )

ライセンス: CC BY 4.0
A Vinay, Aviral Joshi, Hardik Mahipal Surana, Harsh Garg, K N BalasubramanyaMurthy , S Natarajan(参考訳) 本稿では, 画像の翻訳, 回転, スケール, 色, 照明, アフィン歪みに制約される多クラス顔画像分類のための計算効率の高いアルゴリズムを提案する。 提案手法は,顔検出用Haar-Cascade,不要ノイズ除去用バイラテラルフィルタ,キーポイント検出・記述用Affine Speeded-Up Robust Features (ASURF),特徴量化用Vector of Locally Aggregated Descriptors (VLAD),画像分類用Cloud Forestの5つの主要ビルディングブロックに分割する。 本手法は,顔認識システムの精度と時間を改善することを目的としている。 Cloud Forestアルゴリズムを3つのベンチマークデータセット、すなわちFACES95、FACES96、ORLの顔データセットの分類子として使用することは、有望な結果を示している。 Cloud Forestアルゴリズムを用いた提案手法は,使用するデータセットに応じてランダムフォレスト分類器のような他のアンサンブル手法と区別した場合,認識モデルを2~12倍改善する。

The paper posits a computationally-effi cient algorithm for multi-class facial image classification in which images are constrained with translation, rotation, scale, color, illumination and affine distortion. The proposed method is divided into five main building blocks including Haar-Cascade for face detection, Bilateral Filter for image preprocessing to remove unwanted noise, Affine Speeded-Up Robust Features (ASURF) for keypoint detection and description, Vector of Locally Aggregated Descriptors (VLAD) for feature quantization and Cloud Forest for image classification. The proposed method aims at improving the accuracy and the time taken for face recognition systems. The usage of the Cloud Forest algorithm as a classifier on three benchmark datasets, namely the FACES95, FACES96 and ORL facial datasets, showed promising results. The proposed methodology using Cloud Forest algorithm successfully improves the recognition model by 2-12\% when differentiated against other ensemble techniques like the Random Forest classifier depending upon the dataset used.
翻訳日:2021-04-05 21:53:25 公開日:2021-04-02
# (参考訳) ポリープセグメンテーションのための確率的アクティベーション選択に基づくディープアンサンブル [全文訳有]

Deep ensembles based on Stochastic Activation Selection for Polyp Segmentation ( http://arxiv.org/abs/2104.00850v1 )

ライセンス: CC BY 4.0
Alessandra Lumini, Loris Nanni and Gianluca Maguolo(参考訳) セマンティックセグメンテーションには、医療画像分析、シーン理解、自律運転、ロボットナビゲーションなど、幅広い応用がある。 本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。 いくつかの畳み込みニューラルネットワークアーキテクチャは、このタスクと異なるスケールの入力でオブジェクトを分割する問題に効果的に対処するために提案されている。 画像セグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されており、第1は畳み込みフィルタを使って画像から特徴を抽出し、第2は最終的な出力を生成する。 本稿では,デコーダのバックボーンの変更によって得られたDeepLabアーキテクチャのバリエーションを比較する。 我々はResNet、Xception、EfficentNet、MobileNetなどいくつかのデコーダアーキテクチャを比較し、ReLUアクティベーションレイヤを他の関数に置き換えることでそれらのレイヤを摂動させる。 結果として得られた手法は、非常に効果的であることが示される深いアンサンブルを作成するために使用される。 実験結果から, kvasir-segデータセットでは, dice係数0.884, 平均交点平均(miou)0.818で高い評価スコアを達成し, 最適なセグメンテーション結果が得られることがわかった。 再現性と研究効率を改善するために、この研究で使用されるMATLABソースコードはGitHubで入手できる。

Semantic segmentation has a wide array of applications ranging from medical-image analysis, scene understanding, autonomous driving and robotic navigation. This work deals with medical image segmentation and in particular with accurate polyp detection and segmentation during colonoscopy examinations. Several convolutional neural network architectures have been proposed to effectively deal with this task and with the problem of segmenting objects at different scale input. The basic architecture in image segmentation consists of an encoder and a decoder: the first uses convolutional filters to extract features from the image, the second is responsible for generating the final output. In this work, we compare some variant of the DeepLab architecture obtained by varying the decoder backbone. We compare several decoder architectures, including ResNet, Xception, EfficentNet, MobileNet and we perturb their layers by substituting ReLU activation layers with other functions. The resulting methods are used to create deep ensembles which are shown to be very effective. Our experimental evaluations show that our best ensemble produces good segmentation results by achieving high evaluation scores with a dice coefficient of 0.884, and a mean Intersection over Union (mIoU) of 0.818 for the Kvasir-SEG dataset. To improve reproducibility and research efficiency the MATLAB source code used for this research is available at GitHub: https://github.com/L orisNanni.
翻訳日:2021-04-05 21:43:55 公開日:2021-04-02
# (参考訳) 畳み込みニューラルネットワークにおける一般化の解析と定量化 [全文訳有]

Analyzing and Quantifying Generalization in Convolutional Neural Networks ( http://arxiv.org/abs/2104.00851v1 )

ライセンス: CC BY 4.0
Yang Zhao and Hao Zhang(参考訳) 一般化は畳み込みニューラルネットワーク(CNN)の重要な機能である。 しかし、CNNを良いあるいは悪い一般化で差別化することは、まだかなりあり得ない。 その結果、一般化能力の信頼できる定量的指標を提供するための障壁となる。 本稿では,典型的なCNNにおける個々のユニットの一般化状況を明らかにし,複数のクラスデータを用いた画像分類タスクを用いてネットワークの一般化能力を定量化する。 まず,その一般化への貢献に基づいて,ある単位に対する4つの識別状態からなる特徴量,役割共有を提案する。 すべてのユニットにおけるロール共有の分布は、ネットワークの一般化を簡単に可視化する。 次に,トレーニングセットのみを用いて,ネットワークの固有汎化能力を定量化する新しい指標を提案する。 最後に、典型的なCNNのトレーニング精度のみによるテスト精度の予測を行う。 実用的ネットワークモデル(VGG)とデータセット(ImageNet)を用いた実証実験は,我々の特徴量,計量,予測器の合理性と有効性を示す。

Generalization is the key capability of convolutional neural networks (CNNs). However, it is still quite elusive for differentiating the CNNs with good or poor generalization. It results in the barrier for providing reliable quantitative measure of generalization ability. To this end, this paper aims to clarify the generalization status of individual units in typical CNNs and quantify the generalization ability of networks using image classification task with multiple classes data. Firstly, we propose a feature quantity, role share, consisting of four discriminate statuses for a certain unit based on its contribution to generalization. The distribution of role shares across all units provides a straightforward visualization for the generalization of a network. Secondly, using only training sets, we propose a novel metric for quantifying the intrinsic generalization ability of networks. Lastly, a predictor of testing accuracy via only training accuracy of typical CNN is given. Empirical experiments using practical network model (VGG) and dataset (ImageNet) illustrate the rationality and effectiveness of our feature quantity, metric and predictor.
翻訳日:2021-04-05 21:34:45 公開日:2021-04-02
# (参考訳) ジェネリックオブジェクトを完全に理解する:モデリング、セグメンテーション、再構築 [全文訳有]

Fully Understanding Generic Objects: Modeling, Segmentation, and Reconstruction ( http://arxiv.org/abs/2104.00858v1 )

ライセンス: CC BY 4.0
Feng Liu, Luan Tran, Xiaoming Liu(参考訳) 2次元画像から汎用オブジェクトの3次元構造を推測することは、コンピュータビジョンの長年の目的である。 従来のアプローチでは、実際の画像からの推測が難しいCAD生成合成データから完全に学習するか、あるいは本質的な分解によって2.5次元の深度画像を生成する。 基本的な課題の1つは、多くの実際の2D画像を、3D地上の真実なしに活用する方法である。 この問題に対処するため,半教師付き学習の代替手法を提案する。 すなわち、汎用オブジェクトの2次元画像に対して、カテゴリ、形状、アルベドの潜在表現、照明、カメラ投影行列に分解し、それぞれ分割された3d形状とアルベドに表現をデコードし、これらの要素を融合して入力画像に近似した画像をうまくレンダリングする。 カテゴリー適応型3次元関節占有場 (JOF) を用いて, 完全な形状とアルベドモデリングにより, モデリングとモデルフィッティングの両方において実2次元画像を活用することができることを示す。 本手法の有効性は,単一の画像からの優れた3次元再構成,合成的,実的,形状的セグメンテーションによって示される。

Inferring 3D structure of a generic object from a 2D image is a long-standing objective of computer vision. Conventional approaches either learn completely from CAD-generated synthetic data, which have difficulty in inference from real images, or generate 2.5D depth image via intrinsic decomposition, which is limited compared to the full 3D reconstruction. One fundamental challenge lies in how to leverage numerous real 2D images without any 3D ground truth. To address this issue, we take an alternative approach with semi-supervised learning. That is, for a 2D image of a generic object, we decompose it into latent representations of category, shape and albedo, lighting and camera projection matrix, decode the representations to segmented 3D shape and albedo respectively, and fuse these components to render an image well approximating the input image. Using a category-adaptive 3D joint occupancy field (JOF), we show that the complete shape and albedo modeling enables us to leverage real 2D images in both modeling and model fitting. The effectiveness of our approach is demonstrated through superior 3D reconstruction from a single image, being either synthetic or real, and shape segmentation.
翻訳日:2021-04-05 21:24:36 公開日:2021-04-02
# (参考訳) PolyDNN:コミュニケーションレスSMPC推論のためのNNの多項式表現 [全文訳有]

PolyDNN: Polynomial Representation of NN for Communication-less SMPC Inference ( http://arxiv.org/abs/2104.00863v1 )

ライセンス: CC BY 4.0
Philip Derbeko and Shlomi Dolev(参考訳) ディープニューラルネットワーク(DNN)の構造と重みは典型的に符号化され、ネットワークのトレーニングに使用されたデータセットに関する非常に貴重な情報を含んでいる。 dnnの公開時にこの情報を保護する1つの方法は、セキュアなマルチパーティ計算(mpc)を使用してネットワークの干渉を実行することである。 本稿では,深層ニューラルネットワークの多項式への変換について提案する。 完全ネットワークを1つの多項式に変換する方法と、効率よく情報保護的なMPCアルゴリズムを用いて多項式を計算する方法を示す。 論文で説明されているように、計算は参加者間の中間的なコミュニケーションなしで行われ、いくつかのケースで有効である。

The structure and weights of Deep Neural Networks (DNN) typically encode and contain very valuable information about the dataset that was used to train the network. One way to protect this information when DNN is published is to perform an interference of the network using secure multi-party computations (MPC). In this paper, we suggest a translation of deep neural networks to polynomials, which are easier to calculate efficiently with MPC techniques. We show a way to translate complete networks into a single polynomial and how to calculate the polynomial with an efficient and information-secure MPC algorithm. The calculation is done without intermediate communication between the participating parties, which is beneficial in several cases, as explained in the paper.
翻訳日:2021-04-05 21:07:44 公開日:2021-04-02
# (参考訳) $\textit{in situ}$および高スループット実験のリアルタイム洞察を可能にする制約非負行列分解 [全文訳有]

Constrained non-negative matrix factorization enabling real-time insights of $\textit{in situ}$ and high-throughput experiments ( http://arxiv.org/abs/2104.00864v1 )

ライセンス: CC BY 4.0
Phillip M. Maffettone, Aidan C. Daly, Daniel Olds(参考訳) 非負行列ファクトリゼーション(NMF)法は、時間に敏感なデータ収集におけるストリーミングスペクトルデータをリアルタイムに解析するための魅力的な教師なし学習法を提供する。 しかし、canonical nmfメソッドは、真の物理的プロセスを表すコンポーネントや重みを生成するという基本的な要件もなく、可能な限り密接にデータセットを再構築するように最適化されている。 本研究では,NMFの重みや成分の制約が,真に基礎となる現象を明らかにする上で,いかに顕著な改善をもたらすかを示す。 制約付きNMFを効率的に適用するためのPyTorch法を提案し,これをいくつかの合成例で示す。 実験的に測定されたスペクトルデータに適用すると、エキスパート研究者が制約を提供し、動的に調整することができる。 NMFモデルのこのインタラクティブな事前セットは、例えば、既知のまたは特定された独立したコンポーネントと、コンポーネントの混合に関する機能的な期待を含むことができる。 本論文は,$\textit{in situ}$ビームライン実験によるx線回折および対分布関数データに適用する。 本手法の詳細を述べるとともに,$\textit{in situ}$ およびhigh-throughput 実験における重要な情報と洞察の抽出に制約のあるnmfを用いるための一般指導を行った。

Non-negative Matrix Factorization (NMF) methods offer an appealing unsupervised learning method for real-time analysis of streaming spectral data in time-sensitive data collection, such as $\textit{in situ}$ characterization of materials. However, canonical NMF methods are optimized to reconstruct a full dataset as closely as possible, with no underlying requirement that the reconstruction produces components or weights representative of the true physical processes. In this work, we demonstrate how constraining NMF weights or components, provided as known or assumed priors, can provide significant improvement in revealing true underlying phenomena. We present a PyTorch based method for efficiently applying constrained NMF and demonstrate this on several synthetic examples. When applied to streaming experimentally measured spectral data, an expert researcher-in-the-lo op can provide and dynamically adjust the constraints. This set of interactive priors to the NMF model can, for example, contain known or identified independent components, as well as functional expectations about the mixing of components. We demonstrate this application on measured X-ray diffraction and pair distribution function data from $\textit{in situ}$ beamline experiments. Details of the method are described, and general guidance provided to employ constrained NMF in extraction of critical information and insights during $\textit{in situ}$ and high-throughput experiments.
翻訳日:2021-04-05 20:58:22 公開日:2021-04-02
# (参考訳) アクティブラーニングにおけるベイズニューラルネットワークの有効性 [全文訳有]

Efficacy of Bayesian Neural Networks in Active Learning ( http://arxiv.org/abs/2104.00896v1 )

ライセンス: CC BY 4.0
Vineeth Rakesh, Swayambhoo Jain(参考訳) 機械学習タスクのラベル付きデータを取得することは、禁止的に高価である。 アクティブラーニングはラベルのないデータ空間を探索し、モデルのパフォーマンスを最も良くするデータの選択を優先することでこの問題を軽減する。 アクティブラーニングの一般的なアプローチは、モデルが最も不確実なデータの小さなサンプルを選択することである。 本稿では,ニューラルネットワークの重みによる学習分布による不確実性を自然にモデル化するアクティブラーニングにおけるベイズニューラルネットワークの有効性について検討する。 総合的な実験を行うことで,ベイズ型ニューラルネットワークは不確かさを捉えるためのアンサンブルベース手法よりも効率的であることを示す。 また,近年,モンテカルロのドロップアウトよりも効果的であることが判明したアンサンブル技法の重要な欠点も明らかにした。

Obtaining labeled data for machine learning tasks can be prohibitively expensive. Active learning mitigates this issue by exploring the unlabeled data space and prioritizing the selection of data that can best improve the model performance. A common approach to active learning is to pick a small sample of data for which the model is most uncertain. In this paper, we explore the efficacy of Bayesian neural networks for active learning, which naturally models uncertainty by learning distribution over the weights of neural networks. By performing a comprehensive set of experiments, we show that Bayesian neural networks are more efficient than ensemble based techniques in capturing uncertainty. Our findings also reveal some key drawbacks of the ensemble techniques, which was recently shown to be more effective than Monte Carlo dropouts.
翻訳日:2021-04-05 20:50:19 公開日:2021-04-02
# (参考訳) 分布外検出のためのマルチクラスデータ記述 [全文訳有]

Multi-Class Data Description for Out-of-distribution Detection ( http://arxiv.org/abs/2104.00941v1 )

ライセンス: CC BY 4.0
Dongha Lee, Sehun Yu, Hwanjo Yu(参考訳) 分散サンプルを確実に検出する能力は、優れた分類器をデプロイする上で重要な要因の1つであり、テスト分布は、ほとんどの実世界のアプリケーションでトレーニング分布と常に一致しない。 本研究では,Deep-MCDD(Deep-MCDD )と呼ばれる深層多層データ記述法を提案する。これは,OoD(out-of-distriio n)サンプルの検出や,ID(In-distriion)サンプルの分類に有効である。 潜在空間を複数の領域に分割する線形決定境界のみに焦点を当てたsoftmax分類器とは異なり、deep-mcddはテストサンプルがクラスに属するかどうかを決定する各クラスの球面決定境界を見つけることを目指している。 ガウス微分分析の概念を深層ニューラルネットワークに組み込むことにより,分離可能なガウス分布として明示的にモデル化されたクラス条件分布を学習する深層学習目標を提案する。 これにより、各クラス条件分布からテストサンプルの距離によって信頼性スコアを定義し、OODサンプルの同定に利用することができる。 マルチクラスの表と画像のデータセットに対する実証的な評価は、Deep-MCDDがOODサンプルを識別する上で、他の競合と同等の分類精度を示しながら、最高の性能を発揮することを示す。

The capability of reliably detecting out-of-distribution samples is one of the key factors in deploying a good classifier, as the test distribution always does not match with the training distribution in most real-world applications. In this work, we present a deep multi-class data description, termed as Deep-MCDD, which is effective to detect out-of-distribution (OOD) samples as well as classify in-distribution (ID) samples. Unlike the softmax classifier that only focuses on the linear decision boundary partitioning its latent space into multiple regions, our Deep-MCDD aims to find a spherical decision boundary for each class which determines whether a test sample belongs to the class or not. By integrating the concept of Gaussian discriminant analysis into deep neural networks, we propose a deep learning objective to learn class-conditional distributions that are explicitly modeled as separable Gaussian distributions. Thereby, we can define the confidence score by the distance of a test sample from each class-conditional distribution, and utilize it for identifying OOD samples. Our empirical evaluation on multi-class tabular and image datasets demonstrates that Deep-MCDD achieves the best performances in distinguishing OOD samples while showing the classification accuracy as high as the other competitors.
翻訳日:2021-04-05 20:37:09 公開日:2021-04-02
# (参考訳) CSO分類器:学術論文におけるオントロジーによる研究トピックの検出 [全文訳有]

The CSO Classifier: Ontology-Driven Detection of Research Topics in Scholarly Articles ( http://arxiv.org/abs/2104.00948v1 )

ライセンス: CC BY 4.0
Angelo A. Salatino, Francesco Osborne, Thiviyan Thanapalasingam, Enrico Motta(参考訳) 研究論文を研究トピックに従って分類することは、その検索性を改善し、スマート分析の作成を支援し、研究環境を分析・理解するための様々なアプローチを支援するための重要な課題である。 本稿では,コンピュータ科学分野における再研究領域の包括的オントロジーであるcomputer science ontology (cso) に基づいて,研究論文を自動的に分類する新しい教師なしアプローチであるcso分類器を提案する。 CSO分類器は、研究論文(タイトル、抽象、キーワード)に関連するメタデータを入力として、オントロジーから引き出された研究概念の選択を返す。 このアプローチは、手作業による注釈付記事の金本位制で評価され、代替方法よりも大幅に改善した。

Classifying research papers according to their research topics is an important task to improve their retrievability, assist the creation of smart analytics, and support a variety of approaches for analysing and making sense of the research environment. In this paper, we present the CSO Classifier, a new unsupervised approach for automatically classifying research papers according to the Computer Science Ontology (CSO), a comprehensive ontology of re-search areas in the field of Computer Science. The CSO Classifier takes as input the metadata associated with a research paper (title, abstract, keywords) and returns a selection of research concepts drawn from the ontology. The approach was evaluated on a gold standard of manually annotated articles yielding a significant improvement over alternative methods.
翻訳日:2021-04-05 20:22:46 公開日:2021-04-02
# (参考訳) 時系列データに基づく説明可能な人工知能(XAI)に関する調査 [全文訳有]

Explainable Artificial Intelligence (XAI) on TimeSeries Data: A Survey ( http://arxiv.org/abs/2104.00950v1 )

ライセンス: CC BY 4.0
Thomas Rojat, Rapha\"el Puget, David Filliat, Javier Del Ser, Rodolphe Gelin, and Natalia D\'iaz-Rodr\'iguez(参考訳) 時系列に適用される技法のほとんどの状態は、解釈するには複雑すぎる深層学習法で構成されている。 この解釈性の欠如は、医療分野や自動運転分野など、現実世界のいくつかの応用が重要な課題であるため、大きな欠点である。 時系列に適用されたモデルの説明性は、コンピュータビジョンや自然言語処理分野に比べてあまり注目されていない。 本稿では,時系列に適用される既存の説明可能なai(xai)手法の概要と,その生成する説明の種類について述べる。 また、AIシステムに対する信頼と信頼を提供するために、これらの説明方法の影響について考察する。

Most of state of the art methods applied on time series consist of deep learning methods that are too complex to be interpreted. This lack of interpretability is a major drawback, as several applications in the real world are critical tasks, such as the medical field or the autonomous driving field. The explainability of models applied on time series has not gather much attention compared to the computer vision or the natural language processing fields. In this paper, we present an overview of existing explainable AI (XAI) methods applied on time series and illustrate the type of explanations they produce. We also provide a reflection on the impact of these explanation methods to provide confidence and trust in the AI systems.
翻訳日:2021-04-05 20:09:33 公開日:2021-04-02
# (参考訳) 変分深部画像のデノジング [全文訳有]

Variational Deep Image Denoising ( http://arxiv.org/abs/2104.00965v1 )

ライセンス: CC BY 4.0
Jae Woong Soh and Nam Ik Cho(参考訳) 畳み込みニューラルネットワーク(CNN)は、大規模なデータセットの助けを借りて、画像のノイズ化に優れたパフォーマンスを示している。 初期の手法では、多数のクリーンノイズ画像を持つ単一のcnnを素直にトレーニングしていた。 しかし、ノイズの多い画像に対するクリーン画像の条件分布は複雑で多様であり、1つのcnnがそのような分布を十分に学習できない。 そのため、追加のノイズレベルパラメータを利用する方法や、特定のノイズレベルパラメータに対して個別のCNNを訓練する方法もある。 これらの手法は、元の問題をより簡単なサブプロブレムに分割し、より優れた性能を示す。 このステップでは、2つの質問を提起します。 1つ目は、条件分布を雑音レベルパラメータのみに関連付ける最適手法であるかどうかである。 2つ目は、現実世界のシナリオのようにノイズレベル情報を持っていない場合です。 質問に答え,より良い解を提供するために,目的関数の変動近似に基づく新しいベイズ的枠組みを提案する。 これにより、複雑なターゲット分布をより単純なサブディストリビューションに分割できる。 最終的に、CNNは各サブディストリビューションからのノイズを克服できるが、これは一般的にオリジナルよりも簡単な問題である。 提案手法は, 付加的白色ガウス雑音 (awgn) と実雑音デノイジングに対して, 最近の最先端デノイザーよりも少ないパラメータを要求できることを示す。

Convolutional neural networks (CNNs) have shown outstanding performance on image denoising with the help of large-scale datasets. Earlier methods naively trained a single CNN with many pairs of clean-noisy images. However, the conditional distribution of the clean image given a noisy one is too complicated and diverse, so that a single CNN cannot well learn such distributions. Therefore, there have also been some methods that exploit additional noise level parameters or train a separate CNN for a specific noise level parameter. These methods separate the original problem into easier sub-problems and thus have shown improved performance than the naively trained CNN. In this step, we raise two questions. The first one is whether it is an optimal approach to relate the conditional distribution only to noise level parameters. The second is what if we do not have noise level information, such as in a real-world scenario. To answer the questions and provide a better solution, we propose a novel Bayesian framework based on the variational approximation of objective functions. This enables us to separate the complicated target distribution into simpler sub-distributions. Eventually, the denoising CNN can conquer noise from each sub-distribution, which is generally an easier problem than the original. Experiments show that the proposed method provides remarkable performance on additive white Gaussian noise (AWGN) and real-noise denoising while requiring fewer parameters than recent state-of-the-art denoisers.
翻訳日:2021-04-05 19:38:05 公開日:2021-04-02
# (参考訳) コストベースフェデレーションSPARQLクエリ処理エンジンの実証評価 [全文訳有]

An Empirical Evaluation of Cost-based Federated SPARQL Query Processing Engines ( http://arxiv.org/abs/2104.00984v1 )

ライセンス: CC BY 4.0
Umair Qudus, Muhammad Saleem, Axel-Cyrille Ngonga Ngomo, Young-koo Lee(参考訳) クエリ実行時の最適化には、優れたクエリプランを見つけることが重要だ。 これは特に、この目標を達成するために濃度推定を利用するコストベースのフェデレーションエンジンに当てはまる。 クエリ実行時、結果セットの完全性と正確性、選択されたソース数、送信されたリクエスト数など、さまざまなパフォーマンスメトリクスのSPARQLフェデレーションエンジンを比較した研究もある。 情報的ではあるが、これらの指標は汎用的であり、コストベースのフェデレーションエンジンの濃度推定器の精度を定量化し評価することができない。 コストベースのフェデレーションエンジンを徹底的に評価するためには、推定濃度誤差がクエリ実行性能に与える影響を計測する必要がある。 本稿では,コストベースフェデレーションSPARQLクエリエンジンの詳細なベンチマークを目的とした,新しい評価指標を提案する。 我々は,既存のSPARQLクエリエンジンとLargeRDFBenchクエリを用いた新しい評価指標を用いて,コストベースの5つのSPARQLクエリエンジンを評価する。 本結果は,今後のコストベースのフェデレーションSPARQLクエリ処理エンジンの開発に有用な,新たな知見を示す実験結果の詳細な分析を提供する。

Finding a good query plan is key to the optimization of query runtime. This holds in particular for cost-based federation engines, which make use of cardinality estimations to achieve this goal. A number of studies compare SPARQL federation engines across different performance metrics, including query runtime, result set completeness and correctness, number of sources selected and number of requests sent. Albeit informative, these metrics are generic and unable to quantify and evaluate the accuracy of the cardinality estimators of cost-based federation engines. To thoroughly evaluate cost-based federation engines, the effect of estimated cardinality errors on the overall query runtime performance must be measured. In this paper, we address this challenge by presenting novel evaluation metrics targeted at a fine-grained benchmarking of cost-based federated SPARQL query engines. We evaluate five cost-based federated SPARQL query engines using existing as well as novel evaluation metrics by using LargeRDFBench queries. Our results provide a detailed analysis of the experimental outcomes that reveal novel insights, useful for the development of future cost-based federated SPARQL query processing engines.
翻訳日:2021-04-05 19:19:31 公開日:2021-04-02
# (参考訳) サイバー物理システムの診断改善のためのベイズ構造学習 [全文訳有]

Bayesian Structural Learning for an Improved Diagnosis of Cyber-Physical Systems ( http://arxiv.org/abs/2104.00987v1 )

ライセンス: CC BY 4.0
Nicolas Olivain, Philipp Tiefenbacher and Jens Kohl(参考訳) サイバーフィジカルシステム(cps)の診断は、障害行動とその根本原因を検出するために実行時のシステム観測と組み合わせられた機能的および欠陥的行動の表現に基づいている。 本稿では,構造化診断モデルの自動学習のためのスケーラブルなアルゴリズムを提案する。 これにより、cps診断の課題に取り組むことができる: 極めて不均衡なデータでも自動的に診断モデルを学習し、根本原因を探す際の状態爆発問題を低減し、結果の解釈が容易である。 提案手法は既存の手法とは2つの点で異なる。まず,より小さなラベル固有の表現に変換される包括的グローバル表現を学習することを目指す。 第二に、モデルの容易な検証と修理を容易にするために、高度に解釈可能なモデルを提供することに注力する。 問題領域に関連するデータセットに対する我々のアプローチを評価した。 評価の結果,アルゴリズムは同等の性能を返却しながら,上述した問題を克服することがわかった。

The diagnosis of cyber-physical systems (CPS) is based on a representation of functional and faulty behaviour which is combined with system observations taken at runtime to detect faulty behaviour and reason for its root cause. In this paper we propose a scalable algorithm for an automated learning of a structured diagnosis model which -- although having a reduced size -- offers equal performance to comparable algorithms while giving better interpretability. This allows tackling challenges of diagnosing CPS: automatically learning a diagnosis model even with hugely imbalanced data, reducing the state-explosion problem when searching for a root cause, and an easy interpretability of the results. Our approach differs from existing methods in two aspects: firstly, we aim to learn a holistic global representation which is then transformed to a smaller, label-specific representation. Secondly, we focus on providing a highly interpretable model for an easy verification of the model and to facilitate repairs. We evaluated our approach on data sets relevant for our problem domain. The evaluation shows that the algorithm overcomes the mentioned problems while returning a comparable performance.
翻訳日:2021-04-05 18:27:36 公開日:2021-04-02
# (参考訳) 修正フィードバックからオンライン学習:ロボティクスのためのメタアルゴリズム [全文訳有]

Learning Online from Corrective Feedback: A Meta-Algorithm for Robotics ( http://arxiv.org/abs/2104.01021v1 )

ライセンス: CC BY 4.0
Matthew Schmittle, Sanjiban Choudhury, Siddhartha S. Srinivasa(参考訳) 模倣学習(il)における鍵となる課題は、最適な状態行動のデモンストレーションは教師が提供するのが難しいことである。 例えばロボット工学では、ロボットマニピュレータに審美的なデモを提供するため、教師は一度に複数の自由度を制御する必要がある。 最適な状態動作のデモンストレーションを必要とすることの難しさは、教師が品質フィードバックを提供できる問題の範囲を制限する。 状態行動のデモンストレーションの代替として、教師は好みや報酬などの修正的なフィードバックを提供することができる。 従来の作業では,特定のノイズフィードバックから学習するアルゴリズムが開発されていたが,教師やタスクによって,さまざまな形式のフィードバックが必要になる可能性がある。 代わりに、さまざまなシナリオから学ぶためには、さまざまなフィードバックから学ぶ必要があることを提案します。 教師のコスト関数は潜伏しており、損失関数のストリームとしてフィードバックの流れをモデル化することができる。 次に、オンライン学習アルゴリズムを使用して、これらの損失の合計を最小化します。 この洞察により、教師の真のコスト関数と弱い相関関係にあるフィードバックの多様性から学ぶことができる。 先行研究を一般的な修正的フィードバックメタアルゴリズムに統合し、フィードバックに関係なく、同じ後悔の限界を得ることができることを示す。 ロボットレースカープラットフォーム上で家庭用ナビゲーションタスクを実行することを学ぶことで、我々のアプローチを実証する。 その結果,提案手法は様々なノイズフィードバックから素早く学習できることがわかった。

A key challenge in Imitation Learning (IL) is that optimal state actions demonstrations are difficult for the teacher to provide. For example in robotics, providing kinesthetic demonstrations on a robotic manipulator requires the teacher to control multiple degrees of freedom at once. The difficulty of requiring optimal state action demonstrations limits the space of problems where the teacher can provide quality feedback. As an alternative to state action demonstrations, the teacher can provide corrective feedback such as their preferences or rewards. Prior work has created algorithms designed to learn from specific types of noisy feedback, but across teachers and tasks different forms of feedback may be required. Instead we propose that in order to learn from a diversity of scenarios we need to learn from a variety of feedback. To learn from a variety of feedback we make the following insight: the teacher's cost function is latent and we can model a stream of feedback as a stream of loss functions. We then use any online learning algorithm to minimize the sum of these losses. With this insight we can learn from a diversity of feedback that is weakly correlated with the teacher's true cost function. We unify prior work into a general corrective feedback meta-algorithm and show that regardless of feedback we can obtain the same regret bounds. We demonstrate our approach by learning to perform a household navigation task on a robotic racecar platform. Our results show that our approach can learn quickly from a variety of noisy feedback.
翻訳日:2021-04-05 18:17:38 公開日:2021-04-02
# (参考訳) 指数カーネルを用いたホークスプロセスの減衰パラメータの予測不確かさ [全文訳有]

Surfacing Estimation Uncertainty in the Decay Parameters of Hawkes Processes with Exponential Kernels ( http://arxiv.org/abs/2104.01029v1 )

ライセンス: CC BY 4.0
Tiago Santos, Florian Lemmerich, Denis Helic(参考訳) 不規則な時間的依存関係をキャプチャするツールとして(時系列を構築するために時間的観測に頼るのではなく)、指数関数的減衰を伴うホークスプロセスは、次の地震の発生時刻や株価の急上昇を予測するなど、多くのアプリケーションドメインで広く採用されている。 しかし、ホークス過程の実践的な応用は注目すべき課題に直面している: 崩壊パラメータの推定には、特に少数の観測の場合や観測データの背後にある力学が突然変化する場合において、相当かつしばしば定量的なばらつきがある。 実践的課題の原因を実証的に研究し,表面化へのアプローチを開発し,課題を緩和する。 特に、ホークス過程の確率関数の検査は、減衰パラメータに適合するときに不確かさの性質を明らかにする。 この不確実性をベイズ的枠組み内で明確に捉えることを提案する。 古典的"地震モデルやtwitterにおける集団的感情の表出といったドメインからの合成データや実世界のデータを用いた一連の実験により,提案手法が不確実性を定量化し,ホークス過程を実際に理解し,適合させることを実証した。

As a tool for capturing irregular temporal dependencies (rather than resorting to binning temporal observations to construct time series), Hawkes processes with exponential decay have seen widespread adoption across many application domains, such as predicting the occurrence time of the next earthquake or stock market spike. However, practical applications of Hawkes processes face a noteworthy challenge: There is substantial and often unquantified variance in decay parameter estimations, especially in the case of a small number of observations or when the dynamics behind the observed data suddenly change. We empirically study the cause of these practical challenges and we develop an approach to surface and thereby mitigate them. In particular, our inspections of the Hawkes process likelihood function uncover the properties of the uncertainty when fitting the decay parameter. We thus propose to explicitly capture this uncertainty within a Bayesian framework. With a series of experiments with synthetic and real-world data from domains such as "classical" earthquake modeling or the manifestation of collective emotions on Twitter, we demonstrate that our proposed approach helps to quantify uncertainty and thereby to understand and fit Hawkes processes in practice.
翻訳日:2021-04-05 18:06:25 公開日:2021-04-02
# (参考訳) 白書:ヘリックス病原性予測プラットフォーム [全文訳有]

White paper: The Helix Pathogenicity Prediction Platform ( http://arxiv.org/abs/2104.01033v1 )

ライセンス: CC BY 4.0
Bas Vroling and Stephan Heijl(参考訳) 本稿では,ミスセンス病原性予測のためのaiベースのソリューションであるhelixを紹介する。 ヒトゲノムのシークエンシングの最近の進歩により、膨大な遺伝データが利用できるようになった。 これは、遺伝子診断と研究のための労働の負担をデータの収集から解釈へとシフトさせた。 Helixはヒトのミスセンス変異体における病原性の予測のための技術プラットフォームの現状を示す。 helixはクラス最高の予測性能を提供するだけでなく、研究者がhelixlabs.aiでアクセス可能な変種を深く分析し解釈できるプラットフォームを提供している。

In this white paper we introduce Helix, an AI based solution for missense pathogenicity prediction. With recent advances in the sequencing of human genomes, massive amounts of genetic data have become available. This has shifted the burden of labor for genetic diagnostics and research from the gathering of data to its interpretation. Helix presents a state of the art platform for the prediction of pathogenicity in human missense variants. In addition to offering best-in-class predictive performance, Helix offers a platform that allows researchers to analyze and interpret variants in depth that can be accessed at helixlabs.ai.
翻訳日:2021-04-05 17:48:09 公開日:2021-04-02
# (参考訳) 反復ネスト名前認識モデルにおける深さ順序の影響 [全文訳有]

Effect of depth order on iterative nested named entity recognition models ( http://arxiv.org/abs/2104.01037v1 )

ライセンス: CC BY 4.0
Perceval Wajsburt, Yoann Taill\'e, Xavier Tannier(参考訳) 本稿では,ネストされた名前付きエンティティ認識(NER)モデルに対する参照深度の影響について検討する。 NERはバイオメディカル情報の抽出において必須の課題であり、ネストされたエンティティは医療概念がより大きなエンティティを形成するために組み立てられるため、一般的である。 従来のNERシステムは、解離したエンティティのみを予測する。 したがって、ネストされたNERの反復モデルは、すべてのエンティティを列挙するために複数の予測を使い、定義済みの順序が最大か最小か最大かを示す。 我々は,オーダー非依存の反復モデルと,トレーニングと予測の間にカスタムオーダーを選択する手順を設計する。 この課題に対応するため,前回のステップで予測されたエンティティを考慮に入れたTransformerアーキテクチャの修正を提案する。 モデルの性能と順序が性能に与える影響を研究するための一連の実験を提供する。 最後に、最小から最大の順序が最良の結果を与えることを示す。

This paper studies the effect of the order of depth of mention on nested named entity recognition (NER) models. NER is an essential task in the extraction of biomedical information, and nested entities are common since medical concepts can assemble to form larger entities. Conventional NER systems only predict disjointed entities. Thus, iterative models for nested NER use multiple predictions to enumerate all entities, imposing a predefined order from largest to smallest or smallest to largest. We design an order-agnostic iterative model and a procedure to choose a custom order during training and prediction. To accommodate for this task, we propose a modification of the Transformer architecture to take into account the entities predicted in the previous steps. We provide a set of experiments to study the model's capabilities and the effects of the order on performance. Finally, we show that the smallest to largest order gives the best results.
翻訳日:2021-04-05 17:39:23 公開日:2021-04-02
# (参考訳) 置換不変部分グラフ発見 [全文訳有]

Permutation-Invarian t Subgraph Discovery ( http://arxiv.org/abs/2104.01063v1 )

ライセンス: CC BY 4.0
Raghvendra Mall, Shameem A. Parambath, Han Yufei, Ting Yu and Sanjay Chawla(参考訳) システム生物学で発生する多くのグラフマッチングタスクを抽象化した,新しい問題定式化であるpspi(permutation and structured perturbation inference)を導入する。 PSPI は置換推論やグラフマッチングの堅牢な定式化と見なすことができ、その目的は2つのグラフの間の置換を見つけることである。 例えば、疾患組織と正常組織からそれぞれ2つの遺伝子調節ネットワークXとYが存在すると仮定する。 その後、PSPI問題は、疾患の徴候として機能する2つのネットワークの間に構造的変化があるかどうかを検出するために用いられる。 新しい問題定式化に加えて,PSPI問題の緩和版を解決するためのADMMアルゴリズム(STEPD)を提案する。 比較遺伝子制御ネットワーク(GRN)に関する広範なケーススタディは、STEPDが構造的摂動を正確に推測できることを示し、計算生物学者が新しい予後の署名を識別するためのツールを提供する。 スペクトル分析により、STEPDは小さな斜め状の摂動を回復し、グラフの置換不変変化を検出するのに有用なツールであることを確認した。

We introduce Permutation and Structured Perturbation Inference (PSPI), a new problem formulation that abstracts many graph matching tasks that arise in systems biology. PSPI can be viewed as a robust formulation of the permutation inference or graph matching, where the objective is to find a permutation between two graphs under the assumption that a set of edges may have undergone a perturbation due to an underlying cause. For example, suppose there are two gene regulatory networks X and Y from a diseased and normal tissue respectively. Then, the PSPI problem can be used to detect if there has been a structural change between the two networks which can serve as a signature of the disease. Besides the new problem formulation, we propose an ADMM algorithm (STEPD) to solve a relaxed version of the PSPI problem. An extensive case study on comparative gene regulatory networks (GRNs) is used to demonstrate that STEPD is able to accurately infer structured perturbations and thus provides a tool for computational biologists to identify novel prognostic signatures. A spectral analysis confirms that STEPD can recover small clique-like perturbations making it a useful tool for detecting permutation-invarian t changes in graphs.
翻訳日:2021-04-05 17:28:52 公開日:2021-04-02
# (参考訳) 集団知能のアクティブ推論モデル

An active inference model of collective intelligence ( http://arxiv.org/abs/2104.01066v1 )

ライセンス: CC BY 4.0
Rafael Kaufmann, Pranav Gupta, Jacob Taylor(参考訳) 現在までに、集団知能の形式的モデルには、高度自律的なサブシステムコンポーネント(個人)間の局所的な相互作用と複合システム(集団)のグローバルな挙動の関係に関する、妥当な数学的記述が欠けている。 本稿では、任意のスケールで非平衡定常状態系の挙動を説明するためのフレームワークであるActive Inference Formulation(AIF)を用いて、局所的な個人レベルの相互作用と集団知能(システムレベルのパフォーマンスとして操作)の関係をシミュレートする最小限のエージェントベースモデルを提案する。 本稿では,心の理論(モデル2),目標アライメント(モデル3),目標アライメントを用いた心の理論(モデル4)という,特定の認知能力を備えたベースラインaifエージェント(モデル1)の提供の効果について検討する。 認知能力の高度化におけるこれらの段階的な遷移は、aifエージェントが他のaifエージェントが居住する環境で持続し繁栄するために必要な進歩の種類に動機付けられており、最近は人間の認知能力の標準的ステップに自然にマッピングすることが示されている。 その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。 アライメントは、エージェントの行動(集団知能の既存の計算モデル)や集団行動のためのトップダウン事前(aifの既存のマルチスケールシミュレーション)へのインセンティブによって外因的に課されるのではなく、相互作用するaifエージェント自体のダイナミクスから内在的に発生する。 これらの結果は、人間や他の複雑な適応システムにおける集団知性に寄与する汎用情報理論のパターンの種類に光を当てた。

To date, formal models of collective intelligence have lacked a plausible mathematical description of the relationship between local-scale interactions between highly autonomous sub-system components (individuals) and global-scale behavior of the composite system (the collective). In this paper we use the Active Inference Formulation (AIF), a framework for explaining the behavior of any non-equilibrium steady state system at any scale, to posit a minimal agent-based model that simulates the relationship between local individual-level interaction and collective intelligence (operationalized as system-level performance). We explore the effects of providing baseline AIF agents (Model 1) with specific cognitive capabilities: Theory of Mind (Model 2); Goal Alignment (Model 3), and Theory of Mind with Goal Alignment (Model 4). These stepwise transitions in sophistication of cognitive ability are motivated by the types of advancements plausibly required for an AIF agent to persist and flourish in an environment populated by other AIF agents, and have also recently been shown to map naturally to canonical steps in human cognitive ability. Illustrative results show that stepwise cognitive transitions increase system performance by providing complementary mechanisms for alignment between agents' local and global optima. Alignment emerges endogenously from the dynamics of interacting AIF agents themselves, rather than being imposed exogenously by incentives to agents' behaviors (contra existing computational models of collective intelligence) or top-down priors for collective behavior (contra existing multiscale simulations of AIF). These results shed light on the types of generic information-theoreti c patterns conducive to collective intelligence in human and other complex adaptive systems.
翻訳日:2021-04-05 16:59:01 公開日:2021-04-02
# (参考訳) 適応色・コントラスト強調による水中画像の強調と雑音化 [全文訳有]

Enhancing Underwater Image via Adaptive Color and Contrast Enhancement, and Denoising ( http://arxiv.org/abs/2104.01073v1 )

ライセンス: CC BY 4.0
Xinjie Li, Guojia Hou, Kunqian Li(参考訳) 水中で撮影された画像は、しばしば低コントラスト、色歪み、ノイズによって特徴づけられる。 このような視覚的劣化に対処するために,適応色とコントラスト強調を構築し,水中画像強調のためのACCE-Dフレームワークを提案する。 提案手法では, ガウスフィルタとバイラテラルフィルタを用いて, 高周波成分と低周波成分を分解する。 この分離の利点を生かして,ソフトスレッショルド操作により高周波成分のノイズを抑制する。 これにより、適応色とコントラスト強化(ACCE)戦略を用いて低周波成分を増強する。 提案したACCEは,HSI色空間に実装された適応型変分フレームワークであり,ガウス重み関数とヘヴィサイド関数を設計し,データ項目と正規化項目の役割を適応的に調整する。 さらに,acceの数値解法を導出し,解法を高速化するためにピラミッド型戦略を採用する。 実験の結果,提案手法は色補正,視認性向上,詳細表示に有効であることがわかった。 最先端技術との比較は,提案手法の優越性も検証する。 また,提案するacce-dの有用性を検証し,霧,砂嵐,低照度シーンなど他の種類の劣化シーンを改良した。

Images captured underwater are often characterized by low contrast, color distortion, and noise. To address these visual degradations, we propose a novel scheme by constructing an adaptive color and contrast enhancement, and denoising (ACCE-D) framework for underwater image enhancement. In the proposed framework, Gaussian filter and Bilateral filter are respectively employed to decompose the high-frequency and low-frequency components. Benefited from this separation, we utilize soft-thresholding operation to suppress the noise in the high-frequency component. Accordingly, the low-frequency component is enhanced by using an adaptive color and contrast enhancement (ACCE) strategy. The proposed ACCE is a new adaptive variational framework implemented in the HSI color space, in which we design a Gaussian weight function and a Heaviside function to adaptively adjust the role of data item and regularized item. Moreover, we derive a numerical solution for ACCE, and adopt a pyramid-based strategy to accelerate the solving procedure. Experimental results demonstrate that our strategy is effective in color correction, visibility improvement, and detail revealing. Comparison with state-of-the-art techniques also validate the superiority of propose method. Furthermore, we have verified the utility of our proposed ACCE-D for enhancing other types of degraded scenes, including foggy scene, sandstorm scene and low-light scene.
翻訳日:2021-04-05 16:57:45 公開日:2021-04-02
# (参考訳) 確率的専門家の盲点探索と爆発 [全文訳有]

Blind Exploration and Exploitation of Stochastic Experts ( http://arxiv.org/abs/2104.01078v1 )

ライセンス: CC BY 4.0
Noyan C. Sevuktekin and Andrew C. Singer(参考訳) 本稿では,後方サンプリング,高信頼境界,経験的Kullback-Leibler発散,および確率的マルチアームバンディット問題に対するminmax法を用いて,最も信頼性の高い確率的専門家を特定するためのブラインド探索・エクスプロイト(BEE)アルゴリズムを提案する。 世界の隠れた無作為な状態に依存する意見を持つ専門家による共同サンプリングと相談は、真の状態からのフィードバックが得られないため、教師なし、または盲目のフレームワークでは困難になる。 本稿では,他の専門家の意見のみを用いて瞬時に推測できる,経験的に実現可能な専門家能力尺度を提案する。 この尺度は、真の能力の秩序を保ち、動的に変化するタスクに対する彼らの意見に基づいて、確率的専門家の共同サンプリングと相談を可能にする。 提案手法から得られた統計は、目視探索・探索と教師なしの意見集計の両方を瞬時に利用できる。 UCB1、KL-UCB、MOSS、IMED、トンプソンサンプリングに依存するBEEアーキテクチャの漸近的後悔に、監督の欠如がどのように影響するかについて議論する。 我々は、異なるBEEアルゴリズムの性能を実証的に実証し、それらを彼らの標準、または教師付きアルゴリズムと比較する。

We present blind exploration and exploitation (BEE) algorithms for identifying the most reliable stochastic expert based on formulations that employ posterior sampling, upper-confidence bounds, empirical Kullback-Leibler divergence, and minmax methods for the stochastic multi-armed bandit problem. Joint sampling and consultation of experts whose opinions depend on the hidden and random state of the world becomes challenging in the unsupervised, or blind, framework as feedback from the true state is not available. We propose an empirically realizable measure of expert competence that can be inferred instantaneously using only the opinions of other experts. This measure preserves the ordering of true competences and thus enables joint sampling and consultation of stochastic experts based on their opinions on dynamically changing tasks. Statistics derived from the proposed measure is instantaneously available allowing both blind exploration-exploita tion and unsupervised opinion aggregation. We discuss how the lack of supervision affects the asymptotic regret of BEE architectures that rely on UCB1, KL-UCB, MOSS, IMED, and Thompson sampling. We demonstrate the performance of different BEE algorithms empirically and compare them to their standard, or supervised, counterparts.
翻訳日:2021-04-05 16:33:24 公開日:2021-04-02
# (参考訳) ESTemd: Apache Kafkaストリーミングエンジンに基づく環境モニタリングのための分散処理フレームワーク [全文訳有]

ESTemd: A Distributed Processing Framework for Environmental Monitoring based on Apache Kafka Streaming Engine ( http://arxiv.org/abs/2104.01082v1 )

ライセンス: CC BY 4.0
Adeyinka Akanbi(参考訳) 分散ネットワークとリアルタイムシステムは、iot(internet of things, モノのインターネット)と呼ばれる新しいコンピュータ時代において最も重要なコンポーネントになりつつある。 生成されたデータは、微妙な生態学や天然資源から都市環境まで、環境指標を計測、推測、理解する能力を提供する。 これは異種データソース(構造化および非構造化)の分析によって達成できる。 本稿では,異種環境データにストリーム処理を適用するための分散フレームワークであるEvent STream Processing Engine for Environmental Monitoring Domain (ESTemd)を提案する。 本研究は, 環境意思決定支援システム, 早期警戒・予測システムにおいて, ビッグデータ技術が果たす役割を実証するものである。 提案フレームワークは,Apache Kafkaをリアルタイム分析に適用した統一データパイプラインを通じて,異種システムからのデータの均一性と,巨大な環境データセットのリアルタイム処理という課題に対処する。

Distributed networks and real-time systems are becoming the most important components for the new computer age, the Internet of Things (IoT), with huge data streams or data sets generated from sensors and data generated from existing legacy systems. The data generated offers the ability to measure, infer and understand environmental indicators, from delicate ecologies and natural resources to urban environments. This can be achieved through the analysis of the heterogeneous data sources (structured and unstructured). In this paper, we propose a distributed framework Event STream Processing Engine for Environmental Monitoring Domain (ESTemd) for the application of stream processing on heterogeneous environmental data. Our work in this area demonstrates the useful role big data techniques can play in an environmental decision support system, early warning and forecasting systems. The proposed framework addresses the challenges of data heterogeneity from heterogeneous systems and real time processing of huge environmental datasets through a publish/subscribe method via a unified data pipeline with the application of Apache Kafka for real time analytics.
翻訳日:2021-04-05 16:16:40 公開日:2021-04-02
# (参考訳) 低ランクテンソル分解のための高速かつ高精度なランダム化アルゴリズム [全文訳有]

Fast and Accurate Randomized Algorithms for Low-rank Tensor Decompositions ( http://arxiv.org/abs/2104.01101v1 )

ライセンス: CC BY 4.0
Linjian Ma and Edgar Solomonik(参考訳) 低ランクタッカーとcpテンソル分解は、データ分析の強力なツールである。 過度に決定された最小二乗部分問題(英語版)の列を解く、広く使われる交互最小二乗法(als)は、大きくてスパーステンソルでは非効率である。 本研究では,タッカー分解のための高速かつ高精度なスケッチ付きALSアルゴリズムを提案する。 理論上のスケッチサイズ上限は、各サブプロブレムに対して、tensorsketch と leverage score sampling という2つのスケッチ技法で $o(\epsilon)$-relati ve error を達成するために提供される。 実験結果から, このアルゴリズムはランダム化レンジファインダに基づく新しい初期化手法と組み合わせて, 様々な合成データセットのタッカー分解のための最先端のスケッチ化ランダム化アルゴリズムと比較して, 22.0\%$の相対分解残差改善が得られることがわかった。 このタッカー-alsアルゴリズムは、ランダム化タッカー圧縮とタッカーコアテンソルのcp分解を用いてcp分解を加速するために用いられる。 実験の結果, このアルゴリズムはより高速に収束するだけでなく, より正確なcp分解をもたらすことがわかった。

Low-rank Tucker and CP tensor decompositions are powerful tools in data analytics. The widely used alternating least squares (ALS) method, which solves a sequence of over-determined least squares subproblems, is inefficient for large and sparse tensors. We propose a fast and accurate sketched ALS algorithm for Tucker decomposition, which solves a sequence of sketched rank-constrained linear least squares subproblems. Theoretical sketch size upper bounds are provided to achieve $O(\epsilon)$-relati ve error for each subproblem with two sketching techniques, TensorSketch and leverage score sampling. Experimental results show that this new ALS algorithm, combined with a new initialization scheme based on randomized range finder, yields up to $22.0\%$ relative decomposition residual improvement compared to the state-of-the-art sketched randomized algorithm for Tucker decomposition of various synthetic datasets. This Tucker-ALS algorithm is further used to accelerate CP decomposition, by using randomized Tucker compression followed by CP decomposition of the Tucker core tensor. Experimental results show that this algorithm not only converges faster, but also yields more accurate CP decompositions.
翻訳日:2021-04-05 16:07:55 公開日:2021-04-02
# (参考訳) 機械学習における品質保証プロセスのためのインテリジェントユーザインタフェースの設計と最適化を支援するシミュレーションの利用 [全文訳有]

Using Simulation to Aid the Design and Optimization of Intelligent User Interfaces for Quality Assurance Processes in Machine Learning ( http://arxiv.org/abs/2104.01129v1 )

ライセンス: CC BY 4.0
Yu Zhang and Martijn Tennekes and Tim de Jong and Lyana Curier and Bob Coecke and Min Chen(参考訳) 現実世界における機械学習(ML)のミッションクリティカルなアプリケーションの多くは、MLモデルの判断や予測がデプロイされる前に品質保証(QA)プロセスを必要とする。 qa4mlのユーザは、膨大な量のデータを閲覧し、mlモデルによるエラーを修正するために多くの入力アクションを実行する必要があるため、最適な設計のユーザーインターフェイス(ui)は、インタラクションのコストを大幅に削減することができる。 uiの有効性は、並列に処理されるデータオブジェクトの数、エラーを修正するコマンドの種類、ユーザを支援するアルゴリズムの可用性など、多くの要因に影響される可能性がある。 本稿では,QA4MLプロセスのためのインテリジェントユーザインタフェースの設計と最適化を支援するシミュレーションを提案する。 特に、適切なコマンドとアルゴリズムの選択における人間の知能の複合効果と、品質保証のためのデータオブジェクトを並べ替えるための汎用アルゴリズムの集合を提供する機械知能のシミュレーションに焦点を当てる。

Many mission-critical applications of machine learning (ML) in the real-world require a quality assurance (QA) process before the decisions or predictions of an ML model can be deployed. Because QA4ML users have to view a non-trivial amount of data and perform many input actions to correct errors made by the ML model, an optimally-designed user interface (UI) can reduce the cost of interactions significantly. A UI's effectiveness can be affected by many factors, such as the number of data objects processed concurrently, the types of commands for correcting errors, and the availability of algorithms for assisting users. We propose using simulation to aid the design and optimization of intelligent user interfaces for QA4ML processes. In particular, we focus on simulating the combined effects of human intelligence in selecting appropriate commands and algorithms, and machine intelligence in providing a collection of general-purpose algorithms for reordering data objects to be quality-assured.
翻訳日:2021-04-05 15:04:59 公開日:2021-04-02
# (参考訳) 語彙埋め込みによるtwitter上でのcovid-19ワクチン信仰のマイニング動向 [全文訳有]

Mining Trends of COVID-19 Vaccine Beliefs on Twitter with Lexical Embeddings ( http://arxiv.org/abs/2104.01131v1 )

ライセンス: CC BY 4.0
Harshita Chopra, Aniket Vashishtha, Ridam Pal, Ashima, Ananya Tyagi and Tavpritesh Sethi(参考訳) ソーシャルメディアは、世界中のニュースを広める上で重要な役割を担い、人々がさまざまな話題について意見を述べるためのプラットフォームとして機能する。 新型コロナウイルス(covid-19)の予防接種にはさまざまな意見があり、しばしば感情によって色付けされる。 われわれは、COVID-19ワクチン接種に関連するTwitter投稿のコーパスを抽出し、感情と影響要因という2つの語彙カテゴリーを作成した。 予防接種プログラムを施行した5カ国の語彙カテゴリーの潜伏空間の経時的変化を,教師なしの単語埋め込みを用いて追跡した。 インド、アメリカ、ブラジル、イギリス、オーストラリア。 2020年6月から2021年1月までの8ヶ月間に全世界の状況を総合的に理解するために、米国とインドから6万近いワクチン関連ツイートが分析された。 語彙カテゴリ間のコサイン距離は、コミュニティ検出アルゴリズムを用いて類似性ネットワークとモジュールを作成するために用いられた。 ワクチンに対するためらうような否定的な感情は、健康関連の効果や誤報と高い相関関係があることを実証する。 これらの協会は、何百万ものワクチンが投与された2021年1月に、ネットワークで最も重要な主要なモジュールを形成した。 感情と影響要因の関係は国によって異なることが判明した。 これらを抽出し視覚化することにより、有効なワクチンキャンペーンの設計を導くのに有効であり、ワクチンの取り込みをモデル化するために政策立案者によって利用することができると提案する。

Social media plays a pivotal role in disseminating news across the globe and acts as a platform for people to express their opinions on a variety of topics. COVID-19 vaccination drives across the globe are accompanied by a wide variety of expressed opinions, often colored by emotions. We extracted a corpus of Twitter posts related to COVID-19 vaccination and created two classes of lexical categories - Emotions and Influencing factors. Using unsupervised word embeddings, we tracked the longitudinal change in the latent space of the lexical categories in five countries with strong vaccine roll-out programs, i.e. India, USA, Brazil, UK, and Australia. Nearly 600 thousand vaccine-related tweets from the United States and India were analyzed for an overall understanding of the situation around the world for the time period of 8 months from June 2020 to January 2021. Cosine distance between lexical categories was used to create similarity networks and modules using community detection algorithms. We demonstrate that negative emotions like hesitancy towards vaccines have a high correlation with health-related effects and misinformation. These associations formed a major module with the highest importance in the network formed for January 2021, when millions of vaccines were administered. The relationship between emotions and influencing factors were found to be variable across the countries. By extracting and visualizing these, we propose that such a framework may be helpful in guiding the design of effective vaccine campaigns and can be used by policymakers for modeling vaccine uptake.
翻訳日:2021-04-05 14:36:00 公開日:2021-04-02
# (参考訳) 異種データのコントラストによる異常検出 [全文訳有]

Detecting Anomalies Through Contrast in Heterogeneous Data ( http://arxiv.org/abs/2104.01156v1 )

ライセンス: CC BY-SA 4.0
Debanjan Datta, Sathappan Muthiah and Naren Ramakrishnan(参考訳) 異常検出は、潜在的に不正行為を検出するための基本的なアプローチである。 生態系や経済を脅かす違法な木材貿易の検出や、その他の違法な活動との関連を任務とし、この問題を異常検出の1つとして定式化した。 アノテーションは、不正なトランザクションを検出する自動化システムの構築を支援する、異質な機能(カテゴリと継続性)を備えた大規模な取引データでは利用できない。 タスクを教師なし異常検出としてモデル化し,先行モデルの欠点に対処するために,新しいモデルコントラスト学習に基づく異種異常検出法を提案する。 モデルでは,非対称なオートエンコーダを用いて,大きなアリティカテゴリ変数を効果的に扱えるが,低次元潜在空間におけるデータ構造に関する仮定を回避し,超パラメータの変化に頑健である。 データの可能性は、負のサンプリングを用いてオートエンコーダと共同でトレーニングされる推定ネットワークによって近似される。 さらに、異種データに対する効果的な負サンプル生成手法の詳細と直観について概説する。 木材取引における異常検出におけるモデルの有効性を示す質的研究を行った。

Detecting anomalies has been a fundamental approach in detecting potentially fraudulent activities. Tasked with detection of illegal timber trade that threatens ecosystems and economies and association with other illegal activities, we formulate our problem as one of anomaly detection. Among other challenges annotations are unavailable for our large-scale trade data with heterogeneous features (categorical and continuous), that can assist in building automated systems to detect fraudulent transactions. Modelling the task as unsupervised anomaly detection, we propose a novel model Contrastive Learning based Heterogeneous Anomaly Detector to address shortcomings of prior models. Our model uses an asymmetric autoencoder that can effectively handle large arity categorical variables, but avoids assumptions about structure of data in low-dimensional latent space and is robust to changes to hyper-parameters. The likelihood of data is approximated through an estimator network, which is jointly trained with the autoencoder,using negative sampling. Further the details and intuition for an effective negative sample generation approach for heterogeneous data are outlined. We provide a qualitative study to showcase the effectiveness of our model in detecting anomalies in timber trade.
翻訳日:2021-04-05 14:27:59 公開日:2021-04-02
# (参考訳) ホームビデオ解析によるハイブリッド型ディープラーニングアーキテクチャに基づく新しい自閉症診断プロセスの開発 [全文訳有]

Developing a New Autism Diagnosis Process Based on a Hybrid Deep Learning Architecture Through Analyzing Home Videos ( http://arxiv.org/abs/2104.01137v1 )

ライセンス: CC0 1.0
Spencer He and Ryan Liu(参考訳) 現在、54人中1人が自閉症スペクトラム障害(ASD)と診断されており、2000年より178%高い。 早期の診断と治療は、スペクトルから外れて完全に回復する可能性を大幅に増やす可能性がある。 神経学的およびコミュニケーションのスキルに対する様々な身体的および行動的テストにより、ASDの診断は非常に複雑で、主観的、時間的、高価である。 顔の特徴や社会的行動に機械学習分析を用いることで、実世界のパフォーマンスを損なうことなく、ASDの診断を高速化できると仮定する。 本稿では、分類データと画像データの両方を用いて、従来のASD事前スクリーニングを自動化し、診断を迅速かつ容易にするハイブリッドアーキテクチャを提案する。 我々は,ados分類データを分類するロジスティック回帰モデルとモジュール1の線形サポートベクターマシンを作成し,テストを行った。 ビデオデータを分類するモジュール2には畳み込みニューラルネットワークとDenseNetネットワークが使用される。 最後に、3つのデータ平均化戦略を用いて、最も優れたパフォーマンスモデルである線形svmとdrknetを組み合わせる。 標準平均値を用い,訓練データ数に基づいて重み付けを行い,訓練データ中のasd患者数に基づいて重み付けを行い,臨床応用における正確性を高めた。 得られた結果は私たちの仮説を支持します。 提案するアーキテクチャは,最大重み付け精度84%でasdプレスクリーニングを効果的に自動化できる。

Currently, every 1 in 54 children have been diagnosed with Autism Spectrum Disorder (ASD), which is 178% higher than it was in 2000. An early diagnosis and treatment can significantly increase the chances of going off the spectrum and making a full recovery. With a multitude of physical and behavioral tests for neurological and communication skills, diagnosing ASD is very complex, subjective, time-consuming, and expensive. We hypothesize that the use of machine learning analysis on facial features and social behavior can speed up the diagnosis of ASD without compromising real-world performance. We propose to develop a hybrid architecture using both categorical data and image data to automate traditional ASD pre-screening, which makes diagnosis a quicker and easier process. We created and tested a Logistic Regression model and a Linear Support Vector Machine for Module 1, which classifies ADOS categorical data. A Convolutional Neural Network and a DenseNet network are used for module 2, which classifies video data. Finally, we combined the best performing models, a Linear SVM and DenseNet, using three data averaging strategies. We used a standard average, weighted based on number of training data, and weighted based on the number of ASD patients in the training data to average the results, thereby increasing accuracy in clinical applications. The results we obtained support our hypothesis. Our novel architecture is able to effectively automate ASD pre-screening with a maximum weighted accuracy of 84%.
翻訳日:2021-04-05 14:13:48 公開日:2021-04-02
# 教師なしボリュームセグメンテーションによる3dシーンのオブジェクトへの分解

Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation ( http://arxiv.org/abs/2104.01148v1 )

ライセンス: Link先を確認
Karl Stelzner, Kristian Kersting, Adam R. Kosiorek(参考訳) 本稿では,シーンの1つの画像をニューラルネットワークの放射場(nerfs)の集合として表現した3dモデルに変換する手法であるobsurfを提案する。 エンコーダネットワークの1つのフォワードパスは、シーン内のオブジェクトを記述する潜在ベクトルのセットを出力する。 これらのベクトルはnerfデコーダの条件付けに独立に使われ、各オブジェクトの形状と外観を定義する。 我々は、新しい損失を導出することで学習をより効率的にし、明示的な光線マーチングなしでRGB-D入力上のNeRFを訓練することができる。 3つの2dイメージセグメンテーションベンチマークで、モデルがアートの状態を同等かそれ以上に評価した後に、それを2つの多目的3dデータセットに適用する。 トレーニングシーンのRGB-DビューでObSuRFをトレーニングした後、単一の入力画像に描かれたシーンの3次元幾何を復元するだけでなく、その点に関して何の監督も受けずにオブジェクトに分割することが可能になる。

We present ObSuRF, a method which turns a single image of a scene into a 3D model represented as a set of Neural Radiance Fields (NeRFs), with each NeRF corresponding to a different object. A single forward pass of an encoder network outputs a set of latent vectors describing the objects in the scene. These vectors are used independently to condition a NeRF decoder, defining the geometry and appearance of each object. We make learning more computationally efficient by deriving a novel loss, which allows training NeRFs on RGB-D inputs without explicit ray marching. After confirming that the model performs equal or better than state of the art on three 2D image segmentation benchmarks, we apply it to two multi-object 3D datasets: A multiview version of CLEVR, and a novel dataset in which scenes are populated by ShapeNet models. We find that after training ObSuRF on RGB-D views of training scenes, it is capable of not only recovering the 3D geometry of a scene depicted in a single input image, but also to segment it into objects, despite receiving no supervision in that regard.
翻訳日:2021-04-05 14:06:06 公開日:2021-04-02
# Sketch and Customize: 事実上のストーリージェネレータ

Sketch and Customize: A Counterfactual Story Generator ( http://arxiv.org/abs/2104.00929v1 )

ライセンス: Link先を確認
Changying Hao, Liang Pang, Yanyan Lan, Yan Wang, Jiafeng Guo, Xueqi Cheng(参考訳) 最近のテキスト生成モデルは、与えられたテキストの一部を変更する際に因果推論能力が欠如しているのに対して、特定のテキストに対して関連のある、流れるようなテキストを生成するのが容易である。 テキスト生成モデルの因果推論能力をテストするために最近提案された課題であり, 条件が反事実に修正された場合, 対応する物語終末を予測するモデルが必要である。 従来の研究では、従来のシーケンス・ツー・シーケンスモデルでは、条件と終端の因果関係ではなく、元の終端と反実の終端の間のいくつかの急激な相関を捉えることが多いため、この問題にうまく対応できないことが示されている。 この問題に対処するために,条件や結末に含んだ因果関係を導いたスケッチ・アンド・カスタマイズ生成モデルを提案する。 スケッチ段階では、元の結末から、偽の条件と矛盾する単語を取り除き、骨格を抽出する。 カスタマイズ段階では、造形モデルは、反事実条件の下で骨格内の適切な単語を埋めるために使用される。 このようにして得られる偽りの結末は、元の結末と関係があり、偽りの条件と一致する。 実験結果から,従来のシーケンス・ツー・シーケンスモデルと比較して,提案モデルの方がより優れたエンディングを生成することがわかった。

Recent text generation models are easy to generate relevant and fluent text for the given text, while lack of causal reasoning ability when we change some parts of the given text. Counterfactual story rewriting is a recently proposed task to test the causal reasoning ability for text generation models, which requires a model to predict the corresponding story ending when the condition is modified to a counterfactual one. Previous works have shown that the traditional sequence-to-sequence model cannot well handle this problem, as it often captures some spurious correlations between the original and counterfactual endings, instead of the causal relations between conditions and endings. To address this issue, we propose a sketch-and-customize generation model guided by the causality implicated in the conditions and endings. In the sketch stage, a skeleton is extracted by removing words which are conflict to the counterfactual condition, from the original ending. In the customize stage, a generation model is used to fill proper words in the skeleton under the guidance of the counterfactual condition. In this way, the obtained counterfactual ending is both relevant to the original ending and consistent with the counterfactual condition. Experimental results show that the proposed model generates much better endings, as compared with the traditional sequence-to-sequence model.
翻訳日:2021-04-05 14:05:46 公開日:2021-04-02
# Taggersが学べないものは、パーサーが一番必要

What Taggers Fail to Learn, Parsers Need the Most ( http://arxiv.org/abs/2104.01083v1 )

ライセンス: Link先を確認
Mark Anderson and Carlos G\'omez-Rodr\'iguez(参考訳) そこで本研究では,ゴールド標準タグを用いた場合,予測されたUPPタグが性能に悪影響を及ぼすか,あるいは無視できる改善をもたらすかを評価するために,ニューラルネットワークによるUPPタグの誤り解析を行った。 我々は、単語タイプについて暗黙的に学習するニューラル依存構文解析器と、予測タグがパーサーに与える影響を最小化するエラータガーとの関係について評価する。 また,タギング性能の低下の原因となる文脈について,簡単な分析を行う。 次に,タガーによるエラーに基づいてuposタグをマスクし,タガーが成功し,正しく分類できないuposタグの寄与とタグエラーの影響をからかう。

We present an error analysis of neural UPOS taggers to evaluate why using gold standard tags has such a large positive contribution to parsing performance while using predicted UPOS tags either harms performance or offers a negligible improvement. We evaluate what neural dependency parsers implicitly learn about word types and how this relates to the errors taggers make to explain the minimal impact using predicted tags has on parsers. We also present a short analysis on what contexts result in reductions in tagging performance. We then mask UPOS tags based on errors made by taggers to tease away the contribution of UPOS tags which taggers succeed and fail to classify correctly and the impact of tagging errors.
翻訳日:2021-04-05 14:05:22 公開日:2021-04-02
# 映像理解のための視覚意味的役割ラベリング

Visual Semantic Role Labeling for Video Understanding ( http://arxiv.org/abs/2104.00990v1 )

ライセンス: Link先を確認
Arka Sadhu, Tanmay Gupta, Mark Yatskar, Ram Nevatia, Aniruddha Kembhavi(参考訳) 視覚的セマンティック・ロール・ラベリングを用いた映像中の関連イベントの理解と表現のための新しい枠組みを提案する。 ビデオは関連するイベントの集合として表現され、各イベントはそのイベントに関連する様々な役割を果たす動詞と複数のエンティティから構成される。 ビデオやVidSRLにおけるセマンティックロールラベリングの難易度を検討するために,29Kドル10ドル秒の動画クリップを2秒ごとに動詞とセマンティックロールでリッチに注釈付けした大規模ビデオ理解データソースであるVidSituベンチマークを紹介した。 エンティティは映画クリップ内のイベント間で相互参照され、イベントはイベント-イベント関係を介して相互に接続される。 vidsituのクリップは映画の膨大なコレクション(${\sim}3k$)から引き出され、複雑な(${\sim}4.2$のユニークな動詞)と多様な($sim}200$の動詞はそれぞれ100ドル以上の注釈を持っている)の両方に選択されている。 我々は,他の公開ビデオ理解ベンチマークと比較し,データセットの包括的分析を行い,標準ビデオ認識モデルの評価を行った。 私たちのコードとデータセットはvidsitu.orgで利用可能です。

We propose a new framework for understanding and representing related salient events in a video using visual semantic role labeling. We represent videos as a set of related events, wherein each event consists of a verb and multiple entities that fulfill various roles relevant to that event. To study the challenging task of semantic role labeling in videos or VidSRL, we introduce the VidSitu benchmark, a large-scale video understanding data source with $29K$ $10$-second movie clips richly annotated with a verb and semantic-roles every $2$ seconds. Entities are co-referenced across events within a movie clip and events are connected to each other via event-event relations. Clips in VidSitu are drawn from a large collection of movies (${\sim}3K$) and have been chosen to be both complex (${\sim}4.2$ unique verbs within a video) as well as diverse (${\sim}200$ verbs have more than $100$ annotations each). We provide a comprehensive analysis of the dataset in comparison to other publicly available video understanding benchmarks, several illustrative baselines and evaluate a range of standard video recognition models. Our code and dataset is available at vidsitu.org.
翻訳日:2021-04-05 14:05:09 公開日:2021-04-02
# 文脈と動きの分離による自己教師付き映像表現学習

Self-supervised Video Representation Learning by Context and Motion Decoupling ( http://arxiv.org/abs/2104.00862v1 )

ライセンス: Link先を確認
Lianghua Huang, Yu Liu, Bin Wang, Pan Pan, Yinghui Xu, Rong Jin(参考訳) 自己教師付き映像表現学習における鍵となる課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。 既存の作業の多くは、ビデオ固有のプリテキストタスク(例えば、クリップの順序、時間矢印、ペースの予測)でこれを暗黙的に達成するが、慎重に設計されたプリテキストタスクを通して、動きの監視をコンテキストバイアスから明示的に分離する手法を開発する。 具体的には、圧縮ビデオ(例えばH.264フォーマット)のキーフレームとモーションベクトルを、それぞれコンテキストとモーションの監督源としており、CPU上の500fps以上で効率的に抽出することができる。 次に,ビデオクリップとキーフレームの特徴間の相互にコントラストのあるロスをキャストするコンテキストマッチングタスクと,エンコーダ・デコーダネットワークを介してクリップ特徴を伝達する動作予測タスクとを併用して,近い将来に動作特徴を推定する。 これら2つのタスクは、共有ビデオバックボーンと別々のMLPヘッドを使用する。 実験の結果,本手法は先行研究よりも学習した映像表現の品質が向上し,それぞれutf101とhmdb51の映像検索リコールにおいて16.0%と11.1%の絶対的なゲインを得た。 さらに,動作予測は映像ネットワークの強い正規化であり,映像ネットワークを補助タスクとして用いることで,動作認識の精度が7.4%~13.8%向上することがわかった。

A key challenge in self-supervised video representation learning is how to effectively capture motion information besides context bias. While most existing works implicitly achieve this with video-specific pretext tasks (e.g., predicting clip orders, time arrows, and paces), we develop a method that explicitly decouples motion supervision from context bias through a carefully designed pretext task. Specifically, we take the keyframes and motion vectors in compressed videos (e.g., in H.264 format) as the supervision sources for context and motion, respectively, which can be efficiently extracted at over 500 fps on the CPU. Then we design two pretext tasks that are jointly optimized: a context matching task where a pairwise contrastive loss is cast between video clip and keyframe features; and a motion prediction task where clip features, passed through an encoder-decoder network, are used to estimate motion features in a near future. These two tasks use a shared video backbone and separate MLP heads. Experiments show that our approach improves the quality of the learned video representation over previous works, where we obtain absolute gains of 16.0% and 11.1% in video retrieval recall on UCF101 and HMDB51, respectively. Moreover, we find the motion prediction to be a strong regularization for video networks, where using it as an auxiliary task improves the accuracy of action recognition with a margin of 7.4%~13.8%.
翻訳日:2021-04-05 14:04:45 公開日:2021-04-02
# 深層強化学習を用いたドメインフィルタリングによる低線量ヘリカルcbct雑音検出

Low Dose Helical CBCT denoising by using domain filtering with deep reinforcement learning ( http://arxiv.org/abs/2104.00889v1 )

ライセンス: Link先を確認
Wooram Kang, Mayank Patwari(参考訳) コーンビームCT(CBCT)は、現在知られているCTイメージングの方法である。 特に低線量CTは、CT画像撮影を行う際の患者の臓器を保護するための選択肢の1つである。 したがって、低線量CT画像は標準線量CT画像の代わりにできる。 しかし,低線量CT画像は,標準線量CT画像と比較して,結果のノイズに根本的な問題がある。 現在、騒音を消そうとする試みが数多くある。 人工知能の手法の多くは、多くのパラメータと説明できないレイヤー、あるいはある種のブラックボックスメソッドを持っている。 それゆえ、我々の研究にはこれらの問題に関連する目的がある。 本手法は,深層強化学習を用いた反復学習可能なバイラテラルフィルタリングアプローチにより,通常の手法よりもパラメータが小さい。 また,深層強化学習を用いた反復学習可能なフィルタリング手法を,シノグラムと再構成ボリューム領域に適用した。 メソッドとメソッドの結果は、他のブラックボックスAIアプローチよりもずっと説明がつきやすい。 本手法を最近のCBCTトレンドであるCBCT(Helical Cone Beam Computed Tomography)に適用した。 mayo clinic tciaデータセットから2つの腹部スキャン(l004,l014)を用いて検討を行った。 私たちのアプローチの結果とパフォーマンスは、他の以前のメソッドの結果を追い越しています。

Cone Beam Computed Tomography(CBCT) is a now known method to conduct CT imaging. Especially, The Low Dose CT imaging is one of possible options to protect organs of patients when conducting CT imaging. Therefore Low Dose CT imaging can be an alternative instead of Standard dose CT imaging. However Low Dose CT imaging has a fundamental issue with noises within results compared to Standard Dose CT imaging. Currently, there are lots of attempts to erase the noises. Most of methods with artificial intelligence have many parameters and unexplained layers or a kind of black-box methods. Therefore, our research has purposes related to these issues. Our approach has less parameters than usual methods by having Iterative learn-able bilateral filtering approach with Deep reinforcement learning. And we applied The Iterative learn-able filtering approach with deep reinforcement learning to sinograms and reconstructed volume domains. The method and the results of the method can be much more explainable than The other black box AI approaches. And we applied the method to Helical Cone Beam Computed Tomography(CBCT), which is the recent CBCT trend. We tested this method with on 2 abdominal scans(L004, L014) from Mayo Clinic TCIA dataset. The results and the performances of our approach overtake the results of the other previous methods.
翻訳日:2021-04-05 14:04:20 公開日:2021-04-02
# 時系列予測のための半パラメトリック機械学習技術の検討

A Survey on Semi-parametric Machine Learning Technique for Time Series Forecasting ( http://arxiv.org/abs/2104.00871v1 )

ライセンス: Link先を確認
Khwaja Mutahir Ahmad, Gang He, Wenxin Yu, Xiaochuan Xu, Jay Kumar, Muhammad Asim Saleem(参考訳) 人工知能(AI)は先頃、ほぼすべての分野において、その能力を示した。 AIのサブセットである機械学習は、研究者のための‘HOT’トピックである。 機械学習は、ほぼ全自然の応用において、他の古典的な予測技術よりも優れている。 それは近代研究の重要な部分である。 この声明によると、Modern Machine Learningアルゴリズムはビッグデータに飢えている。 データセットが小さいため、研究者は機械学習アルゴリズムを好まないかもしれない。 この問題に対処するため,本調査の目的は,Grey Machine Learning (GML)と呼ばれる半パラメトリック機械学習フレームワークの重要性について,関連する研究を実証することである。 この種のフレームワークは、大きなデータセットと、可能性のある結果を予測する時系列用の小さなデータセットを扱うことができる。 本稿では,時系列予測のための半パラメトリック機械学習技術の概要を概観する。 本稿では,研究者を対象としたGMLフレームワークに関するプライマー調査を行う。 読者の深い理解を可能にするため、機械学習の簡単な説明と、従来のグレー予測モデルの様々な形態について論じる。 さらに、gmlフレームワークの重要性について簡単に説明する。

Artificial Intelligence (AI) has recently shown its capabilities for almost every field of life. Machine Learning, which is a subset of AI, is a `HOT' topic for researchers. Machine Learning outperforms other classical forecasting techniques in almost all-natural applications. It is a crucial part of modern research. As per this statement, Modern Machine Learning algorithms are hungry for big data. Due to the small datasets, the researchers may not prefer to use Machine Learning algorithms. To tackle this issue, the main purpose of this survey is to illustrate, demonstrate related studies for significance of a semi-parametric Machine Learning framework called Grey Machine Learning (GML). This kind of framework is capable of handling large datasets as well as small datasets for time series forecasting likely outcomes. This survey presents a comprehensive overview of the existing semi-parametric machine learning techniques for time series forecasting. In this paper, a primer survey on the GML framework is provided for researchers. To allow an in-depth understanding for the readers, a brief description of Machine Learning, as well as various forms of conventional grey forecasting models are discussed. Moreover, a brief description on the importance of GML framework is presented.
翻訳日:2021-04-05 14:03:32 公開日:2021-04-02
# 分割ガイドガン

Partition-Guided GANs ( http://arxiv.org/abs/2104.00816v1 )

ライセンス: Link先を確認
Mohammadreza Armandpour, Ali Sadeghian, Chunyuan Li, Mingyuan Zhou(参考訳) GAN(Generative Adversarial Networks)の成功にもかかわらず、それらのトレーニングは、モード崩壊や不連結な多様体の集合を学ぶことの難しさなど、よく知られた問題に悩まされている。 本稿では,複雑な高次元分布を学習し,多様なデータサンプルをサポートし,より簡単なサブタスクを実現するという課題について述べる。 私たちのソリューションは、スペースを小さなリージョンに分割し、それぞれがよりシンプルな分散を持ち、パーティション毎に異なるジェネレータをトレーニングするパーティショナの設計に依存しています。 これはラベルを必要とせずに教師なしの方法で実行される。 1) 接続されたパーティションを生成するためと, 2) パーティションとデータサンプルの間の距離のプロキシを提供するためであり, その距離を減らすための方法である。 これらの基準は、存在しないデータ密度の場所からサンプルを作成することを避け、また、ジェネレータに追加の指示を与えることで訓練を容易にする。 上記の条件を満たすために空間分割器の理論的制約を開発する。 理論解析の導出により,我々は,経験的にこれらの条件を保証できる空間分割器のための効果的なニューラルアーキテクチャを設計した。 各種標準ベンチマーク実験の結果,提案手法が近年の手法を上回っていることがわかった。

Despite the success of Generative Adversarial Networks (GANs), their training suffers from several well-known problems, including mode collapse and difficulties learning a disconnected set of manifolds. In this paper, we break down the challenging task of learning complex high dimensional distributions, supporting diverse data samples, to simpler sub-tasks. Our solution relies on designing a partitioner that breaks the space into smaller regions, each having a simpler distribution, and training a different generator for each partition. This is done in an unsupervised manner without requiring any labels. We formulate two desired criteria for the space partitioner that aid the training of our mixture of generators: 1) to produce connected partitions and 2) provide a proxy of distance between partitions and data samples, along with a direction for reducing that distance. These criteria are developed to avoid producing samples from places with non-existent data density, and also facilitate training by providing additional direction to the generators. We develop theoretical constraints for a space partitioner to satisfy the above criteria. Guided by our theoretical analysis, we design an effective neural architecture for the space partitioner that empirically assures these conditions. Experimental results on various standard benchmarks show that the proposed unsupervised model outperforms several recent methods.
翻訳日:2021-04-05 14:02:39 公開日:2021-04-02
# latentclr: 解釈可能な方向の教師なし発見のためのコントラスト学習アプローチ

LatentCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions ( http://arxiv.org/abs/2104.00820v1 )

ライセンス: Link先を確認
O\u{g}uz Kaan Y\"uksel, Enis Simsar, Ezgi G\"ulperi Er, Pinar Yanardag(参考訳) 近年の研究では,GANの潜在空間における解釈可能な方向を見出す大きな可能性を示している。 これらの方向は制御可能な生成を提供し、ズームやローテーションのような幅広い意味編集操作をサポートする。 このような方向の発見は、しばしば監督または半監督の方法で行われ、実際にアプリケーションを制限するために手動のアノテーションを必要とする。 比較して、教師なしの発見は、認識しにくい事前の微妙な方向を見つけることを可能にする。 本研究では,事前学習したGANの潜在空間における意味的方向を自己指導的に発見するための,コントラッシブ・ラーニングに基づくアプローチを提案する。 本手法は,最先端手法に適合する意味的に意味のある次元を求める。

Recent research has shown great potential for finding interpretable directions in the latent spaces of pre-trained Generative Adversarial Networks (GANs). These directions provide controllable generation and support a wide range of semantic editing operations such as zoom or rotation. The discovery of such directions is often performed in a supervised or semi-supervised fashion and requires manual annotations, limiting their applications in practice. In comparison, unsupervised discovery enables finding subtle directions a priori hard to recognize. In this work, we propose a contrastive-learning -based approach for discovering semantic directions in the latent space of pretrained GANs in a self-supervised manner. Our approach finds semantically meaningful dimensions compatible with state-of-the-art methods.
翻訳日:2021-04-05 14:02:20 公開日:2021-04-02
# 敵対的増補による画像腐敗防止

Defending Against Image Corruptions Through Adversarial Augmentations ( http://arxiv.org/abs/2104.01086v1 )

ライセンス: Link先を確認
Dan A. Calian, Florian Stimberg, Olivia Wiles, Sylvestre-Alvise Rebuffi, Andras Gyorgy, Timothy Mann, Sven Gowal(参考訳) 現代のニューラルネットワークは画像分類に優れていますが、ぼやけやスペックルノイズ、霧といった一般的な画像破損に弱いままです。 AugMixやDeepAugmentのようなこの問題に焦点を合わせる最近の手法では、画像の破損の分布を期待して機能する防御が導入されている。 対照的に、$\ell_p$-norm の有界摂動に関する文献は、最悪の場合の腐敗に対する防御に焦点を当てている。 本研究では,画像と画像のモデルのパラメータを最適化し,逆向きに劣化した画像を生成する手法であるAdversarialAugmentを提案する。 理論的には、我々の手法を動機付け、その理想化されたバージョンとDeepAugmentの整合性に十分な条件を与える。 分類器は,CIFAR-10-Cで実施される画像劣化ベンチマークの最先端性を向上し,CIFAR-10とImageNetにおける$$\ell_p$-norm境界摂動に対する最悪の性能を向上させる。

Modern neural networks excel at image classification, yet they remain vulnerable to common image corruptions such as blur, speckle noise or fog. Recent methods that focus on this problem, such as AugMix and DeepAugment, introduce defenses that operate in expectation over a distribution of image corruptions. In contrast, the literature on $\ell_p$-norm bounded perturbations focuses on defenses against worst-case corruptions. In this work, we reconcile both approaches by proposing AdversarialAugment, a technique which optimizes the parameters of image-to-image models to generate adversarially corrupted augmented images. We theoretically motivate our method and give sufficient conditions for the consistency of its idealized version as well as that of DeepAugment. Our classifiers improve upon the state-of-the-art on common image corruption benchmarks conducted in expectation on CIFAR-10-C and improve worst-case performance against $\ell_p$-norm bounded perturbations on both CIFAR-10 and ImageNet.
翻訳日:2021-04-05 14:02:09 公開日:2021-04-02
# コロンビアにおける歩行者事故低減のためのデータ中心分析

Datacentric analysis to reduce pedestrians accidents: A case study in Colombia ( http://arxiv.org/abs/2104.00912v1 )

ライセンス: Link先を確認
Michael Puentes (UIS), Diana Novoa, John Delgado Nivia (UTS), Carlos Barrios Hern\'andez (UIS), Oscar Carrillo (DYNAMID, CPE), Fr\'ed\'eric Le Mou\"el (DYNAMID)(参考訳) 2012年以降、ブカラマンガ・コロンビアのケーススタディでは179人の歩行者が自動車事故で死亡し、2873人が負傷した。 毎日、少なくとも1人の通行人が悲劇に巻き込まれている。 事故を減少させる原因を知ることは重要であり、衝突を再現するためにシステムダイナミクスを使用することは、さらなる事故を防止するために重要である。 この研究は、都市の事故率を減らし、新しい安全政策を導入することを提案することで、生活を救うためのシミュレーションを実装している。 シミュレーションのインプットは、市内の一部地域でのビデオ録画である。 画像の深層学習分析により、シーン内の異なる物体のセグメンテーションが得られ、対話モデルにより歩行者や車両の行動に影響を及ぼす主な理由が特定される。 シミュレーションによって検証された最初の、最も効率的な安全ポリシーは、事故率を80%削減する前に、特定の場所でスピードアップを構築することである。

Since 2012, in a case-study in Bucaramanga-Colombia , 179 pedestrians died in car accidents, and another 2873 pedestrians were injured. Each day, at least one passerby is involved in a tragedy. Knowing the causes to decrease accidents is crucial, and using system-dynamics to reproduce the collisions' events is critical to prevent further accidents. This work implements simulations to save lives by reducing the city's accidental rate and suggesting new safety policies to implement. Simulation's inputs are video recordings in some areas of the city. Deep Learning analysis of the images results in the segmentation of the different objects in the scene, and an interaction model identifies the primary reasons which prevail in the pedestrians or vehicles' behaviours. The first and most efficient safety policy to implement-validated by our simulations-would be to build speed bumps in specific places before the crossings reducing the accident rate by 80%.
翻訳日:2021-04-05 14:01:53 公開日:2021-04-02
# Plot2API: セマンティックパーシングガイドニューラルネットワークによるPlotからのグラフAPIの推奨

Plot2API: Recommending Graphic API from Plot via Semantic Parsing Guided Neural Network ( http://arxiv.org/abs/2104.01032v1 )

ライセンス: Link先を確認
Zeyu Wang and Sheng Huang and Zhongxin Liu and Meng Yan and Xin Xia and Bei Wang and Dan Yang(参考訳) PlotベースのGraphic APIレコメンデーション(Plot2API)は、ソフトウェアエンジニアリングとデータ視覚化のコンテキストにおいて重要な応用として、初心者のプロットガイダンス、グラフィックAPI相関分析、プロットのためのコード変換などがある。 Plot2APIは、各プロットが複数のAPIと関連付けられており、同じAPIで描画されるグラフィックスの外観は、パラメータの設定が異なるため、非常に多様であるため、非常に難しいタスクである。 さらに、異なるAPIのサンプルも極めて不均衡に悩まされている。 Plot2APIに技術がないことを考えると、Plot2APIの問題をマルチラベル画像分類とソリューションのための画像意味解析タスクとして翻訳するセマンティック・パーシング・ガイドニューラルネットワーク(SPGNN)という新しい深層マルチタスク学習手法を提案する。 SPGNNでは、EfficientNetという最近の進歩した畳み込みニューラルネットワーク(CNN)が、APIレコメンデーションのバックボーンネットワークとして採用されている。 一方、意味解析モジュールは、特徴学習における意味的関連視覚情報を活用するために補完され、視覚情報に基づくAPI推奨を混乱させる可能性のある外観関連視覚情報を排除する。 さらに、apiカテゴリの不均衡を軽減するために、ランダム消去と呼ばれる最近のデータ拡張技術も適用されている。 Stack Overflowから描画するグラフィックAPIを使ってプロットを収集し、Plot2APIテクニックの有効性を評価するために、RおよびPythonプログラミング言語のグラフィックAPIに対応する3つの新しいPlot2APIデータセットをリリースする。 近年の深層学習ベースラインよりも,本手法が優れていることを示すとともに,グラフィックAPIの推奨において,本手法の実践性を示す。

Plot-based Graphic API recommendation (Plot2API) is an unstudied but meaningful issue, which has several important applications in the context of software engineering and data visualization, such as the plotting guidance of the beginner, graphic API correlation analysis, and code conversion for plotting. Plot2API is a very challenging task, since each plot is often associated with multiple APIs and the appearances of the graphics drawn by the same API can be extremely varied due to the different settings of the parameters. Additionally, the samples of different APIs also suffer from extremely imbalanced. Considering the lack of technologies in Plot2API, we present a novel deep multi-task learning approach named Semantic Parsing Guided Neural Network (SPGNN) which translates the Plot2API issue as a multi-label image classification and an image semantic parsing tasks for the solution. In SPGNN, the recently advanced Convolutional Neural Network (CNN) named EfficientNet is employed as the backbone network for API recommendation. Meanwhile, a semantic parsing module is complemented to exploit the semantic relevant visual information in feature learning and eliminate the appearance-relevant visual information which may confuse the visual-information-b ased API recommendation. Moreover, the recent data augmentation technique named random erasing is also applied for alleviating the imbalance of API categories. We collect plots with the graphic APIs used to drawn them from Stack Overflow, and release three new Plot2API datasets corresponding to the graphic APIs of R and Python programming languages for evaluating the effectiveness of Plot2API techniques. Extensive experimental results not only demonstrate the superiority of our method over the recent deep learning baselines but also show the practicability of our method in the recommendation of graphic APIs.
翻訳日:2021-04-05 14:01:39 公開日:2021-04-02
# Robust wav2vec 2.0: 自己監督型事前トレーニングにおけるドメインシフトの分析

Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training ( http://arxiv.org/abs/2104.01027v1 )

ライセンス: Link先を確認
Wei-Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee, Ronan Collobert, Gabriel Synnaeve, Michael Auli(参考訳) 音声表現の自己教師型学習は非常に活発な研究領域であるが、ほとんどの研究は、大量のラベル付きおよびラベルなしデータが存在する読み上げオーディオブックのような単一の領域に焦点を当てている。 本稿では,事前学習のためのラベルなしデータのドメインが,微調整のためのラベル付きデータのドメインと異なる,テストデータドメインとは異なる可能性のある,より一般的な設定について検討する。 実験により、事前トレーニング中にターゲットドメインデータを使用することで、様々な設定で大幅なパフォーマンス向上が期待できることがわかった。 大規模競争環境において,ラベル付きドメイン内データの事前学習により,ドメイン内モデルとドメイン外ラベルデータとのギャップを66%-73%削減できることを示す。 これはラベル付きデータよりもラベルなしのターゲットドメインデータを取得するのがずっと容易であるため、明らかに実用的な意味を持つ。 さらに,複数の領域での事前学習により,訓練中に見られない領域の一般化性能が向上することがわかった。 コードとモデルはhttps://github.com/p ytorch/fairseqで利用可能になる。

Self-supervised learning of speech representations has been a very active research area but most work is focused on a single domain such as read audio books for which there exist large quantities of labeled and unlabeled data. In this paper, we explore more general setups where the domain of the unlabeled data for pre-training data differs from the domain of the labeled data for fine-tuning, which in turn may differ from the test data domain. Our experiments show that using target domain data during pre-training leads to large performance improvements across a variety of setups. On a large-scale competitive setup, we show that pre-training on unlabeled in-domain data reduces the gap between models trained on in-domain and out-of-domain labeled data by 66%-73%. This has obvious practical implications since it is much easier to obtain unlabeled target domain data than labeled data. Moreover, we find that pre-training on multiple domains improves generalization performance on domains not seen during training. Code and models will be made available at https://github.com/p ytorch/fairseq.
翻訳日:2021-04-05 14:00:52 公開日:2021-04-02
# 異種情報ネットワークにおけるストリーミングソーシャルイベント検出と進化発見

Streaming Social Event Detection and Evolution Discovery in Heterogeneous Information Networks ( http://arxiv.org/abs/2104.00853v1 )

ライセンス: Link先を確認
Hao Peng, Jianxin Li, Yangqiu Song, Renyu Yang, Rajiv Ranjan, Philip S. Yu, Lifang He(参考訳) イベントは現実世界やリアルタイムで行われており、社会集会、祝祭、影響力のある会議、スポーツ活動などのイベントのために計画や組織化が可能である。 ソーシャルメディアプラットフォームは、トピックの異なる公開イベントに関する多くのリアルタイムテキスト情報を生成する。 しかし、しばしば異質なテクスチャやメタデータが曖昧であることから、社会イベントの採掘は困難である。 本稿では,まず,ソーシャルイベントの意味的関連性を特徴付けるイベントベースのメタスキーマを設計し,外部知識ベースからの情報を統合したイベントベースのヘテロジニアス情報ネットワーク(hin)を構築する。 第2に,Pairwise Popularity Graph Convolutional Network(PP-GCN)を提案する。これはメタパスインスタンスの重み付けとテキストのセマンティック表現を入力として用い,詳細なソーシャルイベント分類を行い,異なるタスクにおけるメタパスの最適な重み付けを学習する。 第3に,メタパス類似性探索,メタパスに関する履歴情報,ヘテロジニアスdbscanクラスタリング法に基づく,hinsのソーシャルイベント検出および進化発見フレームワークを提案する。 実世界のストリーミングソーシャルテキストデータに関する総合的な実験を行い,様々なソーシャルイベント検出アルゴリズムと進化発見アルゴリズムを比較した。 実験の結果,提案フレームワークは他のソーシャルイベント検出手法や進化発見手法よりも優れていることがわかった。

Events are happening in real-world and real-time, which can be planned and organized for occasions, such as social gatherings, festival celebrations, influential meetings or sports activities. Social media platforms generate a lot of real-time text information regarding public events with different topics. However, mining social events is challenging because events typically exhibit heterogeneous texture and metadata are often ambiguous. In this paper, we first design a novel event-based meta-schema to characterize the semantic relatedness of social events and then build an event-based heterogeneous information network (HIN) integrating information from external knowledge base. Second, we propose a novel Pairwise Popularity Graph Convolutional Network, named as PP-GCN, based on weighted meta-path instance similarity and textual semantic representation as inputs, to perform fine-grained social event categorization and learn the optimal weights of meta-paths in different tasks. Third, we propose a streaming social event detection and evolution discovery framework for HINs based on meta-path similarity search, historical information about meta-paths, and heterogeneous DBSCAN clustering method. Comprehensive experiments on real-world streaming social text data are conducted to compare various social event detection and evolution discovery algorithms. Experimental results demonstrate that our proposed framework outperforms other alternative social event detection and evolution discovery techniques.
翻訳日:2021-04-05 14:00:30 公開日:2021-04-02
# ロボットグラスピングの実証から視覚的注意を学習する

Contrastively Learning Visual Attention as Affordance Cues from Demonstrations for Robotic Grasping ( http://arxiv.org/abs/2104.00878v1 )

ライセンス: Link先を確認
Yantian Zha, Siddhant Bhambri and Lin Guan(参考訳) 実演から手持ちを学習する従来の作業では、手持ちの角度に近づくグリッパーやプリフォームの把握など、手持ちの配置を明示的に予測する必要がある。 古典的なモーションプランナーは、そのような予測された構成を用いて軌道をサンプリングすることができる。 本研究の目的は、深層ニューラルネットワークに基づくエンドツーエンドの模倣学習フレームワークに2つの目的を統合することで、割当発見と割当ベースの政策学習のギャップを埋めることである。 心理的観点では、注意と余裕の間には密接な関係がある。 そこで,エンド・ツー・エンドのニューラルネットワークを用いて,デモントストラクタが課題をどのように達成するかを示す視覚的な注意として学習することを提案する。 そこで本研究では,シアームエンコーダと軌道デコーダからなるコントラスト学習フレームワークを提案する。 さらに、発見された余剰価格がより高額になるよう促すために、複合三重項損失を導入する。 実験結果から,3重項損失と組み合わせたモデルにより,シミュレーションロボット環境での把握成功率が最も高いことがわかった。

Conventional works that learn grasping affordance from demonstrations need to explicitly predict grasping configurations, such as gripper approaching angles or grasping preshapes. Classic motion planners could then sample trajectories by using such predicted configurations. In this work, our goal is instead to fill the gap between affordance discovery and affordance-based policy learning by integrating the two objectives in an end-to-end imitation learning framework based on deep neural networks. From a psychological perspective, there is a close association between attention and affordance. Therefore, with an end-to-end neural network, we propose to learn affordance cues as visual attention that serves as a useful indicating signal of how a demonstrator accomplishes tasks, instead of explicitly modeling affordances. To achieve this, we propose a contrastive learning framework that consists of a Siamese encoder and a trajectory decoder. We further introduce a coupled triplet loss to encourage the discovered affordance cues to be more affordance-relevant. Our experimental results demonstrate that our model with the coupled triplet loss achieves the highest grasping success rate in a simulated robot environment.
翻訳日:2021-04-05 14:00:08 公開日:2021-04-02
# クロスプロジェクト欠陥予測のための類似性に基づくインスタンス選択法の比較

A Comparison of Similarity Based Instance Selection Methods for Cross Project Defect Prediction ( http://arxiv.org/abs/2104.01024v1 )

ライセンス: Link先を確認
Seyedrebvar Hosseini and Burak Turhan(参考訳) コンテキスト: これまでの研究では、近辺(NN)情報に基づくトレーニングデータインスタンスの選択が、トレーニングデータセットの不均一性を減少させることで、プロジェクト横断欠陥予測(CPDP)のパフォーマンス向上につながることが示されている。 しかし、近傍計算は計算コストが高く、局所性センシティブハッシュ (lsh) のような近似手法は、厳密な方法と同じくらい効果的である。 Aim: CPDPのインスタンス選択方法,すなわちLSH,NNフィルタ,遺伝的インスタンス選択(GIS)を比較することを目的としている。 方法: NN-Filter と GIS のベンチマークインスタンス選択手法と LSH の性能を比較するため,PROMISE リポジトリの 13 個のデータセット上で 5 つの基本学習者による実験を行い,そのパラメータを最適化した。 結果: 統計的検査の結果, F測定成績は6群であった。 上位2グループはLSHとGISベンチマークのみを含むが、下位2グループはNN-Filter変種のみを含む。 LSHとGISは精度以上のリコールを好む。 実際、精度向上のためには、トップグループがnnフィルターの変種のみからなるテストによって、明らかに異なる3つのグループしか検出されない。 16の異なるグループが識別され、上位3つのグループは LSH メソッドのみを含み、次の6つのグループのうち4つは GIS のみであり、下位5つは NN-Filter のみを含む。 最後に、NN-FilterベンチマークはLSHベンチマークを、同じベースラーナー、チューニング、あるいは非チューニングで上回ることはない。 さらに、同じランクグループに属しないため、LSHは常に同じ学習者と設定を持つNN-Filterよりもはるかに優れている。 結論: パフォーマンスの向上と計算オーバーヘッドの減少により、LSHは有望なアプローチになります。 しかし、LSHの性能は高いリコールに基づいており、精度がNN-Filterよりも重要であると考えられる環境では考慮すべきである。

Context: Previous studies have shown that training data instance selection based on nearest neighborhood (NN) information can lead to better performance in cross project defect prediction (CPDP) by reducing heterogeneity in training datasets. However, neighborhood calculation is computationally expensive and approximate methods such as Locality Sensitive Hashing (LSH) can be as effective as exact methods. Aim: We aim at comparing instance selection methods for CPDP, namely LSH, NN-filter, and Genetic Instance Selection (GIS). Method: We conduct experiments with five base learners, optimizing their hyper parameters, on 13 datasets from PROMISE repository in order to compare the performance of LSH with benchmark instance selection methods NN-Filter and GIS. Results: The statistical tests show six distinct groups for F-measure performance. The top two group contains only LSH and GIS benchmarks whereas the bottom two groups contain only NN-Filter variants. LSH and GIS favor recall more than precision. In fact, for precision performance only three significantly distinct groups are detected by the tests where the top group is comprised of NN-Filter variants only. Recall wise, 16 different groups are identified where the top three groups contain only LSH methods, four of the next six are GIS only and the bottom five contain only NN-Filter. Finally, NN-Filter benchmarks never outperform the LSH counterparts with the same base learner, tuned or non-tuned. Further, they never even belong to the same rank group, meaning that LSH is always significantly better than NN-Filter with the same learner and settings. Conclusions: The increase in performance and the decrease in computational overhead and runtime make LSH a promising approach. However, the performance of LSH is based on high recall and in environments where precision is considered more important NN-Filter should be considered.
翻訳日:2021-04-05 13:59:44 公開日:2021-04-02
# ニューラル物理インフォームドPDEによるオフライン連続強化学習(DOCTR-LのためのSciPhy RL)

Distributional Offline Continuous-Time Reinforcement Learning with Neural Physics-Informed PDEs (SciPhy RL for DOCTR-L) ( http://arxiv.org/abs/2104.01040v1 )

ライセンス: Link先を確認
Igor Halperin(参考訳) 本稿では,高次元最適制御のための確率的ポリシを用いたオフライン連続時間強化学習(DOCTR-L)について述べる。 古典的ハミルトン・ヤコビ・ベルマン方程式(HJB)の軟分布版は半線形偏微分方程式(PDE)によって与えられる。 この「ソフトHJB方程式」は、後者が以前の最適あるいは準最適ポリシーに対応すると仮定することなく、オフラインデータから学習することができる。 ソフトなHJB方程式のデータ駆動解は、SciML(SciML)の分野で開発されたニューラルネットワークと物理インフォームドニューラルネットワークの手法を用いる。 提案されたアプローチは ‘SciPhy RL’ と呼ばれ、データからニューラルPDEを解くためにDOCTR-Lを減らす。 deep doctr-lと呼ばれるアルゴリズムは、オフラインの高次元データを1ステップで最適なポリシーに変換し、それを教師あり学習に還元する。 提案手法は,期待されるリターンと値の不確実性の両方の観点から,得られたポリシの品質管理に対する計算可能なアプローチを可能にする。

This paper addresses distributional offline continuous-time reinforcement learning (DOCTR-L) with stochastic policies for high-dimensional optimal control. A soft distributional version of the classical Hamilton-Jacobi-Bell man (HJB) equation is given by a semilinear partial differential equation (PDE). This `soft HJB equation' can be learned from offline data without assuming that the latter correspond to a previous optimal or near-optimal policy. A data-driven solution of the soft HJB equation uses methods of Neural PDEs and Physics-Informed Neural Networks developed in the field of Scientific Machine Learning (SciML). The suggested approach, dubbed `SciPhy RL', thus reduces DOCTR-L to solving neural PDEs from data. Our algorithm called Deep DOCTR-L converts offline high-dimensional data into an optimal policy in one step by reducing it to supervised learning, instead of relying on value iteration or policy iteration methods. The method enables a computable approach to the quality control of obtained policies in terms of both their expected returns and uncertainties about their values.
翻訳日:2021-04-05 13:59:14 公開日:2021-04-02
# イジングモデルダイナミクスの学習によるサンプル複雑性の指数関数的減少

Exponential Reduction in Sample Complexity with Learning of Ising Model Dynamics ( http://arxiv.org/abs/2104.00995v1 )

ライセンス: Link先を確認
Arkopal Dutt, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra(参考訳) グラフィカルモデルの構造とパラメータを学習するための通常の設定は、対応する多変量確率分布から生成される独立したサンプルが利用可能であると仮定する。 しかし、多くのモデルにおいて、それぞれのマルコフ鎖の混合時間は非常に大きく、すなわちdである。 サンプルは得られない。 動的プロセスによって生成された相関サンプルからバイナリグラフィカルモデルを再構成する問題について検討する。 相互作用スクリーニング目標と条件付き可能性損失に基づく2つの推定器のサンプル複雑性を解析した。 平衡から遠く離れた力学過程から来るサンプルの場合、サンプルの複雑さは高速に混合する力学過程と比較して指数関数的に減少する。

The usual setting for learning the structure and parameters of a graphical model assumes the availability of independent samples produced from the corresponding multivariate probability distribution. However, for many models the mixing time of the respective Markov chain can be very large and i.i.d. samples may not be obtained. We study the problem of reconstructing binary graphical models from correlated samples produced by a dynamical process, which is natural in many applications. We analyze the sample complexity of two estimators that are based on the interaction screening objective and the conditional likelihood loss. We observe that for samples coming from a dynamical process far from equilibrium, the sample complexity reduces exponentially compared to a dynamical process that mixes quickly.
翻訳日:2021-04-05 13:58:41 公開日:2021-04-02
# ニューラルアーキテクチャ検索におけるパフォーマンス予測はどの程度強力か?

How Powerful are Performance Predictors in Neural Architecture Search? ( http://arxiv.org/abs/2104.01177v1 )

ライセンス: Link先を確認
Colin White, Arber Zela, Binxin Ru, Yang Liu, Frank Hutter(参考訳) 急速に発展するニューラルネットワーク探索(NAS)の初期の手法は、何千ものニューラルネットワークを完全に訓練する必要があった。 この計算コストを極端に削減するために、神経アーキテクチャの最終性能を予測するために数十のテクニックが提案されている。 このようなパフォーマンス予測手法の成功にもかかわらず、合意された評価基準の欠如と初期化時間とクエリ時間に関する異なる制約に対する最適化のため、さまざまなテクニックが互いにどのように比較されるかはよく理解されていない。 本研究では,学習曲線の補間から重み付け,教師付き学習,「ゼロコスト」プロキシまで,31の手法を解析し,性能予測器の大規模研究を行った。 私たちは、さまざまな設定で相関およびランクベースのパフォーマンス計測をテストし、各テクニックによって予測子ベースのnasフレームワークをスピードアップする能力もテストします。 私たちの結果は、さまざまな設定で最適な予測器を推奨し、予測器の特定のファミリーを組み合わせることで、より優れた予測能力を達成し、有望な研究の方向性を開くことができることを示します。 当社のコードには31のパフォーマンス予測ライブラリがあり、https://github.com/a utoml/naslib.comから入手可能です。

Early methods in the rapidly developing field of neural architecture search (NAS) required fully training thousands of neural networks. To reduce this extreme computational cost, dozens of techniques have since been proposed to predict the final performance of neural architectures. Despite the success of such performance prediction methods, it is not well-understood how different families of techniques compare to one another, due to the lack of an agreed-upon evaluation metric and optimization for different constraints on the initialization time and query time. In this work, we give the first large-scale study of performance predictors by analyzing 31 techniques ranging from learning curve extrapolation, to weight-sharing, to supervised learning, to "zero-cost" proxies. We test a number of correlation- and rank-based performance measures in a variety of settings, as well as the ability of each technique to speed up predictor-based NAS frameworks. Our results act as recommendations for the best predictors to use in different settings, and we show that certain families of predictors can be combined to achieve even better predictive power, opening up promising research directions. Our code, featuring a library of 31 performance predictors, is available at https://github.com/a utoml/naslib.
翻訳日:2021-04-05 13:58:30 公開日:2021-04-02
# 学習された知覚に基づく制御はロバスト制御の限界にどのように影響するか?

How Are Learned Perception-Based Controllers Impacted by the Limits of Robust Control? ( http://arxiv.org/abs/2104.00827v1 )

ライセンス: Link先を確認
Jingxi Xu, Bruce Lee, Nikolai Matni, Dinesh Jayaraman(参考訳) 最適制御問題の難しさは、制御可能/可観測グミアンの最小固有値のようなシステム特性の点で古典的に特徴付けられる。 これらの特徴を,強化学習(rl)などのデータ駆動技術の普及と,入力観察が高次元画像であり,遷移ダイナミクスが未知である制御設定の文脈で再検討する。 具体的には、データ駆動型コントローラのパフォーマンスとサンプルの複雑さを予測するタスクの定量化制御と知覚的難易度は、どの程度あるのか? 筆者らは,cartpole "stick-balancing" ;問題における2つの異なる部分可観測性 -- (i)どのコントローラでも実現可能な性能の基本限界を調整できるcartpole上の1つの可視固定点の高さ,および(ii)cartpoleの深さやrgb画像から推定される固定点位置における知覚ノイズレベルを変調する。 これらの環境では, rl とシステム識別ベース $h_\infty$ の2種類の制御系を, 視覚的に推定したシステム状態を用いて実験的に検討した。 その結果,頑健な制御の基本的限界は,学習した知覚に基づく制御器のサンプル効率と性能に影響を及ぼすことがわかった。 詳細はプロジェクトのwebサイトhttps://jxu.ai/rl-vs -control-webをご覧ください。

The difficulty of optimal control problems has classically been characterized in terms of system properties such as minimum eigenvalues of controllability/obse rvability gramians. We revisit these characterizations in the context of the increasing popularity of data-driven techniques like reinforcement learning (RL), and in control settings where input observations are high-dimensional images and transition dynamics are unknown. Specifically, we ask: to what extent are quantifiable control and perceptual difficulty metrics of a task predictive of the performance and sample complexity of data-driven controllers? We modulate two different types of partial observability in a cartpole "stick-balancing" ; problem -- (i) the height of one visible fixation point on the cartpole, which can be used to tune fundamental limits of performance achievable by any controller, and by (ii) the level of perception noise in the fixation point position inferred from depth or RGB images of the cartpole. In these settings, we empirically study two popular families of controllers: RL and system identification-based $H_\infty$ control, using visually estimated system state. Our results show that the fundamental limits of robust control have corresponding implications for the sample-efficiency and performance of learned perception-based controllers. Visit our project website https://jxu.ai/rl-vs -control-web for more information.
翻訳日:2021-04-05 13:57:49 公開日:2021-04-02
# グリオーマ予後 : 形状・幾何学・臨床情報を用いた腫瘍の分別と生存予測

Glioma Prognosis: Segmentation of the Tumor and Survival Prediction using Shape, Geometric and Clinical Information ( http://arxiv.org/abs/2104.00980v1 )

ライセンス: Link先を確認
Mobarakol Islam, V Jeya Maria Jose, Hongliang Ren(参考訳) MRIによる脳腫瘍の分離は, 診断, 治療計画の改善, および腫瘍患者と健常者の違いを研究する上で重要なプロセスである。 本稿では,ハイパーカラムを用いた畳み込みニューラルネットワーク(cnn)を用いて,健常脳組織から腫瘍を分離する。 ハイパーカラムは、複数の層から畳み込み特徴を抽出することによって形成されるベクトルの集合の連結である。 提案モデルは、バッチ正規化(BN)アプローチとハイパーカラムを統合する。 BN層は、ゼロ平均および各ミニバッチの単位分散による確率勾配降下(SGD)トレーニング中の内部共変量シフトを軽減するのに役立つ。 生存予測は、セグメント化された脳腫瘍データから最初に特徴(地理、フラクタル、ヒストグラム)を抽出することによって行われる。 そして、人工ニューラルネットワーク(ANN)を用いて抽出した特徴に対して回帰を行うことで、全体の生存日数を予測する。 本モデルでは,分節化作業では腫瘍,腫瘍コア,造影腫瘍のそれぞれ89.78%,82.53%,76.54% のdiceスコアを,brats 2018 challengeの検証セットでは67.90%の生存予測タスクで達成した。 また、BraTS 2018テストデータセットでは、各セグメンテーションタスクにおいて、腫瘍全体、腫瘍コアおよび拡張腫瘍全体の87.315%、77.04%、および70.22%の平均ダイス精度が46.80%となる。

Segmentation of brain tumor from magnetic resonance imaging (MRI) is a vital process to improve diagnosis, treatment planning and to study the difference between subjects with tumor and healthy subjects. In this paper, we exploit a convolutional neural network (CNN) with hypercolumn technique to segment tumor from healthy brain tissue. Hypercolumn is the concatenation of a set of vectors which form by extracting convolutional features from multiple layers. Proposed model integrates batch normalization (BN) approach with hypercolumn. BN layers help to alleviate the internal covariate shift during stochastic gradient descent (SGD) training by zero-mean and unit variance of each mini-batch. Survival Prediction is done by first extracting features(Geometric, Fractal, and Histogram) from the segmented brain tumor data. Then, the number of days of overall survival is predicted by implementing regression on the extracted features using an artificial neural network (ANN). Our model achieves a mean dice score of 89.78%, 82.53% and 76.54% for the whole tumor, tumor core and enhancing tumor respectively in segmentation task and 67.90% in overall survival prediction task with the validation set of BraTS 2018 challenge. It obtains a mean dice accuracy of 87.315%, 77.04% and 70.22% for the whole tumor, tumor core and enhancing tumor respectively in the segmentation task and a 46.80% in overall survival prediction task in the BraTS 2018 test data set.
翻訳日:2021-04-05 13:57:27 公開日:2021-04-02
# リニアシステムは学ぶのが難しい

Linear Systems can be Hard to Learn ( http://arxiv.org/abs/2104.01120v1 )

ライセンス: Link先を確認
Anastasios Tsiamis and George J. Pappas(参考訳) 本稿では,有限サンプルレジームにおいて,システム同定が統計的に容易か難しいかを検討する。 統計的に学習し易い線形系クラスは、系次元の多項式であるサンプル複雑性を持つ。 有限サンプルレジームにおけるほとんどの先行研究は、プロセスノイズによって直接励起されるシステムに焦点を当てて、このカテゴリに属する。 線形システムクラスを統計的に学習することは、識別アルゴリズムに関係なく、少なくともシステム次元に比例する最悪のサンプル複雑性を持つ。 ミニマックス理論のツールを用いて、線形システムのクラスを学習することは困難であることを示す。 そのようなクラスは、例えば、状態間の弱い結合を持つ不活性化系や不活性化系を含む。 システムの特徴がシステムの識別可能性の難しさに根本的にどのような影響を与えるのか、という自然な疑問が生まれます。 この方向に向かって,線形システムの制御可能性指標が同定のサンプル複雑性にどのように影響するかを特徴付ける。 より具体的には、頑健に制御可能な線形系のサンプル複雑性は、可制御性指数の指数関数によって上界であることが示される。 これは、可制御性指数が小さい線形系のクラスにとって識別が簡単であり、可制御性指数が大きければ潜在的に困難であることを意味する。 本解析は,システム同定の有限サンプル解析のための最近の統計ツールと,制御可能性指数と制御可能性グラムの最小特異値とを関連付けた新しい下限に基づいている。

In this paper, we investigate when system identification is statistically easy or hard, in the finite sample regime. Statistically easy to learn linear system classes have sample complexity that is polynomial with the system dimension. Most prior research in the finite sample regime falls in this category, focusing on systems that are directly excited by process noise. Statistically hard to learn linear system classes have worst-case sample complexity that is at least exponential with the system dimension, regardless of the identification algorithm. Using tools from minimax theory, we show that classes of linear systems can be hard to learn. Such classes include, for example, under-actuated or under-excited systems with weak coupling among the states. Having classified some systems as easy or hard to learn, a natural question arises as to what system properties fundamentally affect the hardness of system identifiability. Towards this direction, we characterize how the controllability index of linear systems affects the sample complexity of identification. More specifically, we show that the sample complexity of robustly controllable linear systems is upper bounded by an exponential function of the controllability index. This implies that identification is easy for classes of linear systems with small controllability index and potentially hard if the controllability index is large. Our analysis is based on recent statistical tools for finite sample analysis of system identification as well as a novel lower bound that relates controllability index with the least singular value of the controllability Gramian.
翻訳日:2021-04-05 13:56:59 公開日:2021-04-02
# 情報幾何学によるハイブリッドおよび一般化ベイズクラム{e}r-ラオ不等式

Hybrid and Generalized Bayesian Cram\'{e}r-Rao Inequalities via Information Geometry ( http://arxiv.org/abs/2104.01061v1 )

ライセンス: Link先を確認
Kumar Vijay Mishra and M. Ashok Kumar(参考訳) 情報幾何学はリーマン幾何学の観点から統計モデルの研究である。 フィッシャー情報行列はこの枠組みにおいてリーマン計量の役割を担っている。 このツールは、Cram\'{e}r-Rao lower bound (CRLB) を得るのに役立つ。 この章では、このフレームワークをより一般的なCram\'{e}r-Rao不等式に拡張する最近の結果を要約する。 我々は eguchi の理論を czsisz\'ar $f$-divergence の一般化形式に適用してリーマン計量を得る。

Information geometry is the study of statistical models from a Riemannian geometric point of view. The Fisher information matrix plays the role of a Riemannian metric in this framework. This tool helps us obtain Cram\'{e}r-Rao lower bound (CRLB). This chapter summarizes the recent results which extend this framework to more general Cram\'{e}r-Rao inequalities. We apply Eguchi's theory to a generalized form of Czsisz\'ar $f$-divergence to obtain a Riemannian metric that, at once, is used to obtain deterministic CRLB, Bayesian CRLB, and their generalizations.
翻訳日:2021-04-05 13:56:35 公開日:2021-04-02
# Humor@IITK at SemEval-2021 Task 7: Large Language Models for Quantifying Humor and Offensiveness (英語)

Humor@IITK at SemEval-2021 Task 7: Large Language Models for Quantifying Humor and Offensiveness ( http://arxiv.org/abs/2104.00933v1 )

ライセンス: Link先を確認
Aishwarya Gupta, Avik Pal, Bholeshwar Khurana, Lakshay Tyagi, Ashutosh Modi(参考訳) ユーモアとオフセンスは、複数の単語感覚、文化知識、実践的な能力によって非常に主観的である。 したがって、ユーモラスかつ攻撃的なテキストを正確に検出することは、レコメンデーションシステムやパーソナライズドコンテンツモデレーションにおいていくつかの魅力的なユースケースを持つ。 しかしながら、広範なラベル付きデータセットがないため、この分野のほとんどの先行研究は、主観的ユーモア理解のための大規模ニューラルネットワークを探求していない。 本稿では,大規模ニューラルモデルとそのアンサンブルが,ユーモラス/オッサン検出と評価に関連する複雑さを捉えることができるかを検討する。 SemEval-2021 Task 7: HaHackathonによる実験により,このようなモデルを用いて合理的なユーモアと犯罪検知システムを開発できることが判明した。 我々のモデルはサブタスク1bで3位、残りのサブタスクのリーダーボードの上位33%に一貫してランクインしている。

Humor and Offense are highly subjective due to multiple word senses, cultural knowledge, and pragmatic competence. Hence, accurately detecting humorous and offensive texts has several compelling use cases in Recommendation Systems and Personalized Content Moderation. However, due to the lack of an extensive labeled dataset, most prior works in this domain haven't explored large neural models for subjective humor understanding. This paper explores whether large neural models and their ensembles can capture the intricacies associated with humor/offense detection and rating. Our experiments on the SemEval-2021 Task 7: HaHackathon show that we can develop reasonable humor and offense detection systems with such models. Our models are ranked third in subtask 1b and consistently ranked around the top 33% of the leaderboard for the remaining subtasks.
翻訳日:2021-04-05 13:55:32 公開日:2021-04-02
# 医療コード予測のためのマルチタスク校正アグリゲーションネットワーク

Multitask Recalibrated Aggregation Network for Medical Code Prediction ( http://arxiv.org/abs/2104.00952v1 )

ライセンス: Link先を確認
Wei Sun and Shaoxiong Ji and Erik Cambria and Pekka Marttinen(参考訳) 医療コーディングは、専門的に書かれた医療報告書を標準化されたコードに翻訳し、医療情報システムや医療保険の返済に不可欠な部分である。 トレーニングされた人間のコーダによる手動コーディングは時間がかかり、エラーが発生しやすい。 このように、特に機械学習とディープニューラルネットワークの最近の進歩に基づいて、自動コーディングアルゴリズムが開発されている。 長大でノイズの多い臨床文書のエンコードとコード関連の取得という課題を解決するため,マルチタスク対応集約ネットワークを提案する。 特にマルチタスク学習は、異なるコーディングスキーム間で情報を共有し、異なる医療コード間の依存関係をキャプチャする。 共有モジュールにおける特徴リカバリとアグリゲーションは、長い音符の表現学習を強化する。 実世界のMIMIC-IIIデータセットによる実験では、予測性能が大幅に向上した。

Medical coding translates professionally written medical reports into standardized codes, which is an essential part of medical information systems and health insurance reimbursement. Manual coding by trained human coders is time-consuming and error-prone. Thus, automated coding algorithms have been developed, building especially on the recent advances in machine learning and deep neural networks. To solve the challenges of encoding lengthy and noisy clinical documents and capturing code associations, we propose a multitask recalibrated aggregation network. In particular, multitask learning shares information across different coding schemes and captures the dependencies between different medical codes. Feature recalibration and aggregation in shared modules enhance representation learning for lengthy notes. Experiments with a real-world MIMIC-III dataset show significantly improved predictive performance.
翻訳日:2021-04-05 13:55:15 公開日:2021-04-02
# IITK@LCP at SemEval 2021 Task 1: Classification for Lexical Complexity Regression Task (英語)

IITK@LCP at SemEval 2021 Task 1: Classification for Lexical Complexity Regression Task ( http://arxiv.org/abs/2104.01046v1 )

ライセンス: Link先を確認
Neil Rajiv Shirude, Sagnik Mukherjee, Tushar Shandhilya, Ananta Mukherjee, Ashutosh Modi(参考訳) 本稿では,SemEval 2021 Task 1: Lexical Complexity Predictionへの貢献について述べる。 提案手法では,ELECTRAモデルを活用し,データアノテーションスキームのミラー化を試みる。 タスクは回帰タスクであるが、いくつかの分類と回帰モデルの集合として扱うことができることを示す。 このやや逆直観的なアプローチは、サブタスク1では0.0654、サブタスク2では0.0811のMAEスコアを達成した。 さらに,Gross-BERTの弱い監視信号の概念を用いて,サブタスク1におけるMAEスコアを大幅に改善した。

This paper describes our contribution to SemEval 2021 Task 1: Lexical Complexity Prediction. In our approach, we leverage the ELECTRA model and attempt to mirror the data annotation scheme. Although the task is a regression task, we show that we can treat it as an aggregation of several classification and regression models. This somewhat counter-intuitive approach achieved an MAE score of 0.0654 for Sub-Task 1 and MAE of 0.0811 on Sub-Task 2. Additionally, we used the concept of weak supervision signals from Gloss-BERT in our work, and it significantly improved the MAE score in Sub-Task 1.
翻訳日:2021-04-05 13:55:03 公開日:2021-04-02
# SemEval-2021 Task 9: Reasoning over table with intermediate pre-training

TAPAS at SemEval-2021 Task 9: Reasoning over tables with intermediate pre-training ( http://arxiv.org/abs/2104.01099v1 )

ライセンス: Link先を確認
Thomas M\"uller, Julian Martin Eisenschlos, Syrine Krichene(参考訳) 本稿では,表による表の確認と証拠発見に関する共有タスク(SeemEval 2021 Task 9, Wang et al)に対するTAPASの貢献について述べる。 (2021)). SEM TAB FACT Task A は、ある文が与えられた表の内容によって関連づけられたり、中立的であったり、否定されたりするかどうかを認識するための分類タスクである。 我々はEeisenschlos et alのバイナリTAPASモデルを採用する。 (2020)。 文が中性か非中性かを予測する第1のモデルと、それに関連するか反感があるかを予測する第2のモデルである。 共有タスクトレーニングセットは、関連する例や反証例のみを含むため、第1モデルをトレーニングするための人工中立例を生成する。 どちらのモデルもMASKLMの目的、中間対実データ、合成データ (Eisenschlos et al., 2020) とTABFACT (Chen et al., 2020) を用いて事前訓練されている。 人工中立例は第1モデルのトレーニングに幾らか効果的であることが分かり、過半数のベースラインの60.47に対して68.03のテストF1を達成した。 第2段階では、中間データとTABFACTによる事前学習は、MASKLMによる事前学習(68.03 vs 57.01)よりも改善する。

We present the TAPAS contribution to the Shared Task on Statement Verification and Evidence Finding with Tables (SemEval 2021 Task 9, Wang et al. (2021)). SEM TAB FACT Task A is a classification task of recognizing if a statement is entailed, neutral or refuted by the content of a given table. We adopt the binary TAPAS model of Eisenschlos et al. (2020) to this task. We learn two binary classification models: A first model to predict if a statement is neutral or non-neutral and a second one to predict if it is entailed or refuted. As the shared task training set contains only entailed or refuted examples, we generate artificial neutral examples to train the first model. Both models are pre-trained using a MASKLM objective, intermediate counter-factual and synthetic data (Eisenschlos et al., 2020) and TABFACT (Chen et al., 2020), a large table entailment dataset. We find that the artificial neutral examples are somewhat effective at training the first model, achieving 68.03 test F1 versus the 60.47 of a majority baseline. For the second stage, we find that the pre-training on the intermediate data and TABFACT improves the results over MASKLM pre-training (68.03 vs 57.01).
翻訳日:2021-04-05 13:54:52 公開日:2021-04-02
# リアルな影で高忠実な表情を照らす

Towards High Fidelity Face Relighting with Realistic Shadows ( http://arxiv.org/abs/2104.00825v1 )

ライセンス: Link先を確認
Andrew Hou, Ze Zhang, Michel Sarkis, Ning Bi, Yiying Tong, Xiaoming Liu(参考訳) 既存の顔のリライト法は、被写体の局所的な顔の詳細を維持し、被写体、特に硬い影を正確に除去し合成する2つの問題に悩まされる。 両問題を解決する新しい深面照明法を提案する。 提案手法は,光源画像と対象画像との比(商)画像を所望の照明で予測し,局所的な顔の詳細を維持しながら画像のリライトを可能にする。 トレーニング中、我々のモデルは、高いコントラストのシャドウ境界を強調するために推定されたシャドウマスクを用いて、シャドウを正確に修正することを学ぶ。 さらに,画像中の周囲光強度を推定するためにシャドウマスクを用いる手法を導入し,グローバル光強度の異なるトレーニングにおいて,複数のデータセットを活用できるようにした。 マルチPIEおよびFFHQデータセットの定量的および定性的な評価により,提案手法が被験者の局所的な顔の詳細を忠実に維持し,最先端の顔照明性能を達成しつつ,ハードシャドウを正確に処理できることを実証した。

Existing face relighting methods often struggle with two problems: maintaining the local facial details of the subject and accurately removing and synthesizing shadows in the relit image, especially hard shadows. We propose a novel deep face relighting method that addresses both problems. Our method learns to predict the ratio (quotient) image between a source image and the target image with the desired lighting, allowing us to relight the image while maintaining the local facial details. During training, our model also learns to accurately modify shadows by using estimated shadow masks to emphasize on the high-contrast shadow borders. Furthermore, we introduce a method to use the shadow mask to estimate the ambient light intensity in an image, and are thus able to leverage multiple datasets during training with different global lighting intensities. With quantitative and qualitative evaluations on the Multi-PIE and FFHQ datasets, we demonstrate that our proposed method faithfully maintains the local facial details of the subject and can accurately handle hard shadows while achieving state-of-the-art face relighting performance.
翻訳日:2021-04-05 13:54:11 公開日:2021-04-02
# TFill: Transformerベースのアーキテクチャによる画像補完

TFill: Image Completion via a Transformer-Based Architecture ( http://arxiv.org/abs/2104.00845v1 )

ライセンス: Link先を確認
Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai(参考訳) 大きなマスクを用いた高品質な画像補完には,遠隔コンテキストの橋渡しが重要である。 より深いまたは大きな受容野(RF)の畳み込みによってこれを試みようとする従来の方法は、近隣の相互作用の支配から逃れることはできない。 本稿では,画像補完を無方向シーケンス-シーケンス予測タスクとして扱い,トランスを展開してエンコーダの長距離依存性を第1フェーズで直接キャプチャする手法を提案する。 重要な点として,トークン表現に小かつ重複しない制限付きcnnを用い,大きなrfを使用する場合,暗黙的に隣接トークンを結合することなく,トランスフォーマがすべての層において同じ重要性を持つ長距離コンテキスト関係を明示的にモデル化することを可能にする。 第2のフェーズでは、可視領域と生成領域間の外観整合性を改善するために、遠隔的特徴をより有効に活用し、標準的注意力の影響を避けるために、新しい注意認識層(AAL)を導入する。 全体としては、いくつかのデータセットの最先端手法よりも優れた性能を示す。

Bridging distant context interactions is important for high quality image completion with large masks. Previous methods attempting this via deep or large receptive field (RF) convolutions cannot escape from the dominance of nearby interactions, which may be inferior. In this paper, we propose treating image completion as a directionless sequence-to-sequence prediction task, and deploy a transformer to directly capture long-range dependence in the encoder in a first phase. Crucially, we employ a restrictive CNN with small and non-overlapping RF for token representation, which allows the transformer to explicitly model the long-range context relations with equal importance in all layers, without implicitly confounding neighboring tokens when larger RFs are used. In a second phase, to improve appearance consistency between visible and generated regions, a novel attention-aware layer (AAL) is introduced to better exploit distantly related features and also avoid the insular effect of standard attention. Overall, extensive experiments demonstrate superior performance compared to state-of-the-art methods on several datasets.
翻訳日:2021-04-05 13:53:51 公開日:2021-04-02
# SDAN:光ズーム学習のための正方形変形可能なアライメントネットワーク

SDAN: Squared Deformable Alignment Network for Learning Misaligned Optical Zoom ( http://arxiv.org/abs/2104.00848v1 )

ライセンス: Link先を確認
Kangfu Mei, Shenglong Ye, Rui Huang(参考訳) ディープニューラルネットワーク(DNN)ベースの超解像アルゴリズムは生成した画像の品質を大幅に改善した。 しかし、これらのアルゴリズムは、光学ズームの誤りを学習することの難しさから、現実世界の超解像問題を扱う際に重要な成果物を生じることが多い。 本稿では,この問題に対処する正方形変形性アライメントネットワーク(SDAN)を提案する。 我々のネットワークは、畳み込みカーネルの2乗オフセットを学習し、オフセットに基づいて修正畳み込みウィンドウの機能を整列する。 したがって、ミスアライメントは、抽出されたアライメントされた特徴によって最小化される。 バニラ変形可能な畳み込みネットワーク(dcn)で使用される点ごとのオフセットとは異なり、提案する二乗オフセットはオフセット学習を加速するだけでなく、少ないパラメータで生成品質を向上させる。 さらに,学習したオフセットの精度を高めるために,効率的なクロスパッキング注意層を提案する。 オフセット学習の受容領域を拡大し、低解像度画像と参照画像との間の空間接続を抽出する能力を高めるために、パッキングとアンパック操作を利用する。 包括的実験により、計算効率と現実的な詳細の両方において、他の最先端手法よりも優れた方法が示される。

Deep Neural Network (DNN) based super-resolution algorithms have greatly improved the quality of the generated images. However, these algorithms often yield significant artifacts when dealing with real-world super-resolution problems due to the difficulty in learning misaligned optical zoom. In this paper, we introduce a Squared Deformable Alignment Network (SDAN) to address this issue. Our network learns squared per-point offsets for convolutional kernels, and then aligns features in corrected convolutional windows based on the offsets. So the misalignment will be minimized by the extracted aligned features. Different from the per-point offsets used in the vanilla Deformable Convolutional Network (DCN), our proposed squared offsets not only accelerate the offset learning but also improve the generation quality with fewer parameters. Besides, we further propose an efficient cross packing attention layer to boost the accuracy of the learned offsets. It leverages the packing and unpacking operations to enlarge the receptive field of the offset learning and to enhance the ability of extracting the spatial connection between the low-resolution images and the referenced images. Comprehensive experiments show the superiority of our method over other state-of-the-art methods in both computational efficiency and realistic details.
翻訳日:2021-04-05 13:53:34 公開日:2021-04-02
# 各種画像翻訳課題における空間相関損失

The Spatially-Correlativ e Loss for Various Image Translation Tasks ( http://arxiv.org/abs/2104.00854v1 )

ライセンス: Link先を確認
Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai(参考訳) 空間的相関損失は,空間構造の整合性を保ちつつ,不対像画像(I2I)翻訳時の外観変化を抑えるのに有効である。 これまではピクセルレベルのサイクル整合性や特徴レベルの一致損失を用いてこれを試みてきたが、これらの損失のドメイン固有の性質は大きなドメインギャップをまたいだ翻訳を妨げる。 そこで我々は,シーン構造を定義する手段として,自己相似性の空間パターンを利用する。 我々の空間相関損失は、領域の外観ではなく、画像内の空間関係を捉えることのみを目的としている。 また,各翻訳タスクに対して空間相関マップを明示的に学習する自己教師型学習手法を提案する。 I2I翻訳の3つのモードすべてにおいて,ベースラインモデルに対して,単一モーダル,マルチモーダル,さらには単一イメージ翻訳において,明確な改善が見られた。 この新たな損失は、既存のネットワークアーキテクチャに容易に統合できるため、幅広い適用性が期待できる。

We propose a novel spatially-correlativ e loss that is simple, efficient and yet effective for preserving scene structure consistency while supporting large appearance changes during unpaired image-to-image (I2I) translation. Previous methods attempt this by using pixel-level cycle-consistency or feature-level matching losses, but the domain-specific nature of these losses hinder translation across large domain gaps. To address this, we exploit the spatial patterns of self-similarity as a means of defining scene structure. Our spatially-correlativ e loss is geared towards only capturing spatial relationships within an image rather than domain appearance. We also introduce a new self-supervised learning method to explicitly learn spatially-correlativ e maps for each specific translation task. We show distinct improvement over baseline models in all three modes of unpaired I2I translation: single-modal, multi-modal, and even single-image translation. This new loss can easily be integrated into existing network architectures and thus allows wide applicability.
翻訳日:2021-04-05 13:53:14 公開日:2021-04-02
# 畳み込みニューラルネットワークによるリサイクル可能な物体の推定

Inference of Recyclable Objects with Convolutional Neural Networks ( http://arxiv.org/abs/2104.00868v1 )

ライセンス: Link先を確認
Jaime Caballero, Francisco Vergara, Randal Miranda, Jos\'e Serrac\'in(参考訳) 過去数十年の人口増加により、年間約210億トンの都市ごみが生産されている。 現在の廃棄物管理システムは, 廃棄物の処理・利用に十分な解決策を提供できない。 リサイクルと再利用は問題の解決法として証明されているが, 大規模廃棄物の分離は面倒な作業であり, 小規模では公衆の意識に依存する。 本研究は畳み込みニューラルネットワークとコンピュータビジョンを用いて固形廃棄物選別の自動化ツールを開発した。 Fotini10kデータセットは、1万枚以上の画像が「プラスチックボトル」、「アルミニウム缶」、「紙と段ボール」のカテゴリに分けられている。 ResNet50、MobileNetV1、MobileNetV2は、Fotini10kデータセット上のImageNet重みで再トレーニングされた。 その結果、3つのネットワークすべてでテストデータセットでトップ1の99%の精度が得られた。 モバイルアプリケーションにおけるこれらのネットワークの利用の可能性を探るため、3つのネットはfloat16重みで定量化された。 これにより、raspberry piの2倍の低さとコンピュータ処理ユニットの3倍の低さの推論が可能となった。 また、ネットワークのサイズを半分に縮小することも可能であった。 トップ1の精度を99%の精度で3つのネットワークで維持した。 MobileNetV2をint-8に量子化すると、トップ1の精度は97%に達した。

Population growth in the last decades has resulted in the production of about 2.01 billion tons of municipal waste per year. The current waste management systems are not capable of providing adequate solutions for the disposal and use of these wastes. Recycling and reuse have proven to be a solution to the problem, but large-scale waste segregation is a tedious task and on a small scale it depends on public awareness. This research used convolutional neural networks and computer vision to develop a tool for the automation of solid waste sorting. The Fotini10k dataset was constructed, which has more than 10,000 images divided into the categories of 'plastic bottles', 'aluminum cans' and 'paper and cardboard'. ResNet50, MobileNetV1 and MobileNetV2 were retrained with ImageNet weights on the Fotini10k dataset. As a result, top-1 accuracy of 99% was obtained in the test dataset with all three networks. To explore the possible use of these networks in mobile applications, the three nets were quantized in float16 weights. By doing so, it was possible to obtain inference times twice as low for Raspberry Pi and three times as low for computer processing units. It was also possible to reduce the size of the networks by half. When quantizing the top-1 accuracy of 99% was maintained with all three networks. When quantizing MobileNetV2 to int-8, it obtained a top-1 accuracy of 97%.
翻訳日:2021-04-05 13:52:55 公開日:2021-04-02
# クラスインクリメンタルセマンティクスセグメンテーションのためのハーフリアルハーフフェイク蒸留

Half-Real Half-Fake Distillation for Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2104.00875v1 )

ライセンス: Link先を確認
Zilong Huang, Wentian Hao, Xinggang Wang, Mingyuan Tao, Jianqiang Huang, Wenyu Liu, Xian-Sheng Hua(参考訳) セマンティックセグメンテーションの成功にもかかわらず、畳み込みニューラルネットワークはインクリメンタルラーニングには不適であり、新しいクラスとしてオリジナルのセグメンテーションモデルを適用するが、初期トレーニングデータは保持されない。 実際、彼らは壊滅的な 忘れられる問題に弱いのです 我々は、ランダムノイズから入力画像を合成するために、訓練されたセグメンテーションネットワークを「反転」することでこの問題に対処しようとする。 手動で詳細な画素分割マップの設定を避けるため,画像レベルラベルを用いて画像の合成を行うSegInversionを提案する。 合成画像の多様性を高めるため、SegInversionにはScale-Aware Aggregationモジュールが組み込まれ、合成オブジェクトのスケール(画素数)を制御する。 新しいクラスの実際の画像とともに、合成された画像は蒸留ベースのフレームワークに入力され、新しいセグメンテーションモデルが学習済みのクラスに関する情報を保持しながら、新しいクラスを学ぶために現在のモデルを更新する。 提案手法は他のインクリメンタル学習手法を大幅に上回り,pascal voc 2012 および ade20k データセットで最先端の性能を得る。 コードとモデルは公開される予定だ。

Despite their success for semantic segmentation, convolutional neural networks are ill-equipped for incremental learning, \ie, adapting the original segmentation model as new classes are available but the initial training data is not retained. Actually, they are vulnerable to catastrophic forgetting problem. We try to address this issue by "inverting" the trained segmentation network to synthesize input images starting from random noise. To avoid setting detailed pixel-wise segmentation maps as the supervision manually, we propose the SegInversion to synthesize images using the image-level labels. To increase the diversity of synthetic images, the Scale-Aware Aggregation module is integrated into SegInversion for controlling the scale (the number of pixels) of synthetic objects. Along with real images of new classes, the synthesized images will be fed into the distillation-based framework to train the new segmentation model which retains the information about previously learned classes, whilst updating the current model to learn the new ones. The proposed method significantly outperforms other incremental learning methods and obtains state-of-the-art performance on the PASCAL VOC 2012 and ADE20K datasets. The code and models will be made publicly available.
翻訳日:2021-04-05 13:52:36 公開日:2021-04-02
# S2R-DepthNet: 一般化可能な深さ固有構造表現の学習

S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation ( http://arxiv.org/abs/2104.00877v1 )

ライセンス: Link先を確認
Xiaotian Chen, Yuwang Wang, Xuejin Chen, Wenjun Zeng(参考訳) 人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。 我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。 我々のS2R-DepthNet(Synthet ic to Real DepthNet)は、合成データでのみ訓練されているにもかかわらず、実世界のデータを直接見えないように適切に一般化することができる。 S2R-DepthNetは、画像からドメイン不変な構造表現を抽出する構造抽出(STE)モジュールと、画像をドメイン不変な構造とドメイン固有なスタイルコンポーネントに切り離すことにより、画像からドメイン不変な構造表現を抽出する構造抽出(STE)モジュールと、奥行き推定と一般化を改善するために、タスク固有知識を学習するDSAモジュールと、深度固有表現から深度を予測する深さ予測モジュール(DP)から構成される。 実世界の画像にアクセスできなければ、トレーニングにターゲットドメインの実世界イメージを使用する最先端の教師なしドメイン適応メソッドよりも優れています。 さらに,少量のラベル付き実世界のデータを使用する場合,半教師付き環境下での最先端の性能を実現する。

Human can infer the 3D geometry of a scene from a sketch instead of a realistic image, which indicates that the spatial structure plays a fundamental role in understanding the depth of scenes. We are the first to explore the learning of a depth-specific structural representation, which captures the essential feature for depth estimation and ignores irrelevant style information. Our S2R-DepthNet (Synthetic to Real DepthNet) can be well generalized to unseen real-world data directly even though it is only trained on synthetic data. S2R-DepthNet consists of: a) a Structure Extraction (STE) module which extracts a domaininvariant structural representation from an image by disentangling the image into domain-invariant structure and domain-specific style components, b) a Depth-specific Attention (DSA) module, which learns task-specific knowledge to suppress depth-irrelevant structures for better depth estimation and generalization, and c) a depth prediction module (DP) to predict depth from the depth-specific representation. Without access of any real-world images, our method even outperforms the state-of-the-art unsupervised domain adaptation methods which use real-world images of the target domain for training. In addition, when using a small amount of labeled real-world data, we achieve the state-ofthe-art performance under the semi-supervised setting.
翻訳日:2021-04-05 13:52:15 公開日:2021-04-02
# 長尾物体検出のための適応クラス抑制損失

Adaptive Class Suppression Loss for Long-Tail Object Detection ( http://arxiv.org/abs/2104.00885v1 )

ライセンス: Link先を確認
Tong Wang, Yousong Zhu, Chaoyang Zhao, Wei Zeng, Jinqiao Wang and Ming Tang(参考訳) 大規模語彙オブジェクト検出タスクの長期分布問題に対処するため、既存の手法は通常、カテゴリ全体を複数のグループに分割し、異なる戦略で各グループを扱います。 これらの方法は以下の2つの問題をもたらす。 1つは、類似したサイズの隣接カテゴリ間のトレーニングの不整合であり、もう1つは、学習モデルは、いくつかの見出しカテゴリと意味的に類似した尾のカテゴリに対する識別の欠如である。 本稿では,上記の問題に効果的に取り組むための適応型クラス抑圧損失(acsl)を考案し,テールカテゴリの検出性能を向上させる。 具体的には,手動グルーピングの限界を破って,ロングテール分布を分析するための統計自由視点を提案する。 この観点から,acslは各クラスの各サンプルの抑制勾配を適応的に調整し,トレーニング一貫性を確保し,稀なカテゴリの識別を促進する。 LVISとOpen Imagesのロングテールデータセットに関する大規模な実験は、我々のACSLがResNet50-FPNで5.18%と5.2%の改善を達成し、新しい最先端の技術を設定していることを示している。 コードとモデルはhttps://github.com/C ASIA-IVA-Lab/ACSLで入手できる。

To address the problem of long-tail distribution for the large vocabulary object detection task, existing methods usually divide the whole categories into several groups and treat each group with different strategies. These methods bring the following two problems. One is the training inconsistency between adjacent categories of similar sizes, and the other is that the learned model is lack of discrimination for tail categories which are semantically similar to some of the head categories. In this paper, we devise a novel Adaptive Class Suppression Loss (ACSL) to effectively tackle the above problems and improve the detection performance of tail categories. Specifically, we introduce a statistic-free perspective to analyze the long-tail distribution, breaking the limitation of manual grouping. According to this perspective, our ACSL adjusts the suppression gradients for each sample of each class adaptively, ensuring the training consistency and boosting the discrimination for rare categories. Extensive experiments on long-tail datasets LVIS and Open Images show that the our ACSL achieves 5.18% and 5.2% improvements with ResNet50-FPN, and sets a new state of the art. Code and models are available at https://github.com/C ASIA-IVA-Lab/ACSL.
翻訳日:2021-04-05 13:51:47 公開日:2021-04-02
# 複数の頭部が1つより優れている:複数の局所化エキスパートによるFew-shot Font生成

Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts ( http://arxiv.org/abs/2104.00887v1 )

ライセンス: Link先を確認
Song Park, Sanghyuk Chun, Junbum Cha, Bado Lee, Hyunjung Shim(参考訳) 複数ショットフォント生成(FFG)法は2つの目的を満たす必要がある: 生成した画像は、対象文字のグローバルな構造を保存し、多様な局所参照スタイルを示す。 既存のffgメソッドは、普遍表現スタイルを抽出するか、複数のコンポーネント毎のスタイル表現を抽出することによって、コンテンツとスタイルを分離することを目指している。 しかし、以前の手法では様々なローカルスタイルをキャプチャできなかったり、未知のコンポーネントを持つ文字に一般化できなかったりした。 この問題を軽減するために,複数局所化エキスパートFew-shot Font Generation Network (MX-Font) という新しいFFG手法を提案する。 MX-Fontはコンポーネントラベルに明示的に規定されていない複数のスタイルの特徴を抽出し、複数の専門家によって自動的に異なるローカル概念、例えば左サイドのサブグリフを表す。 複数の専門家により、mx-fontは様々な局所的な概念を捉え、見当たらない言語への一般化を示すことができる。 トレーニング中、各専門家が異なるローカル概念に特化するようガイドするために、コンポーネントラベルを弱い監督として使用します。 グラフマッチング問題として,各専門家にコンポーネント割り当て問題を定式化し,ハンガリーアルゴリズムを用いて解く。 また,コンテンツの独立性の喪失と,コンテンツスタイルの敵意の喪失を,コンテンツスタイルの絡み合いを強要する。 我々の実験では、MX-Fontは、中国の世代や、中国語から韓国語への異言語間のFFG手法よりも優れています。 ソースコードはhttps://github.com/c lovaai/mxfontで入手できる。

A few-shot font generation (FFG) method has to satisfy two objectives: the generated images should preserve the underlying global structure of the target character and present the diverse local reference style. Existing FFG methods aim to disentangle content and style either by extracting a universal representation style or extracting multiple component-wise style representations. However, previous methods either fail to capture diverse local styles or cannot be generalized to a character with unseen components, e.g., unseen language systems. To mitigate the issues, we propose a novel FFG method, named Multiple Localized Experts Few-shot Font Generation Network (MX-Font). MX-Font extracts multiple style features not explicitly conditioned on component labels, but automatically by multiple experts to represent different local concepts, e.g., left-side sub-glyph. Owing to the multiple experts, MX-Font can capture diverse local concepts and show the generalizability to unseen languages. During training, we utilize component labels as weak supervision to guide each expert to be specialized for different local concepts. We formulate the component assign problem to each expert as the graph matching problem, and solve it by the Hungarian algorithm. We also employ the independence loss and the content-style adversarial loss to impose the content-style disentanglement. In our experiments, MX-Font outperforms previous state-of-the-art FFG methods in the Chinese generation and cross-lingual, e.g., Chinese to Korean, generation. Source code is available at https://github.com/c lovaai/mxfont.
翻訳日:2021-04-05 13:51:26 公開日:2021-04-02
# hvpr:単段3次元物体検出のためのハイブリッドvoxel-point表現

HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection ( http://arxiv.org/abs/2104.00902v1 )

ライセンス: Link先を確認
Jongyoun Noh, Sanghoon Lee, Bumsub Ham(参考訳) 我々は,3次元物体検出,すなわち点雲から3次元物体境界ボックスを推定する問題に対処する。 3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。 voxelベースの機能は抽出に効率的だが、粒度の細かいオブジェクトの3d構造は保存できない。 一方、ポイントベースの特徴は3D構造をより正確に表現するが、これらの特徴の抽出は計算的に高価である。 本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。 そこで本研究では,両機能を1つの3次元表現に効果的かつ効率的に統合する新しい畳み込みニューラルネットワーク(cnn)アーキテクチャであるhvprを提案する。 具体的には,ポイントベースの機能をメモリモジュールで拡張し,計算コストを削減する。 次に、各ボクセルベースとセマンティックに類似したメモリの特徴を集約し、擬似画像の形でハイブリッドな3D表現を得ることにより、単一のステージで効率的に3Dオブジェクトをローカライズする。 また,点雲のスパースパターンと不規則パターンを考慮した大規模特徴を抽出するAttentive Multi-scale Feature Module (AMFM)を提案する。 KITTIデータセットの実験結果は、我々のアプローチの有効性と効率を実証し、速度と精度の点でより良い妥協を達成している。

We address the problem of 3D object detection, that is, estimating 3D object bounding boxes from point clouds. 3D object detection methods exploit either voxel-based or point-based features to represent 3D objects in a scene. Voxel-based features are efficient to extract, while they fail to preserve fine-grained 3D structures of objects. Point-based features, on the other hand, represent the 3D structures more accurately, but extracting these features is computationally expensive. We introduce in this paper a novel single-stage 3D detection method having the merit of both voxel-based and point-based features. To this end, we propose a new convolutional neural network (CNN) architecture, dubbed HVPR, that integrates both features into a single 3D representation effectively and efficiently. Specifically, we augment the point-based features with a memory module to reduce the computational cost. We then aggregate the features in the memory, semantically similar to each voxel-based one, to obtain a hybrid 3D representation in a form of a pseudo image, allowing to localize 3D objects in a single stage efficiently. We also propose an Attentive Multi-scale Feature Module (AMFM) that extracts scale-aware features considering the sparse and irregular patterns of point clouds. Experimental results on the KITTI dataset demonstrate the effectiveness and efficiency of our approach, achieving a better compromise in terms of speed and accuracy.
翻訳日:2021-04-05 13:50:58 公開日:2021-04-02
# 要素ワイドグレーディエントスケーリングによるネットワーク量子化

Network Quantization with Element-wise Gradient Scaling ( http://arxiv.org/abs/2104.00903v1 )

ライセンス: Link先を確認
Junghyup Lee, Dohyung Kim, Bumsub Ham(参考訳) ネットワーク量子化は、ウェイトと/またはアクティベーションのビット幅を減らすことを目的としている。 ほとんどの方法は、ストレートスルー推定器(STE)を用いて量子化されたネットワークを訓練し、離散化器の微分(すなわち円関数)を恒等関数に置き換えることでゼロ段階の問題を回避する。 STEを利用した量子化ネットワークは良好な性能を示したが、STEは離散化器の入力と出力の離散化誤差を考慮せずに、単純に同じ勾配を伝播する。 本稿では,steの代替として単純かつ効果的な要素方向勾配スケーリング(ewgs)を提案し,安定性と精度の観点からsteよりも優れた量子化ネットワークを訓練する。 離散化器出力の勾配が与えられると、ewgsは適応的に各勾配要素をスケールアップまたはダウンし、スケールド勾配を離散化器入力の1つとして、バックプロパゲーションを介して量子化されたネットワークを訓練する。 各勾配要素の符号と、離散化器の連続入力と離散出力の誤差の両方に応じてスケーリングを行う。 ネットワークのヘッセン情報を用いてスケーリング係数を適応的に調整する。 CIFAR-10 や ImageNet などの画像分類データセットに対して,幅広いビット幅環境下での多様なネットワークアーキテクチャを用いた実験を行い,提案手法の有効性を実証した。

Network quantization aims at reducing bit-widths of weights and/or activations, particularly important for implementing deep neural networks with limited hardware resources. Most methods use the straight-through estimator (STE) to train quantized networks, which avoids a zero-gradient problem by replacing a derivative of a discretizer (i.e., a round function) with that of an identity function. Although quantized networks exploiting the STE have shown decent performance, the STE is sub-optimal in that it simply propagates the same gradient without considering discretization errors between inputs and outputs of the discretizer. In this paper, we propose an element-wise gradient scaling (EWGS), a simple yet effective alternative to the STE, training a quantized network better than the STE in terms of stability and accuracy. Given a gradient of the discretizer output, EWGS adaptively scales up or down each gradient element, and uses the scaled gradient as the one for the discretizer input to train quantized networks via backpropagation. The scaling is performed depending on both the sign of each gradient element and an error between the continuous input and discrete output of the discretizer. We adjust a scaling factor adaptively using Hessian information of a network. We show extensive experimental results on the image classification datasets, including CIFAR-10 and ImageNet, with diverse network architectures under a wide range of bit-width settings, demonstrating the effectiveness of our method.
翻訳日:2021-04-05 13:50:37 公開日:2021-04-02
# 弱教師付きセマンティックセグメンテーションにおけるバックグラウンドアウェアポーリングとノイズアウェアロス

Background-Aware Pooling and Noise-Aware Loss for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2104.00905v1 )

ライセンス: Link先を確認
Youngmin Oh, Beomjun Kim, Bumsub Ham(参考訳) 本稿では,境界ボックスアノテーションを用いたwsss(weakly-supervis ed semantic segmentation)の問題に対処する。 オブジェクト境界ボックスは、対応するオブジェクトをセグメンテーションするのによい指標であるが、オブジェクトの境界を指定せず、セグメンテーションのために畳み込みニューラルネットワーク(CNN)を訓練するのは困難である。 背景領域は画像内の一部で知覚的に一貫したものであり,対象境界ボックス内の前景領域と背景領域を識別するために利用することができる。 そこで本研究では,注意マップを用いた境界ボックス内におけるフォアグラウンド機能の集約に重点を置く,background-aware pooling (bap) と呼ばれる新しいプーリング手法を提案する。 これにより、セマンティックセグメンテーションのためにCNNを訓練するための高品質な擬似セグメンテーションラベルを抽出できるが、ラベルには特にオブジェクト境界におけるノイズが含まれている。 この問題に対処するために,ネットワークが不正なラベルに影響を受けにくくするノイズ認識損失(NAL)も導入する。 実験の結果,PASCAL VOC 2012データセットでは,擬似ラベルを用いた学習が,最先端の手法や半教師付き手法よりも優れており,NALはさらなる性能向上を図っている。

We address the problem of weakly-supervised semantic segmentation (WSSS) using bounding box annotations. Although object bounding boxes are good indicators to segment corresponding objects, they do not specify object boundaries, making it hard to train convolutional neural networks (CNNs) for semantic segmentation. We find that background regions are perceptually consistent in part within an image, and this can be leveraged to discriminate foreground and background regions inside object bounding boxes. To implement this idea, we propose a novel pooling method, dubbed background-aware pooling (BAP), that focuses more on aggregating foreground features inside the bounding boxes using attention maps. This allows to extract high-quality pseudo segmentation labels to train CNNs for semantic segmentation, but the labels still contain noise especially at object boundaries. To address this problem, we also introduce a noise-aware loss (NAL) that makes the networks less susceptible to incorrect labels. Experimental results demonstrate that learning with our pseudo labels already outperforms state-of-the-art weakly- and semi-supervised methods on the PASCAL VOC 2012 dataset, and the NAL further boosts the performance.
翻訳日:2021-04-05 13:50:12 公開日:2021-04-02
# aaformer: 人物再識別のための自動アライメントトランス

AAformer: Auto-Aligned Transformer for Person Re-Identification ( http://arxiv.org/abs/2104.00921v1 )

ライセンス: Link先を確認
Kuan Zhu, Haiyun Guo, Shiliang Zhang, Yaowei Wang, Gaopan Huang, Honglin Qiao, Jing Liu, Jinqiao Wang, Ming Tang(参考訳) transformerは、画像分類やオブジェクト検出といった多くのビジョンタスクにおいて、畳み込みアーキテクチャよりも優れています。 しかし、明示的なアライメント機構が欠如していることは、ポーズ/ビューポイントのバリエーションなどによって生じる必然的なミスアライメントの問題がある、人物の再識別(re-ID)の能力を制限する。 一方,畳み込みニューラルネットワークのアライメントパラダイムは,本実験ではトランスフォーマーではうまく機能しない。 そこで本研究では,部分表現を学習するための「部分トークン」の学習可能なベクトルを追加し,部分アライメントを自己注意に組み込むことにより,トランスフォーマーの新しいアライメントフレームワークを開発する。 部分トークンはパッチ埋め込みのサブセットとのみ相互作用し、このサブセットを表現することを学ぶ。 このフレームワークに基づいて、同じ意味論のパッチ埋め込みを実行時に同一部分トークンに適応的に割り当てるオンライン自動調整変換器(AAformer)を設計する。 部分トークンはパートプロトタイプと見なすことができ、Sinkhorn-Knoppアルゴリズムの高速な変種がパッチ埋め込みをオンラインにクラスタリングするために使用される。 AAformerは、部分アライメントと部分表現の両方を同時に学習するための新しい原則の定式化と見なすことができる。 広範囲な実験により、AAformer の様々な最先端 CNN 法に対する有効性と優位性が検証された。 私たちのコードはリリースされます。

Transformer is showing its superiority over convolutional architectures in many vision tasks like image classification and object detection. However, the lacking of an explicit alignment mechanism limits its capability in person re-identification (re-ID), in which there are inevitable misalignment issues caused by pose/viewpoints variations, etc. On the other hand, the alignment paradigm of convolutional neural networks does not perform well in Transformer in our experiments. To address this problem, we develop a novel alignment framework for Transformer through adding the learnable vectors of "part tokens" to learn the part representations and integrating the part alignment into the self-attention. A part token only interacts with a subset of patch embeddings and learns to represent this subset. Based on the framework, we design an online Auto-Aligned Transformer (AAformer) to adaptively assign the patch embeddings of the same semantics to the identical part token in the running time. The part tokens can be regarded as the part prototypes, and a fast variant of Sinkhorn-Knopp algorithm is employed to cluster the patch embeddings to part tokens online. AAformer can be viewed as a new principled formulation for simultaneously learning both part alignment and part representations. Extensive experiments validate the effectiveness of part tokens and the superiority of AAformer over various state-of-the-art CNN-based methods. Our codes will be released.
翻訳日:2021-04-05 13:49:49 公開日:2021-04-02
# メモリアライメント学習による長期動作コンテキストのリコール映像予測

Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning ( http://arxiv.org/abs/2104.00924v1 )

ライセンス: Link先を確認
Sangmin Lee, Hak Gu Kim, Dae Hwi Choi, Hyung-Il Kim, Yong Man Ro(参考訳) 我々の研究は、将来のフレームを予測するための長期的な動きコンテキストの問題に対処する。 未来を正確に予測するには、入力動作(例えば、脚の動き)がどの長期的動作コンテキスト(例えば、歩行や走行)に属するかを把握する必要がある。 長期動作コンテキストを扱う際に生じるボトルネックは次のとおりである: (i) 入力シーケンスと限られたダイナミクスと自然に一致する長期動作コンテキストの予測方法 (ii) 高次元(例えば複雑な動き)による長期動作コンテキストの予測方法。 この問題に対処するため,我々は新しい動き文脈対応ビデオ予測法を提案する。 ボトルネック(i)を解決するために,メモリアライメント学習を伴う長期動作コンテキストメモリ(LMC-Memory)を導入する。 提案したメモリアライメント学習により、長期動作コンテキストをメモリに格納し、限られたダイナミクスを含むシーケンスとマッチングすることができる。 その結果、限られた入力シーケンスから長期的なコンテキストを思い出すことができる。 さらに,ボトルネック(II)を解決するため,局所的な動作コンテキスト(低次元ダイナミクス)を記憶するためのメモリクエリ分解を提案し,入力の各ローカル部分に適したローカルコンテキストを個別に記憶する。 これにより、メモリのアライメント効果を高めることができる。 実験の結果,提案手法は,特に長期的条件下で,他の高度なrnn法よりも優れていることがわかった。 さらに,Ablation研究とメモリ特徴解析を行うことにより,提案するネットワーク設計の有効性を検証する。 この作業のソースコードは公開されている。

Our work addresses long-term motion context issues for predicting future frames. To predict the future precisely, it is required to capture which long-term motion context (e.g., walking or running) the input motion (e.g., leg movement) belongs to. The bottlenecks arising when dealing with the long-term motion context are: (i) how to predict the long-term motion context naturally matching input sequences with limited dynamics, (ii) how to predict the long-term motion context with high-dimensionality (e.g., complex motion). To address the issues, we propose novel motion context-aware video prediction. To solve the bottleneck (i), we introduce a long-term motion context memory (LMC-Memory) with memory alignment learning. The proposed memory alignment learning enables to store long-term motion contexts into the memory and to match them with sequences including limited dynamics. As a result, the long-term context can be recalled from the limited input sequence. In addition, to resolve the bottleneck (ii), we propose memory query decomposition to store local motion context (i.e., low-dimensional dynamics) and recall the suitable local context for each local part of the input individually. It enables to boost the alignment effects of the memory. Experimental results show that the proposed method outperforms other sophisticated RNN-based methods, especially in long-term condition. Further, we validate the effectiveness of the proposed network designs by conducting ablation studies and memory feature analysis. The source code of this work is available.
翻訳日:2021-04-05 13:49:26 公開日:2021-04-02
# Manifold Barycentersによるデータ拡張

Data Augmentation with Manifold Barycenters ( http://arxiv.org/abs/2104.00925v1 )

ライセンス: Link先を確認
Iaroslav Bespalov, Nazar Buzun, Oleg Kachan and Dmitry V. Dylov(参考訳) generative adversarial networks (gans) のトレーニングには大量のデータが必要であり、課題を緩和するための新しいデータ拡張手法の開発を刺激している。 多くの場合、これらのメソッドは十分な新しいデータの生成に失敗するか、データセットを元の知識ドメインを超えて拡張する。 本稿では,データバリセンタの多様体において利用可能な知識を表現する新しい方法を提案する。 このような表現は、ワッサーシュタイン距離を用いて最も近いデータ要素間の補間に基づくデータ拡張を可能にする。 提案手法は最寄りのグラフからクランクを見つけ、各サンプリングイテレーションでランダムに1つのクランクを描画し、ランダムな一様重みでワッサースタイン・バリセンタを計算する。 これらのバリセンターは、データセットに追加できる新しい自然な要素になる。 このアプローチをランドマーク検出の問題に適用し、データセット内の利用可能なランドマークデータを拡張します。 さらに、このアイデアは、医学的セグメンテーションのタスクの心臓データで検証される。 提案手法は,従来の拡張手法で得られた結果よりも,元のデータ結果よりも品質指標のオーバーフィットを低減し,改善する。

The training of Generative Adversarial Networks (GANs) requires a large amount of data, stimulating the development of new data augmentation methods to alleviate the challenge. Oftentimes, these methods either fail to produce enough new data or expand the dataset beyond the original knowledge domain. In this paper, we propose a new way of representing the available knowledge in the manifold of data barycenters. Such a representation allows performing data augmentation based on interpolation between the nearest data elements using Wasserstein distance. The proposed method finds cliques in the nearest-neighbors graph and, at each sampling iteration, randomly draws one clique to compute the Wasserstein barycenter with random uniform weights. These barycenters then become the new natural-looking elements that one could add to the dataset. We apply this approach to the problem of landmarks detection and augment the available landmarks data within the dataset. Additionally, the idea is validated on cardiac data for the task of medical segmentation. Our approach reduces the overfitting and improves the quality metrics both beyond the original data outcome and beyond the result obtained with classical augmentation methods.
翻訳日:2021-04-05 13:49:03 公開日:2021-04-02
# UAV-Human:無人航空機による人間の行動理解のための大規模なベンチマーク

UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles ( http://arxiv.org/abs/2104.00946v1 )

ライセンス: Link先を確認
Tianjiao Li and Jun Liu and Wei Zhang and Yun Ni and Wenqian Wang and Zhiheng Li(参考訳) 無人航空機(UAV)による人間の行動理解は、広範囲のアプリケーションにおいて非常に重要であり、同時にUAVベースのモデルの開発と評価のための大規模で挑戦的で包括的なベンチマークの緊急需要をもたらす。 しかし、既存のベンチマークでは、キャプチャされたデータ量、データモダリティの種類、提供されたタスクのカテゴリ、主題と環境の多様性の制限がある。 ここでは,67,428のマルチモーダルビデオシーケンスと119の被験者による行動認識,ポーズ推定用22,476フレーム,人物再同定用41,290フレームと1,144アイデンティティ,属性認識用22,263フレームを含む,uavsを用いた人間の行動理解のための新しいベンチマーク,uavhumanを提案する。 我々のデータセットは、昼間と夜間に複数の都市・農村部で3ヶ月にわたってUAVによって収集されたため、被写体、背景、照明、天候、オクルージョン、カメラモーション、UAV飛行姿勢の広範囲にわたる多様性を網羅した。 このような包括的で挑戦的なベンチマークは、行動認識、ポーズ推定、再識別、属性認識を含む、UAVに基づく人間の行動理解の研究を促進することができる。 さらに,魚眼映像の歪みを緩和し,平らなRGB動画で案内される非有界変換を学習する魚眼映像に基づく行動認識手法を提案する。 実験の結果,UAV-Humanデータセットの有効性が示された。

Human behavior understanding with unmanned aerial vehicles (UAVs) is of great significance for a wide range of applications, which simultaneously brings an urgent demand of large, challenging, and comprehensive benchmarks for the development and evaluation of UAV-based models. However, existing benchmarks have limitations in terms of the amount of captured data, types of data modalities, categories of provided tasks, and diversities of subjects and environments. Here we propose a new benchmark - UAVHuman - for human behavior understanding with UAVs, which contains 67,428 multi-modal video sequences and 119 subjects for action recognition, 22,476 frames for pose estimation, 41,290 frames and 1,144 identities for person re-identification, and 22,263 frames for attribute recognition. Our dataset was collected by a flying UAV in multiple urban and rural districts in both daytime and nighttime over three months, hence covering extensive diversities w.r.t subjects, backgrounds, illuminations, weathers, occlusions, camera motions, and UAV flying attitudes. Such a comprehensive and challenging benchmark shall be able to promote the research of UAV-based human behavior understanding, including action recognition, pose estimation, re-identification, and attribute recognition. Furthermore, we propose a fisheye-based action recognition method that mitigates the distortions in fisheye videos via learning unbounded transformations guided by flat RGB videos. Experiments show the efficacy of our method on the UAV-Human dataset.
翻訳日:2021-04-05 13:48:46 公開日:2021-04-02
# キーポイントマッチングのための検出・公開マルチアームネットワーク

A Detector-oblivious Multi-arm Network for Keypoint Matching ( http://arxiv.org/abs/2104.00947v1 )

ライセンス: Link先を確認
Xuelun Shen, Cheng Wang, Xin Li, qian hu, Jingyi Zhang(参考訳) 本稿では,画像間の点対応を確立するためのマッチングネットワークを提案する。 本研究では,領域の重なりと深さを学習するマルチArm Network(MAN)を提案する。 このフレームワークを、異なるキーポイント検出器を採用する際に再トレーニングを必要とする既存の学習ベースパイプラインとは異なるものにする別の設計では、ネットワークはそのような時間を要する再トレーニングプロセスなしで、異なるキーポイント検出器と直接動作する。 屋外および屋内のデータセットを総合的に実験した結果,提案手法が最先端手法よりも優れていることがわかった。 コードは公開される予定だ。

This paper presents a matching network to establish point correspondence between images. We propose a Multi-Arm Network (MAN) to learn region overlap and depth, which can greatly improve the keypoint matching robustness while bringing little computational cost during the inference stage. Another design that makes this framework different from many existing learning based pipelines that require re-training when a different keypoint detector is adopted, our network can directly work with different keypoint detectors without such a time-consuming re-training process. Comprehensive experiments conducted on outdoor and indoor datasets demonstrated that our proposed MAN outperforms state-of-the-art methods. Code will be made publicly available.
翻訳日:2021-04-05 13:48:18 公開日:2021-04-02
# 3次元ポーズと形状復元のための学習伝達型キネマティック辞書

Learning Transferable Kinematic Dictionary for 3D Human Pose and Shape Reconstruction ( http://arxiv.org/abs/2104.00953v1 )

ライセンス: Link先を確認
Ze Ma, Yifan Yao, Pan Ji, Chao Ma(参考訳) 1枚の画像から3次元の人間のポーズと形状を推定するのは、非常に制約が低い。 このあいまいさに対処するため,キネマティックツリーにおけるヒト関節の相対的な3次元回転の解空間を明示的に正規化する,新しいキネマティック辞書を提案する。 統計的人間モデルと深層ニューラルネットワークとを組み合わせることで,ニューラルネットワークのトレーニング中に形状アノテーションを用いることなく,エンドツーエンドの3次元再構成を実現する。 キネマティック辞書は、Wild内の画像と3Dデータセットのギャップを埋め、あらゆる種類のデータセットのエンドツーエンドトレーニングを容易にする。 提案手法は,Human3.6M, MPI-INF-3DHP, LSPなどの大規模データセットに対して,人間境界ボックスをリアルタイムに実行しながら, 競合する結果を得る。

Estimating 3D human pose and shape from a single image is highly under-constrained. To address this ambiguity, we propose a novel prior, namely kinematic dictionary, which explicitly regularizes the solution space of relative 3D rotations of human joints in the kinematic tree. Integrated with a statistical human model and a deep neural network, our method achieves end-to-end 3D reconstruction without the need of using any shape annotations during the training of neural networks. The kinematic dictionary bridges the gap between in-the-wild images and 3D datasets, and thus facilitates end-to-end training across all types of datasets. The proposed method achieves competitive results on large-scale datasets including Human3.6M, MPI-INF-3DHP, and LSP, while running in real-time given the human bounding boxes.
翻訳日:2021-04-05 13:48:07 公開日:2021-04-02
# tuber: 動作検出用チューブトランスフォーマ

TubeR: Tube-Transformer for Action Detection ( http://arxiv.org/abs/2104.00969v1 )

ライセンス: Link先を確認
Jiaojiao Zhao, Arthur Li, Chunhui Liu, Shuai Bing, Hao Chen, Cees G.M. Snoek, Joseph Tighe(参考訳) 本稿では,エンコーダとデコーダを可変長とアスペクト比の動作管のモデル化に最適化した,エンド・ツー・エンド動作検出用最初のトランスベースネットワークである tuber を提案する。 tubeRは手作業で設計されたチューブ構造に依存しず、予測されたアクションボックスを自動的にリンクし、アクションに関連する一連のチューブクエリを学習する。 アクションチューブ埋め込みを学習することで、 tuberは柔軟な空間的および時間的範囲のより正確なアクションチューブを予測する。 実験により,UCF101-24とJ-HMDBの単一ストリーム法でチューブRの最先端性を実証した。 TubeRは既存のAVAの1モデル法よりも優れており、2モデル法と競合する。 さらに,TubeRは異なる行動のアクターを追跡する可能性を秘めており,長距離映像理解における今後の研究を後押しする。

In this paper, we propose TubeR: the first transformer based network for end-to-end action detection, with an encoder and decoder optimized for modeling action tubes with variable lengths and aspect ratios. TubeR does not rely on hand-designed tube structures, automatically links predicted action boxes over time and learns a set of tube queries related to actions. By learning action tube embeddings, TubeR predicts more precise action tubes with flexible spatial and temporal extents. Our experiments demonstrate TubeR achieves state-of-the-art among single-stream methods on UCF101-24 and J-HMDB. TubeR outperforms existing one-model methods on AVA and is even competitive with the two-model methods. Moreover, we observe TubeR has the potential on tracking actors with different actions, which will foster future research in long-range video understanding.
翻訳日:2021-04-05 13:47:51 公開日:2021-04-02
# LiftPool:双方向のConvNetプール

LiftPool: Bidirectional ConvNet Pooling ( http://arxiv.org/abs/2104.00996v1 )

ライセンス: Link先を確認
Jiaojiao Zhao, Cees G.M. Snoek(参考訳) プールは、畳み込みニューラルネットワークにおいて、受容野を増加させ、入力変動に対するロバスト性を改善するために重要な操作である。 既存のプール操作のほとんどはフィーチャーマップをダウンサンプリングしています。 ダウンスケールしたフィーチャーマップをアップサンプリングしても、ダウンサンプリングで失われた情報を復元できない。 信号処理から古典的な昇降方式を採用することで,liftdownpool と liftuppool を含む双方向プーリング層に対して liftpool を提案する。 LiftDownPoolは、様々なダウンサイズのサブバンドにフィーチャーマップを分解する。 liftdownpoolのプーリング関数は完全に可逆であるため、liftdownpoolを後方に実行することで、対応するアッププール層liftuppoolは、詳細なサブバンドを使用して洗練されたアップサンプリングされたフィーチャマップを生成することができる。 実験により,様々なバックボーンを用いた画像分類と意味セグメンテーションの結果が得られた。 さらにliftdownpoolは、入力の腐敗や摂動に対してより堅牢性を提供します。

Pooling is a critical operation in convolutional neural networks for increasing receptive fields and improving robustness to input variations. Most existing pooling operations downsample the feature maps, which is a lossy process. Moreover, they are not invertible: upsampling a downscaled feature map can not recover the lost information in the downsampling. By adopting the philosophy of the classical Lifting Scheme from signal processing, we propose LiftPool for bidirectional pooling layers, including LiftDownPool and LiftUpPool. LiftDownPool decomposes a feature map into various downsized sub-bands, each of which contains information with different frequencies. As the pooling function in LiftDownPool is perfectly invertible, by performing LiftDownPool backward, a corresponding up-pooling layer LiftUpPool is able to generate a refined upsampled feature map using the detail sub-bands, which is useful for image-to-image translation challenges. Experiments show the proposed methods achieve better results on image classification and semantic segmentation, using various backbones. Moreover, LiftDownPool offers better robustness to input corruptions and perturbations.
翻訳日:2021-04-05 13:47:38 公開日:2021-04-02
# most: ローカライゼーションを改良したマルチ指向シーンテキスト検出器

MOST: A Multi-Oriented Scene Text Detector with Localization Refinement ( http://arxiv.org/abs/2104.01070v1 )

ライセンス: Link先を確認
Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai(参考訳) 過去数年間、シーンテキスト検出の分野は急速に進歩し、現代のテキスト検出器は様々な困難なシナリオでテキストを探せるようになった。 しかし、極端なアスペクト比と異なるスケールのテキストインスタンスを扱う場合、それらはまだ不足する可能性がある。 このような問題に対処するため,我々はシーンテキスト検出のための新しいアルゴリズムを提案し,テキストのローカライゼーションの質を向上するための一連の戦略を提案する。 具体的には,初期生検出に基づいて特徴の受容野を動的に調整するためにテキスト特徴アライメントモジュール(tfam)を提案し,信頼性の高い生検出に選択的に集中し,信頼性の低いものを除外するために位置認識非最大抑圧(pa-nms)モジュールを考案した。 広範なアブレーション研究により,提案手法の有効性と優越性が示された。 提案手法を先行シーンテキスト検出イーストと統合したテキスト検出システムは,高速実行速度を維持しつつ,テキスト検出のための各種標準ベンチマークにおいて最先端あるいは競合性能を実現する。

Over the past few years, the field of scene text detection has progressed rapidly that modern text detectors are able to hunt text in various challenging scenarios. However, they might still fall short when handling text instances of extreme aspect ratios and varying scales. To tackle such difficulties, we propose in this paper a new algorithm for scene text detection, which puts forward a set of strategies to significantly improve the quality of text localization. Specifically, a Text Feature Alignment Module (TFAM) is proposed to dynamically adjust the receptive fields of features based on initial raw detections; a Position-Aware Non-Maximum Suppression (PA-NMS) module is devised to selectively concentrate on reliable raw detections and exclude unreliable ones; besides, we propose an Instance-wise IoU loss for balanced training to deal with text instances of different scales. An extensive ablation study demonstrates the effectiveness and superiority of the proposed strategies. The resulting text detection system, which integrates the proposed strategies with a leading scene text detector EAST, achieves state-of-the-art or competitive performance on various standard benchmarks for text detection while keeping a fast running speed.
翻訳日:2021-04-05 13:47:19 公開日:2021-04-02
# 相対ポーズ推定のためのキーポイント検出とマッチングのエンドツーエンド学習

End-to-end learning of keypoint detection and matching for relative pose estimation ( http://arxiv.org/abs/2104.01085v1 )

ライセンス: Link先を確認
Antoine Fond, Luca Del Pero, Nikola Sivacki, Marco Paladini(参考訳) 2つの画像間の相対的なポーズを推定する新しい手法を提案し、キーポイントの検出、記述抽出、マッチング、ロバストなポーズ推定を共同で学習する。 私たちのアーキテクチャは、幾何学的コンピュータビジョンからのポーズ推定のための伝統的なパイプラインに従っていますが、すべてのステップは機能マッチングを含むエンドツーエンドの方法で学習されます。 本手法は,既知のポーズの画像データベース内の問合せ画像の視覚的ローカライズを行うためのものである。 ペアワイズポーズ推定は、ロボットマッピング、ナビゲーション、ARに多くの実用的な応用がある。 例えば、シーン内の永続的なARオブジェクトの表示は、デジタルモデルを物理的な環境に固定するように、正確なカメラのローカライゼーションに依存している。 視覚的なローカライゼーションの問題に特化して、パイプラインをエンドツーエンドにトレーニングします。 提案手法であるローカライズ精度,ロバスト性,実行速度を評価した。 本手法は,7シーンのデータセット上でのアートローカライズ精度を実現する。

We propose a new method for estimating the relative pose between two images, where we jointly learn keypoint detection, description extraction, matching and robust pose estimation. While our architecture follows the traditional pipeline for pose estimation from geometric computer vision, all steps are learnt in an end-to-end fashion, including feature matching. We demonstrate our method for the task of visual localization of a query image within a database of images with known pose. Pairwise pose estimation has many practical applications for robotic mapping, navigation, and AR. For example, the display of persistent AR objects in the scene relies on a precise camera localization to make the digital models appear anchored to the physical environment. We train our pipeline end-to-end specifically for the problem of visual localization. We evaluate our proposed approach on localization accuracy, robustness and runtime speed. Our method achieves state of the art localization accuracy on the 7 Scenes dataset.
翻訳日:2021-04-05 13:46:58 公開日:2021-04-02
# 幾何認識条件生成を用いた半教師付き視点推定

Semi-supervised Viewpoint Estimation with Geometry-aware Conditional Generation ( http://arxiv.org/abs/2104.01103v1 )

ライセンス: Link先を確認
Octave Mariotti, Hakan Bilen(参考訳) 限られた監督から学ぶことができるコンピュータビジョンの手法の開発への関心が高まっている。 本稿では,限定されたラベル付き画像から地平線アノテーションの取得が高価であり,特別な装置を必要とするカメラ視点の学習の課題について考察する。 本稿では,2つの画像が視点変化によって異なる未ラベル画像対から視点情報を推測する半教師付き視点推定法を提案する。 特に,第1画像からの出現と第2画像からの視点を組み合わせることにより,第2画像の合成を学習する。 提案手法は,特に低ラベル法において教師あり手法を著しく改善し,最先端の半教師あり手法よりも優れていることを示す。

There is a growing interest in developing computer vision methods that can learn from limited supervision. In this paper, we consider the problem of learning to predict camera viewpoints, where obtaining ground-truth annotations are expensive and require special equipment, from a limited number of labeled images. We propose a semi-supervised viewpoint estimation method that can learn to infer viewpoint information from unlabeled image pairs, where two images differ by a viewpoint change. In particular our method learns to synthesize the second image by combining the appearance from the first one and viewpoint from the second one. We demonstrate that our method significantly improves the supervised techniques, especially in the low-label regime and outperforms the state-of-the-art semi-supervised methods.
翻訳日:2021-04-05 13:46:45 公開日:2021-04-02
# マルチモーダルマルチレベルトランスフォーマによる言語ベースの映像編集

Language-based Video Editing via Multi-Modal Multi-Level Transformer ( http://arxiv.org/abs/2104.01122v1 )

ライセンス: Link先を確認
Tsu-Jui Fu, Xin Eric Wang, Scott T. Grafton, Miguel P. Eckstein, William Yang Wang(参考訳) ビデオ編集ツールはデジタルデザインに広く使われている。 これらのツールの需要は高いが、事前の知識は初心者が始めるのを困難にしている。 自然言語命令に従って自動編集を行うシステムは、アクセシビリティを大幅に改善する。 本稿では,テキスト指示によりモデルを編集し,ソース映像を対象映像に編集するlbve(language-based video editing)タスクを提案する。 LBVEには2つの特徴がある: 1) ソースビデオのシナリオは、完全に異なるビデオを生成する代わりに保存される; 2) セマンティクスは、ターゲットビデオで異なる方法で表示され、全ての変更は、所定の命令によって制御される。 LBVEを実現するためのマルチモードマルチレベルトランス(M$^3$L-Transformer)を提案する。 M$3$L-Transformerはビデオ認識と言語意味の対応を異なるレベルで動的に学習し、ビデオ理解とビデオフレーム合成の両方に有効である。 評価のための3つの新しいデータセットを構築し、その中には、人間のラベル付きテキストによる2つの診断と1つの自然なビデオが含まれる。 M$^3$L-Transformer はビデオ編集に有効であり,LBVE は視覚・言語研究に新たな分野へと導くことができる。

Video editing tools are widely used nowadays for digital design. Although the demand for these tools is high, the prior knowledge required makes it difficult for novices to get started. Systems that could follow natural language instructions to perform automatic editing would significantly improve accessibility. This paper introduces the language-based video editing (LBVE) task, which allows the model to edit, guided by text instruction, a source video into a target video. LBVE contains two features: 1) the scenario of the source video is preserved instead of generating a completely different video; 2) the semantic is presented differently in the target video, and all changes are controlled by the given instruction. We propose a Multi-Modal Multi-Level Transformer (M$^3$L-Transformer) to carry out LBVE. The M$^3$L-Transformer dynamically learns the correspondence between video perception and language semantic at different levels, which benefits both the video understanding and video frame synthesis. We build three new datasets for evaluation, including two diagnostic and one from natural videos with human-labeled text. Extensive experimental results show that M$^3$L-Transformer is effective for video editing and that LBVE can lead to a new field toward vision-and-language research.
翻訳日:2021-04-05 13:46:32 公開日:2021-04-02
# LeViT: 高速推論のためのConvNetの衣服におけるビジョントランスフォーマー

LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference ( http://arxiv.org/abs/2104.01136v1 )

ライセンス: Link先を確認
Ben Graham and Alaaeldin El-Nouby and Hugo Touvron and Pierre Stock and Armand Joulin and Herv\'e J\'egou and Matthijs Douze(参考訳) 我々は,高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャ群を設計する。 本研究は,高度並列処理ハードウェアと競合する注目型アーキテクチャの最近の知見を活用する。 我々は、畳み込みニューラルネットワークに関する広範な文献から原則を再評価し、変換器、特に解像度を下げたアクティベーションマップに適用した。 また,視覚トランスフォーマーに位置情報を統合する新しい手法である注意バイアスについても紹介する。 その結果,高速な推論画像分類のためのハイブリッドニューラルネットワークLeVITを提案する。 幅広いアプリケーションシナリオを最もよく反映するために、異なるハードウェアプラットフォーム上での効率の異なる尺度を検討します。 私たちの広範な実験は、私たちの技術的な選択を実証的に検証し、ほとんどのアーキテクチャに適していることを示すものです。 全体として、LeViTは、速度/精度のトレードオフに関して、既存のコンブネットとビジョントランスフォーマーを著しく上回っている。 例えば、80\%のImageNet top-1精度で、LeViTはCPU上のEfficientNetの3.3倍高速である。

We design a family of image classification architectures that optimize the trade-off between accuracy and efficiency in a high-speed regime. Our work exploits recent findings in attention-based architectures, which are competitive on highly parallel processing hardware. We re-evaluated principles from the extensive literature on convolutional neural networks to apply them to transformers, in particular activation maps with decreasing resolutions. We also introduce the attention bias, a new way to integrate positional information in vision transformers. As a result, we propose LeVIT: a hybrid neural network for fast inference image classification. We consider different measures of efficiency on different hardware platforms, so as to best reflect a wide range of application scenarios. Our extensive experiments empirically validate our technical choices and show they are suitable to most architectures. Overall, LeViT significantly outperforms existing convnets and vision transformers with respect to the speed/accuracy tradeoff. For example, at 80\% ImageNet top-1 accuracy, LeViT is 3.3 times faster than EfficientNet on the CPU.
翻訳日:2021-04-05 13:46:12 公開日:2021-04-02
# 臨床情報学における"off-the-shelf"情報抽出アルゴリズムの利用--イタリア医学ノートのメタマップアノテーションの実現可能性の検討

Use of 'off-the-shelf' information extraction algorithms in clinical informatics: a feasibility study of MetaMap annotation of Italian medical notes ( http://arxiv.org/abs/2104.00975v1 )

ライセンス: Link先を確認
Emma Chiaramello, Francesco Pinciroli, Alberico Bonalumi, Angelo Caroli, Gabriella Tognola(参考訳) 物語的臨床ノートからの情報抽出は、患者のケアや、研究や臨床目的の医療データの二次的利用に有用である。 多くの研究は英語の臨床文書からの情報抽出に焦点を当てたが、英語以外の言語での臨床文書の扱いは少ない。 本研究は, イタリアの臨床ノートから医療概念を識別する「オフ・ザ・シェルフ」情報抽出アルゴリズムの有用性を検証した。 医療概念をUMLS(Unified Medical Language System)にマッピングするためにMetaMapを使用しました。 q1) 臨床ノートにみられる医療用語を適切にマッピングできるかどうか、および、イタリアumlsリソースに「不一致」の意味群に関連するかを理解すること、(q2) イタリアの臨床ノートからこれらの医療概念を抽出するためにメタマップを使用することが可能かどうかを検討すること、の2つである。 exp1の結果、イタリアのumlメタテッサロスソースは、研究されたデータセットに見られるように、"disorders"セマンティクスグループの医学用語の91%をカバーしていた。 MetaMapが英語で書かれたテキストを分析するために作られたとしても、イタリア語で書かれたテキストでも適切に動作する。 MetaMapはイタリアの臨床ノートで、コンセプトの約半分を正しく特定した。 簡単なテキスト検索ではなく、metamapのアノテーションをイタリア臨床ノートに使用することで、結果が約15ポイント向上しました。 メタマップは0.53, 0.98, 0.69のリコール, 精度, およびf測定値を示した。 失敗の大部分は、MetaMapがイタリアの意味のある変種を生成できないためだった。 MetaMapによる自動翻訳英語臨床ノートの注釈作成は、文献の知見と一致し、同様のリコール(0.75)、F尺度(0.83)、さらに高い精度(0.95)が得られた。

Information extraction from narrative clinical notes is useful for patient care, as well as for secondary use of medical data, for research or clinical purposes. Many studies focused on information extraction from English clinical texts, but less dealt with clinical notes in languages other than English. This study tested the feasibility of using 'off the shelf' information extraction algorithms to identify medical concepts from Italian clinical notes. We used MetaMap to map medical concepts to the Unified Medical Language System (UMLS). The study addressed two questions: (Q1) to understand if it would be possible to properly map medical terms found in clinical notes and related to the semantic group of 'Disorders' to the Italian UMLS resources; (Q2) to investigate if it would be feasible to use MetaMap as it is to extract these medical concepts from Italian clinical notes. Results in EXP1 showed that the Italian UMLS Metathesaurus sources covered 91% of the medical terms of the 'Disorders' semantic group, as found in the studied dataset. Even if MetaMap was built to analyze texts written in English, it worked properly also with texts written in Italian. MetaMap identified correctly about half of the concepts in the Italian clinical notes. Using MetaMap's annotation on Italian clinical notes instead of a simple text search improved our results of about 15 percentage points. MetaMap showed recall, precision and F-measure of 0.53, 0.98 and 0.69, respectively. Most of the failures were due to the impossibility for MetaMap to generate Italian meaningful variants. MetaMap's performance in annotating automatically translated English clinical notes was in line with findings in the literature, with similar recall (0.75), F-measure (0.83) and even higher precision (0.95).
翻訳日:2021-04-05 13:45:59 公開日:2021-04-02
# レーダの深部生成モデルを用いた巧妙な降雨予報

Skillful Precipitation Nowcasting using Deep Generative Models of Radar ( http://arxiv.org/abs/2104.00954v1 )

ライセンス: Link先を確認
Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, Rachel Prudden, Amol Mandhane, Aidan Clark, Andrew Brock, Karen Simonyan, Raia Hadsell, Niall Robinson, Ellen Clancy, Alberto Arribas, Shakir Mohamed(参考訳) 降水予報は2時間前までの高分解能な降水予測であり、天候に依存した意思決定に依存する多くのセクターの現実世界の社会経済的ニーズをサポートする。 最先端の運用用流し込み方式は、一般的にレーダーによる風速推定を伴う降水場を回避し、対流開始のような重要な非線形事象を捉えるのに苦労する。 最近導入されたディープラーニング手法では、レーダーを用いて将来の降雨率を直接予測する。 低気圧の降雨を正確に予測する一方で、制約の欠如によりより長いリードタイムでぼやけたナキャストが発生し、より稀な中豪雨で性能が低下するため、運用上の有用性は限られている。 これらの課題に対処するために,我々はレーダーからの降水の確率的再キャストのための深い生成モデルを提案する。 本モデルでは, 最大1536km×1280km, リード時間5~90mの領域に対して, 実時間および時空間的に一貫した予測を行う。 Met Officeの50名以上の専門家予測者による体系的評価では、実世界の専門家に物理的な洞察を提供するための意思決定価値と能力を示し、その精度と有用性を88%のケースで評価した。 定量的に検証すると、これらはぼやけずに熟練している。 ジェネレイティブ・ナキャスティングは,予測値を改善し,運用上の有用性をサポートする確率的予測と,代替手法が苦戦する解像度とリードタイムを提供する。

Precipitation nowcasting, the high-resolution forecasting of precipitation up to two hours ahead, supports the real-world socio-economic needs of many sectors reliant on weather-dependent decision-making. State-of-the-art operational nowcasting methods typically advect precipitation fields with radar-based wind estimates, and struggle to capture important non-linear events such as convective initiations. Recently introduced deep learning methods use radar to directly predict future rain rates, free of physical constraints. While they accurately predict low-intensity rainfall, their operational utility is limited because their lack of constraints produces blurry nowcasts at longer lead times, yielding poor performance on more rare medium-to-heavy rain events. To address these challenges, we present a Deep Generative Model for the probabilistic nowcasting of precipitation from radar. Our model produces realistic and spatio-temporally consistent predictions over regions up to 1536 km x 1280 km and with lead times from 5-90 min ahead. In a systematic evaluation by more than fifty expert forecasters from the Met Office, our generative model ranked first for its accuracy and usefulness in 88% of cases against two competitive methods, demonstrating its decision-making value and ability to provide physical insight to real-world experts. When verified quantitatively, these nowcasts are skillful without resorting to blurring. We show that generative nowcasting can provide probabilistic predictions that improve forecast value and support operational utility, and at resolutions and lead times where alternative methods struggle.
翻訳日:2021-04-05 13:45:01 公開日:2021-04-02
# NCAPライクな自動運転車安全指標

An NCAP-like Safety Indicator for Self-Driving Cars ( http://arxiv.org/abs/2104.00859v1 )

ライセンス: Link先を確認
Jimy Cai Huang and Hanna Kurniawati(参考訳) 本稿では,自動運転車の安全性を評価するメカニズムを提案する。 車両が敵と衝突することを避けるシナリオにおいて、車両の安全性を評価する。 セーフカミカゼ距離(Safe-Kamikaze Distance, SKD)は、安全な相手の軌道と安全な軌道に近いカミカゼ軌道との平均的な類似性を計算する。 神風軌道は、不確実性のある手法、すなわち部分的に観察可能なマルコフ決定過程に基づく計画に基づいて生成され、敵の視点から部分的に観察される自動車政策を考慮に入れている。 skdは,小さな変形が敵の衝突のない軌道を衝突のない軌道に変える確率において,上界に逆比例することがわかった。 我々は、車両の前にある1車線の道路を横断する歩行者、すなわちユーロncapの緊急ブレーキに関する脆弱な道路利用者(vru)テストのシナリオを体系的にテストする。 高忠実度シミュレータを用いた基本制御器を用いた車両評価実験の結果,SKDが自律走行車の安全性を計測する有望な結果が示唆された。 さらに、各シミュレーションテストに要する時間は11秒以下であり、25分未満でクアッドコアデスクトップ上で生成されたシミュレーションからskdを計算するのに十分な統計量が得られる。

This paper proposes a mechanism to assess the safety of autonomous cars. It assesses the car's safety in scenarios where the car must avoid collision with an adversary. Core to this mechanism is a safety measure, called Safe-Kamikaze Distance (SKD), which computes the average similarity between sets of safe adversary's trajectories and kamikaze trajectories close to the safe trajectories. The kamikaze trajectories are generated based on planning under uncertainty techniques, namely the Partially Observable Markov Decision Processes, to account for the partially observed car policy from the point of view of the adversary. We found that SKD is inversely proportional to the upper bound on the probability that a small deformation changes a collision-free trajectory of the adversary into a colliding one. We perform systematic tests on a scenario where the adversary is a pedestrian crossing a single-lane road in front of the car being assessed --which is, one of the scenarios in the Euro-NCAP's Vulnerable Road User (VRU) tests on Autonomous Emergency Braking. Simulation results on assessing cars with basic controllers and a test on a Machine-Learning controller using a high-fidelity simulator indicates promising results for SKD to measure the safety of autonomous cars. Moreover, the time taken for each simulation test is under 11 seconds, enabling a sufficient statistics to compute SKD from simulation to be generated on a quad-core desktop in less than 25 minutes.
翻訳日:2021-04-05 13:44:30 公開日:2021-04-02
# STARdom: 信頼性とセキュアな人間中心製造システムのためのアーキテクチャ

STARdom: an architecture for trusted and secure human-centered manufacturing systems ( http://arxiv.org/abs/2104.00983v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Klemen Kenda, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c, Entso Veliou, Dimitrios Papamartzivanos, Thanassis Giannetsos, Sofia Anna Menesidou, Rub\'en Alonso, Nino Cauli, Diego Reforgiato Recupero, Dimosthenis Kyriazis, Georgios Sofianidis, Spyros Theodoropoulos and John Soldatos(参考訳) 産業5.0への進化の核心にある、人間中心の製造システムなど、人間による信頼できるセキュアな人工知能システムのニーズに対処する単一のアーキテクチャ仕様が欠如している。 これを実現するために,予測と説明可能な人工知能を統合し,ユーザのフィードバック収集を支援し,アクティブラーニングとシミュレーション現実を用いて予測を強化し,意思決定の推奨を提供するアーキテクチャを提案する。 アーキテクチャのセキュリティは一般的な懸念として扱われる。 提案されたアーキテクチャは、Big Data Value Association Reference Architecture Modelと整合しています。 需要予測の領域向けに調整し、実世界のケーススタディで検証します。

There is a lack of a single architecture specification that addresses the needs of trusted and secure Artificial Intelligence systems with humans in the loop, such as human-centered manufacturing systems at the core of the evolution towards Industry 5.0. To realize this, we propose an architecture that integrates forecasts, Explainable Artificial Intelligence, supports collecting users' feedback, and uses Active Learning and Simulated Reality to enhance forecasts and provide decision-making recommendations. The architecture security is addressed as a general concern. We align the proposed architecture with the Big Data Value Association Reference Architecture Model. We tailor it for the domain of demand forecasting and validate it on a real-world case study.
翻訳日:2021-04-05 13:43:56 公開日:2021-04-02
# 言語非依存な単語識別特徴表現を用いた教師なし音響単位発見

Unsupervised Acoustic Unit Discovery by Leveraging a Language-Independent Subword Discriminative Feature Representation ( http://arxiv.org/abs/2104.00994v1 )

ライセンス: Link先を確認
Siyuan Feng and Piotr \.Zelasko and Laureano Moro-Vel\'azquez and Odette Scharenborg(参考訳) 本稿では,未ラベル音声データからAUDを自動検出する手法を提案する。 過去の研究では通常単段アプローチが提案されている。 2段階のアプローチを提案する。第1段階はサブワード識別特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,発見音響単位として電話のようなクラスタを得る。 最初の段階では、単言語対ドメイン(OOD)ASRシステムを多言語に置き換え、より言語に依存しないサブワード識別表現を生成することにより、教師なしサブワードモデリングタスクにおける最近提案された手法を改善した。 第2段階では、セグメントレベルのk平均が採用され、可変長音声セグメントを固定次元特徴ベクトルとして表現する2つの方法が比較される。 非常に低リソースなMboshi言語コーパスの実験により,本手法は正規化相互情報(NMI)とFスコアの両方において最先端のAUDよりも優れていた。 多言語ASRは、単言語ASRによりOOD電話ラベルを提供し、電話の境界を推定した。 我々のシステムと接地電話の境界を知らずに比較したところ、16%のnmi性能の差があり、現在のアプローチは電話境界推定の改善によって有益であることが示唆された。

This paper tackles automatically discovering phone-like acoustic units (AUD) from unlabeled speech data. Past studies usually proposed single-step approaches. We propose a two-stage approach: the first stage learns a subword-discriminati ve feature representation and the second stage applies clustering to the learned representation and obtains phone-like clusters as the discovered acoustic units. In the first stage, a recently proposed method in the task of unsupervised subword modeling is improved by replacing a monolingual out-of-domain (OOD) ASR system with a multilingual one to create a subword-discriminati ve representation that is more language-independent . In the second stage, segment-level k-means is adopted, and two methods to represent the variable-length speech segments as fixed-dimension feature vectors are compared. Experiments on a very low-resource Mboshi language corpus show that our approach outperforms state-of-the-art AUD in both normalized mutual information (NMI) and F-score. The multilingual ASR improved upon the monolingual ASR in providing OOD phone labels and in estimating the phone boundaries. A comparison of our systems with and without knowing the ground-truth phone boundaries showed a 16% NMI performance gap, suggesting that the current approach can significantly benefit from improved phone boundary estimation.
翻訳日:2021-04-05 13:43:34 公開日:2021-04-02
# 呪いに満ちたエージェント

Cursed yet Satisfied Agents ( http://arxiv.org/abs/2104.00835v1 )

ライセンス: Link先を確認
Yiling Chen, Alon Eden, Juntao Wang(参考訳) 実生活オークションでは、広く観察される現象は勝者の呪いであり、勝者の高い入札は、勝者が売り物の価値を過大評価し、結果として負の効用をもたらすことを意味する。 Eyster と Rabin [Econometrica'05] のセミナルな研究は、この観察された異常を説明するための行動モデルを導入した。 このバイアスを示すエージェントを"cursed agent"と呼ぶ。 我々は,それらのモデルを相互依存価値設定に適用し,呪われたエージェントが負の効用を得るのを防ぐメカニズムを考案する。 我々は、元ICを呪われたメカニズムを設計する。つまり、エージェントは、たとえ呪われたとしても、真のシグナルを入札するようインセンティブを与えると同時に、結果が個々に合理的であることを保証し、エージェントが支払う価格がエージェントの真の価値に他ならない。 エージェントは商品の価値を過大評価するので、エージェントが過払いをしないように、売り手はエージェントにポジティブな転送を行う必要があるかもしれない。 収益の最大化のために、最適な決定論的かつ匿名のメカニズムを与えます。 福祉の最大化のためには、ポジティブトランスファーがマイナス収益につながる可能性があるため、ポスト予算バランス(EPBB)が必要になります。 本稿では, 決定論的メカニズムを取り入れたマスキング操作を提案し, EPBBを強制して, 売り手は肯定的な転送を行わないよう強制する。 典型的には,epbbは正の伝達を行えないことを示し,完全効率的な機構にマスキング操作を適用すると,社会的に最適なepbb機構となることを示唆する。 これはさらに、評価関数がエージェントの信号の最大値である場合、最適なepbbメカニズムは福祉をゼロにすることを意味する。 一方,重み付きサム評価とl_p-ノルムを含むサム・コンケーブ評価では,エージェント数の増加に伴い,福祉最適epbb機構が最適な福祉の半分を得ることが示された。

In real life auctions, a widely observed phenomenon is the winner's curse -- the winner's high bid implies that the winner often over-estimates the value of the good for sale, resulting in an incurred negative utility. The seminal work of Eyster and Rabin [Econometrica'05] introduced a behavioral model aimed to explain this observed anomaly. We term agents who display this bias "cursed agents". We adopt their model in the interdependent value setting, and aim to devise mechanisms that prevent the cursed agents from obtaining negative utility. We design mechanisms that are cursed ex-post IC, that is, incentivize agents to bid their true signal even though they are cursed, while ensuring that the outcome is individually rational -- the price the agents pay is no more than the agents' true value. Since the agents might over-estimate the good's value, such mechanisms might require the seller to make positive transfers to the agents to prevent agents from over-paying. For revenue maximization, we give the optimal deterministic and anonymous mechanism. For welfare maximization, we require ex-post budget balance (EPBB), as positive transfers might lead to negative revenue. We propose a masking operation that takes any deterministic mechanism, and imposes that the seller would not make positive transfers, enforcing EPBB. We show that in typical settings, EPBB implies that the mechanism cannot make any positive transfers, implying that applying the masking operation on the fully efficient mechanism results in a socially optimal EPBB mechanism. This further implies that if the valuation function is the maximum of agents' signals, the optimal EPBB mechanism obtains zero welfare. In contrast, we show that for sum-concave valuations, which include weighted-sum valuations and l_p-norms, the welfare optimal EPBB mechanism obtains half of the optimal welfare as the number of agents grows large.
翻訳日:2021-04-05 13:43:09 公開日:2021-04-02
# ネスト因果文としてのセキュリティ特性

Security Properties as Nested Causal Statements ( http://arxiv.org/abs/2104.00872v1 )

ライセンス: Link先を確認
Matvey Soloviev, Joseph Y. Halpern(参考訳) 因果関係の観点から考えることは、システムの異なる部分が相互に依存しているか、システムのある部分への介入が他の部分の変更をもたらすか、という構成に役立ちます。 したがって、形式的な因果関係のモデルがセキュリティを推論するための魅力的なツールであり、悪意のある介入に対してシステムの特性を保護することに関心を持つ。 私たちが示すように、多くのセキュリティ特性はネストされた因果関係として自然に表現されます。 本稿では,Halpern-Pearl(HP)フレームワークを拡張して,このようなネストした因果関係を捉える自然な方法を提案する。 この拡張は表現性を追加し、HPフレームワークが以前は区別できなかった因果的なシナリオを区別できるようにする。 我々はさらに、原因変数自体を原因とする変数ではなく、因果変数の特定の値を扱うという選択など、ネストしない因果ステートメントを念頭に置いて作られたHPフレームワークの設計決定を再考する。

Thinking in terms of causality helps us structure how different parts of a system depend on each other, and how interventions on one part of a system may result in changes to other parts. Therefore, formal models of causality are an attractive tool for reasoning about security, which concerns itself with safeguarding properties of a system against interventions that may be malicious. As we show, many security properties are naturally expressed as nested causal statements: not only do we consider what caused a particular undesirable effect, but we also consider what caused this causal relationship itself to hold. We present a natural way to extend the Halpern-Pearl (HP) framework for causality to capture such nested causal statements. This extension adds expressivity, enabling the HP framework to distinguish between causal scenarios that it could not previously naturally tell apart. We moreover revisit some design decisions of the HP framework that were made with non-nested causal statements in mind, such as the choice to treat specific values of causal variables as opposed to the variables themselves as causes, and may no longer be appropriate for nested ones.
翻訳日:2021-04-05 13:42:36 公開日:2021-04-02
# VisQA:トランスフォーマーにおけるX線ビジョンと言語推論

VisQA: X-raying Vision and Language Reasoning in Transformers ( http://arxiv.org/abs/2104.00926v1 )

ライセンス: Link先を確認
Theo Jaunet, Corentin Kervadec, Romain Vuillemot, Grigory Antipov, Moez Baccouche and Christian Wolf(参考訳) 入力画像に対するオープンエンドテキスト質問に対する視覚質問応答システム それらは、例えば視覚障害者の補助など、hciで主に使用されるハイレベル推論を学ぶためのテストベッドである。 近年の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生成する傾向があり、必要な推論ステップを実行するのではなく、入力画像を見ることさえできないことが示されている。 私たちは、推論とバイアスの搾取というこの疑問を探求するビジュアル分析ツールであるvisqaを紹介します。 最先端のニューラルモデルのキー要素 -- トランスフォーマーのアテンションマップ -- を公開する。 我々の作業仮説は、モデル予測につながる推論ステップは、特に可視化に有用な注意分布から観測可能であるというものである。 VisQAの設計プロセスは、ディープラーニングと視覚言語推論の分野でよく知られたバイアスの例によって動機付けられ、二つの方法で評価された。 まず、機械学習、ビジョンと言語推論、データ分析の3つの分野のコラボレーションの結果、この研究は、vqaのためのニューラルモデルの設計とトレーニングに直接的な影響を与え、結果としてモデルのパフォーマンスが向上する。 第2に、visqaの設計、および複数の専門家によるモデル決定プロセスの分析を目的としたvisqaの目標指向評価について報告し、モデルの内部動作をユーザに提供する証拠を提供する。

Visual Question Answering systems target answering open-ended textual questions given input images. They are a testbed for learning high-level reasoning with a primary use in HCI, for instance assistance for the visually impaired. Recent research has shown that state-of-the-art models tend to produce answers exploiting biases and shortcuts in the training data, and sometimes do not even look at the input image, instead of performing the required reasoning steps. We present VisQA, a visual analytics tool that explores this question of reasoning vs. bias exploitation. It exposes the key element of state-of-the-art neural models -- attention maps in transformers. Our working hypothesis is that reasoning steps leading to model predictions are observable from attention distributions, which are particularly useful for visualization. The design process of VisQA was motivated by well-known bias examples from the fields of deep learning and vision-language reasoning and evaluated in two ways. First, as a result of a collaboration of three fields, machine learning, vision and language reasoning, and data analytics, the work lead to a direct impact on the design and training of a neural model for VQA, improving model performance as a consequence. Second, we also report on the design of VisQA, and a goal-oriented evaluation of VisQA targeting the analysis of a model decision process from multiple experts, providing evidence that it makes the inner workings of models accessible to users.
翻訳日:2021-04-05 13:41:42 公開日:2021-04-02
# 3次元注意UNetを用いた脳腫瘍の切除と生存予測

Brain Tumor Segmentation and Survival Prediction using 3D Attention UNet ( http://arxiv.org/abs/2104.00985v1 )

ライセンス: Link先を確認
Mobarakol Islam, Vibashan VS, V Jeya Maria Jose, Navodini Wijethilake, Uppal Utkarsh, Hongliang Ren(参考訳) 本研究では,磁気共鳴画像(MRI)から脳腫瘍を抽出するための注意畳み込みニューラルネットワーク(CNN)を開発した。 さらに,様々な機械学習手法を用いて生存率を予測する。 我々は3次元unetアーキテクチャを採用し、チャネルと空間の注意をデコーダネットワークと統合してセグメンテーションを行う。 生存予測のために, 腫瘍の形状, 形状, 形状に基づく新しい放射線学的特徴を抽出し, 臨床情報と組み合わせて各患者の生存期間を推定した。 また,全生存率 (os) 予測における各特徴の効果を示す実験を行った。 実験結果から, 組織像, 位置, 壊死領域の形状などの放射線学的特徴と年齢などの臨床的特徴がOSの推定に最も重要なパラメータであると考えられた。

In this work, we develop an attention convolutional neural network (CNN) to segment brain tumors from Magnetic Resonance Images (MRI). Further, we predict the survival rate using various machine learning methods. We adopt a 3D UNet architecture and integrate channel and spatial attention with the decoder network to perform segmentation. For survival prediction, we extract some novel radiomic features based on geometry, location, the shape of the segmented tumor and combine them with clinical information to estimate the survival duration for each patient. We also perform extensive experiments to show the effect of each feature for overall survival (OS) prediction. The experimental results infer that radiomic features such as histogram, location, and shape of the necrosis region and clinical features like age are the most critical parameters to estimate the OS.
翻訳日:2021-04-05 13:41:20 公開日:2021-04-02
# U-Netとセグメンテーション技術を用いた結核の予測

Prediction of Tuberculosis using U-Net and segmentation techniques ( http://arxiv.org/abs/2104.01071v1 )

ライセンス: Link先を確認
Dennis N\'u\~nez-Fern\'andez, Lamberto Ballan, Gabriel Jim\'enez-Avalos, Jorge Coronel, Patricia Sheen, Mirko Zimic(参考訳) ペルーと世界中で最も深刻な公衆衛生問題の1つは結核(TB)であり、Mycobacterium tuberculosisとして知られる細菌によって生産されている。 本研究の目的は,MODS法とレンズレス顕微鏡を用いて結核の診断を容易かつ自動化することである。 そこで, 収集したデータセットにU-Netネットワークを用い, コード形状の細菌集積を自動的にセグメンテーションし, 結核を予測した。 以上の結果から, TBコードの自動分割は有望な証拠であり, TB予測の精度も良好であった。

One of the most serious public health problems in Peru and worldwide is Tuberculosis (TB), which is produced by a bacterium known as Mycobacterium tuberculosis. The purpose of this work is to facilitate and automate the diagnosis of tuberculosis using the MODS method and using lens-free microscopy, as it is easier to calibrate and easier to use by untrained personnel compared to lens microscopy. Therefore, we employed a U-Net network on our collected data set to perform automatic segmentation of cord shape bacterial accumulation and then predict tuberculosis. Our results show promising evidence for automatic segmentation of TB cords, and thus good accuracy for TB prediction.
翻訳日:2021-04-05 13:41:08 公開日:2021-04-02
# MEC支援VRビデオサービスにおける省エネルギートレードオフのためのハイブリッド政策学習

Hybrid Policy Learning for Energy-Latency Tradeoff in MEC-Assisted VR Video Service ( http://arxiv.org/abs/2104.01036v1 )

ライセンス: Link先を確認
Chong Zheng and Shengheng Liu and Yongming Huang and Luxi Yang(参考訳) 仮想現実(VR)は、産業分野や人間がバーチャルコンテンツと対話する方法を根本的に変えることを約束している。 しかし、前例のない進歩にもかかわらず、現在のネットワークとコンピューティングのインフラは、VRの持つ大きな可能性を解き明かすには無力です。 本稿では,モバイルエッジコンピューティング(MEC)ネットワーク上で無線マルチタイルVRビデオサービスを実現することを検討する。 主な目標は、システムのレイテンシ/エネルギー消費を最小化し、そのトレードオフに到達することです。 この目的のために、我々はまず、その動的特性を効果的に捉えるために、時間変動ビューの人気をモデルのないマルコフ連鎖として表現した。 MECサーバとVR再生装置の両方のキャッシュと計算能力を共同で評価した後、動的キャッシュ置換と決定論的オフロードを協調させてシステムリソースを十分に活用するためのハイブリッドポリシーが実装される。 下位の多目的問題は部分的に観測可能なマルコフ決定過程として再構成され、その解を反復的に学習するために深い決定論的ポリシー勾配アルゴリズムが提案され、長期の短期記憶ニューラルネットワークが組み込まれて観測不能な人気のダイナミクスを継続的に予測する。 シミュレーションの結果,提案手法がベースライン法よりもエネルギー効率と遅延低減のトレードオフを達成する上で優れていることを示す。

Virtual reality (VR) is promising to fundamentally transform a broad spectrum of industry sectors and the way humans interact with virtual content. However, despite unprecedented progress, current networking and computing infrastructures are incompetent to unlock VR's full potential. In this paper, we consider delivering the wireless multi-tile VR video service over a mobile edge computing (MEC) network. The primary goal is to minimize the system latency/energy consumption and to arrive at a tradeoff thereof. To this end, we first cast the time-varying view popularity as a model-free Markov chain to effectively capture its dynamic characteristics. After jointly assessing the caching and computing capacities on both the MEC server and the VR playback device, a hybrid policy is then implemented to coordinate the dynamic caching replacement and the deterministic offloading, so as to fully utilize the system resources. The underlying multi-objective problem is reformulated as a partially observable Markov decision process, and a deep deterministic policy gradient algorithm is proposed to iteratively learn its solution, where a long short-term memory neural network is embedded to continuously predict the dynamics of the unobservable popularity. Simulation results demonstrate the superiority of the proposed scheme in achieving a trade-off between the energy efficiency and the latency reduction over the baseline methods.
翻訳日:2021-04-05 13:40:15 公開日:2021-04-02
# 状態間アプローチのための機械学習手法の評価

Assessment of machine learning methods for state-to-state approaches ( http://arxiv.org/abs/2104.01042v1 )

ライセンス: Link先を確認
Lorenzo Campoli, Elena Kustova, Polina Maltseva(参考訳) 高速反応流の数値シミュレーションは、状態から状態への定式化の枠組みにおいて、最も詳細であるがしばしば計算コストが高いことが知られている。 本研究では,このような負担を軽減するための州間アプローチにおいて,機械学習手法がもたらす可能性について検討する。 この点で、いくつかのタスクが特定されている。 まず,n$_2$/nの二元混合系の平面衝撃波背後の一次元反応流に対して,方程式の定常オイラー系の右辺に現れる緩和源項を予測するために,機械学習に基づく最先端データ駆動回帰モデルの可能性を評価した。 その結果, 回帰器を適切に選択し, 過パラメータを最適に調整することにより, 大規模状態間シミュレーションに比べて極めて短い時間で正確な予測が可能であることがわかった。 第二に、社内のステート・ツー・ステート・ソルバを最適性能の機械学習アルゴリズムと組み合わせて高速化するための様々な戦略を検討した。 通常の微分方程式の解法に機械学習法を組み込むことは、数桁のスピードアップを提供するが、そのような結合を実現する方法と方法には注意が必要だ。 性能は、インターフェース化されたコードの相互の性質に強く依存している。 最後に,データのみに依存した状態間解法を完全パスすることで,ニューラルネットワークを用いて状態間オイラー方程式の完全解を推定することを目的とした。 有望な結果は、ディープニューラルネットワークがこれらのタスクにも有効な技術であることを示唆している。

It is well known that numerical simulations of high-speed reacting flows, in the framework of state-to-state formulations, are the most detailed but also often prohibitively computationally expensive. In this work, we start to investigate the possibilities offered by the use of machine learning methods for state-to-state approaches to alleviate such burden. In this regard, several tasks have been identified. Firstly, we assessed the potential of state-of-the-art data-driven regression models based on machine learning to predict the relaxation source terms which appear in the right-hand side of the state-to-state Euler system of equations for a one-dimensional reacting flow of a N$_2$/N binary mixture behind a plane shock wave. It is found that, by appropriately choosing the regressor and opportunely tuning its hyperparameters, it is possible to achieve accurate predictions compared to the full-scale state-to-state simulation in significantly shorter times. Secondly, we investigated different strategies to speed-up our in-house state-to-state solver by coupling it with the best-performing pre-trained machine learning algorithm. The embedding of machine learning methods into ordinary differential equations solvers may offer a speed-up of several orders of magnitude but some care should be paid for how and where such coupling is realized. Performances are found to be strongly dependent on the mutual nature of the interfaced codes. Finally, we aimed at inferring the full solution of the state-to-state Euler system of equations by means of a deep neural network completely by-passing the use of the state-to-state solver while relying only on data. Promising results suggest that deep neural networks appear to be a viable technology also for these tasks.
翻訳日:2021-04-05 13:39:52 公開日:2021-04-02
# DiffAqua:形状補間を有する軟式水中スイマーのための微分計算設計パイプライン

DiffAqua: A Differentiable Computational Design Pipeline for Soft Underwater Swimmers with Shape Interpolation ( http://arxiv.org/abs/2104.00837v1 )

ライセンス: Link先を確認
Pingchuan Ma, Tao Du, John Z. Zhang, Kui Wu, Andrew Spielberg, Robert K. Katzschmann, Wojciech Matusik(参考訳) 柔らかい水中水泳選手の計算設計は、ソフトボディモデリングにおける高い自由度のために困難である。 本稿では,ソフトスイマーの形状とコントローラを共設計するための微分可能なパイプラインを提案する。 従来のグラデーションフリーソリューションよりも,新しいスイマー設計を効率的に発見するために,グラデーションベースのアルゴリズムをアンロックする。 本研究は, 軟式水中泳泳者の幾何学的設計の基盤として, 生体インスパイアされた底面形状を最適輸送により自然に補間できるワッサースタイン・バリセンツを提案する。 この設計空間と、異なるシミュレーションと制御を組み合わせることで、ベースライン法よりも少ないシミュレーションで、柔らかい水中スイマーの性能を効率的に最適化することができる。 本研究では, 高速, 安定, エネルギー効率などの設計問題に対する本手法の有効性を実証し, 多目的設計への適用性を示した。

The computational design of soft underwater swimmers is challenging because of the high degrees of freedom in soft-body modeling. In this paper, we present a differentiable pipeline for co-designing a soft swimmer's geometry and controller. Our pipeline unlocks gradient-based algorithms for discovering novel swimmer designs more efficiently than traditional gradient-free solutions. We propose Wasserstein barycenters as a basis for the geometric design of soft underwater swimmers since it is differentiable and can naturally interpolate between bio-inspired base shapes via optimal transport. By combining this design space with differentiable simulation and control, we can efficiently optimize a soft underwater swimmer's performance with fewer simulations than baseline methods. We demonstrate the efficacy of our method on various design problems such as fast, stable, and energy-efficient swimming and demonstrate applicability to multi-objective design.
翻訳日:2021-04-05 13:38:56 公開日:2021-04-02
# Assem-VC:現代音声合成技術による実声変換

Assem-VC: Realistic Voice Conversion by Assembling Modern Speech Synthesis Techniques ( http://arxiv.org/abs/2104.00931v1 )

ライセンス: Link先を確認
Kang-wook Kim, Seung-won Park and Myun-chul Joe(参考訳) 本稿では,現状の音声変換(vc)システムを2つのエンコーダ・ワンデコーダモデルとして提案する。 これらのモデルを比較した後、最高の機能を組み合わせてAssem-VCを提案します。 本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。 Assem-VCは、VCTKデータセットの自然性と話者類似性の両方において、従来の最先端アプローチよりも優れている。 目的として,音声後頭部図 (PPG) などの特徴の話者分離度についても検討した。 我々の調査は、多くのVCの成果がもはや人間のスピーチと区別されず、どんなモデルでも同様の品質が達成できることを示している。 オーディオサンプルはhttps://mindslab-ai. github.io/assem-vc/で入手できる。

In this paper, we pose the current state-of-the-art voice conversion (VC) systems as two-encoder-one-deco der models. After comparing these models, we combine the best features and propose Assem-VC, a new state-of-the-art any-to-many non-parallel VC system. This paper also introduces the GTA finetuning in VC, which significantly improves the quality and the speaker similarity of the outputs. Assem-VC outperforms the previous state-of-the-art approaches in both the naturalness and the speaker similarity on the VCTK dataset. As an objective result, the degree of speaker disentanglement of features such as phonetic posteriorgrams (PPG) is also explored. Our investigation indicates that many-to-many VC results are no longer distinct from human speech and similar quality can be achieved with any-to-many models. Audio samples are available at https://mindslab-ai. github.io/assem-vc/
翻訳日:2021-04-05 13:38:41 公開日:2021-04-02
# 無線ネットワークにおけるリンク層異常分類のための時系列イメージング

Time Series Imaging for Link Layer Anomaly Classification in Wireless Networks ( http://arxiv.org/abs/2104.00972v1 )

ライセンス: Link先を確認
Blaz Bertalanic, Marko Meza and Carolina Fortuna(参考訳) ラストマイルワイヤレス接続を使用するエンドデバイスの数は、スマートインフラストラクチャの台頭とともに劇的に増加し、スムーズで効率的なビジネスプロセスをサポートするために信頼性の高い機能を必要としている。 このような大規模無線ネットワークを効率的に管理するには、より高度で正確なネットワーク監視と誤動作検出ソリューションが必要である。 本稿では,再帰プロットとグラム角場を用いた無線異常検出のための画像ベース表現手法を初めて解析し,高精度な異常検出が可能な新しいディープラーニングアーキテクチャを提案する。 提案手法の相対的性能について検討し,時系列画像変換により2値分類では最大29%,マルチクラス分類では最大27%の異常検出性能が向上することを示した。 同時に、再帰プロット変換に基づく最高のパフォーマンスモデルは、古典的機械学習技術が使用される最先端技術と比較して、最大55%の増加につながる。 また、ガイド付きバックプロパゲーションの洞察によって可能となるインスタンスベースのアプローチを用いて、分類器の決定に対する洞察を提供する。 本研究では,時系列データの分類と比較し,分類性能を向上させるため,時系列信号から画像への変換の可能性を示す。

The number of end devices that use the last mile wireless connectivity is dramatically increasing with the rise of smart infrastructures and require reliable functioning to support smooth and efficient business processes. To efficiently manage such massive wireless networks, more advanced and accurate network monitoring and malfunction detection solutions are required. In this paper, we perform a first time analysis of image-based representation techniques for wireless anomaly detection using recurrence plots and Gramian angular fields and propose a new deep learning architecture enabling accurate anomaly detection. We examine the relative performance of the proposed model and show that the image transformation of time series improves the performance of anomaly detection by up to 29% for binary classification and by up to 27% for multiclass classification. At the same time, the best performing model based on recurrence plot transformation leads to up to 55% increase compared to the state of the art where classical machine learning techniques are used. We also provide insights for the decisions of the classifier using an instance based approach enabled by insights into guided back-propagation. Our results demonstrate the potential of transformation of time series signals to images to improve classification performance compared to classification on raw time series data.
翻訳日:2021-04-05 13:38:27 公開日:2021-04-02
# ユークリッド最小スパンニングツリーと階層空間クラスタリングのための高速並列アルゴリズム

Fast Parallel Algorithms for Euclidean Minimum Spanning Tree and Hierarchical Spatial Clustering ( http://arxiv.org/abs/2104.01126v1 )

ライセンス: Link先を確認
Yiqiu Wang, Shangdi Yu, Yan Gu, Julian Shun(参考訳) 本稿では,ユークリッド最小分散木と空間クラスタリング階層(HDBSCAN$^*$)を生成するための新しい並列アルゴリズムを提案する。 提案手法は, kruskal の最小スパンディングツリーアルゴリズムと双色最接近対計算を用いて, 分離されたペア分解を生成することに基づいている。 我々は、HDBSCAN$^*$に対して、アルゴリズムの作業量と空間を減らし、ウェルセパレーションという新しい概念を導入する。 また,gan と tao による最近の逐次アルゴリズムに基づく光学の並列近似アルゴリズムを提案する。 最後に, EMSTとHDBSCAN$^*$の両方で発生する異なるスケールのクラスタを可視化するために, デンドログラムと到達可能性プロットを計算するための新しい並列分割計算アルゴリズムを提案する。 提案アルゴリズムは, 逐次的処理量(演算数)と多対数深度(並列時間)とが一致し, 理論的に効率的であることを示す。 我々はアルゴリズムを実装し、計算と実現のために分離されたペアのサブセットのみを必要とするメモリ最適化を提案し、空間(最大10倍)と時間(最大8倍)の両方を節約する。 48コアマシンを用いた大規模実世界および合成データセットの実験により、我々の最速のアルゴリズムは11.13-55.89x、既存の並列アルゴリズムを少なくとも桁違いに上回った。

This paper presents new parallel algorithms for generating Euclidean minimum spanning trees and spatial clustering hierarchies (known as HDBSCAN$^*$). Our approach is based on generating a well-separated pair decomposition followed by using Kruskal's minimum spanning tree algorithm and bichromatic closest pair computations. We introduce a new notion of well-separation to reduce the work and space of our algorithm for HDBSCAN$^*$. We also present a parallel approximate algorithm for OPTICS based on a recent sequential algorithm by Gan and Tao. Finally, we give a new parallel divide-and-conquer algorithm for computing the dendrogram and reachability plots, which are used in visualizing clusters of different scale that arise for both EMST and HDBSCAN$^*$. We show that our algorithms are theoretically efficient: they have work (number of operations) matching their sequential counterparts, and polylogarithmic depth (parallel time). We implement our algorithms and propose a memory optimization that requires only a subset of well-separated pairs to be computed and materialized, leading to savings in both space (up to 10x) and time (up to 8x). Our experiments on large real-world and synthetic data sets using a 48-core machine show that our fastest algorithms outperform the best serial algorithms for the problems by 11.13--55.89x, and existing parallel algorithms by at least an order of magnitude.
翻訳日:2021-04-05 13:38:10 公開日:2021-04-02
# STMTrack: 時空間メモリネットワークによるテンプレートなしのビジュアルトラッキング

STMTrack: Template-free Visual Tracking with Space-time Memory Networks ( http://arxiv.org/abs/2104.00324v2 )

ライセンス: Link先を確認
Zhihong Fu, Qingjie Liu, Zehua Fu, Yunhong Wang(参考訳) オフライントレーニングされたシアームトラッカーの性能向上は,第1フレームから切り出されたテンプレートの固定情報がほぼ完全に採掘されているため,近年は難しくなっているが,ターゲットの外観変化に抵抗する能力は乏しい。 テンプレート更新機構を持つ既存のトラッカーは、時間を要する数値最適化と複雑な手設計の戦略を頼りに、競合する性能を達成する。 本稿では,標的に関する歴史的情報を十分に活用し,追跡時の外観変化への適応性を高めることのできる,時空間記憶ネットワーク上に構築した新たな追跡フレームワークを提案する。 具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。 さらに、メモリネットワークのピクセルレベルの類似度計算により、ターゲットのバウンディングボックスをより正確に生成することができる。 otb-2015、trackingnet、got-10k、lasot、uav123、vot2018など、多くの競合トラッカとの広範な実験と比較によって、37fpsで動作中の従来の最先端のリアルタイムメソッドよりも優れています。 コードはhttps://github.com/f zh0917/stmtrackで入手できる。

Boosting performance of the offline trained siamese trackers is getting harder nowadays since the fixed information of the template cropped from the first frame has been almost thoroughly mined, but they are poorly capable of resisting target appearance changes. Existing trackers with template updating mechanisms rely on time-consuming numerical optimization and complex hand-designed strategies to achieve competitive performance, hindering them from real-time tracking and practical applications. In this paper, we propose a novel tracking framework built on top of a space-time memory network that is competent to make full use of historical information related to the target for better adapting to appearance variations during tracking. Specifically, a novel memory mechanism is introduced, which stores the historical information of the target to guide the tracker to focus on the most informative regions in the current frame. Furthermore, the pixel-level similarity computation of the memory network enables our tracker to generate much more accurate bounding boxes of the target. Extensive experiments and comparisons with many competitive trackers on challenging large-scale benchmarks, OTB-2015, TrackingNet, GOT-10k, LaSOT, UAV123, and VOT2018, show that, without bells and whistles, our tracker outperforms all previous state-of-the-art real-time methods while running at 37 FPS. The code is available at https://github.com/f zh0917/STMTrack.
翻訳日:2021-04-05 10:29:12 公開日:2021-04-02
# 展望、調査、トレンド: 自律運転バーチャルテストのための公共運転データセットとツールセット

Perspective, Survey and Trends: Public Driving Datasets and Toolsets for Autonomous Driving Virtual Test ( http://arxiv.org/abs/2104.00273v2 )

ライセンス: Link先を確認
Pengliang Ji, Li Ruan, Yunzhi Xue, Limin Xiao, Qian Dong(参考訳) 初期の安全性と信頼性保証のメリットから、自動運転のバーチャルテストは、現実のシナリオでのクローズドループテストに比べて注目を集めている。 自律運転データセットとツールセットの可用性と品質は、自律運転システムのボトルネックを診断し、システムパフォーマンスを改善するための前提であるが、データセットとツールセットの多様性とプライバシーのために、それらの視点と品質の収集と特徴付けは、時間を要するだけでなく、ますます困難になっている。 本稿では,まず,自律走行テストのための体系的文献レビュー(slr)アプローチを提案し,2000年から2020年までの既存の公開データセットとツールセットの概要を紹介する。 シナリオに関する定量的な知見や展望、傾向推論、35の自動運転テストツールセットと70のテストデータセットによる提案も紹介されている。 私たちの知る限りでは、SLAベースの調査アプローチを使用して、データセットとツールセットの両方に関する最近の経験的な調査を初めて実施しています。 マルチフェイス分析と新たな知見により,システム設計者,実践者,ユーザにとって有用であると考えられる洞察が明らかにされるだけでなく,データセットやツールセットに関する自律運転調査において,系統的調査分析に関するさらなる研究が促進される。

Owing to the merits of early safety and reliability guarantee, autonomous driving virtual testing has recently gains increasing attention compared with closed-loop testing in real scenarios. Although the availability and quality of autonomous driving datasets and toolsets are the premise to diagnose the autonomous driving system bottlenecks and improve the system performance, due to the diversity and privacy of the datasets and toolsets, collecting and featuring the perspective and quality of them become not only time-consuming but also increasingly challenging. This paper first proposes a Systematic Literature Review (SLR) approach for autonomous driving tests, then presents an overview of existing publicly available datasets and toolsets from 2000 to 2020. Quantitative findings with the scenarios concerned, perspectives and trend inferences and suggestions with 35 automated driving test tool sets and 70 test data sets are also presented. To the best of our knowledge, we are the first to perform such recent empirical survey on both the datasets and toolsets using a SLA based survey approach. Our multifaceted analyses and new findings not only reveal insights that we believe are useful for system designers, practitioners and users, but also can promote more researches on a systematic survey analysis in autonomous driving surveys on dataset and toolsets.
翻訳日:2021-04-05 10:28:45 公開日:2021-04-02
# スパースランダム3次行列を用いた1次元時間チャネル分離畳み込み圧縮

Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices ( http://arxiv.org/abs/2103.17142v3 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Matthijs Van Keirsbilck, and Alexander Keller(参考訳) 1次元の時間チャネル分離可能な畳み込みにおける1x1-畳み込みは、$\{-1,0,+1\}$ の重みを持つ無作為な三元行列に置き換えられることを実証する。 このようなレイヤは、いかなる乗算も行わず、トレーニングも必要としない。 さらに、行列は計算中にチップ上で生成され、そのためメモリアクセスは不要である。 同じパラメータ予算で、より深くより表現力のあるモデルを提供し、いくつかのタスクで既存のモデルのParetoフロンティアを改善することができます。 google speech commands v1でのコマンド認識では、最先端の精度を同じネットワークサイズで97.21\%$から97.41\%$に改善する。 あるいは、既存のモデルのコストを下げることもできます。 librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1/%を犠牲にします。

We demonstrate that 1x1-convolutions in 1D time-channel separable convolutions may be replaced by constant, sparse random ternary matrices with weights in $\{-1,0,+1\}$. Such layers do not perform any multiplications and do not require training. Moreover, the matrices may be generated on the chip during computation and therefore do not require any memory access. With the same parameter budget, we can afford deeper and more expressive models, improving the Pareto frontiers of existing models on several tasks. For command recognition on Google Speech Commands v1, we improve the state-of-the-art accuracy from $97.21\%$ to $97.41\%$ at the same network size. Alternatively, we can lower the cost of existing models. For speech recognition on Librispeech, we half the number of weights to be trained while only sacrificing about $1\%$ of the floating-point baseline's word error rate.
翻訳日:2021-04-05 10:28:24 公開日:2021-04-02
# Sub-GMN:Subgraph Matching Network Model

Sub-GMN: The Subgraph Matching Network Model ( http://arxiv.org/abs/2104.00186v2 )

ライセンス: Link先を確認
Zixun Lan, Limin Yu, Linglong Yuan, Zili Wu, Fei Ma(参考訳) グラフ理論における最も基本的なタスクの1つとして、サブグラフマッチングは情報検索、コンピュータビジョン、生物学、化学、自然言語処理など、多くの分野において重要なタスクである。 しかし、部分グラフマッチング問題はNP完全問題である。 本研究では,エンド・ツー・エンド学習に基づくサブグラフマッチングタスクの近似手法であるsubgraph matching network (sub-gmn)を提案する。 提案したSub-GMNはまずグラフ表現学習を用いてノードをノードレベルの埋め込みにマッピングする。 次に、メトリック学習とアテンションメカニズムを組み合わせて、データグラフとクエリグラフの一致したノード間の関係をモデル化する。 提案手法の性能を検証するため,本手法を2つのデータベースに適用した。 比較基準としてGNNとFGNNの2つの既存手法を用いた。 実験の結果、データセット1では、サブGMNの精度は、それぞれGNNとFGNNの精度よりも12.21\%と3.2\%高いことがわかった。 平均走行時間では、Sub-GMNはFGNNの20~40倍高速である。 さらに、データセット2の全ての実験におけるSub-GMNの平均F1スコアは0.95に達し、Sub-GMNはより正確なノード間一致を出力することを示した。 提案したSub-GMNは,従来のGNNのサブグラフマッチングタスクと比較して,テスト/アプリケーション段階でのクエリやデータグラフの変化が可能であるのに対して,従来のGNNのほとんどのメソッドでは,トレーニング段階で使用されるのと同じクエリグラフのテスト/アプリケーション中にのみ一致するサブグラフを見つけることができる。 提案したSub-GMNのもう1つの利点は、ノード間一致のリストを出力できることである。

As one of the most fundamental tasks in graph theory, subgraph matching is a crucial task in many fields, ranging from information retrieval, computer vision, biology, chemistry and natural language processing. Yet subgraph matching problem remains to be an NP-complete problem. This study proposes an end-to-end learning-based approximate method for subgraph matching task, called subgraph matching network (Sub-GMN). The proposed Sub-GMN firstly uses graph representation learning to map nodes to node-level embedding. It then combines metric learning and attention mechanisms to model the relationship between matched nodes in the data graph and query graph. To test the performance of the proposed method, we applied our method on two databases. We used two existing methods, GNN and FGNN as baseline for comparison. Our experiment shows that, on dataset 1, on average the accuracy of Sub-GMN are 12.21\% and 3.2\% higher than that of GNN and FGNN respectively. On average running time Sub-GMN runs 20-40 times faster than FGNN. In addition, the average F1-score of Sub-GMN on all experiments with dataset 2 reached 0.95, which demonstrates that Sub-GMN outputs more correct node-to-node matches. Comparing with the previous GNNs-based methods for subgraph matching task, our proposed Sub-GMN allows varying query and data graphes in the test/application stage, while most previous GNNs-based methods can only find a matched subgraph in the data graph during the test/application for the same query graph used in the training stage. Another advantage of our proposed Sub-GMN is that it can output a list of node-to-node matches, while most existing end-to-end GNNs based methods cannot provide the matched node pairs.
翻訳日:2021-04-05 10:28:07 公開日:2021-04-02
# 分散とモデルなしのフェデレーション学習:関数空間における合意に基づく蒸留

Decentralized and Model-Free Federated Learning: Consensus-Based Distillation in Function Space ( http://arxiv.org/abs/2104.00352v2 )

ライセンス: Link先を確認
Akihito Taya, Takayuki Nishio, Masahiro Morikura, Koji Yamamoto(参考訳) 本稿では,マルチホップネットワークを介して接続されたIoEデバイスのための分散FL方式を提案する。 FLはプライバシー保護アルゴリズムの実現手段として注目されているが、分散パラメータ平均化方式を使用する場合の非凸性のため、FLアルゴリズムが最適点に収束することが保証されていない。 したがって、最適な解に収束する分散アルゴリズムを開発する必要がある。 提案アルゴリズムの鍵となる考え方は,パラメータ空間ではなく関数空間に局所予測関数を集約することである。 機械学習タスクは凸関数最適化問題とみなすことができるため、コンセンサスに基づく最適化アルゴリズムは、関数空間で機能するように調整された場合、大域最適化を実現する。 本稿では,まず関数空間における提案アルゴリズムの収束を解析し,その収束をメタアルゴリズムと呼ぶ。 スペクトルグラフ理論は、数値ベクトルと同様の方法で函数空間に適用できることが示されている。 次に、メタアルゴリズムの実装として、NN用のCMFDを開発する。 CMFDは知識蒸留を利用して、パラメータ平均化なしで隣り合うデバイス間の機能集約を実現する。 CMFDの利点の1つは、分散学習者間でNNモデルが異なる場合でも動作することである。 本稿では,CMFDが弱い接続ネットワーク下でのパラメータ集約よりも高い精度を実現することを示す。 CMFDの安定性はパラメータ凝集法よりも高い。

This paper proposes a decentralized FL scheme for IoE devices connected via multi-hop networks. FL has gained attention as an enabler of privacy-preserving algorithms, but it is not guaranteed that FL algorithms converge to the optimal point because of non-convexity when using decentralized parameter averaging schemes. Therefore, a distributed algorithm that converges to the optimal solution should be developed. The key idea of the proposed algorithm is to aggregate the local prediction functions, not in a parameter space but in a function space. Since machine learning tasks can be regarded as convex functional optimization problems, a consensus-based optimization algorithm achieves the global optimum if it is tailored to work in a function space. This paper at first analyzes the convergence of the proposed algorithm in a function space, which is referred to as a meta-algorithm. It is shown that spectral graph theory can be applied to the function space in a similar manner as that of numerical vectors. Then, a CMFD is developed for NN as an implementation of the meta-algorithm. CMFD leverages knowledge distillation to realize function aggregation among adjacent devices without parameter averaging. One of the advantages of CMFD is that it works even when NN models are different among the distributed learners. This paper shows that CMFD achieves higher accuracy than parameter aggregation under weakly-connected networks. The stability of CMFD is also higher than that of parameter aggregation methods.
翻訳日:2021-04-05 10:27:37 公開日:2021-04-02
# 離散不規則な自己スーパービジョン表現からの音声合成

Speech Resynthesis from Discrete Disentangled Self-Supervised Representations ( http://arxiv.org/abs/2104.00355v2 )

ライセンス: Link先を確認
Adam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux(参考訳) 音声合成作業に自己教師付き離散表現を用いることを提案する。 そこで, 音声コンテンツ, 韻律情報, 話者識別のための低ビット表現を別々に抽出する。 これにより、音声を制御可能な方法で合成することができる。 我々は,様々な最先端,自己指導型表現学習手法を解析し,再構成品質と非絡み合い特性を考慮して,各手法の利点について光を当てた。 具体的には、F0再構成、話者識別性能(再生と音声変換の両方)、録音の可知性、全体的な品質を主観的人間評価を用いて評価する。 最後に、これらの表現が超軽量音声コーデックにどのように使用できるかを示す。 得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。 オーディオサンプルはhttps://re synthesis-ssl.github .io/で確認できる。

We propose using self-supervised discrete representations for the task of speech resynthesis. To generate disentangled representation, we separately extract low-bitrate representations for speech content, prosodic information, and speaker identity. This allows to synthesize speech in a controllable manner. We analyze various state-of-the-art, self-supervised representation learning methods and shed light on the advantages of each method while considering reconstruction quality and disentanglement properties. Specifically, we evaluate the F0 reconstruction, speaker identification performance (for both resynthesis and voice conversion), recordings' intelligibility, and overall quality using subjective human evaluation. Lastly, we demonstrate how these representations can be used for an ultra-lightweight speech codec. Using the obtained representations, we can get to a rate of 365 bits per second while providing better speech quality than the baseline methods. Audio samples can be found under https://resynthesis- ssl.github.io/.
翻訳日:2021-04-05 10:27:18 公開日:2021-04-02