このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210523となっている論文です。

PDF登録状況(公開日: 20210523)

TitleAuthorsAbstract論文公表日・翻訳日
# 複数の実験材料分野におけるベイズ最適化性能のベンチマーク

Benchmarking the Performance of Bayesian Optimization across Multiple Experimental Materials Science Domains ( http://arxiv.org/abs/2106.01309v1 )

ライセンス: Link先を確認
Qiaohao Liang, Aldair E. Gongora, Zekun Ren, Armi Tiihonen, Zhe Liu, Shijing Sun, James R. Deneault, Daniil Bash, Flore Mekki-Berrada, Saif A. Khan, Kedar Hippalgaonkar, Benji Maruyama, Keith A. Brown, John Fisher III, and Tonio Buonassisi(参考訳) 材料最適化のための機械学習(ML)の分野では、ベイズ最適化(BO)のようなアクティブな学習アルゴリズムが、自律的かつ高スループットな実験システムを導くために利用されてきた。 しかし、boの汎用最適化アルゴリズムとしての効率を幅広い実験材料科学領域で評価した研究はごくわずかである。 本研究では, 炭素ナノチューブポリマーブレンド, 銀ナノ粒子, 鉛-ハロゲン化物ペロブスカイト, および添加性高分子構造および形状の5種類の実験材料システムにおいて, サロゲートモデルと獲得関数ペアの集合体を用いてBOアルゴリズムの性能を評価する。 一般的な材料最適化目標に対する加速と拡張の指標を定義することにより、サロゲートモデル選択において、異方性カーネル(オートマチック関連検出、ARD)とランダムフォレスト(RF)は同等の性能を有し、共にARDなしで一般的に使用されるGPより優れていることが分かる。 本稿では、RFおよびGPの暗黙的な分布仮定と、異方性カーネルを用いたGPの利点について論じる。 材料最適化キャンペーンにおけるboのモデル選択に関する実験家への実践的洞察を提供する。

In the field of machine learning (ML) for materials optimization, active learning algorithms, such as Bayesian Optimization (BO), have been leveraged for guiding autonomous and high-throughput experimentation systems. However, very few studies have evaluated the efficiency of BO as a general optimization algorithm across a broad range of experimental materials science domains. In this work, we evaluate the performance of BO algorithms with a collection of surrogate model and acquisition function pairs across five diverse experimental materials systems, namely carbon nanotube polymer blends, silver nanoparticles, lead-halide perovskites, as well as additively manufactured polymer structures and shapes. By defining acceleration and enhancement metrics for general materials optimization objectives, we find that for surrogate model selection, Gaussian Process (GP) with anisotropic kernels (automatic relevance detection, ARD) and Random Forests (RF) have comparable performance and both outperform the commonly used GP without ARD. We discuss the implicit distributional assumptions of RF and GP, and the benefits of using GP with anisotropic kernels in detail. We provide practical insights for experimentalists on surrogate model selection of BO during materials optimization campaigns.
翻訳日:2021-06-06 08:51:56 公開日:2021-05-23
# 遅延エネルギー輸送による画像間変換

Unpaired Image-to-Image Translation via Latent Energy Transport ( http://arxiv.org/abs/2012.00649v3 )

ライセンス: Link先を確認
Yang Zhao, Changyou Chen(参考訳) 画像から画像への変換は、2つの視覚的ドメイン間の識別対象スタイルに翻訳しながら、ソースコンテンツを保存することを目的としている。 ほとんどの作品は、周囲の画像空間に敵対的な学習を適用しており、これは計算コストが高く、訓練が難しい可能性がある。 本稿では,この課題に対する事前学習オートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。 予め訓練されたオートエンコーダは、潜伏コード抽出器および画像再構成作業員の両方として機能する。 LETITは2つのドメインが同じ潜在空間を共有しているという仮定に基づいており、潜在表現はコンテンツコードとドメイン固有のスタイルコードとして暗黙的に分解される。 2つのコードを明示的に抽出し、それらを統合するために適応型インスタンス正規化を適用する代わりに、潜在ebmは、コンテンツコードを維持しながら、ソーススタイルのコードをターゲットのスタイルコードにトランスポートすることを暗黙的に学習することができる。 この単純化されたソリューションは、一方の未ペア画像翻訳設定においてより効率的である。 質的および定量的比較は、コンテンツ保存に優れた翻訳品質と忠実さを示す。 私たちのモデルは1024$\times$1024の解像度の未ペア画像翻訳に適用できる最初のモデルです。

Image-to-image translation aims to preserve source contents while translating to discriminative target styles between two visual domains. Most works apply adversarial learning in the ambient image space, which could be computationally expensive and challenging to train. In this paper, we propose to deploy an energy-based model (EBM) in the latent space of a pretrained autoencoder for this task. The pretrained autoencoder serves as both a latent code extractor and an image reconstruction worker. Our model, LETIT, is based on the assumption that two domains share the same latent space, where latent representation is implicitly decomposed as a content code and a domain-specific style code. Instead of explicitly extracting the two codes and applying adaptive instance normalization to combine them, our latent EBM can implicitly learn to transport the source style code to the target style code while preserving the content code, an advantage over existing image translation methods. This simplified solution is also more efficient in the one-sided unpaired image translation setting. Qualitative and quantitative comparisons demonstrate superior translation quality and faithfulness for content preservation. Our model is the first to be applicable to 1024$\times$1024-res olution unpaired image translation to the best of our knowledge.
翻訳日:2021-05-30 20:10:47 公開日:2021-05-23
# (参考訳) 粗大から微細なマルチレゾリューション時相畳み込みネットワーク [全文訳有]

Coarse to Fine Multi-Resolution Temporal Convolutional Network ( http://arxiv.org/abs/2105.10859v1 )

ライセンス: CC BY 4.0
Dipika Singhania, Rahul Rahaman, Angela Yao(参考訳) 時間的畳み込みネットワーク(TCN)は、時間的ビデオセグメンテーションのための一般的なアーキテクチャである。 しかし、TCNは過分割エラーに悩まされ、スムーズさと時間的一貫性を確保するために追加の改良モジュールを必要とする。 本研究では,シーケンスフラグメンテーション問題に取り組むための,新しい時間エンコーダ・デコーダを提案する。 特にデコーダは、複数の時間分解能の暗黙のアンサンブルを持つ粗い微細構造に従う。 センセーブリングはより正確でより正確なセグメンテーションを生成し、追加のリファインメントモジュールの必要性を回避します。 さらに,様々な時間分解能に対するロバスト性を促進するため,マルチレゾリューション機能拡張戦略によりトレーニングを強化した。 最後に、我々のアーキテクチャをサポートし、さらにシーケンスコヒーレンシーを促進するために、ビデオレベルでの誤分類を罰するアクション損失を提案する。 実験によると、我々のスタンドアロンアーキテクチャは、新しい特徴提示戦略と新しい損失と共に、3つのテンポラルビデオセグメンテーションベンチマークの最先端を上回っている。

Temporal convolutional networks (TCNs) are a commonly used architecture for temporal video segmentation. TCNs however, tend to suffer from over-segmentation errors and require additional refinement modules to ensure smoothness and temporal coherency. In this work, we propose a novel temporal encoder-decoder to tackle the problem of sequence fragmentation. In particular, the decoder follows a coarse-to-fine structure with an implicit ensemble of multiple temporal resolutions. The ensembling produces smoother segmentations that are more accurate and better-calibrated, bypassing the need for additional refinement modules. In addition, we enhance our training with a multi-resolution feature-augmentation strategy to promote robustness to varying temporal resolutions. Finally, to support our architecture and encourage further sequence coherency, we propose an action loss that penalizes misclassifications at the video level. Experiments show that our stand-alone architecture, together with our novel feature-augmentation strategy and new loss, outperforms the state-of-the-art on three temporal video segmentation benchmarks.
翻訳日:2021-05-26 12:02:09 公開日:2021-05-23
# (参考訳) EXoN: 説明可能なエンコーダネットワーク [全文訳有]

EXoN: EXplainable encoder Network ( http://arxiv.org/abs/2105.10867v1 )

ライセンス: CC BY 4.0
SeungHwan An, Jong-June Jeon, Hosik Choi(参考訳) 提案手法は,EXoN(Explainable Encoder Network)によって説明可能な潜在空間を生成する変分オートエンコーダ(VAE)の半教師付き学習手法を提案する。 EXoNは、VAEを実装するための2つの便利なツールを提供する。 まず、特定のラベルに対する潜在分布の概念的中心を自由に割り当てることができる。 我々は, ガウス混合分布の多モード特性を観測ラベルに従って, VAEの潜伏空間を分離する。 次に、 EXoN から得られる$F$-statistics と呼ばれる単純な統計量により、潜伏部分空間を簡単に調べることができる。 その結果、負のクロスエントロピーとクルバック・リーブラーの発散は、説明可能な潜在空間の構築において重要な役割を担い、提案モデルから生成されたサンプルの変動は、「活性化潜在部分空間」と呼ばれる特定の部分空間に依存することがわかった。 MNISTとCIFAR-10データセットを用いて、EXoNは画像のラベルと特徴を効果的に表現する説明可能な潜在空間を生成可能であることを示す。

We propose a new semi-supervised learning method of Variational AutoEncoder (VAE) which yields explainable latent space by EXplainable encoder Network (EXoN). The EXoN provides two useful tools for implementing VAE. First, we can freely assign a conceptual center of latent distribution for a specific label. We separate the latent space of VAE with multi-modal property of the Gaussian mixture distribution according to labels of observations. Next, we can easily investigate the latent subspace by a simple statistics, known as $F$-statistics, obtained from the EXoN. We found that both negative cross-entropy and Kullback-Leibler divergence play a crucial role in constructing explainable latent space and the variability of the generated samples from our proposed model depends on a specific subspace, called `activated latent subspace'. With MNIST and CIFAR-10 dataset, we show that the EXoN can produce explainable latent space which effectively represents labels and characteristics of the images.
翻訳日:2021-05-26 11:34:14 公開日:2021-05-23
# (参考訳) CMUA-Watermark: ディープフェイクのクロスモデルユニバーサルな対角線透かし [全文訳有]

CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Combating Deepfakes ( http://arxiv.org/abs/2105.10872v1 )

ライセンス: CC0 1.0
Hao Huang, Yongtao Wang, Zhaoyu Chen, Yuheng Li, Zhi Tang, Wei Chu, Jingdong Chen, Weisi Lin, Kai-Kuang Ma(参考訳) ディープフェイクの悪意ある応用(すなわち、テクノロジーはターゲットの顔や顔の特徴を生成できる)は、我々の社会に大きな脅威をもたらした。 ディープフェイクモデルによって生成された偽のマルチメディアコンテンツは、評判を傷つけ、偽装された人の財産を脅かすことさえある。 幸いなことに、逆向きの透かしはディープフェイクモデルと戦うために使われ、歪んだ画像を生成する。 既存の手法では、特定のディープフェイクモデルに対する敵対的な透かしを生成するために、顔画像ごとに個別のトレーニングプロセスが必要である。 この問題に対処するために,複数のディープフェイクモデルから数千の顔画像を保護するクロスモデルユニバーサル・ディバイザリー・ウォーターマーク(CMUA-Watermark)を生成するために,ディープフェイクモデルに対するユニバーサル・ディバイザ・アタック手法を提案する。 具体的には,複数のディープフェイクモデルを攻撃し,これらのモデルの勾配を反復的に組み合わせ,クロスモデルユニバーサルアタックパイプラインを提案する。 そこで本研究では,異なる顔画像から発生する逆透かしの競合を緩和するバッチベース手法を提案する。 最後に,より合理的で総合的な評価手法を考案し,その効果を評価した。 実験の結果,cmua-watermarkは,ディープフェイクモデルが生成する偽顔画像を効果的に歪め,実際のシーンにおけるディープフェイクから顔画像を保護することができた。

Malicious application of deepfakes (i.e., technologies can generate target faces or face attributes) has posed a huge threat to our society. The fake multimedia content generated by deepfake models can harm the reputation and even threaten the property of the person who has been impersonated. Fortunately, the adversarial watermark could be used for combating deepfake models, leading them to generate distorted images. The existing methods require an individual training process for every facial image, to generate the adversarial watermark against a specific deepfake model, which are extremely inefficient. To address this problem, we propose a universal adversarial attack method on deepfake models, to generate a Cross-Model Universal Adversarial Watermark (CMUA-Watermark) that can protect thousands of facial images from multiple deepfake models. Specifically, we first propose a cross-model universal attack pipeline by attacking multiple deepfake models and combining gradients from these models iteratively. Then we introduce a batch-based method to alleviate the conflict of adversarial watermarks generated by different facial images. Finally, we design a more reasonable and comprehensive evaluation method for evaluating the effectiveness of the adversarial watermark. Experimental results demonstrate that the proposed CMUA-Watermark can effectively distort the fake facial images generated by deepfake models and successfully protect facial images from deepfakes in real scenes.
翻訳日:2021-05-26 11:06:40 公開日:2021-05-23
# (参考訳) 弱教師付きクロスビュー3次元ポーズ推定 [全文訳有]

Weakly-supervised Cross-view 3D Human Pose Estimation ( http://arxiv.org/abs/2105.10882v1 )

ライセンス: CC BY 4.0
Guoliang Hua, Wenhao Li, Qian Zhang, Runwei Ding, Hong Liu(参考訳) 単眼的3次元人物ポーズ推定手法は有意な進歩を遂げているが,本質的な奥行きあいまいさのため解決には至っていない。 代わりに、マルチビュー情報を活用することは、絶対的な3d人間のポーズ推定を実現する実用的な方法である。 本稿では,弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。 2つのカメラビューのみを使用することで,2次元アノテーションのみを必要とせず,弱い教師付きで最先端のパフォーマンスを実現することができる。 具体的には,三角法と微細化の2段階を含む。 まず,従来の2D検出手法で得られる2Dキーポイントを考慮し,2Dキーポイントを粗い3Dポーズに上げるために2つのビューにわたって三角測量を行い,さらに,空間構成や相互相関を探索できる新しいU字グラフ畳み込みネットワーク(CV-UGCN)を設計し,粗い3Dポーズを洗練させる。 特に、幾何的および構造認識の整合性チェックを行う弱教師付き学習により、洗練の進行が達成される。 本手法を標準ベンチマークデータセットHuman3.6Mで評価する。 ベンチマークデータセットの平均的な関節位置誤差は27.4mmであり、最先端(27.4mm対30.2mm)を著しく上回っている。

Although monocular 3D human pose estimation methods have made significant progress, it's far from being solved due to the inherent depth ambiguity. Instead, exploiting multi-view information is a practical way to achieve absolute 3D human pose estimation. In this paper, we propose a simple yet effective pipeline for weakly-supervised cross-view 3D human pose estimation. By only using two camera views, our method can achieve state-of-the-art performance in a weakly-supervised manner, requiring no 3D ground truth but only 2D annotations. Specifically, our method contains two steps: triangulation and refinement. First, given the 2D keypoints that can be obtained through any classic 2D detection methods, triangulation is performed across two views to lift the 2D keypoints into coarse 3D poses.Then, a novel cross-view U-shaped graph convolutional network (CV-UGCN), which can explore the spatial configurations and cross-view correlations, is designed to refine the coarse 3D poses. In particular, the refinement progress is achieved through weakly-supervised learning, in which geometric and structure-aware consistency checks are performed. We evaluate our method on the standard benchmark dataset, Human3.6M. The Mean Per Joint Position Error on the benchmark dataset is 27.4 mm, which outperforms the state-of-the-arts remarkably (27.4 mm vs 30.2 mm).
翻訳日:2021-05-26 10:45:11 公開日:2021-05-23
# (参考訳) THP: 事象系列に基づくグランガー因果学習のためのトポロジカルホークプロセス [全文訳有]

THP: Topological Hawkes Processes for Learning Granger Causality on Event Sequences ( http://arxiv.org/abs/2105.10884v1 )

ライセンス: CC BY 4.0
Ruichu Cai, Siyu Wu, Jie Qiao, Zhifeng Hao, Keli Zhang, Xi Zhang(参考訳) 多型イベントシーケンスにおけるイベントタイプ間のグランガー因果関係の学習は重要だが難しい課題である。 既存の方法、例えば多変量ホークス過程は、各シーケンスが独立で同一に分散していると仮定している。 しかし、多くの実世界のアプリケーションでは、事象は歴史だけでなく、その位相近傍によっても興奮または抑制されるような、事象列の背後にあるトポロジカルネットワークに遭遇することが一般的である。 従って、イベントシーケンス間のトポロジー依存性を記述できないことは、因果構造のエラー検出につながる。 時間的畳み込みの観点からホークス過程を考慮し、トポロジー領域におけるグラフ畳み込みと時間領域における時間的畳み込みを関連付けるトポロジー・ホークス過程(THP)を提案する。 さらに, 確率フレームワークにおいて, thpのグランジャー因果関係学習法を提案する。 提案手法は, thp のグラフ畳み込みに基づく度数関数と, 度数関数の期待最大化を伴うスパース最適化スキームを特徴とする。 合成および実世界のデータの理論的解析と実験により,提案手法の有効性が示された。

Learning Granger causality among event types on multi-type event sequences is an important but challenging task. Existing methods, such as the Multivariate Hawkes processes, mostly assumed that each sequence is independent and identically distributed. However, in many real-world applications, it is commonplace to encounter a topological network behind the event sequences such that an event is excited or inhibited not only by its history but also by its topological neighbors. Consequently, the failure in describing the topological dependency among the event sequences leads to the error detection of the causal structure. By considering the Hawkes processes from the view of temporal convolution, we propose a Topological Hawkes processes (THP) to draw a connection between the graph convolution in topology domain and the temporal convolution in time domains. We further propose a Granger causality learning method on THP in a likelihood framework. The proposed method is featured with the graph convolution-based likelihood function of THP and a sparse optimization scheme with an Expectation-Maximiza tion of the likelihood function. Theoretical analysis and experiments on both synthetic and real-world data demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-26 10:09:44 公開日:2021-05-23
# (参考訳) 競合型マルチエージェント学習における神経進化の効果的利用 [全文訳有]

An Efficient Application of Neuroevolution for Competitive Multiagent Learning ( http://arxiv.org/abs/2105.10907v1 )

ライセンス: CC BY 4.0
Unnikrishnan Rajendran Menon and Anirudh Rajiv Menon(参考訳) マルチエージェントシステムは強化学習アルゴリズムを用いた実世界の問題の評価と分析に理想的な環境を提供する。 従来のマルチエージェント学習のアプローチは、長い訓練期間と高い計算複雑性の影響を受けている。 NEAT(NeuroEvolution of Augmenting Topologies)は、人工知能の分野で最適化問題に取り組むためにしばしば使用される、最高のニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。 本稿では,改良pongゲーム環境における競争的マルチエージェント学習を効率良く実現するアルゴリズムを提案する。 競合するエージェントは、同様の観測空間パラメータを持ちながら異なる規則に従う。 提案アルゴリズムは, 環境のこの特性を利用して, 全てのエージェントに対して最適なポリシーを求める特異な神経進化過程を定義する。 その結果,提案手法は,既存のマルチエージェント強化学習モデルと比較して,非常に短い訓練期間で理想的な動作を実現することが示された。

Multiagent systems provide an ideal environment for the evaluation and analysis of real-world problems using reinforcement learning algorithms. Most traditional approaches to multiagent learning are affected by long training periods as well as high computational complexity. NEAT (NeuroEvolution of Augmenting Topologies) is a popular evolutionary strategy used to obtain the best performing neural network architecture often used to tackle optimization problems in the field of artificial intelligence. This paper utilizes the NEAT algorithm to achieve competitive multiagent learning on a modified pong game environment in an efficient manner. The competing agents abide by different rules while having similar observation space parameters. The proposed algorithm utilizes this property of the environment to define a singular neuroevolutionary procedure that obtains the optimal policy for all the agents. The compiled results indicate that the proposed implementation achieves ideal behaviour in a very short training period when compared to existing multiagent reinforcement learning models.
翻訳日:2021-05-26 09:29:37 公開日:2021-05-23
# (参考訳) 時空間変換器を用いたエンドツーエンドビデオ物体検出 [全文訳有]

End-to-End Video Object Detection with Spatial-Temporal Transformers ( http://arxiv.org/abs/2105.10920v1 )

ライセンス: CC BY 4.0
Lu He, Qianyu Zhou, Xiangtai Li, Li Niu, Guangliang Cheng, Xiao Li, Wenxuan Liu, Yunhai Tong, Lizhuang Ma, Liqing Zhang(参考訳) 近年、DeTRとDeformable DETRは、従来の複雑な手作り検出器として優れた性能を示しながら、オブジェクト検出において多くの手作り部品の必要性を排除するために提案されている。 しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。 本稿では,時空間変換器アーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。 本稿の目的は,VODのパイプラインの合理化であり,光学的フローやリカレントニューラルネットワーク,関係ネットワークなど,多数の手作りのコンポーネントの必要性を効果的に除去することである。 さらに,detrのオブジェクトクエリ設計の利点から,seq-nms や tubelet rescoring などの複雑な後処理メソッドは不要であり,パイプラインをシンプルかつクリーンに保つ。 特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約するために,時間的トランスフォーマティブを提案する。 本方式では,複数フレームの空間的詳細をエンコードするtemporal deformable transformer encoder (tdte),オブジェクトクエリをヒューズするtemporal query encoder (tqe),現在のフレーム検出結果を得るためにtemporal deformable transformer decoderの3つのコンポーネントからなる。 これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。 TransVODはImageNet VIDのベンチマークで同等の結果を得る。 われわれのTransVODがビデオオブジェクト検出の新しい視点を提供することを期待している。 コードはhttps://github.com/S JTU-LuHe/TransVOD.co mで公開される。

Recently, DETR and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, an end-to-end video object detection model based on a spatial-temporal Transformer architecture. The goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow, recurrent neural networks, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS or Tubelet rescoring, which keeps the pipeline simple and clean. In particular, we present temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal Transformer consists of three components: Temporal Deformable Transformer Encoder (TDTE) to encode the multiple frame spatial details, Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. TransVOD yields comparable results performance on the benchmark of ImageNet VID. We hope our TransVOD can provide a new perspective for video object detection. Code will be made publicly available at https://github.com/S JTU-LuHe/TransVOD.
翻訳日:2021-05-26 09:15:51 公開日:2021-05-23
# (参考訳) 正規化は、正しいハイパーパラメーターで 中毒攻撃を緩和するのに役立つ [全文訳有]

Regularization Can Help Mitigate Poisoning Attacks... with the Right Hyperparameters ( http://arxiv.org/abs/2105.10948v1 )

ライセンス: CC BY 4.0
Javier Carnerero-Cano, Luis Mu\~noz-Gonz\'alez, Phillippa Spencer, Emil C. Lupu(参考訳) 機械学習アルゴリズムは、アルゴリズムのパフォーマンスを低下させるためにトレーニングデータの一部が操作される中毒攻撃に対して脆弱である。 正規化ハイパーパラメータが一定であると考える現在のアプローチは、アルゴリズムの頑健さと正規化の影響を過度に悲観的に捉えていることを示している。 本稿では,攻撃が過度パラメータに与える影響を考慮に入れた新たな最適攻撃定式化を提案し,攻撃を「emph{minimax bilevel optimization problem}」としてモデル化する。 これにより、最適な攻撃を定式化し、ハイパーパラメータを選択し、最悪のケース条件下で堅牢性を評価することができる。 この定式化を,$l_2$正規化を用いたロジスティック回帰に適用し,従来の戦略の限界を実証的に示し,$l_2$正規化を用いた中毒攻撃の効果を弱める効果を証明した。

Machine learning algorithms are vulnerable to poisoning attacks, where a fraction of the training data is manipulated to degrade the algorithms' performance. We show that current approaches, which typically assume that regularization hyperparameters remain constant, lead to an overly pessimistic view of the algorithms' robustness and of the impact of regularization. We propose a novel optimal attack formulation that considers the effect of the attack on the hyperparameters, modelling the attack as a \emph{minimax bilevel optimization problem}. This allows to formulate optimal attacks, select hyperparameters and evaluate robustness under worst case conditions. We apply this formulation to logistic regression using $L_2$ regularization, empirically show the limitations of previous strategies and evidence the benefits of using $L_2$ regularization to dampen the effect of poisoning attacks.
翻訳日:2021-05-26 08:50:26 公開日:2021-05-23
# (参考訳) sscan : ハイパースペクトル画像デノージングのための空間スペクトルクロスアテンションネットワーク [全文訳有]

SSCAN: A Spatial-spectral Cross Attention Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2105.10949v1 )

ライセンス: CC BY 4.0
Zhiqiang Wang, Zhenfeng Shao, Xiao Huang, Jiaming Wang, Tao Lu, Sihang Zhang(参考訳) ハイパースペクトル画像(hsis)は、それらが提供できる豊富なスペクトル情報のおかげで、様々なアプリケーションで広く使われている。 すべてのhsi処理タスクの中で、hsiデノイジングは重要なステップである。 近年,深層学習に基づく画像復号化手法が大きく進歩し,性能も向上している。 しかし、既存の手法では隣接するスペクトルバンド間の相関を無視する傾向があり、分断結果のスペクトル歪みやぼやけたエッジといった問題を引き起こす。 本研究では,グループ畳み込みとアテンションモジュールを組み合わせた新しいhsiデノージングネットワークであるsscanを提案する。 具体的には,空間的注意モジュールを用いたグループ畳み込みを用いて,モデルの注意を帯域毎の重要な特徴に向けることで特徴抽出を容易にする。 ハイパースペクトル画像における空間情報とスペクトル情報を有効利用するためのスペクトル空間アテンションブロック(SSAB)を提案する。 さらに、トレーニング安定性を確保するために、スキップ接続による残差学習操作を採用する。 実験の結果,提案したSSCANは最先端のHSI復調アルゴリズムよりも優れていた。

Hyperspectral images (HSIs) have been widely used in a variety of applications thanks to the rich spectral information they are able to provide. Among all HSI processing tasks, HSI denoising is a crucial step. Recently, deep learning-based image denoising methods have made great progress and achieved great performance. However, existing methods tend to ignore the correlations between adjacent spectral bands, leading to problems such as spectral distortion and blurred edges in denoised results. In this study, we propose a novel HSI denoising network, termed SSCAN, that combines group convolutions and attention modules. Specifically, we use a group convolution with a spatial attention module to facilitate feature extraction by directing models' attention to band-wise important features. We propose a spectral-spatial attention block (SSAB) to exploit the spatial and spectral information in hyperspectral images in an effective manner. In addition, we adopt residual learning operations with skip connections to ensure training stability. The experimental results indicate that the proposed SSCAN outperforms several state-of-the-art HSI denoising algorithms.
翻訳日:2021-05-26 08:26:18 公開日:2021-05-23
# (参考訳) 応用車両経路問題のモデル化に関する一検討 [全文訳有]

A review of approaches to modeling applied vehicle routing problems ( http://arxiv.org/abs/2105.10950v1 )

ライセンス: CC BY 4.0
Konstantin Sidorov, Alexander Morozov(参考訳) 車両ルーティング問題 (VRP) の実践的重要性のため、アルゴリズムや(メタ)ヒューリスティックスにおいて、そのような問題を解決するための研究が絶え間なく進んでいる。 しかし、vrpドメインの多様性は、ドメインエンティティ(特に計画決定)、有効な計画決定のセット、異なる計画間の選好を記述するという、そのような問題をモデル化する別の問題を生み出します。 本稿では,車両経路問題のモデル化手法について概説する。 比較をより容易にするために,このような問題に対する最適化アルゴリズム開発の実践的要件を反映したモデリング手法の評価基準を定式化する。 最後に,本比較の結果,vrpドメインのモデリング分野における今後の研究動向について考察する。

Due to the practical importance of vehicle routing problems (VRP), there exists an ever-growing body of research in algorithms and (meta)heuristics for solving such problems. However, the diversity of VRP domains creates the separate problem of modeling such problems -- describing the domain entities (and, in particular, the planning decisions), the set of valid planning decisions, and the preferences between different plans. In this paper, we review the approaches for modeling vehicle routing problems. To make the comparison more straightforward, we formulate several criteria for evaluating modeling methods reflecting the practical requirements of the development of optimization algorithms for such problems. Finally, as a result of this comparison, we discuss several future research avenues in the field of modeling VRP domains.
翻訳日:2021-05-26 08:10:13 公開日:2021-05-23
# (参考訳) サーベイランスシステムのための資源制約付きUAVの分散CNN推論:設計と最適化 [全文訳有]

Distributed CNN Inference on Resource-Constrained UAVs for Surveillance Systems: Design and Optimization ( http://arxiv.org/abs/2105.11013v1 )

ライセンス: CC BY 4.0
Mohammed Jouhari, Abdulla Al-Ali, Emna Baccour, Amr Mohamed, Aiman Erbad, Mohsen Guizani, Mounir Hamdi(参考訳) 無人航空機(UAV)は、大規模な地域をカバーし、困難で危険なターゲットゾーンにアクセスできることから、ここ数年で大きな関心を集めている。 さらに、コンピュータビジョンと機械学習の進歩により、UAVは幅広いソリューションやアプリケーションに採用されている。 しかし、ディープニューラルネットワーク(DNN)は、それらがオンボードで実行されるのを防ぐ、より深く複雑なモデルに向かって進んでいる。 本稿では,UAV内のDNN分散手法を提案し,資源制約されたデバイスにおけるデータ分類を可能にし,空対地リンク上のデータ通信によるサーバベースのソリューションによる追加遅延を回避する。 提案手法は,空対空通信の一環として,UAVの移動モデルと資源制約を考慮して,データ収集と意思決定の遅延を最小化する最適化問題として定式化されている。 また,我々のシステムをuavのダイナミクスやネットワークの変動に適応させるために,モビリティ予測を導入する。 提案手法であるOULD(Optimal UAV-based Layer Distribution)とOULD with Mobility Prediction(OULD-MP)をHPCクラスタで実行した。 その結果,提案手法は既存およびヒューリスティックなアプローチよりも優れていることがわかった。

Unmanned Aerial Vehicles (UAVs) have attracted great interest in the last few years owing to their ability to cover large areas and access difficult and hazardous target zones, which is not the case of traditional systems relying on direct observations obtained from fixed cameras and sensors. Furthermore, thanks to the advancements in computer vision and machine learning, UAVs are being adopted for a broad range of solutions and applications. However, Deep Neural Networks (DNNs) are progressing toward deeper and complex models that prevent them from being executed on-board. In this paper, we propose a DNN distribution methodology within UAVs to enable data classification in resource-constrained devices and avoid extra delays introduced by the server-based solutions due to data communication over air-to-ground links. The proposed method is formulated as an optimization problem that aims to minimize the latency between data collection and decision-making while considering the mobility model and the resource constraints of the UAVs as part of the air-to-air communication. We also introduce the mobility prediction to adapt our system to the dynamics of UAVs and the network variation. The simulation conducted to evaluate the performance and benchmark the proposed methods, namely Optimal UAV-based Layer Distribution (OULD) and OULD with Mobility Prediction (OULD-MP), were run in an HPC cluster. The obtained results show that our optimization solution outperforms the existing and heuristic-based approaches.
翻訳日:2021-05-26 07:47:03 公開日:2021-05-23
# (参考訳) グラフベースアプリケーションのための2次元畳み込みニューラルネットワークの再検討 [全文訳有]

Revisiting 2D Convolutional Neural Networks for Graph-based Applications ( http://arxiv.org/abs/2105.11016v1 )

ライセンス: CC BY 4.0
Yecheng Lyu, Xinming Huang, Ziming Zhang(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ分類やセグメンテーションといったグラフベースのアプリケーションで広く使われている。 しかし、現在のGCNは不規則な入力のためにネットワークアーキテクチャのような実装に制限がある。 対照的に、畳み込みニューラルネットワーク(CNN)は大規模な入力データから豊富な特徴を抽出することができるが、一般的なグラフ入力をサポートしない。 本稿では,GCNとCNNのギャップを埋めるため,グラフトポロジを極力保存しつつ,CNNが直接適用可能な2次元グリッドに対して,汎用グラフを効果的かつ効率的にマップする方法の課題について検討する。 そこで我々は2つの新しいグラフ-グリッドマッピングスキーム,すなわち,計算効率向上のためのグラフ保存グリッドレイアウト(GPGL)とその拡張(H-GPGL)を提案する。 GPGL問題を整数計画法として定式化し、さらに2次元グラフ描画におけるよく知られた最適化アルゴリズムであるPenalized Kamada-Kawai法に基づく近似的かつ効率的な解法を提案する。 本稿では,グラフ頂点が重なり合うことなくグリッド上に配置することを奨励する新たな頂点分離ペナルティを提案する。 この画像表現に加えて、余分な2D最大値層も、広く応用されたポイントベースニューラルネットワークであるPointNetに寄与する。 本稿では,VGG16,ResNet50,Mult i-scale maxout (MSM) CNNなどの2次元CNNをベースとした3次元点群クラウドセグメンテーションにおけるGPGLとH-GPGLの一般グラフ分類における実験的な成功例を示す。

Graph convolutional networks (GCNs) are widely used in graph-based applications such as graph classification and segmentation. However, current GCNs have limitations on implementation such as network architectures due to their irregular inputs. In contrast, convolutional neural networks (CNNs) are capable of extracting rich features from large-scale input data, but they do not support general graph inputs. To bridge the gap between GCNs and CNNs, in this paper we study the problem of how to effectively and efficiently map general graphs to 2D grids that CNNs can be directly applied to, while preserving graph topology as much as possible. We therefore propose two novel graph-to-grid mapping schemes, namely, {\em graph-preserving grid layout (GPGL)} and its extension {\em Hierarchical GPGL (H-GPGL)} for computational efficiency. We formulate the GPGL problem as integer programming and further propose an approximate yet efficient solver based on a penalized Kamada-Kawai method, a well-known optimization algorithm in 2D graph drawing. We propose a novel vertex separation penalty that encourages graph vertices to lay on the grid without any overlap. Along with this image representation, even extra 2D maxpooling layers contribute to the PointNet, a widely applied point-based neural network. We demonstrate the empirical success of GPGL on general graph classification with small graphs and H-GPGL on 3D point cloud segmentation with large graphs, based on 2D CNNs including VGG16, ResNet50 and multi-scale maxout (MSM) CNN.
翻訳日:2021-05-26 07:06:04 公開日:2021-05-23
# (参考訳) Multi-Type-TD-TSR -- テーブル検出とテーブル構造認識のための多段階パイプラインを用いた文書画像からのテーブル抽出:OCRから構造化テーブル表現へ [全文訳有]

Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations ( http://arxiv.org/abs/2105.11021v1 )

ライセンス: CC BY 4.0
Pascal Fischer, Alen Smajic, Alexander Mehler, Giuseppe Abrami(参考訳) 世界的トレンドがデータ駆動産業にシフトする中、スキャンされた文書のデジタル画像を機械可読情報に変換する自動アルゴリズムの需要は急速に増加している。 データ分析ツールの適用のためのデータデジタル化の機会に加えて、以前は手動で文書を検査する必要があったプロセスの自動化にも大きな改善が加えられている。 光文字認識技術の導入により、画像から可読文字を機械可読文字に変換する作業はほとんど解決されたが、テーブル意味論の抽出作業は長年にわたってあまり注目されていない。 テーブルの認識は、テーブル検出とテーブル構造認識という2つの主なタスクで構成される。 この問題に関するほとんどの以前の研究は、エンドツーエンドのソリューションを提供することなく、あるいはドキュメントイメージ内の回転画像やノイズアーティファクトのような実際のアプリケーション条件に注意を払うことなく、タスクにフォーカスする。 最近の研究は、十分に大規模なデータセットが不足しているため、テーブル構造認識のタスクに転送学習を用いることで、ディープラーニングアプローチへの明確な傾向を示している。 本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。 最先端のディープラーニングモデルを使用してテーブルの検出を行い、テーブルの境界に基づいて3種類のテーブルを区別する。 テーブル構造認識には、すべてのテーブルタイプで動作する決定論的非データ駆動アルゴリズムを使用します。 さらに2つのアルゴリズムを提示する。 境界付きテーブル用と境界付きテーブル用があり、これは使用済みテーブル構造認識アルゴリズムの基礎となっている。 ICDAR 2019テーブル構造認識データセット上でMulti-Type-TD-TSRを評価し,新しい最先端を実現する。

As global trends are shifting towards data-driven industries, the demand for automated algorithms that can convert digital images of scanned documents into machine readable information is rapidly growing. Besides the opportunity of data digitization for the application of data analytic tools, there is also a massive improvement towards automation of processes, which previously would require manual inspection of the documents. Although the introduction of optical character recognition technologies mostly solved the task of converting human-readable characters from images into machine-readable characters, the task of extracting table semantics has been less focused on over the years. The recognition of tables consists of two main tasks, namely table detection and table structure recognition. Most prior work on this problem focuses on either task without offering an end-to-end solution or paying attention to real application conditions like rotated images or noise artefacts inside the document image. Recent work shows a clear trend towards deep learning approaches coupled with the use of transfer learning for the task of table structure recognition due to the lack of sufficiently large datasets. In this paper we present a multistage pipeline named Multi-Type-TD-TSR, which offers an end-to-end solution for the problem of table recognition. It utilizes state-of-the-art deep learning models for table detection and differentiates between 3 different types of tables based on the tables' borders. For the table structure recognition we use a deterministic non-data driven algorithm, which works on all table types. We additionally present two algorithms. One for unbordered tables and one for bordered tables, which are the base of the used table structure recognition algorithm. We evaluate Multi-Type-TD-TSR on the ICDAR 2019 table structure recognition dataset and achieve a new state-of-the-art.
翻訳日:2021-05-26 06:23:51 公開日:2021-05-23
# (参考訳) コミュニケーションのトレードオフによるファストフェデレーション学習 [全文訳有]

Fast Federated Learning by Balancing Communication Trade-Offs ( http://arxiv.org/abs/2105.11028v1 )

ライセンス: CC BY 4.0
Milad Khademi Nori, Sangseok Yun, and Il-Min Kim(参考訳) federated learning(fl)は最近、大規模なプライバシ保存機械学習で多くの注目を集めている。 しかし、頻繁な勾配伝達による通信オーバーヘッドはflを減速させる。 通信オーバーヘッドを軽減するために, (i) 通信と計算のトレードオフを特徴とする重み付けの局所更新と (ii) 通信と精度のトレードオフを特徴付ける勾配圧縮の2つの手法が研究されている。 私たちの知る限りでは、これら2つのトレードオフを共同かつ動的に研究し、バランスをとると同時に、収束性への影響を考慮することは、flを大幅に高速化することを約束しながらも、未解決のままです。 本稿では,まず,通信と計算/精度のトレードオフを特徴付ける局所更新係数と勾配圧縮のスパーシティ予算という2つの変数について,学習誤差を最小化する問題を定式化する。 次に,2変数間の相互依存を考慮した壁面時間における学習誤差の上限を導出する。 この理論解析に基づいて,Fast FL(Fast FL)と呼ばれる拡張FLスキームを提案し,この2変数を協調的かつ動的に調整し,学習誤差を最小限に抑える。 FFLは文献上に存在する類似のスキームよりも高い精度を確実に達成できることを示す。

Federated Learning (FL) has recently received a lot of attention for large-scale privacy-preserving machine learning. However, high communication overheads due to frequent gradient transmissions decelerate FL. To mitigate the communication overheads, two main techniques have been studied: (i) local update of weights characterizing the trade-off between communication and computation and (ii) gradient compression characterizing the trade-off between communication and precision. To the best of our knowledge, studying and balancing those two trade-offs jointly and dynamically while considering their impacts on convergence has remained unresolved even though it promises significantly faster FL. In this paper, we first formulate our problem to minimize learning error with respect to two variables: local update coefficients and sparsity budgets of gradient compression who characterize trade-offs between communication and computation/precisio n, respectively. We then derive an upper bound of the learning error in a given wall-clock time considering the interdependency between the two variables. Based on this theoretical analysis, we propose an enhanced FL scheme, namely Fast FL (FFL), that jointly and dynamically adjusts the two variables to minimize the learning error. We demonstrate that FFL consistently achieves higher accuracies faster than similar schemes existing in the literature.
翻訳日:2021-05-26 06:08:06 公開日:2021-05-23
# 特定の質問に対する回答の変更によるテキストの編集制御

Controlling Text Edition by Changing Answers of Specific Questions ( http://arxiv.org/abs/2105.11018v1 )

ライセンス: Link先を確認
Lei Sha, Patrick Hohenecker, Thomas Lukasiewicz(参考訳) 本稿では,長文,質問文,対象回答を入力とし,出力を最小限に修正したテキストとし,対象回答に適合させる,制御可能なテキストエディションの新たなタスクを提案する。 このタスクは、法律文書の条件や結果、プロパティを変更したり、ニューステキストでイベントの重要な情報を変更したりするなど、多くの状況において非常に重要である。 トレーニングのための並列コーパスを得るのは非常に難しく、まず変更すべきすべてのテキスト位置を見つけ、それから変更方法を決定する必要があるため、これは非常に難しいことです。 我々は,既存のデータセット WikiBio (もともとはテーブル・ツー・テキスト生成用に作成された) に基づいて,このタスクのための新しいデータセット WikiBioCTE を構築した。 トレーニングにはWikiBioCTEを使用し、手動でテストセットをラベル付けしています。 また,新しい課題を解くための新しい評価指標と新しい方法を提案する。 実験結果から,提案手法は新たなNLPタスクに適していることがわかった。

In this paper, we introduce the new task of controllable text edition, in which we take as input a long text, a question, and a target answer, and the output is a minimally modified text, so that it fits the target answer. This task is very important in many situations, such as changing some conditions, consequences, or properties in a legal document, or changing some key information of an event in a news text. This is very challenging, as it is hard to obtain a parallel corpus for training, and we need to first find all text positions that should be changed and then decide how to change them. We constructed the new dataset WikiBioCTE for this task based on the existing dataset WikiBio (originally created for table-to-text generation). We use WikiBioCTE for training, and manually labeled a test set for testing. We also propose novel evaluation metrics and a novel method for solving the new task. Experimental results on the test set show that our proposed method is a good fit for this novel NLP task.
翻訳日:2021-05-25 15:33:35 公開日:2021-05-23
# スクラッチからのrst構文解析

RST Parsing from Scratch ( http://arxiv.org/abs/2105.10861v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li(参考訳) 本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析をエンド・ツー・エンドで新たに定義する。 本稿では,トークン境界での分割決定のシーケンスとして談話解析を検討し,seq2seqネットワークを用いて分割決定をモデル化する。 本フレームワークは,対話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。 統一解析モデルは,高被覆木の空間を探索することで最良木構造をデコードするためにビーム探索を採用する。 標準的な英語RST談話木バンクに関する広範な実験により, パーサは, エンド・ツー・エンドのパースとゴールドセグメンテーションの双方において, 既存の手法よりも優れた性能を示すことを示した。 さらに重要なのは、手作りの機能を一切使わずに、新しい言語やドメインに素早く簡単に適応できることです。

We introduce a novel top-down end-to-end formulation of document-level discourse parsing in the Rhetorical Structure Theory (RST) framework. In this formulation, we consider discourse parsing as a sequence of splitting decisions at token boundaries and use a seq2seq network to model the splitting decisions. Our framework facilitates discourse parsing from scratch without requiring discourse segmentation as a prerequisite; rather, it yields segmentation as part of the parsing process. Our unified parsing model adopts a beam search to decode the best tree structure by searching through a space of high-scoring trees. With extensive experiments on the standard English RST discourse treebank, we demonstrate that our parser outperforms existing methods by a good margin in both end-to-end parsing and parsing with gold segmentation. More importantly, it does so without using any handcrafted features, making it faster and easily adaptable to new languages and domains.
翻訳日:2021-05-25 15:32:22 公開日:2021-05-23
# 対話理解のための構造事前学習

Structural Pre-training for Dialogue Comprehension ( http://arxiv.org/abs/2105.10956v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao(参考訳) 事前学習型言語モデル(PrLM)は、自己指導型事前学習から普遍言語表現を学習する能力が強いため、優れた性能を示した。 しかし、強力なPrLMの助けを借りても、話者認識発話間の相関によって強化された対話文からタスク関連知識を効果的に捉えることは依然として困難である。 本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。 対話のような特徴をシミュレートするために,1) 発話の順序を予測する発話順序復元,2) 要約された主語・主語・主語三重項の事実的正当性を改善するためにモデルを正規化する文のバックボーン正規化,の2つの訓練目標を提案する。 広範に使用される対話ベンチマークにおける実験結果から,新しく導入された自己監督タスクの有効性が検証された。

Pre-trained language models (PrLMs) have demonstrated superior performance due to their strong ability to learn universal language representations from self-supervised pre-training. However, even with the help of the powerful PrLMs, it is still challenging to effectively capture task-related knowledge from dialogue texts which are enriched by correlations among speaker-aware utterances. In this work, we present SPIDER, Structural Pre-traIned DialoguE Reader, to capture dialogue exclusive features. To simulate the dialogue-like features, we propose two training objectives in addition to the original LM objectives: 1) utterance order restoration, which predicts the order of the permuted utterances in dialogue context; 2) sentence backbone regularization, which regularizes the model to improve the factual correctness of summarized subject-verb-object triplets. Experimental results on widely used dialogue benchmarks verify the effectiveness of the newly introduced self-supervised tasks.
翻訳日:2021-05-25 15:32:04 公開日:2021-05-23
# グラフ畳み込みネットワークを用いた3次元ハンドポーズ推定のためのハイブリッド分類回帰手法

A hybrid classification-regre ssion approach for 3D hand pose estimation using graph convolutional networks ( http://arxiv.org/abs/2105.10902v1 )

ライセンス: Link先を確認
Ikram Kourbane, Yakup Genc(参考訳) ハンドポーズ推定は、幅広い拡張現実および人間とコンピュータのインタラクションアプリケーションにおいて重要な部分である。 1枚のRGB画像から3Dハンドポーズを予測することは、閉塞と深さの曖昧さのために難しい。 GCN(Graph Convolutional Networks)法は、グラフと手関節の構造的類似性を利用して関節間の運動的依存関係をモデル化する。 これらのテクニックは事前に定義された、あるいはグローバルに学習された共同関係を使用し、ポーズ依存の制約を捕捉できない可能性がある。 そこで本稿では,関係制約を学習する2段階gcnベースのフレームワークを提案する。 具体的には、第1フェーズは2D/3D空間を定量化し、その局所性に基づいて関節を2D/3Dブロックに分類する。 この空間依存情報は、このフェーズを導いて信頼できる2dおよび3dポーズを推定する。 第2段階は、適応的近接アルゴリズムを用いて関節関係を決定するGCNベースのモジュールによる3次元推定をさらに改善する。 多段階のgcnアプローチは、正確な2d/3dハンドポーズを生成し、2つのパブリックデータセットの最先端技術を上回る効率的なモデルをもたらすことが、広範な実験で示されています。

Hand pose estimation is a crucial part of a wide range of augmented reality and human-computer interaction applications. Predicting the 3D hand pose from a single RGB image is challenging due to occlusion and depth ambiguities. GCN-based (Graph Convolutional Networks) methods exploit the structural relationship similarity between graphs and hand joints to model kinematic dependencies between joints. These techniques use predefined or globally learned joint relationships, which may fail to capture pose-dependent constraints. To address this problem, we propose a two-stage GCN-based framework that learns per-pose relationship constraints. Specifically, the first phase quantizes the 2D/3D space to classify the joints into 2D/3D blocks based on their locality. This spatial dependency information guides this phase to estimate reliable 2D and 3D poses. The second stage further improves the 3D estimation through a GCN-based module that uses an adaptative nearest neighbor algorithm to determine joint relationships. Extensive experiments show that our multi-stage GCN approach yields an efficient model that produces accurate 2D/3D hand poses and outperforms the state-of-the-art on two public datasets.
翻訳日:2021-05-25 15:30:19 公開日:2021-05-23
# 2次元ポーズ推定のためのスケルトン対応マルチスケールヒートマップ回帰

Skeleton-aware multi-scale heatmap regression for 2D hand pose estimation ( http://arxiv.org/abs/2105.10904v1 )

ライセンス: Link先を確認
Ikram Kourbane, Yakup Genc(参考訳) 既存のRGBベースの2次元手ポーズ推定法では,手の大きさの異なる単一の解像度から関節位置を学習する。 そこで本研究では,2つのモジュールからなるディープラーニングベースのフレームワークを提案する。 前者は、手骨を検知し、手の境界ボックスをローカライズするセグメンテーションベースのアプローチを提案する。 第2のモジュールは、予測ハンドスケルトンをモデルガイドの制約として利用する、マルチスケールのヒートマップ回帰アプローチを通じて、2D関節位置を回帰する。 さらに,手動検出とポーズ推定の両方に適した新しいデータセットを構築した。 2つのデータセット上で定性的かつ定量的に手法を検証する。 その結果,提案手法が最先端を上回り,乱雑な画像や複雑なポーズでもポーズを回復できることがわかった。

Existing RGB-based 2D hand pose estimation methods learn the joint locations from a single resolution, which is not suitable for different hand sizes. To tackle this problem, we propose a new deep learning-based framework that consists of two main modules. The former presents a segmentation-based approach to detect the hand skeleton and localize the hand bounding box. The second module regresses the 2D joint locations through a multi-scale heatmap regression approach that exploits the predicted hand skeleton as a constraint to guide the model. Furthermore, we construct a new dataset that is suitable for both hand detection and pose estimation. We qualitatively and quantitatively validate our method on two datasets. Results demonstrate that the proposed method outperforms state-of-the-art and can recover the pose even in cluttered images and complex poses.
翻訳日:2021-05-25 15:29:58 公開日:2021-05-23
# リカレントニューラルネットワークのためのスペクトルプルーニング

Spectral Pruning for Recurrent Neural Networks ( http://arxiv.org/abs/2105.10832v1 )

ライセンス: Link先を確認
Takashi Furuya, Kazuma Suetake, Koichi Taniguchi, Hiroyuki Kusumoto, Ryuji Saiin, Tomohiro Daimon(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)などのリカレントアーキテクチャを持つニューラルネットワークのプルーニング技術は、エッジコンピューティングデバイスへの応用に強く望まれている。 しかし、再帰的なアーキテクチャは、小さなプルーニングでさえ蓄積エラーを引き起こし、全体のエラーが時間とともに大幅に増加するため、一般的にプルーニングに対して堅牢ではない。 本稿では、「スペクトルプルーニング」に着想を得たRNNに対する適切なプルーニングアルゴリズムを提案し、圧縮されたRNNに対する一般化誤差境界を提供する。 また, 実験結果を示す数値実験を行い, 従来の方法と比較し, プルーニング法の有効性を示す。

Pruning techniques for neural networks with a recurrent architecture, such as the recurrent neural network (RNN), are strongly desired for their application to edge-computing devices. However, the recurrent architecture is generally not robust to pruning because even small pruning causes accumulation error and the total error increases significantly over time. In this paper, we propose an appropriate pruning algorithm for RNNs inspired by "spectral pruning", and provide the generalization error bounds for compressed RNNs. We also provide numerical experiments to demonstrate our theoretical results and show the effectiveness of our pruning method compared with existing methods.
翻訳日:2021-05-25 15:28:42 公開日:2021-05-23
# 目標:深層ニューラルネットワークのロバストかつ一貫性のあるトレーニングに向けた線探索のための勾配のみ近似

GOALS: Gradient-Only Approximations for Line Searches Towards Robust and Consistent Training of Deep Neural Networks ( http://arxiv.org/abs/2105.10915v1 )

ライセンス: Link先を確認
Younghwan Chae, Daniel N. Wilke, Dominic Kafka(参考訳) ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。 それでも、固有のサンプリングエラーが導入され、適切な学習率の選択が難しくなる。 サンプリングエラーは、線探索においてバイアスまたはばらつきとして現れる。 動的MBSSは機能評価毎にミニバッチを再サンプリングする。 したがって、動的mbssは、静的サンプル損失関数よりもバイアスが小さいが分散が大きい点的不連続損失関数をもたらす。 しかし、動的MBSSはトレーニング中にデータスループットが大きくなるという利点があるが、不連続性に関する複雑さが解決される必要がある。 本研究は,方向微分情報のみを用いた2次近似モデルを用いたラインサーチ手法である勾配専用サロゲート(GOS)を動的MBSS損失関数に拡張する。 最適性基準を定め,強い収束特性を持つ勾配のみ近似線探索(goals)を提案する。 本稿では,SGD,RMSprop,Adam on ResNet-18,EfficientN etB0などの最適化器にGOALSの性能を適用して検討する。 また,GOALSを既存の学習率法と比較した。 最高のパフォーマンスと最も堅牢なアルゴリズムの両方を定量化します。 後者については,与えられた問題に対するアルゴリズムと最適なアルゴリズムの違いを定量化する相対的ロバストな基準を導入する。 その結果、探索方向のクラスに対して推奨学習率でモデルをトレーニングすることは、マルチモーダルケースにおけるモデルエラーを低減するのに役立つことがわかった。

Mini-batch sub-sampling (MBSS) is favored in deep neural network training to reduce the computational cost. Still, it introduces an inherent sampling error, making the selection of appropriate learning rates challenging. The sampling errors can manifest either as a bias or variances in a line search. Dynamic MBSS re-samples a mini-batch at every function evaluation. Hence, dynamic MBSS results in point-wise discontinuous loss functions with smaller bias but larger variance than static sampled loss functions. However, dynamic MBSS has the advantage of having larger data throughput during training but requires the complexity regarding discontinuities to be resolved. This study extends the gradient-only surrogate (GOS), a line search method using quadratic approximation models built with only directional derivative information, for dynamic MBSS loss functions. We propose a gradient-only approximation line search (GOALS) with strong convergence characteristics with defined optimality criterion. We investigate GOALS's performance by applying it on various optimizers that include SGD, RMSprop and Adam on ResNet-18 and EfficientNetB0. We also compare GOALS's against the other existing learning rate methods. We quantify both the best performing and most robust algorithms. For the latter, we introduce a relative robust criterion that allows us to quantify the difference between an algorithm and the best performing algorithm for a given problem. The results show that training a model with the recommended learning rate for a class of search directions helps to reduce the model errors in multimodal cases.
翻訳日:2021-05-25 15:28:32 公開日:2021-05-23
# 非粘性一般化境界に対する圧縮重厚行列

Compressing Heavy-Tailed Weight Matrices for Non-Vacuous Generalization Bounds ( http://arxiv.org/abs/2105.11025v1 )

ライセンス: Link先を確認
John Y. Shin(参考訳) 重み付き分布は統計学、ランダム行列理論、物理学、計量学において相関系のモデルとして研究されている。 さらに、ニューラルネットワークにおける重み行列の共分散行列の重み分布固有値は、いくつかの研究(例)においてテストセット精度と経験的に相関することが示されている。 arXiv:1901.08276) だが、ヘビーテール分布パラメータと一般化境界との形式的関係はまだ証明されていない。 本研究では,arxiv:1802.05296の圧縮フレームワークを用いて,重み分散行列要素を持つ行列を圧縮できることを示す。 パラメータカウントはスパース行列のゼロでない要素の和に減らされているため、圧縮フレームワークは圧縮されたネットワークの一般化ギャップを非空の一般化境界で結ぶことができる。 さらに, ベクトルに対するこれらの行列の作用を考察し, 圧縮・回復性分類との関連性について考察した。

Heavy-tailed distributions have been studied in statistics, random matrix theory, physics, and econometrics as models of correlated systems, among other domains. Further, heavy-tail distributed eigenvalues of the covariance matrix of the weight matrices in neural networks have been shown to empirically correlate with test set accuracy in several works (e.g. arXiv:1901.08276), but a formal relationship between heavy-tail distributed parameters and generalization bounds was yet to be demonstrated. In this work, the compression framework of arXiv:1802.05296 is utilized to show that matrices with heavy-tail distributed matrix elements can be compressed, resulting in networks with sparse weight matrices. Since the parameter count has been reduced to a sum of the non-zero elements of sparse matrices, the compression framework allows us to bound the generalization gap of the resulting compressed network with a non-vacuous generalization bound. Further, the action of these matrices on a vector is discussed, and how they may relate to compression and resilient classification is analyzed.
翻訳日:2021-05-25 15:28:05 公開日:2021-05-23
# DepressionNet: ソーシャルメディア上でのデプレッション検出のためのDeep Frameworkの新たな要約

DepressionNet: A Novel Summarization Boosted Deep Framework for Depression Detection on Social Media ( http://arxiv.org/abs/2105.10878v1 )

ライセンス: Link先を確認
Hamad Zogan, Imran Razzak, Shoaib Jameel, Guandong Xu(参考訳) Twitterは現在、ユーザーが生成したコンテンツを共有できるオンラインソーシャルメディアプラットフォームとして人気がある。 この公開されたユーザーデータは、検出されたパターンがいくつかの方法でそれらに大きな利益をもたらすため、医療技術にも不可欠です。 応用の1つは、うつ病などの精神疾患を自動的に発見することである。 オンラインソーシャルメディア上で落ち込んだユーザーを自動的に検出する以前の研究は、ユーザの行動とユーザの社会的相互作用を含む言語パターンに大きく依存している。 欠点は、これらのモデルがいくつかの無関係なコンテンツに基づいてトレーニングされていることだ。 さらに、これらのコンテンツはモデル全体の効率と有効性に悪影響を及ぼす。 既存の自動抑うつ検出手法の欠点を克服するために,まず,よりきめ細かな関連コンテンツにつながる全ユーザツイートのシーケンス上で,ハイブリッド抽出および抽象的要約戦略により関連コンテンツを選択する,自動抑うつ検出のための新しい計算フレームワークを提案する。 その内容は、コンボリューションニューラルネットワーク(cnn)と注意強化ゲートリカレントユニット(gru)モデルを組み合わせた統合学習機構で構成され、既存の強力なベースラインよりも優れた経験的パフォーマンスを実現する、新たなディープラーニングフレームワークに移行します。

Twitter is currently a popular online social media platform which allows users to share their user-generated content. This publicly-generated user data is also crucial to healthcare technologies because the discovered patterns would hugely benefit them in several ways. One of the applications is in automatically discovering mental health problems, e.g., depression. Previous studies to automatically detect a depressed user on online social media have largely relied upon the user behaviour and their linguistic patterns including user's social interactions. The downside is that these models are trained on several irrelevant content which might not be crucial towards detecting a depressed user. Besides, these content have a negative impact on the overall efficiency and effectiveness of the model. To overcome the shortcomings in the existing automatic depression detection methods, we propose a novel computational framework for automatic depression detection that initially selects relevant content through a hybrid extractive and abstractive summarization strategy on the sequence of all user tweets leading to a more fine-grained and relevant content. The content then goes to our novel deep learning framework comprising of a unified learning machinery comprising of Convolutional Neural Network (CNN) coupled with attention-enhanced Gated Recurrent Units (GRU) models leading to better empirical performance than existing strong baselines.
翻訳日:2021-05-25 15:26:55 公開日:2021-05-23
# 1つの石で2羽の鳥を殺す:BERTベースのAPIからステアリングモデルと属性の推測

Killing Two Birds with One Stone: Stealing Model and Inferring Attribute from BERT-based APIs ( http://arxiv.org/abs/2105.10909v1 )

ライセンス: Link先を確認
Lingjuan Lyu, Xuanli He, Fangzhao Wu, Lichao Sun(参考訳) 事前訓練されたモデル(BERT、XLNETなど)の進歩は、様々な現代の自然言語処理タスクの予測性能に大きな革命をもたらした。 これにより、細調整されたBERTベースのモデルを商用APIとしてカプセル化することで、マシンラーニング・アズ・ア・サービス(MLaaS)を提供することが可能になる。 しかし、以前の研究でBERTベースのAPIに一連の脆弱性が見つかった。 例えば、BERTベースのAPIは、モデル抽出攻撃と逆転可能性攻撃の両方に対して脆弱である。 しかし、BERTベースのAPIの容量が高いため、微調整されたモデルは簡単に習得でき、抽出されたモデルからどのような情報が漏れるかは分かっておらず、不明である。 このギャップを埋めるために,本研究では,限られた数のクエリのみをクエリすることで,敵がBERTベースのAPI(ターゲット/ビットモデル)を実質的に盗むことができる効果的なモデル抽出攻撃を提案する。 さらに,BERTベースのAPIで使用されるトレーニングデータのセンシティブな属性を明らかにするために,効果的な属性推論攻撃を開発する。 さまざまな現実的な設定下でのベンチマークデータセットに関する広範な実験は、BERTベースのAPIの潜在的な脆弱性を示しています。

The advances in pre-trained models (e.g., BERT, XLNET and etc) have largely revolutionized the predictive performance of various modern natural language processing tasks. This allows corporations to provide machine learning as a service (MLaaS) by encapsulating fine-tuned BERT-based models as commercial APIs. However, previous works have discovered a series of vulnerabilities in BERT- based APIs. For example, BERT-based APIs are vulnerable to both model extraction attack and adversarial example transferrability attack. However, due to the high capacity of BERT-based APIs, the fine-tuned model is easy to be overlearned, what kind of information can be leaked from the extracted model remains unknown and is lacking. To bridge this gap, in this work, we first present an effective model extraction attack, where the adversary can practically steal a BERT-based API (the target/victim model) by only querying a limited number of queries. We further develop an effective attribute inference attack to expose the sensitive attribute of the training data used by the BERT-based APIs. Our extensive experiments on benchmark datasets under various realistic settings demonstrate the potential vulnerabilities of BERT-based APIs.
翻訳日:2021-05-25 15:26:37 公開日:2021-05-23
# CiteWorth:Cite-Worth iness Detection for Improved Scientific Document Understanding

CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding ( http://arxiv.org/abs/2105.10912v1 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) データは極めてドメイン固有で多様であるため、科学的文書理解は困難である。 しかし、科学的なテキストを持つタスクのデータセットは、高価な手作業のアノテーションを必要とし、1つまたは少数のフィールドに限られる傾向がある。 同時に、科学文書には、大きなラベル付きデータセットを構築するために使用できる引用など、潜在的なトレーニング信号が多数含まれている。 そこで,本研究では,文が外部ソースを引用するか否かをラベル付けした,英語における引用適性検出に関する詳細な研究を行う。 これを実現するために,抽出された平文科学文書の膨大なコーパスから構築された引用価値検出のための,大きく,文脈化され,厳格に整理されたラベル付きデータセットであるciteworthを紹介する。 我々は、CiteWorthが高品質で、挑戦的で、ドメイン適応のような問題の研究に適していることを示す。 提案手法はLongformerに基づく段落レベルの文ラベル付けモデルであり,個々の文のみを考慮したSciBERTよりも5F1ポイント改善されている。 最後に,第2タスクとしての引用性を考慮した言語モデルの微調整が,下流の科学的文書理解タスクの性能向上につながることを示す。

Scientific document understanding is challenging as the data is highly domain specific and diverse. However, datasets for tasks with scientific text require expensive manual annotation and tend to be small and limited to only one or a few fields. At the same time, scientific documents contain many potential training signals, such as citations, which can be used to build large labelled datasets. Given this, we present an in-depth study of cite-worthiness detection in English, where a sentence is labelled for whether or not it cites an external source. To accomplish this, we introduce CiteWorth, a large, contextualized, rigorously cleaned labelled dataset for cite-worthiness detection built from a massive corpus of extracted plain-text scientific documents. We show that CiteWorth is high-quality, challenging, and suitable for studying problems such as domain adaptation. Our best performing cite-worthiness detection model is a paragraph-level contextualized sentence labelling model based on Longformer, exhibiting a 5 F1 point improvement over SciBERT which considers only individual sentences. Finally, we demonstrate that language model fine-tuning with cite-worthiness as a secondary task leads to improved performance on downstream scientific document understanding tasks.
翻訳日:2021-05-25 15:26:19 公開日:2021-05-23
# Continual World: 継続的強化学習のためのロボットベンチマーク

Continual World: A Robotic Benchmark For Continual Reinforcement Learning ( http://arxiv.org/abs/2105.10919v1 )

ライセンス: Link先を確認
Maciej Wo{\l}czyk, Micha{\l} Zaj\k{a}c, Razvan Pascanu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) 継続的な学習(CL) - 以前から獲得した知識に基づいて継続的に学習する能力 - は、長期的な自律強化学習(RL)エージェントの自然な要件である。 そのようなエージェントを構築している間、キャパシティと計算の制約、壊滅的に忘れない能力、新しいタスクにポジティブな転送を示すなど、対向するデシデラタのバランスをとる必要がある。 正しいトレードオフを理解することは概念的にも計算的にも困難である。 これらの問題に対して,我々は,Meta-World上にテストベッドとして構築された現実的で有意義に多様なロボットタスクからなるベンチマークであるContinuous Worldを提案し,転送を優先する必要性を主張した。 既存のCL手法の詳細な実験的な評価の後、これらの制限を指摘し、RL設定におけるユニークなアルゴリズム上の課題を強調する。 我々のベンチマークは,コミュニティに有意義で計算コストのかかる課題を提供することを目標とし,既存のソリューションと将来のソリューションのパフォーマンスをよりよく理解することを目的としている。

Continual learning (CL) -- the ability to continuously learn, building on previously acquired knowledge -- is a natural requirement for long-lived autonomous reinforcement learning (RL) agents. While building such agents, one needs to balance opposing desiderata, such as constraints on capacity and compute, the ability to not catastrophically forget, and to exhibit positive transfer on new tasks. Understanding the right trade-off is conceptually and computationally challenging, which we argue has led the community to overly focus on catastrophic forgetting. In response to these issues, we advocate for the need to prioritize forward transfer and propose Continual World, a benchmark consisting of realistic and meaningfully diverse robotic tasks built on top of Meta-World as a testbed. Following an in-depth empirical evaluation of existing CL methods, we pinpoint their limitations and highlight unique algorithmic challenges in the RL setting. Our benchmark aims to provide a meaningful and computationally inexpensive challenge for the community and thus help better understand the performance of existing and future solutions.
翻訳日:2021-05-25 15:24:45 公開日:2021-05-23
# 線形反応拡散方程式のグリーン関数の学習と高速数値解法への応用

Learning Green's Functions of Linear Reaction-Diffusion Equations with Application to Fast Numerical Solver ( http://arxiv.org/abs/2105.11045v1 )

ライセンス: Link先を確認
Yuankai Teng, Xiaoping Zhang, Zhu Wang, Lili Ju(参考訳) 偏微分方程式は、熱拡散、波動伝播、流体力学、弾性、電気力学、画像処理などの様々な物理現象をモデル化するためにしばしば用いられ、多くの解析的手法や伝統的な数値法が、その解法に広く用いられている。 本稿では, 深層学習が科学・工学研究に急速に与える影響に着想を得て, 線形反応拡散方程式のグリーン関数を教師なしで学習するための新しいニューラルネットワークGF-Netを提案する。 提案手法は, 物理インフォームドアプローチとグリーン関数の対称性を利用して, 任意の領域上の方程式のグリーン関数を求める際の課題を克服する。 結果として、これは特に、異なる境界条件とソースの下でターゲット方程式を解く効率的な方法につながる。 また,提案手法の有効性を正方形,環状型,l型領域で実証した。

Partial differential equations are often used to model various physical phenomena, such as heat diffusion, wave propagation, fluid dynamics, elasticity, electrodynamics and image processing, and many analytic approaches or traditional numerical methods have been developed and widely used for their solutions. Inspired by rapidly growing impact of deep learning on scientific and engineering research, in this paper we propose a novel neural network, GF-Net, for learning the Green's functions of linear reaction-diffusion equations in an unsupervised fashion. The proposed method overcomes the challenges for finding the Green's functions of the equations on arbitrary domains by utilizing physics-informed approach and the symmetry of the Green's function. As a consequence, it particularly leads to an efficient way for solving the target equations under different boundary conditions and sources. We also demonstrate the effectiveness of the proposed approach by experiments in square, annular and L-shape domains.
翻訳日:2021-05-25 15:23:48 公開日:2021-05-23
# 非構造環境における移動ロボットの深層学習トラバーサビリティ推定

Deep Learning Traversability Estimator for Mobile Robots in Unstructured Environments ( http://arxiv.org/abs/2105.10937v1 )

ライセンス: Link先を確認
Marco Visca, Sampo Kuutti, Roger Powell, Yang Gao and Saber Fallah(参考訳) 地形トラバーサビリティ解析は、非構造環境における安全なロボットナビゲーションを確保する上で重要な役割を果たす。 しかし、リアルタイムな制約はしばしばオンラインテストの精度を制限し、特に現実的なロボットとテランの相互作用がモデル化に複雑であるシナリオでは特にそうだ。 そこで本研究では,高度図や軌道図からエンドツーエンドで学習し,故障発生を推定する深層学習フレームワークを提案する。 ネットワークはOpenSimplexアルゴリズムによって生成された合成マップのシミュレーションで最初に訓練され、テストされる。 Deep Learningフレームワークの予測性能は、計算時間の30%で元のシミュレータの94%以上をリコールすることができる。 最後に、このネットワークはチリのアタカマ砂漠での火星探査試験中にSEEKERコンソーシアムが収集した実際の標高マップに転送されテストされる。 アプリケーションに依存しない事前学習モデルの転送と微調整は、ほとんど利用可能な実データに基づいてトレーニングするよりも優れた性能を保っていることを示す。

Terrain traversability analysis plays a major role in ensuring safe robotic navigation in unstructured environments. However, real-time constraints frequently limit the accuracy of online tests, especially in scenarios where realistic robot-terrain interactions are complex to model. In this context, we propose a deep learning framework, trained in an end-to-end fashion from elevation maps and trajectories, to estimate the occurrence of failure events. The network is first trained and tested in simulation over synthetic maps generated by the OpenSimplex algorithm. The prediction performance of the Deep Learning framework is illustrated by being able to retain over 94% recall of the original simulator at 30% of the computational time. Finally, the network is transferred and tested on real elevation maps collected by the SEEKER consortium during the Martian rover test trial in the Atacama desert in Chile. We show that transferring and fine-tuning of an application-independ ent pre-trained model retains better performance than training uniquely on scarcely available real data.
翻訳日:2021-05-25 15:23:33 公開日:2021-05-23
# トレーニング後のスパーシリティ-量子化

Post-Training Sparsity-Aware Quantization ( http://arxiv.org/abs/2105.11010v1 )

ライセンス: Link先を確認
Gil Shomron, Freddy Gabbay, Samer Kurzum, Uri Weiser(参考訳) 量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。 ハードウェアで効率的に実装でき、広範なハードウェアリソースやトレーニングセットを必要としないため、一様後トレーニング量子化(ptq)メソッドは一般的である。 均一なPTQを用いてFP32モデルをINT8にマッピングすると、無視できる精度劣化を伴うモデルが得られるが、量子化ノイズの増加により精度劣化が顕著になるため、PTQで8ビット未満の精度低下は困難である。 本稿では,非構造的および動的活性化スパーシティを異なる表現粒度で活用するスパーシティ・アウェア量子化(sparq)法を提案する。 例えば、4ビット量子化は、8ビットの値のビットを動的に調べ、4ビットのウィンドウを選択し、まずゼロ値のビットをスキップする。 さらに、アクティベーション・バイ・アクティベーションを4ビットに量子化する代わりに、8ビットのアクティベーションのペアに着目し、そのうちの1つが0に等しいかどうかを調べる。 1 が 0 に等しい場合、2 は他方の 4 ビットの予算を対数的に使うことができ、両方が 0 に等しい場合は、それぞれが 4 ビットに動的に量子化される。 SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。 コードはhttps://github.com/g ilshm/sparqで入手できる。

Quantization is a technique used in deep neural networks (DNNs) to increase execution performance and hardware efficiency. Uniform post-training quantization (PTQ) methods are common, since they can be implemented efficiently in hardware and do not require extensive hardware resources or a training set. Mapping FP32 models to INT8 using uniform PTQ yields models with negligible accuracy degradation; however, reducing precision below 8 bits with PTQ is challenging, as accuracy degradation becomes noticeable, due to the increase in quantization noise. In this paper, we propose a sparsity-aware quantization (SPARQ) method, in which the unstructured and dynamic activation sparsity is leveraged in different representation granularities. 4-bit quantization, for example, is employed by dynamically examining the bits of 8-bit values and choosing a window of 4 bits, while first skipping zero-value bits. Moreover, instead of quantizing activation-by-activa tion to 4 bits, we focus on pairs of 8-bit activations and examine whether one of the two is equal to zero. If one is equal to zero, the second can opportunistically use the other's 4-bit budget; if both do not equal zero, then each is dynamically quantized to 4 bits, as described. SPARQ achieves minor accuracy degradation, 2x speedup over widely used hardware architectures, and a practical hardware implementation. The code is available at https://github.com/g ilshm/sparq.
翻訳日:2021-05-25 15:23:16 公開日:2021-05-23
# ランク抽出法とランダム化によるレバレッジスコアの推定

Estimating leverage scores via rank revealing methods and randomization ( http://arxiv.org/abs/2105.11004v1 )

ライセンス: Link先を確認
Aleksandros Sobczyk (1) and Efstratios Gallopoulos (2) ((1) IBM Research Europe, Zurich, Switzerland (2) Computer Engineering and Informatics Department, University of Patras, Greece)(参考訳) 任意のランクの直方体あるいは疎行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。 提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。 まず,ランク推定,列部分集合選択,最小二乗プリコンディショニングのための一組の高速新規アルゴリズムを開発した。 次に,これらのプリミティブに基づくスコア推定器の設計と実装について述べる。 これらの推定器は、ランク不足入力にも有効であり、データ分析アプリケーションではよく使われる。 すべてのアルゴリズムの詳細な複雑性解析と有意義な近似境界と最先端との比較を提供する。 アルゴリズムを評価し,その特性と性能を合成データと実世界データを用いて説明するために,広範な数値実験を行った。

We study algorithms for estimating the statistical leverage scores of rectangular dense or sparse matrices of arbitrary rank. Our approach is based on combining rank revealing methods with compositions of dense and sparse randomized dimensionality reduction transforms. We first develop a set of fast novel algorithms for rank estimation, column subset selection and least squares preconditioning. We then describe the design and implementation of leverage score estimators based on these primitives. These estimators are also effective for rank deficient input, which is frequently the case in data analytics applications. We provide detailed complexity analyses for all algorithms as well as meaningful approximation bounds and comparisons with the state-of-the-art. We conduct extensive numerical experiments to evaluate our algorithms and to illustrate their properties and performance using synthetic and real world data sets.
翻訳日:2021-05-25 15:22:02 公開日:2021-05-23
# テキストレビューからの製品オントロジーの自動抽出

Automatic Product Ontology Extraction from Textual Reviews ( http://arxiv.org/abs/2105.10966v1 )

ライセンス: Link先を確認
Joel Oksanen, Oana Cocarascu, Francesca Toni(参考訳) オントロジはテキストレビューを利用する異なる設定で有益であることが証明されている。 しかし、手動でオントロジーを構築するのは、自動化が必要な手間と時間がかかるプロセスです。 そこで本研究では,手書きのトレーニングデータを用いて,製品レビューからメロノミーの形でオントロジを自動的に抽出する手法を提案する。 提案手法が生成するオントロジーは,既存の手法(Text2Onto と COMET)によって抽出された,手作りオントロジー(WordNet)やオントロジーよりも優れていた。 具体的には、生成したオントロジーは、Amazonの既存のQ&Aデータセットと同様に、人間のアノテーションによって評価された場合、他よりも優れています。 さらに,本手法は,目に見えない製品に関する知識の収集において,より一般化することができる。 最後に,本手法は,amazonの標準的なスコアアグリゲーションに代えて,レビューに基づいて推奨製品を決定することができることを示す,実世界の設定を検討する。

Ontologies have proven beneficial in different settings that make use of textual reviews. However, manually constructing ontologies is a laborious and time-consuming process in need of automation. We propose a novel methodology for automatically extracting ontologies, in the form of meronomies, from product reviews, using a very limited amount of hand-annotated training data. We show that the ontologies generated by our method outperform hand-crafted ontologies (WordNet) and ontologies extracted by existing methods (Text2Onto and COMET) in several, diverse settings. Specifically, our generated ontologies outperform the others when evaluated by human annotators as well as on an existing Q&A dataset from Amazon. Moreover, our method is better able to generalise, in capturing knowledge about unseen products. Finally, we consider a real-world setting, showing that our method is better able to determine recommended products based on their reviews, in alternative to using Amazon's standard score aggregations.
翻訳日:2021-05-25 15:21:21 公開日:2021-05-23
# ブラックボックス状態から計画のための一階表現を学ぶ:新しい結果

Learning First-Order Representations for Planning from Black-Box States: New Results ( http://arxiv.org/abs/2105.10830v1 )

ライセンス: Link先を確認
Ivan D. Rodriguez, Blai Bonet, Javier Romero, Hector Geffner(参考訳) 最近、boint氏とgeffner氏は、計画ドメインのための一階表現は、アクションスキーマやドメイン述語について事前の知識なしに、状態空間の構造から学べることを示した。 このために、学習問題は、インスタンスi_i(オブジェクト数と初期状態)に関する情報と共に、観察された状態グラフg_iと一致する状態空間グラフg(p_i)を決定する最も単純な一階のドメイン記述dの探索として定式化される。 探索は、可能なアクションスキーマとドメイン述語の数、それらのアーティリティ、およびオブジェクトの数を符号化するパラメータだけが異なる命題理論の大規模なファミリー上で呼び出されるsatソルバによって、ほぼキャストされ、解決される。 本研究では,これらの学習者の限界を,ClingOシステムを用いた解集合プログラミング(ASP)エンコーディングに移行することによって押し上げる。 新しいエンコーディングはより透明で簡潔で、可能なモデルの範囲を広げつつ、探索を容易にする。 ボネットとゲフナーによって導入された領域は、新しいアプローチでより効率的に解くことができ、さらに、状態グラフに関する部分的な情報や、いくつかの状態の区別を妨げるノイズを扱うために容易に拡張できることを示した。

Recently Bonet and Geffner have shown that first-order representations for planning domains can be learned from the structure of the state space without any prior knowledge about the action schemas or domain predicates. For this, the learning problem is formulated as the search for a simplest first-order domain description D that along with information about instances I_i (number of objects and initial state) determine state space graphs G(P_i) that match the observed state graphs G_i where P_i = (D, I_i). The search is cast and solved approximately by means of a SAT solver that is called over a large family of propositional theories that differ just in the parameters encoding the possible number of action schemas and domain predicates, their arities, and the number of objects. In this work, we push the limits of these learners by moving to an answer set programming (ASP) encoding using the CLINGO system. The new encodings are more transparent and concise, extending the range of possible models while facilitating their exploration. We show that the domains introduced by Bonet and Geffner can be solved more efficiently in the new approach, often optimally, and furthermore, that the approach can be easily extended to handle partial information about the state graphs as well as noise that prevents some states from being distinguished.
翻訳日:2021-05-25 15:19:27 公開日:2021-05-23
# 視覚センシティブ情報に基づくステレオマッチング

Stereo Matching Based on Visual Sensitive Information ( http://arxiv.org/abs/2105.10831v1 )

ライセンス: Link先を確認
Hewei Wang, Muhammad Salman Pathan, and Soumyabrata Dev(参考訳) コンピュータビジョンの領域は多くの学者の間で最も議論されているトピックの1つであり、ステレオマッチングは最も重要なサブ分野である。 パララックス写像が深度写像に変換されると、多くの知的場に適用することができる。 本稿では,ミドルベリーデータセットの標準画像を用いて,視覚センシティブな情報に基づくステレオマッチングアルゴリズムを提案する。 コストウィンドウに関する従来のステレオマッチングアルゴリズムの限界を目指して、動的ウィンドウに基づくコスト集約アルゴリズムを提案し、左右の一貫性検出を用いて不一致画像を最適化し、エラーマッチング率をさらに低減する。 実験の結果,本アルゴリズムは,従来の国勢調査アルゴリズムと比較して精度が大幅に向上する画像のステレオマッチング効果を効果的に向上できることがわかった。 提案されたモデルコード、データセット、実験結果はhttps://github.com/W angHewei16/Stereo-Ma tching.comで公開されている。

The area of computer vision is one of the most discussed topics amongst many scholars, and stereo matching is its most important sub fields. After the parallax map is transformed into a depth map, it can be applied to many intelligent fields. In this paper, a stereo matching algorithm based on visual sensitive information is proposed by using standard images from Middlebury dataset. Aiming at the limitation of traditional stereo matching algorithms regarding the cost window, a cost aggregation algorithm based on the dynamic window is proposed, and the disparity image is optimized by using left and right consistency detection to further reduce the error matching rate. The experimental results show that the proposed algorithm can effectively enhance the stereo matching effect of the image providing significant improvement in accuracy as compared with the classical census algorithm. The proposed model code, dataset, and experimental results are available at https://github.com/W angHewei16/Stereo-Ma tching.
翻訳日:2021-05-25 15:16:16 公開日:2021-05-23
# 適応型人間詩:ゼロリアル3次元データを用いた単眼的人間詩推定

Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D Pose Data ( http://arxiv.org/abs/2105.10837v1 )

ライセンス: Link先を確認
Shuangjun Liu, Naveen Sehgal, Sarah Ostadabbas(参考訳) 推論モデルの最終的な目標は、実生活のアプリケーションで堅牢で機能することである。 しかし、トレーニングとテストデータドメインのギャップはしばしばモデルの性能に悪影響を及ぼします。 この問題は、制御された実験室でしばしば3次元の人間のデータが収集される単眼的3次元人物ポーズ推定問題において特に重要である。 本稿では,出現空間とポーズ空間の両方における適応問題に対処するhup(adapted human pose)アプローチを提案することで,ドメインシフトの悪影響を緩和することに焦点を当てる。 AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。 AHuPの3次元ポーズ推定性能を2つのシナリオで説明する。 まず、ソースとターゲットのデータが外観とポーズ空間の両方で著しく異なる場合、合成された3d人間データ(実際の3d人間データはゼロ)から学び、トレーニングのために実際の3d人間ポーズベンチマークに完全にアクセスできる最先端の3dポーズ推定モデルと同等のパフォーマンスを示す。 第二に、ソースとターゲットのデータセットが主にポーズ空間で異なる場合、トレーニングデータセットとは異なるデータセットでテストした場合の最先端モデルのパフォーマンスをさらに向上するためにAHuPアプローチを適用することができる。

The ultimate goal for an inference model is to be robust and functional in real life applications. However, training vs. test data domain gaps often negatively affect model performance. This issue is especially critical for the monocular 3D human pose estimation problem, in which 3D human data is often collected in a controlled lab setting. In this paper, we focus on alleviating the negative effect of domain shift by presenting our adapted human pose (AHuP) approach that addresses adaptation problems in both appearance and pose spaces. AHuP is built around a practical assumption that in real applications, data from target domain could be inaccessible or only limited information can be acquired. We illustrate the 3D pose estimation performance of AHuP in two scenarios. First, when source and target data differ significantly in both appearance and pose spaces, in which we learn from synthetic 3D human data (with zero real 3D human data) and show comparable performance with the state-of-the-art 3D pose estimation models that have full access to the real 3D human pose benchmarks for training. Second, when source and target datasets differ mainly in the pose space, in which AHuP approach can be applied to further improve the performance of the state-of-the-art models when tested on the datasets different from their training dataset.
翻訳日:2021-05-25 15:16:04 公開日:2021-05-23
# セマンティックセグメンテーションにおける教師なしドメイン適応のロバスト性探索

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2105.10843v1 )

ライセンス: Link先を確認
Jinyu Yang, Chunyuan Li, Weizhi An, Hehuan Ma, Yuzhi Guo, Yu Rong, Peilin Zhao, Junzhou Huang(参考訳) 最近の研究は、深層ニューラルネットワークが敵の例に弱いことを示唆している。わずかながら意図的な摂動を持つ入力は、ネットワークによって誤って分類される。 このような脆弱性は、セキュリティ関連のアプリケーション(自動運転車におけるセマンティクスセグメンテーションなど)にリスクをもたらし、モデルの信頼性に重大な懸念を引き起こす。 まず,既存のUDA手法の堅牢性を総合的に評価し,堅牢なUDA手法を提案する。 i) セマンティックセグメンテーションにおけるUDA手法の堅牢性は、この分野でのセキュリティ上の懸念を生じさせる未発見のままであり、(ii) 一般的に自己スーパービジョン(回転やジグソーなど)は、分類や認識などのイメージタスクに有効であるが、セグメンテーションタスクの識別的表現を学習できる重要な監視信号の提供には失敗している。 これらの観察結果から, クリーンイメージと敵対例との一致を最大化し, 出力空間の相対的損失を最大化する, 対向自己超越UDA (ASSUDA) を提案する。 一般的なベンチマークに関する大規模な実証研究は、ASSUDAが敵の攻撃に耐性があることを実証している。

Recent studies imply that deep neural networks are vulnerable to adversarial examples -- inputs with a slight but intentional perturbation are incorrectly classified by the network. Such vulnerability makes it risky for some security-related applications (e.g., semantic segmentation in autonomous cars) and triggers tremendous concerns on the model reliability. For the first time, we comprehensively evaluate the robustness of existing UDA methods and propose a robust UDA approach. It is rooted in two observations: (i) the robustness of UDA methods in semantic segmentation remains unexplored, which pose a security concern in this field; and (ii) although commonly used self-supervision (e.g., rotation and jigsaw) benefits image tasks such as classification and recognition, they fail to provide the critical supervision signals that could learn discriminative representation for segmentation tasks. These observations motivate us to propose adversarial self-supervision UDA (or ASSUDA) that maximizes the agreement between clean images and their adversarial examples by a contrastive loss in the output space. Extensive empirical studies on commonly used benchmarks demonstrate that ASSUDA is resistant to adversarial attacks.
翻訳日:2021-05-25 15:15:41 公開日:2021-05-23
# FCCDN:VHR画像変化検出のための機能制約ネットワーク

FCCDN: Feature Constraint Network for VHR Image Change Detection ( http://arxiv.org/abs/2105.10860v1 )

ライセンス: Link先を確認
Pan Chen, Danfeng Hong, Zhengchao Chen, Xuan Yang, Baipeng Li, Bing Zhang(参考訳) 変化検出は、両時間同時登録画像の画素単位の差を識別するプロセスである。 これは地球観測にとって非常に重要である。 近年、深層学習(dl)の出現に伴い、深層畳み込みニューラルネットワーク(cnns)ベースの手法が変化検出の分野でその能力と実現可能性を示している。 しかし、変更機能の学習には効果的な監督がまだ欠けている。 本研究では,特徴制約変化検出ネットワーク(FCCDN)を提案する。 我々は,双時間特徴抽出と特徴融合の両方に特徴を制約する。 具体的には、変更検出タスクのためのデュアルエンコーダ-デコーダネットワークバックボーンを提案する。 バックボーンの中心として,マルチスケール機能を抽出・融合する非ローカル機能ピラミッドネットワークを設計した。 両時間的特徴を堅牢に融合させるため,高密度接続型特徴融合モジュールを構築した。 さらに,特徴学習を制約する自己教師型学習戦略を提案する。 FCCDNに基づいて、2つのビルディング変更検出データセット(LEVIR-CDとWHU)の最先端性能を実現する。 LEVIR-CDデータセットでは、0.8569のIoUと0.9229のF1スコアを達成する。 WHUデータセットでは、IoUが0.8820、F1が0.9373である。 さらに, 意味的セグメンテーションラベルを使わずに, 正確な両時間的セグメンテーション結果の取得を初めて達成した。 ラベル付けのコストが削減されるため、変更検出の適用には不可欠である。

Change detection is the process of identifying pixel-wise differences of bi-temporal co-registered images. It is of great significance to Earth observation. Recently, with the emerging of deep learning (DL), deep convolutional neural networks (CNNs) based methods have shown their power and feasibility in the field of change detection. However, there is still a lack of effective supervision for change feature learning. In this work, a feature constraint change detection network (FCCDN) is proposed. We constrain features both on bi-temporal feature extraction and feature fusion. More specifically, we propose a dual encoder-decoder network backbone for the change detection task. At the center of the backbone, we design a non-local feature pyramid network to extract and fuse multi-scale features. To fuse bi-temporal features in a robust way, we build a dense connection-based feature fusion module. Moreover, a self-supervised learning-based strategy is proposed to constrain feature learning. Based on FCCDN, we achieve state-of-the-art performance on two building change detection datasets (LEVIR-CD and WHU). On the LEVIR-CD dataset, we achieve IoU of 0.8569 and F1 score of 0.9229. On the WHU dataset, we achieve IoU of 0.8820 and F1 score of 0.9373. Moreover, we, for the first time, achieve the acquire of accurate bi-temporal semantic segmentation results without using semantic segmentation labels. It is vital for the application of change detection because it saves the cost of labeling.
翻訳日:2021-05-25 15:15:16 公開日:2021-05-23
# VS-Net: ビジュアルローカライゼーションのためのセグメンテーションによる投票

VS-Net: Voting with Segmentation for Visual Localization ( http://arxiv.org/abs/2105.10886v1 )

ライセンス: Link先を確認
Zhaoyang Huang, Han Zhou, Yijin Li, Bangbang Yang, Yan Xu, Xiaowei Zhou, Hujun Bao, Guofeng Zhang, Hongsheng Li(参考訳) 視覚的ローカライゼーションはロボット工学とコンピュータビジョンにおいて非常に重要である。 近年,シーン座標回帰に基づく手法が,小さな静的シーンにおける視覚的局所化において良好な性能を示している。 しかし、多くの劣ったシーン座標からカメラのポーズを推定する。 そこで本研究では,クエリ画像と3次元マップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。 ランドマーク生成段階において、ターゲットシーンの3d表面は、シーン特有のランドマークとみなされるモザイクパッチに過剰に区切られる。 シーン固有のランドマークを頑健かつ正確に復元するために、Voting with Segmentation Network (VS-Net) を提案し、セグメント化ブランチで画素を異なるランドマークパッチに分割し、各パッチ内のランドマーク位置をランドマーク位置投票ブランチで推定する。 シーン内のランドマークの数は最大5000に達する可能性があるため、多くのクラスでセグメンテーションネットワークを訓練することは、一般的に使用されるクロスエントロピー損失の計算とメモリコストがかかる。 本稿では,多くのラベルを持つセマンティックセグメンテーションネットワークを効率的にトレーニングできる,強負のマイニングによる新しいプロトタイプベースの三重項損失を提案する。 提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。 コードとモデルは \href{https://github.com/z ju3dv/VS-Net}{https://github.com/z ju3dv/VS-Net} で公開されている。

Visual localization is of great importance in robotics and computer vision. Recently, scene coordinate regression based methods have shown good performance in visual localization in small static scenes. However, it still estimates camera poses from many inferior scene coordinates. To address this problem, we propose a novel visual localization framework that establishes 2D-to-3D correspondences between the query image and the 3D map with a series of learnable scene-specific landmarks. In the landmark generation stage, the 3D surfaces of the target scene are over-segmented into mosaic patches whose centers are regarded as the scene-specific landmarks. To robustly and accurately recover the scene-specific landmarks, we propose the Voting with Segmentation Network (VS-Net) to segment the pixels into different landmark patches with a segmentation branch and estimate the landmark locations within each patch with a landmark location voting branch. Since the number of landmarks in a scene may reach up to 5000, training a segmentation network with such a large number of classes is both computation and memory costly for the commonly used cross-entropy loss. We propose a novel prototype-based triplet loss with hard negative mining, which is able to train semantic segmentation networks with a large number of labels efficiently. Our proposed VS-Net is extensively tested on multiple public benchmarks and can outperform state-of-the-art visual localization methods. Code and models are available at \href{https://github.com/z ju3dv/VS-Net}{https://github.com/z ju3dv/VS-Net}.
翻訳日:2021-05-25 15:14:59 公開日:2021-05-23
# COTR: Convolution in Transformer Network for End to End Polyp Detection

COTR: Convolution in Transformer Network for End to End Polyp Detection ( http://arxiv.org/abs/2105.10925v1 )

ライセンス: Link先を確認
Zhiqiang Shen, Chaonan Lin, Shaohua Zheng(参考訳) 目的:大腸癌(CRC)は世界で2番目に多いがん死亡の原因である。 大腸内視鏡は大腸スクリーニングやポリープ病変の診断に広く用いられている。 それでも大腸内視鏡による手動検診はポリープのかなりのミス率に悩まされており、内視鏡医にとって圧倒的な負担となっている。 ポリープ検出のためのコンピュータ支援診断(CAD)は、人的ミスや人的負担を軽減する可能性がある。 しかし、オブジェクト検出フレームワークに基づく現在のポリプ検出方法は、多くの手作り前処理と後処理操作、ドメイン固有の知識を必要とするユーザーガイダンスを必要とする。 方法: 本論文では, 終端ポリプ検出のための変換器ネットワーク(COTR)の畳み込みを提案する。 検出変換器(DETR)によりモチベーションされたCOTRは、特徴抽出用CNN、特徴符号化および再校正用畳み込み層にインターリーブされたトランスフォーマー層、オブジェクトクエリ用トランスフォーマー層、および検出予測用フィードフォワードネットワークによって構成される。 DETRの緩やかな収束を考えると、COTRはコンボリューション層をトランスフォーマーエンコーダに埋め込み、特徴再構成と収束加速を行う。 結果: 2つのポリープデータセットにおける実験結果から, cotr は 91.49\% 精度, 82.69% 感度, 86.87% score を etis-larib で達成し, 91.67% 精度, 93.54% 感度, 92.60% f1-score を cvc-colondb で達成した。 結論:本研究では,大腸ポリープ検出のための検出トランスを用いたエンドツーエンド検出手法を提案する。 ETIS-LARIBとCVC-ColonDBデータセットの実験結果から,提案モデルが最先端手法と同等の性能を示した。

Purpose: Colorectal cancer (CRC) is the second most common cause of cancer mortality worldwide. Colonoscopy is a widely used technique for colon screening and polyp lesions diagnosis. Nevertheless, manual screening using colonoscopy suffers from a substantial miss rate of polyps and is an overwhelming burden for endoscopists. Computer-aided diagnosis (CAD) for polyp detection has the potential to reduce human error and human burden. However, current polyp detection methods based on object detection framework need many handcrafted pre-processing and post-processing operations or user guidance that require domain-specific knowledge. Methods: In this paper, we propose a convolution in transformer (COTR) network for end-to-end polyp detection. Motivated by the detection transformer (DETR), COTR is constituted by a CNN for feature extraction, transformer encoder layers interleaved with convolutional layers for feature encoding and recalibration, transformer decoder layers for object querying, and a feed-forward network for detection prediction. Considering the slow convergence of DETR, COTR embeds convolution layers into transformer encoder for feature reconstruction and convergence acceleration. Results: Experimental results on two public polyp datasets show that COTR achieved 91.49\% precision, 82.69% sensitivity, and 86.87% F1-score on the ETIS-LARIB, and 91.67% precision, 93.54% sensitivity, and 92.60% F1-score on the CVC-ColonDB. Conclusion: This study proposed an end to end detection method based on detection transformer for colorectal polyp detection. Experimental results on ETIS-LARIB and CVC-ColonDB dataset demonstrated that the proposed model achieved comparable performance against state-of-the-art methods.
翻訳日:2021-05-25 15:14:32 公開日:2021-05-23
# トランスフォーマーによる群衆の数え上げ

Boosting Crowd Counting with Transformers ( http://arxiv.org/abs/2105.10926v1 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic, Luc Van Gool(参考訳) 大規模なコンテキストを畳み込みニューラルネットワーク(CNN)に統合することで、群衆カウント問題に関する重要な進歩が達成されている。 これは、一見ボトムアップな問題にもかかわらず、グローバルなシーンコンテキストが不可欠であることを示している。 これは、コンテキストの知識が所定のシーンに局所的な特徴抽出を適応させ、改善できるという事実によって説明できる。 そこで本稿では,群衆数におけるグローバルコンテキストの役割について検討する。 具体的には、重なり合う画像パッチからグローバル情報で特徴を抽出するために純粋変換器を用いる。 分類により、入力シーケンスにコンテキストトークンを追加し、トランスフォーマー層全体にわたる画像パッチに対応するトークンとの情報交換を容易にする。 トランスフォーマーは、試行錯誤のチャネルワイドインタラクションを明示的にモデル化していないため、コンテクストトークンによって通知されるチャネルワイドアテンションを通じて符号化された特徴を再検討するトークンアテンションモジュール(TAM)を提案する。 さらに、回帰分岐モジュール(rtm)によって画像の総人物数を予測するために採用されている。 大規模な実験により,上海技術,UCF-QNRF,JHU-CROWD++,NWPUなどの各種データセット上での最先端性能が得られた。 大規模jhu-crowd++データセットでは、前回のベストを26.9%、maeとmseで29.9%改善した。

Significant progress on the crowd counting problem has been achieved by integrating larger context into convolutional neural networks (CNNs). This indicates that global scene context is essential, despite the seemingly bottom-up nature of the problem. This may be explained by the fact that context knowledge can adapt and improve local feature extraction to a given scene. In this paper, we therefore investigate the role of global context for crowd counting. Specifically, a pure transformer is used to extract features with global information from overlapping image patches. Inspired by classification, we add a context token to the input sequence, to facilitate information exchange with tokens corresponding to image patches throughout transformer layers. Due to the fact that transformers do not explicitly model the tried-and-true channel-wise interactions, we propose a token-attention module (TAM) to recalibrate encoded features through channel-wise attention informed by the context token. Beyond that, it is adopted to predict the total person count of the image through regression-token module (RTM). Extensive experiments demonstrate that our method achieves state-of-the-art performance on various datasets, including ShanghaiTech, UCF-QNRF, JHU-CROWD++ and NWPU. On the large-scale JHU-CROWD++ dataset, our method improves over the previous best results by 26.9% and 29.9% in terms of MAE and MSE, respectively.
翻訳日:2021-05-25 15:14:02 公開日:2021-05-23
# マルチソースファイングラインド物体認識のための弱教師付きインスタンスアテンション

Weakly Supervised Instance Attention for Multisource Fine-Grained Object Recognition ( http://arxiv.org/abs/2105.10983v1 )

ライセンス: Link先を確認
Bulut Aygunes, Ramazan Gokberk Cinbis, Selim Aksoy(参考訳) 補完スペクトル、空間、構造情報を利用するマルチソース画像解析は、オブジェクトを多くの類似したサブカテゴリの1つに分類することを目的とした、きめ細かいオブジェクト認識の恩恵を受ける。 しかし、比較的小さなオブジェクトを含むマルチソースタスクでは、最小の登録エラーでさえ分類プロセスに高い不確実性をもたらす可能性がある。 入力画像は,与えられたクラスラベルを持つオブジェクトが近傍に存在し,その正確な位置を知らずに,期待される対象位置周辺の大きな近傍に対応するという,弱い教師付き学習視点からこの問題にアプローチする。 提案手法では,オブジェクトの同時配置と分類に並列分岐を持つ単一ソースのディープインスタンスアテンションモデルを使用し,このモデルを複数ソースに拡張することで,位置不確実性のないと仮定された参照ソースを用いて,確率レベル,ロジットレベル,特徴レベル,画素レベルという4つのレベルにおける複数のソースの融合を支援する。 その結果,RGB,マルチスペクトル,LiDARデータを用いた場合の最高性能ベースラインよりも5.7%向上し,40種類の木を認識した場合の精度が53%向上した。 また,様々なパラメータの複雑性設定において,各モデルを評価することで,モデルのキャパシティが増加すると,デフォルトキャパシティ設定よりも6.3%向上する。

Multisource image analysis that leverages complementary spectral, spatial, and structural information benefits fine-grained object recognition that aims to classify an object into one of many similar subcategories. However, for multisource tasks that involve relatively small objects, even the smallest registration errors can introduce high uncertainty in the classification process. We approach this problem from a weakly supervised learning perspective in which the input images correspond to larger neighborhoods around the expected object locations where an object with a given class label is present in the neighborhood without any knowledge of its exact location. The proposed method uses a single-source deep instance attention model with parallel branches for joint localization and classification of objects, and extends this model into a multisource setting where a reference source that is assumed to have no location uncertainty is used to aid the fusion of multiple sources in four different levels: probability level, logit level, feature level, and pixel level. We show that all levels of fusion provide higher accuracies compared to the state-of-the-art, with the best performing method of feature-level fusion resulting in 53% accuracy for the recognition of 40 different types of trees, corresponding to an improvement of 5.7% over the best performing baseline when RGB, multispectral, and LiDAR data are used. We also provide an in-depth comparison by evaluating each model at various parameter complexity settings, where the increased model capacity results in a further improvement of 6.3% over the default capacity setting.
翻訳日:2021-05-25 15:13:38 公開日:2021-05-23
# ヒューリスティックな弱教師付き3次元人間のポーズ推定 : 3次元ポーズ基底真理を伴わない新しい文脈

Heuristic Weakly Supervised 3D Human Pose Estimation in Novel Contexts without Any 3D Pose Ground Truth ( http://arxiv.org/abs/2105.10996v1 )

ライセンス: Link先を確認
Shuangjun Liu, Xiaofei Huang, Nihang Fu, and Sarah Ostadabbas(参考訳) 単一のRGB画像からの単眼的な3Dポーズ推定は、ここ数年で多くの注目を集めている。 しかし、競合性能を持つポーズ推論モデルは、3Dポーズの真理データや、ターゲットドメインにおける少なくとも既知のポーズ前のデータを監督する必要がある。 しかし、データ収集制約のある多くの実世界のアプリケーションにおけるこれらのデータ要求は達成できないかもしれない。 本稿では,基礎的真理の3dデータにアクセスできない状況において,微調整であっても3dのポーズを推定するためのhw-hupと呼ばれるヒューリスティックな弱教師付き解を提案する。 HW-HuPは、パブリックな3Dヒューマンポーズデータセットから部分的なポーズ先行を学習し、ターゲットドメインから容易にアクセス可能な観察を使用して、3Dヒューマンポーズと形状を最適化および回帰ハイブリッドサイクルで反復的に推定する。 本設計では, 補助情報としての深度データは, トレーニング中に弱い監督力として利用されるが, 推論には必要ではない。 我々は,HW-HuPの性能を,被写体と幼児の両ポーズのデータセットで定性的に評価した。 また,HW-HuPの性能を3次元地上真実に対して公開可能なモーションキャプチャーデータセット上で定量的に検証した。 HW-HuPは、特に閉塞や全暗視といった悪視条件下でのポーズ推定タスクのために、他の入力モードにも拡張することができる。 Human3.6Mベンチマークでは、HW-HuPは、MPJPEが104.1mm、PA MPJPEが50.4mmである。

Monocular 3D human pose estimation from a single RGB image has received a lot attentions in the past few year. Pose inference models with competitive performance however require supervision with 3D pose ground truth data or at least known pose priors in their target domain. Yet, these data requirements in many real-world applications with data collection constraints may not be achievable. In this paper, we present a heuristic weakly supervised solution, called HW-HuP to estimate 3D human pose in contexts that no ground truth 3D data is accessible, even for fine-tuning. HW-HuP learns partial pose priors from public 3D human pose datasets and uses easy-to-access observations from the target domain to iteratively estimate 3D human pose and shape in an optimization and regression hybrid cycle. In our design, depth data as an auxiliary information is employed as weak supervision during training, yet it is not needed for the inference. We evaluate HW-HuP performance qualitatively on datasets of both in-bed human and infant poses, where no ground truth 3D pose is provided neither any target prior. We also test HW-HuP performance quantitatively on a publicly available motion capture dataset against the 3D ground truth. HW-HuP is also able to be extended to other input modalities for pose estimation tasks especially under adverse vision conditions, such as occlusion or full darkness. On the Human3.6M benchmark, HW-HuP shows 104.1mm in MPJPE and 50.4mm in PA MPJPE, comparable to the existing state-of-the-art approaches that benefit from full 3D pose supervision.
翻訳日:2021-05-25 15:13:12 公開日:2021-05-23
# グラフニューラルネットワークによるハイパーグラフ事前学習

Hypergraph Pre-training with Graph Neural Networks ( http://arxiv.org/abs/2105.10862v1 )

ライセンス: Link先を確認
Boxin Du, Changhe Yuan, Robert Barton, Tal Neiman, Hanghang Tong(参考訳) 様々なハイインパクトアプリケーションでハイパーグラフが普及しているにもかかわらず、ハイパーグラフ表現学習に関する著作は少なく、その大半はハイパーリンク予測に重点を置いており、しばしばトランスダクティブ学習の設定に制限されている。 中でも、効果的なハイパーグラフ表現学習の大きなハードルは、ノードやハイパーエッジのラベル不足にある。 本稿では,ハイパーグラフのためのグラフニューラルネットワークを用いたエンドツーエンドの双方向事前学習戦略を提案する。 HyperGeneという名前のフレームワークには3つの特長がある。 まず、利用可能なラベル情報を取得することができるが、より重要なのは、主に自己管理方式で設計されており、適用性を大幅に拡大する。 第二に、提案されたHyperGeneの中心には、ノードレベルとハイパーエッジレベルの2つの慎重に設計されたプリテキストがあり、これにより、ローカルとグローバル両方のコンテキストを相互に補完的にエンコードすることができます。 第三に、提案されたフレームワークは、トランスダクティブとインダクティブの両方で機能する。 提案した2つの前提文をタンデムで適用すると,提案手法のバイレベル特性により,事前学習されたモデルから下流アプリケーションへの知識の適応が促進される。 1)HyperGeneは、ハイパーエッジ分類において最大5.69%の改善を実現し、(2)トレーニング前の効率を平均で42.80%改善する。

Despite the prevalence of hypergraphs in a variety of high-impact applications, there are relatively few works on hypergraph representation learning, most of which primarily focus on hyperlink prediction, often restricted to the transductive learning setting. Among others, a major hurdle for effective hypergraph representation learning lies in the label scarcity of nodes and/or hyperedges. To address this issue, this paper presents an end-to-end, bi-level pre-training strategy with Graph Neural Networks for hypergraphs. The proposed framework named HyperGene bears three distinctive advantages. First, it is capable of ingesting the labeling information when available, but more importantly, it is mainly designed in the self-supervised fashion which significantly broadens its applicability. Second, at the heart of the proposed HyperGene are two carefully designed pretexts, one on the node level and the other on the hyperedge level, which enable us to encode both the local and the global context in a mutually complementary way. Third, the proposed framework can work in both transductive and inductive settings. When applying the two proposed pretexts in tandem, it can accelerate the adaptation of the knowledge from the pre-trained model to downstream applications in the transductive setting, thanks to the bi-level nature of the proposed method. The extensive experimental results demonstrate that: (1) HyperGene achieves up to 5.69% improvements in hyperedge classification, and (2) improves pre-training efficiency by up to 42.80% on average.
翻訳日:2021-05-25 15:06:37 公開日:2021-05-23
# 二元分類における各種データサンプリング手法による不均衡処理に関する研究

A Study imbalance handling by various data sampling methods in binary classification ( http://arxiv.org/abs/2105.10959v1 )

ライセンス: Link先を確認
Mohamed Hamama(参考訳) The purpose of this research report is to present the our learning curve and the exposure to the Machine Learning life cycle, with the use of a Kaggle binary classification data set and taking to explore various techniques from pre-processing to the final optimization and model evaluation, also we highlight on the data imbalance issue and we discuss the different methods of handling that imbalance on the data level by over-sampling and under sampling not only to reach a balanced class representation but to improve the overall performance. この作業は、将来の作業のギャップも開きます。

The purpose of this research report is to present the our learning curve and the exposure to the Machine Learning life cycle, with the use of a Kaggle binary classification data set and taking to explore various techniques from pre-processing to the final optimization and model evaluation, also we highlight on the data imbalance issue and we discuss the different methods of handling that imbalance on the data level by over-sampling and under sampling not only to reach a balanced class representation but to improve the overall performance. This work also opens some gaps for future work.
翻訳日:2021-05-25 15:06:12 公開日:2021-05-23
# 知識組織エコシステムに向けて

Towards Knowledge Organization Ecosystems ( http://arxiv.org/abs/2105.10923v1 )

ライセンス: Link先を確認
Mayukh Bagchi(参考訳) すでに確立された)知識組織の重要性と、知識ベース人工知能(AI)システムにおける試行錯誤された高品質なスキームに言及する必要はない。 しかし同様に、ドメインの連続的な顔化や漂流を捉えることができないため、スタンドアローンのKOSが機能的に非効率なコンポーネントになりつつあることも無視するのは難しい。 The paper proposes a radical re-conceptualization of KOSs as a first step to solve such an inability, and, accordingly, contributes in the form of the following dimensions: (i) an explicit characterization of Knowledge Organization Ecosystems (KOEs) (possibly for the first time) and their positioning as pivotal components in realizing sustainable knowledge-based AI solutions, (ii) as a consequence of such a novel characterization, a first examination and characterization of KOEs as Socio-Technical Systems (STSs), thus opening up an entirely new stream of research in knowledge-based AI, and (iii) motivating KOEs not to be mere STSs but STSs which are grounded in Ethics and Responsible Artificial Intelligence cardinals from their very genesis. 論文は, 論文全体に分散した研究文献の貢献を根拠とし, 今後の研究の可能性について概説する。

It is needless to mention the (already established) overarching importance of knowledge organization and its tried-and-tested high-quality schemes in knowledge-based Artificial Intelligence (AI) systems. But equally, it is also hard to ignore that, increasingly, standalone KOSs are becoming functionally ineffective components for such systems, given their inability to capture the continuous facetization and drift of domains. The paper proposes a radical re-conceptualization of KOSs as a first step to solve such an inability, and, accordingly, contributes in the form of the following dimensions: (i) an explicit characterization of Knowledge Organization Ecosystems (KOEs) (possibly for the first time) and their positioning as pivotal components in realizing sustainable knowledge-based AI solutions, (ii) as a consequence of such a novel characterization, a first examination and characterization of KOEs as Socio-Technical Systems (STSs), thus opening up an entirely new stream of research in knowledge-based AI, and (iii) motivating KOEs not to be mere STSs but STSs which are grounded in Ethics and Responsible Artificial Intelligence cardinals from their very genesis. The paper grounds the above contributions in relevant research literature in a distributed fashion throughout the paper, and finally concludes by outlining the future research possibilities.
翻訳日:2021-05-25 15:04:15 公開日:2021-05-23
# チームメイトとは何か? 人間-AIチームにおけるチーム構成の考察

Who/What is My Teammate? Team Composition Considerations in Human-AI Teaming ( http://arxiv.org/abs/2105.11000v1 )

ライセンス: Link先を確認
Nathan J. McNeese, Beau G. Schelble, Lorenzo Barberis Canonico, Mustafa Demir(参考訳) 人間のAIチームの特徴とダイナミクスについては、特定の人間と人間のチームの概念がどのように人間のAIチームに適用されるか、この構成がチームのパフォーマンスにどのように影響するか、といった理解の欠如など、不明な点が多い。 本稿では, チームパフォーマンス, チーム状況認識, チーム認知など, さまざまな複合構成チーム(人間のみ, 人間のみ, 人間のみ, AIのみ, AIのみ)における人間とAIのコラボレーションの本質的側面を, シミュレーションされた緊急対応管理シナリオを通じて検討する実験研究を概説する。 結果から,チーム認知の認知はパフォーマンスを予測できないため,チームの認知とパフォーマンスの指標に関する二分法の結果が示唆された。 チームの状況認識やチームスコアといったパフォーマンス指標は、人間とaiの混成チームよりも低いレベルで実行されたすべての参加者で構成されるチームが、aiのみのチームが最高のパフォーマンスを達成していることを示している。 認識されたチームの認知は、人間のみのチームで最も高く、混合構成チームは、全チームの58%以下で認識されたチームの認知を報告した。 これらの結果は、将来の混合チームに対して、特定のアプリケーションにおいて人間のみのチームよりも混合チームのパフォーマンスが向上する可能性があることを知らせると同時に、混合チームの認識に対する悪影響を強調します。

There are many unknowns regarding the characteristics and dynamics of human-AI teams, including a lack of understanding of how certain human-human teaming concepts may or may not apply to human-AI teams and how this composition affects team performance. This paper outlines an experimental research study that investigates essential aspects of human-AI teaming such as team performance, team situation awareness, and perceived team cognition in various mixed composition teams (human-only, human-human-AI, human-AI-AI, and AI-only) through a simulated emergency response management scenario. Results indicate dichotomous outcomes regarding perceived team cognition and performance metrics, as perceived team cognition was not predictive of performance. Performance metrics like team situational awareness and team score showed that teams composed of all human participants performed at a lower level than mixed human-AI teams, with the AI-only teams attaining the highest performance. Perceived team cognition was highest in human-only teams, with mixed composition teams reporting perceived team cognition 58% below the all-human teams. These results inform future mixed teams of the potential performance gains in utilizing mixed teams' over human-only teams in certain applications, while also highlighting mixed teams' adverse effects on perceived team cognition.
翻訳日:2021-05-25 15:03:57 公開日:2021-05-23
# ランダムグラフにおける潜在位置の等式に関する仮説検証

Hypothesis Testing for Equality of Latent Positions in Random Graphs ( http://arxiv.org/abs/2105.10838v1 )

ライセンス: Link先を確認
Xinjie Du, Minh Tang(参考訳) 一般化されたランダムドット積グラフの2つの頂点$i$と$j$が、おそらくスケーリングまで、同じ潜在位置を持つという仮説テスト問題を考える。 この仮説テストの特別な例は、確率ブロックモデルと次数補正確率ブロックモデルグラフの2つの頂点が同じブロックメンバシップベクトルを持つかどうかをテストすることである。 グラフの隣接性または正規化ラプラシアンスペクトル埋め込みのいずれかのi$th行とj$th行の間の経験的マハラノビス距離に基づくいくつかのテスト統計について提案する。 軽度条件下では、これらのテスト統計は、ヌルおよび局所的な代替仮説の下でのカイ二乗分布を制限することを示し、局所的な代替条件の下で非中央性パラメータの明示的な表現を導出した。 これらの極限結果を用いて, 標準確率ブロックモデルとその次数補正型を選択できるモデル選択問題に対処する。 提案実験の有効性はシミュレーション研究と実データ応用の両方を通して示される。

We consider the hypothesis testing problem that two vertices $i$ and $j$ of a generalized random dot product graph have the same latent positions, possibly up to scaling. Special cases of this hypotheses test include testing whether two vertices in a stochastic block model or degree-corrected stochastic block model graph have the same block membership vectors. We propose several test statistics based on the empirical Mahalanobis distances between the $i$th and $j$th rows of either the adjacency or the normalized Laplacian spectral embedding of the graph. We show that, under mild conditions, these test statistics have limiting chi-square distributions under both the null and local alternative hypothesis, and we derived explicit expressions for the non-centrality parameters under the local alternative. Using these limit results, we address the model selection problem of choosing between the standard stochastic block model and its degree-corrected variant. The effectiveness of our proposed tests are illustrated via both simulation studies and real data applications.
翻訳日:2021-05-25 15:02:40 公開日:2021-05-23
# 協調的マルチエージェントパス発見 : 経路計画と衝突回避を超えて

Cooperative Multi-Agent Path Finding: Beyond Path Planning and Collision Avoidance ( http://arxiv.org/abs/2105.10993v1 )

ライセンス: Link先を確認
Nir Greshler, Ofir Gordon, Oren Salzman, and Nahum Shimkin(参考訳) 本稿では,協調行動が組み込まれた従来のMAPF問題の拡張であるCooperative Multi-Agent Path Finding (Co-MAPF)問題を紹介する。 この設定では、自律的なエージェントのグループは共有環境で動作し、グループ内の他のエージェントとの衝突を避けながら協調的なタスクを完了しなければならない。 この拡張は、与えられたタスクを完了するために、エージェントのグループが協力する必要がある多くの現実世界のアプリケーションを自然にモデル化する。 この目的のために、我々はCo-MAPF問題を定式化し、幅広いCo-MAPF問題に対して最適なCBSベースのアルゴリズムであるCo-CBSを導入する。 co-cbsはcbsに統合された協調計画モジュールを使用しており、協調計画が経路計画から切り離されている。 最後に,本アルゴリズムの特性を示すいくつかのmapfベンチマークで実験結果を示す。

We introduce the Cooperative Multi-Agent Path Finding (Co-MAPF) problem, an extension to the classical MAPF problem, where cooperative behavior is incorporated. In this setting, a group of autonomous agents operate in a shared environment and have to complete cooperative tasks while avoiding collisions with the other agents in the group. This extension naturally models many real-world applications, where groups of agents are required to collaborate in order to complete a given task. To this end, we formalize the Co-MAPF problem and introduce Cooperative Conflict-Based Search (Co-CBS), a CBS-based algorithm for solving the problem optimally for a wide set of Co-MAPF problems. Co-CBS uses a cooperation-planning module integrated into CBS such that cooperation planning is decoupled from path planning. Finally, we present empirical results on several MAPF benchmarks demonstrating our algorithm's properties.
翻訳日:2021-05-25 15:02:07 公開日:2021-05-23
# ディジタルトウィンによるほぼ自律型管理・制御システムにおける診断・予後・戦略評価・不一致チェックの改善

Digital-Twin-Based Improvements to Diagnosis, Prognosis, Strategy Assessment, and Discrepancy Checking in a Nearly Autonomous Management and Control System ( http://arxiv.org/abs/2105.11039v1 )

ライセンス: Link先を確認
Linyu Lin, Paridhi Athe, Pascal Rouxelin, Maria Avramova, Abhinav Gupta, Robert Youngblood, Nam Dinh(参考訳) ほぼ自律型管理制御システム(英語版)(namac)は、幅広い状況において運転者に制御勧告を提供することでプラント運用を支援する総合的な制御システムである。 本研究では,検証型実験ブレイダリアクターiiシミュレータ,機械学習アルゴリズムによるデジタル双生児,マルチ属性意思決定方式,予期せぬ推奨効果を識別する判別チェッカーを用いて,複雑なフロー損失シナリオにおいて合理的な推奨を行うnamacシステムの改良を行った。 我々は,各NAMACコンポーネントの性能評価を行い,フローの損失シナリオのクラスにおけるNAMACの能力を実証し,評価した。

The Nearly Autonomous Management and Control System (NAMAC) is a comprehensive control system that assists plant operations by furnishing control recommendations to operators in a broad class of situations. This study refines a NAMAC system for making reasonable recommendations during complex loss-of-flow scenarios with a validated Experimental Breeder Reactor II simulator, digital twins improved by machine-learning algorithms, a multi-attribute decision-making scheme, and a discrepancy checker for identifying unexpected recommendation effects. We assessed the performance of each NAMAC component, while we demonstrated and evaluated the capability of NAMAC in a class of loss-of-flow scenarios.
翻訳日:2021-05-25 15:01:53 公開日:2021-05-23
# fbi-denoiser: poisson-gaussian noiseの高速ブラインド画像デノイザー

FBI-Denoiser: Fast Blind Image Denoiser for Poisson-Gaussian Noise ( http://arxiv.org/abs/2105.10967v1 )

ライセンス: Link先を確認
Jaeseok Byun, Sungmin Cha, and Taesup Moon(参考訳) 我々は, クリーン画像やノイズレベルパラメータに関する情報が得られないポアソン・ガウシアンノイズに対する難解なブラインド・デノジング問題を考える。 特にデノイザーの訓練に「単一の」ノイズ画像しか利用できない場合、既存の手法のノイズ除去性能は満足できなかった。 近年, ブラインドピクセルワイドアフィン画像デノイザ (BP-AIDE) が提案され, 付加情報を利用したデノイザと競合する程度に性能が向上した。 しかし,bp-aideは,ノイズレベル推定手法の非効率性やbsn(ブラインドスポットネットワーク)アーキテクチャの非効率性により,推定時間の遅さに苦しめられた。 そこで本研究では,Poisson-Gaussianノイズパラメータを従来の手法よりも2000倍高速に推定するPGE-Netと,パラメータ数と推論速度の点で,より効率的なBSNを実現するFBI-Netの2つのニューラルネットワークモデルからなるPoisson-Gaussianノイズに対するFast Blind Image Denoiser(FBI-Denoise r)を提案する。 その結果、我々のFBI-Denoiserは、BP-AIDEと比較して、より高速な推測時間(x10)を持つ複数の実世界のノイズ画像ベンチマークデータセットにおいて、最先端のパフォーマンスを達成できることを示した。 私たちのメソッドの公式コードはhttps://github.com/c sm9493/FBI-Denoiser. comで公開されている。

We consider the challenging blind denoising problem for Poisson-Gaussian noise, in which no additional information about clean images or noise level parameters is available. Particularly, when only "single" noisy images are available for training a denoiser, the denoising performance of existing methods was not satisfactory. Recently, the blind pixelwise affine image denoiser (BP-AIDE) was proposed and significantly improved the performance in the above setting, to the extent that it is competitive with denoisers which utilized additional information. However, BP-AIDE seriously suffered from slow inference time due to the inefficiency of noise level estimation procedure and that of the blind-spot network (BSN) architecture it used. To that end, we propose Fast Blind Image Denoiser (FBI-Denoiser) for Poisson-Gaussian noise, which consists of two neural network models; 1) PGE-Net that estimates Poisson-Gaussian noise parameters 2000 times faster than the conventional methods and 2) FBI-Net that realizes a much more efficient BSN for pixelwise affine denoiser in terms of the number of parameters and inference speed. Consequently, we show that our FBI-Denoiser blindly trained solely based on single noisy images can achieve the state-of-the-art performance on several real-world noisy image benchmark datasets with much faster inference time (x 10), compared to BP-AIDE. The official code of our method is available at https://github.com/c sm9493/FBI-Denoiser.
翻訳日:2021-05-25 15:00:01 公開日:2021-05-23
# HOME:将来の動き推定のためのヒートマップ出力

HOME: Heatmap Output for future Motion Estimation ( http://arxiv.org/abs/2105.10968v1 )

ライセンス: Link先を確認
Thomas Gilles, Stefano Sabatini, Dzmitry Tsishkou, Bogdan Stanciulescu, Fabien Moutarde(参考訳) 本稿では,エージェントの将来の位置の確率分布を表す画像出力を用いて,動き予測問題に対処するフレームワークであるHOMEを提案する。 この方法では,従来の畳み込みネットワークとエージェントインタラクションのアテンション機構を結合したシンプルなアーキテクチャが実現され,エージェントの将来性に関する制約のない2次元トップビュー表現が出力される。 この出力に基づいて,エージェントの将来位置の有限集合をサンプリングする2つの手法を設計する。 これらの手法により,モデルの一部を再トレーニングすることなく,複数モードのミスレートと最終変位誤差の最適化トレードオフを制御できる。 提案手法をArgoverse Motion Forecasting Benchmarkに適用し,オンラインリーダーボード上で1位を獲得した。

In this paper, we propose HOME, a framework tackling the motion forecasting problem with an image output representing the probability distribution of the agent's future location. This method allows for a simple architecture with classic convolution networks coupled with attention mechanism for agent interactions, and outputs an unconstrained 2D top-view representation of the agent's possible future. Based on this output, we design two methods to sample a finite set of agent's future locations. These methods allow us to control the optimization trade-off between miss rate and final displacement error for multiple modalities without having to retrain any part of the model. We apply our method to the Argoverse Motion Forecasting Benchmark and achieve 1st place on the online leaderboard.
翻訳日:2021-05-25 14:59:29 公開日:2021-05-23
# 群衆の知恵:コンピュータビジョンのためのアノテーション指導における反抗力

Wisdom for the Crowd: Discoursive Power in Annotation Instructions for Computer Vision ( http://arxiv.org/abs/2105.10990v1 )

ライセンス: Link先を確認
Milagros Miceli and Julian Posada(参考訳) コンピュータビジョンアルゴリズムの開発者は、ビジネスプロセスのアウトソーシング企業やクラウドソーシングプラットフォームを通じて、トレーニングデータをアノテートする作業の一部をアウトソーシングする。 多くのデータアノテータはグローバル・サウスにあり、独立した請負業者と見なされている。 本稿では,アルゼンチンとベネズエラのアノテーションワーカーの経験について述べる。 質的手法を通して,これらの作業者がコンピュータビジョンデータセットにアノテートするタスク命令にエンコードされた談話を調べる。 予備的な知見から, 注記指示は, 労働者に対する世界観を反映し, 労働力を通して, データセットを反映することが示唆された。 さらに,営利目的がタスク命令を駆動し,管理者やアルゴリズムが要求者の指示に従ってアノテーションを確実に実行することを観察する。 この構成は、社会的不平等を補強しながらパワー非対称性を持続させ、それらをデータセットに再生し、その後コンピュータビジョンシステムで再現するコモディファイド・ワークの形式である。

Developers of computer vision algorithms outsource some of the labor involved in annotating training data through business process outsourcing companies and crowdsourcing platforms. Many data annotators are situated in the Global South and are considered independent contractors. This paper focuses on the experiences of Argentinian and Venezuelan annotation workers. Through qualitative methods, we explore the discourses encoded in the task instructions that these workers follow to annotate computer vision datasets. Our preliminary findings indicate that annotation instructions reflect worldviews imposed on workers and, through their labor, on datasets. Moreover, we observe that for-profit goals drive task instructions and that managers and algorithms make sure annotations are done according to requesters' commands. This configuration presents a form of commodified labor that perpetuates power asymmetries while reinforcing social inequalities and is compelled to reproduce them into datasets and, subsequently, in computer vision systems.
翻訳日:2021-05-25 14:59:19 公開日:2021-05-23
# ビジネスプロセスデータの要約と分析のためのクエリ言語

A Query Language for Summarizing and Analyzing Business Process Data ( http://arxiv.org/abs/2105.10911v1 )

ライセンス: Link先を確認
Amin Beheshti, Boualem Benatallah, Hamid Reza Motahari-Nezhad, Samira Ghodratnama, Farhad Amouzgar(参考訳) 現代の企業では、ビジネスプロセス(BP)はワークフロー、ITシステム、Webサービス、人々の直接的なコラボレーションによって実現されます。 したがって、プロセスデータ(例えば、イベント、対話メッセージ、その他のプロセスアーティファクトを含むログなどのBP実行データ)は、複数のシステムやデータソースに分散し、ビッグデータの典型的な特性をすべて示すようになっている。 ほとんどのオブジェクトは相互接続され、複雑で不均一だが、しばしば半構造化されたネットワークを形成します。 ビジネスプロセスの文脈では、ビッグデータ問題は個人データ、共有データ、ビジネスデータから大量の相互接続されたデータ島であると考えている。 本稿では,プロセスをグラフ,すなわちプロセスグラフとしてモデル化し,プロセスグラフを要約し,データオブジェクトとそのプロセスグラフにおける相互作用に基づくエンティティの概念階層を探索するフレームワークを提案する。 本稿では,プロセスグラフの爆発的クエリと理解のために,BP-SPARQLという言語を提案する。 プロセスグラフのクエリ、探索、分析のためのスケーラブルなアーキテクチャを実装しました。 提案手法の有効性と有効性を示す合成および実世界のデータセットを用いて実験を行った。

In modern enterprises, Business Processes (BPs) are realized over a mix of workflows, IT systems, Web services and direct collaborations of people. Accordingly, process data (i.e., BP execution data such as logs containing events, interaction messages and other process artifacts) is scattered across several systems and data sources, and increasingly show all typical properties of the Big Data. Understanding the execution of process data is challenging as key business insights remain hidden in the interactions among process entities: most objects are interconnected, forming complex, heterogeneous but often semi-structured networks. In the context of business processes, we consider the Big Data problem as a massive number of interconnected data islands from personal, shared and business data. We present a framework to model process data as graphs, i.e., Process Graph, and present abstractions to summarize the process graph and to discover concept hierarchies for entities based on both data objects and their interactions in process graphs. We present a language, namely BP-SPARQL, for the explorative querying and understanding of process graphs from various user perspectives. We have implemented a scalable architecture for querying, exploration and analysis of process graphs. We report on experiments performed on both synthetic and real-world datasets that show the viability and efficiency of the approach.
翻訳日:2021-05-25 14:54:47 公開日:2021-05-23
# sleeptransformer: 解釈性と不確実性定量化による自動睡眠ステージング

SleepTransformer: Automatic Sleep Staging with Interpretability and Uncertainty Quantification ( http://arxiv.org/abs/2105.11043v1 )

ライセンス: Link先を確認
Huy Phan, Kaare Mikkelsen, Oliver Y. Ch\'en, Philipp Koch, Alfred Mertins, Maarten De Vos(参考訳) ブラックボックス懐疑論は、深層学習に基づく自動睡眠スコアが臨床環境で使用されることを妨げる主要な障害の1つである。 解釈可能性に向けて、この研究はシーケンシャル・ツー・シークエンス・スリープ・ステーティングモデル、すなわちSleepTransformerを提案する。 これは、自己アテンションスコアがエポックとシーケンスレベルでのモデルの決定の解釈可能性を提供するトランスフォーマーバックボーンに基づいている。 エポックレベルでは、注目スコアをヒートマップとしてエンコードして、入力された脳波信号から取得した睡眠関連特徴をハイライトすることができる。 シーケンスレベルでは、アテンションスコアを入力シーケンス内の異なる隣接エポックの影響として可視化する(すなわち、アテンションスコア)。 対象のエポックを認識するための文脈) 人間の専門家による手動スコアの方法の模倣。 さらに,モデル決定の不確かさを定量化する簡易かつ効率的な手法を提案する。 エントロピーに基づくこの方法は、人間の専門家に低信頼のエポックを延期する指標として機能し、さらなる検査を行うことができる。 さらに,提案したSleepTransformerは計算コストの低い既存手法よりも優れており,異なるサイズの2つの実験データベース上での最先端性能を実現していることを示す。

Black-box skepticism is one of the main hindrances impeding deep-learning-based automatic sleep scoring from being used in clinical environments. Towards interpretability, this work proposes a sequence-to-sequence sleep-staging model, namely SleepTransformer. It is based on the transformer backbone whose self-attention scores offer interpretability of the model's decisions at both the epoch and sequence level. At the epoch level, the attention scores can be encoded as a heat map to highlight sleep-relevant features captured from the input EEG signal. At the sequence level, the attention scores are visualized as the influence of different neighboring epochs in an input sequence (i.e. the context) to recognition of a target epoch, mimicking the way manual scoring is done by human experts. We further propose a simple yet efficient method to quantify uncertainty in the model's decisions. The method, which is based on entropy, can serve as a metric for deferring low-confidence epochs to a human expert for further inspection. Additionally, we demonstrate that the proposed SleepTransformer outperforms existing methods at a lower computational cost and achieves state-of-the-art performance on two experimental databases of different sizes.
翻訳日:2021-05-25 14:54:29 公開日:2021-05-23
# 金融犯罪検出を可能にする人工知能

Towards Artificial Intelligence Enabled Financial Crime Detection ( http://arxiv.org/abs/2105.10866v1 )

ライセンス: Link先を確認
Zeinab Rouhollahi(参考訳) 近年,金融機関は金融犯罪の増加に対応している。 この文脈で、金融サービス会社は警戒を改善し、金融詐欺や犯罪の可能性を特定し予測するために新しい技術とアプローチを使い始めた。 このタスクは、人工知能(AI)などの新しい技術が金融犯罪を予測し、検出できるようにするために、データと分析機能をアップグレードする必要があるため、難しい。 本稿では,AIによる金融犯罪の一般的な検出とマネーロンダリングの検知に向けての一歩を踏み出した。 金融犯罪検出における最近の研究成果を調査し分析し,人的介入が最小のマネーロンダリング事例を検出するための新しいモデルを提案する。

Recently, financial institutes have been dealing with an increase in financial crimes. In this context, financial services firms started to improve their vigilance and use new technologies and approaches to identify and predict financial fraud and crime possibilities. This task is challenging as institutions need to upgrade their data and analytics capabilities to enable new technologies such as Artificial Intelligence (AI) to predict and detect financial crimes. In this paper, we put a step towards AI-enabled financial crime detection in general and money laundering detection in particular to address this challenge. We study and analyse the recent works done in financial crime detection and present a novel model to detect money laundering cases with minimum human intervention needs.
翻訳日:2021-05-25 14:49:37 公開日:2021-05-23
# RtFPS:米国の山火事を視覚化して予測するインタラクティブマップ

RtFPS: An Interactive Map that Visualizes and Predicts Wildfires in the US ( http://arxiv.org/abs/2105.10880v1 )

ライセンス: Link先を確認
Yang Li, Hermawan Mulyono, Ying Chen, Zhiyin Lu, Desmond Chan(参考訳) 気候変動は私たちの日常生活に大きな影響を与えた。 その結果として、より多くの山火事が発生しています。 2020年、アメリカ合衆国では8,888,297エーカーの山火事が発生した。 気候変動に対する人々の注意を喚起し、現在の山火事のリスクを可視化するために、RtFPS"Real-Time Fire Prediction System"を開発した。 機械学習モデルに基づいて、特定の場所におけるワイルドファイアリスクのリアルタイム予測を可視化する。 また、環境情報と共に歴史的なワイルドファイアイベントを表示するインタラクティブマップ機能も提供する。

Climate change has largely impacted our daily lives. As one of its consequences, we are experiencing more wildfires. In the year 2020, wildfires burned a record number of 8,888,297 acres in the US. To awaken people's attention to climate change, and to visualize the current risk of wildfires, We developed RtFPS, "Real-Time Fire Prediction System". It provides a real-time prediction visualization of wildfire risk at specific locations base on a Machine Learning model. It also provides interactive map features that show the historical wildfire events with environmental info.
翻訳日:2021-05-25 14:49:24 公開日:2021-05-23
# MLBiNet: クロス文集合イベント検出ネットワーク

MLBiNet: A Cross-Sentence Collective Event Detection Network ( http://arxiv.org/abs/2105.09458v2 )

ライセンス: Link先を確認
Dongfang Lou, Zhilin Liao, Shumin Deng, Ningyu Zhang, Huajun Chen(参考訳) 特にクロスセンテンス設定において,複数のイベントを集合的に検出する問題を考える。 問題に対処する鍵は、意味情報をエンコードし、ドキュメントレベルでイベント間の依存性をモデル化することである。 本稿では,Seq2Seqタスクとして再編成し,イベントとセマンティック情報の文書レベルの関連を同時に捉えるマルチ階層双方向ネットワーク(MLBiNet)を提案する。 特に、双方向デコーダは、まず、イベントタグベクターシーケンスをデコードする際に、文内のイベント相互依存をモデル化するために考案される。 次に、情報集約モジュールを用いて文レベルの意味情報とイベントタグ情報を集約する。 最後に,複数の双方向デコーダを積み重ねて,文間で情報を反復的に伝達する多層双方向タギングアーキテクチャを形成する。 提案手法は,現状の成果に比べて性能が大幅に向上していることを示す。

We consider the problem of collectively detecting multiple events, particularly in cross-sentence settings. The key to dealing with the problem is to encode semantic information and model event inter-dependency at a document-level. In this paper, we reformulate it as a Seq2Seq task and propose a Multi-Layer Bidirectional Network (MLBiNet) to capture the document-level association of events and semantic information simultaneously. Specifically, a bidirectional decoder is firstly devised to model event inter-dependency within a sentence when decoding the event tag vector sequence. Secondly, an information aggregation module is employed to aggregate sentence-level semantic and event tag information. Finally, we stack multiple bidirectional decoders and feed cross-sentence information, forming a multi-layer bidirectional tagging architecture to iteratively propagate information across sentences. We show that our approach provides significant improvement in performance compared to the current state-of-the-art results.
翻訳日:2021-05-25 11:09:22 公開日:2021-05-23
# Squeeze-and-Expansio n Transformer を用いた医用画像分割

Medical Image Segmentation using Squeeze-and-Expansio n Transformers ( http://arxiv.org/abs/2105.09511v2 )

ライセンス: Link先を確認
Shaohua Li, Xiuchao Sui, Xiangde Luo, Xinxing Xu, Yong Liu, Rick Siow Mong Goh(参考訳) 医用画像分割はコンピュータ診断において重要である。 良いセグメンテーションは、大きな画像と細部を同時に見ること、すなわち空間解像度を維持しながら大きなコンテキストを含む画像の特徴を学習することを要求する。 この目標を達成するために、最も広く使われているメソッド -- U-Net と variants, extract and fuse multi-scale features である。 しかし、融合された特徴は、局所的な画像手がかりに焦点を当てた小さな「効果的な受容野」を持ち、性能を制限している。 本研究では,高機能解像度でも無制限に「効果的な受容場」を持つトランスフォーマに基づく代替セグメンテーションフレームワークであるsegtranを提案する。 segtranのコアは、新しいスクイーズ・アンド・エクステンショントランスであり、スクイーズド・アテンション・ブロックはトランスフォーマーの自己注意を規則化し、拡張ブロックは多様化した表現を学習する。 さらに,画像に対して連続性帰納バイアスを与えるトランスフォーマーの新たな位置符号化方式を提案する。 2次元および3次元の医用画像分割課題(眼底画像における乳頭/カップセグメンテーション(refuge'20 challenge)、大腸内視鏡画像におけるポリープセグメンテーション(polyp segmentation)、mriスキャンでの脳腫瘍セグメンテーション(brats'19 challenge))について実験を行った。 既存の一般的な手法と比較して、Segtranは高いセグメンテーション精度を獲得し、優れたクロスドメイン一般化能力を示した。 Segtranのソースコードはhttps://github.com/a skerlee/segtranで公開されている。

Medical image segmentation is important for computer-aided diagnosis. Good segmentation demands the model to see the big picture and fine details simultaneously, i.e., to learn image features that incorporate large context while keep high spatial resolutions. To approach this goal, the most widely used methods -- U-Net and variants, extract and fuse multi-scale features. However, the fused features still have small "effective receptive fields" with a focus on local image cues, limiting their performance. In this work, we propose Segtran, an alternative segmentation framework based on transformers, which have unlimited "effective receptive fields" even at high feature resolutions. The core of Segtran is a novel Squeeze-and-Expansio n transformer: a squeezed attention block regularizes the self attention of transformers, and an expansion block learns diversified representations. Additionally, we propose a new positional encoding scheme for transformers, imposing a continuity inductive bias for images. Experiments were performed on 2D and 3D medical image segmentation tasks: optic disc/cup segmentation in fundus images (REFUGE'20 challenge), polyp segmentation in colonoscopy images, and brain tumor segmentation in MRI scans (BraTS'19 challenge). Compared with representative existing methods, Segtran consistently achieved the highest segmentation accuracy, and exhibited good cross-domain generalization capabilities. The source code of Segtran is released at https://github.com/a skerlee/segtran.
翻訳日:2021-05-25 11:07:52 公開日:2021-05-23