このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210727となっている論文です。

PDF登録状況(公開日: 20210727)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) CVPR 2021の自律運転ワークショップ:ストリーミングパーセプションチャレンジの技術的報告 [全文訳有]

Workshop on Autonomous Driving at CVPR 2021: Technical Report for Streaming Perception Challenge ( http://arxiv.org/abs/2108.04230v1 )

ライセンス: CC BY 4.0
Songyang Zhang and Lin Song and Songtao Liu and Zheng Ge and Zeming Li and Xuming He and Jian Sun(参考訳) 本稿では,現実的な自律運転シナリオのためのリアルタイム2次元物体検出システムについて紹介する。 我々の検出器はYOLOXと呼ばれる新しい設計のYOLOモデルで構築されている。 Argoverse-HDデータセットでは,検出のみのトラック/トラックで2位を7.8/6.1上回る41.0ストリーミングAPを達成した。 さらに,TensorRTを用いて高解像度の入力サイズ(例えば1440-2304)で30FPSの推論速度を達成する。 コードとモデルはhttps://github.com/M egvii-BaseDetection/ YOLOXで入手できる。

In this report, we introduce our real-time 2D object detection system for the realistic autonomous driving scenario. Our detector is built on a newly designed YOLO model, called YOLOX. On the Argoverse-HD dataset, our system achieves 41.0 streaming AP, which surpassed second place by 7.8/6.1 on detection-only track/fully track, respectively. Moreover, equipped with TensorRT, our model achieves the 30FPS inference speed with a high-resolution input size (e.g., 1440-2304). Code and models will be available at https://github.com/M egvii-BaseDetection/ YOLOX
翻訳日:2021-08-15 14:51:16 公開日:2021-07-27
# (参考訳) 注意型アンサンブルlstmによる海氷予測 [全文訳有]

Sea Ice Forecasting using Attention-based Ensemble LSTM ( http://arxiv.org/abs/2108.00853v1 )

ライセンス: CC BY 4.0
Sahara Ali, Yiyi Huang, Xin Huang, Jianwu Wang(参考訳) 季節的から季節的スケールで北極海氷を正確に予測することは科学的に重要な課題となっている。 物理に基づく地球系モデルに加えて、研究者は海氷予測に複数の統計モデルと機械学習モデルを適用している。 データ駆動型海氷予測の可能性を考察し、月次海氷範囲を最大1ヶ月先まで予測するための注意ベースのLong Short Term Memory(LSTM)アンサンブル法を提案する。 日次および月次衛星によるnsidcからの海氷データと,era5再解析製品から39年間の大気・海洋変動データを用いて,本手法が複数のベースラインや最近提案された深層学習モデルを上回ることを示す。 これにより、将来の北極海氷の変化を予測する能力が大幅に向上し、輸送ルート、資源開発、海岸侵食、北極沿岸社会への脅威、野生生物の予測の基礎となる。

Accurately forecasting Arctic sea ice from subseasonal to seasonal scales has been a major scientific effort with fundamental challenges at play. In addition to physics-based earth system models, researchers have been applying multiple statistical and machine learning models for sea ice forecasting. Looking at the potential of data-driven sea ice forecasting, we propose an attention-based Long Short Term Memory (LSTM) ensemble method to predict monthly sea ice extent up to 1 month ahead. Using daily and monthly satellite retrieved sea ice data from NSIDC and atmospheric and oceanic variables from ERA5 reanalysis product for 39 years, we show that our multi-temporal ensemble method outperforms several baseline and recently proposed deep learning models. This will substantially improve our ability in predicting future Arctic sea ice changes, which is fundamental for forecasting transporting routes, resource development, coastal erosion, threats to Arctic coastal communities and wildlife.
翻訳日:2021-08-08 11:18:16 公開日:2021-07-27
# 並列相関クラスタリングによるスケーラブルなコミュニティ検出

Scalable Community Detection via Parallel Correlation Clustering ( http://arxiv.org/abs/2108.01731v1 )

ライセンス: Link先を確認
Jessica Shi, Laxman Dhulipala, David Eisenstat, Jakub {\L}\k{a}cki, Vahab Mirrokni(参考訳) グラフクラスタリングとコミュニティ検出は、現代のデータマイニングの中心的な問題である。 このような問題に対する高速でスケーラブルなアルゴリズムのために、数十億規模のデータコールを分析する必要性が高まっている。 このようなクラスタリングアルゴリズムの品質とスピードにはある種のトレードオフがある。 本稿では,基礎的真理に基づいて評価することで高品質を実現するスケーラブルなアルゴリズムを考案する。 We developed a generalized sequence and shared-Memory parallel framework based on the LambdaCC objective (introduceed by Veldt et al。 これはモジュラリティと相関クラスタリングを含んでいる。 我々のフレームワークは、数十億のエッジの大規模なデータセットにスケールする高度に最適化された実装で構成され、未重み付きグラフと重み付きグラフの両方で、地上の真実データと比較して高品質なクラスタを得る。 実験的な評価から,このフレームワークは,スケーラブルなコミュニティ検出の速度と品質の間の最先端のトレードオフを改善していることを示す。 例えば、双方向のハイパースレッディングを備えた30コアマシンでは、他の相関クラスタリングベースラインよりも1桁のスピードアップを実現し、品質を維持したり改善したりしながら、独自のシーケンシャルベースライン上で最大28.44倍のスピードアップを実現しています。

Graph clustering and community detection are central problems in modern data mining. The increasing need for analyzing billion-scale data calls for faster and more scalable algorithms for these problems. There are certain trade-offs between the quality and speed of such clustering algorithms. In this paper, we design scalable algorithms that achieve high quality when evaluated based on ground truth. We develop a generalized sequential and shared-memory parallel framework based on the LambdaCC objective (introduced by Veldt et al.), which encompasses modularity and correlation clustering. Our framework consists of highly-optimized implementations that scale to large data sets of billions of edges and that obtain high-quality clusters compared to ground-truth data, on both unweighted and weighted graphs. Our empirical evaluation shows that this framework improves the state-of-the-art trade-offs between speed and quality of scalable community detection. For example, on a 30-core machine with two-way hyper-threading, our implementations achieve orders of magnitude speedups over other correlation clustering baselines, and up to 28.44x speedups over our own sequential baselines while maintaining or improving quality.
翻訳日:2021-08-08 11:07:33 公開日:2021-07-27
# xaiの摂動における分布外データ問題への抵抗

Resisting Out-of-Distribution Data Problem in Perturbation of XAI ( http://arxiv.org/abs/2107.14000v1 )

ライセンス: Link先を確認
Luyu Qiu, Yi Yang, Caleb Chen Cao, Jing Liu, Yueyuan Zheng, Hilary Hei Ting Ngai, Janet Hsiao, Lei Chen(参考訳) eXplainable Artificial Intelligence (XAI)の急速な発展に伴い、摂動に基づくXAIアルゴリズムは、その有効性と実装の容易さから非常に人気がある。 摂動ベースのxai技術の大部分は、分散(ood)データ -- ランダムに摂動したデータのアーティファクト — という課題に直面している。 OoDデータは、モデル予測における過信問題を引き起こし、既存のXAIアプローチを信頼できないものにする。 我々の知る限り、摂動に基づくXAIアルゴリズムにおけるOoDデータ問題は文献では適切に解決されていない。 本研究では、このOoDデータ問題に対して、摂動データと元のデータセット分布との親和性を定量化するモジュールを設計し、集約プロセスに統合することで対処する。 我々の解は、RISE、OCCLUSION、LIMEなどの最も一般的な摂動型XAIアルゴリズムと互換性があることが示されている。 実験により,本手法は一般の症例において,計算指標と認知指標の両方を用いて有意な改善を示した。 特に劣化の場合,提案手法はベースラインと比較して優れた性能を示す。 さらに,ood問題に敏感であると思われるxaiアルゴリズムの一般的な評価指標である trueness indicator による根本的な問題も解決する。

With the rapid development of eXplainable Artificial Intelligence (XAI), perturbation-based XAI algorithms have become quite popular due to their effectiveness and ease of implementation. The vast majority of perturbation-based XAI techniques face the challenge of Out-of-Distribution (OoD) data -- an artifact of randomly perturbed data becoming inconsistent with the original dataset. OoD data leads to the over-confidence problem in model predictions, making the existing XAI approaches unreliable. To our best knowledge, the OoD data problem in perturbation-based XAI algorithms has not been adequately addressed in the literature. In this work, we address this OoD data problem by designing an additional module quantifying the affinity between the perturbed data and the original dataset distribution, which is integrated into the process of aggregation. Our solution is shown to be compatible with the most popular perturbation-based XAI algorithms, such as RISE, OCCLUSION, and LIME. Experiments have confirmed that our methods demonstrate a significant improvement in general cases using both computational and cognitive metrics. Especially in the case of degradation, our proposed approach demonstrates outstanding performance comparing to baselines. Besides, our solution also resolves a fundamental problem with the faithfulness indicator, a commonly used evaluation metric of XAI algorithms that appears to be sensitive to the OoD issue.
翻訳日:2021-07-30 13:20:10 公開日:2021-07-27
# (参考訳) 真のゼロショット行動認識のための新しいスプリット [全文訳有]

A New Split for Evaluating True Zero-Shot Action Recognition ( http://arxiv.org/abs/2107.13029v1 )

ライセンス: CC BY 4.0
Shreyank N Gowda, Laura Sevilla-Lara, Kiyoon Kim, Frank Keller, and Marcus Rohrbach(参考訳) ゼロショットアクション認識は、トレーニングセットで利用できないアクションカテゴリを分類するタスクである。 この設定では、標準評価プロトコルは、既存のアクション認識データセット(例)を使用する。 ucf101 とランダムにクラスを saw と unseen に分割する。 しかし、最近の研究は、クラスがゼロショット評価データセットのクラスとほとんど重複する、kineticsデータセットで事前トレーニングされた表現に基づいている。 その結果、目に見えないはずのクラスは教師付き事前トレーニング中に存在し、ゼロショット設定の条件を無効にする。 同様の懸念は数年前に画像ベースのゼロショット認識でも指摘されていたが、ゼロショットアクション認識コミュニティでは考慮されていない。 本稿では、未確認テストクラスとトレーニングおよび事前学習クラスの間に重複のない、真のゼロショット動作認識のための新しい分割を提案する。 提案するUCF101およびHMDB51のためのTrue Zero-Shot (TruZe) Splitに関する最近のアプローチを,ゼロショットと一般化ゼロショット評価を用いてベンチマークした。 我々の広範な分析では、TruZeの分割は、事前学習から漏れることのないことから、同等のランダムスプリットよりもはるかに難しい。 目に見えないパフォーマンスは、ゼロショットアクション認識では9.4%まで一貫して低い。 追加評価では、少数ショットのアクション認識で使用される分割にも同様の問題があることが分かり、14.1%の差が見られる。 私たちは分割を公開し、私たちのベンチマーク分析によって、フィールドがゼロおよび少数ショットのアクション認識をどのように評価するかが変わることを期待しています。

Zero-shot action recognition is the task of classifying action categories that are not available in the training set. In this setting, the standard evaluation protocol is to use existing action recognition datasets (e.g. UCF101) and randomly split the classes into seen and unseen. However, most recent work builds on representations pre-trained on the Kinetics dataset, where classes largely overlap with classes in the zero-shot evaluation datasets. As a result, classes which are supposed to be unseen, are present during supervised pre-training, invalidating the condition of the zero-shot setting. A similar concern was previously noted several years ago for image based zero-shot recognition, but has not been considered by the zero-shot action recognition community. In this paper, we propose a new split for true zero-shot action recognition with no overlap between unseen test classes and training or pre-training classes. We benchmark several recent approaches on the proposed True Zero-Shot (TruZe) Split for UCF101 and HMDB51, with zero-shot and generalized zero-shot evaluation. In our extensive analysis we find that our TruZe splits are significantly harder than comparable random splits as nothing is leaking from pre-training, i.e. unseen performance is consistently lower, up to 9.4% for zero-shot action recognition. In an additional evaluation we also find that similar issues exist in the splits used in few-shot action recognition, here we see differences of up to 14.1%. We publish our splits and hope that our benchmark analysis will change how the field is evaluating zero- and few-shot action recognition moving forward.
翻訳日:2021-07-30 02:18:28 公開日:2021-07-27
# (参考訳) Infinitely Wide Convolutional Networks を用いたデータセット蒸留 [全文訳有]

Dataset Distillation with Infinitely Wide Convolutional Networks ( http://arxiv.org/abs/2107.13034v1 )

ライセンス: CC BY 4.0
Timothy Nguyen, Roman Novak, Lechao Xiao, Jaehoon Lee(参考訳) 機械学習アルゴリズムの有効性は、大量のデータから有用な特徴を抽出することができることから生じる。 モデルとデータセットのサイズが大きくなるにつれて、大規模なデータセットを非常に小さくかつ高いパフォーマンスのデータセットに圧縮するデータセット蒸留法は、トレーニング効率と有用な特徴抽出の観点から価値が増す。 そこで我々は,分散カーネルをベースとした新しいメタラーニングフレームワークを適用し,無限大の畳み込みニューラルネットワークを用いたデータセット蒸留の最先端結果を実現する。 例えば、10個のデータポイント(オリジナルデータセットの0.02%)のみを使用して、cifar-10の画像分類タスクで64%以上のテスト精度を得ました。 我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。 さらに, 蒸留したデータセットの予備分析を行い, 自然発生データとどのように異なるかを明らかにした。

The effectiveness of machine learning algorithms arises from being able to extract useful features from large amounts of data. As model and dataset sizes increase, dataset distillation methods that compress large datasets into significantly smaller yet highly performant ones will become valuable in terms of training efficiency and useful feature extraction. To that end, we apply a novel distributed kernel based meta-learning framework to achieve state-of-the-art results for dataset distillation using infinitely wide convolutional neural networks. For instance, using only 10 datapoints (0.02% of original dataset), we obtain over 64% test accuracy on CIFAR-10 image classification task, a dramatic improvement over the previous best test accuracy of 40%. Our state-of-the-art results extend across many other settings for MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100, and SVHN. Furthermore, we perform some preliminary analyses of our distilled datasets to shed light on how they differ from naturally occurring data.
翻訳日:2021-07-30 02:04:50 公開日:2021-07-27
# (参考訳) 視覚言語型マルチタスク学習の限界を超える [全文訳有]

Exceeding the Limits of Visual-Linguistic Multi-Task Learning ( http://arxiv.org/abs/2107.13054v1 )

ライセンス: CC BY 4.0
Cameron R. Wolfe and Keld T. Lundgaard(参考訳) 数百のeコマースWebサイトで収集された大量の製品データを活用することで、テキストと画像の両方からなる同様の構造化された入力データを共有する1000のユニークな分類タスクを構築します。 これらの分類タスクは、異なるeコマースウェブサイトの製品階層を学習することに集中しており、その多くが相関関係にある。 マルチモーダルトランスフォーマーモデルを採用し,マルチタスク学習 (mtl) を用いてタスクを統一的に解く。 大規模なMTL(100以上のタスクを持つMTL)のベストプラクティスを明らかにするため、最初の100タスクデータセット上で大規模な実験が行われる。 これらの実験から、最終的な統一的な方法論が導出され、ベストプラクティスとdypaのような新しい提案の両方で構成され、余分なキャパシティの恩恵を受けうるタスクにタスク固有のパラメータを自動的に割り当てるシンプルなヒューリスティックである。 大規模MTL手法を用いて,タスク固有パラメータを最小化しながら,データセット内の1000タスクすべてにまたがる単一モデルをトレーニングし,MTLの現在の取り組みを超えて数桁のオーダーを拡張可能であることを示す。

By leveraging large amounts of product data collected across hundreds of live e-commerce websites, we construct 1000 unique classification tasks that share similarly-structured input data, comprised of both text and images. These classification tasks focus on learning the product hierarchy of different e-commerce websites, causing many of them to be correlated. Adopting a multi-modal transformer model, we solve these tasks in unison using multi-task learning (MTL). Extensive experiments are presented over an initial 100-task dataset to reveal best practices for "large-scale MTL" (i.e., MTL with more than 100 tasks). From these experiments, a final, unified methodology is derived, which is composed of both best practices and new proposals such as DyPa, a simple heuristic for automatically allocating task-specific parameters to tasks that could benefit from extra capacity. Using our large-scale MTL methodology, we successfully train a single model across all 1000 tasks in our dataset while using minimal task specific parameters, thereby showing that it is possible to extend several orders of magnitude beyond current efforts in MTL.
翻訳日:2021-07-30 01:43:16 公開日:2021-07-27
# (参考訳) プロセスマイニングによる操作摩擦の除去--IoP(Internet of Production)による課題 [全文訳有]

Removing Operational Friction Using Process Mining: Challenges Provided by the Internet of Production (IoP) ( http://arxiv.org/abs/2107.13066v1 )

ライセンス: CC BY 4.0
Wil van der Aalst and Tobias Brockhoff and Anahita Farhang Ghahfarokhi and Mahsa Pourbafrani and Merih Seran Uysal and Sebastiaan van Zelst(参考訳) 生産、物流、材料処理、保守などの運用プロセスは、ハードウェアとソフトウェアコンポーネントを組み合わせたサイバー物理システムによって支えられている。 結果として、デジタル世界と物理世界は密接に連携しており、運用プロセスを詳細に追跡することができる(例えば、センサーを使用して)。 今日の運用プロセスによって生成されるイベントデータの豊富さは、プロセス発見、パフォーマンス分析、コンフォーマンスチェックをサポートするプロセスマイニングテクニックの機会と課題を提供します。 既存のプロセスマイニングツールを使用すると、プロセスモデルを自動的に発見し、パフォーマンスとコンプライアンスの問題を明らかにすることができる。 DFGが出資した "Internet of Production" (IoP) では、様々な運用プロセスを改善するために、プロセスマイニングが"デジタルシャドー"を作成するために使用される。 しかし、運用プロセスは動的で分散しており、複雑です。 IoPクラスタで特定される課題によって、私たちは、比較プロセスマイニング(異なる場所で異なる製品が異なる場所で異なるプロセスのバリエーションを比較)、オブジェクト中心のプロセスマイニング(相互作用するさまざまなタイプのオブジェクトを含むプロセスを処理する)、前方のプロセスマイニング("What if? 質問)。 これらの課題に対処することで、運用上の摩擦を取り除くために使用できる価値ある"デジタルシャドー"を開発することを目指している。

Operational processes in production, logistics, material handling, maintenance, etc., are supported by cyber-physical systems combining hardware and software components. As a result, the digital and the physical world are closely aligned, and it is possible to track operational processes in detail (e.g., using sensors). The abundance of event data generated by today's operational processes provides opportunities and challenges for process mining techniques supporting process discovery, performance analysis, and conformance checking. Using existing process mining tools, it is already possible to automatically discover process models and uncover performance and compliance problems. In the DFG-funded Cluster of Excellence "Internet of Production" (IoP), process mining is used to create "digital shadows" to improve a wide variety of operational processes. However, operational processes are dynamic, distributed, and complex. Driven by the challenges identified in the IoP cluster, we work on novel techniques for comparative process mining (comparing process variants for different products at different locations at different times), object-centric process mining (to handle processes involving different types of objects that interact), and forward-looking process mining (to explore "What if?" questions). By addressing these challenges, we aim to develop valuable "digital shadows" that can be used to remove operational friction.
翻訳日:2021-07-30 01:24:59 公開日:2021-07-27
# (参考訳) PLIC(Piecewise Linear Interface Construction)のためのディープラーニングアルゴリズム [全文訳有]

A Deep Learning Algorithm for Piecewise Linear Interface Construction (PLIC) ( http://arxiv.org/abs/2107.13067v1 )

ライセンス: CC BY 4.0
Mohammadmehdi Ataei, Erfan Pirmorad, Franco Costa, Sejin Han, Chul B Park, Markus Bussmann(参考訳) 2相流の計算流体力学(CFD)モデルにおける流体界面の幾何再構成にPLIC(Piecewise Linear Interface Construction)がよく用いられる。 PLICは、各計算セルの各位相の体積分数を表すスカラーフィールドからインタフェースを再構成する。 体積分数とインタフェースが正規であることを考えると、線形インターフェイスの位置は一意に定義される。 立方体計算セル(3d)において、立方体と平面とを交差させることにより平面界面の位置が決定され、結果として生じる切断された多面体セルの体積は体積率に等しい。 しかし、平面の正確な位置を見つけることは幾何学的に複雑であり、多くのcfdモデルの計算ボトルネックとなる計算を含む。 しかし、3D PLICの前方問題は難しいが、定義された平面を与えられた切り離したポリヘドロンセルの体積を求める逆問題は非常に単純である。 本研究では,その逆問題のみを用いて,PLICの前方問題に対する解の深層学習モデルを提案する。 提案モデルは従来のスキームよりも数桁高速であり,CFDシミュレーションにおけるPLICの計算ボトルネックを大幅に低減する。

Piecewise Linear Interface Construction (PLIC) is frequently used to geometrically reconstruct fluid interfaces in Computational Fluid Dynamics (CFD) modeling of two-phase flows. PLIC reconstructs interfaces from a scalar field that represents the volume fraction of each phase in each computational cell. Given the volume fraction and interface normal, the location of a linear interface is uniquely defined. For a cubic computational cell (3D), the position of the planar interface is determined by intersecting the cube with a plane, such that the volume of the resulting truncated polyhedron cell is equal to the volume fraction. Yet it is geometrically complex to find the exact position of the plane, and it involves calculations that can be a computational bottleneck of many CFD models. However, while the forward problem of 3D PLIC is challenging, the inverse problem, of finding the volume of the truncated polyhedron cell given a defined plane, is simple. In this work, we propose a deep learning model for the solution to the forward problem of PLIC by only making use of its inverse problem. The proposed model is up to several orders of magnitude faster than traditional schemes, which significantly reduces the computational bottleneck of PLIC in CFD simulations.
翻訳日:2021-07-30 01:02:23 公開日:2021-07-27
# (参考訳) 変圧器に基づくテキスト生成のためのニューラルルール実行追跡マシン [全文訳有]

Neural Rule-Execution Tracking Machine For Transformer-Based Text Generation ( http://arxiv.org/abs/2107.13077v1 )

ライセンス: CC BY 4.0
Yufei Wang, Can Xu, Huang Hu, Chongyang Tao, Stephen Wan, Mark Dras, Mark Johnson, Daxin Jiang(参考訳) S2S(Sequence-to-Sequ ence)ニューラルテキスト生成モデル、特に訓練済みのテキスト生成モデル(BARTやT5など)は、様々な自然言語生成タスクにおいて魅力的なパフォーマンスを示している。 しかしながら、これらのモデルのブラックボックスの性質は、特定のルール(例えば、制御可能な制約、事前知識)を実行する必要があるタスクにおけるアプリケーションを制限する。 以前の作業では、特定のモデル構造(例えば、"生成した出力はソース入力に特定の単語を含むべきである"というルールに対応するコピーメカニズム)を設計するか、テキスト生成を通じて特定のルールを実行するための特別な推論アルゴリズム(例えば、制約されたビームサーチ)を実装していた。 これらの手法には設計ケースバイケースが必要で、複数のルールを同時にサポートするのは難しい。 本稿では,複数のルールを同時に活用するために,様々なトランスフォーマレータに組み込むことが可能な,ニューラルルール実行追跡マシンという新しいモジュールを提案する。 いくつかのベンチマークにおける広範囲な実験結果から,本モデルの有効性を確認した。

Sequence-to-Sequence (S2S) neural text generation models, especially the pre-trained ones (e.g., BART and T5), have exhibited compelling performance on various natural language generation tasks. However, the black-box nature of these models limits their application in tasks where specific rules (e.g., controllable constraints, prior knowledge) need to be executed. Previous works either design specific model structure (e.g., Copy Mechanism corresponding to the rule "the generated output should include certain words in the source input") or implement specialized inference algorithm (e.g., Constrained Beam Search) to execute particular rules through the text generation. These methods require careful design case-by-case and are difficult to support multiple rules concurrently. In this paper, we propose a novel module named Neural Rule-Execution Tracking Machine that can be equipped into various transformer-based generators to leverage multiple rules simultaneously to guide the neural generation model for superior generation performance in a unified and scalable way. Extensive experimental results on several benchmarks verify the effectiveness of our proposed model in both controllable and general text generation.
翻訳日:2021-07-30 00:52:41 公開日:2021-07-27
# (参考訳) 長い尾が2本ある物語 [全文訳有]

A Tale Of Two Long Tails ( http://arxiv.org/abs/2107.13098v1 )

ライセンス: CC BY 4.0
Daniel D'souza, Zach Nussbaum, Chirag Agarwal, Sara Hooker(参考訳) 機械学習モデルは、人間の意思決定を支援するためにますます採用されているため、これらのモデル予測に関連する不確実性を伝えることが重要になる。 しかしながら、不確実性に関する研究の大部分は、従来の確率的あるいはランク付けアプローチ(モデルが低い確率やスコアを不確実な例に割り当てる)に焦点を当てている。 これはモデルにとって困難である例をキャプチャするが、不確実性の原因を捉えない。 本研究では,モデルが不確実である事例を特定し,その不確実性の原因を特徴付ける。 トレーニングの過程でモデルが不確実な例を対象とするデータ拡張を,対象とする介入を設計するメリットについて検討する。 追加情報が存在する場合の学習速度が非典型例と雑音例とで異なるかを検討する。 以上の結果から,訓練過程における十分に設計された介入が,異なる不確実性源を特徴付け,識別するための効果的な方法であることが示唆された。

As machine learning models are increasingly employed to assist human decision-makers, it becomes critical to communicate the uncertainty associated with these model predictions. However, the majority of work on uncertainty has focused on traditional probabilistic or ranking approaches - where the model assigns low probabilities or scores to uncertain examples. While this captures what examples are challenging for the model, it does not capture the underlying source of the uncertainty. In this work, we seek to identify examples the model is uncertain about and characterize the source of said uncertainty. We explore the benefits of designing a targeted intervention - targeted data augmentation of the examples where the model is uncertain over the course of training. We investigate whether the rate of learning in the presence of additional information differs between atypical and noisy examples? Our results show that this is indeed the case, suggesting that well-designed interventions over the course of training can be an effective way to characterize and distinguish between different sources of uncertainty.
翻訳日:2021-07-30 00:27:51 公開日:2021-07-27
# (参考訳) 平面TR:3次元平面復元用構造誘導変圧器 [全文訳有]

PlaneTR: Structure-Guided Transformers for 3D Plane Recovery ( http://arxiv.org/abs/2107.13108v1 )

ライセンス: CC BY 4.0
Bin Tan and Nan Xue and Song Bai and Tianfu Wu and Gui-Song Xia(参考訳) 本論文では,PlaneTRというトランスフォーマー上に構築されたニューラルネットワークを用いて,単一画像からの平面の同時検出と再構成を行う。 従来の方法と異なり、PlaneTRはコンテキスト情報と幾何構造をシーケンス・ツー・シーケンスの方法で共同で利用して、1つの前方通過における平面インスタンスを水平に検出する。 具体的には、幾何学的構造を線分として表現し、(i)コンテキストおよび線分エンコーダ、(ii)構造誘導平面デコーダ、(iii)画素方向平面埋め込みデコーダの3つの主成分でネットワークを行う。 画像とその検出された行セグメントが与えられた後、PlaneTRは2つの特別に設計されたエンコーダを介してコンテキストと行セグメントシーケンスを生成し、それをTransformersベースのデコーダに入力し、コンテキストとグローバル構造を同時に考慮して平面インスタンスのシーケンスを直接予測する。 最後に、各画素を埋め込み空間に最も近い1つの予測平面インスタンスに割り当てるために画素分割を計算する。 包括的な実験では、PlaneTRがScanNetとNYUv2データセット上で最先端のパフォーマンスを達成している。

This paper presents a neural network built upon Transformers, namely PlaneTR, to simultaneously detect and reconstruct planes from a single image. Different from previous methods, PlaneTR jointly leverages the context information and the geometric structures in a sequence-to-sequence way to holistically detect plane instances in one forward pass. Specifically, we represent the geometric structures as line segments and conduct the network with three main components: (i) context and line segments encoders, (ii) a structure-guided plane decoder, (iii) a pixel-wise plane embedding decoder. Given an image and its detected line segments, PlaneTR generates the context and line segment sequences via two specially designed encoders and then feeds them into a Transformers-based decoder to directly predict a sequence of plane instances by simultaneously considering the context and global structure cues. Finally, the pixel-wise embeddings are computed to assign each pixel to one predicted plane instance which is nearest to it in embedding space. Comprehensive experiments demonstrate that PlaneTR achieves a state-of-the-art performance on the ScanNet and NYUv2 datasets.
翻訳日:2021-07-30 00:13:13 公開日:2021-07-27
# マイズショット学習を用いたスパースデータセットにおける自動ヒト細胞分類

Automated Human Cell Classification in Sparse Datasets using Few-Shot Learning ( http://arxiv.org/abs/2107.13093v1 )

ライセンス: Link先を確認
Reece Walsh, Mohamed H. Abdelpakey, Mohamed S. Shehata, Mostafa M.Mohamed(参考訳) 人間の細胞を分類し分析することは長い手順であり、しばしば訓練された専門家を伴う。 このプロセスの迅速化を目的として、深層学習技術を用いて細胞分類を自動化する研究領域が活発に行われている。 実際、これらのディープラーニングモデルを正確にトレーニングするには大量のデータが必要である。 しかし、現在利用可能なヒトの細胞データセットが乏しいため、これらのモデルの性能は一般的に低い。 本研究は, 数発の学習技術を用いて, 正確な訓練のためのデータ要求を軽減することの実現可能性について検討する。 この研究は3つの部分から構成される: 第一に、人間の細胞分類に基づいて、最先端の数発の学習技術を評価する。 選択されたテクニックは、非医療的なデータセットでトレーニングされ、2つのドメイン外のヒト細胞データセットでテストされる。 その結果,医学的でないデータセットから医学的データセットに移行すると,最先端技術のテスト精度が少なくとも30%低下した。 第二に、ヒトの細胞分類における最先端の少数ショット学習技術において、バックボーンアーキテクチャとトレーニングスキームを変更することによる潜在的な利点を評価する。 これらの変動にもかかわらず、テスト全体の精度は非医療データセットの88.66%から医療データセットの44.13%に低下した。 第3に,ヒト細胞分類における少数ショット学習の今後の方向性を示す。 一般に、現在の状態での少数ショット学習はヒトの細胞分類にはあまり影響を与えない。 この研究は、既存のネットワークアーキテクチャを修正しようとする試みは効果がないことを証明し、将来の研究は、最適化ベースまたは自己教師型少ショット学習技術を用いたドメイン外テストへの堅牢性向上に重点を置くべきであると結論付けている。

Classifying and analyzing human cells is a lengthy procedure, often involving a trained professional. In an attempt to expedite this process, an active area of research involves automating cell classification through use of deep learning-based techniques. In practice, a large amount of data is required to accurately train these deep learning models. However, due to the sparse human cell datasets currently available, the performance of these models is typically low. This study investigates the feasibility of using few-shot learning-based techniques to mitigate the data requirements for accurate training. The study is comprised of three parts: First, current state-of-the-art few-shot learning techniques are evaluated on human cell classification. The selected techniques are trained on a non-medical dataset and then tested on two out-of-domain, human cell datasets. The results indicate that, overall, the test accuracy of state-of-the-art techniques decreased by at least 30% when transitioning from a non-medical dataset to a medical dataset. Second, this study evaluates the potential benefits, if any, to varying the backbone architecture and training schemes in current state-of-the-art few-shot learning techniques when used in human cell classification. Even with these variations, the overall test accuracy decreased from 88.66% on non-medical datasets to 44.13% at best on the medical datasets. Third, this study presents future directions for using few-shot learning in human cell classification. In general, few-shot learning in its current state performs poorly on human cell classification. The study proves that attempts to modify existing network architectures are not effective and concludes that future research effort should be focused on improving robustness towards out-of-domain testing using optimization-based or self-supervised few-shot learning techniques.
翻訳日:2021-07-29 14:11:40 公開日:2021-07-27
# 物体検出は人間と物体のインタラクション認識に必要か?

Is Object Detection Necessary for Human-Object Interaction Recognition? ( http://arxiv.org/abs/2107.13083v1 )

ライセンス: Link先を確認
Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Zicheng Liu, Jenq-Neng Hwang(参考訳) 本稿では,物体の位置とポーズの監視を使わずに,画像レベルでの人間-物体間インタラクション(hoi)認識を再検討する。 現状を達成するために,オブジェクトやキーポイント検出に依存する既存の検出教師付きアプローチとは対照的に,検出不要なhoi認識と呼ぶ。 提案手法では,検出監視だけでなく,画像テキスト事前学習(CLIPなど)とLog-Sum-Exp Sign (LSE-Sign)損失関数を適切に利用することにより,優れた性能を実現することができる。 具体的には、CLIP事前訓練画像エンコーダを利用するには、クラスラベルのテキスト埋め込みを使用して線形分類器を初期化することが不可欠である。 加えて、LSE-Sign Losは、ソフトマックスフォーマットですべてのクラスに勾配を正規化することで、不均衡なデータセット上の複数のラベルから学習を容易にする。 驚いたことに、我々の検出不要解はHICOデータセット上で60.5 mAPを達成し、13.4 mAPによる検出監督状態を上回った。

This paper revisits human-object interaction (HOI) recognition at image level without using supervisions of object location and human pose. We name it detection-free HOI recognition, in contrast to the existing detection-supervised approaches which rely on object and keypoint detections to achieve state of the art. With our method, not only the detection supervision is evitable, but superior performance can be achieved by properly using image-text pre-training (such as CLIP) and the proposed Log-Sum-Exp Sign (LSE-Sign) loss function. Specifically, using text embeddings of class labels to initialize the linear classifier is essential for leveraging the CLIP pre-trained image encoder. In addition, LSE-Sign loss facilitates learning from multiple labels on an imbalanced dataset by normalizing gradients over all classes in a softmax format. Surprisingly, our detection-free solution achieves 60.5 mAP on the HICO dataset, outperforming the detection-supervised state of the art by 13.4 mAP
翻訳日:2021-07-29 14:10:32 公開日:2021-07-27
# TextGraphs 2021のRed Dragon AI共有タスク: エキスパートレーティングのマッチングによるマルチホップ推論説明再生

Red Dragon AI at TextGraphs 2021 Shared Task: Multi-Hop Inference Explanation Regeneration by Matching Expert Ratings ( http://arxiv.org/abs/2107.13031v1 )

ライセンス: Link先を確認
Vivek Kalyan and Sam Witteveen and Martin Andrews(参考訳) 科学的な質問に対する答えの説明を作成することは、大量の事実文に対するマルチホップ推論を必要とする困難なタスクである。 今年、テキストグラフが共有するタスクを、関連するステートメントの収集の問題(単に1つの"正しいパス"を見つけるのではなく)に再焦点を当てるために、worldtreeデータセットには、各説明に対するステートメントの「関連」のエキスパートレーティングが加えられた。 共有タスクリーダボードで2位となったシステムでは,最初の文検索,関連性スコアの予測にトレーニングされた言語モデル,結果のランキングをセンセンブルする。 私たちのコード実装はhttps://github.com/m dda/worldtree_corpus /tree/textgraphs_202 1で利用可能です。

Creating explanations for answers to science questions is a challenging task that requires multi-hop inference over a large set of fact sentences. This year, to refocus the Textgraphs Shared Task on the problem of gathering relevant statements (rather than solely finding a single 'correct path'), the WorldTree dataset was augmented with expert ratings of 'relevance' of statements to each overall explanation. Our system, which achieved second place on the Shared Task leaderboard, combines initial statement retrieval; language models trained to predict the relevance scores; and ensembling of a number of the resulting rankings. Our code implementation is made available at https://github.com/m dda/worldtree_corpus /tree/textgraphs_202 1
翻訳日:2021-07-29 14:09:14 公開日:2021-07-27
# 半スーパービジョンノード分類のためのPairwise Factorized Graph Neural Network

Explicit Pairwise Factorized Graph Neural Network for Semi-Supervised Node Classification ( http://arxiv.org/abs/2107.13059v1 )

ライセンス: Link先を確認
Yu Wang, Yuesong Shen, Daniel Cremers(参考訳) ノードの特徴とグラフの構造情報はどちらも半教師付きノード分類問題に不可欠である。 様々なグラフニューラルネットワーク(GNN)ベースのアプローチがこれらの問題に対処するために提案されている。 これは、グラフの直接接続にもかかわらず、隠れた表現が与えられた出力ノードの条件付き独立性を意味するため、問題となる可能性がある。 グラフ中の出力ノード間の直接的な影響を学習するために,グラフ全体を部分的に観測されたマルコフランダム場としてモデル化するEPFGNN(Explicit Pairwise Factorized Graph Neural Network)を提案する。 出力-出力関係をモデル化する明示的なペアワイズ要素を含み、gnnバックボーンを使用して入出力関係をモデル化する。 モデル複雑性と表現率のバランスをとるために、各エッジに共通成分と別個のスケーリング係数を有する。 EMアルゴリズムをモデルトレーニングに適用し、抽出可能なサロゲートの目的に対して星型の可能性を利用する。 様々なデータセットについて実験を行い,グラフ上の半教師付きノード分類の性能を効果的に向上できることを示した。

Node features and structural information of a graph are both crucial for semi-supervised node classification problems. A variety of graph neural network (GNN) based approaches have been proposed to tackle these problems, which typically determine output labels through feature aggregation. This can be problematic, as it implies conditional independence of output nodes given hidden representations, despite their direct connections in the graph. To learn the direct influence among output nodes in a graph, we propose the Explicit Pairwise Factorized Graph Neural Network (EPFGNN), which models the whole graph as a partially observed Markov Random Field. It contains explicit pairwise factors to model output-output relations and uses a GNN backbone to model input-output relations. To balance model complexity and expressivity, the pairwise factors have a shared component and a separate scaling coefficient for each edge. We apply the EM algorithm to train our model, and utilize a star-shaped piecewise likelihood for the tractable surrogate objective. We conduct experiments on various datasets, which shows that our model can effectively improve the performance for semi-supervised node classification on graphs.
翻訳日:2021-07-29 14:07:21 公開日:2021-07-27
# フェデレーションレコメンダシステムの負荷最適化手法

A Payload Optimization Method for Federated Recommender Systems ( http://arxiv.org/abs/2107.13078v1 )

ライセンス: Link先を確認
Farwa K. Khan, Adrian Flanagan, Kuan E. Tan, Zareen Alamgir, Muhammad Ammad-Ud-Din(参考訳) フェデレートされたレコメンデータシステム(FRS)のペイロード最適化手法を提案する。 FL(Federated Learning)では,サーバとユーザの間で移動されるグローバルモデルペイロードは,推奨項目数に依存する。 モデルペイロードは、アイテムの数が増えると増加する。 これは、本番モードで実行されている場合、FRSでは困難になる。 ペイロードチャレンジに取り組むために、グローバルモデルの一部を選択し、すべてのユーザに送信するマルチアームバンディットソリューションを策定した。 選択過程はflシステムに適した新しい報酬関数によって導かれた。 私たちが知る限りでは、これはアイテム依存ペイロードに対処する最初の最適化手法です。 提案手法は3つのベンチマークレコメンデーションデータセットを用いて評価した。 実験により,提案手法は, アイテム選択のために, ビジットの恩恵を受けない簡易な手法よりも優れていることを確認した。 また,提案手法の有効性を,ペイロード削減が推奨性能劣化に与える影響を厳格に評価することで実証した。 提案手法は, モデルペイロードの最大90%の削減を実現し, 高精度データセットの推薦性能を$\sim$4\% - 8\%の損失しか得られなかった。

We introduce the payload optimization method for federated recommender systems (FRS). In federated learning (FL), the global model payload that is moved between the server and users depends on the number of items to recommend. The model payload grows when there is an increasing number of items. This becomes challenging for an FRS if it is running in production mode. To tackle the payload challenge, we formulated a multi-arm bandit solution that selected part of the global model and transmitted it to all users. The selection process was guided by a novel reward function suitable for FL systems. So far as we are aware, this is the first optimization method that seeks to address item dependent payloads. The method was evaluated using three benchmark recommendation datasets. The empirical validation confirmed that the proposed method outperforms the simpler methods that do not benefit from the bandits for the purpose of item selection. In addition, we have demonstrated the usefulness of our proposed method by rigorously evaluating the effects of a payload reduction on the recommendation performance degradation. Our method achieved up to a 90\% reduction in model payload, yielding only a $\sim$4\% - 8\% loss in the recommendation performance for highly sparse datasets
翻訳日:2021-07-29 14:06:13 公開日:2021-07-27
# 因果的連続処理におけるエンドツーエンドバランシングの効果評価

End-to-End Balancing for Causal Continuous Treatment-Effect Estimation ( http://arxiv.org/abs/2107.13068v1 )

ライセンス: Link先を確認
Mohammad Taha Bahadori and Eric Tchetgen Tchetgen and David E. Heckerman(参考訳) 連続治療による観察的因果推論の問題について検討する。 頻度の低い治療値に対して因果反応曲線を推定することの課題に焦点をあてる。 本稿では,エンドツーエンドの最適化を用いて因果推論の精度を直接最大化する重みを学習するエントロピーバランスの枠組みに基づく新しいアルゴリズムを設計する。 私たちの重みは、異なるデータセットと因果推論アルゴリズムのためにカスタマイズできます。 連続処理におけるエントロピーバランスの整合性に関する新しい理論を提案する。 合成および実世界のデータを用いて,提案アルゴリズムが因果推論の精度でエントロピーバランスを上回っていることを示す。

We study the problem of observational causal inference with continuous treatment. We focus on the challenge of estimating the causal response curve for infrequently-observe d treatment values. We design a new algorithm based on the framework of entropy balancing which learns weights that directly maximize causal inference accuracy using end-to-end optimization. Our weights can be customized for different datasets and causal inference algorithms. We propose a new theory for consistency of entropy balancing for continuous treatments. Using synthetic and real-world data, we show that our proposed algorithm outperforms the entropy balancing in terms of causal inference accuracy.
翻訳日:2021-07-29 14:05:29 公開日:2021-07-27
# N-player General-sum Linear-quadratic Gamesにおけるナッシュ平衡の政策勾配法

Policy Gradient Methods Find the Nash Equilibrium in N-player General-sum Linear-quadratic Games ( http://arxiv.org/abs/2107.13090v1 )

ライセンス: Link先を確認
Ben Hambly, Renyuan Xu and Huining Yang(参考訳) 有限地平線上の確率力学を持つ一般のN-プレーヤ線形四元数ゲームを考え、自然方針勾配法のナッシュ平衡への大域収束を証明した。 この手法の収束性を証明するためには,システムに一定量のノイズを必要とする。 我々は、収束を保証するために、基本的にはモデルパラメータの観点からのノイズの共分散の低い条件を与える。 本研究では, 方針勾配法が決定論的に収束しない場合であっても, 雑音の付加が収束に繋がることを示す数値実験を行った。

We consider a general-sum N-player linear-quadratic game with stochastic dynamics over a finite horizon and prove the global convergence of the natural policy gradient method to the Nash equilibrium. In order to prove the convergence of the method, we require a certain amount of noise in the system. We give a condition, essentially a lower bound on the covariance of the noise in terms of the model parameters, in order to guarantee convergence. We illustrate our results with numerical experiments to show that even in situations where the policy gradient method may not converge in the deterministic setting, the addition of noise leads to convergence.
翻訳日:2021-07-29 14:05:19 公開日:2021-07-27
# 簡単な辞書を用いたステージワイズアルゴリズムによるカーネル密度推定

Kernel Density Estimation by Stagewise Algorithm with a Simple Dictionary ( http://arxiv.org/abs/2107.13430v1 )

ライセンス: Link先を確認
Kiheiji Nishida and Kanta Naito(参考訳) 本稿では,u-divergenceの簡単な辞書を用いたステージワイズ最小化アルゴリズムによるカーネル密度推定について検討する。 i.i.d.をランダムに分割する。 1つは辞書のカーネルを構築するために、もう1つは推定子を評価するために、もう1つはアルゴリズムを実装します。 その結果,データ適応重み付けパラメータと帯域幅行列が得られ,カーネル密度推定のスパース表現を実現する。 本研究では,本手法の非漸近的誤差境界を示し,その性能を,直接プラグイン帯域行列や縮小集合密度推定器と比較してシミュレーションにより確認する。

This paper studies kernel density estimation by stagewise minimization algorithm with a simple dictionary on U-divergence. We randomly split an i.i.d. sample into the two disjoint sets, one to be used for constructing the kernels in the dictionary and the other for evaluating the estimator, and implement the algorithm. The resulting estimator brings us data-adaptive weighting parameters and bandwidth matrices, and realizes a sparse representation of kernel density estimation. We present the non-asymptotic error bounds of our estimator and confirm its performance by simulations compared with the direct plug-in bandwidth matrices and the reduced set density estimator.
翻訳日:2021-07-29 14:05:08 公開日:2021-07-27
# PBソルバーのバックジャンプレベル改善について

On Improving the Backjump Level in PB Solvers ( http://arxiv.org/abs/2107.13085v1 )

ライセンス: Link先を確認
Romain Wallon(参考訳) 現在のPBソルバは、現在のSATソルバのCDCLアーキテクチャにインスパイアされた多くの技術を実装し、その実用的効率の恩恵を受ける。 しかし、PB制約を考慮すると、このアーキテクチャによって活用されるプロパティの多くがもはや真実ではないという事実にも対処する必要がある。 本稿では、これらの特性の1つ、すなわち、いわゆる第一一意含意点(1-UIP)の最適性に焦点を当てる。 コンフリクト解析で生成した最初の断定節を学習することでSATソルバの最大バックジャンプの実行が保証されることはよく知られているが,PB制約の存在下ではそのような保証は存在しない。 また,1-UIPに到達した後に解析を継続させることにより,紛争解析において同定されたバックジャンプレベルを改善するために設計された異なるアプローチを導入・評価する。 実験の結果, PBソルバでは準最適バックジャンプがよく見られるが, その影響は明らかでない。

Current PB solvers implement many techniques inspired by the CDCL architecture of modern SAT solvers, so as to benefit from its practical efficiency. However, they also need to deal with the fact that many of the properties leveraged by this architecture are no longer true when considering PB constraints. In this paper, we focus on one of these properties, namely the optimality of the so-called first unique implication point (1-UIP). While it is well known that learning the first assertive clause produced during conflict analysis ensures to perform the highest possible backjump in a SAT solver, we show that there is no such guarantee in the presence of PB constraints. We also introduce and evaluate different approaches designed to improve the backjump level identified during conflict analysis by allowing to continue the analysis after reaching the 1-UIP. Our experiments show that sub-optimal backjumps are fairly common in PB solvers, even though their impact on the solver is not clear.
翻訳日:2021-07-29 14:02:59 公開日:2021-07-27
# MixFaceNets: 極めて効率的な顔認識ネットワーク

MixFaceNets: Extremely Efficient Face Recognition Networks ( http://arxiv.org/abs/2107.13046v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Meiling Fang, Florian Kirchbuchner and Arjan Kuijper(参考訳) 本稿では,Mixed Depthwise Convolutional Kernelsにインスパイアされた,顔認証のための極めて効率的な高スループットモデルであるMixFaceNetを提案する。 ワイルド(LFW)におけるラベルフェイス,Age-DB,MegaFace,IAR PA Janus Benchmarks IJB-B,IJB-Cデータセットの大規模な実験結果から,計算複雑性が極めて低いアプリケーションに対するMixFaceNetsの有効性が示された。 Under the same level of computation complexity (< 500M FLOPs), our MixFaceNets outperform MobileFaceNets on all the evaluated datasets, achieving 99.60% accuracy on LFW, 97.05% accuracy on AgeDB-30, 93.60 TAR (at FAR1e-6) on MegaFace, 90.94 TAR (at FAR1e-4) on IJB-B and 93.08 TAR (at FAR1e-4) on IJB-C. With computational complexity between 500M and 1G FLOPs, our MixFaceNets achieved results comparable to the top-ranked models, while using significantly fewer FLOPs and less computation overhead, which proves the practical value of our proposed MixFaceNets. すべてのトレーニングコード、事前トレーニングされたモデル、トレーニングログがhttps://github.com/f dbtrs/mixfacenetsで利用可能になった。

In this paper, we present a set of extremely efficient and high throughput models for accurate face verification, MixFaceNets which are inspired by Mixed Depthwise Convolutional Kernels. Extensive experiment evaluations on Label Face in the Wild (LFW), Age-DB, MegaFace, and IARPA Janus Benchmarks IJB-B and IJB-C datasets have shown the effectiveness of our MixFaceNets for applications requiring extremely low computational complexity. Under the same level of computation complexity (< 500M FLOPs), our MixFaceNets outperform MobileFaceNets on all the evaluated datasets, achieving 99.60% accuracy on LFW, 97.05% accuracy on AgeDB-30, 93.60 TAR (at FAR1e-6) on MegaFace, 90.94 TAR (at FAR1e-4) on IJB-B and 93.08 TAR (at FAR1e-4) on IJB-C. With computational complexity between 500M and 1G FLOPs, our MixFaceNets achieved results comparable to the top-ranked models, while using significantly fewer FLOPs and less computation overhead, which proves the practical value of our proposed MixFaceNets. All training codes, pre-trained models, and training logs have been made available https://github.com/f dbtrs/mixfacenets.
翻訳日:2021-07-29 14:01:36 公開日:2021-07-27
# dcl:幾何認識深度合成のための差分コントラスト学習

DCL: Differential Contrastive Learning for Geometry-Aware Depth Synthesis ( http://arxiv.org/abs/2107.13087v1 )

ライセンス: Link先を確認
Yanchao Yang, Yuefan Shen, Youyi Zheng, C. Karen Liu and Leonidas Guibas(参考訳) 本稿では, 実深度スキャンから多様な変化を学習し, 有効合成-実移動のための幾何整合性を確保するための現実深度合成法について述べる。 ジオメトリーがほとんど無視される一般的な画像合成パイプラインとは異なり、深度によって運ばれるジオメトリーは、彼ら自身の存在に基づいて扱う。 そこで本研究では,学習した実変分に関して,基礎となる幾何学的性質を不変と明示的に強制する差分学習を提案する。 結果の深さ合成法はタスク非依存であり、任意のタスク固有のネットワークを合成ラベルでトレーニングするために使用できる。 提案手法の有効性を,下流の幾何推論タスクを広範囲に評価することで実証する。 本手法は他の最先端技術に比べて合成から実への転送性能が向上することを示す。 少数の実世界のアノテーションを微調整すると、我々の手法は完全な教師付きベースラインを超えてしまう。

We describe a method for realistic depth synthesis that learns diverse variations from the real depth scans and ensures geometric consistency for effective synthetic-to-real transfer. Unlike general image synthesis pipelines, where geometries are mostly ignored, we treat geometries carried by the depth based on their own existence. We propose differential contrastive learning that explicitly enforces the underlying geometric properties to be invariant regarding the real variations been learned. The resulting depth synthesis method is task-agnostic and can be used for training any task-specific networks with synthetic labels. We demonstrate the effectiveness of the proposed method by extensive evaluations on downstream real-world geometric reasoning tasks. We show our method achieves better synthetic-to-real transfer performance than the other state-of-the-art. When fine-tuned on a small number of real-world annotations, our method can even surpass the fully supervised baselines.
翻訳日:2021-07-29 14:01:13 公開日:2021-07-27
# ニューラルシーケンシャルアイテムレコメンデーションモデル評価のためのサンプリング戦略に関するケーススタディ

A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models ( http://arxiv.org/abs/2107.13045v1 )

ライセンス: Link先を確認
Alexander Dallmann, Daniel Zoller, Andreas Hotho(参考訳) このとき、小さなアイテムサブセット(ターゲットセット)上でメトリクスを計算し、計算を高速化することにより、逐次アイテムレコメンデーションモデルを比較する。 対象セットは、関連する項目と、全項目セットからサンプリングされる負の項目のセットとを含む。 負の項目をサンプリングする2つのよく知られた戦略は、データセットの項目頻度分布をより正確に近似するために、一様ランダムサンプリングと人気によるサンプリングである。 最近発表されたシーケンシャルアイテムレコメンデーションに関する論文は、評価されたモデルを比較するために人気によるサンプリングに依存している。 しかし、近年の研究では、一様ランダムサンプリングによる評価は、全ランキング、すなわち、全アイテムセットを目標セットとして測定値を評価することによって得られるモデルランキングと一致しない可能性があることが示されており、人気によるサンプリングによる評価が全ランキングと等しいか否かを疑問視している。 本研究では,現在最先端のレコメンデータモデルを再評価し,これらのサンプリング戦略がモデルの最終ランキングに影響を及ぼすかどうかを考察する。 そこで我々は,最近提案されている5つのデータセットの逐次レコメンデーションモデルをトレーニングした。 各データセットとモデルに対して,評価戦略を3つ採用する。 まず、モデル全体のランキングを計算します。 次に、2つの異なるサンプリング戦略によってサンプリングされたターゲットセット上の全てのモデルの評価を行い、一般的な100のターゲットセットサイズに対して一様なランダムサンプリングとサンプリングを行い、各戦略のモデルランキングを計算し、それらを比較した。 さらに、サンプルされたターゲットセットのサイズも異なります。 いずれのサンプリング戦略も,モデルの完全なランキングと比較すると,一貫性のないランキングを生成できることがわかった。 さらに、人気によるサンプリングと均一なランダムサンプリングの両方が、常に同じランキングを生成するわけではない。

At the present time, sequential item recommendation models are compared by calculating metrics on a small item subset (target set) to speed up computation. The target set contains the relevant item and a set of negative items that are sampled from the full item set. Two well-known strategies to sample negative items are uniform random sampling and sampling by popularity to better approximate the item frequency distribution in the dataset. Most recently published papers on sequential item recommendation rely on sampling by popularity to compare the evaluated models. However, recent work has already shown that an evaluation with uniform random sampling may not be consistent with the full ranking, that is, the model ranking obtained by evaluating a metric using the full item set as target set, which raises the question whether the ranking obtained by sampling by popularity is equal to the full ranking. In this work, we re-evaluate current state-of-the-art sequential recommender models from the point of view, whether these sampling strategies have an impact on the final ranking of the models. We therefore train four recently proposed sequential recommendation models on five widely known datasets. For each dataset and model, we employ three evaluation strategies. First, we compute the full model ranking. Then we evaluate all models on a target set sampled by the two different sampling strategies, uniform random sampling and sampling by popularity with the commonly used target set size of 100, compute the model ranking for each strategy and compare them with each other. Additionally, we vary the size of the sampled target set. Overall, we find that both sampling strategies can produce inconsistent rankings compared with the full ranking of the models. Furthermore, both sampling by popularity and uniform random sampling do not consistently produce the same ranking ...
翻訳日:2021-07-29 13:50:28 公開日:2021-07-27
# 全スライド画像は2次元点雲:パッチベースのグラフ畳み込みネットワークを用いた文脈認識生存予測

Whole Slide Images are 2D Point Clouds: Context-Aware Survival Prediction using Patch-based Graph Convolutional Networks ( http://arxiv.org/abs/2107.13048v1 )

ライセンス: Link先を確認
Richard J. Chen, Ming Y. Lu, Muhammad Shaban, Chengkuan Chen, Tiffany Y. Chen, Drew F. K. Williamson, Faisal Mahmood(参考訳) 癌予後は、患者の生存を適切に推測するために、組織学的特徴の文脈認識表現を必要とする、計算病理学における課題である。 弱い教師付き深層学習の進歩にもかかわらず、多くのアプローチは文脈認識ではなく、患者の生存を予測できる細胞アイデンティティと組織タイプの重要な形態的特徴の相互作用をモデル化できない。 本研究では, 局所的および大域的トポロジ構造をモデル化するために, 階層的にインスタンスレベルのヒストロジー特徴を集約する, 文脈認識型, 空間分解型パッチベースのグラフ畳み込みネットワークであるPatch-GCNを提案する。 Patch-GCNは癌ゲノムアトラス(TCGA)から5種類の癌タイプで4,370ギガピクセルのWSIで検証し、Patch-GCNが以前の弱制御アプローチを3.58-9.46%上回っていることを示した。 私たちのコードと対応するモデルはhttps://github.com/m ahmoodlab/patch-gcnで公開されている。

Cancer prognostication is a challenging task in computational pathology that requires context-aware representations of histology features to adequately infer patient survival. Despite the advancements made in weakly-supervised deep learning, many approaches are not context-aware and are unable to model important morphological feature interactions between cell identities and tissue types that are prognostic for patient survival. In this work, we present Patch-GCN, a context-aware, spatially-resolved patch-based graph convolutional network that hierarchically aggregates instance-level histology features to model local- and global-level topological structures in the tumor microenvironment. We validate Patch-GCN with 4,370 gigapixel WSIs across five different cancer types from the Cancer Genome Atlas (TCGA), and demonstrate that Patch-GCN outperforms all prior weakly-supervised approaches by 3.58-9.46%. Our code and corresponding models are publicly available at https://github.com/m ahmoodlab/Patch-GCN.
翻訳日:2021-07-29 13:46:23 公開日:2021-07-27
# (参考訳) 深層学習に基づく凍結部からFFPE翻訳 [全文訳有]

Deep Learning-based Frozen Section to FFPE Translation ( http://arxiv.org/abs/2107.11786v2 )

ライセンス: CC BY 4.0
Kutsev Bengisu Ozyoruk, Sermet Can, Guliz Irem Gokceler, Kayhan Basak, Derya Demir, Gurdeniz Serin, Uguray Payam Hacisalihoglu, Berkan Darbaz, Ming Y. Lu, Tiffany Y. Chen, Drew F. K. Williamson, Funda Yilmaz, Faisal Mahmood, Mehmet Turan(参考訳) 凍結切片 (FS) は外科手術中の組織を顕微鏡的に評価する方法である。 手術の高速化により、病理医は腫瘍のマージンや悪性度などの重要な顕微鏡的特徴を迅速に評価し、外科的意思決定をガイドし、手術の経過を最小化することができる。 しかし、FSは核氷結晶、圧縮、切削人工物など多くの誤解を招く人工構造物(考古学的人工物)を導入する傾向があり、病理学者のタイムリーかつ正確な診断を妨げている。 凍結した部分で非常に効果的で時間的にクリティカルな診断を行うには、さらなる訓練と長期の経験が必要である。 一方, ホルマリン固定法とパラフィン埋め込み法(FFPE)の金標準組織調製法は画像品質を著しく向上させるが, 非常に時間を要する(12~48時間)であり, 術中使用には適さない。 本稿では,凍結切断された全スライディング画像(FS-WSI)を全スライディングFFPE画像に数分で変換することにより,FS画質を向上させる人工知能(AI)手法を提案する。 AI-FFPEは、FS入力画像と臨床的に関係のある特徴を保存する合成FFPEスタイルの画像との間に確立された自己規則化機構を活用しながら、アーティファクトに特に重点を置くアテンションメカニズムのガイダンスでFSアーティファクトを修正する。 その結果, 組織処理時間を著しく延長することなく, ffpe型画像の生成に成功し, 診断精度が向上した。 20名の認定病理医による視覚的チューリングテストを含む様々な質的および定量的指標を用いて, 肺および脳凍結領域に対するAI-FFPEの有効性を実証した。

Frozen sectioning (FS) is the preparation method of choice for microscopic evaluation of tissues during surgical operations. The high speed of the procedure allows pathologists to rapidly assess the key microscopic features, such as tumour margins and malignant status to guide surgical decision-making and minimise disruptions to the course of the operation. However, FS is prone to introducing many misleading artificial structures (histological artefacts), such as nuclear ice crystals, compression, and cutting artefacts, hindering timely and accurate diagnostic judgement of the pathologist. Additional training and prolonged experience is often required to make highly effective and time-critical diagnosis on frozen sections. On the other hand, the gold standard tissue preparation technique of formalin-fixation and paraffin-embedding (FFPE) provides significantly superior image quality, but is a very time-consuming process (12-48 hours), making it unsuitable for intra-operative use. In this paper, we propose an artificial intelligence (AI) method that improves FS image quality by computationally transforming frozen-sectioned whole-slide images (FS-WSIs) into whole-slide FFPE-style images in minutes. AI-FFPE rectifies FS artefacts with the guidance of an attention mechanism that puts a particular emphasis on artefacts while utilising a self-regularization mechanism established between FS input image and synthesized FFPE-style image that preserves clinically relevant features. As a result, AI-FFPE method successfully generates FFPE-style images without significantly extending tissue processing time and consequently improves diagnostic accuracy. We demonstrate the efficacy of AI-FFPE on lung and brain frozen sections using a variety of different qualitative and quantitative metrics including visual Turing tests from 20 board certified pathologists.
翻訳日:2021-07-29 09:33:36 公開日:2021-07-27
# (参考訳) テキストは、何であれテキストである:知識蒸留によるテキスト認識の統合

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation ( http://arxiv.org/abs/2107.12087v2 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Yi-Zhe Song(参考訳) テキスト認識はいまだにコンピュータビジョンにおける基礎的かつ広範囲に研究されているトピックであり、その商業用途が多岐にわたるためである。 しかし、この問題の難しさは、日常の場面でテキストを扱うScene Text Recognition(STR)と手書きテキストに対処するHTR(Handwriting Text Recognition)という、研究努力の断片化を規定した。 この論文では、私たちは初めてそれらの統一について論じます -- 私たちは2つの最先端のstrモデルとhtrモデルとうまく競合できる1つのモデルを目指しています。 まず,strモデルとhtrモデルの相互利用が,本質的課題の違いによる大幅なパフォーマンス低下を引き起こすことを示した。 次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。 これは主にテキストシーケンスの可変長とシーケンシャルな性質によるもので、ほとんどがグローバル固定長データで不適切な動作をする、既成のkd技法をレンダリングしている。 そこで本研究では, 上記のテキスト認識の特徴に対応するために, 蒸留損失を3つ提案する。 実証的証拠は,提案する統一モデルが個々のモデルと同等の性能を発揮することを示唆する。 Ablative studyは、2段階のフレームワークやドメイン適応/一般化の代替案がうまく機能せず、設計の適切性をさらに検証していることを示している。

Text recognition remains a fundamental and extensively researched topic in computer vision, largely owing to its wide array of commercial applications. The challenging nature of the very problem however dictated a fragmentation of research efforts: Scene Text Recognition (STR) that deals with text in everyday scenes, and Handwriting Text Recognition (HTR) that tackles hand-written text. In this paper, for the first time, we argue for their unification -- we aim for a single model that can compete favourably with two separate state-of-the-art STR and HTR models. We first show that cross-utilisation of STR and HTR models trigger significant performance drops due to differences in their inherent challenges. We then tackle their union by introducing a knowledge distillation (KD) based framework. This is however non-trivial, largely due to the variable-length and sequential nature of text sequences, which renders off-the-shelf KD techniques that mostly works with global fixed-length data inadequate. For that, we propose three distillation losses all of which are specifically designed to cope with the aforementioned unique characteristics of text recognition. Empirical evidence suggests that our proposed unified model performs on par with individual models, even surpassing them in certain cases. Ablative studies demonstrate that naive baselines such as a two-stage framework, and domain adaption/generalisat ion alternatives do not work as well, further verifying the appropriateness of our design.
翻訳日:2021-07-29 09:15:20 公開日:2021-07-27
# (参考訳) マーモセットサルを用いたパーキンソン病のデータ駆動生物物理計算モデル [全文訳有]

A Data-Driven Biophysical Computational Model of Parkinson's Disease based on Marmoset Monkeys ( http://arxiv.org/abs/2107.12536v1 )

ライセンス: CC BY 4.0
Caetano M. Ranieri, Jhielson M. Pimentel, Marcelo R. Romano, Leonardo A. Elias, Roseli A. F. Romero, Michael A. Lones, Mariana F. P. Araujo, Patricia A. Vargas, Renan C. Moioli(参考訳) 本研究では,マルモセットサルの脳から収集した局所電位データをもとに,パーキンソン病に関連する脳領域の新たな生物物理計算モデルを提案する。 パーキンソン病(英: Parkinson disease)は、神経変性疾患であり、脳の基底神経節-視床-皮質神経回路の正常なダイナミクスに影響を及ぼす神経性運動ニューロンの死と関連している。 この病気の根底には複数のメカニズムがあるが、これらのメカニズムと分子の病原性の完全な記述はいまだに欠けている。 このギャップに対処するため、動物モデルに見られる神経生物学的側面に似た計算モデルが提案されている。 本モデルでは,生物に制約のあるパラメータの集合を微分進化を用いて最適化するデータ駆動アプローチを行った。 進化したモデルは、健常者やパーキンソン病のマーモセット脳データから、単一ニューロン平均発射速度と局所野電位のスペクトルシグネチャによく似ている。 我々が知る限り、これはマーモセット猿の7つの脳領域からの同時電気生理学的記録に基づくパーキンソン病の最初の計算モデルである。 その結果,提案モデルがPDのメカニズムを解明し,新たな治療法を示す技術開発を支援する可能性が示唆された。 また、生物学的データが脳回路のマルチスケールモデルに適合する他の計算神経科学問題にも応用できる。

In this work we propose a new biophysical computational model of brain regions relevant to Parkinson's Disease based on local field potential data collected from the brain of marmoset monkeys. Parkinson's disease is a neurodegenerative disorder, linked to the death of dopaminergic neurons at the substantia nigra pars compacta, which affects the normal dynamics of the basal ganglia-thalamus-cor tex neuronal circuit of the brain. Although there are multiple mechanisms underlying the disease, a complete description of those mechanisms and molecular pathogenesis are still missing, and there is still no cure. To address this gap, computational models that resemble neurobiological aspects found in animal models have been proposed. In our model, we performed a data-driven approach in which a set of biologically constrained parameters is optimised using differential evolution. Evolved models successfully resembled single-neuron mean firing rates and spectral signatures of local field potentials from healthy and parkinsonian marmoset brain data. As far as we are concerned, this is the first computational model of Parkinson's Disease based on simultaneous electrophysiological recordings from seven brain regions of Marmoset monkeys. Results show that the proposed model could facilitate the investigation of the mechanisms of PD and support the development of techniques that can indicate new therapies. It could also be applied to other computational neuroscience problems in which biological data could be used to fit multi-scale models of brain circuits.
翻訳日:2021-07-29 03:20:44 公開日:2021-07-27
# (参考訳) 行動認識に基づく行動選択のための神経ロボティクス的アプローチ [全文訳有]

A Neurorobotics Approach to Behaviour Selection based on Human Activity Recognition ( http://arxiv.org/abs/2107.12540v1 )

ライセンス: CC BY 4.0
Caetano M. Ranieri, Renan C. Moioli, Patricia A. Vargas, Roseli A. F. Romero(参考訳) 行動選択はロボット工学、特に人間とロボットの相互作用の分野で活発に研究されている。 ロボットが人間と効果的かつ自律的に対話するには、知覚情報に基づく人間の活動認識技術と意思決定機構に基づくロボット行動選択の結合が最重要となる。 しかし、現在のほとんどのアプローチは、認識された活動とロボットの行動の間の決定論的関連から成り、リアルタイムアプリケーションにおけるシーケンシャルな予測に固有の不確実性を無視している。 本稿では,生体の神経生理学的側面に類似した計算モデルに基づく神経ロボティクスアプローチを提案することで,このギャップを解消する。 この神経ロボティクスのアプローチは、非バイオインスパイアされたヒューリスティックスに基づくアプローチと比較された。 両方のアプローチを評価するために,知的家庭の居住者が行う行動に応じて,移動ロボットがタスクを遂行しなければならないロボットシミュレーションを開発した。 各アプローチの結果は,ロボットが提供した正しい結果の数に応じて評価された。 その結果、神経ロボティクスのアプローチは特により複雑な動物に基づく計算モデルを考えると有利であることが判明した。

Behaviour selection has been an active research topic for robotics, in particular in the field of human-robot interaction. For a robot to interact effectively and autonomously with humans, the coupling between techniques for human activity recognition, based on sensing information, and robot behaviour selection, based on decision-making mechanisms, is of paramount importance. However, most approaches to date consist of deterministic associations between the recognised activities and the robot behaviours, neglecting the uncertainty inherent to sequential predictions in real-time applications. In this paper, we address this gap by presenting a neurorobotics approach based on computational models that resemble neurophysiological aspects of living beings. This neurorobotics approach was compared to a non-bioinspired, heuristics-based approach. To evaluate both approaches, a robot simulation is developed, in which a mobile robot has to accomplish tasks according to the activity being performed by the inhabitant of an intelligent home. The outcomes of each approach were evaluated according to the number of correct outcomes provided by the robot. Results revealed that the neurorobotics approach is advantageous, especially considering the computational models based on more complex animals.
翻訳日:2021-07-29 02:47:34 公開日:2021-07-27
# (参考訳) データ操作によるエネルギーベース未知物体検出 [全文訳有]

Energy-based Unknown Intent Detection with Data Manipulation ( http://arxiv.org/abs/2107.12542v1 )

ライセンス: CC BY 4.0
Yawen Ouyang, Jiasheng Ye, Yu Chen, Xinyu Dai, Shujian Huang, Jiajun Chen(参考訳) 未知の意図検出は、トレーニングセットに意図が決して現れないOOD(out-of-distriion )発話を特定することを目的としている。 本稿では,エネルギースコアが入力の密度と理論的に一致し,任意の分類器から導出できるため,このタスクにエネルギースコアを用いることを提案する。 しかし、OODとIn-distriion(IND)のエネルギーギャップを形成するためには、訓練段階では高品質なOOD発話が必要であり、これらの発話を実際に収集することは困難である。 そこで本研究では,高品質なOOD発話を重み付け(GOT)で生成するデータ操作フレームワークを提案する。 実験結果から, GOTにより微調整されたエネルギーベース検出器は, 2つのベンチマークデータセットに対して最先端の結果が得られることがわかった。

Unknown intent detection aims to identify the out-of-distribution (OOD) utterance whose intent has never appeared in the training set. In this paper, we propose using energy scores for this task as the energy score is theoretically aligned with the density of the input and can be derived from any classifier. However, high-quality OOD utterances are required during the training stage in order to shape the energy gap between OOD and in-distribution (IND), and these utterances are difficult to collect in practice. To tackle this problem, we propose a data manipulation framework to Generate high-quality OOD utterances with importance weighTs (GOT). Experimental results show that the energy-based detector fine-tuned by GOT can achieve state-of-the-art results on two benchmark datasets.
翻訳日:2021-07-29 02:23:25 公開日:2021-07-27
# (参考訳) t-SNE、クラス固有投影、ガイド付きツアーによるニューラルネットワークの探索 [全文訳有]

Probing neural networks with t-SNE, class-specific projections and a guided tour ( http://arxiv.org/abs/2107.12547v1 )

ライセンス: CC BY 4.0
Christopher R. Hoyt and Art B. Owen(参考訳) 画像分類を行うニューラルネットの探索にはグラフィカルな手法を用いる。 ネットワーク内の連続層におけるt-SNE出力のプロットは、データポイントの整理がますます整理されることを示している。 また、層を通過するとネットワークがクラス内の構造を減らしたり、忘れたりすることもある。 継承する層がどのようにクラスを分離するかを視覚化するために、主要なコンポーネントのクラス固有のアナログを使用します。 これらは、与えられたクラスから、最も典型的なものから最も典型的なもの(データ)までの画像をソートすることができ、また、データの視覚化に非常に有用なプロジェクション座標としても機能します。 アニメーションデータ視覚化のためのガイド付きツアーを定義する際に特に有用である。

We use graphical methods to probe neural nets that classify images. Plots of t-SNE outputs at successive layers in a network reveal increasingly organized arrangement of the data points. They can also reveal how a network can diminish or even forget about within-class structure as the data proceeds through layers. We use class-specific analogues of principal components to visualize how succeeding layers separate the classes. These allow us to sort images from a given class from most typical to least typical (in the data) and they also serve as very useful projection coordinates for data visualization. We find them especially useful when defining versions guided tours for animated data visualization.
翻訳日:2021-07-29 02:08:53 公開日:2021-07-27
# (参考訳) CFLOW-AD: 条件付き正規化フローによる局所化によるリアルタイム非教師付き異常検出 [全文訳有]

CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via Conditional Normalizing Flows ( http://arxiv.org/abs/2107.12571v1 )

ライセンス: CC BY 4.0
Denis Gudovskiy, Shun Ishizaka, Kazuki Kozuka(参考訳) 局所化による教師なし異常検出は、ラベル付けが不可能である場合や、列車データに異常例が完全に欠落している場合など、多くの実用的応用がある。 最近提案されたデータ設定モデルは高精度なメトリクスを実現するが、その複雑さはリアルタイム処理の制限要因である。 本稿では,実時間モデルを提案し,その先行手法との関係を解析的に導出する。 cflow-adモデルは局所化を伴う異常検出に適応した条件付き正規化フローフレームワークに基づいている。 特に、CFLOW-ADは差別的に事前訓練されたエンコーダとマルチスケールな生成復号器から構成され、後者は明示的に符号化された特徴の推測を行う。 cflow-adは、同じ入力設定の以前のstate-of-the-artよりも10倍高速かつ小さくなる。 MVTecデータセットを用いた実験により,CFLOW-ADは検出タスクで0.36%,AUROCで1.12%,AUPROで2.5%,従来の手法で0.36%,それぞれ優れた性能を示した。 完全に再現可能な実験でコードをオープンソースにしています。

Unsupervised anomaly detection with localization has many practical applications when labeling is infeasible and, moreover, when anomaly examples are completely missing in the train data. While recently proposed models for such data setup achieve high accuracy metrics, their complexity is a limiting factor for real-time processing. In this paper, we propose a real-time model and analytically derive its relationship to prior methods. Our CFLOW-AD model is based on a conditional normalizing flow framework adopted for anomaly detection with localization. In particular, CFLOW-AD consists of a discriminatively pretrained encoder followed by a multi-scale generative decoders where the latter explicitly estimate likelihood of the encoded features. Our approach results in a computationally and memory-efficient model: CFLOW-AD is faster and smaller by a factor of 10x than prior state-of-the-art with the same input setting. Our experiments on the MVTec dataset show that CFLOW-AD outperforms previous methods by 0.36% AUROC in detection task, by 1.12% AUROC and 2.5% AUPRO in localization task, respectively. We open-source our code with fully reproducible experiments.
翻訳日:2021-07-29 01:57:14 公開日:2021-07-27
# (参考訳) 確率論理とディープラーニングを組み合わせた自己教師付き学習 [全文訳有]

Combining Probabilistic Logic and Deep Learning for Self-Supervised Learning ( http://arxiv.org/abs/2107.12591v1 )

ライセンス: CC BY 4.0
Hoifung Poon, Hai Wang, Hunter Lang(参考訳) ディープラーニングは様々なアプリケーションタスクに有効であることが証明されているが、アノテートされた例に依存して適用性は制限されている。 自己監督学習は、監督ボトルネックを軽減するための有望な方向性として現れてきたが、既存の研究は、マスク言語モデルの事前学習によって例示されるように、タスク非依存表現学習のためのラベルなしデータにおける共起の活用に焦点を当てている。 この章では、ドメイン知識を活用して、個々のインスタンスにアノテートするラベル機能を導入するか、依存するラベル決定に対する制約を課すことによって、エンドアプリケーションのノイズの多いトレーニング例を自動的にアノテートするタスク固有のセルフスーパービジョンについて検討する。 まず,確率論理をディープラーニングと組み合わせることでタスク固有の自己スーパービジョンのための統一フレームワークを提供する,deep probabilistic logic(dpl)を提案する。 dplは未知のラベルを潜在変数として表現し、確率論理を用いた多様な自己スーパービジョンを取り入れ、変動emを用いたディープニューラルネットワークエンドツーエンドを訓練する。 次に,新しい自己スーパービジョンを学習する能力をdplに加えた自己教師付き自己スーパービジョン(s4)を提案する。 最初のシード自己スーパービジョンから始まり、s4はディープニューラルネットワークを反復的に使用し、新しい自己監督を提案する。 これらは直接追加(構造化された自己学習の形式)するか、あるいは(機能ベースのアクティブラーニングのように)人間の専門家によって検証される。 生物医学的な機械の読み取りや様々なテキスト分類タスクのような実世界のアプリケーションに関する実験は、タスク固有の自己スーパービジョンがドメインの専門知識を効果的に活用し、監督されたメソッドの正確さと人間の努力のごく一部にマッチすることを示している。

Deep learning has proven effective for various application tasks, but its applicability is limited by the reliance on annotated examples. Self-supervised learning has emerged as a promising direction to alleviate the supervision bottleneck, but existing work focuses on leveraging co-occurrences in unlabeled data for task-agnostic representation learning, as exemplified by masked language model pretraining. In this chapter, we explore task-specific self-supervision, which leverages domain knowledge to automatically annotate noisy training examples for end applications, either by introducing labeling functions for annotating individual instances, or by imposing constraints over interdependent label decisions. We first present deep probabilistic logic(DPL), which offers a unifying framework for task-specific self-supervision by composing probabilistic logic with deep learning. DPL represents unknown labels as latent variables and incorporates diverse self-supervision using probabilistic logic to train a deep neural network end-to-end using variational EM. Next, we present self-supervised self-supervision(S4) , which adds to DPL the capability to learn new self-supervision automatically. Starting from an initial seed self-supervision, S4 iteratively uses the deep neural network to propose new self supervision. These are either added directly (a form of structured self-training) or verified by a human expert (as in feature-based active learning). Experiments on real-world applications such as biomedical machine reading and various text classification tasks show that task-specific self-supervision can effectively leverage domain expertise and often match the accuracy of supervised methods with a tiny fraction of human effort.
翻訳日:2021-07-29 01:39:49 公開日:2021-07-27
# (参考訳) PiSLTRc:コンテンツ認識変換による位置インフォームド手話変換器 [全文訳有]

PiSLTRc: Position-informed Sign Language Transformer with Content-aware Convolution ( http://arxiv.org/abs/2107.12600v1 )

ライセンス: CC BY 4.0
Pan Xie and Mengyi Zhao and Xiaohui Hu(参考訳) 長期依存学習におけるトランスフォーマーの優位性から,手話変換モデルは手話認識(SLR)や翻訳(SLT)において顕著な進歩を遂げている。 しかし、Transformerには、より優れた手話理解を妨げるいくつかの問題がある。 第1の問題は、自己着脱機構が、手指ジェスチャの時間的意味構造を無視して、フレーム的に手指映像表現を学習することである。 第二に、絶対位置符号化による注意機構は方向と距離を意識せず、その能力を制限する。 これらの問題に対処するために,<i>コンテンツ認識層と位置認識畳み込み層という2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。 具体的には,新しいコンテンツ認識近傍収集手法を用いて,関係する特徴を明示的に選択する。 次に,これらの特徴を時間的畳み込み層に集約し,頑健な近傍符号表現を生成する。 (ii)エンコーダ、デコーダ、さらにはエンコーダ−デコーダのアテンション機構に相対的な位置情報を注入すること。 バニラトランスフォーマーモデルと比較して、我々のモデルは、PHOENIX-2014、PHOENIX-2014-T、CSLの3つの大規模手話言語ベンチマークにおいて一貫して改善されている。 さらに,提案手法が翻訳品質の最先端性能を達成し,$1.6$ bleu が向上したことを示す実験を行った。

Since the superiority of Transformer in learning long-term dependency, the sign language Transformer model achieves remarkable progress in Sign Language Recognition (SLR) and Translation (SLT). However, there are several issues with the Transformer that prevent it from better sign language understanding. The first issue is that the self-attention mechanism learns sign video representation in a frame-wise manner, neglecting the temporal semantic structure of sign gestures. Secondly, the attention mechanism with absolute position encoding is direction and distance unaware, thus limiting its ability. To address these issues, we propose a new model architecture, namely PiSLTRc, with two distinctive characteristics: (i) content-aware and position-aware convolution layers. Specifically, we explicitly select relevant features using a novel content-aware neighborhood gathering method. Then we aggregate these features with position-informed temporal convolution layers, thus generating robust neighborhood-enhance d sign representation. (ii) injecting the relative position information to the attention mechanism in the encoder, decoder, and even encoder-decoder cross attention. Compared with the vanilla Transformer model, our model performs consistently better on three large-scale sign language benchmarks: PHOENIX-2014, PHOENIX-2014-T and CSL. Furthermore, extensive experiments demonstrate that the proposed method achieves state-of-the-art performance on translation quality with $+1.6$ BLEU improvements.
翻訳日:2021-07-29 01:11:58 公開日:2021-07-27
# (参考訳) 連合学習が自然言語処理を満たす:調査 [全文訳有]

Federated Learning Meets Natural Language Processing: A Survey ( http://arxiv.org/abs/2107.12603v1 )

ライセンス: CC BY 4.0
Ming Liu, Stella Ho, Mengqi Wang, Longxiang Gao, Yuan Jin, He Zhang(参考訳) Federated Learningは、複数の分散エッジデバイス(例)から機械学習モデルを学習することを目的としている。 ローカルデータのプライバシーを犠牲にすることなく、あるいはサーバ。 最近の自然言語処理技術は、ディープラーニングと大規模事前学習言語モデルに依存している。 しかし、大きなディープニューラルネットワークと言語モデルの両方が、サーバ側にあることが多い膨大なデータでトレーニングされている。 テキストデータはエンドユーザーから広く派生しているため、本研究では、フェデレートラーニングを学習フレームワークとして利用する最近のNLPモデルとテクニックについて考察する。 本調査では,アルゴリズム問題,システム問題,プライバシー問題など,連合自然言語処理における大きな課題について論じる。 また,既存のフェデレートNLP評価手法およびツールの批判的レビューを行う。 最後に、現在の研究のギャップと今後の方向性を強調する。

Federated Learning aims to learn machine learning models from multiple decentralized edge devices (e.g. mobiles) or servers without sacrificing local data privacy. Recent Natural Language Processing techniques rely on deep learning and large pre-trained language models. However, both big deep neural and language models are trained with huge amounts of data which often lies on the server side. Since text data is widely originated from end users, in this work, we look into recent NLP models and techniques which use federated learning as the learning framework. Our survey discusses major challenges in federated natural language processing, including the algorithm challenges, system challenges as well as the privacy issues. We also provide a critical review of the existing Federated NLP evaluation methods and tools. Finally, we highlight the current research gaps and future directions.
翻訳日:2021-07-29 00:48:21 公開日:2021-07-27
# (参考訳) 画像シーングラフ生成(SGG)ベンチマーク [全文訳有]

Image Scene Graph Generation (SGG) Benchmark ( http://arxiv.org/abs/2107.12604v1 )

ライセンス: CC BY 4.0
Xiaotian Han, Jianwei Yang, Houdong Hu, Lei Zhang, Jianfeng Gao, Pengchuan Zhang(参考訳) オブジェクト検出以上の微細な画像理解モデルを構築する必要があるため、画像シーングラフ生成(オブジェクト、属性、関係検出)への関心が高まっている。 優れたベンチマークが欠如しているため、異なるシーングラフ生成モデルの報告結果は直接的に比較されず、研究の進展を妨げる。 maskrcnn-benchmarkといくつかの人気のあるモデルを基に,待望のシーングラフ生成ベンチマークを開発した。 本稿では,このベンチマークの主な特徴と,Visual GenomeとOpenImagesのビジュアル関係検出データセットを用いたシーングラフ生成モデルの総合的アブレーション研究について述べる。 私たちのコードベースはhttps://github.com/m icrosoft/scene_graph _benchmarkで公開されています。

There is a surge of interest in image scene graph generation (object, attribute and relationship detection) due to the need of building fine-grained image understanding models that go beyond object detection. Due to the lack of a good benchmark, the reported results of different scene graph generation models are not directly comparable, impeding the research progress. We have developed a much-needed scene graph generation benchmark based on the maskrcnn-benchmark and several popular models. This paper presents main features of our benchmark and a comprehensive ablation study of scene graph generation models using the Visual Genome and OpenImages Visual relationship detection datasets. Our codebase is made publicly available at https://github.com/m icrosoft/scene_graph _benchmark.
翻訳日:2021-07-29 00:31:36 公開日:2021-07-27
# (参考訳) VIPose:リアルタイムビジュアル慣性6Dオブジェクト追跡 [全文訳有]

VIPose: Real-time Visual-Inertial 6D Object Pose Tracking ( http://arxiv.org/abs/2107.12617v1 )

ライセンス: CC BY 4.0
Rundong Ge, Giuseppe Loianno(参考訳) 物体の6d姿勢の推定は、移動、自律ナビゲーション、操作などのロボティクスタスクや、バーチャルや拡張現実のようなロボティクス以外のシナリオに有用である。 単一画像ポーズ推定に関して、ポーズ追跡は複数のフレームにまたがる時間情報を考慮して、検出の不整合を克服し、ポーズ推定効率を向上させる。 本研究では、慣性とカメラデータを組み合わせた新しいディープニューラルネットワークVIPoseを導入し、オブジェクトのポーズ追跡問題にリアルタイムで対処する。 重要な貢献は、連続した画像フレーム間のオブジェクトの相対的な6Dポーズを予測するために、視覚的特徴と慣性的特徴を融合する新しいDNNアーキテクチャの設計である。 全体の6dポーズは、相対的なポーズを連続して組み合わせて見積もる。 提案手法は,既存の最先端のソリューションでは処理が困難であることがよく知られている,難易度の高いオブジェクトに対する顕著なポーズ推定結果を示す。 提案手法の有効性は、RGB画像、IMUデータ、自動ラベリング技術を用いて作成した正確な6Dポーズアノテーションを備えたVIYCBと呼ばれる新しいデータセットで検証される。 このアプローチは最先端技術に匹敵する精度性能を示すが、リアルタイムであることにはさらにメリットがある。

Estimating the 6D pose of objects is beneficial for robotics tasks such as transportation, autonomous navigation, manipulation as well as in scenarios beyond robotics like virtual and augmented reality. With respect to single image pose estimation, pose tracking takes into account the temporal information across multiple frames to overcome possible detection inconsistencies and to improve the pose estimation efficiency. In this work, we introduce a novel Deep Neural Network (DNN) called VIPose, that combines inertial and camera data to address the object pose tracking problem in real-time. The key contribution is the design of a novel DNN architecture which fuses visual and inertial features to predict the objects' relative 6D pose between consecutive image frames. The overall 6D pose is then estimated by consecutively combining relative poses. Our approach shows remarkable pose estimation results for heavily occluded objects that are well known to be very challenging to handle by existing state-of-the-art solutions. The effectiveness of the proposed approach is validated on a new dataset called VIYCB with RGB image, IMU data, and accurate 6D pose annotations created by employing an automated labeling technique. The approach presents accuracy performances comparable to state-of-the-art techniques, but with additional benefit to be real-time.
翻訳日:2021-07-29 00:23:49 公開日:2021-07-27
# (参考訳) マルチセンサ時系列信号の教師なし深部異常検出 [全文訳有]

Unsupervised Deep Anomaly Detection for Multi-Sensor Time-Series Signals ( http://arxiv.org/abs/2107.12626v1 )

ライセンス: CC BY 4.0
Yuxin Zhang, Yiqiang Chen, Jindong Wang, Zhiwen Pan(参考訳) 今日では、医療(HC)、人間活動認識(HAR)、産業制御システム(ICS)など、多くの分野でマルチセンサー技術が採用されている。 これらのセンサーは多変量時系列データを生成することができる。 マルチセンサー時系列データによる教師なし異常検出は、機械学習研究において重要であることが証明されている。 鍵となる課題は、マルチセンサーデータの空間-時間相関を捉えて一般化した正規パターンを見つけることである。 この課題を超えて、ノイズデータはしばしばトレーニングデータと絡み合っており、正常データ、異常データ、ノイズデータの区別を困難にすることで、モデルを誤解させる可能性がある。 この2つの課題を共同で解決できる先行研究はほとんどない。 本稿では,Deep Convolutional Autoencoding Memory Network (CAE-M) と呼ばれる,ディープラーニングに基づく新しい異常検出アルゴリズムを提案する。 我々はまず,マルチセンサデータの空間依存性を最大平均離散値(MMD)で特徴付けるディープ畳み込みオートエンコーダを構築し,ノイズ,正常,異常データをよりよく識別する。 そして,線形(自己回帰モデル)と非線形予測(意図付き双方向LSTM)からなるメモリネットワークを構築し,時系列データから時間依存性を捉える。 最後に、CAE-Mはこれら2つのサブネットを共同で最適化する。 提案手法をharおよびhcデータセットにおける最先端異常検出手法と比較した。 実験の結果,提案手法は既存の手法よりも優れていることがわかった。

Nowadays, multi-sensor technologies are applied in many fields, e.g., Health Care (HC), Human Activity Recognition (HAR), and Industrial Control System (ICS). These sensors can generate a substantial amount of multivariate time-series data. Unsupervised anomaly detection on multi-sensor time-series data has been proven critical in machine learning researches. The key challenge is to discover generalized normal patterns by capturing spatial-temporal correlation in multi-sensor data. Beyond this challenge, the noisy data is often intertwined with the training data, which is likely to mislead the model by making it hard to distinguish between the normal, abnormal, and noisy data. Few of previous researches can jointly address these two challenges. In this paper, we propose a novel deep learning-based anomaly detection algorithm called Deep Convolutional Autoencoding Memory network (CAE-M). We first build a Deep Convolutional Autoencoder to characterize spatial dependence of multi-sensor data with a Maximum Mean Discrepancy (MMD) to better distinguish between the noisy, normal, and abnormal data. Then, we construct a Memory Network consisting of linear (Autoregressive Model) and non-linear predictions (Bidirectional LSTM with Attention) to capture temporal dependence from time-series data. Finally, CAE-M jointly optimizes these two subnetworks. We empirically compare the proposed approach with several state-of-the-art anomaly detection methods on HAR and HC datasets. Experimental results demonstrate that our proposed model outperforms these existing methods.
翻訳日:2021-07-29 00:10:12 公開日:2021-07-27
# (参考訳) 信頼度校正のためのエネルギーベースオープンワールド不確実性モデリング [全文訳有]

Energy-Based Open-World Uncertainty Modeling for Confidence Calibration ( http://arxiv.org/abs/2107.12628v1 )

ライセンス: CC BY 4.0
Yezhen Wang, Bo Li, Tong Che, Kaiyang Zhou, Dongsheng Li, Ziwei Liu(参考訳) 信頼性校正は、機械学習システムによる決定の信頼性において非常に重要である。 しかし、ディープニューラルネットワークに基づく識別的分類器は、分類精度の真の正しさの可能性を反映しない過信予測を生成するためにしばしば批判される。 このような不確実性をモデル化できないのは、softmaxのクローズドワールドの性質に主に起因していると主張する: クロスエントロピー損失によって訓練されたモデルは、高い確率で、入力を$k$事前定義されたカテゴリの1つに分類しなければならない。 この問題に対処するために、我々は初めてオープンワールドの不確実性のモデリングを余剰次元として組み込んだ新しい$k$+1-way softmax定式法を提案する。 従来の$K$-wayの分類課題の学習と不確実性をモデル化する余剰次元を統一するために、我々は新しいエネルギーベースの目的関数を提案し、さらに、そのような目的を最適化することが本質的に余剰次元に限界データ分布を捕捉させることを理論的に証明する。 EOW-Softmax (Energy-based Open-World Softmax) は, 従来の信頼性校正手法よりも優れていることを示す。

Confidence calibration is of great importance to the reliability of decisions made by machine learning systems. However, discriminative classifiers based on deep neural networks are often criticized for producing overconfident predictions that fail to reflect the true correctness likelihood of classification accuracy. We argue that such an inability to model uncertainty is mainly caused by the closed-world nature in softmax: a model trained by the cross-entropy loss will be forced to classify input into one of $K$ pre-defined categories with high probability. To address this problem, we for the first time propose a novel $K$+1-way softmax formulation, which incorporates the modeling of open-world uncertainty as the extra dimension. To unify the learning of the original $K$-way classification task and the extra dimension that models uncertainty, we propose a novel energy-based objective function, and moreover, theoretically prove that optimizing such an objective essentially forces the extra dimension to capture the marginal data distribution. Extensive experiments show that our approach, Energy-based Open-World Softmax (EOW-Softmax), is superior to existing state-of-the-art methods in improving confidence calibration.
翻訳日:2021-07-28 23:42:16 公開日:2021-07-27
# (参考訳) RIS支援ミリ波チャネル推定の学習 [全文訳有]

Learning to Estimate RIS-Aided mmWave Channels ( http://arxiv.org/abs/2107.12631v1 )

ライセンス: CC BY 4.0
Jiguang He and Henk Wymeersch and Marco Di Renzo and Markku Juntti(参考訳) 深部ニューラルネットワーク(DNN)の顕著な学習と予測性能に着想を得て,モデル駆動型深部展開ニューラルネットワークとして知られるDNNフレームワークを,再構成可能なインテリジェントサーフェス(RIS)支援ミリ波(mmWave)単入出力多出力(SIMO)システムに適用した。 我々は,観測の収集にris位相制御行列と既知および固定基地局の組み合わせが考慮されるアップリンクカスケードチャネル推定に着目した。 推定性能を向上し, トレーニングオーバーヘッドを低減するため, 深部展開法において, mmWaveチャネルの固有チャネル幅を利用する。 提案する深層展開型ネットワークアーキテクチャが,比較的少ないトレーニングオーバーヘッドとオンライン計算複雑性で最小二乗法 (ls) よりも優れていることが検証された。

Inspired by the remarkable learning and prediction performance of deep neural networks (DNNs), we apply one special type of DNN framework, known as model-driven deep unfolding neural network, to reconfigurable intelligent surface (RIS)-aided millimeter wave (mmWave) single-input multiple-output (SIMO) systems. We focus on uplink cascaded channel estimation, where known and fixed base station combining and RIS phase control matrices are considered for collecting observations. To boost the estimation performance and reduce the training overhead, the inherent channel sparsity of mmWave channels is leveraged in the deep unfolding method. It is verified that the proposed deep unfolding network architecture can outperform the least squares (LS) method with a relatively smaller training overhead and online computational complexity.
翻訳日:2021-07-28 23:27:50 公開日:2021-07-27
# (参考訳) 領域適応検出トランスのシーケンス特徴アライメントの検討 [全文訳有]

Exploring Sequence Feature Alignment for Domain Adaptive Detection Transformers ( http://arxiv.org/abs/2107.12636v1 )

ライセンス: CC BY 4.0
Wen Wang, Yang Cao, Jing Zhang, Fengxiang He, Zheng-Jun Zha, Yonggang Wen, Dacheng Tao(参考訳) 検出変換器は近年,有望な物体検出結果を示し,注目を集めている。 しかし、ドメイン間性能を改善する効果的なドメイン適応手法の開発方法はまだ明らかにされていない。 本稿では,cnnバックボーン上での直接特徴分散アライメントは,予測用トランスフォーマーのドメイン不変シーケンス特徴を保証しないため,限定的な改善のみをもたらすことを実証的に確認する。 この問題に対処するために,検出変換器の適応に特化して設計された新しいシーケンス特徴アライメント(SFA)法を提案する。 技術的には、SFAはドメインクエリベースの機能アライメント(DQFA)モジュールとトークンワイド機能アライメント(TDA)モジュールで構成される。 DQFAでは、新しいドメインクエリを使用して、両方のドメインのトークンシーケンスからグローバルコンテキストを集約し、調整する。 DQFAは、トランスフォーマーエンコーダとデコーダにそれぞれ配置する際に、グローバルな特徴表現とオブジェクト関係におけるドメインの差を小さくする。 一方、TDAは、両方のドメインからのシーケンスにおけるトークンの特徴を整列させ、トランスフォーマーエンコーダとデコーダのローカルおよびインスタンスレベルの特徴表現におけるドメインギャップを小さくする。 さらに、ロバスト物体検出のための特徴識別性を高めるために、新しい両部整合損失を提案する。 3つの挑戦的なベンチマーク実験により、SFAは最先端のドメイン適応オブジェクト検出方法より優れていることが示された。 コードは、https://github.com/e ncounter1997/SFAで公開されている。

Detection transformers have recently shown promising object detection results and attracted increasing attention. However, how to develop effective domain adaptation techniques to improve its cross-domain performance remains unexplored and unclear. In this paper, we delve into this topic and empirically find that direct feature distribution alignment on the CNN backbone only brings limited improvements, as it does not guarantee domain-invariant sequence features in the transformer for prediction. To address this issue, we propose a novel Sequence Feature Alignment (SFA) method that is specially designed for the adaptation of detection transformers. Technically, SFA consists of a domain query-based feature alignment (DQFA) module and a token-wise feature alignment (TDA) module. In DQFA, a novel domain query is used to aggregate and align global context from the token sequence of both domains. DQFA reduces the domain discrepancy in global feature representations and object relations when deploying in the transformer encoder and decoder, respectively. Meanwhile, TDA aligns token features in the sequence from both domains, which reduces the domain gaps in local and instance-level feature representations in the transformer encoder and decoder, respectively. Besides, a novel bipartite matching consistency loss is proposed to enhance the feature discriminability for robust object detection. Experiments on three challenging benchmarks show that SFA outperforms state-of-the-art domain adaptive object detection methods. Code has been made available at: https://github.com/e ncounter1997/SFA.
翻訳日:2021-07-28 23:18:34 公開日:2021-07-27
# (参考訳) ニューロン活性化の重要性による継続的な学習 [全文訳有]

Continual Learning with Neuron Activation Importance ( http://arxiv.org/abs/2107.12657v1 )

ライセンス: CC BY 4.0
Sohee Kim, Seungkyu Lee(参考訳) 連続学習は、複数のシーケンシャルなタスクを伴うオンライン学習の概念である。 連続学習の重要な障壁の1つは、ネットワークが古いタスクのデータにアクセスせずに古いタスクの知識を保持する新しいタスクを学習すべきである。 本稿では,タスクの順序によらず,安定な連続学習のためのニューロン活性化重要度に基づく正規化手法を提案する。 提案手法の安定性と可塑性だけでなく,タスク順序の変化に伴う性能のロバスト性を評価するため,既存のベンチマークデータセットを総合的に実験した。

Continual learning is a concept of online learning with multiple sequential tasks. One of the critical barriers of continual learning is that a network should learn a new task keeping the knowledge of old tasks without access to any data of the old tasks. In this paper, we propose a neuron activation importance-based regularization method for stable continual learning regardless of the order of tasks. We conduct comprehensive experiments on existing benchmark data sets to evaluate not just the stability and plasticity of our method with improved classification accuracy also the robustness of the performance along the changes of task order.
翻訳日:2021-07-28 23:00:41 公開日:2021-07-27
# (参考訳) 任意形状テキスト検出のための適応境界提案ネットワーク [全文訳有]

Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection ( http://arxiv.org/abs/2107.12664v1 )

ライセンス: CC BY-SA 4.0
Shi-Xue Zhang, Xiaobin Zhu, Chun Yang, Hongfa Wang, Xu-Cheng Yin(参考訳) 任意形状テキストの検出は、複雑なシーンテキストの多様さのために難しい課題である。 本研究では,任意の形状テキストに対して,後処理をすることなく正確な境界を生成できる適応的境界提案ネットワークを提案する。 提案手法は主に境界モデルと革新的適応境界変形モデルから構成される。 多層拡張畳み込みによって構築された境界提案モデルを用いて、事前情報(分類地図、距離場、方向場を含む)と粗い境界提案を生成する。 適応的境界変形モデルはエンコーダ・デコーダネットワークであり、エンコーダは主にグラフ畳み込みネットワーク(GCN)とリカレントニューラルネットワーク(RNN)で構成されている。 境界提案モデルから先行情報に導かれたテキストインスタンス形状を反復的に取得する手法で境界変形を行うことを目標とし,複雑な後処理をすることなく,精度の高いテキスト境界を効率的に生成する手法を提案する。 公開データセットに関する広範囲な実験により,本手法の最先端性能が実証された。

Arbitrary shape text detection is a challenging task due to the high complexity and variety of scene texts. In this work, we propose a novel adaptive boundary proposal network for arbitrary shape text detection, which can learn to directly produce accurate boundary for arbitrary shape text without any post-processing. Our method mainly consists of a boundary proposal model and an innovative adaptive boundary deformation model. The boundary proposal model constructed by multi-layer dilated convolutions is adopted to produce prior information (including classification map, distance field, and direction field) and coarse boundary proposals. The adaptive boundary deformation model is an encoder-decoder network, in which the encoder mainly consists of a Graph Convolutional Network (GCN) and a Recurrent Neural Network (RNN). It aims to perform boundary deformation in an iterative way for obtaining text instance shape guided by prior information from the boundary proposal model.In this way, our method can directly and efficiently generate accurate text boundaries without complex post-processing. Extensive experiments on publicly available datasets demonstrate the state-of-the-art performance of our method.
翻訳日:2021-07-28 22:51:50 公開日:2021-07-27
# (参考訳) MFAGAN: メモリ効率の良いオンデバイススーパーリゾリューションGANのための圧縮フレームワーク [全文訳有]

MFAGAN: A Compression Framework for Memory-Efficient On-Device Super-Resolution GAN ( http://arxiv.org/abs/2107.12679v1 )

ライセンス: CC0 1.0
Wenlong Cheng and Mingbo Zhao and Zhiling Ye and Shuhang Gu(参考訳) GAN(Generative Adversarial Network)は、フォトリアリスティック画像の復元により、単一像超解像(SR)の顕著な進歩を促進している。 しかしながら、GANベースのSR(通常はジェネレータ)の高メモリ消費は、パフォーマンスの低下とエネルギー消費の増大を引き起こし、リソース制限されたモバイルデバイスへのGANベースのSRの展開を妨げる。 本稿では,新しい圧縮フレームワーク \textbf{M}ulti-scale \textbf{F}eature \textbf{A}ggregation Net based \textbf{GAN} (MFAGAN) を提案する。 まず,高密度接続のメモリ爆発を克服するために,メモリ効率の高いマルチスケール特徴集約ネットをジェネレータとして利用する。 第2に,より速く,より安定した訓練を行うために,PatchGAN判別器を導入する。 第3に, 生徒判別器と圧縮発生器のバランスをとるため, 生成器と判別器の両方を蒸留する。 最後に、ハードウェア対応のニューラルネットワークサーチ(NAS)を実行し、ターゲットの携帯電話用の特別なサブジェネレータを見つける。 これらの改善により、提案されたMFAGANは、ESRGANと比較して、わずかに視覚的品質の劣化しかなく、 \textbf{8.3}$\times$メモリの節約と \textbf{42.9}$\times$計算の削減を達成する。 Qualcomm Snapdragon 865チップセットでは、ミリ秒のレイテンシが$\sim$\textbf{70} である。

Generative adversarial networks (GANs) have promoted remarkable advances in single-image super-resolution (SR) by recovering photo-realistic images. However, high memory consumption of GAN-based SR (usually generators) causes performance degradation and more energy consumption, hindering the deployment of GAN-based SR into resource-constricted mobile devices. In this paper, we propose a novel compression framework \textbf{M}ulti-scale \textbf{F}eature \textbf{A}ggregation Net based \textbf{GAN} (MFAGAN) for reducing the memory access cost of the generator. First, to overcome the memory explosion of dense connections, we utilize a memory-efficient multi-scale feature aggregation net as the generator. Second, for faster and more stable training, our method introduces the PatchGAN discriminator. Third, to balance the student discriminator and the compressed generator, we distill both the generator and the discriminator. Finally, we perform a hardware-aware neural architecture search (NAS) to find a specialized SubGenerator for the target mobile phone. Benefiting from these improvements, the proposed MFAGAN achieves up to \textbf{8.3}$\times$ memory saving and \textbf{42.9}$\times$ computation reduction, with only minor visual quality degradation, compared with ESRGAN. Empirical studies also show $\sim$\textbf{70} milliseconds latency on Qualcomm Snapdragon 865 chipset.
翻訳日:2021-07-28 22:36:10 公開日:2021-07-27
# (参考訳) 融合領域と点的特徴を考慮した動的・静的物体検出 [全文訳有]

Dynamic and Static Object Detection Considering Fusion Regions and Point-wise Features ( http://arxiv.org/abs/2107.12692v1 )

ライセンス: CC BY 4.0
Andr\'es G\'omez, Thomas Genevois, Jerome Lussereau and Christian Laugier(参考訳) 物体検出は、自動運転車と道路利用者の安全な相互作用にとって重要な問題である。 ディープラーニング手法は、パフォーマンスを向上したオブジェクト検出アプローチの開発を可能にした。 しかし、リアルタイムに検出された物体からより多くの特徴を得るには依然として課題がある。 主な理由は、環境のオブジェクトからのより多くの情報が、異なる都市状況に直面するために自動運転車の能力を改善することができるからである。 本稿では,自律走行車の前で静的および動的物体を検出する新しい手法を提案する。 我々のアプローチは、検出された物体から、その位置、速度、方向などの他の特徴を得ることもできる。 我々は,yolov3とベイズフィルタを用いて環境の解釈結果を融合して提案する。 提案の性能を実証するために,ベンチマークデータセットと自律プラットフォームから得られた実世界データを用いて検証する。 得られた結果を別のアプローチと比較した。

Object detection is a critical problem for the safe interaction between autonomous vehicles and road users. Deep-learning methodologies allowed the development of object detection approaches with better performance. However, there is still the challenge to obtain more characteristics from the objects detected in real-time. The main reason is that more information from the environment's objects can improve the autonomous vehicle capacity to face different urban situations. This paper proposes a new approach to detect static and dynamic objects in front of an autonomous vehicle. Our approach can also get other characteristics from the objects detected, like their position, velocity, and heading. We develop our proposal fusing results of the environment's interpretations achieved of YoloV3 and a Bayesian filter. To demonstrate our proposal's performance, we asses it through a benchmark dataset and real-world data obtained from an autonomous platform. We compared the results achieved with another approach.
翻訳日:2021-07-28 22:21:17 公開日:2021-07-27
# (参考訳) 自己拡張情報最大化によるクラスタGANの改善 [全文訳有]

Improving ClusterGAN Using Self-AugmentedInform ation Maximization of Disentangling LatentSpaces ( http://arxiv.org/abs/2107.12706v1 )

ライセンス: CC BY 4.0
Tanmoy Dam, Sreenatha G. Anavatti, Hussein A. Abbass (Fellow, IEEESchool of Engineering and Information Technology, University of New South Wales Canberra, Australia)(参考訳) 生成型adversarial networks (clustergan) 法における潜在空間クラスタリングは高次元データで成功している。 しかし、本手法は、実世界データにおける制限的な仮定であり、生成したモードにおける多様性の喪失を引き起こすモード生成中に一様分散前処理を仮定する。 本稿では,Clus-terGAN(SIMI-Cl usterGAN)を改良した自己拡張情報最大化手法を提案する。 提案するsimi-clusterganは4つのディープニューラルネットワークで構成される: 自己推定優先ネットワーク,生成器,判別器,クラスタリング推論オートエンコーダ 提案手法は7つのベンチマークデータセットを用いて検証され,性能のオーバーステート・オブ・ザ・アート法が改善されている。 不均衡データセットにおけるSIMI-ClusterGAN性能の優位性を示すために,MNISTデータセット上での2つの不均衡条件と3つのクラス不均衡ケースについて検討した。

The Latent Space Clustering in Generative adversarial networks (ClusterGAN) method has been successful with high-dimensional data. However, the method assumes uniformlydistributed priors during the generation of modes, which isa restrictive assumption in real-world data and cause loss ofdiversity in the generated modes. In this paper, we proposeself-augmenta tion information maximization improved Clus-terGAN (SIMI-ClusterGAN) to learn the distinctive priorsfrom the data. The proposed SIMI-ClusterGAN consists offour deep neural networks: self-augmentation prior network,generator, discriminator and clustering inference autoencoder.The proposed method has been validated using seven bench-mark data sets and has shown improved performance overstate-of-the art methods. To demonstrate the superiority ofSIMI-ClusterGAN performance on imbalanced dataset, wehave discussed two imbalanced conditions on MNIST datasetswith one-class imbalance and three classes imbalanced cases.The results highlight the advantages of SIMI-ClusterGAN.
翻訳日:2021-07-28 22:13:10 公開日:2021-07-27
# (参考訳) DV-Det:動的ボクセル化による効率的な3Dポイントクラウドオブジェクト検出 [全文訳有]

DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic Voxelization ( http://arxiv.org/abs/2107.12707v1 )

ライセンス: CC BY 4.0
Zhaoyu Su, Pin Siang Tan, Yu-Hsing Wang(参考訳) 本研究では,効率的な3次元クラウドオブジェクト検出のための新しい2段階フレームワークを提案する。 ポイントクラウドを2dのバードアイビュープロジェクションに変換する代わりに、生のポイントクラウドデータを3d空間で直接解析し、優れた効率と精度を実現します。 この目的を達成するために,局所スケールでの点のボクセル化手法である動的ボクセル化を提案する。 これにより、3次元ボクセルで点雲の幾何学を保ち、したがって点座標から学ぶために高価なMLPへの依存を和らげる。 一方,我々は本来,ポイントワイズ法(例えばポイントネット)と同じ処理パターンに従い,従来の畳み込みのような量子化問題にもはや苦しむことはない。 さらなる速度最適化のために,グリッドを用いたダウンサンプリングとボキセル化手法を提案し,トレーニングおよび推論フェーズにおいて,異なるCUDA実装を提供する。 我々は,75 FPSのKITTI 3Dオブジェクト検出データセットと,25 FPSの推論速度で良好な精度でWaymo Openデータセットに注目する。

In this work, we propose a novel two-stage framework for the efficient 3D point cloud object detection. Instead of transforming point clouds into 2D bird eye view projections, we parse the raw point cloud data directly in the 3D space yet achieve impressive efficiency and accuracy. To achieve this goal, we propose dynamic voxelization, a method that voxellizes points at local scale on-the-fly. By doing so, we preserve the point cloud geometry with 3D voxels, and therefore waive the dependence on expensive MLPs to learn from point coordinates. On the other hand, we inherently still follow the same processing pattern as point-wise methods (e.g., PointNet) and no longer suffer from the quantization issue like conventional convolutions. For further speed optimization, we propose the grid-based downsampling and voxelization method, and provide different CUDA implementations to accommodate to the discrepant requirements during training and inference phases. We highlight our efficiency on KITTI 3D object detection dataset with 75 FPS and on Waymo Open dataset with 25 FPS inference speed with satisfactory accuracy.
翻訳日:2021-07-28 21:52:16 公開日:2021-07-27
# (参考訳) オンラインマス熟考プラットフォームの設計における包括的・平等・偏見 [全文訳有]

Inclusion, equality and bias in designing online mass deliberative platforms ( http://arxiv.org/abs/2107.12711v1 )

ライセンス: CC BY 4.0
Ruth Shortall, Anatol Itten, Michiel van der Meer, Pradeep K. Murukannaiah, Catholijn M. Jonker(参考訳) オンライン審議プラットフォームの設計者は、オンライン議論の質の低下に対抗し、階級、人種、性別に基づくオンライン差別を排除することを目指している。 機械学習や自然言語処理といったサポート技術は、小さなグループから‘crowd’スケールに移行して、審議に関わる人々の輪を広げるための道を開いた。 大規模オンラインディスカッションシステムの設計機能によっては、多くの人々が共有問題について議論し、批判的思考を強化し、ソリューションを定式化することができる。 しかし、審議のスケールアップは困難である。 本稿では,デジタル・マス・リベレーション・プラットフォームの設計に関する学際的文献をレビューし,一般的なデザインの側面(議論支援,自動ファシリテーション,ゲーミフィケーションなど)について考察する。 文献は、熟考のスケールアップのための技術的な修正に重点を置いており、デザインやテストに西洋の影響を強く受けており、若く高度に教育されている。 対照的に、設計プロセスの性質、利害関係者の参加、包括性に関する問題に関する明確な議論が欠如している。 議論プラットフォームに関するもう1つの傾向は、参加者を望ましい議論形式にし、アルゴリズムの目的に適合する善と悪の議論の定義を単純化することである。 議論理論、設計、工学の間の規律を橋渡しする研究はほとんどない。 その結果、熟考のスケールアップは別のシステムサイロで進行する可能性が高い。 我々は、このコースを正すために設計とプロセスの推奨を行い、将来の研究への道を提案する。

Designers of online deliberative platforms aim to counter the degrading quality of online debates and eliminate online discrimination based on class, race or gender. Support technologies such as machine learning and natural language processing open avenues for widening the circle of people involved in deliberation, moving from small groups to ``crowd'' scale. Some design features of large-scale online discussion systems allow larger numbers of people to discuss shared problems, enhance critical thinking, and formulate solutions. However, scaling up deliberation is challenging. We review the transdisciplinary literature on the design of digital mass-deliberation platforms and examine the commonly featured design aspects (e.g., argumentation support, automated facilitation, and gamification). We find that the literature is heavily focused on developing technical fixes for scaling up deliberation, with a heavy western influence on design and test users skew young and highly educated. Contrastingly, there is a distinct lack of discussion on the nature of the design process, the inclusion of stakeholders and issues relating to inclusion, which may unwittingly perpetuate bias. Another tendency of deliberation platforms is to nudge participants to desired forms of argumentation, and simplifying definitions of good and bad arguments to fit algorithmic purposes. Few studies bridge disciplines between deliberative theory, design and engineering. As a result, scaling up deliberation will likely advance in separate systemic siloes. We make design and process recommendations to correct this course and suggest avenues for future research.
翻訳日:2021-07-28 21:37:32 公開日:2021-07-27
# (参考訳) コンテナの特性とその内容のマルチモーダル推定:調査と評価 [全文訳有]

Multi-modal estimation of the properties of containers and their content: survey and evaluation ( http://arxiv.org/abs/2107.12719v1 )

ライセンス: CC BY 4.0
Alessio Xompero, Santiago Donaher, Vladimir Iashin, Francesca Palermo, G\"okhan Solak, Claudio Coppola, Reina Ishikawa, Yuichi Nagao, Ryo Hachiuma, Qi Liu, Fan Feng, Chuanlin Lan, Rosa H. M. Chan, Guilherme Christmann, Jyun-Ting Song, Gonuguntla Neeharika, Chinnakotla Krishna Teja Reddy, Dinesh Jain, Bakhtawar Ur Rehman, Andrea Cavallaro(参考訳) 音響および視覚センシングは、容器が人によって操作されたときの容器の重量とその内容量の非接触的な推定を支援することができる。 しかし、透明性(容器と内容の両方)と材料、形状、サイズの変化は、この問題を困難にしている。 本稿では,オープンベンチマークフレームワークと,コンテナの容量を推定する最近の手法の詳細な比較分析を行い,その内容の種類,質量,量について述べる。 これらの手法は、学習および手作りの特徴、例えばメル周波数ケプストラム係数、ゼロクロスレート、分光器、および異なるタイプの分類器を用いて、音響データを用いてコンテンツの種類と量を推定し、視覚データを用いてコンテナの容量を決定する幾何学的アプローチを用いる。 新たに配布されたデータセットでは,音声のみが強いモダリティであり,コンテンツタイプとレベル分類において,重み付き平均F1スコアが最大81%,97%に達することが示されている。 コンテナ容量を視覚のみのアプローチで推定し、マルチモーダルなマルチステージアルゴリズムで質量を充填すると、平均容量と質量スコアの65%に達する。

Acoustic and visual sensing can support the contactless estimation of the weight of a container and the amount of its content when the container is manipulated by a person. However, transparencies (both of the container and of the content) and the variability of materials, shapes and sizes make this problem challenging. In this paper, we present an open benchmarking framework and an in-depth comparative analysis of recent methods that estimate the capacity of a container, as well as the type, mass, and amount of its content. These methods use learned and handcrafted features, such as mel-frequency cepstrum coefficients, zero-crossing rate, spectrograms, with different types of classifiers to estimate the type and amount of the content with acoustic data, and geometric approaches with visual data to determine the capacity of the container. Results on a newly distributed dataset show that audio alone is a strong modality and methods achieves a weighted average F1-score up to 81% and 97% for content type and level classification, respectively. Estimating the container capacity with vision-only approaches and filling mass with multi-modal, multi-stage algorithms reaches up to 65% weighted average capacity and mass scores.
翻訳日:2021-07-28 21:11:17 公開日:2021-07-27
# (参考訳) オーディエンス(オーディエンスと専門家の注釈による健康データの向上) : 皮膚病変分類を事例として [全文訳有]

ENHANCE (ENriching Health data by ANnotations of Crowd and Experts): A case study for skin lesion classification ( http://arxiv.org/abs/2107.12734v1 )

ライセンス: CC BY 4.0
Ralf Raumanns, Gerard Schouten, Max Joosten, Josien P. W. Pluim and Veronika Cheplygina(参考訳) 既存のISICおよびPH2皮膚病変分類データセットを補完する複数のアノテーションを備えたオープンデータセットであるENHANCEを提案する。 このデータセットには、学部生、Amazon MTurkの群衆労働者、古典的な画像処理アルゴリズムなど、非専門的アノテーションソースの視覚的ABC(非対称性、境界、色)のアノテーションが含まれている。 本稿では,まずアノテーションと病変の診断ラベルとの相関を解析し,異なるアノテーション源間の一致について検討する。 診断ラベルと非専門的アノテーションの相関は低く, 異なるアノテーションソース間の一致は低い。 次に、アノテーションを付加ラベルとしてマルチタスク学習(MTL)を研究し、MTLを介して最先端の畳み込みニューラルネットワークを改善することができることを示す。 当社のデータセットが、複数のアノテーションやMTLのさらなる研究に利用できることを願っています。 すべてのデータとモデルはgithubで入手できる。

We present ENHANCE, an open dataset with multiple annotations to complement the existing ISIC and PH2 skin lesion classification datasets. This dataset contains annotations of visual ABC (asymmetry, border, colour) features from non-expert annotation sources: undergraduate students, crowd workers from Amazon MTurk and classic image processing algorithms. In this paper we first analyse the correlations between the annotations and the diagnostic label of the lesion, as well as study the agreement between different annotation sources. Overall we find weak correlations of non-expert annotations with the diagnostic label, and low agreement between different annotation sources. We then study multi-task learning (MTL) with the annotations as additional labels, and show that non-expert annotations can improve (ensembles of) state-of-the-art convolutional neural networks via MTL. We hope that our dataset can be used in further research into multiple annotations and/or MTL. All data and models are available on Github: https://github.com/r aumannsr/ENHANCE.
翻訳日:2021-07-28 20:40:57 公開日:2021-07-27
# (参考訳) 連続手話認識のためのマルチスケール局所時間類似融合

Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign Language Recognition ( http://arxiv.org/abs/2107.12762v1 )

ライセンス: CC BY 4.0
Pan Xie, Zhi Cui, Yao Du, Mengyi Zhao, Jianwei Cui, Bin Wang, Xiaohui Hu(参考訳) 連続手話認識 (continuous sign language recognition, cSLR) は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。 手話ビデオフレームと対応する光沢との間に明確なアライメントがないため、細かな光沢レベルの詳細を捉えることが重要である。 過去の作品では、1次元畳み込みネットワーク(1d-cnn)を採用してシーケンシャルフレームを時間的に融合させることが有望である。 しかし、CNNは類似性や異種性によらず、時間的に隣接するフレーム内で局所的に一貫した意味を捉えることができない。 この問題に対処するため,我々は局所的特徴を時間的類似性によって適応的に融合する手法を提案する。 具体的には,マルチスケールの局所的類似性融合ネットワーク (mLTSF-Net) を考案し,(1) 特定のビデオフレームに関して,まず,異なるグルース長に対応するために,複数のスケールの受容領域を持つ類似のエリアを選択する。 2) 時間的整合性を確保するために, 位置認識畳み込みを用いて, フレーム毎に時間的畳み込みを行う。 3) 局所時間的に拡張されたフレームワイズ表現を得るために, コンテンツ依存型アグリゲータを用いて, 様々なスケールの結果を融合する。 rwth-phoenix-weather 2014 datasets(rwth)の実験結果から,我々のモデルが最先端モデルと比較して競争力を発揮できることが分かる。

Continuous sign language recognition (cSLR) is a public significant task that transcribes a sign language video into an ordered gloss sequence. It is important to capture the fine-grained gloss-level details, since there is no explicit alignment between sign video frames and the corresponding glosses. Among the past works, one promising way is to adopt a one-dimensional convolutional network (1D-CNN) to temporally fuse the sequential frames. However, CNNs are agnostic to similarity or dissimilarity, and thus are unable to capture local consistent semantics within temporally neighboring frames. To address the issue, we propose to adaptively fuse local features via temporal similarity for this task. Specifically, we devise a Multi-scale Local-Temporal Similarity Fusion Network (mLTSF-Net) as follows: 1) In terms of a specific video frame, we firstly select its similar neighbours with multi-scale receptive regions to accommodate different lengths of glosses. 2) To ensure temporal consistency, we then use position-aware convolution to temporally convolve each scale of selected frames. 3) To obtain a local-temporally enhanced frame-wise representation, we finally fuse the results of different scales using a content-dependent aggregator. We train our model in an end-to-end fashion, and the experimental results on RWTH-PHOENIX-Weather 2014 datasets (RWTH) demonstrate that our model achieves competitive performance compared with several state-of-the-art models.
翻訳日:2021-07-28 20:27:03 公開日:2021-07-27
# (参考訳) サルコペンピア評価におけるl3スライス局在の深部強化学習 [全文訳有]

Deep Reinforcement Learning for L3 Slice Localization in Sarcopenia Assessment ( http://arxiv.org/abs/2107.12800v1 )

ライセンス: CC BY 4.0
Othmane Laousy, Guillaume Chassagnon, Edouard Oyallon, Nikos Paragios, Marie-Pierre Revel, Maria Vakalopoulou(参考訳) サルコペンシア(sarcopenia)は、筋肉の質量と機能の減少を特徴とする疾患である。 定量的診断法は、第3腰椎領域(L3)の中央を通過するCTスライスと、このレベルの分節筋を局在させることである。 本稿では,L3CTスライスを高精度に局所化するための深部強化学習法を提案する。 本手法は強化学習エージェントに対して,適切な位置を検出するためのインセンティブを与える。 特に、深いqネットワークは、この問題に従うべき最良のポリシーを見つけるように訓練されます。 トレーニングプロセスの可視化は、エージェントが経験豊富な放射線技師のスクロールを模倣していることを示している。 L3ローカライゼーションのための他の最先端のディープラーニング手法に対する広範囲な実験は、限られた量のデータやアノテーションでもうまく機能する手法の優位性を証明している。

Sarcopenia is a medical condition characterized by a reduction in muscle mass and function. A quantitative diagnosis technique consists of localizing the CT slice passing through the middle of the third lumbar area (L3) and segmenting muscles at this level. In this paper, we propose a deep reinforcement learning method for accurate localization of the L3 CT slice. Our method trains a reinforcement learning agent by incentivizing it to discover the right position. Specifically, a Deep Q-Network is trained to find the best policy to follow for this problem. Visualizing the training process shows that the agent mimics the scrolling of an experienced radiologist. Extensive experiments against other state-of-the-art deep learning based methods for L3 localization prove the superiority of our technique which performs well even with limited amount of data and annotations.
翻訳日:2021-07-28 20:25:51 公開日:2021-07-27
# (参考訳) HPTMT: スケーラブルな高性能データ集約フレームワークのためのオペレータベースのアーキテクチャ [全文訳有]

HPTMT: Operator-Based Architecture for ScalableHigh-Perform ance Data-Intensive Frameworks ( http://arxiv.org/abs/2107.12807v1 )

ライセンス: CC BY 4.0
Supun Kamburugamuve, Chathura Widanage, Niranda Perera, Vibhatha Abeykoon, Ahmet Uyar, Thejaka Amila Kanewala, Gregor von Laszewski, and Geoffrey Fox(参考訳) データ集約型アプリケーションは多くのドメインに影響を与え、そのサイズと複雑さは着実に増加し、高性能で使用可能な環境を必要とする。 さまざまなデータサイエンスおよびデータエンジニアリングフレームワークで開発された一連のアイデアを統合する。 彼らはベクトル、行列、テンソル、グラフ、テーブルを含む特定のデータ抽象化に演算子セットを採用する。 私たちの重要なコンセプトは、MPI、HPF(High-Performance Fortran)、NumPy、Pandas、Spark、Modin、PyTorch、TensorFlow、RAPIDS(NVIDIA)、OneAPI(Intel)といったシステムにインスパイアされています。 さらに、python、r、c++、javaなど、ビッグデータ分野で日常的に使用されるさまざまな言語をサポートすることも重要です。 言語に依存しないハイパフォーマンスと相互運用性を実現するために、Apache ArrowとParquetが重要であることに留意する。 本稿では,データ集約型アプリケーションのためのオペレータベースのアーキテクチャであるハイパフォーマンステンソル,行列およびテーブル(hptmt)を提案し,パフォーマンスとユーザビリティの成功に必要な基本原理を明らかにする。 我々は、HPTMTを具現化したソフトウェア環境であるCylonとTwister2の例を使って、これらの原則を説明する。

Data-intensive applications impact many domains, and their steadily increasing size and complexity demands high-performance, highly usable environments. We integrate a set of ideas developed in various data science and data engineering frameworks. They employ a set of operators on specific data abstractions that include vectors, matrices, tensors, graphs, and tables. Our key concepts are inspired from systems like MPI, HPF (High-Performance Fortran), NumPy, Pandas, Spark, Modin, PyTorch, TensorFlow, RAPIDS(NVIDIA), and OneAPI (Intel). Further, it is crucial to support different languages in everyday use in the Big Data arena, including Python, R, C++, and Java. We note the importance of Apache Arrow and Parquet for enabling language agnostic high performance and interoperability. In this paper, we propose High-Performance Tensors, Matrices and Tables (HPTMT), an operator-based architecture for data-intensive applications, and identify the fundamental principles needed for performance and usability success. We illustrate these principles by a discussion of examples using our software environments, Cylon and Twister2 that embody HPTMT.
翻訳日:2021-07-28 20:14:33 公開日:2021-07-27
# (参考訳) 条件付き正規化流を伴う個人生存曲線 [全文訳有]

Individual Survival Curves with Conditional Normalizing Flows ( http://arxiv.org/abs/2107.12825v1 )

ライセンス: CC BY-SA 4.0
Guillaume Ausset, Tom Ciffreo, Francois Portier, Stephan Cl\'emen\c{c}on, Timoth\'ee Papin(参考訳) サバイバル分析(英: Survival analysis)は、疫学、人口統計学、またはアクチュアリ科学における実用的利用に多くの関心を寄せた古典的な統計問題である。 機械学習の観点からの最近の進歩は、個人化医療の台頭によってもたらされた集団研究ではなく、個人ごとの正確な予測に関係している。 本稿では,高度に柔軟かつ個別化された条件付き生存率分布をモデル化する方法として,イベント密度の推定に基づく条件付き正規化フローを提案する。 本稿では,新しい正規化フローの階層的定式化法を用いて,過度に適合することなく,柔軟な条件分布を効率的にフィッティングすることを可能にし,この正規化フロー定式化を検閲設定に効果的に適用できることを示す。 提案手法を合成データセットと4つのオープン医療データセットで実験的に検証し,共通の金融問題の例を示す。

Survival analysis, or time-to-event modelling, is a classical statistical problem that has garnered a lot of interest for its practical use in epidemiology, demographics or actuarial sciences. Recent advances on the subject from the point of view of machine learning have been concerned with precise per-individual predictions instead of population studies, driven by the rise of individualized medicine. We introduce here a conditional normalizing flow based estimate of the time-to-event density as a way to model highly flexible and individualized conditional survival distributions. We use a novel hierarchical formulation of normalizing flows to enable efficient fitting of flexible conditional distributions without overfitting and show how the normalizing flow formulation can be efficiently adapted to the censored setting. We experimentally validate the proposed approach on a synthetic dataset as well as four open medical datasets and an example of a common financial problem.
翻訳日:2021-07-28 19:51:41 公開日:2021-07-27
# (参考訳) フェア表現学習のための逆積自動エンコーダ [全文訳有]

Adversarial Stacked Auto-Encoders for Fair Representation Learning ( http://arxiv.org/abs/2107.12826v1 )

ライセンス: CC BY 4.0
Patrik Joslin Kenfack, Adil Mehmood Khan, Rasheed Hussain, S.M. Ahsan Kazmi,(参考訳) 最終目標として正確性のみを備えた機械学習モデルのトレーニングは、データに埋め込まれた偏見と差別的行動を促進する可能性がある。 1つの解決策は、特定の公正度指標を満たす潜在表現を学習することである。 公正な表現空間にデータをマッピングするために異なるタイプの学習手法が用いられる。 主な目的は、下流タスクのユーザビリティを維持しながら、フェアネスメトリックでよくスコアされるデータの潜在表現を学習することである。 本稿では,データ表現の異なるレベルを活用し,学習表現の公平性境界を厳格化するための,新しい公平表現学習手法を提案する。 その結果、異なる自動エンコーダを積み重ね、異なる潜在空間でフェアネスを強制すると、他の既存手法と比較してフェアネスが向上することがわかった。

Training machine learning models with the only accuracy as a final goal may promote prejudices and discriminatory behaviors embedded in the data. One solution is to learn latent representations that fulfill specific fairness metrics. Different types of learning methods are employed to map data into the fair representational space. The main purpose is to learn a latent representation of data that scores well on a fairness metric while maintaining the usability for the downstream task. In this paper, we propose a new fair representation learning approach that leverages different levels of representation of data to tighten the fairness bounds of the learned representation. Our results show that stacking different auto-encoders and enforcing fairness at different latent spaces result in an improvement of fairness compared to other existing approaches.
翻訳日:2021-07-28 19:31:50 公開日:2021-07-27
# (参考訳) 脳ネットワークに学習を埋め込むグラフオートエンコーダと大うつ病識別 [全文訳有]

Graph Autoencoders for Embedding Learning in Brain Networks and Major Depressive Disorder Identification ( http://arxiv.org/abs/2107.12838v1 )

ライセンス: CC0 1.0
Fuad Noman, Chee-Ming Ting, Hakmook Kang, Raphael C.-W. Phan, Brian D. Boyd, Warren D. Taylor, and Hernando Ombao(参考訳) 脳機能接続(fc)は、様々な神経精神疾患を同定するためのバイオマーカーである。 ディープニューラルネットワーク(DNN)のコネクトームに基づく分類への応用は主に、通常のユークリッド格子上の入力接続行列を用いた従来の畳み込みニューラルネットワークに依存している。 本稿では,大うつ病(MDD)における機能的磁気共鳴画像(fMRI)由来の脳ネットワークを分類するために,非ユークリッド情報を用いたグラフ深層学習フレームワークを提案する。 グラフ畳み込みネットワーク(gcns)に基づく新しいグラフオートエンコーダ(gae)アーキテクチャを設計し,大規模fmriネットワークの位相構造とノード内容を低次元の潜在表現に組み込む。 ネットワーク構築において、fMRIデータから高次元FCメトリクスを効率的に推定するために、Ledoit-Wolf(LDW)収縮法を用いる。 グラフ組込み学習では教師なしと教師なしの両方のアプローチを検討する。 学習された埋め込みは、健康的な制御からMDDを識別するために、深層完全接続ニューラルネットワーク(FCNN)の機能入力として使用される。 43名の被験者による静止状態fMRI MDDデータセットを用いて評価した結果,提案したGAE-FCNNモデルは,脳コネクトーム分類の最先端DNN法を著しく上回り,LDW-FC測定値をノード特性として72.50%の精度を達成した。 GAEによって学習されたfMRI FCネットワークのグラフ埋め込みはまた、MDDとHCの明らかなグループ差を明らかにした。 本稿では,脳障害診断のための識別情報を提供するために,脳ネットワークへの学習グラフ埋め込みの実現可能性を示す。

Brain functional connectivity (FC) reveals biomarkers for identification of various neuropsychiatric disorders. Recent application of deep neural networks (DNNs) to connectome-based classification mostly relies on traditional convolutional neural networks using input connectivity matrices on a regular Euclidean grid. We propose a graph deep learning framework to incorporate the non-Euclidean information about graph structure for classifying functional magnetic resonance imaging (fMRI)- derived brain networks in major depressive disorder (MDD). We design a novel graph autoencoder (GAE) architecture based on the graph convolutional networks (GCNs) to embed the topological structure and node content of large-sized fMRI networks into low-dimensional latent representations. In network construction, we employ the Ledoit-Wolf (LDW) shrinkage method to estimate the high-dimensional FC metrics efficiently from fMRI data. We consider both supervised and unsupervised approaches for the graph embedded learning. The learned embeddings are then used as feature inputs for a deep fully-connected neural network (FCNN) to discriminate MDD from healthy controls. Evaluated on a resting-state fMRI MDD dataset with 43 subjects, results show that the proposed GAE-FCNN model significantly outperforms several state-of-the-art DNN methods for brain connectome classification, achieving accuracy of 72.50% using the LDW-FC metrics as node features. The graph embeddings of fMRI FC networks learned by the GAE also reveal apparent group differences between MDD and HC. Our new framework demonstrates feasibility of learning graph embeddings on brain networks to provide discriminative information for diagnosis of brain disorders.
翻訳日:2021-07-28 19:20:34 公開日:2021-07-27
# (参考訳) Coarse to Fine: Adversarial Scoring Networkによるドメイン適応型クラウドカウント [全文訳有]

Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network ( http://arxiv.org/abs/2107.12858v1 )

ライセンス: CC BY 4.0
Zhikang Zou, Xiaoye Qu, Pan Zhou, Shuangjie Xu, Xiaoqing Ye, Wenhao Wu, Jin Ye(参考訳) 近年の深層ネットワークは, 様々な産業用途で注目を集める重要な課題である, 群集カウントの高機能化を確実に実証している。 このような進歩にもかかわらず、訓練されたデータ依存モデルは通常、固有のドメインシフトのため、見当たらないシナリオにうまく一般化できない。 そこで本研究では,ドメイン間のギャップを粗さから細粒度に徐々に橋渡しする,新しい対向スコアリングネットワーク(ASNet)を提案する。 具体的には,大域的および局所的特徴空間の両面から,大域的および局所的特徴空間の両面から,ソースドメインをターゲットに近づけるための二項識別器戦略を設計する。 したがって、2つの領域間の分布は概ね整列することができる。 粒度の細かい段階では,粗いステージから派生した生成確率に基づいて,複数のレベルから対象とするソースサンプルの類似度を評価することにより,ソース特性の伝達可能性を検討する。 これらの階層的スコアにより、転送可能なソース特徴を適切に選択し、適応過程における知識伝達を強化する。 粒度の粗い設計により、ドメインの不一致から引き起こされる一般化ボトルネックを効果的に軽減することができる。 3組のマイグレーション実験により,提案手法は主要な教師なし手法と比較して最先端の計数性能を実現することが示された。

Recent deep networks have convincingly demonstrated high capability in crowd counting, which is a critical task attracting widespread attention due to its various industrial applications. Despite such progress, trained data-dependent models usually can not generalize well to unseen scenarios because of the inherent domain shift. To facilitate this issue, this paper proposes a novel adversarial scoring network (ASNet) to gradually bridge the gap across domains from coarse to fine granularity. In specific, at the coarse-grained stage, we design a dual-discriminator strategy to adapt source domain to be close to the targets from the perspectives of both global and local feature space via adversarial learning. The distributions between two domains can thus be aligned roughly. At the fine-grained stage, we explore the transferability of source characteristics by scoring how similar the source samples are to target ones from multiple levels based on generative probability derived from coarse stage. Guided by these hierarchical scores, the transferable source features are properly selected to enhance the knowledge transfer during the adaptation process. With the coarse-to-fine design, the generalization bottleneck induced from the domain discrepancy can be effectively alleviated. Three sets of migration experiments show that the proposed methods achieve state-of-the-art counting performance compared with major unsupervised methods.
翻訳日:2021-07-28 19:02:05 公開日:2021-07-27
# (参考訳) rgl-net:プログレッシブパートアセンブリのためのリカレントグラフ学習フレームワーク [全文訳有]

RGL-NET: A Recurrent Graph Learning framework for Progressive Part Assembly ( http://arxiv.org/abs/2107.12859v1 )

ライセンス: CC0 1.0
Abhinav Narayan Harish, Rajendra Nagar and Shanmuganathan Raman(参考訳) オブジェクトの自律的な組み立ては、ロボット工学と3dコンピュータビジョンにおいて不可欠なタスクである。 ロボット工学において、運動計画、アクチュエータ制御、障害物回避の問題として広く研究されている。 しかし、構造的変形に頑健なアセンブリのための汎用フレームワークを開発する作業は比較的未定である。 本研究では,パート間関係とパートポーズの漸進的更新を考慮したグラフ学習フレームワークを用いてこの問題に対処する。 我々のネットワークは、予め組み立てた部品を考慮に入れれば、形状構造のより妥当な予測を学べる。 現在の最先端のネットワークと比較すると、パートの精度は最大10%向上し、partnetデータセットの接続精度は最大15%向上している。 さらに、得られた潜在空間は、ポイントクラウドコンポーネントからの形状回復のようなエキサイティングな応用を促進する。 設計選択を正当化し,提案フレームワークの有効性を実証するために,広範な実験を行う。

Autonomous assembly of objects is an essential task in robotics and 3D computer vision. It has been studied extensively in robotics as a problem of motion planning, actuator control and obstacle avoidance. However, the task of developing a generalized framework for assembly robust to structural variants remains relatively unexplored. In this work, we tackle this problem using a recurrent graph learning framework considering inter-part relations and the progressive update of the part pose. Our network can learn more plausible predictions of shape structure by accounting for priorly assembled parts. Compared to the current state-of-the-art, our network yields up to 10% improvement in part accuracy and up to 15% improvement in connectivity accuracy on the PartNet dataset. Moreover, our resulting latent space facilitates exciting applications such as shape recovery from the point-cloud components. We conduct extensive experiments to justify our design choices and demonstrate the effectiveness of the proposed framework.
翻訳日:2021-07-28 18:46:27 公開日:2021-07-27
# (参考訳) 線形混合モデルの部分集合選択 [全文訳有]

Subset selection for linear mixed models ( http://arxiv.org/abs/2107.12890v1 )

ライセンス: CC BY 4.0
Daniel R. Kowal(参考訳) 線形混合モデル(LMM)は、グループ化、クラスタ化、マルチレベルデータなどの構造的依存を伴う回帰分析のための道具である。 しかし、この構造的依存を考慮に入れながら、共変量の選択は課題である。 LMMを用いた部分集合選択のためのベイズ決定解析を導入する。 構造的依存を組み込んだマハラノビス損失関数を用いて、共変量の任意の部分集合と任意のベイズ LMM の下での最適線型作用を導出する。 重要なことに、これらの作用は基底となるベイズ LMM から縮退または正則化と不確実性定量化を継承する。 しばしば不安定で情報内容に制限のある単一の"ベスト"サブセットを選択するのではなく、"ベスト"サブセットの予測能力にほぼ匹敵する、許容可能なサブセットファミリを収集します。 許容されるファミリーは、最小のメンバとキー変数の重要度によって要約される。 よりスケーラブルな計算のために、カスタマイズされたサブセット検索とサンプル外近似アルゴリズムが提供される。 これらのツールはシミュレーションデータおよび縦型物理活動データセットに適用され、どちらも優れた予測、推定、選択能力を示す。

Linear mixed models (LMMs) are instrumental for regression analysis with structured dependence, such as grouped, clustered, or multilevel data. However, selection among the covariates--while accounting for this structured dependence--remains a challenge. We introduce a Bayesian decision analysis for subset selection with LMMs. Using a Mahalanobis loss function that incorporates the structured dependence, we derive optimal linear actions for any subset of covariates and under any Bayesian LMM. Crucially, these actions inherit shrinkage or regularization and uncertainty quantification from the underlying Bayesian LMM. Rather than selecting a single "best" subset, which is often unstable and limited in its information content, we collect the acceptable family of subsets that nearly match the predictive ability of the "best" subset. The acceptable family is summarized by its smallest member and key variable importance metrics. Customized subset search and out-of-sample approximation algorithms are provided for more scalable computing. These tools are applied to simulated data and a longitudinal physical activity dataset, and in both cases demonstrate excellent prediction, estimation, and selection ability.
翻訳日:2021-07-28 18:34:19 公開日:2021-07-27
# (参考訳) 臨床概念埋め込みによる電子健康記録の伝達学習 [全文訳有]

Transfer Learning in Electronic Health Records through Clinical Concept Embedding ( http://arxiv.org/abs/2107.12919v1 )

ライセンス: CC BY 4.0
Jose Roberto Ayala Solares, Yajie Zhu, Abdelaali Hassaine, Shishir Rao, Yikuan Li, Mohammad Mamouei, Dexter Canoy, Kazem Rahimi, Gholamreza Salimi-Khorshidi(参考訳) ディープラーニングモデルは、データのいくつかの重要な特性をキャプチャできる学習表現において、大きな可能性を秘めています。 異なる学習タスク間の共通性を利用して、あるタスクから別のタスクに知識を転送するのです。 電子健康記録(EHR、Electronic Health Record)研究は、医療概念(疾患や医薬品など)の臨床的に意味のある表現を学習するために使われる多くの深層学習技術を目撃した分野の1つである。 この成長にもかかわらず、そのような学習された表現(あるいは埋め込み)をベンチマークして評価するアプローチは、過小評価されている。 本研究の目的は,(1)3100万人の患者から得られた包括的EHRデータに基づいて,最も顕著な疾患埋め込み技術をトレーニングすること,(2)これらの埋め込みを評価するために質的,定量的な評価手法を採用すること,(3)移行学習のための事前訓練された疾患埋め込みを提供することである。 本研究は臨床概念埋め込み評価のための最初の包括的アプローチであり,任意の埋め込み技術および任意のehr概念に適用できる。

Deep learning models have shown tremendous potential in learning representations, which are able to capture some key properties of the data. This makes them great candidates for transfer learning: Exploiting commonalities between different learning tasks to transfer knowledge from one task to another. Electronic health records (EHR) research is one of the domains that has witnessed a growing number of deep learning techniques employed for learning clinically-meaningfu l representations of medical concepts (such as diseases and medications). Despite this growth, the approaches to benchmark and assess such learned representations (or, embeddings) is under-investigated; this can be a big issue when such embeddings are shared to facilitate transfer learning. In this study, we aim to (1) train some of the most prominent disease embedding techniques on a comprehensive EHR data from 3.1 million patients, (2) employ qualitative and quantitative evaluation techniques to assess these embeddings, and (3) provide pre-trained disease embeddings for transfer learning. This study can be the first comprehensive approach for clinical concept embedding evaluation and can be applied to any embedding techniques and for any EHR concept.
翻訳日:2021-07-28 18:12:31 公開日:2021-07-27
# (参考訳) ドイツのニュース見出しにおける感情刺激検出 [全文訳有]

Emotion Stimulus Detection in German News Headlines ( http://arxiv.org/abs/2107.12920v1 )

ライセンス: CC BY-SA 4.0
{Bao Minh} {Doan Dang} and Laura Oberl\"ander and Roman Klinger(参考訳) 感情刺激抽出は、感情表現の背後にある原因の記述をテキストから識別することに焦点を当てた感情分析のきめ細かいサブタスクである(例えば、"i am happy that i passed my examination"という文では、"passed my examination"というフレーズが刺激に対応する)。 以前の研究は主にマンダラン語と英語に焦点を合わせており、ドイツ語のリソースやモデルはない。 この研究のギャップを埋めるために、2006年のドイツ語ニュースの見出しに感情が注がれたコーパスと、刺激句の注釈が付いた811のインスタンスを開発した。 このようなコーパス作成作業は時間と費用がかかることから,既存のGoodNewsEveryone(GNE )コーパスを機械翻訳ドイツ語版に投影するアプローチも検討している。 条件付き確率場 (crf) モデルの性能を多言語 xlm-roberta (xlm-r) モデルと比較した。 以上の結果から,ドイツのコーパスを用いたトレーニングはプロジェクションよりもF1スコアが高いことがわかった。 XLM-Rの実験はそれぞれのCRFよりも優れていた。

Emotion stimulus extraction is a fine-grained subtask of emotion analysis that focuses on identifying the description of the cause behind an emotion expression from a text passage (e.g., in the sentence "I am happy that I passed my exam" the phrase "passed my exam" corresponds to the stimulus.). Previous work mainly focused on Mandarin and English, with no resources or models for German. We fill this research gap by developing a corpus of 2006 German news headlines annotated with emotions and 811 instances with annotations of stimulus phrases. Given that such corpus creation efforts are time-consuming and expensive, we additionally work on an approach for projecting the existing English GoodNewsEveryone (GNE) corpus to a machine-translated German version. We compare the performance of a conditional random field (CRF) model (trained monolingually on German and cross-lingually via projection) with a multilingual XLM-RoBERTa (XLM-R) model. Our results show that training with the German corpus achieves higher F1 scores than projection. Experiments with XLM-R outperform their respective CRF counterparts.
翻訳日:2021-07-28 17:26:49 公開日:2021-07-27
# (参考訳) Angel's Girl for Blind Painters: Multimodal Evaluation Approach による効率的な絵画ナビゲーションシステム [全文訳有]

Angel's Girl for Blind Painters: an Efficient Painting Navigation System Validated by Multimodal Evaluation Approach ( http://arxiv.org/abs/2107.12921v1 )

ライセンス: CC BY 4.0
Hang Liu, Menghan Hu, Yuzhen Chen, Qingli Li, Guangtao Zhai, Simon X. Yang, Xiao-Ping Zhang, Xiaokang Yang(参考訳) 絵が大好きだが残念なことに視覚障害のある人にとっては、絵筆を持って作品を作るのは非常に難しい作業だ。 この特別なグループの人々は、Leonardo da Vinciのように、自分の才能を生かし、フル活用するために、絵筆を手に入れることを熱望しています。 そこで,このギャップを最大限に橋渡しするために,視覚障害者の絵画制作を支援する絵画ナビゲーションシステムを提案する。 提案システムは,認知システムと指導システムから構成される。 このシステムはQRコードに基づく描画盤位置決め、ターゲット検出に基づくブラシナビゲーション、ブッシュリアルタイム位置決めを採用する。 本稿では,音声に基づく人間とコンピュータのインタラクションと,簡易かつ効率的な位置情報符号化規則を用いる。 また,ブラシが目標に達するか否かを効率的に判断するための基準を考案する。 実験結果によると, テスト担当者の顔から抽出した熱曲線は, ブラインドフォールドやブラインドフォールドのテスタからも比較的よく受け入れられていることがわかった。 1sの早い頻度で、絵画ナビゲーションシステムは、sdが89%、sdが8.37%、オーバーフロー度が347%、sdが162.14%で最高の性能を発揮する。 一方、優れたブラシ先端軌跡は74%、相対移動距離は4.21、SDは2.51である。 この研究は、盲人が手のブラシを通して世界を感じることは実践可能であることを示している。 将来的には、Angle's Eyesを携帯電話に展開して、よりポータブルにする予定です。 提案されたペインティングナビゲーションシステムのデモビデオは、https://doi.org/10.6 084/m9.figshare.9760 004.v1で見ることができる。

For people who ardently love painting but unfortunately have visual impairments, holding a paintbrush to create a work is a very difficult task. People in this special group are eager to pick up the paintbrush, like Leonardo da Vinci, to create and make full use of their own talents. Therefore, to maximally bridge this gap, we propose a painting navigation system to assist blind people in painting and artistic creation. The proposed system is composed of cognitive system and guidance system. The system adopts drawing board positioning based on QR code, brush navigation based on target detection and bush real-time positioning. Meanwhile, this paper uses human-computer interaction on the basis of voice and a simple but efficient position information coding rule. In addition, we design a criterion to efficiently judge whether the brush reaches the target or not. According to the experimental results, the thermal curves extracted from the faces of testers show that it is relatively well accepted by blindfolded and even blind testers. With the prompt frequency of 1s, the painting navigation system performs best with the completion degree of 89% with SD of 8.37% and overflow degree of 347% with SD of 162.14%. Meanwhile, the excellent and good types of brush tip trajectory account for 74%, and the relative movement distance is 4.21 with SD of 2.51. This work demonstrates that it is practicable for the blind people to feel the world through the brush in their hands. In the future, we plan to deploy Angle's Eyes on the phone to make it more portable. The demo video of the proposed painting navigation system is available at: https://doi.org/10.6 084/m9.figshare.9760 004.v1.
翻訳日:2021-07-28 17:11:24 公開日:2021-07-27
# (参考訳) gBERT -- アイルランド語モデル [全文訳有]

gaBERT -- an Irish Language Model ( http://arxiv.org/abs/2107.12930v1 )

ライセンス: CC BY 4.0
James Barry, Joachim Wagner, Lauren Cassidy, Alan Cowap, Teresa Lynn, Abigail Walsh, M\'iche\'al J. \'O Meachair, Jennifer Foster(参考訳) BERTファミリーのニューラルネットワークモデルは、多くの自然言語処理タスクをうまく一般化できるリッチなコンテキスト依存トークンエンコーディングを備えたテキストのシーケンスを提供する能力によって、人気を博している。 50以上の言語をカバーする120以上の単言語bertモデルと104言語で訓練された多言語モデルがリリースされた。 アイルランド語のための単言語BERTモデルであるgaBERTを紹介する。 我々はgaBERTモデルを多言語BERTと比較し、gaBERTが下流の構文解析タスクにより良い表現を提供することを示す。 また,フィルタリング基準,語彙サイズ,サブワードトークン化モデルの選択が下流のパフォーマンスにどのように影響するかを示す。 gBERTと関連するコードをコミュニティにリリースします。

The BERT family of neural language models have become highly popular due to their ability to provide sequences of text with rich context-sensitive token encodings which are able to generalise well to many Natural Language Processing tasks. Over 120 monolingual BERT models covering over 50 languages have been released, as well as a multilingual model trained on 104 languages. We introduce, gaBERT, a monolingual BERT model for the Irish language. We compare our gaBERT model to multilingual BERT and show that gaBERT provides better representations for a downstream parsing task. We also show how different filtering criteria, vocabulary size and the choice of subword tokenisation model affect downstream performance. We release gaBERT and related code to the community.
翻訳日:2021-07-28 16:54:27 公開日:2021-07-27
# (参考訳) 非名詞文脈下でのクワッドコプター姿勢制御のための形式的性能指標を用いた強化学習 [全文訳有]

Reinforcement Learning with Formal Performance Metrics for Quadcopter Attitude Control under Non-nominal Contexts ( http://arxiv.org/abs/2107.12942v1 )

ライセンス: CC BY 4.0
Nicola Bernini, Mikhail Bessa, R\'emi Delmas, Arthur Gold, Eric Goubault, Romain Pennec, Sylvie Putot, Fran\c{c}ois Sillion(参考訳) クワッドコプターの姿勢制御装置の事例を広く議論し, 制御器の設計における強化学習手法を検討する。 本研究は, 運動障害や風洞など, 名目上および非公称条件下でのクレーフフリー2.0の力学モデルから始めることで, われわれのアプローチを再現できるすべての詳細を提示する。 我々は,車両の挙動を定量的に評価し,制御器の性能を測定するための信号時間論理の頑健な形式を開発する。 この論文は、私たちが導入したさまざまなパフォーマンス指標の観点から、トレーニングアルゴリズム、ニューラルネットアーキテクチャ、ハイパーパラメータ、観察空間の選択肢を詳しく説明している。 得られた制御器のロバスト性について論じる。1つのローターの動力の部分的損失と風洞の巻き上げと、強化学習による実用的な制御器設計の結論の導出による仕上げについて述べる。

We explore the reinforcement learning approach to designing controllers by extensively discussing the case of a quadcopter attitude controller. We provide all details allowing to reproduce our approach, starting with a model of the dynamics of a crazyflie 2.0 under various nominal and non-nominal conditions, including partial motor failures and wind gusts. We develop a robust form of a signal temporal logic to quantitatively evaluate the vehicle's behavior and measure the performance of controllers. The paper thoroughly describes the choices in training algorithms, neural net architecture, hyperparameters, observation space in view of the different performance metrics we have introduced. We discuss the robustness of the obtained controllers, both to partial loss of power for one rotor and to wind gusts and finish by drawing conclusions on practical controller design by reinforcement learning.
翻訳日:2021-07-28 16:33:19 公開日:2021-07-27
# (参考訳) ストレス誘発シナリオにおける覚醒の生理的適応金標準 [全文訳有]

A Physiologically-adap ted Gold Standard for Arousal During a Stress Induced Scenario ( http://arxiv.org/abs/2107.12964v1 )

ライセンス: CC BY 4.0
Alice Baird, Lukas Stappen, Lukas Christ, Lea Schumann, Eva-Maria Me{\ss}ner, Bj\"orn W. Schuller(参考訳) 感情は本質的に主観的な精神生理的人間状態であり、連続的な感情に対する合意されたアップオン表現(金の標準)を生成するには、複数の人間の注釈の時間とコストを要する。 この文献には、生理的信号が感情の状態、特に覚醒状態の十分な客観的マーカーであるという強い証拠がある。 本研究では,ストレス誘発シナリオ(トリアー・ソーシャル・ストレス・テスト)において,連続的な感情と生理的シグナル(心拍数毎分(bpm),電極活動(eda),呼吸速度(respiration-rate)を含むデータセットを活用した。 我々は,これらの生理的信号を目標として活用し,様々な音声,ビデオ,テキストに基づく特徴から学習することの利点を探るために,長期記憶と反復的ニューラルネットワークを用いた。 我々は、現在最先端の MuSe-Toolbox を利用して、目標信号の融合時にアノテーション遅延とラッター間合意重み付けの両方を考慮する。 共振器相関係数 (CCC) の改善は, EDA を刺激的に融合させる際の特徴集合間で見られ, 刺激のみの金標準値と比較した。 さらに、BERTベースのテキスト特徴の結果は、覚醒とすべての生理的信号に改善され、.3344 CCCと、覚醒のみに.2118 CCCが得られた。 マルチモーダル・フュージョンはまた、オーディオとビデオの機能を.6157 CCCで改善し、興奮とEDAとBPMを認識する。

Emotion is an inherently subjective psychophysiological human-state and to produce an agreed-upon representation (gold standard) for continuous emotion requires a time-consuming and costly training procedure of multiple human annotators. There is strong evidence in the literature that physiological signals are sufficient objective markers for states of emotion, particularly arousal. In this contribution, we utilise a dataset which includes continuous emotion and physiological signals - Heartbeats per Minute (BPM), Electrodermal Activity (EDA), and Respiration-rate - captured during a stress induced scenario (Trier Social Stress Test). We utilise a Long Short-Term Memory, Recurrent Neural Network to explore the benefit of fusing these physiological signals with arousal as the target, learning from various audio, video, and textual based features. We utilise the state-of-the-art MuSe-Toolbox to consider both annotation delay and inter-rater agreement weighting when fusing the target signals. An improvement in Concordance Correlation Coefficient (CCC) is seen across features sets when fusing EDA with arousal, compared to the arousal only gold standard results. Additionally, BERT-based textual features' results improved for arousal plus all physiological signals, obtaining up to .3344 CCC compared to .2118 CCC for arousal only. Multimodal fusion also improves overall CCC with audio plus video features obtaining up to .6157 CCC to recognize arousal plus EDA and BPM.
翻訳日:2021-07-28 15:56:46 公開日:2021-07-27
# (参考訳) 感情成分過程モデルを考慮した感情認識 [全文訳有]

Emotion Recognition under Consideration of the Emotion Component Process Model ( http://arxiv.org/abs/2107.12895v1 )

ライセンス: CC BY-SA 4.0
Felix Casel and Amelie Heindl and Roman Klinger(参考訳) テキストにおける感情分類は通常、言語単位と感情を関連付けることを学ぶニューラルネットワークモデルで実行される。 これはしばしば優れた予測性能をもたらすが、様々なドメインでどのように感情が伝達されるかを理解するのに限られた程度しか役に立たない。 Scherer (2005)による感情成分プロセスモデル(CPM)は、感情コミュニケーションを説明する興味深いアプローチである。 感情は、主観的感情、認知的評価、表現、生理的身体反応、動機づけ的行動傾向といった出来事に対する反応として、様々なサブコンポーネントの協調過程である。 感情は生理的身体反応("He was trembling")や表情("She smiled")などを記述することで表現することができる。 既存の文献やTwitterの感情コーパスに感情成分のクラスを付与し、Twitter上での感情は、主に出来事の説明や主観的な感情の報告によって表現されるのに対して、文献では、著者はキャラクターが何をしているかを記述し、読者に解釈を委ねることを好む。 さらに、CPMをマルチタスク学習モデルに含め、これが感情分類をサポートすることに気付きました。 注釈付きコーパスはhttps://www.ims.uni- stuttgart.de/data/em otion.comで入手できる。

Emotion classification in text is typically performed with neural network models which learn to associate linguistic units with emotions. While this often leads to good predictive performance, it does only help to a limited degree to understand how emotions are communicated in various domains. The emotion component process model (CPM) by Scherer (2005) is an interesting approach to explain emotion communication. It states that emotions are a coordinated process of various subcomponents, in reaction to an event, namely the subjective feeling, the cognitive appraisal, the expression, a physiological bodily reaction, and a motivational action tendency. We hypothesize that these components are associated with linguistic realizations: an emotion can be expressed by describing a physiological bodily reaction ("he was trembling"), or the expression ("she smiled"), etc. We annotate existing literature and Twitter emotion corpora with emotion component classes and find that emotions on Twitter are predominantly expressed by event descriptions or subjective reports of the feeling, while in literature, authors prefer to describe what characters do, and leave the interpretation to the reader. We further include the CPM in a multitask learning model and find that this supports the emotion categorization. The annotated corpora are available at https://www.ims.uni- stuttgart.de/data/em otion.
翻訳日:2021-07-28 15:14:07 公開日:2021-07-27
# ロバストな視覚的質問応答のためのグリーディグラデーションアンサンブル

Greedy Gradient Ensemble for Robust Visual Question Answering ( http://arxiv.org/abs/2107.12651v1 )

ライセンス: Link先を確認
Xinzhe Han, Shuhui Wang, Chi Su, Qingming Huang, Qi Tian(参考訳) 言語バイアス(英語: language bias)は、視覚質問応答(vqa)において重要な問題である。 その結果,分布外データの性能低下と視覚的説明の不十分さに悩まされる。 既存のロバストなVQA手法の実験分析に基づいて、分散バイアスとショートカットバイアスという2つの側面から生じるVQAの言語バイアスを強調する。 さらに,非バイアスベースモデル学習のための複数のバイアスモデルを組み合わせた新しいデバイアスフレームワーク,グリーディグラデーションアンサンブル(gge)を提案する。 欲張り戦略により、GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルをより注意する。 提案手法は,付加アノテーションを使わずに,データセットVQA-CPの診断における最先端の性能を実現する。

Language bias is a critical issue in Visual Question Answering (VQA), where models often exploit dataset biases for the final decision without considering the image information. As a result, they suffer from performance drop on out-of-distribution data and inadequate visual explanation. Based on experimental analysis for existing robust VQA methods, we stress the language bias in VQA that comes from two aspects, i.e., distribution bias and shortcut bias. We further propose a new de-bias framework, Greedy Gradient Ensemble (GGE), which combines multiple biased models for unbiased base model learning. With the greedy strategy, GGE forces the biased models to over-fit the biased data distribution in priority, thus makes the base model pay more attention to examples that are hard to solve by biased models. The experiments demonstrate that our method makes better use of visual information and achieves state-of-the-art performance on diagnosing dataset VQA-CP without using extra annotations.
翻訳日:2021-07-28 14:58:23 公開日:2021-07-27
# Pointer Value Retrieval: ニューラルネットワークの一般化の限界を理解するための新しいベンチマーク

Pointer Value Retrieval: A new benchmark for understanding the limits of neural network generalization ( http://arxiv.org/abs/2107.12580v1 )

ライセンス: Link先を確認
Chiyuan Zhang, Maithra Raghu, Jon Kleinberg, Samy Bengio(参考訳) ディープラーニングの成功は、目に見えないデータに対して有意義な予測を出力するニューラルネットワークの能力 -- 一般化に依存している。 しかし、その批判にもかかわらず、ニューラルネットワークの一般化に関する根本的なオープンな疑問は残る。 ニューラルネットワークは、暗記 – 非常に類似したトレーニング例を見る -- にどの程度依存しているか、そして、データの基礎となる抽象的なルールを人間の知能スタイル推論によって特定できるのか? 本稿では、ニューラルネットワークの一般化の限界を探求する新しいベンチマーク、Pointer Value Retrieval(PVR)タスクを紹介する。 pvrタスクは視覚的かつ象徴的な入力で構成され、それぞれ異なるレベルの難易度を持つが、いずれも単純なルールを持つ。 PVRタスクの入力の一部がポインタとして機能し、入力の異なる部分の位置を与え、値(および出力)を形成する。 我々は、このタスク構造が一般化を理解するための豊富なテストベッドを提供することを実証し、データセットのサイズ、タスク複雑性、モデルアーキテクチャに基づくニューラルネットワークのパフォーマンスに大きなバリエーションを示す実験研究を行った。 位置、値、ポインタールールの相互作用は、分布シフトの導入と機能的複雑性の増加によって、一般化のニュアンステストの開発を可能にする。 これらは微妙な失敗と驚くべき成功の両方を明らかにし、このベンチマークで多くの有望な方向を示唆している。

The successes of deep learning critically rely on the ability of neural networks to output meaningful predictions on unseen data -- generalization. Yet despite its criticality, there remain fundamental open questions on how neural networks generalize. How much do neural networks rely on memorization -- seeing highly similar training examples -- and how much are they capable of human-intelligence styled reasoning -- identifying abstract rules underlying the data? In this paper we introduce a novel benchmark, Pointer Value Retrieval (PVR) tasks, that explore the limits of neural network generalization. While PVR tasks can consist of visual as well as symbolic inputs, each with varying levels of difficulty, they all have a simple underlying rule. One part of the PVR task input acts as a pointer, giving the location of a different part of the input, which forms the value (and output). We demonstrate that this task structure provides a rich testbed for understanding generalization, with our empirical study showing large variations in neural network performance based on dataset size, task complexity and model architecture. The interaction of position, values and the pointer rule also allow the development of nuanced tests of generalization, by introducing distribution shift and increasing functional complexity. These reveal both subtle failures and surprising successes, suggesting many promising directions of exploration on this benchmark.
翻訳日:2021-07-28 14:58:04 公開日:2021-07-27
# 対話状態追跡のための局所信頼性検証によるデュアルスロットセレクタ

Dual Slot Selector via Local Reliability Verification for Dialogue State Tracking ( http://arxiv.org/abs/2107.12578v1 )

ライセンス: Link先を確認
Jinyu Guo, Kai Shuang, Jijie Li and Zihan Wang(参考訳) 対話状態追跡(dst)の目標は、これまでの全ての対話状況から現在の対話状態を予測することである。 既存のアプローチは一般的に、スクラッチから各ターンの対話状態を予測します。 しかし、各ターンのスロットの圧倒的多数は、単に前のターンからスロット値を継承するだけである。 したがって、各ターンで等しくスロットを扱う機構は非効率であるだけでなく、冗長なスロット値の生成のために追加エラーを引き起こす可能性がある。 この問題に対処するため,2段式DSS-DSTを現回対話に基づくデュアルスロットセレクタと,対話履歴に基づくスロット値生成器を考案した。 デュアルスロットセレクタは、スロット値を更新するか、前回からスロット値を継承するかを、(1)それと現在の旋回発話との間に強い関係がある場合、(2)現在の旋回対話を通じて高い信頼性のスロット値を得ることができる場合の2つの側面から決定する。 更新対象のスロットは、ハイブリッドメソッドによって値を更新するためにスロット値ジェネレータに入ることを許可され、他のスロットは前のターンから直接値を継承する。 その結果,MultiWOZ 2.0,MultiWOZ 2.1,MultiWOZ 2.2データセットに対して56.93%,60.73%,58.04% のジョイント精度を実現し,新たな最先端性能を実現した。

The goal of dialogue state tracking (DST) is to predict the current dialogue state given all previous dialogue contexts. Existing approaches generally predict the dialogue state at every turn from scratch. However, the overwhelming majority of the slots in each turn should simply inherit the slot values from the previous turn. Therefore, the mechanism of treating slots equally in each turn not only is inefficient but also may lead to additional errors because of the redundant slot value generation. To address this problem, we devise the two-stage DSS-DST which consists of the Dual Slot Selector based on the current turn dialogue, and the Slot Value Generator based on the dialogue history. The Dual Slot Selector determines each slot whether to update slot value or to inherit the slot value from the previous turn from two aspects: (1) if there is a strong relationship between it and the current turn dialogue utterances; (2) if a slot value with high reliability can be obtained for it through the current turn dialogue. The slots selected to be updated are permitted to enter the Slot Value Generator to update values by a hybrid method, while the other slots directly inherit the values from the previous turn. Empirical results show that our method achieves 56.93%, 60.73%, and 58.04% joint accuracy on MultiWOZ 2.0, MultiWOZ 2.1, and MultiWOZ 2.2 datasets respectively and achieves a new state-of-the-art performance with significant improvements.
翻訳日:2021-07-28 14:57:42 公開日:2021-07-27
# qaデータセットの爆発:質問応答と読み理解のためのnlpリソースの分類

QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension ( http://arxiv.org/abs/2107.12708v1 )

ライセンス: Link先を確認
Anna Rogers, Matt Gardner, and Isabelle Augenstein(参考訳) 近年のNLPにおけるディープラーニングモデルに関する膨大な研究に加えて、モデリングの進捗を追跡するために必要なベンチマークデータセットも数多く研究されている。 質問への回答と読み解きはこの点において特に多作で、過去2年間に80以上の新しいデータセットが登場した。 この研究は、これまでで最大の調査である。 我々は、現在のリソースの様々なフォーマットとドメインの概要を提供し、将来の作業のための現在のlacunaeを強調する。 さらに,「推論型」の現在の分類について考察し,新たな分類法を提案する。 また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。 この研究は、既存のデータの富へのポインタを探す実践者と、新しいリソースに取り組んでいる研究者の両方を対象としている。

Alongside huge volumes of research on deep learning models in NLP in the recent years, there has been also much work on benchmark datasets needed to track modeling progress. Question answering and reading comprehension have been particularly prolific in this regard, with over 80 new datasets appearing in the past two years. This study is the largest survey of the field to date. We provide an overview of the various formats and domains of the current resources, highlighting the current lacunae for future work. We further discuss the current classifications of ``reasoning types" in question answering and propose a new taxonomy. We also discuss the implications of over-focusing on English, and survey the current monolingual resources for other languages and multilingual resources. The study is aimed at both practitioners looking for pointers to the wealth of existing data, and at researchers working on new resources.
翻訳日:2021-07-28 14:57:17 公開日:2021-07-27
# 最寄りの近傍型深層クラスタリングによるソースデータ-教師なし領域適応

Nearest Neighborhood-Based Deep Clustering for Source Data-absent Unsupervised Domain Adaptation ( http://arxiv.org/abs/2107.12585v1 )

ライセンス: Link先を確認
Song Tang, Yan Yang, Zhiyuan Ma, Norman Hendrich, Fanyu Zeng, Shuzhi Sam Ge, Changshui Zhang, Jianwei Zhang(参考訳) unsupervised domain adaptation(uda)の古典的な設定では、ラベル付きソースデータがトレーニングフェーズで利用可能である。 しかし、多くの現実のシナリオでは、プライバシー保護や情報セキュリティといったいくつかの理由から、ソースデータはアクセス不能であり、ソースドメインでトレーニングされたモデルのみが利用可能である。 本稿では,この課題に対する新しい深層クラスタリング手法を提案する。 特徴レベルでの動的クラスタリングを目指して,データ間の幾何学的構造に隠された余分な制約を導入し,プロセスを支援する。 具体的には,scnnh(semantic consistency on the near neighborhood)と呼ばれる幾何学に基づく制約を提案し,それを用いてロバストクラスタリングを奨励する。 この目標を達成するために,各対象データに対して最も近い近傍を構築し,幾何学上の目標を構築することにより,基本クラスタリングユニットとする。 また,よりSCNNHに適合する構造を新たに構築し,セマンティックハイパーアレスト近傍(SHNNH)と命名した。 その後、この手法を新しい幾何学に拡張する。 3つの挑戦的UDAデータセットに対する大規模な実験は、我々の手法が最先端の結果を得ることを示す。 提案手法は,全データセットに対して有意に改善されている(SHNNHを採用すると,大規模データセットでは平均精度が3.0\%以上向上する)。 コードはhttps://github.com/t ntek/N2DCXで入手できる。

In the classic setting of unsupervised domain adaptation (UDA), the labeled source data are available in the training phase. However, in many real-world scenarios, owing to some reasons such as privacy protection and information security, the source data is inaccessible, and only a model trained on the source domain is available. This paper proposes a novel deep clustering method for this challenging task. Aiming at the dynamical clustering at feature-level, we introduce extra constraints hidden in the geometric structure between data to assist the process. Concretely, we propose a geometry-based constraint, named semantic consistency on the nearest neighborhood (SCNNH), and use it to encourage robust clustering. To reach this goal, we construct the nearest neighborhood for every target data and take it as the fundamental clustering unit by building our objective on the geometry. Also, we develop a more SCNNH-compliant structure with an additional semantic credibility constraint, named semantic hyper-nearest neighborhood (SHNNH). After that, we extend our method to this new geometry. Extensive experiments on three challenging UDA datasets indicate that our method achieves state-of-the-art results. The proposed method has significant improvement on all datasets (as we adopt SHNNH, the average accuracy increases by over 3.0\% on the large-scaled dataset). Code is available at https://github.com/t ntek/N2DCX.
翻訳日:2021-07-28 14:56:08 公開日:2021-07-27
# 深層学習アルゴリズムによるリンゴ葉病の同定

Identify Apple Leaf Diseases Using Deep Learning Algorithm ( http://arxiv.org/abs/2107.12598v1 )

ライセンス: Link先を確認
Daping Zhang, Hongyu Yang, Jiayu Cao(参考訳) 農業は国の社会と経済の両方において不可欠な産業である。 しかし、害虫や病気により農業生産が大幅に減少する一方、農業従事者にとってこの災害を避けるための十分な指導は得られていない。 この問題に対処するために,分類モデルを構築し,植物疾患認識にcnnを適用する。 リンゴ葉の3,642枚の画像のデータセットの中で、トレーニング時間を節約するために、コンボリューショナルニューラルネットワーク(CNN)とFastaiフレームワークをベースとした、事前トレーニング済みの画像分類モデルRestnet34を使用する。 全体の分類精度は93.765%である。

Agriculture is an essential industry in the both society and economy of a country. However, the pests and diseases cause a great amount of reduction in agricultural production while there is not sufficient guidance for farmers to avoid this disaster. To address this problem, we apply CNNs to plant disease recognition by building a classification model. Within the dataset of 3,642 images of apple leaves, We use a pre-trained image classification model Restnet34 based on a Convolutional neural network (CNN) with the Fastai framework in order to save the training time. Overall, the accuracy of classification is 93.765%.
翻訳日:2021-07-28 14:55:45 公開日:2021-07-27
# 転校学習による共同創造ダンジョン生成に向けて

Toward Co-creative Dungeon Generation via Transfer Learning ( http://arxiv.org/abs/2107.12533v1 )

ライセンス: Link先を確認
Zisen Zhou and Matthew Guzdial(参考訳) 機械学習による共同制作の手続き的コンテンツ生成(PCGML)は、PCGMLエージェントと人間が協調して出力コンテンツを生成するシステムを指す。 共同創造型PCGMLの限界の1つは、PCGMLエージェントが人間と対話することを学ぶために、共同創造型トレーニングデータが必要であることである。 しかし、このデータを取得するのは難しく、時間がかかる。 本研究では,人間とAIのインタラクションデータの近似と伝達学習を用いて,学習した共創造的知識をゲームから別のゲームに適応させる手法を提案する。 共同創造型ゼルダダンジョンルーム生成のためのこのアプローチについて検討する。

Co-creative Procedural Content Generation via Machine Learning (PCGML) refers to systems where a PCGML agent and a human work together to produce output content. One of the limitations of co-creative PCGML is that it requires co-creative training data for a PCGML agent to learn to interact with humans. However, acquiring this data is a difficult and time-consuming process. In this work, we propose approximating human-AI interaction data and employing transfer learning to adapt learned co-creative knowledge from one game to a different game. We explore this approach for co-creative Zelda dungeon room generation.
翻訳日:2021-07-28 14:55:26 公開日:2021-07-27
# ニューラルネットワーク検証のためのニューラルネットワーク分岐境界

Neural Network Branch-and-Bound for Neural Network Verification ( http://arxiv.org/abs/2107.12855v1 )

ライセンス: Link先を確認
Florian Jaeckle and Jingyue Lu and M. Pawan Kumar(参考訳) 多くの形式的検証方法が統合分岐境界(BaB)の例であることが示されている。 本稿では,効率的な分岐戦略の設計や,より低い境界の計算に使用できる新しい機械学習フレームワークを提案する。 具体的には、グラフ入力として検証したいネットワークを直接扱い、GNN層を前方通過する2つのグラフニューラルネットワーク(GNN)を学習する。 1つのGNNを用いて強い分岐ヒューリスティックな振る舞いをシミュレートし、もう1つは凸緩和の可能な双対解を計算し、有効な下界を与える。 文献で使用されるものよりも難しい新しい検証データセットを提供し、検証のためのアルゴリズム改善をテストするための効果的な代替手段を提供する。 GNNを1つだけ使うと検証時間が短縮されるが、2つのGNNアプローチを組み合わせると最適な性能が得られる。 本フレームワークは,複数の最先端検証手法と比較して,分岐数と様々な畳み込みネットワーク上での検証に要する時間の両方を50%削減する。 さらに,gnnモデルが大規模ネットワーク上でのより強固な特性に十分に一般化していることを示す。

Many available formal verification methods have been shown to be instances of a unified Branch-and-Bound (BaB) formulation. We propose a novel machine learning framework that can be used for designing an effective branching strategy as well as for computing better lower bounds. Specifically, we learn two graph neural networks (GNN) that both directly treat the network we want to verify as a graph input and perform forward-backward passes through the GNN layers. We use one GNN to simulate the strong branching heuristic behaviour and another to compute a feasible dual solution of the convex relaxation, thereby providing a valid lower bound. We provide a new verification dataset that is more challenging than those used in the literature, thereby providing an effective alternative for testing algorithmic improvements for verification. Whilst using just one of the GNNs leads to a reduction in verification time, we get optimal performance when combining the two GNN approaches. Our combined framework achieves a 50\% reduction in both the number of branches and the time required for verification on various convolutional networks when compared to several state-of-the-art verification methods. In addition, we show that our GNN models generalize well to harder properties on larger unseen networks.
翻訳日:2021-07-28 14:55:14 公開日:2021-07-27
# 正当性を考慮したプラグインアルゴリズムの統計的保証

Statistical Guarantees for Fairness Aware Plug-In Algorithms ( http://arxiv.org/abs/2107.12783v1 )

ライセンス: Link先を確認
Drona Khurana, Srinivasan Ravichandran, Sparsh Jain, Narayanan Unny Edakunni(参考訳) フェアネス対応バイナリ分類のためのベイズ最適分類器を推定するプラグインアルゴリズムが(menon & williamson, 2018)提案されている。 しかし、それらのアプローチの統計的有効性は確立されていない。 プラグインアルゴリズムが統計的に一貫性があることを証明する。 また,ベイズ最適分類器の学習に伴う有限サンプル保証をプラグインアルゴリズムにより導出する。 最後に,プラグインアプローチを改良し,機密性の高い2値化機能に関して公平性と差分プライバシを同時に保証するプロトコルを提案する。

A plug-in algorithm to estimate Bayes Optimal Classifiers for fairness-aware binary classification has been proposed in (Menon & Williamson, 2018). However, the statistical efficacy of their approach has not been established. We prove that the plug-in algorithm is statistically consistent. We also derive finite sample guarantees associated with learning the Bayes Optimal Classifiers via the plug-in algorithm. Finally, we propose a protocol that modifies the plug-in approach, so as to simultaneously guarantee fairness and differential privacy with respect to a binary feature deemed sensitive.
翻訳日:2021-07-28 14:54:54 公開日:2021-07-27
# アダプティブストレステストと後方アルゴリズムを用いた高忠実度シミュレーションの故障検出

Finding Failures in High-Fidelity Simulation using Adaptive Stress Testing and the Backward Algorithm ( http://arxiv.org/abs/2107.12940v1 )

ライセンス: Link先を確認
Mark Koren and Ahmed Nassar and Mykel J. Kochenderfer(参考訳) 自律システムの安全性を検証するには、現実のシナリオの変数を適切にキャプチャする高忠実度シミュレータを使用する必要がある。 しかし、一般的に、失敗のシミュレーションシナリオの空間を徹底的に探索することは不可能である。 adaptive stress testing(アダプティブストレステスト、ast)は、強化学習を使用してシステムの最も可能性の高い障害を見つける手法である。 深い強化学習の解法を持つASTは、様々なシステムで障害を見つけるのに有効であることが示されている。 このアプローチは一般的に、高忠実度シミュレーターを使用する場合、非常にコストがかかる多くのシミュレーションを実行する。 効率を向上させるために,まず低忠実度シミュレータの故障を検出する手法を提案する。 次に、単一の専門家によるデモンストレーションを使用してディープニューラルネットワークポリシをトレーニングする後方アルゴリズムを使用して、低忠実度障害を高忠実度に適応する。 我々は、時間離散化など、低忠実度と高忠実度シミュレータの違いを示す一連の自動運転車検証ケーススタディを作成しました。 我々は,この新しいASTアプローチが,ASTを直接高忠実度で実行する場合に必要となるよりもはるかに少ない高忠実度シミュレーションステップで障害を見つけることができることを,さまざまなケーススタディで実証した。 概念実証として、自動運転車の故障を見つけるための最先端の高性能シミュレータであるNVIDIAのDriveSimシミュレータ上でASTを実証する。

Validating the safety of autonomous systems generally requires the use of high-fidelity simulators that adequately capture the variability of real-world scenarios. However, it is generally not feasible to exhaustively search the space of simulation scenarios for failures. Adaptive stress testing (AST) is a method that uses reinforcement learning to find the most likely failure of a system. AST with a deep reinforcement learning solver has been shown to be effective in finding failures across a range of different systems. This approach generally involves running many simulations, which can be very expensive when using a high-fidelity simulator. To improve efficiency, we present a method that first finds failures in a low-fidelity simulator. It then uses the backward algorithm, which trains a deep neural network policy using a single expert demonstration, to adapt the low-fidelity failures to high-fidelity. We have created a series of autonomous vehicle validation case studies that represent some of the ways low-fidelity and high-fidelity simulators can differ, such as time discretization. We demonstrate in a variety of case studies that this new AST approach is able to find failures with significantly fewer high-fidelity simulation steps than are needed when just running AST directly in high-fidelity. As a proof of concept, we also demonstrate AST on NVIDIA's DriveSim simulator, an industry state-of-the-art high-fidelity simulator for finding failures in autonomous vehicles.
翻訳日:2021-07-28 14:54:46 公開日:2021-07-27
# NNKポリトープ補間による検証セットのないチャネルワイズ早期停止

Channel-Wise Early Stopping without a Validation Set via NNK Polytope Interpolation ( http://arxiv.org/abs/2107.12972v1 )

ライセンス: Link先を確認
David Bonet, Antonio Ortega, Javier Ruiz-Hidalgo, Sarath Shekkizhar(参考訳) 最先端のニューラルネットワークアーキテクチャはサイズを縮小し、印象的な一般化結果を提供するが、これは限定的な解釈可能性の犠牲になる。 特に重要な課題は、それが一般化に重大な影響を与えるため、いつモデルをトレーニングしなくなるかを決定することである。 畳み込みニューラルネットワーク(ConvNets)は、複数のチャネルの集約によって形成される高次元の特徴空間で構成され、中間データ表現とモデルの進化を分析することは、次元性の呪いのために困難である。 低次元チャネル上で局所ポリトープ補間を行う非負のカーネル回帰(NNK)グラフに基づくチャネルワイド一般化推定法であるチャネルワイドディープNNK(CW-DeepNNK)を提案する。 この方法は、学習データ表現とチャネル間の関係の両方のインスタンスベースの解釈可能性をもたらす。 我々はCW-DeepNNKを用いて、(i)検証セットを必要とせず、(ii)タスクパフォーマンスの指標に基づいており、(iii)各チャンネルの異なる地点で停止できるという新しい早期停止基準を提案する。 実験の結果,提案手法は検証セットの性能に基づく標準基準と比較して利点があることがわかった。

State-of-the-art neural network architectures continue to scale in size and deliver impressive generalization results, although this comes at the expense of limited interpretability. In particular, a key challenge is to determine when to stop training the model, as this has a significant impact on generalization. Convolutional neural networks (ConvNets) comprise high-dimensional feature spaces formed by the aggregation of multiple channels, where analyzing intermediate data representations and the model's evolution can be challenging owing to the curse of dimensionality. We present channel-wise DeepNNK (CW-DeepNNK), a novel channel-wise generalization estimate based on non-negative kernel regression (NNK) graphs with which we perform local polytope interpolation on low-dimensional channels. This method leads to instance-based interpretability of both the learned data representations and the relationship between channels. Motivated by our observations, we use CW-DeepNNK to propose a novel early stopping criterion that (i) does not require a validation set, (ii) is based on a task performance metric, and (iii) allows stopping to be reached at different points for each channel. Our experiments demonstrate that our proposed method has advantages as compared to the standard criterion based on validation set performance.
翻訳日:2021-07-28 14:54:22 公開日:2021-07-27
# 異質性における均一性:集団カウントのための数間分割を深く研究する

Uniformity in Heterogeneity:Diving Deep into Count Interval Partition for Crowd Counting ( http://arxiv.org/abs/2107.12619v1 )

ライセンス: Link先を確認
Changan Wang, Qingyu Song, Boshen Zhang, Yabiao Wang, Ying Tai, Xuyi Hu, Chengjie Wang, Jilin Li, Jiayi Ma, Yang Wu(参考訳) 近年,群衆カウントにおける不正確な学習目標の問題が注目されている。 いくつかの先駆的な研究に触発されて、カウント値自体ではなく、事前に定義されたカウントの間隔ビンの指数を予測しようとすることで、この問題を解決する。 しかし、不適切な間隔設定は、異なる間隔からのカウントエラー寄与を極めて不均衡にし、カウント性能が劣る可能性がある。 そこで本研究では, 予測リスクを最小限に抑えるために, 常に予測された計算誤差の寄与率を全区間に等しく保持する, 一様誤差分割(uniform error partition, uep)と呼ばれる新しいカウント区間分割基準を提案する。 次に、カウント量子化過程において必然的に導入される離散化誤差を軽減するために、平均カウントプロキシ(MCP)と呼ばれる別の基準を提案する。 MCP基準は、推論中にそのカウント値を表すために各インターバル毎のベストカウントプロキシを選択し、画像の全体的な予測離散化誤差をほぼ無視できる。 私たちが知る限り、この作業は、そのような分類タスクを最初に掘り下げて、カウントインターバル分割の有望な解決法にたどり着きます。 上述の2つの理論的に実証された基準に従えば,統一エラー分割ネットワーク (UEPNet) と呼ばれる単純なモデルを提案する。 コードは以下の通り。 https://github.com/T encentYoutuResearch/ CrowdCounting-UEPNet 。

Recently, the problem of inaccurate learning targets in crowd counting draws increasing attention. Inspired by a few pioneering work, we solve this problem by trying to predict the indices of pre-defined interval bins of counts instead of the count values themselves. However, an inappropriate interval setting might make the count error contributions from different intervals extremely imbalanced, leading to inferior counting performance. Therefore, we propose a novel count interval partition criterion called Uniform Error Partition (UEP), which always keeps the expected counting error contributions equal for all intervals to minimize the prediction risk. Then to mitigate the inevitably introduced discretization errors in the count quantization process, we propose another criterion called Mean Count Proxies (MCP). The MCP criterion selects the best count proxy for each interval to represent its count value during inference, making the overall expected discretization error of an image nearly negligible. As far as we are aware, this work is the first to delve into such a classification task and ends up with a promising solution for count interval partition. Following the above two theoretically demonstrated criterions, we propose a simple yet effective model termed Uniform Error Partition Network (UEPNet), which achieves state-of-the-art performance on several challenging datasets. The codes will be available at: https://github.com/T encentYoutuResearch/ CrowdCounting-UEPNet .
翻訳日:2021-07-28 14:53:45 公開日:2021-07-27
# 授業インクリメンタルラーニングのためのコトランスポート

Co-Transport for Class-Incremental Learning ( http://arxiv.org/abs/2107.12654v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan(参考訳) 従来の学習システムは、一定の数のクラスのためにクローズドワールドで訓練され、事前に収集されたデータセットが必要である。 しかし、新しいクラスは現実世界のアプリケーションでしばしば現れ、漸進的に学ぶべきである。 例えば、電子商取引では、新しいタイプの製品が毎日出現し、ソーシャルメディアコミュニティでは、新しいトピックが頻繁に出現する。 このような状況下では、インクリメンタルモデルは忘れずに、複数の新しいクラスを一度に学習する必要がある。 異なる学習段階を相互に関連付け、促進するために適用できるインクリメンタル学習において、古いクラスと新しいクラスの間に強い相関関係を見出した。 その結果,段階的なタスクとクラスワイドなセマンティックな関係を関連付けることを学習するクラスインクリメンタルラーニング(COIL)のCO-transportを提案する。 プロスペクティブトランスポート(prospective transport)は、高速なモデル適応として、最適なトランスポートされた知識で古い分類器を強化しようとする。 ふりかえり輸送は、新しいクラス分類器を古いものとして後方に移動して忘れを克服することを目的としている。 これらの輸送により、COILは新しいタスクに効率的に適応し、忘れることに安定して抵抗する。 ベンチマークおよび実世界のマルチメディアデータセットを用いた実験により,提案手法の有効性が検証された。

Traditional learning systems are trained in closed-world for a fixed number of classes, and need pre-collected datasets in advance. However, new classes often emerge in real-world applications and should be learned incrementally. For example, in electronic commerce, new types of products appear daily, and in a social media community, new topics emerge frequently. Under such circumstances, incremental models should learn several new classes at a time without forgetting. We find a strong correlation between old and new classes in incremental learning, which can be applied to relate and facilitate different learning stages mutually. As a result, we propose CO-transport for class Incremental Learning (COIL), which learns to relate across incremental tasks with the class-wise semantic relationship. In detail, co-transport has two aspects: prospective transport tries to augment the old classifier with optimal transported knowledge as fast model adaptation. Retrospective transport aims to transport new class classifiers backward as old ones to overcome forgetting. With these transports, COIL efficiently adapts to new tasks, and stably resists forgetting. Experiments on benchmark and real-world multimedia datasets validate the effectiveness of our proposed method.
翻訳日:2021-07-28 14:53:20 公開日:2021-07-27
# COPS:訓練開始前に制御されたプルーニング

COPS: Controlled Pruning Before Training Starts ( http://arxiv.org/abs/2107.12673v1 )

ライセンス: Link先を確認
Paul Wimmer, Jens Mehnert, Alexandru Condurache(参考訳) 最先端のディープニューラルネットワーク(dnn)プルーニングテクニック、トレーニング開始前にワンショットを適用し、プルーニングスコアと呼ばれる1つの基準によってスパースアーキテクチャを評価する。 単独スコアに基づくプルーニングウェイトは、いくつかのアーキテクチャやプルーニングレートではうまく機能するが、他のアーキテクチャでは失敗する可能性がある。 プルーニングスコアの共通ベースラインとして,一般化シナプススコア(GSS)の概念を導入する。 この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。 これらの組み合わせプルーニングスコア(cops)は制約付き最適化問題を解いて得られる。 複数のスコアを最適化することで、スパースネットワークが個々のタスクを過度に専門化するのを防ぐことができる。 COPSによる組合せ最適化問題は線形プログラム(LP)上で緩和される。 このLPを解析的に解き、COPSの解を決定する。 さらに,2つのスコアに対して数値計算を行うアルゴリズムを提案し,評価した。 このような方法でCOPSを解くことは、最も一般的なLPソルバよりも複雑さが低い。 実験では,異なるネットワークアーキテクチャや画像分類タスクの最先端手法と比較し,改良された結果を得た。

State-of-the-art deep neural network (DNN) pruning techniques, applied one-shot before training starts, evaluate sparse architectures with the help of a single criterion -- called pruning score. Pruning weights based on a solitary score works well for some architectures and pruning rates but may also fail for other ones. As a common baseline for pruning scores, we introduce the notion of a generalized synaptic score (GSS). In this work we do not concentrate on a single pruning criterion, but provide a framework for combining arbitrary GSSs to create more powerful pruning strategies. These COmbined Pruning Scores (COPS) are obtained by solving a constrained optimization problem. Optimizing for more than one score prevents the sparse network to overly specialize on an individual task, thus COntrols Pruning before training Starts. The combinatorial optimization problem given by COPS is relaxed on a linear program (LP). This LP is solved analytically and determines a solution for COPS. Furthermore, an algorithm to compute it for two scores numerically is proposed and evaluated. Solving COPS in such a way has lower complexity than the best general LP solver. In our experiments we compared pruning with COPS against state-of-the-art methods for different network architectures and image classification tasks and obtained improved results.
翻訳日:2021-07-28 14:53:03 公開日:2021-07-27
# vision-guided forecasting --visual context for multi-horizon time series forecasting

Vision-Guided Forecasting -- Visual Context for Multi-Horizon Time Series Forecasting ( http://arxiv.org/abs/2107.12674v1 )

ライセンス: Link先を確認
Eitan Kosman, Dotan Di Castro(参考訳) 近年の自動運転は、通勤方法を変える可能性を秘めているため、大きな注目を集めている。 車両の状態を推定するために、多くの努力が払われた。 一方、前方の車両の状態を予測する学習は、危険な状況を予測するなど、新しい機能を導入している。 さらに、予測は、複数の地平線で表されるコンテキストをよりリッチに予測することを学ぶことによって、新たな監視機会をもたらす。 直感的には、前面カメラに由来する映像ストリームは、来るべき道路に関する情報を符号化するので必要である。 さらに、車両の国家の歴史的痕跡は、よりコンテキストを与える。 本稿では2つのモードを融合させて車両状態のマルチ水平予測に取り組む。 視覚特徴抽出のための3次元畳み込みと,速度および操舵角度トレースからの特徴抽出のための1次元畳み込みを利用する3つのエンドツーエンドアーキテクチャの設計と実験を行った。 提案手法の有効性を実証するため, 公開されている2つの実世界のデータセット, Comma2k19 と Udacity Challenge について広範な実験を行った。 運転状態推定の課題に対して,現状の結果を上回りながら,様々な地平線に対して車両の状態を予測することが可能であることを示す。 視覚特徴の寄与について検討し、視覚特徴を付与したモデルが、それぞれudacityとcomma2k19データセット上で、これらの特徴を使用しないモデルのエラーの56.6%と66.9%のエラーを達成することを見出した。

Autonomous driving gained huge traction in recent years, due to its potential to change the way we commute. Much effort has been put into trying to estimate the state of a vehicle. Meanwhile, learning to forecast the state of a vehicle ahead introduces new capabilities, such as predicting dangerous situations. Moreover, forecasting brings new supervision opportunities by learning to predict richer a context, expressed by multiple horizons. Intuitively, a video stream originated from a front-facing camera is necessary because it encodes information about the upcoming road. Besides, historical traces of the vehicle's states give more context. In this paper, we tackle multi-horizon forecasting of vehicle states by fusing the two modalities. We design and experiment with 3 end-to-end architectures that exploit 3D convolutions for visual features extraction and 1D convolutions for features extraction from speed and steering angle traces. To demonstrate the effectiveness of our method, we perform extensive experiments on two publicly available real-world datasets, Comma2k19 and the Udacity challenge. We show that we are able to forecast a vehicle's state to various horizons, while outperforming the current state-of-the-art results on the related task of driving state estimation. We examine the contribution of vision features, and find that a model fed with vision features achieves an error that is 56.6% and 66.9% of the error of a model that doesn't use those features, on the Udacity and Comma2k19 datasets respectively.
翻訳日:2021-07-28 14:52:42 公開日:2021-07-27
# オープンエンド学習が一般のエージェントに導く

Open-Ended Learning Leads to Generally Capable Agents ( http://arxiv.org/abs/2107.12808v1 )

ライセンス: Link先を確認
Open-Ended Learning Team, Adam Stooke, Anuj Mahajan, Catarina Barros, Charlie Deck, Jakob Bauer, Jakub Sygnowski, Maja Trebacz, Max Jaderberg, Michael Mathieu, Nat McAleese, Nathalie Bradley-Schmieg, Nathaniel Wong, Nicolas Porcel, Roberta Raileanu, Steph Hughes-Fitt, Valentin Dalibard, Wojciech Marian Czarnecki(参考訳) この作業では、単一の個々のタスクを超えて、巨大な、豊富な課題空間への行動のより広範な一般化を示すエージェントを作成します。 我々は、環境領域内のタスクの宇宙を定義し、この広大な空間を超えて一般的に有能なエージェントを訓練する能力を示す。 この環境はネイティブにマルチエージェントであり、プロシージャ的に生成された物理的な3D世界に位置する、競争、協力、および独立したゲームの連続性にまたがる。 結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習進捗を測定することさえもオープンな研究課題である。 達成可能な報酬という観点からは,タスクが相容れないにも拘わらず,進捗の定量化を可能にするため,特定の目的を最大化しようとするのではなく,代々のエージェント間の改善の反復的概念を提案する。 エージェントが学習をやめないよう,学習タスクの分布や学習目標を動的に変化させるオープンエンド学習プロセスを構築し,新たな行動の一貫した学習を実現する。 結果として得られるエージェントは、人間の解決可能な評価レベルのうちの1つで報酬を得ることができ、その振る舞いはタスクの宇宙における多くの保留点に一般化される。 このゼロショット一般化の例としては、hid and seek、capture the flag、tagなどがある。 分析と手作りのプローブタスクを通じて,エージェントの振る舞いを特徴付け,試行錯誤実験,簡単なツール使用,オプション切り替え,協調など,興味深い創発的なヒューリスティックな動作を見出す。 最後に,このエージェントの汎用能力により,安価なファインタニングによる大規模行動伝達が実現可能であることを示す。

In this work we create agents that can perform well beyond a single, individual task, that exhibit much wider generalisation of behaviour to a massive, rich space of challenges. We define a universe of tasks within an environment domain and demonstrate the ability to train agents that are generally capable across this vast space and beyond. The environment is natively multi-agent, spanning the continuum of competitive, cooperative, and independent games, which are situated within procedurally generated physical 3D worlds. The resulting space is exceptionally diverse in terms of the challenges posed to agents, and as such, even measuring the learning progress of an agent is an open research problem. We propose an iterative notion of improvement between successive generations of agents, rather than seeking to maximise a singular objective, allowing us to quantify progress despite tasks being incomparable in terms of achievable rewards. We show that through constructing an open-ended learning process, which dynamically changes the training task distributions and training objectives such that the agent never stops learning, we achieve consistent learning of new behaviours. The resulting agent is able to score reward in every one of our humanly solvable evaluation levels, with behaviour generalising to many held-out points in the universe of tasks. Examples of this zero-shot generalisation include good performance on Hide and Seek, Capture the Flag, and Tag. Through analysis and hand-authored probe tasks we characterise the behaviour of our agent, and find interesting emergent heuristic behaviours such as trial-and-error experimentation, simple tool use, option switching, and cooperation. Finally, we demonstrate that the general capabilities of this agent could unlock larger scale transfer of behaviour through cheap finetuning.
翻訳日:2021-07-28 14:51:58 公開日:2021-07-27
# スパースニューラルネットワークの隠れ構造に関する実験

Experiments on Properties of Hidden Structures of Sparse Neural Networks ( http://arxiv.org/abs/2107.12917v1 )

ライセンス: Link先を確認
Julian Stier, Harshil Darji, Michael Granitzer(参考訳) ニューラルネットワークの構造のばらつきは、エネルギー消費の削減、メモリ使用量の削減、便利なハードウェアでの計算時間の短縮、機械学習の自動化につながる。 スパーシティが特定の構造を引き起こす場合、学習中に自動的に得られる特徴を説明することができる。 我々は,事前初期化,プルーニング,学習によってスパーシティがいかに達成されるかを示す実験の洞察を与え,ニューラルネットワークの構造とその性能の関係に関する質問に答える。 これには、ネットワーク理論からリカレントニューラルネットワークへの先行性を誘導する最初の作業や、ニューラルネットワーク検索中のアーキテクチャパフォーマンス予測が含まれる。 実験では,MNISTでは80%の圧縮と再学習で97.5%,圧縮なしでは0.5ポイント,等級一様刈りはそれよりも有意に劣り,性能予測による遺伝的検索では82.4%がCIFAR10で達成された。 さらに、Recurrent NetworksでReber文法を学習する際の性能予測では、構造情報のみを与えられた最大0.81ドルのR^2$が示される。

Sparsity in the structure of Neural Networks can lead to less energy consumption, less memory usage, faster computation times on convenient hardware, and automated machine learning. If sparsity gives rise to certain kinds of structure, it can explain automatically obtained features during learning. We provide insights into experiments in which we show how sparsity can be achieved through prior initialization, pruning, and during learning, and answer questions on the relationship between the structure of Neural Networks and their performance. This includes the first work of inducing priors from network theory into Recurrent Neural Networks and an architectural performance prediction during a Neural Architecture Search. Within our experiments, we show how magnitude class blinded pruning achieves 97.5% on MNIST with 80% compression and re-training, which is 0.5 points more than without compression, that magnitude class uniform pruning is significantly inferior to it and how a genetic search enhanced with performance prediction achieves 82.4% on CIFAR10. Further, performance prediction for Recurrent Networks learning the Reber grammar shows an $R^2$ of up to 0.81 given only structural information.
翻訳日:2021-07-28 14:51:28 公開日:2021-07-27
# サブゴナルカリキュラムによる永続的強化学習

Persistent Reinforcement Learning via Subgoal Curricula ( http://arxiv.org/abs/2107.12931v1 )

ライセンス: Link先を確認
Archit Sharma, Abhishek Gupta, Sergey Levine, Karol Hausman, Chelsea Finn(参考訳) 強化学習(rl)は、多様なエージェントに対する複雑な行動の自律的獲得を可能にする。 しかし、現在の強化学習アルゴリズムの成功は、しばしば強調されていない要件に基づいて予測される。 残念なことに、各試験後の環境を初期状態にリセットするには、自律的な強化学習の目的を破る、かなりの量の人的監督と広範囲な環境計測が必要である。 本稿では,エージェントがより簡単なタスクの成功をブートストラップし,より難しいタスクを効率的に学習できるように,初期状態のカリキュラムを生成する値加速型永続強化学習(vaprl)を提案する。 エージェントはまた、カリキュラムによって提案された初期状態に到達することを学び、学習への人間の介入への依存を最小化する。 我々は,VaPRLが,様々な模擬ロボット問題において,サンプル効率と漸近性能の両面において,リセット不要なRLの先行技術手法より優れる一方で,エピソードRLに比べて3桁の介入を減少させることを観察した。

Reinforcement learning (RL) promises to enable autonomous acquisition of complex behaviors for diverse agents. However, the success of current reinforcement learning algorithms is predicated on an often under-emphasised requirement -- each trial needs to start from a fixed initial state distribution. Unfortunately, resetting the environment to its initial state after each trial requires substantial amount of human supervision and extensive instrumentation of the environment which defeats the purpose of autonomous reinforcement learning. In this work, we propose Value-accelerated Persistent Reinforcement Learning (VaPRL), which generates a curriculum of initial states such that the agent can bootstrap on the success of easier tasks to efficiently learn harder tasks. The agent also learns to reach the initial states proposed by the curriculum, minimizing the reliance on human interventions into the learning. We observe that VaPRL reduces the interventions required by three orders of magnitude compared to episodic RL while outperforming prior state-of-the art methods for reset-free RL both in terms of sample efficiency and asymptotic performance on a variety of simulated robotics problems.
翻訳日:2021-07-28 14:51:11 公開日:2021-07-27
# AI開発における社会的ジレンマと、それを解決しなければならない理由

The social dilemma in AI development and why we have to solve it ( http://arxiv.org/abs/2107.12977v1 )

ライセンス: Link先を確認
Inga Str\"umke, Marija Slavkovik, Vince Madai(参考訳) 倫理的人工知能(AI)システムの需要は増加しているが、倫理的ガイドラインが不足しているにもかかわらず、AIの非倫理的利用の数は加速している。 この主な原因は、AI開発者がAI開発倫理の社会的ジレンマに直面し、倫理的ベストプラクティスの広範な適用を妨げることだ、と私たちは主張しています。 我々は、AI開発における社会的ジレンマを定義し、AI開発倫理の現在の危機が、AI開発者を社会的ジレンマから救うことなく解決できない理由を説明する。 我々は、AI開発は、社会的ジレンマを克服するために専門化されるべきであり、このプロセスのテンプレートとして医療をどのように使用できるかについて議論する。

While the demand for ethical artificial intelligence (AI) systems increases, the number of unethical uses of AI accelerates, even though there is no shortage of ethical guidelines. We argue that a main underlying cause for this is that AI developers face a social dilemma in AI development ethics, preventing the widespread adaptation of ethical best practices. We define the social dilemma for AI development and describe why the current crisis in AI development ethics cannot be solved without relieving AI developers of their social dilemma. We argue that AI development must be professionalised to overcome the social dilemma, and discuss how medicine can be used as a template in this process.
翻訳日:2021-07-28 14:50:46 公開日:2021-07-27
# 二重降下における最適化の役割について--最小二乗法による研究

On the Role of Optimization in Double Descent: A Least Squares Study ( http://arxiv.org/abs/2107.12685v1 )

ライセンス: Link先を確認
Ilja Kuzborskij, Csaba Szepesv\'ari, Omar Rivasplata, Amal Rannen-Triki, Razvan Pascanu(参考訳) 深層ニューラルネットワークの性能はモデルサイズの増加とともに着実に向上し、オーバーフィッティングと一般化に関する古典的見解とは矛盾することが実証されている。 近年, モデルサイズ自体が暗黙の正則化器として機能するため, モデルが十分に過度にパラメータ化されると, テスト誤差が第2降下を有することが示唆されている。 本稿では,この分野における作業の増大に加味し,最小二乗シナリオのモデルサイズ関数としての学習ダイナミクスを注意深く研究する。 我々は,最小二乗目的の勾配降下解に拘束される過大なリスクを示す。 境界は入力特徴の共分散行列の最小の非ゼロ固有値に依存し、二重降下挙動を持つ関数形式である。 これは文献で報告された二重降下曲線の新しい視点を与える。 過剰なリスクの分析は、最適化と一般化エラーの効果を分離することができる。 特に、ノイズのない回帰の場合、二重降下は最適化に関連した量によってのみ説明され、ムーア-ペンローズ擬逆解に焦点をあてた研究で見落とされた。 我々は、我々の導出は、既存の仕事よりも別の視点を提供し、少なくとも考慮すべき最小二乗設定において、この現象の起こりうる原因について、いくつかの光を当てていると信じている。 特に、中間的隠れアクティベーションの共分散が、私たちの導出によって予測されるものと同じような挙動を持つかどうかを実証的に調べる。

Empirically it has been observed that the performance of deep neural networks steadily improves as we increase model size, contradicting the classical view on overfitting and generalization. Recently, the double descent phenomena has been proposed to reconcile this observation with theory, suggesting that the test error has a second descent when the model becomes sufficiently overparameterized, as the model size itself acts as an implicit regularizer. In this paper we add to the growing body of work in this space, providing a careful study of learning dynamics as a function of model size for the least squares scenario. We show an excess risk bound for the gradient descent solution of the least squares objective. The bound depends on the smallest non-zero eigenvalue of the covariance matrix of the input features, via a functional form that has the double descent behavior. This gives a new perspective on the double descent curves reported in the literature. Our analysis of the excess risk allows to decouple the effect of optimization and generalization error. In particular, we find that in case of noiseless regression, double descent is explained solely by optimization-related quantities, which was missed in studies focusing on the Moore-Penrose pseudoinverse solution. We believe that our derivation provides an alternative view compared to existing work, shedding some light on a possible cause of this phenomena, at least in the considered least squares setting. We empirically explore if our predictions hold for neural networks, in particular whether the covariance of intermediary hidden activations has a similar behavior as the one predicted by our derivations.
翻訳日:2021-07-28 14:49:52 公開日:2021-07-27
# ニューラルタンジェントカーネルを含まない浅層ニューラルネットワークにおけるグラディエントDescentの安定性と一般化

Stability & Generalisation of Gradient Descent for Shallow Neural Networks without the Neural Tangent Kernel ( http://arxiv.org/abs/2107.12723v1 )

ライセンス: Link先を確認
Dominic Richards, Ilja Kuzborskij(参考訳) 重パラメータの浅いニューラルネットワークを訓練するために,平均的な勾配降下のアルゴリズム安定性(gd)を再検討し,ニューラル・タンジェント・カーネル(ntk)やpolyak-{\l}ojasiewicz(pl)の仮定なしに新たな一般化と過剰なリスク境界を証明する。 特に、GDの一般化と過剰リスクは、初期化から最も短いGDパスを持つ補間ネットワーク(ある意味では、最小の相対ノルムを持つ補間ネットワーク)によって制御されることを示すオラクル型境界を示す。 これはカーネル化された補間体で知られているが、この証明はgdが中間カーネル化なしでトレーニングしたネットワークに直接適用される。 同時に、ここで開発されたオラクルの不等式を緩和することにより、既存のNTKベースのリスク境界を直接的な方法で復元し、分析がより厳密であることを示す。 最後に、NTKに基づくほとんどの分析とは異なり、ラベルノイズによる回帰に注目し、早期停止を伴うGDが一貫したことを示す。

We revisit on-average algorithmic stability of Gradient Descent (GD) for training overparameterised shallow neural networks and prove new generalisation and excess risk bounds without the Neural Tangent Kernel (NTK) or Polyak-{\L}ojasiewicz (PL) assumptions. In particular, we show oracle type bounds which reveal that the generalisation and excess risk of GD is controlled by an interpolating network with the shortest GD path from initialisation (in a sense, an interpolating network with the smallest relative norm). While this was known for kernelised interpolants, our proof applies directly to networks trained by GD without intermediate kernelisation. At the same time, by relaxing oracle inequalities developed here we recover existing NTK-based risk bounds in a straightforward way, which demonstrates that our analysis is tighter. Finally, unlike most of the NTK-based analyses we focus on regression with label noise and show that GD with early stopping is consistent.
翻訳日:2021-07-28 14:49:26 公開日:2021-07-27
# メッシュ回復のための局所的リカレントモデル学習

Learning Local Recurrent Models for Human Mesh Recovery ( http://arxiv.org/abs/2107.12847v1 )

ライセンス: Link先を確認
Runze Li and Srikrishna Karanam and Ren Li and Terrence Chen and Bir Bhanu and Ziyan Wu(参考訳) 本研究は, 自然運動動態を有する人物の映像からフレームレベルフル人体メッシュを推定する問題を考える。 この分野における多くの進歩は、単一の画像に基づくメッシュ推定において行われているが、深度あいまいさやオクルージョンのような問題を緩和する上で、ビデオからメッシュダイナミクスを推測する努力が最近上昇している。 しかし、既存の作業の重要な制限は、観測された全ての動きダイナミクスが1つの動的/再帰モデルを使ってモデル化できるという仮定である。 これは比較的単純化されたダイナミックなケースではうまく機能するかもしれないが、Wildのビデオによる推論には多くの課題がある。 特に、人の異なる身体部位がビデオの中で異なるダイナミックス(例えば、脚は手と動的に異なる動きをする(例えば、踊り)。 そこで本研究では,ヒトのメッシュを骨格モデルに従って複数の局所部分に分割するビデオメッシュリカバリ手法を提案する。 次に、各局所部分の力学を別個のリカレントモデルでモデル化し、各モデルは、人体の既知の運動構造に基づいて適切に条件付けする。 これにより、構造的インフォームドな局所的反復学習アーキテクチャが実現され、アノテーションを使ってエンドツーエンドでトレーニングすることができる。 我々は,Human3.6M,MPI-INF-3 DHP,3DPWなどの標準ビデオメッシュ回復ベンチマークデータセット上で,局所力学モデリングの設計の有効性を示すとともに,標準評価基準に基づく最先端結果の確立を図った。

We consider the problem of estimating frame-level full human body meshes given a video of a person with natural motion dynamics. While much progress in this field has been in single image-based mesh estimation, there has been a recent uptick in efforts to infer mesh dynamics from video given its role in alleviating issues such as depth ambiguity and occlusions. However, a key limitation of existing work is the assumption that all the observed motion dynamics can be modeled using one dynamical/recurrent model. While this may work well in cases with relatively simplistic dynamics, inference with in-the-wild videos presents many challenges. In particular, it is typically the case that different body parts of a person undergo different dynamics in the video, e.g., legs may move in a way that may be dynamically different from hands (e.g., a person dancing). To address these issues, we present a new method for video mesh recovery that divides the human mesh into several local parts following the standard skeletal model. We then model the dynamics of each local part with separate recurrent models, with each model conditioned appropriately based on the known kinematic structure of the human body. This results in a structure-informed local recurrent learning architecture that can be trained in an end-to-end fashion with available annotations. We conduct a variety of experiments on standard video mesh recovery benchmark datasets such as Human3.6M, MPI-INF-3DHP, and 3DPW, demonstrating the efficacy of our design of modeling local dynamics as well as establishing state-of-the-art results based on standard evaluation metrics.
翻訳日:2021-07-28 14:49:05 公開日:2021-07-27
# Improved-Mask R-CNN:to toward acurate Generic MSK MRI instance segmentation platform (Data from theartharthritis Initiative)

Improved-Mask R-CNN: Towards an Accurate Generic MSK MRI instance segmentation platform (Data from the Osteoarthritis Initiative) ( http://arxiv.org/abs/2107.12889v1 )

ライセンス: Link先を確認
Banafshe Felfeliyan, Abhilash Hareendranathan, Gregor Kuntze, Jacob L. Jaremko, Janet L. Ronsky(参考訳) 変形性関節症(OA)のMRI画像の客観的評価は,現在のOA評価の限界に対処できる。 OA客観的評価には骨,軟骨,関節液の分別が必要である。 提案するセグメンテーション手法の多くはインスタンスセグメンテーションを実行せず、クラス不均衡の問題に悩まされている。 本研究は, OA関連組織に対するより正確な一般化セグメンテーションを得るために, Mask R-CNNインスタンスセグメンテーションを導入し, 改良したMask R-CNN (iMaskRCNN) を開発した。 変形性股関節症(OAI)データセットから得られた500個のMRI膝と97個のMRIスキャンを用いて,この方法の訓練と評価を行った。 Mask R-CNNの3つの変更により、iMaskRCNNは2nd ROIAlignedブロックを追加し、マスクヘッダに余分なデコーダ層を追加し、スキップ接続で接続した。 結果は,ハウスドルフ距離,ダイススコア,変動係数(cov)を用いて評価した。 iMaskRCNNは, 大腿骨の95%から98%, 大腿骨の95%から97%, 大腿骨軟骨の71%から80%, 骨軟骨の81%から82%に増加していた。 拡散検出では,iMaskRCNNは72%,MaskRCNNは71%で改善した。 Reader1とMask R-CNN(0.33)、Reader1とiMaskRCNN(0.34)、Reader2とMask R-CNN(0.22)、Reader2とiMaskRCNN(0.29)間の拡散検出のCoV値は2つのリーダー(0.21)間のCoVに近い。 Mask R-CNNとiMaskRCNNは、OAに関与する異なるスケールの関節組織を確実かつ同時に抽出し、OAの自動評価の基礎となる。 iMaskRCNNの結果は、エッジ周辺のネットワーク性能を改善したことを示している。

Objective assessment of Magnetic Resonance Imaging (MRI) scans of osteoarthritis (OA) can address the limitation of the current OA assessment. Segmentation of bone, cartilage, and joint fluid is necessary for the OA objective assessment. Most of the proposed segmentation methods are not performing instance segmentation and suffer from class imbalance problems. This study deployed Mask R-CNN instance segmentation and improved it (improved-Mask R-CNN (iMaskRCNN)) to obtain a more accurate generalized segmentation for OA-associated tissues. Training and validation of the method were performed using 500 MRI knees from the Osteoarthritis Initiative (OAI) dataset and 97 MRI scans of patients with symptomatic hip OA. Three modifications to Mask R-CNN yielded the iMaskRCNN: adding a 2nd ROIAligned block, adding an extra decoder layer to the mask-header, and connecting them by a skip connection. The results were assessed using Hausdorff distance, dice score, and coefficients of variation (CoV). The iMaskRCNN led to improved bone and cartilage segmentation compared to Mask RCNN as indicated with the increase in dice score from 95% to 98% for the femur, 95% to 97% for tibia, 71% to 80% for femoral cartilage, and 81% to 82% for tibial cartilage. For the effusion detection, dice improved with iMaskRCNN 72% versus MaskRCNN 71%. The CoV values for effusion detection between Reader1 and Mask R-CNN (0.33), Reader1 and iMaskRCNN (0.34), Reader2 and Mask R-CNN (0.22), Reader2 and iMaskRCNN (0.29) are close to CoV between two readers (0.21), indicating a high agreement between the human readers and both Mask R-CNN and iMaskRCNN. Mask R-CNN and iMaskRCNN can reliably and simultaneously extract different scale articular tissues involved in OA, forming the foundation for automated assessment of OA. The iMaskRCNN results show that the modification improved the network performance around the edges.
翻訳日:2021-07-28 14:48:37 公開日:2021-07-27
# 病変サイズ再重み付けを用いた高性能病変検出・分別動作点の最適化

Optimizing Operating Points for High Performance Lesion Detection and Segmentation Using Lesion Size Reweighting ( http://arxiv.org/abs/2107.12978v1 )

ライセンス: Link先を確認
Brennan Nichyporuk, Justin Szeto, Douglas L. Arnold, Tal Arbel(参考訳) 全ての局所病理の正確な検出とセグメンテーションを必要とする多くの臨床背景がある(例)。 患者画像の病変(腫瘍)。 小さな病変と大きな病変が混在している場合、標準的な2次クロスエントロピー損失は、欠落した小さな病変を犠牲にして、大きな病変のセグメンテーションを良くする。 すべての病変を正確に検出するための手術点の調整は、一般に大きな病変の過小評価につながる。 そこで本研究では, 分節精度を維持しつつ, 病理検出性能を小さくし, この性能差を解消するための新しい改良戦略を提案する。 我々は,多発性硬化症患者画像の大規模・マルチスキャン・マルチセンターデータセットの実験に基づいて,我々のリウィーディング戦略が競合戦略を大きく上回ることを示す。

There are many clinical contexts which require accurate detection and segmentation of all focal pathologies (e.g. lesions, tumours) in patient images. In cases where there are a mix of small and large lesions, standard binary cross entropy loss will result in better segmentation of large lesions at the expense of missing small ones. Adjusting the operating point to accurately detect all lesions generally leads to oversegmentation of large lesions. In this work, we propose a novel reweighing strategy to eliminate this performance gap, increasing small pathology detection performance while maintaining segmentation accuracy. We show that our reweighing strategy vastly outperforms competing strategies based on experiments on a large scale, multi-scanner, multi-center dataset of Multiple Sclerosis patient images.
翻訳日:2021-07-28 14:47:52 公開日:2021-07-27
# 証明:過剰な述語による近似集約クエリの高速化

Proof: Accelerating Approximate Aggregation Queries with Expensive Predicates ( http://arxiv.org/abs/2107.12525v1 )

ライセンス: Link先を確認
Daniel Kang, John Guibas, Peter Bailis, Tatsunori Hashimoto, Yi Sun, Matei Zaharia(参考訳) データセット $\mathcal{D}$ が与えられたら、述語に一致する $\mathcal{D}$ のサブセットの平均を計算することに興味があります。 \algnameはこの統計を効率的に計算するために階層化されたサンプリングモデルとプロキシモデルを利用する。 この文書では、理論上、推定値の mse が$o(n_1^{-1} + n_2^{-1} + n_1^{1/2}n_2^{-3/2})$ で減少することを示し、ここでは$n=k \cdot n_1+n_2$ が整数定数 $k$ と $k \cdot n_1$ と $n_2$ はそれぞれ \algname のステージ 1 とステージ 2 で使われるサンプル数を表す。 したがって、全サンプル予算の定数である$N$を各ステージに割り当てると、予測正の確率と成層ごとの標準偏差の事前知識が与えられた最適成層サンプリングアルゴリズムの平均二乗誤差率に一致する平均二乗誤差が$O(N^{-1})$となる。

Given a dataset $\mathcal{D}$, we are interested in computing the mean of a subset of $\mathcal{D}$ which matches a predicate. \algname leverages stratified sampling and proxy models to efficiently compute this statistic given a sampling budget $N$. In this document, we theoretically analyze \algname and show that the MSE of the estimate decays at rate $O(N_1^{-1} + N_2^{-1} + N_1^{1/2}N_2^{-3/2})$, where $N=K \cdot N_1+N_2$ for some integer constant $K$ and $K \cdot N_1$ and $N_2$ represent the number of samples used in Stage 1 and Stage 2 of \algname respectively. Hence, if a constant fraction of the total sample budget $N$ is allocated to each stage, we will achieve a mean squared error of $O(N^{-1})$ which matches the rate of mean squared error of the optimal stratified sampling algorithm given a priori knowledge of the predicate positive rate and standard deviation per stratum.
翻訳日:2021-07-28 14:47:22 公開日:2021-07-27
# 日々の恐怖感の変化を測定する : COVID-19の文脈における計算的研究

Measuring daily-life fear perception change: a computational study in the context of COVID-19 ( http://arxiv.org/abs/2107.12606v1 )

ライセンス: Link先を確認
Yuchen Chai (1), Juan Palacios (1), Jianghao Wang (2), Yichun Fan (1) and Siqi Zheng (1) ((1) Massachusetts Institute of Technology, (2) Chinese Academy of Science)(参考訳) 世界的な健康危機である新型コロナウイルス(covid-19)は、前例のない勢いで恐怖の感情を引き起こした。 感染の恐れに加え、新型コロナウイルスの流行は人々の日常生活に大きな混乱をもたらし、新型コロナウイルスの感染に間接的に集中的な心理的反応を引き起こした。 ここでは,2019年1月1日から2020年8月31日にかけて,536万人のユーザが生成した1600万のソーシャルメディア投稿を用いて,表現された恐怖データベースを構築する。 本研究では,各投稿中の恐怖感情を検知し,トピックモデルを適用して中心的恐怖トピックを抽出する。 このデータベースに基づき、睡眠障害(「夜間」と「不眠症」)は、パンデミック前の期間(2019年1月~2019年12月)で最も多く、新型コロナウイルス(covid-19)の期間に著しく増加した。 新型コロナウイルスによって引き起こされる恐れの主な原因は、健康と労働に関する懸念である。 また、COVID-19の期間中に、女性が日常生活の恐怖源を含む投稿を多く生成するなど、性別差も検出します。 本研究は、社会的関心を識別し、政策決定を支援するために、従来の調査を補完するデータ駆動型アプローチを採用する。

COVID-19, as a global health crisis, has triggered the fear emotion with unprecedented intensity. Besides the fear of getting infected, the outbreak of COVID-19 also created significant disruptions in people's daily life and thus evoked intensive psychological responses indirect to COVID-19 infections. Here, we construct an expressed fear database using 16 million social media posts generated by 536 thousand users between January 1st, 2019 and August 31st, 2020 in China. We employ deep learning techniques to detect the fear emotion within each post and apply topic models to extract the central fear topics. Based on this database, we find that sleep disorders ("nightmare" and "insomnia") take up the largest share of fear-labeled posts in the pre-pandemic period (January 2019-December 2019), and significantly increase during the COVID-19. We identify health and work-related concerns are the two major sources of fear induced by the COVID-19. We also detect gender differences, with females generating more posts containing the daily-life fear sources during the COVID-19 period. This research adopts a data-driven approach to trace back public emotion, which can be used to complement traditional surveys to achieve real-time emotion monitoring to discern societal concerns and support policy decision-making.
翻訳日:2021-07-28 14:46:53 公開日:2021-07-27
# 事前学習した文脈言語モデルの言語間伝達

Cross-lingual Transferring of Pre-trained Contextualized Language Models ( http://arxiv.org/abs/2107.12627v1 )

ライセンス: Link先を確認
Zuchao Li, Kevin Parnow, Hai Zhao, Zhuosheng Zhang, Rui Wang, Masao Utiyama, Eiichiro Sumita(参考訳) 事前学習された文脈化言語モデル(PrLM)はNLPに大きな影響を与えたが、英語以外の言語でのPrLMの訓練は2つの理由により非現実的である。 本研究では,言語間モデル転送とニューラルマシン翻訳を結合した最近の研究に基づいて,PrLMのための新しい言語間モデル転送フレームワークTreLMを提案する。 言語間の記号順序とシーケンス長の差に対処するため,これらの違いから学習し,一次翻訳の方向をより良く伝達できる中間的な「TRILayer」構造と,翻訳訓練のための新たな言語間言語モデリング目的を提案する。 さらに,言語間の語彙差に対応する言語間のテキスト変換ネットワークを学ぶために,prlmの非文脈的埋め込み空間と三層構造を相反的に適応させる埋め込みアライメントについても紹介する。 言語理解と構造解析の両タスクの実験により、提案されたフレームワークは、スクラッチからトレーニングされた言語モデルをパフォーマンスと効率の両面で限られたデータで大幅に上回った。 さらに、リソース豊富なシナリオでスクラッチから事前学習するよりも、パフォーマンスが著しく低下しているにもかかわらず、我々の言語間モデル転送フレームワークは、はるかに経済的である。

Though the pre-trained contextualized language model (PrLM) has made a significant impact on NLP, training PrLMs in languages other than English can be impractical for two reasons: other languages often lack corpora sufficient for training powerful PrLMs, and because of the commonalities among human languages, computationally expensive PrLM training for different languages is somewhat redundant. In this work, building upon the recent works connecting cross-lingual model transferring and neural machine translation, we thus propose a novel cross-lingual model transferring framework for PrLMs: TreLM. To handle the symbol order and sequence length differences between languages, we propose an intermediate ``TRILayer" structure that learns from these differences and creates a better transfer in our primary translation direction, as well as a new cross-lingual language modeling objective for transfer training. Additionally, we showcase an embedding aligning that adversarially adapts a PrLM's non-contextualized embedding space and the TRILayer structure to learn a text transformation network across languages, which addresses the vocabulary difference between languages. Experiments on both language understanding and structure parsing tasks show the proposed framework significantly outperforms language models trained from scratch with limited data in both performance and efficiency. Moreover, despite an insignificant performance loss compared to pre-training from scratch in resource-rich scenarios, our cross-lingual model transferring framework is significantly more economical.
翻訳日:2021-07-28 14:46:29 公開日:2021-07-27
# データ拡張手法を用いたヘイト音声検出のための教師なし領域適応

Unsupervised Domain Adaptation for Hate Speech Detection Using a Data Augmentation Approach ( http://arxiv.org/abs/2107.12866v1 )

ライセンス: Link先を確認
Sheikh Muhammad Sarwar and Vanessa Murdock(参考訳) ヘイトスピーチという形でのオンラインハラスメントは近年増加傾向にある。 この問題に対処するには、自動検出手法によって支援される、人々によるコンテンツモデレーションの組み合わせが必要である。 コンテンツモデレーション自体が人々に有害であるため、ヘイトスピーチの自動検出を改善して負担を軽減することを望む。 ヘイトスピーチは、全く異なる語彙を用いて異なるターゲットグループに向けられるため、課題を提示する。 さらに、ヘイトスピーチの著者は、プラットフォームから削除されるのを避けるために、彼らの振る舞いを偽装するインセンティブを与える。 これにより、1つのヘイトスピーチドメインを表す例が、同じ言語や文化内でも一般的に他の言語を表現していないため、ヘイトスピーチ検出モデルのトレーニングと評価のための包括的なデータセットの開発が困難になる。 ヘイトスピーチ検出のためのラベル付きデータ拡張のための教師なしドメイン適応手法を提案する。 3つの異なるモデル(CNN, BiLSTM, BERT)を3つの異なるコレクション上で評価する。 我々は,精度/リコール曲線下の領域を最大42%改善し,278%までリコールし,精度を損なうことなく(場合によってはかなりの利得)改善する手法を示した。

Online harassment in the form of hate speech has been on the rise in recent years. Addressing the issue requires a combination of content moderation by people, aided by automatic detection methods. As content moderation is itself harmful to the people doing it, we desire to reduce the burden by improving the automatic detection of hate speech. Hate speech presents a challenge as it is directed at different target groups using a completely different vocabulary. Further the authors of the hate speech are incentivized to disguise their behavior to avoid being removed from a platform. This makes it difficult to develop a comprehensive data set for training and evaluating hate speech detection models because the examples that represent one hate speech domain do not typically represent others, even within the same language or culture. We propose an unsupervised domain adaptation approach to augment labeled data for hate speech detection. We evaluate the approach with three different models (character CNNs, BiLSTMs and BERT) on three different collections. We show our approach improves Area under the Precision/Recall curve by as much as 42% and recall by as much as 278%, with no loss (and in some cases a significant gain) in precision.
翻訳日:2021-07-28 14:46:04 公開日:2021-07-27
# 理論に基づくモデリング・探索・計画による人間レベル強化学習

Human-Level Reinforcement Learning through Theory-Based Modeling, Exploration, and Planning ( http://arxiv.org/abs/2107.12544v1 )

ライセンス: Link先を確認
Pedro A. Tsividis, Joao Loula, Jake Burga, Nathan Foss, Andres Campero, Thomas Pouncy, Samuel J. Gershman, Joshua B. Tenenbaum(参考訳) 強化学習(Reinforcement Learning、RL)は、エージェントが時間とともに相互作用を通じて環境の中で報酬を達成する方法を研究する。 マシンRLの最近の進歩は、世界最古のボードゲームや多くのクラシックビデオゲームで人間の専門知識を超えたが、学習するためには膨大な量の経験を必要とする。 そこで本研究では,人間のような直感的理論 – 物理オブジェクトのリッチで抽象的で因果的モデル,意図的エージェント,およびそれらの相互作用 – を用いて,環境を探索し,モデル化し,タスク目標を達成するために効果的に計画する,理論に基づく強化学習という,特に強力なモデルベースRLに基づく,この問題に対する新たなアプローチを提案する。 empa(exploring, modeling, and planning agent)と呼ばれる,ゲームエンジンシミュレータのプログラムとして表現される確率的生成モデルを学ぶベイズ推論を実行し,これらのモデル上で内部シミュレーションを実行し,効率的なオブジェクトベース,リレーショナル探索,ヒューリスティック計画をサポートする。 EMPAは、90の挑戦的なAtariスタイルのビデオゲームで人間の学習効率と密に一致し、ゲームの数分で新しいゲームを学習し、新しいゲーム状況と新しいレベルにしっかりと一般化する。 このモデルは、人々の探索軌道と学習ダイナミクスのきめ細かい構造も捉えている。 その設計と行動は、より一般的な人間的なAIシステムを構築するための道のりを示唆している。

Reinforcement learning (RL) studies how an agent comes to achieve reward in an environment through interactions over time. Recent advances in machine RL have surpassed human expertise at the world's oldest board games and many classic video games, but they require vast quantities of experience to learn successfully -- none of today's algorithms account for the human ability to learn so many different tasks, so quickly. Here we propose a new approach to this challenge based on a particularly strong form of model-based RL which we call Theory-Based Reinforcement Learning, because it uses human-like intuitive theories -- rich, abstract, causal models of physical objects, intentional agents, and their interactions -- to explore and model an environment, and plan effectively to achieve task goals. We instantiate the approach in a video game playing agent called EMPA (the Exploring, Modeling, and Planning Agent), which performs Bayesian inference to learn probabilistic generative models expressed as programs for a game-engine simulator, and runs internal simulations over these models to support efficient object-based, relational exploration and heuristic planning. EMPA closely matches human learning efficiency on a suite of 90 challenging Atari-style video games, learning new games in just minutes of game play and generalizing robustly to new game situations and new levels. The model also captures fine-grained structure in people's exploration trajectories and learning dynamics. Its design and behavior suggest a way forward for building more general human-like AI systems.
翻訳日:2021-07-28 14:45:42 公開日:2021-07-27
# テンプレートによる農業関連FAQ用チャットボット

Template-based Chatbot for Agriculture Related FAQs ( http://arxiv.org/abs/2107.12595v1 )

ライセンス: Link先を確認
Daping Zhang, Xin Chen, Yujia Zhang, Shihan Qin(参考訳) 農業は社会の基本産業であり、食糧供給の基礎であり、雇用とGDPの増加の重要な源である。 しかし、不十分な専門家は農民の要求を満たすことができない。 この問題に対処するため,農業分野の質問に頻繁に答えるチャットボットを設計した。 テンプレートベースの質問はAIMLで回答され、LSAは他のサービスベースの質問に使用される。 このチャットボットは、農業を便利かつ効率的に扱うことで、農家を助ける。

Agriculture is the fundamental industry of the society, which is the basis of food supply and an important source of employment and GDP increase. However, the insufficient expert can not fulfill the demand of farmers. To address this problem, we design a chatbot to answer frequently asked questions in the Agriculture field. Template-based questions will be answered by AIML while LSA is used for other service-based questions. This chatbot will assist farmers by dealing with industry problems conveniently and efficiently.
翻訳日:2021-07-28 14:45:16 公開日:2021-07-27
# サービスエージェント計画のためのタスクと状況構造

Task and Situation Structures for Service Agent Planning ( http://arxiv.org/abs/2107.12851v1 )

ライセンス: Link先を確認
Hao Yang and Tavan Eftekhar and Chad Esselink and Yan Ding and Shiqi Zhang(参考訳) 日常の業務は、その種類やバリエーションによって特徴づけられ、しばしばサービスエージェントに明確に指定されていない。 本稿では,オープンかつ制御不能な環境でサービスエージェントが日常的なタスクを処理できるようにするための包括的アプローチを提案する。 タスクを表現するための汎用構造と状況を表す別の構造を導入する。 新たに導入された2つの構造に基づいて,実世界のタスク計画システムのスケーラビリティを改善しつつ,ドメインルールのハードコーディングを回避する状況処理手法を提案する。

Everyday tasks are characterized by their varieties and variations, and frequently are not clearly specified to service agents. This paper presents a comprehensive approach to enable a service agent to deal with everyday tasks in open, uncontrolled environments. We introduce a generic structure for representing tasks, and another structure for representing situations. Based on the two newly introduced structures, we present a methodology of situation handling that avoids hard-coding domain rules while improving the scalability of real-world task planning systems.
翻訳日:2021-07-28 14:45:11 公開日:2021-07-27
# $\mathcal{FL}_{o}$wer 推論器を用いた値制限付き効率的なTBox推論

Efficient TBox Reasoning with Value Restrictions using the $\mathcal{FL}_{o}$wer reasoner ( http://arxiv.org/abs/2107.12877v1 )

ライセンス: Link先を確認
Franz Baader, Patrick Koopmann, Friedrich Michel, Anni-Yasmin Turhan, Benjamin Zarrie{\ss}(参考訳) 非表現的記述論理(DL) $\mathcal{FL}_0$ は、その唯一の概念コンストラクタとして結合と値制限を持つが、$\mathcal{FL}_0$ w.r.t の推論が原因で不評であった。 一般的なTBoxesはExpTime完全、すなわちかなり表現力のある論理である$\mathcal{ALC}$と同じくらい難しい。 本稿では,高度に最適化されたDL推論器が使用するテーブルーベースアルゴリズムよりもはるかに単純な$\mathcal{FL}_0$に対して,専用の仮定アルゴリズムを提示することにより,$\mathcal{FL}_0$を修復する。 実験の結果,新しいアルゴリズムの性能は,$\mathcal{FL}_o$wer推論器でプロトタイプ的に実装されており,高度に最適化された推論器と非常によく比較できることがわかった。 また、$\mathcal{fl}_o$wer は拡張 $\mathcal{fl}_{\bot}$ of $\mathcal{fl}_0$ で記述されたオントロジーを扱うこともできる。 また、$\mathcal{FL}_0$ および $\mathcal{FL}_{\bot}$ のホーンフラッグメントに関連する DL の推論の複雑さについても検討する。

The inexpressive Description Logic (DL) $\mathcal{FL}_0$, which has conjunction and value restriction as its only concept constructors, had fallen into disrepute when it turned out that reasoning in $\mathcal{FL}_0$ w.r.t. general TBoxes is ExpTime-complete, i.e., as hard as in the considerably more expressive logic $\mathcal{ALC}$. In this paper, we rehabilitate $\mathcal{FL}_0$ by presenting a dedicated subsumption algorithm for $\mathcal{FL}_0$, which is much simpler than the tableau-based algorithms employed by highly optimized DL reasoners. Our experiments show that the performance of our novel algorithm, as prototypically implemented in our $\mathcal{FL}_o$wer reasoner, compares very well with that of the highly optimized reasoners. $\mathcal{FL}_o$wer can also deal with ontologies written in the extension $\mathcal{FL}_{\bot}$ of $\mathcal{FL}_0$ with the top and the bottom concept by employing a polynomial-time reduction, shown in this paper, which eliminates top and bottom. We also investigate the complexity of reasoning in DLs related to the Horn-fragments of $\mathcal{FL}_0$ and $\mathcal{FL}_{\bot}$.
翻訳日:2021-07-28 14:45:03 公開日:2021-07-27
# BridgeNet: 深度マップの超解法と単眼深度推定を併用した学習ネットワーク

BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and Monocular Depth Estimation ( http://arxiv.org/abs/2107.12541v1 )

ライセンス: Link先を確認
Qi Tang, Runmin Cong, Ronghui Sheng, Lingzhi He, Dan Zhang, Yao Zhao, and Sam Kwong(参考訳) 深度マップ超解像は、業界で高い実用的アプリケーション要件を持つタスクである。 既存のカラー誘導深度マップ超解法は、通常、RGB画像から高周波詳細情報を抽出して低解像度深度マップ再構成を導くために余分な枝を必要とする。 しかし,2つのモードの間には相違点がまだあるため,特徴次元やエッジマップ次元の直接情報伝達では満足な結果が得られず,RGB-Dペアの構造が矛盾する領域でテクスチャコピーをトリガーすることもできる。 マルチタスク学習に触発されて,新たな監視ラベルを導入することなく,深度マップ超解法(DSR)と単眼深度推定(MDE)の併用学習ネットワークを提案する。 2つのサブネットワークの相互作用については、異なる誘導戦略を採用し、対応する2つのブリッジを設計する。 1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。 もうひとつは、深度マップ再構築プロセス用に設計されたcontent guidance bridge(cgbdg)で、mdeタスクでdsrタスクから学んだコンテンツガイダンスを提供する。 ネットワークアーキテクチャ全体は非常にポータブルであり、DSRとMDEタスクを関連付けるためのパラダイムを提供することができる。 ベンチマークデータセットの大規模な実験により,本手法が競合性能を実現することを示す。 私たちのコードとモデルはhttps://rmcong.githu b.io/proj_bridgenet. htmlで利用可能です。

Depth map super-resolution is a task with high practical application requirements in the industry. Existing color-guided depth map super-resolution methods usually necessitate an extra branch to extract high-frequency detail information from RGB image to guide the low-resolution depth map reconstruction. However, because there are still some differences between the two modalities, direct information transmission in the feature dimension or edge map dimension cannot achieve satisfactory result, and may even trigger texture copying in areas where the structures of the RGB-D pair are inconsistent. Inspired by the multi-task learning, we propose a joint learning network of depth map super-resolution (DSR) and monocular depth estimation (MDE) without introducing additional supervision labels. For the interaction of two subnetworks, we adopt a differentiated guidance strategy and design two bridges correspondingly. One is the high-frequency attention bridge (HABdg) designed for the feature encoding process, which learns the high-frequency information of the MDE task to guide the DSR task. The other is the content guidance bridge (CGBdg) designed for the depth map reconstruction process, which provides the content guidance learned from DSR task for MDE task. The entire network architecture is highly portable and can provide a paradigm for associating the DSR and MDE tasks. Extensive experiments on benchmark datasets demonstrate that our method achieves competitive performance. Our code and models are available at https://rmcong.githu b.io/proj_BridgeNet. html.
翻訳日:2021-07-28 14:44:02 公開日:2021-07-27
# スケーラブルな6次元ポーズ推定のための絡み合った暗黙的形状とポーズ学習

Disentangled Implicit Shape and Pose Learning for Scalable 6D Pose Estimation ( http://arxiv.org/abs/2107.12549v1 )

ライセンス: Link先を確認
Yilin Wen, Xiangyu Li, Hao Pan, Lei Yang, Zheng Wang, Taku Komura, Wenping Wang(参考訳) 単一のRGB画像からの剛体物体の6Dポーズ推定は、最近、複雑な実世界の変動に対処するためにディープラーニングを使用することで大幅に改善されているが、ほとんどの手法はオブジェクト単位のモデルを構築し、同時に複数のオブジェクトにスケールできない。 本稿では,単一オートエンコーダを用いた複数オブジェクトの合成データに対する自己教師付き学習により,スケーラブルな6次元ポーズ推定手法を提案する。 複数のオブジェクトを処理し、未確認オブジェクトに一般化するために、潜時オブジェクトの形状とポーズの表現を分離し、潜時形状空間が類似性をモデル化し、潜時ポーズ符号を正準回転と比較して回転検索に使用する。 形状空間の構築を促進するため,対照的な距離学習を適用し,類似の訓練対象を参照して見えない物体の処理を可能にする。 オブジェクト間の異なる対称性は矛盾しないポーズ空間を誘導し、形状に依存したポーズコードブックを生成する条件付きブロックでキャプチャする。 提案手法は,T-LESS と NOCS REAL275 という実データを持つ2つのマルチオブジェクトベンチマークで検証し,ポーズ推定精度と一般化の点で既存の RGB 法より優れていることを示す。

6D pose estimation of rigid objects from a single RGB image has seen tremendous improvements recently by using deep learning to combat complex real-world variations, but a majority of methods build models on the per-object level, failing to scale to multiple objects simultaneously. In this paper, we present a novel approach for scalable 6D pose estimation, by self-supervised learning on synthetic data of multiple objects using a single autoencoder. To handle multiple objects and generalize to unseen objects, we disentangle the latent object shape and pose representations, so that the latent shape space models shape similarities, and the latent pose code is used for rotation retrieval by comparison with canonical rotations. To encourage shape space construction, we apply contrastive metric learning and enable the processing of unseen objects by referring to similar training objects. The different symmetries across objects induce inconsistent latent pose spaces, which we capture with a conditioned block producing shape-dependent pose codebooks by re-entangling shape and pose representations. We test our method on two multi-object benchmarks with real data, T-LESS and NOCS REAL275, and show it outperforms existing RGB-based methods in terms of pose estimation accuracy and generalization.
翻訳日:2021-07-28 14:43:37 公開日:2021-07-27
# サルエント物体検出のための知覚・規制ネットワーク

Perception-and-Regul ation Network for Salient Object Detection ( http://arxiv.org/abs/2107.12560v1 )

ライセンス: Link先を確認
Jinchao Zhu, Xiaoyu Zhang, Xian Fang, Junnan Liu(参考訳) さまざまな種類の機能を効果的に融合することが、サルエントオブジェクト検出の鍵である。 既存のネットワーク構造設計の大部分は学者の主観的経験に基づいており、特徴融合の過程は融合した特徴と最高レベルの特徴の関係を考慮していない。 本稿では,特徴関係に着目し,特徴間の相互依存性を明示的にモデル化することによって特徴融合プロセスを適応的に制御する「知覚と規制」ブロック(PR)と呼ばれる,新たなグローバルアテンションユニットを提案する。 知覚部は、分類ネットワークにおける完全連結層の構造を用いて、オブジェクトのサイズと形状を学習する。 規制部は、融合する特徴を選択的に強化し、弱める。 さらに、ネットワークのグローバルな認識能力向上のために、模倣眼観察モジュール(IEO)が使用される。 フォビアビジョンと周辺視覚の模倣により、ieoは高精細な物体を精査し、広い空間シーンを組織し、より優れたオブジェクトをセグメント化することができる。 SODデータセット上で実施した十分な実験により,提案手法は22種類の最先端手法に対して良好に動作することを示した。

Effective fusion of different types of features is the key to salient object detection. The majority of existing network structure design is based on the subjective experience of scholars and the process of feature fusion does not consider the relationship between the fused features and highest-level features. In this paper, we focus on the feature relationship and propose a novel global attention unit, which we term the "perception- and-regulation" (PR) block, that adaptively regulates the feature fusion process by explicitly modeling interdependencies between features. The perception part uses the structure of fully-connected layers in classification networks to learn the size and shape of objects. The regulation part selectively strengthens and weakens the features to be fused. An imitating eye observation module (IEO) is further employed for improving the global perception ability of the network. The imitation of foveal vision and peripheral vision enables IEO to scrutinize highly detailed objects and to organize the broad spatial scene to better segment objects. Sufficient experiments conducted on SOD datasets demonstrate that the proposed method performs favorably against 22 state-of-the-art methods.
翻訳日:2021-07-28 14:43:13 公開日:2021-07-27
# 運動対応マスク伝搬による自己監督映像オブジェクト分割

Self-Supervised Video Object Segmentation by Motion-Aware Mask Propagation ( http://arxiv.org/abs/2107.12569v1 )

ライセンス: Link先を確認
Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian(参考訳) 半教師付きビデオオブジェクトセグメンテーションのための自己教師付き時空間マッチング手法であるMotion-Aware Mask Propagation (MAMP)を提案する。 トレーニング中、mampは、アノテーションなしでモデルをトレーニングするためにフレーム再構築タスクを利用する。 推論中、MAMPは各フレームから高解像度の特徴を抽出し、その特徴と、選択した過去のフレームの予測マスクからメモリバンクを構築する。 次に、MAMPは、運動認識時空間整合モジュールに従って、メモリバンクからその後のフレームにマスクを伝搬する。 DAVIS-2017とYouTube-VOSデータセットの評価は、MAMPが既存の自己監督手法と比較して、より高度な一般化能力を持つ最先端のパフォーマンスを達成することを示している。 4.9\%がdavis-2017で$\mathcal{j}\&\mathcal{f}$、$85\%が$\mathcal{j}\&\mathcal{f}$である。 さらに、MAMPは多くの教師付きビデオオブジェクトセグメンテーション手法と同等に動作する。 私たちのコードは、 \url{https://github.com/b o-miao/mamp} で利用可能です。

We propose a self-supervised spatio-temporal matching method coined Motion-Aware Mask Propagation (MAMP) for semi-supervised video object segmentation. During training, MAMP leverages the frame reconstruction task to train the model without the need for annotations. During inference, MAMP extracts high-resolution features from each frame to build a memory bank from the features as well as the predicted masks of selected past frames. MAMP then propagates the masks from the memory bank to subsequent frames according to our motion-aware spatio-temporal matching module, also proposed in this paper. Evaluation on DAVIS-2017 and YouTube-VOS datasets show that MAMP achieves state-of-the-art performance with stronger generalization ability compared to existing self-supervised methods, i.e. 4.9\% higher mean $\mathcal{J}\&\mathcal{F}$ on DAVIS-2017 and 4.85\% higher mean $\mathcal{J}\&\mathcal{F}$ on the unseen categories of YouTube-VOS than the nearest competitor. Moreover, MAMP performs on par with many supervised video object segmentation methods. Our code is available at: \url{https://github.com/b o-miao/MAMP}.
翻訳日:2021-07-28 14:42:55 公開日:2021-07-27
# あなたが描いたことを思い出す: メモリによるセマンティックイメージ操作

Remember What You have drawn: Semantic Image Manipulation with Memory ( http://arxiv.org/abs/2107.12579v1 )

ライセンス: Link先を確認
Xiangxi Shi, Zhonghua Wu, Guosheng Lin, Jianfei Cai and Shafiq Joty(参考訳) 自然言語による画像操作は、言語記述の指導によって画像を操作することを目的としており、コンピュータビジョンや自然言語処理(NLP)の分野では難しい問題となっている。 現在、この作業には多くの取り組みがなされているが、そのパフォーマンスは、現実的でテキスト変換された画像の生成から遠く離れている。 そこで,本稿では,テクスチャ情報をテキスト記述のガイダンスで合成するために,画像から学習した記憶の集合が導入されたメモリベース画像マニピュレーションネットワーク(MIM-Net)を提案する。 本稿では,遅延記憶を効率的に学習する2段階ネットワークを提案する。 不要な背景変化を避けるため,テキストが言及する領域の操作に重点を置くターゲットローカライゼーションユニット(TLU)を提案する。 さらに,ロバストメモリを学ぶために,新たなランダムメモリトレーニング損失を提案する。 4つの人気のあるデータセットに関する実験では、既存のデータセットよりも優れた性能を示している。

Image manipulation with natural language, which aims to manipulate images with the guidance of language descriptions, has been a challenging problem in the fields of computer vision and natural language processing (NLP). Currently, a number of efforts have been made for this task, but their performances are still distant away from generating realistic and text-conformed manipulated images. Therefore, in this paper, we propose a memory-based Image Manipulation Network (MIM-Net), where a set of memories learned from images is introduced to synthesize the texture information with the guidance of the textual description. We propose a two-stage network with an additional reconstruction stage to learn the latent memories efficiently. To avoid the unnecessary background changes, we propose a Target Localization Unit (TLU) to focus on the manipulation of the region mentioned by the text. Moreover, to learn a robust memory, we further propose a novel randomized memory training loss. Experiments on the four popular datasets show the better performance of our method compared to the existing ones.
翻訳日:2021-07-28 14:42:38 公開日:2021-07-27
# 弱教師付き時間行動定位のためのクロスモーダルコンセンサスネットワーク

Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2107.12589v1 )

ライセンス: Link先を確認
Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng(参考訳) 時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。 外観と動作の特徴はどちらも以前の作品で使われているが、適切な方法では使用せず、単純な結合やスコアレベルの融合を適用している。 本稿では,事前訓練した抽出器から抽出した特徴(例えばI3D)がWS-TALtask特有の特徴ではないことを論じる。 そこで我々は,この問題に対処するクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。 CO2-Netでは,主モーダルからのグローバル情報と補助モーダルのクロスモーダルローカル情報を用いてタスク関連情報冗長性をフィルタリングする,クロスモーダルアテンション機構を設計する2つの同一のクロスモーダルコンセンサスモジュール(CCM)を主に導入する。 さらに,各ccmasから導出される注意重みを,別のccmから導かれる注意重みの疑似目標として扱い,2つのccmから導かれる予測間の一貫性を維持し,相互学習方式を形成する。 最後に,本手法を検証し,最新の結果を得るため,一般的な2つの時間的行動定位データセットであるthums14とactivitynet1.2について広範な実験を行った。 実験の結果,提案するクロスモーダルコンセンサスモジュールは,時間的行動の局所化に対して,より代表的な特徴を生み出すことができた。

Weakly supervised temporal action localization (WS-TAL) is a challenging task that aims to localize action instances in the given video with video-level categorical supervision. Both appearance and motion features are used in previous works, while they do not utilize them in a proper way but apply simple concatenation or score-level fusion. In this work, we argue that the features extracted from the pretrained extractor, e.g., I3D, are not the WS-TALtask-specific features, thus the feature re-calibration is needed for reducing the task-irrelevant information redundancy. Therefore, we propose a cross-modal consensus network (CO2-Net) to tackle this problem. In CO2-Net, we mainly introduce two identical proposed cross-modal consensus modules (CCM) that design a cross-modal attention mechanism to filter out the task-irrelevant information redundancy using the global information from the main modality and the cross-modal local information of the auxiliary modality. Moreover, we treat the attention weights derived from each CCMas the pseudo targets of the attention weights derived from another CCM to maintain the consistency between the predictions derived from two CCMs, forming a mutual learning manner. Finally, we conduct extensive experiments on two common used temporal action localization datasets, THUMOS14 and ActivityNet1.2, to verify our method and achieve the state-of-the-art results. The experimental results show that our proposed cross-modal consensus module can produce more representative features for temporal action localization.
翻訳日:2021-07-28 14:42:23 公開日:2021-07-27
# 時間的行動局所化のためのトランスファー可能な知識に基づく多粒度アグリゲーションネットワーク:activitynet challenge 2021への提出

Transferable Knowledge-Based Multi-Granularity Aggregation Network for Temporal Action Localization: Submission to ActivityNet Challenge 2021 ( http://arxiv.org/abs/2107.12618v1 )

ライセンス: Link先を確認
Haisheng Su, Peiqin Zhuang, Yukun Li, Dongliang Wang, Weihao Gan, Wei Wu, Yu Qiao(参考訳) 本報告では,教師付き学習トラックと弱教師付き学習トラックの両方における2021 hacs時間的行動局所化課題の提示に用いたソリューションの概要を示す。 時間的アクションローカライゼーション(TAL)は、アクションインスタンスの時間的境界を正確に特定するだけでなく、未編集のビデオを特定のカテゴリに正確に分類する必要がある。 しかし、Weakly-Supervised TALは、ビデオレベルのクラスラベルのみを使用してアクションインスタンスの位置を示す。 本稿では,時間的行動ローカライザを訓練するために,時間的文脈アグリゲーションネットワーク(TCANet)を採用し,「局所的かつグローバル的」時間的文脈アグリゲーションと補完的手法を用いて高品質な行動提案を生成する。 WSTALに関しては、単純な分類ネットワークによって生成されるCASの質の低さに対処する新しいフレームワークが提案されている。 転送学習法にさらに着想を得て,トリミングビデオ(HACS Clips データセット)から未トリミングビデオ(HACS Segments データセット)へ知識を転送するモジュールも導入し,未トリミングビデオの分類性能の向上を目指す。 最後に、拡張CASに基づいて境界を自動的に予測するために、Outer-Inner-Contrast ive (OIC)損失を埋め込んだ境界回帰モジュールを用いる。 提案手法はそれぞれ39.91 および 29.78 平均マップを教師付きおよび弱教師付き時間的行動定位トラックのチャレンジテストセットで達成した。

This technical report presents an overview of our solution used in the submission to 2021 HACS Temporal Action Localization Challenge on both Supervised Learning Track and Weakly-Supervised Learning Track. Temporal Action Localization (TAL) requires to not only precisely locate the temporal boundaries of action instances, but also accurately classify the untrimmed videos into specific categories. However, Weakly-Supervised TAL indicates locating the action instances using only video-level class labels. In this paper, to train a supervised temporal action localizer, we adopt Temporal Context Aggregation Network (TCANet) to generate high-quality action proposals through ``local and global" temporal context aggregation and complementary as well as progressive boundary refinement. As for the WSTAL, a novel framework is proposed to handle the poor quality of CAS generated by simple classification network, which can only focus on local discriminative parts, rather than locate the entire interval of target actions. Further inspired by the transfer learning method, we also adopt an additional module to transfer the knowledge from trimmed videos (HACS Clips dataset) to untrimmed videos (HACS Segments dataset), aiming at promoting the classification performance on untrimmed videos. Finally, we employ a boundary regression module embedded with Outer-Inner-Contrast ive (OIC) loss to automatically predict the boundaries based on the enhanced CAS. Our proposed scheme achieves 39.91 and 29.78 average mAP on the challenge testing set of supervised and weakly-supervised temporal action localization track respectively.
翻訳日:2021-07-28 14:41:54 公開日:2021-07-27
# メモリとコントラスト学習を用いた教師なし外乱検出

Unsupervised Outlier Detection using Memory and Contrastive Learning ( http://arxiv.org/abs/2107.12642v1 )

ライセンス: Link先を確認
Ning Huyan, Dou Quan, Xiangrong Zhang, Xuefeng Liang, Jocelyn Chanussot, Licheng Jiao(参考訳) 外乱検出は、機械学習において、優れた信頼性のあるデータを作成するための最も重要なプロセスの1つである。 外乱検出の最も有効な方法は、外乱の回収が通常のサンプル(外乱)よりも難しいと仮定して補助的復元作業を利用する。 しかし、特にオートエンコーダ(AE)ベースのモデルでは、必ずしもそうではない。 機能学習を制約しないため、トレーニングデータに存在しないような、特定のアウトレーヤを回復することも可能だ。 代わりに、outlierとinlier間の機能距離を測定することで、機能空間でoutlier検出ができると考えています。 次に,メモリモジュールとコントラスト学習モジュールを用いたフレームワークであるmcodを提案する。 メモリモジュールは、通常のデータを表す特徴の一貫性を制限する。 コントラスト学習モジュールは、より識別的な特徴を学習するので、外れ値と外れ値の区別が促進される。 4つのベンチマークデータセットの大規模な実験により,提案したMCODは高い性能を示し,9つの最先端手法を上回る性能を示した。

Outlier detection is one of the most important processes taken to create good, reliable data in machine learning. The most methods of outlier detection leverage an auxiliary reconstruction task by assuming that outliers are more difficult to be recovered than normal samples (inliers). However, it is not always true, especially for auto-encoder (AE) based models. They may recover certain outliers even outliers are not in the training data, because they do not constrain the feature learning. Instead, we think outlier detection can be done in the feature space by measuring the feature distance between outliers and inliers. We then propose a framework, MCOD, using a memory module and a contrastive learning module. The memory module constrains the consistency of features, which represent the normal data. The contrastive learning module learns more discriminating features, which boosts the distinction between outliers and inliers. Extensive experiments on four benchmark datasets show that our proposed MCOD achieves a considerable performance and outperforms nine state-of-the-art methods.
翻訳日:2021-07-28 14:41:23 公開日:2021-07-27
# コンピュータビジョンによるRGB-Dカメラによる緑化支援

Computer Vision-Based Guidance Assistance Concept for Plowing Using RGB-D Camera ( http://arxiv.org/abs/2107.12646v1 )

ライセンス: Link先を確認
Erkin T\"urk\"oz, Ertug Olcay, Timo Oksanen(参考訳) 本稿では,長期耕作作業における運転者の認知負担を軽減するため,農業車両に対するコンピュータビジョンによる指導支援の概念を提案する。 耕作は、多くの国で土壌を栽培するための一般的な農業慣行であり、春から秋にかけて行われる。 耕作作業は高い牽引力を必要とするため、エネルギー消費が増大する。 さらに、不必要な操作による運転時間の延長が燃料消費の増大につながる。 トラクタの運転者及び制御ユニットに必要な情報を提供するため、rgb-dカメラに基づく第1のファーロウ検出システムを開発した。

This paper proposes a concept of computer vision-based guidance assistance for agricultural vehicles to increase the accuracy in plowing and reduce driver's cognitive burden in long-lasting tillage operations. Plowing is a common agricultural practice to prepare the soil for planting in many countries and it can take place both in the spring and the fall. Since plowing operation requires high traction forces, it causes increased energy consumption. Moreover, longer operation time due to unnecessary maneuvers leads to higher fuel consumption. To provide necessary information for the driver and the control unit of the tractor, a first concept of furrow detection system based on an RGB-D camera was developed.
翻訳日:2021-07-28 14:41:07 公開日:2021-07-27
# CKConv: ポイントクラウド分析のための学習機能Voxelization

CKConv: Learning Feature Voxelization for Point Cloud Analysis ( http://arxiv.org/abs/2107.12655v1 )

ライセンス: Link先を確認
Sungmin Woo, Dogyoon Lee, Junhyeop Lee, Sangwon Hwang, Woojin Kim and Sangyoun Lee(参考訳) ディープラーニングの成功にもかかわらず、不規則なデータ構造のため、ポイントクラウド上の最適畳み込み操作は未定のままである。 本稿では,連続的および離散的畳み込みを生かして局所点の特徴をボックス化することを学ぶキュービックカーネル畳み込み(CKConv)を提案する。 私たちの連続畳み込みは、埋め込み空間のボクセルに特徴を分割する3d立方体形式の核重み表現を用いる。 離散的な3次元畳み込みを空間的に連続的に適用することにより、連続畳み込みに先立って、空間的特徴マッピング、すなわち、特徴語彙化を学習せざるを得なくなる。 このようにして、幾何情報は細分化された特徴を持つエンコーディングによって詳細化することができ、これらの固定された構造化データ上の3次元畳み込みは埋め込み空間でのボクセル化によって離散化アーティファクトに支障を来さない。 さらに,空間的注意モジュールであるlocal set attention (lsa) を提案する。 LSAで特徴ボキセル化を学習することで、CKConvは効率的なポイントクラウド分析のための豊富な特徴を抽出できる。 CKConvは,オブジェクト分類,オブジェクト部分分割,シーンセマンティックセマンティックセマンティクスといったクラウド処理タスクに,最先端の処理結果とともに非常に適用性が高いことを示す。

Despite the remarkable success of deep learning, optimal convolution operation on point cloud remains indefinite due to its irregular data structure. In this paper, we present Cubic Kernel Convolution (CKConv) that learns to voxelize the features of local points by exploiting both continuous and discrete convolutions. Our continuous convolution uniquely employs a 3D cubic form of kernel weight representation that splits a feature into voxels in embedding space. By consecutively applying discrete 3D convolutions on the voxelized features in a spatial manner, preceding continuous convolution is forced to learn spatial feature mapping, i.e., feature voxelization. In this way, geometric information can be detailed by encoding with subdivided features, and our 3D convolutions on these fixed structured data do not suffer from discretization artifacts thanks to voxelization in embedding space. Furthermore, we propose a spatial attention module, Local Set Attention (LSA), to provide comprehensive structure awareness within the local point set and hence produce representative features. By learning feature voxelization with LSA, CKConv can extract enriched features for effective point cloud analysis. We show that CKConv has great applicability to point cloud processing tasks including object classification, object part segmentation, and scene semantic segmentation with state-of-the-art results.
翻訳日:2021-07-28 14:40:57 公開日:2021-07-27
# テキストから画像への部分認識のための意味的自己整合ネットワーク

Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification ( http://arxiv.org/abs/2107.12666v1 )

ライセンス: Link先を確認
Zefeng Ding, Changxing Ding, Zhiyin Shao, Dacheng Tao(参考訳) ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。 しかし,テキスト記述におけるモダリティギャップとクラス内大きなばらつきのため,テキストから画像へのReIDは依然として困難な問題である。 そこで本稿では,これらの問題に対処するためのセマンティック・セルフアラインド・ネットワーク(SSAN)を提案する。 まず,2つのモダリティから意味的に整合した部分レベル特徴を自動的に抽出する手法を提案する。 第2に,身体部分間の関係を捉えるマルチビュー非局所ネットワークを設計し,身体部分と名詞句の対応性を向上する。 第3に,同画像の他の画像に対するテキスト記述を利用した複合ランク付け(CR)ロスを導入し,テキスト特徴のクラス内分散を効果的に低減する。 最後に,テキストから画像へのReIDの研究を迅速化するため,ICFG-PEDESという新しいデータベースを構築した。 広範な実験により、SSANは最先端のアプローチをかなりのマージンで上回ることを示した。 新しいICFG-PEDESデータベースとSSANコードはhttps://github.com/z ifyloo/SSAN.comで入手できる。

Text-to-image person re-identification (ReID) aims to search for images containing a person of interest using textual descriptions. However, due to the significant modality gap and the large intra-class variance in textual descriptions, text-to-image ReID remains a challenging problem. Accordingly, in this paper, we propose a Semantically Self-Aligned Network (SSAN) to handle the above problems. First, we propose a novel method that automatically extracts semantically aligned part-level features from the two modalities. Second, we design a multi-view non-local network that captures the relationships between body parts, thereby establishing better correspondences between body parts and noun phrases. Third, we introduce a Compound Ranking (CR) loss that makes use of textual descriptions for other images of the same identity to provide extra supervision, thereby effectively reducing the intra-class variance in textual features. Finally, to expedite future research in text-to-image ReID, we build a new database named ICFG-PEDES. Extensive experiments demonstrate that SSAN outperforms state-of-the-art approaches by significant margins. Both the new ICFG-PEDES database and the SSAN code are available at https://github.com/z ifyloo/SSAN.
翻訳日:2021-07-28 14:40:32 公開日:2021-07-27
# 生体データのインデクシングと検索のための特徴融合法:プライバシー保護付き顔認識への応用

Feature Fusion Methods for Indexing and Retrieval of Biometric Data: Application to Face Recognition with Privacy Protection ( http://arxiv.org/abs/2107.12675v1 )

ライセンス: Link先を確認
Pawel Drozdowski, Fabian Stockhardt, Christian Rathgeb, Dail\'e Osorio-Roig, Christoph Busch(参考訳) 生体認証システムの現実的な展開が直面する課題のひとつとして,計算効率,正確性,プライバシ保護データストレージと検索があげられる。 本研究では,生体データの保護インデックス化手法を提案する。 インテリジェントなペアテンプレートの機能レベルの融合を利用して、多段階検索構造を作成する。 検索中、潜在的な候補IDのリストが順次事前フィルタリングされ、生体認証トランザクションに必要なテンプレート比較の数を減らす。 生体計測プローブテンプレートと記憶された参照テンプレートと生成されたインデックスの保護は、同型暗号を用いて行われる。 提案手法は,2つの最先端のオープンソース顔認識システムを用いて,公開データベース上のクローズドセットおよびオープンセット識別シナリオにおいて広範囲に評価される。 提案手法は, 検索に基づく検索アルゴリズムを用いた典型的なベースラインアルゴリズムに対して, 生体認証トランザクションに関連する計算負荷を90%削減すると同時に, 生体性能の劣化を生じない。 さらに, オープンソース準同型暗号ライブラリとのテンプレート保護のシームレスな統合を容易にすることにより, 保護された生体認証データの非リンク性, 可逆性, 更新性が保証される。

Computationally efficient, accurate, and privacy-preserving data storage and retrieval are among the key challenges faced by practical deployments of biometric identification systems worldwide. In this work, a method of protected indexing of biometric data is presented. By utilising feature-level fusion of intelligently paired templates, a multi-stage search structure is created. During retrieval, the list of potential candidate identities is successively pre-filtered, thereby reducing the number of template comparisons necessary for a biometric identification transaction. Protection of the biometric probe templates, as well as the stored reference templates and the created index is carried out using homomorphic encryption. The proposed method is extensively evaluated in closed-set and open-set identification scenarios on publicly available databases using two state-of-the-art open-source face recognition systems. With respect to a typical baseline algorithm utilising an exhaustive search-based retrieval algorithm, the proposed method enables a reduction of the computational workload associated with a biometric identification transaction by 90%, while simultaneously suffering no degradation of the biometric performance. Furthermore, by facilitating a seamless integration of template protection with open-source homomorphic encryption libraries, the proposed method guarantees unlinkability, irreversibility, and renewability of the protected biometric data.
翻訳日:2021-07-28 14:40:13 公開日:2021-07-27
# ビジョンベース埋め込みシステムを用いたリアルタイム活動認識と意図認識

Real-Time Activity Recognition and Intention Recognition Using a Vision-based Embedded System ( http://arxiv.org/abs/2107.12744v1 )

ライセンス: Link先を確認
Sahar Darafsh, Saeed Shiry Ghidary, Morteza Saheb Zamani(参考訳) デジタル技術の急速な増加に伴い、ほとんどの研究分野は、スマート環境において重要なヒューマンアクティビティの認識と意図認識を含む。 本研究では,ドアを通そうとしないという人々の意図をリアルタイムに認識する活動認識システムを提案する。 このシステムはエレベーターや自動ドアに適用すれば、省エネと効率の向上につながる。 本研究では,デジタル画像処理の原理を用いて,空間的特徴と時間的特徴を組み合わせたデータ準備を行う。 それにもかかわらず、以前の研究とは異なり、2ストリーム畳み込みニューラルネットワークの代わりに1つのAlexNetニューラルネットワークのみが使用される。 組み込みシステムは意図認識データセット上で98.78%の精度で実装した。 また、HMDB-51、KTH、Weizmannを含む他のデータセットに対するデータ表現アプローチも検討し、それぞれ78.48%、97.95%、100%の精度を得た。 画像認識とニューラルネットワークモデルはzcu102ボード用のxilinxシミュレータを用いてシミュレーションおよび実装された。 この組み込みシステムの動作周波数は333mhzで、毎秒120フレーム(fps)でリアルタイムに動作します。

With the rapid increase in digital technologies, most fields of study include recognition of human activity and intention recognition, which are important in smart environments. In this research, we introduce a real-time activity recognition to recognize people's intentions to pass or not pass a door. This system, if applied in elevators and automatic doors will save energy and increase efficiency. For this study, data preparation is applied to combine the spatial and temporal features with the help of digital image processing principles. Nevertheless, unlike previous studies, only one AlexNet neural network is used instead of two-stream convolutional neural networks. Our embedded system was implemented with an accuracy of 98.78% on our Intention Recognition dataset. We also examined our data representation approach on other datasets, including HMDB-51, KTH, and Weizmann, and obtained accuracy of 78.48%, 97.95%, and 100%, respectively. The image recognition and neural network models were simulated and implemented using Xilinx simulators for ZCU102 board. The operating frequency of this embedded system is 333 MHz, and it works in real-time with 120 frames per second (fps).
翻訳日:2021-07-28 14:39:53 公開日:2021-07-27
# 群衆におけるカウントとローカライゼーションの再考:純粋にポイントに基づく枠組み

Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework ( http://arxiv.org/abs/2107.12746v1 )

ライセンス: Link先を確認
Qingyu Song, Changan Wang, Zhengkai Jiang, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Yang Wu(参考訳) 個人を群衆にローカライズすることは、単に数えるよりも、その後の高レベルの群衆分析タスクの実用的な要求に従っている。 しかし、既存のローカライズベース手法は中間表現 (\textit{i.e.) に依存する。 学習対象として機能する密度マップや擬似ボックスは直観的かつ誤りやすい。 本稿では,集合群数と個別の局所化のための純粋にポイントベースな枠組みを提案する。 本研究では,画像レベルで絶対計数誤差を報告するのではなく,密度正規化平均精度(nap)と呼ばれる新しい指標を提案し,より包括的かつ高精度な性能評価を行う。 さらに,P2PNet(Point to Point Network)と呼ばれる,直感的なソリューションを設計する。 p2pnetは過剰なステップを捨て、画像内の頭を表す一連のポイントプロポーザルを直接予測し、人間の注釈結果と一致します。 徹底的な分析により,このような新しいアイデアを実現するための重要なステップは,これらの提案に最適な学習目標を割り当てることである。 そこで本研究では,ハンガリーのアルゴリズムを用いて,この重要な関連を1対1で行うことを提案する。 P2PNetは、一般的なカウントベンチマークの最先端メソッドをはるかに上回るだけでなく、有望なローカライゼーション精度も達成している。 コードはhttps://github.com/t encentyouturesearch/ crowdcounting-p2pnet 。

Localizing individuals in crowds is more in accordance with the practical demands of subsequent high-level crowd analysis tasks than simply counting. However, existing localization based methods relying on intermediate representations (\textit{i.e.}, density maps or pseudo boxes) serving as learning targets are counter-intuitive and error-prone. In this paper, we propose a purely point-based framework for joint crowd counting and individual localization. For this framework, instead of merely reporting the absolute counting error at image level, we propose a new metric, called density Normalized Average Precision (nAP), to provide more comprehensive and more precise performance evaluation. Moreover, we design an intuitive solution under this framework, which is called Point to Point Network (P2PNet). P2PNet discards superfluous steps and directly predicts a set of point proposals to represent heads in an image, being consistent with the human annotation results. By thorough analysis, we reveal the key step towards implementing such a novel idea is to assign optimal learning targets for these proposals. Therefore, we propose to conduct this crucial association in an one-to-one matching manner using the Hungarian algorithm. The P2PNet not only significantly surpasses state-of-the-art methods on popular counting benchmarks, but also achieves promising localization accuracy. The codes will be available at: https://github.com/T encentYoutuResearch/ CrowdCounting-P2PNet .
翻訳日:2021-07-28 14:39:36 公開日:2021-07-27
# 1クラス異常検出のための判別生成表現学習

Discriminative-Gener ative Representation Learning for One-Class Anomaly Detection ( http://arxiv.org/abs/2107.12753v1 )

ライセンス: Link先を確認
Xuan Xia, Xizhou Pan, Xing He, Jingfei Zhang, Ning Ding and Lin Ma(参考訳) 生成的自己教師型学習法の一種として, 異常検出の分野では, 生成的逆境ネットが広く研究されている。 しかし、画素レベルの詳細に注意を払いすぎるため、ジェネレータの表現学習能力は限られており、ジェネレータは識別器として効果的であるラベル予測プリテキストタスクから抽象的な意味表現を学ぶのが困難である。 ジェネレータの表現学習能力を向上させるために,生成法と判別法を組み合わせた自己教師付き学習フレームワークを提案する。 ジェネレータはもはや再構成エラーによる表現を学習せず、識別器のガイダンスを学習し、識別方法用に設計されたプリテキストタスクの恩恵を受けることができる。 判別生成表現学習法は,識別法に近い性能を有し,その高速化に大きな利点がある。 CIFAR-10では6%,MVTADでは2%,一級異常検出タスクでは,複数のベンチマークデータセット上で,最先端のGANベースラインの性能が大幅に向上した。

As a kind of generative self-supervised learning methods, generative adversarial nets have been widely studied in the field of anomaly detection. However, the representation learning ability of the generator is limited since it pays too much attention to pixel-level details, and generator is difficult to learn abstract semantic representations from label prediction pretext tasks as effective as discriminator. In order to improve the representation learning ability of generator, we propose a self-supervised learning framework combining generative methods and discriminative methods. The generator no longer learns representation by reconstruction error, but the guidance of discriminator, and could benefit from pretext tasks designed for discriminative methods. Our discriminative-gener ative representation learning method has performance close to discriminative methods and has a great advantage in speed. Our method used in one-class anomaly detection task significantly outperforms several state-of-the-arts on multiple benchmark data sets, increases the performance of the top-performing GAN-based baseline by 6% on CIFAR-10 and 2% on MVTAD.
翻訳日:2021-07-28 14:39:13 公開日:2021-07-27
# GainTuningによる適応型Denoising

Adaptive Denoising via GainTuning ( http://arxiv.org/abs/2107.12815v1 )

ライセンス: Link先を確認
Sreyas Mohan, Joshua L. Vincent, Ramon Manzorro, Peter A. Crozier, Eero P. Simoncelli, Carlos Fernandez-Granda(参考訳) 画像デノイジングのための深層畳み込みニューラルネットワーク(cnns)は通常、大規模なデータセットでトレーニングされる。 これらのモデルは現在の技術状況を達成するが、トレーニング分布から逸脱したデータに適用しても一般化が難しい。 近年の研究では、1つのノイズ画像でデノイザを訓練することが可能であることが示されている。 これらのモデルはテスト画像の特徴に適応するが、その性能は訓練に使用する情報の量によって制限される。 本稿では,大規模データセット上で事前学習したCNNモデルを,個々のテスト画像に対して適応的かつ選択的に調整するGainTuningを提案する。 オーバーフィッティングを避けるために、gaintuningはcnnの畳み込み層における各チャネルの単一の乗法的スケーリングパラメータ("gain")を最適化する。 GainTuningは、標準的な画像デノゲティングベンチマークで最先端のCNNを改善し、ホールドアウトテストセットのほぼすべての画像上でのデノゲティング性能を向上させる。 これらの適応的な改善は、トレーニングデータと、ノイズレベルまたはイメージタイプにおいて、体系的に異なるテストイメージに対してさらに重要なものである。 本研究では,cnnを合成データで訓練し,実際の透過型電子マイクロスコープ画像でテストする科学応用において,適応的雑音化の可能性を示す。 既存の手法とは対照的に、GainTuningは極低信号-雑音比でこれらのデータから触媒ナノ粒子の構造を忠実に再構築することができる。

Deep convolutional neural networks (CNNs) for image denoising are usually trained on large datasets. These models achieve the current state of the art, but they have difficulties generalizing when applied to data that deviate from the training distribution. Recent work has shown that it is possible to train denoisers on a single noisy image. These models adapt to the features of the test image, but their performance is limited by the small amount of information used to train them. Here we propose "GainTuning", in which CNN models pre-trained on large datasets are adaptively and selectively adjusted for individual test images. To avoid overfitting, GainTuning optimizes a single multiplicative scaling parameter (the "Gain") of each channel in the convolutional layers of the CNN. We show that GainTuning improves state-of-the-art CNNs on standard image-denoising benchmarks, boosting their denoising performance on nearly every image in a held-out test set. These adaptive improvements are even more substantial for test images differing systematically from the training data, either in noise level or image type. We illustrate the potential of adaptive denoising in a scientific application, in which a CNN is trained on synthetic data, and tested on real transmission-electro n-microscope images. In contrast to the existing methodology, GainTuning is able to faithfully reconstruct the structure of catalytic nanoparticles from these data at extremely low signal-to-noise ratios.
翻訳日:2021-07-28 14:38:55 公開日:2021-07-27
# 臨床ctを用いた機械学習の品質評価ツール

Technical Report: Quality Assessment Tool for Machine Learning with Clinical CT ( http://arxiv.org/abs/2107.12842v1 )

ライセンス: Link先を確認
Riqiang Gao, Mirza S. Khan, Yucheng Tang, Kaiwen Xu, Steve Deppen, Yuankai Huo, Kim L. Sandler, Pierre P. Massion, Bennett A. Landman(参考訳) 画像品質評価(IQA)は科学的調査、特に医用画像や機械学習において重要である。 人間のワークフローがデジタルアーティファクトを隠蔽する可能性のあるデータの限られたビューを使用する場合、潜在的なデータ品質の問題が悪化する可能性がある。 実際には、ネットワーク問題、高速化された取得、モーションアーティファクト、イメージングプロトコル設計などの複数の要因が、画像収集の解釈を妨げる可能性がある。 医用画像処理コミュニティは、画像データの検査と検証のための多種多様なツールを開発した。 しかし、CT(Computerd tomography)のIQAは未認識の課題であり、これらの潜在的な問題に対処するためのユーザフレンドリなツールが一般には使用されていない。 そこで我々は,臨床的に得られたCTデータの大規模データマイニングで発生する問題を特定し,解決するためのパイプラインを作成した。 全国肺スクリーニング試験 (nlst) により, 17,392回のスキャンのうち, 画像量の約4%が品質に懸念があることが明らかとなった。 堅牢性を評価するために,提案するパイプラインを内部データセットに適用し,臨床で取得した医用画像に汎用性があることを確認した。 結論として、このツールは臨床データの研究に役立ち、時間節約に役立ち、コードとチュートリアルはhttps://github.com/m asilab/qa_toolで公開されている。

Image Quality Assessment (IQA) is important for scientific inquiry, especially in medical imaging and machine learning. Potential data quality issues can be exacerbated when human-based workflows use limited views of the data that may obscure digital artifacts. In practice, multiple factors such as network issues, accelerated acquisitions, motion artifacts, and imaging protocol design can impede the interpretation of image collections. The medical image processing community has developed a wide variety of tools for the inspection and validation of imaging data. Yet, IQA of computed tomography (CT) remains an under-recognized challenge, and no user-friendly tool is commonly available to address these potential issues. Here, we create and illustrate a pipeline specifically designed to identify and resolve issues encountered with large-scale data mining of clinically acquired CT data. Using the widely studied National Lung Screening Trial (NLST), we have identified approximately 4% of image volumes with quality concerns out of 17,392 scans. To assess robustness, we applied the proposed pipeline to our internal datasets where we find our tool is generalizable to clinically acquired medical images. In conclusion, the tool has been useful and time-saving for research study of clinical data, and the code and tutorials are publicly available at https://github.com/M ASILab/QA_tool.
翻訳日:2021-07-28 14:38:32 公開日:2021-07-27
# 無人地上車両の自律回収のためのリアルタイムキーポイント検出

Real-time Keypoints Detection for Autonomous Recovery of the Unmanned Ground Vehicle ( http://arxiv.org/abs/2107.12852v1 )

ライセンス: Link先を確認
Jie Li, Sheng Zhang, Kai Han, Xia Yuan, Chunxia Zhao, Yu Liu(参考訳) 小型無人地上機(ugv)と大型無人輸送機の組み合わせは、危険なシナリオでの救助のような実際の用途においてより柔軟である。 小型のUGVを空母車に誘導するために使用される自律回収システムは、両車両のシームレスな組み合わせを実現する上で不可欠な要素である。 本稿では,ナビゲーション中のUGVの正確な位置推定と姿勢推定を行うために,低コストな単眼視システムを備えた新しい自律回収フレームワークを提案する。 まず、単眼カメラで捉えた画像から小さなUGVのキーポイントを検出するために、UGV-KPNetと呼ばれる軽量畳み込みニューラルネットワークを導入する。 UGV-KPNetは少ないパラメータで計算効率が良く、リアルタイムに画素レベルの正確なキーポイント検出結果を提供する。 そして、検出されたキーポイントを用いて6自由度ポーズを推定し、UGVの位置及び姿勢情報を得る。 さらに、UGVの大規模実世界のキーポイントデータセットを最初に作成しました。 実験結果から,UGVキーポイント検出における精度と速度の両面での最先端性能を実現し,UGVの6-DoFポーズ推定をさらに促進できることが示された。

The combination of a small unmanned ground vehicle (UGV) and a large unmanned carrier vehicle allows more flexibility in real applications such as rescue in dangerous scenarios. The autonomous recovery system, which is used to guide the small UGV back to the carrier vehicle, is an essential component to achieve a seamless combination of the two vehicles. This paper proposes a novel autonomous recovery framework with a low-cost monocular vision system to provide accurate positioning and attitude estimation of the UGV during navigation. First, we introduce a light-weight convolutional neural network called UGV-KPNet to detect the keypoints of the small UGV from the images captured by a monocular camera. UGV-KPNet is computationally efficient with a small number of parameters and provides pixel-level accurate keypoints detection results in real-time. Then, six degrees of freedom pose is estimated using the detected keypoints to obtain positioning and attitude information of the UGV. Besides, we are the first to create a large-scale real-world keypoints dataset of the UGV. The experimental results demonstrate that the proposed system achieves state-of-the-art performance in terms of both accuracy and speed on UGV keypoint detection, and can further boost the 6-DoF pose estimation for the UGV.
翻訳日:2021-07-28 14:38:09 公開日:2021-07-27
# StarEnhancer: リアルタイムとスタイル対応の画像強調学習

StarEnhancer: Learning Real-Time and Style-Aware Image Enhancement ( http://arxiv.org/abs/2107.12898v1 )

ライセンス: Link先を確認
Yuda Song, Hui Qian, Xin Du(参考訳) 画像エンハンスメントはユーザの好みに応じてターゲットが変化する主観的プロセスである。 本稿では,starenhancerと呼ばれる単一モデルのみを用いて,複数の音声スタイルをカバーする深層学習に基づく画像強調手法を提案する。 たとえそのスタイルが見えないとしても、あるトーンのスタイルから別のスタイルに画像を変換することができる。 シンプルなワンタイム設定で、ユーザーはモデルをカスタマイズして、改善されたイメージをより美学に合わせて作成することができる。 そこで本研究では,200fps以上の4k解像度画像を処理できるが,psnr,ssim,lpipの点で,同時代のsingle style画像強調法を超越した,高度に設計されたエンハンサーを提案する。 最後に,提案手法は対話性が良好であり,ユーザが直感的オプションを用いて拡張画像の微調整を行うことができる。

Image enhancement is a subjective process whose targets vary with user preferences. In this paper, we propose a deep learning-based image enhancement method covering multiple tonal styles using only a single model dubbed StarEnhancer. It can transform an image from one tonal style to another, even if that style is unseen. With a simple one-time setting, users can customize the model to make the enhanced images more in line with their aesthetics. To make the method more practical, we propose a well-designed enhancer that can process a 4K-resolution image over 200 FPS but surpasses the contemporaneous single style image enhancement methods in terms of PSNR, SSIM, and LPIPS. Finally, our proposed enhancement method has good interactability, which allows the user to fine-tune the enhanced image using intuitive options.
翻訳日:2021-07-28 14:37:47 公開日:2021-07-27
# 実世界データによる自動運転のテイクオーバー時間予測:ロバストデータ強化,モデル,評価

Predicting Take-over Time for Autonomous Driving with Real-World Data: Robust Data Augmentation, Models, and Evaluation ( http://arxiv.org/abs/2107.12932v1 )

ライセンス: Link先を確認
Akshay Rangesh, Nachiket Deo, Ross Greer, Pujitha Gunaratne, Mohan M. Trivedi(参考訳) 乗用車自動化への安全なアプローチを確保するためには,制御遷移のモデル化による占有車間相互作用の理解が重要である。 ドライバー状態の文脈的意味的表現を含むモデルを用いて、ドライバーと車両間の制御の伝達の適切なタイミングと条件を決定することができる。 しかし、こうしたモデルは、注意をそらす活動に従事しているドライバーからの実際のコントロールの乗っ取りデータに依存しており、収集にはコストがかかる。 本稿では,このようなデータセットに対するデータ拡張方式を提案する。 統合データセットを用いて、異なるドライバ対面カメラビューで動作するコンピュータビジョンアルゴリズムによって生成される中高レベルの機能に対して順次動作するテイクオーバー時間(TOT)モデルを開発し、訓練し、初期データセットよりも優れたパフォーマンスを示す。 デモされたモデルでは、ドライバーの顔、手、足、上半身など、ドライバー状態の異なる側面をコード化している。 我々は,機能の組み合わせとモデルアーキテクチャに関するアブレーティブな実験を行い,拡張データによってサポートされているTOTモデルを,複雑な実世界のシナリオに適した,遅延のないテイクオーバ時間の連続的な推定に利用できることを示した。

Understanding occupant-vehicle interactions by modeling control transitions is important to ensure safe approaches to passenger vehicle automation. Models which contain contextual, semantically meaningful representations of driver states can be used to determine the appropriate timing and conditions for transfer of control between driver and vehicle. However, such models rely on real-world control take-over data from drivers engaged in distracting activities, which is costly to collect. Here, we introduce a scheme for data augmentation for such a dataset. Using the augmented dataset, we develop and train take-over time (TOT) models that operate sequentially on mid and high-level features produced by computer vision algorithms operating on different driver-facing camera views, showing models trained on the augmented dataset to outperform the initial dataset. The demonstrated model features encode different aspects of the driver state, pertaining to the face, hands, foot and upper body of the driver. We perform ablative experiments on feature combinations as well as model architectures, showing that a TOT model supported by augmented data can be used to produce continuous estimates of take-over times without delay, suitable for complex real-world scenarios.
翻訳日:2021-07-28 14:37:32 公開日:2021-07-27
# 時間的行動局所化のための局所的・グローバル的文脈の充実

Enriching Local and Global Contexts for Temporal Action Localization ( http://arxiv.org/abs/2107.12960v1 )

ライセンス: Link先を確認
Zixin Zhu (Xi'an jiaotong University), Wei Tang (University of Illinois at Chicago), Le Wang (Xi'an Jiaotong University), Nanning Zheng (Xi'an Jiaotong University), Gang Hua (Wormpex AI Research)(参考訳) 時間的行動ローカライゼーション(TAL)の問題に効果的に取り組むには、2つの相反する目標、すなわち時間的局所化のためのきめ細かい識別と、行動分類のための十分な視覚的不変性を共同で追求する視覚的表現が必要である。 この課題は、アクション提案が最初に生成され、次にアクション分類と時間境界回帰が続く2段階の時間的局所化フレームワークにおいて、ローカルコンテキストとグローバルコンテキストの両方を豊かにすることで解決される。 提案モデルはContextLocと呼ばれ,L-Net,G-Net,P-Netの3つのサブネットワークに分割できる。 L-Netは、クエリと検索のプロセスとして定式化されたスニペットレベルの機能のきめ細かいモデリングを通じて、ローカルコンテキストを豊かにする。 g-netは、ビデオレベルの表現の高レベルなモデリングを通じて、グローバルコンテキストを豊かにする。 さらに,グローバルコンテキストを異なる提案に適応させるために,新しいコンテキスト適応モジュールを導入する。 P-Netはさらにコンテキスト対応のプロトゾル間関係をモデル化する。 実験ではP-Netとなる2つの既存モデルを探索する。 提案手法の有効性は、thums14(iou@0.5で54.3\%)とactivitynet v1.3(iou@0.5で51.24\%)のデータセットにおける実験結果によって検証される。

Effectively tackling the problem of temporal action localization (TAL) necessitates a visual representation that jointly pursues two confounding goals, i.e., fine-grained discrimination for temporal localization and sufficient visual invariance for action classification. We address this challenge by enriching both the local and global contexts in the popular two-stage temporal localization framework, where action proposals are first generated followed by action classification and temporal boundary regression. Our proposed model, dubbed ContextLoc, can be divided into three sub-networks: L-Net, G-Net and P-Net. L-Net enriches the local context via fine-grained modeling of snippet-level features, which is formulated as a query-and-retrieval process. G-Net enriches the global context via higher-level modeling of the video-level representation. In addition, we introduce a novel context adaptation module to adapt the global context to different proposals. P-Net further models the context-aware inter-proposal relations. We explore two existing models to be the P-Net in our experiments. The efficacy of our proposed method is validated by experimental results on the THUMOS14 (54.3\% at IoU@0.5) and ActivityNet v1.3 (51.24\% at IoU@0.5) datasets, which outperforms recent states of the art.
翻訳日:2021-07-28 14:37:09 公開日:2021-07-27
# メガマンレベル生成のためのアンサンブル学習

Ensemble Learning For Mega Man Level Generation ( http://arxiv.org/abs/2107.12524v1 )

ライセンス: Link先を確認
Bowei Li, Ruohan Chen, Yuqing Xue, Ricky Wang, Wenwen Li, and Matthew Guzdial(参考訳) 機械学習による手続き的コンテンツ生成(PCGML)は、既存のゲームコンテンツに基づいて訓練されたモデルを用いて手続き的にゲームコンテンツを生成するプロセスである。 PCGML法は、基礎となるデータに存在する真の分散を単一のモデルで捉えるのに苦労する。 本稿では,マルコフ鎖のアンサンブルを用いて,emph{mega man}レベルを手続き的に生成する方法について検討した。 提案手法を最初に検討し,既存のマルコフ連鎖アプローチと比較し,遊びやすさとスタイル的類似性の評価を行った。

Procedural content generation via machine learning (PCGML) is the process of procedurally generating game content using models trained on existing game content. PCGML methods can struggle to capture the true variance present in underlying data with a single model. In this paper, we investigated the use of ensembles of Markov chains for procedurally generating \emph{Mega Man} levels. We conduct an initial investigation of our approach and evaluate it on measures of playability and stylistic similarity in comparison to a non-ensemble, existing Markov chain approach.
翻訳日:2021-07-28 14:36:17 公開日:2021-07-27
# LSTMを用いた学習者パスによるロードランナーレベルの生成

Generating Lode Runner Levels by Learning Player Paths with LSTMs ( http://arxiv.org/abs/2107.12532v1 )

ライセンス: Link先を確認
Kynan Sorochan, Jerry Chen, Yakun Yu, and Matthew Guzdial(参考訳) 機械学習は、手続き的コンテンツ生成など、さまざまな分野で人気があるツールだ。 しかし、機械学習(PCGML)アプローチによる手続き的コンテンツ生成は、制御性と一貫性に苦慮する可能性がある。 本稿では,人間的な経路を学習し,その経路に基づいてレベルを生成することによって,これらの問題に対処しようとする。 ゲームプレイ映像からプレイヤーパスデータを抽出し、LSTMをトレーニングし、このデータに基づいて新たなパスを生成し、このパスデータに基づいてゲームレベルを生成する。 我々は,既存のPCGMLアプローチと比較して,ゲームLode Runnerのコヒーレントなレベルが向上することが実証された。

Machine learning has been a popular tool in many different fields, including procedural content generation. However, procedural content generation via machine learning (PCGML) approaches can struggle with controllability and coherence. In this paper, we attempt to address these problems by learning to generate human-like paths, and then generating levels based on these paths. We extract player path data from gameplay video, train an LSTM to generate new paths based on this data, and then generate game levels based on this path data. We demonstrate that our approach leads to more coherent levels for the game Lode Runner in comparison to an existing PCGML approach.
翻訳日:2021-07-28 14:36:09 公開日:2021-07-27
# 暗黙的回避操作による自由障壁関数のモデル化

Model Free Barrier Functions via Implicit Evading Maneuvers ( http://arxiv.org/abs/2107.12871v1 )

ライセンス: Link先を確認
Eric Squires, Rohit Konda, Samuel Coogan, Magnus Egerstedt(参考訳) 本稿では,バリア関数の使用による安全性のオーバーライドが不要に制限されることを実証する。 特に, 固定翼衝突回避事例について検討し, バリア機能を使用する場合, バリア機能がない場合よりも2機の固定翼航空機が衝突に近づいた場合があることを示した。 さらに,車両が任意に離れる場合でも,バリア関数がシステムに安全でないとラベル付けするケースを構築する。 言い換えれば、バリア機能は安全性を保証するが、性能に不必要なコストを伴う。 そこで本研究では,データ駆動方式でバリア関数を生成するモデル自由バリア関数を提案する。 2機の固定翼航空機の衝突回避シミュレーションにおけるモデル自由障壁関数の有効性を示す。

This paper demonstrates that in some cases the safety override arising from the use of a barrier function can be needlessly restrictive. In particular, we examine the case of fixed wing collision avoidance and show that when using a barrier function, there are cases where two fixed wing aircraft can come closer to colliding than if there were no barrier function at all. In addition, we construct cases where the barrier function labels the system as unsafe even when the vehicles start arbitrarily far apart. In other words, the barrier function ensures safety but with unnecessary costs to performance. We therefore introduce model free barrier functions which take a data driven approach to creating a barrier function. We demonstrate the effectiveness of model free barrier functions in a collision avoidance simulation of two fixed-wing aircraft.
翻訳日:2021-07-28 14:35:41 公開日:2021-07-27
# CCGL: 対照的なカスケードグラフ学習

CCGL: Contrastive Cascade Graph Learning ( http://arxiv.org/abs/2107.12576v1 )

ライセンス: Link先を確認
Xovee Xu, Fan Zhou, Kunpeng Zhang, Siyuan Liu(参考訳) 教師付き学習は、情報カスケードモデリングによく使われるが、トレーニングでは豊富なラベル付きデータを必要とすることが多く、トレーニングされたモデルはタスクやデータセットをまたいで簡単に一般化できない。 半教師付き学習は、事前学習におけるカスケード理解のためのラベルなしデータを促進する。 しばしばきめ細かい機能レベルの表現を学習し、ダウンストリームタスクの過度な適合をもたらす可能性がある。 近年,言語課題と視覚課題の2つの根本的な問題を緩和するために,コントラスト型自己教師学習が設計されている。 しかし、カスケードモデリング、特にグラフカスケード関連タスクへの直接適用性は未解明のままである。 本研究では,コントラストグラフ表現学習のための新しいフレームワークであるコントラストカスケードグラフ学習(ccgl)を提案する。 特に、CCGLは、変動と不確実性を捉える効果的なデータ拡張戦略を最初に設計した。 次に、ラベルなしデータとラベル付きデータの両方を使用して、自己教師付きコントラストプレトレーニングを通じてグラフカスケードタスクのジェネリックモデルを学ぶ。 第3に、CCGLはラベル付きデータを用いた微調整によりタスク固有のカスケードモデルを学習する。 最後に、データセットやカスケードアプリケーション間でモデルを転送できるようにするため、CCGLは教師/学生アーキテクチャを使用した蒸留によりモデルをさらに強化する。 CCGLは、いくつかの下流タスクにおいて、教師付きおよび半教師付きタスクを著しく上回っていることを示す。

Supervised learning, while prevalent for information cascade modeling, often requires abundant labeled data in training, and the trained model is not easy to generalize across tasks and datasets. Semi-supervised learning facilitates unlabeled data for cascade understanding in pre-training. It often learns fine-grained feature-level representations, which can easily result in overfitting for downstream tasks. Recently, contrastive self-supervised learning is designed to alleviate these two fundamental issues in linguistic and visual tasks. However, its direct applicability for cascade modeling, especially graph cascade related tasks, remains underexplored. In this work, we present Contrastive Cascade Graph Learning (CCGL), a novel framework for cascade graph representation learning in a contrastive, self-supervised, and task-agnostic way. In particular, CCGL first designs an effective data augmentation strategy to capture variation and uncertainty. Second, it learns a generic model for graph cascade tasks via self-supervised contrastive pre-training using both unlabeled and labeled data. Third, CCGL learns a task-specific cascade model via fine-tuning using labeled data. Finally, to make the model transferable across datasets and cascade applications, CCGL further enhances the model via distillation using a teacher-student architecture. We demonstrate that CCGL significantly outperforms its supervised and semi-supervised counterpartsfor several downstream tasks.
翻訳日:2021-07-28 14:35:30 公開日:2021-07-27
# 産業用プライベートAIを目指して - データとモデルセキュリティのための2層フレームワーク

Towards Industrial Private AI: A two-tier framework for data and model security ( http://arxiv.org/abs/2107.12806v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Kapal Dev, Nawab Muhammad Faseeh Qureshi, Parus Khuwaja, Luca Foschini(参考訳) 5GやIoTデバイスの進歩に伴い、業界は分類と予測ベースのサービスを改善するために人工知能(AI)技術を大いに採用している。 しかし、AIの使用はまた、データプライバシとセキュリティに関する懸念を提起し、誤用または漏洩する可能性がある。 プライベートaiは、aiと暗号化技術を組み合わせたデータセキュリティ問題に対処するために最近作られたが、既存の研究から、モデルパラメータからイメージをリバースエンジニアリングするためにモデルインバージョンアタックが使用できることが示されている。 そこで本研究では,IIoT環境におけるデータとモデルパラメータの2層セキュリティを提供する,FLEP(Federated Learning and encryption-based private)AIフレームワークを提案する。 データセキュリティのための3層暗号化手法を提案し、モデルパラメータをセキュアにするための仮説的手法を提供した。 実験の結果,提案手法は実行時間の増加を犠牲にして,より優れた暗号品質が得られることがわかった。 FLEP AIフレームワークの実現に関して、いくつかのオープンな問題と課題も強調した。

With the advances in 5G and IoT devices, the industries are vastly adopting artificial intelligence (AI) techniques for improving classification and prediction-based services. However, the use of AI also raises concerns regarding data privacy and security that can be misused or leaked. Private AI was recently coined to address the data security issue by combining AI with encryption techniques but existing studies have shown that model inversion attacks can be used to reverse engineer the images from model parameters. In this regard, we propose a federated learning and encryption-based private (FLEP) AI framework that provides two-tier security for data and model parameters in an IIoT environment. We proposed a three-layer encryption method for data security and provided a hypothetical method to secure the model parameters. Experimental results show that the proposed method achieves better encryption quality at the expense of slightly increased execution time. We also highlighted several open issues and challenges regarding the FLEP AI framework's realization.
翻訳日:2021-07-28 14:35:11 公開日:2021-07-27
# PDF-Malware: 脅威、検出、侵入攻撃の概要

PDF-Malware: An Overview on Threats, Detection and Evasion Attacks ( http://arxiv.org/abs/2107.12873v1 )

ライセンス: Link先を確認
Nicolas Fleury, Theo Dubrunquez and Ihsen Alouani(参考訳) 近年、PDFとして知られるポータブルドキュメントフォーマットは、文書交換と普及のための民主化標準となっている。 この傾向は、プラットフォーム間の柔軟性やポータビリティなど、その特徴によるものだ。 pdfの普及により、良性ユーザの間で固有の安全性という誤った印象が導入された。 しかし、pdfの特徴は、ハッカーが様々な種類の脆弱性を悪用し、セキュリティ保護を克服し、pdfフォーマットを最も効率的な悪意のあるコード攻撃ベクターにすることを促した。 したがって、悪意のあるpdfファイルを効率的に検出することは情報セキュリティにとって重要である。 静的あるいは動的に、マルウェアファイルと良性ファイルの区別を可能にする主要な特徴を抽出するために、いくつかの分析技術が文献で提案されている。 従来の解析手法はゼロデイの場合に制限される可能性があるため、機械学習ベースの技術は、トレーニングサンプルのセットから一般化できる自動pdfマルウェア検出法として最近登場している。 これらのテクニックは、悪意のあるpdfが良質に見えるように変換される、回避攻撃の課題に直面している。 本稿では,pdf-malware 検出問題の概要について述べる。 新たな課題と新たなソリューションに対する視点を与えます。

In the recent years, Portable Document Format, commonly known as PDF, has become a democratized standard for document exchange and dissemination. This trend has been due to its characteristics such as its flexibility and portability across platforms. The widespread use of PDF has installed a false impression of inherent safety among benign users. However, the characteristics of PDF motivated hackers to exploit various types of vulnerabilities, overcome security safeguards, thereby making the PDF format one of the most efficient malicious code attack vectors. Therefore, efficiently detecting malicious PDF files is crucial for information security. Several analysis techniques has been proposed in the literature, be it static or dynamic, to extract the main features that allow the discrimination of malware files from benign ones. Since classical analysis techniques may be limited in case of zero-days, machine-learning based techniques have emerged recently as an automatic PDF-malware detection method that is able to generalize from a set of training samples. These techniques are themselves facing the challenge of evasion attacks where a malicious PDF is transformed to look benign. In this work, we give an overview on the PDF-malware detection problem. We give a perspective on the new challenges and emerging solutions.
翻訳日:2021-07-28 14:34:55 公開日:2021-07-27
# エッジでの高能率映像解析のための並列検出

Parallel Detection for Efficient Video Analytics at the Edge ( http://arxiv.org/abs/2107.12563v1 )

ライセンス: Link先を確認
Yanzhao Wu, Ling Liu, Ramana Kompella(参考訳) ディープニューラルネットワーク(DNN)訓練対象検出器は、自動運転やビデオ監視など、エッジでのリアルタイムビデオ分析のために、多くのミッションクリティカルシステムに広くデプロイされている。 これらのミッションクリティカルエッジサービスで一般的なパフォーマンス要件は、エッジデバイス上のオンラインオブジェクト検出のほぼリアルタイムのレイテンシである。 しかし、十分に訓練されたDNNオブジェクト検出器であっても、異種エッジデバイス上でDNNオブジェクト検出モデルを実行する能力の制限や、検出処理速度が着信ビデオフレームレートよりも大幅に遅い場合のランダムフレーム低下による検出品質低下など、エッジでのオンライン検出品質が劣化する可能性がある。 本稿では,異種エッジデバイスを用いたエッジシステムにおける高速物体検出のためのマルチモデルマルチデバイス検出並列処理を活用し,この問題に対処する。 まず,よく訓練されたDNNモデルをエッジで実行することで,リアルタイムオンラインオブジェクト検出の性能ボトルネックを分析する。 オフライン検出を参照モデルとして使用し,映像ストリーミングのリアルタイム検出可視化において,受信した映像ストリーミングレート,オブジェクト検出のための映像処理レート,出力レートのミスマッチを分析し,根本原因を検証した。 次に,マルチモデル検出並列処理による性能最適化について検討する。 モデル並列検出手法はFPS検出処理速度を効果的に高速化し,不均一エッジデバイス上での映像フレームレートとの差を最小限に抑える。 提案手法をssd300とyolov3を用いてビデオストリームレートの異なるベンチマークビデオで評価した。 その結果,マルチモデル検出並列処理の活用により,オンラインオブジェクト検出処理速度が向上し,リアルタイムに近いオブジェクト検出性能が得られた。

Deep Neural Network (DNN) trained object detectors are widely deployed in many mission-critical systems for real time video analytics at the edge, such as autonomous driving and video surveillance. A common performance requirement in these mission-critical edge services is the near real-time latency of online object detection on edge devices. However, even with well-trained DNN object detectors, the online detection quality at edge may deteriorate for a number of reasons, such as limited capacity to run DNN object detection models on heterogeneous edge devices, and detection quality degradation due to random frame dropping when the detection processing rate is significantly slower than the incoming video frame rate. This paper addresses these problems by exploiting multi-model multi-device detection parallelism for fast object detection in edge systems with heterogeneous edge devices. First, we analyze the performance bottleneck of running a well-trained DNN model at edge for real time online object detection. We use the offline detection as a reference model, and examine the root cause by analyzing the mismatch among the incoming video streaming rate, video processing rate for object detection, and output rate for real time detection visualization of video streaming. Second, we study performance optimizations by exploiting multi-model detection parallelism. We show that the model-parallel detection approach can effectively speed up the FPS detection processing rate, minimizing the FPS disparity with the incoming video frame rate on heterogeneous edge devices. We evaluate the proposed approach using SSD300 and YOLOv3 on benchmark videos of different video stream rates. The results show that exploiting multi-model detection parallelism can speed up the online object detection processing rate and deliver near real-time object detection performance for efficient video analytics at edge.
翻訳日:2021-07-28 14:33:20 公開日:2021-07-27
# CNNに基づくCMRのマルチクラスセグメンテーションのための持続的ホモロジーに基づくトポロジ損失

A persistent homology-based topological loss for CNN-based multi-class segmentation of CMR ( http://arxiv.org/abs/2107.12689v1 )

ライセンス: Link先を確認
Nick Byrne, James R Clough, Isra Valverde, Giovanni Montana, Andrew P King(参考訳) 心臓磁気共鳴(CMR)画像のマルチクラスセグメンテーションは、既知の構造と構成を持つ解剖学的構成要素にデータの分離を求める。 最も一般的なCNNベースの手法は、解剖を特徴付ける空間的に拡張された特徴を無視した画素ワイズ損失関数を用いて最適化されている。 したがって、高い空間的重なり合いと基底真理を共有する一方で、推定されたcnnベースのセグメンテーションは、散発的な連結成分、穴、空虚を含むコヒーレンスを欠く。 このような結果はあり得ず、予測解剖学的トポロジーに違反している。 これに対し、(シングルクラス)永続ホモロジーに基づく損失関数は、グローバルな解剖学的特徴を捉えるために提案されている。 我々の研究はこれらのアプローチを多クラスセグメンテーションの課題に拡張する。 全てのクラスラベルとクラスラベルペアの豊富なトポロジ記述を構築することで、ロス関数はCNNベースの後処理フレームワークを用いて、セグメンテーショントポロジの予測および統計的に重要な改善を行う。 また,立方体コンプレックスと並列実行に基づく高度に効率的な実装を提示し,高分解能3dデータ内で初めて実用的なアプリケーションを実現する。 我々は2次元短軸と3次元全心CMRセグメンテーションのアプローチを実証し、2つの公開データセットのパフォーマンスを詳細に忠実に分析した。

Multi-class segmentation of cardiac magnetic resonance (CMR) images seeks a separation of data into anatomical components with known structure and configuration. The most popular CNN-based methods are optimised using pixel wise loss functions, ignorant of the spatially extended features that characterise anatomy. Therefore, whilst sharing a high spatial overlap with the ground truth, inferred CNN-based segmentations can lack coherence, including spurious connected components, holes and voids. Such results are implausible, violating anticipated anatomical topology. In response, (single-class) persistent homology-based loss functions have been proposed to capture global anatomical features. Our work extends these approaches to the task of multi-class segmentation. Building an enriched topological description of all class labels and class label pairs, our loss functions make predictable and statistically significant improvements in segmentation topology using a CNN-based post-processing framework. We also present (and make available) a highly efficient implementation based on cubical complexes and parallel execution, enabling practical application within high resolution 3D data for the first time. We demonstrate our approach on 2D short axis and 3D whole heart CMR segmentation, advancing a detailed and faithful analysis of performance on two publicly available datasets.
翻訳日:2021-07-28 14:32:50 公開日:2021-07-27
# ACT-Rによる説得的・倫理的スタンスを管理するストーリーテリングロボットの探索的研究

A Storytelling Robot managing Persuasive and Ethical Stances via ACT-R: an Exploratory Study ( http://arxiv.org/abs/2107.12845v1 )

ライセンス: Link先を確認
Agnese Augello, Giuseppe Citt\`a, Manuel Gentile, Antonio Lieto(参考訳) 本稿では、ACT-R認知アーキテクチャを介して制御されるストーリーテリングロボットについて、新型コロナウイルスに関するいくつかの話題を議論しながら、異なる説得的手法と倫理的スタンスを採用することができる。 論文の主な貢献は、対話の間、エージェント手続き記憶で利用可能な説得力のあるテクニックの使用(もしあれば)をガイドし、評価するニーズ駆動モデルの提案である。 このようなモデルでテストされた説得的手法のポートフォリオは、ストーリーテリングの使用からフレーミング技法や修辞的な議論まで様々である。 私たちの知る限りでは、これは対話管理、ストーリーテリング、説得力のある技術、倫理的態度に関する明確な認知的仮定を統合できる説得力のあるエージェントを構築する最初の試みです。 本稿では,63名を対象にしたシステムの探索的評価結果について述べる。

We present a storytelling robot, controlled via the ACT-R cognitive architecture, able to adopt different persuasive techniques and ethical stances while conversing about some topics concerning COVID-19. The main contribution of the paper consists in the proposal of a needs-driven model that guides and evaluates, during the dialogue, the use (if any) of persuasive techniques available in the agent procedural memory. The portfolio of persuasive techniques tested in such a model ranges from the use of storytelling, to framing techniques and rhetorical-based arguments. To the best of our knowledge, this represents the first attempt of building a persuasive agent able to integrate a mix of explicitly grounded cognitive assumptions about dialogue management, storytelling and persuasive techniques as well as ethical attitudes. The paper presents the results of an exploratory evaluation of the system on 63 participants
翻訳日:2021-07-28 14:32:28 公開日:2021-07-27
# Predictive Coding:理論的および実験的レビュー

Predictive Coding: a Theoretical and Experimental Review ( http://arxiv.org/abs/2107.12979v1 )

ライセンス: Link先を確認
Beren Millidge, Anil Seth, Christopher L Buckley(参考訳) 予測コーディングは、脳の中核機能は、世界の生成モデルに関して予測誤差を最小化することであると仮定する、皮質機能の潜在的統一的な説明を提供する。 この理論はベイズ人の脳の枠組みと密接に関連しており、過去20年間、理論と認知神経科学の分野に大きな影響を与えてきた。 大規模な研究は、改良された理論と拡張された予測符号化の数学的モデルの両方を実証的に検証し、また、脳における実装に対する潜在的な生物学的妥当性と、理論によってなされる具体的な神経生理学的および心理学的予測を評価することに基づいている。 しかし、この持続的な人気にもかかわらず、予測符号化理論、特にこの分野での最近の発展に関する包括的なレビューは存在しない。 ここでは、予測符号化のコアとなる数学的構造と論理の両方を包括的にレビューし、最近の文献のチュートリアルを補完する。 また,予測符号化を実装可能な神経生物学的に現実的なマイクロ回路から,予測符号化と広く使用されている誤りアルゴリズムのバックプロパゲーションとの密接な関係,予測符号化と現代の機械学習技術との密接な関係を調査した。

Predictive coding offers a potentially unifying account of cortical function -- postulating that the core function of the brain is to minimize prediction errors with respect to a generative model of the world. The theory is closely related to the Bayesian brain framework and, over the last two decades, has gained substantial influence in the fields of theoretical and cognitive neuroscience. A large body of research has arisen based on both empirically testing improved and extended theoretical and mathematical models of predictive coding, as well as in evaluating their potential biological plausibility for implementation in the brain and the concrete neurophysiological and psychological predictions made by the theory. Despite this enduring popularity, however, no comprehensive review of predictive coding theory, and especially of recent developments in this field, exists. Here, we provide a comprehensive review both of the core mathematical structure and logic of predictive coding, thus complementing recent tutorials in the literature. We also review a wide range of classic and recent work within the framework, ranging from the neurobiologically realistic microcircuits that could implement predictive coding, to the close relationship between predictive coding and the widely-used backpropagation of error algorithm, as well as surveying the close relationships between predictive coding and modern machine learning techniques.
翻訳日:2021-07-28 14:32:13 公開日:2021-07-27
# 深部ReLUネットワークの収束性

Convergence of Deep ReLU Networks ( http://arxiv.org/abs/2107.12530v1 )

ライセンス: Link先を確認
Yuesheng Xu and Haizhang Zhang(参考訳) ネットワークの深度が無限大になる傾向にあるため,ReLUアクティベーション関数を用いたディープニューラルネットワークの収束について検討する。 そこで,本稿では,reluネットワークの活性化ドメインと活性化行列の概念を紹介する。 アクティベーション領域上でのアクティベーション行列との乗算により、ReLUアクティベーション関数の適用を置き換えることで、ReLUネットワークの明示的な表現を得る。 次に、ReLUネットワークの収束を、行列の無限積のクラス収束とみなす。 これらの行列の無限積の収束に十分かつ必要な条件について研究する。 その結果、重み行列の列が恒等行列に収束し、バイアスベクトルの列が零に収束し、reluネットワークの深さが無限大に増加するために、reluネットワークが収束するために必要な条件が確立される。 さらに,隠れ層における重み行列とバイアスベクトルの観点から,深いReLUネットワークの点収束に十分な条件を得る。 これらの結果は、画像分類におけるよく知られたディープ残差ネットワークの設計戦略に関する数学的洞察を与える。

We explore convergence of deep neural networks with the popular ReLU activation function, as the depth of the networks tends to infinity. To this end, we introduce the notion of activation domains and activation matrices of a ReLU network. By replacing applications of the ReLU activation function by multiplications with activation matrices on activation domains, we obtain an explicit expression of the ReLU network. We then identify the convergence of the ReLU networks as convergence of a class of infinite products of matrices. Sufficient and necessary conditions for convergence of these infinite products of matrices are studied. As a result, we establish necessary conditions for ReLU networks to converge that the sequence of weight matrices converges to the identity matrix and the sequence of the bias vectors converges to zero as the depth of ReLU networks increases to infinity. Moreover, we obtain sufficient conditions in terms of the weight matrices and bias vectors at hidden layers for pointwise convergence of deep ReLU networks. These results provide mathematical insights to the design strategy of the well-known deep residual networks in image classification.
翻訳日:2021-07-28 14:30:49 公開日:2021-07-27
# 肝疾患の分類精度向上のためのリアル超音波画像合成

Realistic Ultrasound Image Synthesis for Improved Classification of Liver Disease ( http://arxiv.org/abs/2107.12775v1 )

ライセンス: Link先を確認
Hui Che, Sumana Ramanathan, David Foran, John L Nosher, Vishal M Patel, Ilker Hacihaliloglu(参考訳) 画像解析における深層学習法の成功により,超音波(us)データから肝疾患を分類する畳み込みニューラルネットワーク(cnns)が研究されている。 しかし、米国内の大規模ラベル付きデータの不足は、米国内のデータから肝疾患を分類するCNNの成功を妨げている。 本研究では, 現実的な疾患と健康な肝臓画像合成のための新しいGANアーキテクチャを提案する。 我々は,リアルな肝USデータを合成するために積み重ねの概念を採用する。 55名から採取したビボbモード肝us画像550例について定量的・質的評価を行った。 また,非アルコール性脂肪性肝疾患(NAFLD)分類における従来のCNNアーキテクチャの性能向上のために,合成画像と実際の生体内データとの併用が有効であることを示した。

With the success of deep learning-based methods applied in medical image analysis, convolutional neural networks (CNNs) have been investigated for classifying liver disease from ultrasound (US) data. However, the scarcity of available large-scale labeled US data has hindered the success of CNNs for classifying liver disease from US data. In this work, we propose a novel generative adversarial network (GAN) architecture for realistic diseased and healthy liver US image synthesis. We adopt the concept of stacking to synthesize realistic liver US data. Quantitative and qualitative evaluation is performed on 550 in-vivo B-mode liver US images collected from 55 subjects. We also show that the synthesized images, together with real in vivo data, can be used to significantly improve the performance of traditional CNN architectures for Nonalcoholic fatty liver disease (NAFLD) classification.
翻訳日:2021-07-28 14:30:33 公開日:2021-07-27
# 到達可能性法を用いた浅層ニューラルネットワークの学習のためのロバスト最適化フレームワーク

Robust Optimization Framework for Training Shallow Neural Networks Using Reachability Method ( http://arxiv.org/abs/2107.12801v1 )

ライセンス: Link先を確認
Yejiang Yang, Weiming Xiang(参考訳) 本稿では,ニューラルネットワークの到達可能性解析に基づく浅層ニューラルネットワークの学習のためのロバスト最適化フレームワークを開発した。 入力データのノイズを特徴付けるために、間隔集合の記述において入力訓練データが乱される。 次に、インターバルベース到達可能性解析を隠れた層に対して行う。 到達可能性分析の結果,ロバスト最小二乗問題の枠組みにおいてロバスト最適化トレーニング手法が開発された。 そして、開発されたロバスト最小二乗問題は半定値プログラミング問題に緩和される。 開発した頑健な学習手法により,ある程度のトレーニング精度の喪失により,摂動に対する堅牢性が向上することが示されている。 最後に,ロボットアームモデル学習例を用いて提案手法の評価を行った。

In this paper, a robust optimization framework is developed to train shallow neural networks based on reachability analysis of neural networks. To characterize noises of input data, the input training data is disturbed in the description of interval sets. Interval-based reachability analysis is then performed for the hidden layer. With the reachability analysis results, a robust optimization training method is developed in the framework of robust least-square problems. Then, the developed robust least-square problem is relaxed to a semidefinite programming problem. It has been shown that the developed robust learning method can provide better robustness against perturbations at the price of loss of training accuracy to some extent. At last, the proposed method is evaluated on a robot arm model learning example.
翻訳日:2021-07-28 14:30:19 公開日:2021-07-27
# ベイズ最適化による逐次実験設計と添加物製造への応用

Bayesian Optimisation for Sequential Experimental Design with Applications in Additive Manufacturing ( http://arxiv.org/abs/2107.12809v1 )

ライセンス: Link先を確認
Mimi Zhang, Andrew Parnell, Dermot Brabazon, Alessio Benavoli(参考訳) ベイズ最適化 (bayesian optimization, bo) は、評価に費用がかかるブラックボックス目的関数をグローバルに最適化するアプローチである。 BOによる実験設計は、材料科学、化学、実験物理学、薬物開発などに広く応用されている。 この研究は、BOを設計実験に適用することの利点に注意を向けることを目的としており、BOを適用または学習したい人のために、方法論とソフトウェアの両方をカバーするBOマニュアルを提供することを目的としている。 特にBOの技法を簡潔に説明し、加法製造におけるBOのすべての応用をレビューし、異なるオープンBOライブラリの機能を比較して実演し、BOの潜在的な他の種類のデータ(例えば、優先出力)をアンロックする。 この記事では、ベイズ的手法をある程度理解した読者を対象としているが、必ずしも付加的な製造に関する知識を持っているわけではない。 さらに, 添加性製造分野のレビューでは, BOの現在の知識と技術動向が注目されている。

Bayesian optimization (BO) is an approach to globally optimizing black-box objective functions that are expensive to evaluate. BO-powered experimental design has found wide application in materials science, chemistry, experimental physics, drug development, etc. This work aims to bring attention to the benefits of applying BO in designing experiments and to provide a BO manual, covering both methodology and software, for the convenience of anyone who wants to apply or learn BO. In particular, we briefly explain the BO technique, review all the applications of BO in additive manufacturing, compare and exemplify the features of different open BO libraries, unlock new potential applications of BO to other types of data (e.g., preferential output). This article is aimed at readers with some understanding of Bayesian methods, but not necessarily with knowledge of additive manufacturing; the software performance overview and implementation instructions are instrumental for any experimental-design practitioner. Moreover, our review in the field of additive manufacturing highlights the current knowledge and technological trends of BO.
翻訳日:2021-07-28 14:30:11 公開日:2021-07-27
# FPGA上のエッジ領域適応のための奥行き分離可能な畳み込みを有する低コストニューラルネットワーク

A Low-Cost Neural ODE with Depthwise Separable Convolution for Edge Domain Adaptation on FPGAs ( http://arxiv.org/abs/2107.12824v1 )

ライセンス: Link先を確認
Hiroki Kawakami, Hirohisa Watanabe, Keisuke Sugiura, Hiroki Matsutani(参考訳) エッジ環境では高性能なディープニューラルネットワークが要求されているが、エッジデバイスでは計算資源が厳密に制限されており、Depthwise Separable Convolution (DSC)のような軽量ニューラルネットワーク技術が開発されている。 resnetは、多くの層とパラメータを高い精度で積み重ねる、従来のディープニューラルネットワークモデルの1つである。 ResNetのパラメータサイズを減らすために、ODE(正規微分方程式)と類似性を利用して、Neural ODEは、多くの異なるパラメータを持つのではなく、ほとんどの重みパラメータを繰り返し使用する。 これにより、Neural ODEはResNetと比較して大幅に小さくなり、リソース制限のエッジデバイスで実装できる。 本稿では、FPGA(Field-Programma ble Gate Arrays)向けに、Neural ODEとDSCを組み合わせたdsODENetを設計、実装する。 dsODENetはエッジドメイン適応に実用的なユースケースとして適用され、画像分類データセットで評価される。 Xilinx ZCU104基板上に実装され、ドメイン適応精度、トレーニング速度、FPGAリソース利用率、ソフトウェアの実行速度などの観点から評価される。 その結果、dsODENetはドメイン適応の正確さの観点から、ベースラインのNeural ODE実装と同等かわずかに良いが、前処理層と後処理層の合計パラメータサイズは54.2%減少して79.8%となった。 FPGAの実装は、予測タスクをソフトウェア実装の27.9倍高速化する。

Although high-performance deep neural networks are in high demand in edge environments, computation resources are strictly limited in edge devices, and light-weight neural network techniques, such as Depthwise Separable Convolution (DSC), have been developed. ResNet is one of conventional deep neural network models that stack a lot of layers and parameters for a higher accuracy. To reduce the parameter size of ResNet, by utilizing a similarity to ODE (Ordinary Differential Equation), Neural ODE repeatedly uses most of weight parameters instead of having a lot of different parameters. Thus, Neural ODE becomes significantly small compared to that of ResNet so that it can be implemented in resource-limited edge devices. In this paper, a combination of Neural ODE and DSC, called dsODENet, is designed and implemented for FPGAs (Field-Programmable Gate Arrays). dsODENet is then applied to edge domain adaptation as a practical use case and evaluated with image classification datasets. It is implemented on Xilinx ZCU104 board and evaluated in terms of domain adaptation accuracy, training speed, FPGA resource utilization, and speedup rate compared to a software execution. The results demonstrate that dsODENet is comparable to or slightly better than our baseline Neural ODE implementation in terms of domain adaptation accuracy, while the total parameter size without pre- and post-processing layers is reduced by 54.2% to 79.8%. The FPGA implementation accelerates the prediction tasks by 27.9 times faster than a software implementation.
翻訳日:2021-07-28 14:29:53 公開日:2021-07-27
# ガラス箱物理則学習器を用いた地震の位置・大きさ予測のための初期基礎

Initial Foundation for Predicting Individual Earthquake's Location and Magnitude by Using Glass-Box Physics Rule Learner ( http://arxiv.org/abs/2107.12915v1 )

ライセンス: Link先を確認
In Ho Cho(参考訳) 研究者たちは地震発生と地震データに関する知識を蓄積したが、特定の時間と場所における差し迫った個々の地震を予測することは長年の謎のままである。 この研究は、観測されたデータが(ブラックボックスの)新しい物理ルール学習器(gprl)フレームワークによって解かれる可能性のある隠れたルールを隠すことを仮定している。 事前定義された地震関連メカニズムや統計法則がなければ、GPRLの2つの必須事項である情報インデックスと透明リンク関数は、データから直接規則の一般的な表現を求める。 GPRLの10年のデータによるトレーニングは、可算的な規則を識別し、リソスフェア内の放出エネルギーの擬似力と擬似渦の組合せを示唆している。 独立実現可能性試験は、地震の規模とその特定の位置を予測するための未発見の規則の有望な役割を支持する。 特定されたルールとGPRLは、その初期段階でかなりの改善を必要としている。 しかし,本研究は地震予知のためのデータ誘導型隠れ経路の存在を示唆する。

Although researchers accumulated knowledge about seismogenesis and decades-long earthquake data, predicting imminent individual earthquakes at a specific time and location remains a long-standing enigma. This study hypothesizes that the observed data conceal the hidden rules which may be unraveled by a novel glass-box (as opposed to black-box) physics rule learner (GPRL) framework. Without any predefined earthquake-related mechanisms or statistical laws, GPRL's two essentials, convolved information index and transparent link function, seek generic expressions of rules directly from data. GPRL's training with 10-years data appears to identify plausible rules, suggesting a combination of the pseudo power and the pseudo vorticity of released energy in the lithosphere. Independent feasibility test supports the promising role of the unraveled rules in predicting earthquakes' magnitudes and their specific locations. The identified rules and GPRL are in their infancy requiring substantial improvement. Still, this study hints at the existence of the data-guided hidden pathway to imminent individual earthquake prediction.
翻訳日:2021-07-28 14:29:25 公開日:2021-07-27
# learning numeric optimal differentially truncated additive mechanism(英語)

Learning Numeric Optimal Differentially Private Truncated Additive Mechanisms ( http://arxiv.org/abs/2107.12957v1 )

ライセンス: Link先を確認
David M. Sommer, Lukas Abfalterer, Sheila Zingg and Esfandiar Mohammadi(参考訳) 異なるプライベート(DP)メカニズムは、入力を保護しながら正確な結果を提供するという課題に直面している。 DPの単純だが強力なテクニックは、感度に縛られたクエリ出力にノイズを加えて、正確なクエリ出力を曖昧にする。 膨大な量の作業が無限に広いノイズ分布を考慮しているが、いくつかのアプリケーション(例えばリアルタイムオペレーティングシステム)は実際のクエリからの逸脱にハードバウンドを必要とし、そのようなメカニズムに関する限られた作業しか存在しない。 遮断されたノイズ(すなわち有界範囲)を持つ付加的なメカニズムは、そのようなハード境界を提供することができる。 本稿では,逐次構成下でのディファレンシャルプライバシの最適化,すなわち同一データに対する複数のノイズクエリが露呈するシナリオを同時に行うとともに,強力なユーティリティ境界を持つ付加機構の停止音を学習する勾配descent-based toolを提案する。 本手法は,事前定義された確率分布のハイパーパラメータだけでなく,離散雑音パターンも学習できる。 感度の有界なメカニズムについては、一対の代表的クエリ出力に対するプライバシの確保は、すべての入力のプライバシを保証する(1つの要素で異なる)。 生成したノイズのユーティリティ・プライバシーのトレードオフ曲線は、ガウス型に非常に近いため、その形状をl_2$ユーティリティー損失で再現することもできます。 少ない構成でdp-sgd (sub-sampling) も改善した。 さらに,モーメント会計を停止分布に拡張することで,入力依存ゼロ発生確率の異なる機構出力イベントを組み込むことができる。

Differentially private (DP) mechanisms face the challenge of providing accurate results while protecting their inputs: the privacy-utility trade-off. A simple but powerful technique for DP adds noise to sensitivity-bounded query outputs to blur the exact query output: additive mechanisms. While a vast body of work considers infinitely wide noise distributions, some applications (e.g., real-time operating systems) require hard bounds on the deviations from the real query, and only limited work on such mechanisms exist. An additive mechanism with truncated noise (i.e., with bounded range) can offer such hard bounds. We introduce a gradient-descent-bas ed tool to learn truncated noise for additive mechanisms with strong utility bounds while simultaneously optimizing for differential privacy under sequential composition, i.e., scenarios where multiple noisy queries on the same data are revealed. Our method can learn discrete noise patterns and not only hyper-parameters of a predefined probability distribution. For sensitivity bounded mechanisms, we show that it is sufficient to consider symmetric and that\new{, for from the mean monotonically falling noise,} ensuring privacy for a pair of representative query outputs guarantees privacy for all pairs of inputs (that differ in one element). We find that the utility-privacy trade-off curves of our generated noise are remarkably close to truncated Gaussians and even replicate their shape for $l_2$ utility-loss. For a low number of compositions, we also improved DP-SGD (sub-sampling). Moreover, we extend Moments Accountant to truncated distributions, allowing to incorporate mechanism output events with varying input-dependent zero occurrence probability.
翻訳日:2021-07-28 14:29:06 公開日:2021-07-27
# 深部ニューラルネットワークによる伝送線路の絶縁損失の物理強制モデリング

Physics-Enforced Modeling for Insertion Loss of Transmission Lines by Deep Neural Networks ( http://arxiv.org/abs/2107.12527v1 )

ライセンス: Link先を確認
Liang Chen, Lesley Tan(参考訳) 本稿では,設計パラメータに関する伝送線路の挿入損失に関するデータ駆動パラメータモデルについて検討する。 まず,ニューラルネットワークの直接的応用が非物理モデルに負の挿入損失をもたらすことを示した。 この問題を軽減するために,我々は2つのディープラーニングソリューションを提案する。 1つの解決策は、受動的条件を表す規制項を最終損失関数に追加し、挿入損失の負の量を強制することである。 第2の手法では,3次多項式式をまず定義し,正性を確保し,挿入損失を近似し,関数とシステムモデリングのために最近提案されたディープネトニューラルネットワーク構造を用いて多項式の係数をモデル化した。 得られたニューラルネットワークを用いて多項式表現の係数を予測する。 PCB設計のオープンソースSI/PIデータベースを用いた実験結果から, 挿入損失の正性を保証することができることがわかった。 さらに, いずれの手法も同様の予測結果が得られるが, 多項式ベースのdeeponet法はdeeponet法よりも学習時間において高速である。

In this paper, we investigate data-driven parameterized modeling of insertion loss for transmission lines with respect to design parameters. We first show that direct application of neural networks can lead to non-physics models with negative insertion loss. To mitigate this problem, we propose two deep learning solutions. One solution is to add a regulation term, which represents the passive condition, to the final loss function to enforce the negative quantity of insertion loss. In the second method, a third-order polynomial expression is defined first, which ensures positiveness, to approximate the insertion loss, then DeepONet neural network structure, which was proposed recently for function and system modeling, was employed to model the coefficients of polynomials. The resulting neural network is applied to predict the coefficients of the polynomial expression. The experimental results on an open-sourced SI/PI database of a PCB design show that both methods can ensure the positiveness for the insertion loss. Furthermore, both methods can achieve similar prediction results, while the polynomial-based DeepONet method is faster than DeepONet based method in training time.
翻訳日:2021-07-28 14:27:54 公開日:2021-07-27
# 韻律ボトルネックを伴うニューラル音声合成におけるクロススピーカー方式の伝達

Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis ( http://arxiv.org/abs/2107.12562v1 )

ライセンス: Link先を確認
Shifeng Pan and Lei He(参考訳) マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。 対象のスピーカーがすべてのスタイルを表現し、モデルトレーニングのために対応する録音を収集する専門家である必要はない。 しかし、既存のスタイル転送メソッドのパフォーマンスは、まだ実際のアプリケーションニーズに及ばない。 根本原因は主に2倍である。 第一に、単一参照音声から抽出されたスタイル埋め込みは、任意のテキストを合成するための細かな適切な韻律情報を提供できない。 第2に、これらのモデルでは、コンテンツ/テキスト、韻律、話者の音色は、通常非常に絡み合っており、スピーカー間で話すスタイルを転送するなど、これらのコンポーネントを自由に組み合わせて満足のいく結果を期待することは現実的ではない。 本稿では,韻律的ボトルネックを明示した話者間移動テキスト音声合成(TTS)モデルを提案する。 韻律ボトルネックは、発話スタイルを堅牢に計算するカーネルを構築し、コンテンツや話者の音色から韻律を分離することで、高品質なクロススピーカースタイル転送を保証する。 評価結果から,提案手法は,韻律の客観的測定において,話者依存型(SD)モデルを用いたオンパー性能をも達成し,客観的および主観的評価において,サイクルの整合性とGMVAEベースラインを著しく上回ることを示す。

Cross-speaker style transfer is crucial to the applications of multi-style and expressive speech synthesis at scale. It does not require the target speakers to be experts in expressing all styles and to collect corresponding recordings for model training. However, the performances of existing style transfer methods are still far behind real application needs. The root causes are mainly twofold. Firstly, the style embedding extracted from single reference speech can hardly provide fine-grained and appropriate prosody information for arbitrary text to synthesize. Secondly, in these models the content/text, prosody, and speaker timbre are usually highly entangled, it's therefore not realistic to expect a satisfied result when freely combining these components, such as to transfer speaking style between speakers. In this paper, we propose a cross-speaker style transfer text-to-speech (TTS) model with explicit prosody bottleneck. The prosody bottleneck builds up the kernels accounting for speaking style robustly, and disentangles the prosody from content and speaker timbre, therefore guarantees high quality cross-speaker style transfer. Evaluation result shows the proposed method even achieves on-par performance with source speaker's speaker-dependent (SD) model in objective measurement of prosody, and significantly outperforms the cycle consistency and GMVAE-based baselines in objective and subjective evaluations.
翻訳日:2021-07-28 14:27:36 公開日:2021-07-27
# 協調フィルタリングに基づくレコメンダシステムの深部変分モデル

Deep Variational Models for Collaborative Filtering-based Recommender Systems ( http://arxiv.org/abs/2107.12677v1 )

ライセンス: Link先を確認
Jes\'us Bobadilla, Fernando Ortega, Abraham Guti\'errez, \'Angel Gonz\'alez-Prieto(参考訳) ディープラーニングは、推奨システム結果を改善するための正確な協調フィルタリングモデルを提供する。 深層行列分解とその関連した協調ニューラルネットワークは、この分野における最先端である。しかしながら、どちらのモデルも変分オートエンコーダが示す頑健で連続的で構造化された潜在空間を作成するのに必要な確率性を欠いている。 一方,可変オートエンコーダによるデータ拡張は,レコメンデータシステムの分散度が高いため,協調フィルタリング分野における正確な結果を提供していない。 提案したモデルでは, ニューラルネットワークの協調フィルタリング分野における変分手法を導入し, 深部アーキテクチャの潜時空間に確率性を注入するために, 変分概念を適用した。 この方法は、潜在表現を生成するために使用される特定のモデルに依存しない。 このようにして、このアプローチは、現在および将来の特定のモデルのプラグインとして適用することができる。 提案したモデルは,4つの代表的なオープンデータセット,3つの異なる品質基準,最先端のベースラインを使用してテストされている。 提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。 さらに、実施した実験の再現性を実現するためのフレームワークが提供される。

Deep learning provides accurate collaborative filtering models to improve recommender system results. Deep matrix factorization and their related collaborative neural networks are the state-of-art in the field; nevertheless, both models lack the necessary stochasticity to create the robust, continuous, and structured latent spaces that variational autoencoders exhibit. On the other hand, data augmentation through variational autoencoder does not provide accurate results in the collaborative filtering field due to the high sparsity of recommender systems. Our proposed models apply the variational concept to inject stochasticity in the latent space of the deep architecture, introducing the variational technique in the neural collaborative filtering field. This method does not depend on the particular model used to generate the latent representation. In this way, this approach can be applied as a plugin to any current and future specific models. The proposed models have been tested using four representative open datasets, three different quality measures, and state-of-art baselines. The results show the superiority of the proposed approach in scenarios where the variational enrichment exceeds the injected noise effect. Additionally, a framework is provided to enable the reproducibility of the conducted experiments.
翻訳日:2021-07-28 14:27:13 公開日:2021-07-27
# 動的システム同定のためのスパースベイズ深層学習

Sparse Bayesian Deep Learning for Dynamic System Identification ( http://arxiv.org/abs/2107.12910v1 )

ライセンス: Link先を確認
Hongpeng Zhou, Chahine Ibrahim, Wei Xing Zheng, Wei Pan(参考訳) 本稿では,システム同定のためのディープニューラルネットワーク(DNN)の疎ベイズ処理を提案する。 DNNは様々な分野において顕著な近似能力を示すが、システム識別問題にはいくつかの課題がある。 まず、DNNは複雑すぎることで知られており、トレーニングデータを簡単にオーバーフィットさせることができる。 第2に、システム識別のための入力レグレッシャの選択は自明である。 第3に,モデルパラメータの不確かさの定量化と予測が必要である。 提案するベイズ的アプローチは、限界可能性/モデル証拠近似と構造化群スパーシティ誘導優先構成による上記の課題を緩和するための原理的な方法を提供する。 同定アルゴリズムは、典型的なdnnの訓練と同じくらい効率的に解くことができる反復正規化最適化手順として導出される。 さらに,モンテカルロ積分法に基づく実用的な計算手法を導出し,パラメータの不確かさと予測を定量化する。 提案手法の有効性を線形および非線形システム同定ベンチマークを用いて実証し, 精度と性能を比較検討した。

This paper proposes a sparse Bayesian treatment of deep neural networks (DNNs) for system identification. Although DNNs show impressive approximation ability in various fields, several challenges still exist for system identification problems. First, DNNs are known to be too complex that they can easily overfit the training data. Second, the selection of the input regressors for system identification is nontrivial. Third, uncertainty quantification of the model parameters and predictions are necessary. The proposed Bayesian approach offers a principled way to alleviate the above challenges by marginal likelihood/model evidence approximation and structured group sparsity-inducing priors construction. The identification algorithm is derived as an iterative regularized optimization procedure that can be solved as efficiently as training typical DNNs. Furthermore, a practical calculation approach based on the Monte-Carlo integration method is derived to quantify the uncertainty of the parameters and predictions. The effectiveness of the proposed Bayesian approach is demonstrated on several linear and nonlinear systems identification benchmarks with achieving good and competitive simulation accuracy.
翻訳日:2021-07-28 14:26:38 公開日:2021-07-27
# 機械学習によるシリコンおよびsige量子デバイスのクロスアーキテクチャチューニング

Cross-architecture Tuning of Silicon and SiGe-based Quantum Devices Using Machine Learning ( http://arxiv.org/abs/2107.12975v1 )

ライセンス: Link先を確認
B. Severin, D. T. Lennon, L. C. Camenzind, F. Vigneau, F. Fedele, D. Jirovec, A. Ballabio, D. Chrastina, G. Isella, M. de Kruijf, M. J. Carballido, S. Svab, A. V. Kuhlmann, F. R. Braakman, S. Geyer, F. N. M. Froning, H. Moon, M. A. Osborne, D. Sejdinovic, G. Katsaros, D. M. Zumb\"uhl, G. A. D. Briggs, and N. Ares(参考訳) 量子回路のスケーリングのためのsiおよびsigeベースのデバイスのポテンシャルは、デバイス変動によって損なわれる。 各デバイスは動作条件に合わせて調整する必要がある。 4ゲートのSi FinFET, 5ゲートのGeSiナノワイヤ, 7ゲートのSiGeヘテロ構造量子ドットデバイスをスクラッチからチューニングできるアルゴリズムにより, この可変性に取り組むための重要なステップを提供する。 調整時間は30分,10分,92分であった。 このアルゴリズムは、各デバイスに対するパラメータ空間のランドスケープに関する洞察も提供する。 これらの結果から,量子デバイスのチューニングを機械学習で実現した。

The potential of Si and SiGe-based devices for the scaling of quantum circuits is tainted by device variability. Each device needs to be tuned to operation conditions. We give a key step towards tackling this variability with an algorithm that, without modification, is capable of tuning a 4-gate Si FinFET, a 5-gate GeSi nanowire and a 7-gate SiGe heterostructure double quantum dot device from scratch. We achieve tuning times of 30, 10, and 92 minutes, respectively. The algorithm also provides insight into the parameter space landscape for each of these devices. These results show that overarching solutions for the tuning of quantum devices are enabled by machine learning.
翻訳日:2021-07-28 14:26:23 公開日:2021-07-27
# リカレントオートエンコーダを用いた震源非依存重力波検出

Source-Agnostic Gravitational-Wave Detection with Recurrent Autoencoders ( http://arxiv.org/abs/2107.12698v1 )

ライセンス: Link先を確認
Eric A. Moreno and Jean-Roch Vlimant and Maria Spiropulu and Bartlomiej Borzyszkowski and Maurizio Pierini(参考訳) 本稿では,レーザー干渉計における重力波信号検出問題に対するディープリカレントオートエンコーダに基づく異常検出手法の応用について述べる。 ノイズデータに基づいて訓練されたこのアルゴリズムは、教師なし戦略、すなわち特定の種類のソースを標的にすることなく信号を検出することができる。 2つの干渉計からデータを分析するカスタムアーキテクチャを開発した。 得られた性能を他のオートエンコーダアーキテクチャや畳み込み分類器と比較した。 提案手法の教師なしの性質は、従来の監督手法と比較して精度の点でコストがかかる。 一方、事前計算された信号テンプレートのアンサンブルを超えて実験感度を一般化する定性的なゲインが存在する。 リカレントオートエンコーダは、異なるアーキテクチャに基づいて他のオートエンコーダより優れている。 本論文で提示された再帰的オートエンコーダのクラスは、重力波検出に使用される探索戦略を補完し、現在進行中の検出キャンペーンの範囲を広げることができる。

We present an application of anomaly detection techniques based on deep recurrent autoencoders to the problem of detecting gravitational wave signals in laser interferometers. Trained on noise data, this class of algorithms could detect signals using an unsupervised strategy, i.e., without targeting a specific kind of source. We develop a custom architecture to analyze the data from two interferometers. We compare the obtained performance to that obtained with other autoencoder architectures and with a convolutional classifier. The unsupervised nature of the proposed strategy comes with a cost in terms of accuracy, when compared to more traditional supervised techniques. On the other hand, there is a qualitative gain in generalizing the experimental sensitivity beyond the ensemble of pre-computed signal templates. The recurrent autoencoder outperforms other autoencoders based on different architectures. The class of recurrent autoencoders presented in this paper could complement the search strategy employed for gravitational wave detection and extend the reach of the ongoing detection campaigns.
翻訳日:2021-07-28 14:26:13 公開日:2021-07-27
# 検証可能なコードコンピューティング - 高速でセキュアでプライベートな分散機械学習を目指して

Verifiable Coded Computing: Towards Fast, Secure and Private Distributed Machine Learning ( http://arxiv.org/abs/2107.12958v1 )

ライセンス: Link先を確認
Tingting Tang, Ramy E. Ali, Hanieh Hashemi, Tynan Gangwani, Salman Avestimehr and Murali Annavaram(参考訳) stragglers、byzantine workers、data privacyは分散クラウドコンピューティングの主要なボトルネックである。 いくつかの先行研究は、3つの課題すべてに共同で対処するコード化されたコンピューティング戦略を提案した。 悪質な労働者を許容するには、大量の労働者、かなりの通信コスト、あるいはかなりの計算量を必要とする。 以前のスキームのオーバーヘッドの多くは、3つの問題全てを1つのフレームワークに密に結合しているという事実から来ています。 本研究では,Byzantineノード検出の課題をトラグラー耐性から分離する検証可能符号化コンピューティング(VCC)フレームワークを提案する。 vccはストラグラーとプライバシを扱うためだけにコード化されたコンピューティングを利用し、検証可能なコンピューティングの直交アプローチを使用してビザンチンノードに取り組む。 さらにVCCは、そのコーディングスキームを、ビザンティン保護と逆境とのトラグラー耐性のトレードオフに動的に適用する。 計算集約分散ロジスティック回帰アプリケーション上でVCCを評価する。 実験の結果,VCCは分散ロジスティック回帰の非符号化実装を3.2\times-6.9\times$ で高速化し,テスト精度を最大12.6\%$に向上した。

Stragglers, Byzantine workers, and data privacy are the main bottlenecks in distributed cloud computing. Several prior works proposed coded computing strategies to jointly address all three challenges. They require either a large number of workers, a significant communication cost or a significant computational complexity to tolerate malicious workers. Much of the overhead in prior schemes comes from the fact that they tightly couple coding for all three problems into a single framework. In this work, we propose Verifiable Coded Computing (VCC) framework that decouples Byzantine node detection challenge from the straggler tolerance. VCC leverages coded computing just for handling stragglers and privacy, and then uses an orthogonal approach of verifiable computing to tackle Byzantine nodes. Furthermore, VCC dynamically adapts its coding scheme to tradeoff straggler tolerance with Byzantine protection and vice-versa. We evaluate VCC on compute intensive distributed logistic regression application. Our experiments show that VCC speeds up the conventional uncoded implementation of distributed logistic regression by $3.2\times-6.9\times $, and also improves the test accuracy by up to $12.6\%$.
翻訳日:2021-07-28 14:25:58 公開日:2021-07-27
# (参考訳) 介入分布の効率的な推定 [全文訳有]

Efficient inference of interventional distributions ( http://arxiv.org/abs/2107.11712v2 )

ライセンス: CC BY 4.0
Arnab Bhattacharyya, Sutanu Gayen, Saravanan Kandasamy, Vedant Raval, N. V. Vinodchandran(参考訳) 有限個の観測値から因果ベイズネットワーク内の干渉分布を効率的に推定する問題を考察する。 与えられた因果グラフ上の可観測変数のセット $\mathbf{v}$ 上の因果モデルとして $\mathcal{p}$ とする。 集合 $\mathbf{x},\mathbf{y}\subseteq \mathbf{v}$, and set ${\bf x}$ to $\mathbf{x}$, let $p_{\bf x}(\mathbf{y})$ は変数 ${\bf x}$ に対する介入${\bf x}$ に関して$\mathbf{y}$ 上の介入分布を表す。 Shpitser and Pearl (AAAI 2006), building on the work of Tian and Pearl (AAAI 2001), given a exact Characterization of the class of causal graphs that the interventional distribution $P_{\bf x}({\mathbf{Y}})$ can be uniquely determined。 shpitser-pearlアルゴリズムの最初の効率的なバージョンを与える。 特に、自然仮定の下では、可観測変数 $\mathbf{v}$, a set $\mathbf{x} \subseteq \mathbf{v}$ of bounded size, outputs succinct descriptions of a evaluator and a distribution $\hat{p}$ that is $\varepsilon$-close (in total variation distance) to $p_{\bf x}({\mathbf{y}})$ where $y=\mathbf{v}\setminus \mathbf{x}$, if $p_{\bf x}(\mathbf{y})$, if $p_{\bf x}(\mathbf{y})$ の因果グラフを入力する多項式時間アルゴリズムを与える。 また、$\mathbf{y}$ が任意の集合である場合、グラフ同型問題を含む統計的ゼロ知識証明を持つすべての問題が効率的なランダム化アルゴリズムを持つ場合を除き、$\varepsilon$-closeから$p_{\bf x}({\mathbf{y}})$となる分布の蒸発器を出力する効率的なアルゴリズムは存在しないことを示した。

We consider the problem of efficiently inferring interventional distributions in a causal Bayesian network from a finite number of observations. Let $\mathcal{P}$ be a causal model on a set $\mathbf{V}$ of observable variables on a given causal graph $G$. For sets $\mathbf{X},\mathbf{Y}\subseteq \mathbf{V}$, and setting ${\bf x}$ to $\mathbf{X}$, let $P_{\bf x}(\mathbf{Y})$ denote the interventional distribution on $\mathbf{Y}$ with respect to an intervention ${\bf x}$ to variables ${\bf x}$. Shpitser and Pearl (AAAI 2006), building on the work of Tian and Pearl (AAAI 2001), gave an exact characterization of the class of causal graphs for which the interventional distribution $P_{\bf x}({\mathbf{Y}})$ can be uniquely determined. We give the first efficient version of the Shpitser-Pearl algorithm. In particular, under natural assumptions, we give a polynomial-time algorithm that on input a causal graph $G$ on observable variables $\mathbf{V}$, a setting ${\bf x}$ of a set $\mathbf{X} \subseteq \mathbf{V}$ of bounded size, outputs succinct descriptions of both an evaluator and a generator for a distribution $\hat{P}$ that is $\varepsilon$-close (in total variation distance) to $P_{\bf x}({\mathbf{Y}})$ where $Y=\mathbf{V}\setminus \mathbf{X}$, if $P_{\bf x}(\mathbf{Y})$ is identifiable. We also show that when $\mathbf{Y}$ is an arbitrary set, there is no efficient algorithm that outputs an evaluator of a distribution that is $\varepsilon$-close to $P_{\bf x}({\mathbf{Y}})$ unless all problems that have statistical zero-knowledge proofs, including the Graph Isomorphism problem, have efficient randomized algorithms.
翻訳日:2021-07-28 12:05:32 公開日:2021-07-27
# (参考訳) 共同ビジュアルセマンティック推論:テキスト認識のためのマルチステージデコーダ [全文訳有]

Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition ( http://arxiv.org/abs/2107.12090v2 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Aneeshan Sain, Amandeep Kumar, Shuvozit Ghose, Pinaki Nath Chowdhury, Yi-Zhe Song(参考訳) テキスト認識は長年にわたって大きく進歩してきたが、最先端のSOTA(State-of-the-ar t)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトなどにより、いまだに困難な状況にある。 これは、このようなモデルはテキスト認識のための視覚的情報のみに依存するため、意味的推論能力が欠如しているためである。 本稿では,視覚のみに加えて意味情報も補完的な役割を担っていると論じる。 より具体的には,多段階の多段階の注意デコーダを提案することで意味情報を活用する。 私たちの目新しさは、テキスト認識では、予測は段階的に洗練されるべきという直観にある。 したがって, 離散的に予測された文字ラベルによって引き起こされる非微分性は, エンドツーエンドのトレーニングのためにバイパスされる必要がある。 第1段階は視覚的特徴を用いて予測するが、第2段階は視覚的情報を用いてその上を洗練する。 さらに,異なる段階間の密接な接続と密接な関係を伴って多次元の注意を取り入れて,キャラクタサイズの異なるスケールに対処し,訓練時の性能向上と収束の高速化を図る。 実験結果から,既存のSOTA法よりもかなり優れた手法が得られた。

Although text recognition has significantly evolved over the years, state-of-the-art (SOTA) models still struggle in the wild scenarios due to complex backgrounds, varying fonts, uncontrolled illuminations, distortions and other artefacts. This is because such models solely depend on visual information for text recognition, thus lacking semantic reasoning capabilities. In this paper, we argue that semantic information offers a complementary role in addition to visual only. More specifically, we additionally utilize semantic information by proposing a multi-stage multi-scale attentional decoder that performs joint visual-semantic reasoning. Our novelty lies in the intuition that for text recognition, the prediction should be refined in a stage-wise manner. Therefore our key contribution is in designing a stage-wise unrolling attentional decoder where non-differentiabilit y, invoked by discretely predicted character labels, needs to be bypassed for end-to-end training. While the first stage predicts using visual features, subsequent stages refine on top of it using joint visual-semantic information. Additionally, we introduce multi-scale 2D attention along with dense and residual connections between different stages to deal with varying scales of character sizes, for better performance and faster convergence during training. Experimental results show our approach to outperform existing SOTA methods by a considerable margin.
翻訳日:2021-07-28 11:45:44 公開日:2021-07-27
# EGGS: サブスペースクラスタリングを容易にするEigen-Gap Guided Search

EGGS: Eigen-Gap Guided Search Making Subspace Clustering Easy ( http://arxiv.org/abs/2107.12183v2 )

ライセンス: Link先を確認
Jicong Fan, Yiheng Tu, Zhao Zhang, Mingbo Zhao(参考訳) スペクトルクラスタリングの性能は親和性マトリックスの品質に大きく依存する。 様々な親和性-行列-構成法が提案されているが、前もって決定するハイパーパラメータがあり、特にクラスタ間類似度が高い場合やデータセットが大きい場合、特に実際のアプリケーションでは困難となる。 一方、経験に依存している線形モデルや非線形モデルを使うかどうかを判断する必要があることが多い。 本稿では,これら2つの問題を解決するために,部分空間クラスタリングのための固有ガップ誘導探索法を提案する。 主アイデアは、線形回帰と核回帰によって構築された候補群の中で最も信頼性の高い親和性行列を見出すことであり、ここでは、この論文で定義されたグラフラプラシアンの \textit{relative-eigen-gap} によって信頼性を定量化する。 理論的および数値的に、相対固有ギャップが大きいラプラシアン行列は、クラスタリングの精度と安定性が高くなることが示されている。 本手法は,事前定義された空間における最良モデルとハイパーパラメータを自動的に探索することができる。 探索空間は非常に容易に決定でき、任意に大きいが、比較的コンパクトな探索空間は、非常に不要な計算を減らすことができる。 提案手法は実アプリケーションにおいて高い柔軟性と利便性を有し,また,アフィニティ行列が反復最適化によって計算されないため,計算コストも低い。 本手法をmnistなどの大規模データセットに拡張し,時間コストが90秒未満でクラスタリング精度が最先端であることを示す。 自然画像クラスタリングの広範な実験により,本手法はベースライン法よりも安定で精度が高く,効率的であることが判明した。

The performance of spectral clustering heavily relies on the quality of affinity matrix. A variety of affinity-matrix-cons truction methods have been proposed but they have hyper-parameters to determine beforehand, which requires strong experience and lead to difficulty in real applications especially when the inter-cluster similarity is high or/and the dataset is large. On the other hand, we often have to determine to use a linear model or a nonlinear model, which still depends on experience. To solve these two problems, in this paper, we present an eigen-gap guided search method for subspace clustering. The main idea is to find the most reliable affinity matrix among a set of candidates constructed by linear and kernel regressions, where the reliability is quantified by the \textit{relative-eigen-gap} of graph Laplacian defined in this paper. We show, theoretically and numerically, that the Laplacian matrix with a larger relative-eigen-gap often yields a higher clustering accuracy and stability. Our method is able to automatically search the best model and hyper-parameters in a pre-defined space. The search space is very easy to determine and can be arbitrarily large, though a relatively compact search space can reduce the highly unnecessary computation. Our method has high flexibility and convenience in real applications, and also has low computational cost because the affinity matrix is not computed by iterative optimization. We extend the method to large-scale datasets such as MNIST, on which the time cost is less than 90s and the clustering accuracy is state-of-the-art. Extensive experiments of natural image clustering show that our method is more stable, accurate, and efficient than baseline methods.
翻訳日:2021-07-28 11:27:04 公開日:2021-07-27
# StyleGANを用いた顔行動単位の精密局所編集の知覚的検証

Perceptually Validated Precise Local Editing for Facial Action Units with StyleGAN ( http://arxiv.org/abs/2107.12143v2 )

ライセンス: Link先を確認
Alara Zindanc{\i}o\u{g}lu and T. Metin Sezgin(参考訳) 表情を編集する機能には、コンピュータグラフィックスの幅広い応用がある。 理想的な表情編集アルゴリズムは2つの重要な基準を満たす必要がある。 まず、個々の顔の動きを正確にかつターゲットに編集できる。 次に、アーティファクトなしで高忠実度出力を生成する。 顔のセマンティックな操作に広く用いられているStyleGANに基づくソリューションを構築した。 このようにして、さまざまなセマンティックな属性がどのようにStyleGANにエンコードされているかを理解する。 特に,潜伏空間で編集を行うための素直な戦略が,概念的に異なるとしても,特定のアクションユニット間の不要な結合を生じさせることを示す。 例えば、brow lowererとlip tightenerは異なるアクションユニットであるが、トレーニングデータに相関しているように見える。 したがって、StyleGANはそれらを切り離すことが難しい。 各アクションユニットの分離した影響領域を計算し、これらの領域への編集を制限し、このようなアクションユニットの分割編集を可能にする。 23名の被験者による知覚実験により,局所編集の有効性を検証した。 その結果,本手法は局所的な編集の制御を向上し,最先端の手法に比べて忠実な画像を生成することがわかった。

The ability to edit facial expressions has a wide range of applications in computer graphics. The ideal facial expression editing algorithm needs to satisfy two important criteria. First, it should allow precise and targeted editing of individual facial actions. Second, it should generate high fidelity outputs without artifacts. We build a solution based on StyleGAN, which has been used extensively for semantic manipulation of faces. As we do so, we add to our understanding of how various semantic attributes are encoded in StyleGAN. In particular, we show that a naive strategy to perform editing in the latent space results in undesired coupling between certain action units, even if they are conceptually distinct. For example, although brow lowerer and lip tightener are distinct action units, they appear correlated in the training data. Hence, StyleGAN has difficulty in disentangling them. We allow disentangled editing of such action units by computing detached regions of influence for each action unit, and restrict editing to these regions. We validate the effectiveness of our local editing method through perception experiments conducted with 23 subjects. The results show that our method provides higher control over local editing and produces images with superior fidelity compared to the state-of-the-art methods.
翻訳日:2021-07-28 11:26:36 公開日:2021-07-27
# 弱教師付き意味セグメンテーションのための親和性学習による補助タスクの活用

Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2107.11787v2 )

ライセンス: Link先を確認
Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu(参考訳) セマンティックセグメンテーションは、密にラベル付けされたデータがない場合に難しいタスクである。 画像レベルのラベルを持つクラスアクティベーションマップ(CAM)のみに依存すると、セグメンテーションの監督が不十分になる。 したがって、事前訓練されたモデルを用いて、擬似セグメンテーションラベルの生成を誘導する粗いサリエンシマップを作成する。 しかし、一般的に使われるオフラインヒューリスティック生成プロセスは、これらの粗いサリエンシマップの利点を完全に活用することはできない。 そこで本研究では,auxsegnetと呼ばれる弱教師付きマルチタスクフレームワークを提案する。サリエンシー検出とマルチラベル画像分類を補助タスクとして活用し,画像レベルの接地ラベルのみを用いた意味セグメンテーションの一次タスクを改善する。 同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーション表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。 学習されたクロスタスクアフィニティは、給与予測を洗練し、カムマップを伝播させ、両方のタスクに擬似ラベルを改善するために使用できる。 擬似ラベル更新とクロスタスクアフィニティ学習の相互強化により、セグメンテーション性能が反復的に向上する。 提案する補助学習ネットワーク構造とクロスタスク親和性学習手法の有効性を示す。 提案手法は,PASCAL VOC 2012とMS COCOベンチマークを用いて,最先端の教師付きセグメンテーション性能を実現する。

Semantic segmentation is a challenging task in the absence of densely labelled data. Only relying on class activation maps (CAM) with image-level labels provides deficient segmentation supervision. Prior works thus consider pre-trained models to produce coarse saliency maps to guide the generation of pseudo segmentation labels. However, the commonly used off-line heuristic generation process cannot fully exploit the benefits of these coarse saliency maps. Motivated by the significant inter-task correlation, we propose a novel weakly supervised multi-task framework termed as AuxSegNet, to leverage saliency detection and multi-label image classification as auxiliary tasks to improve the primary task of semantic segmentation using only image-level ground-truth labels. Inspired by their similar structured semantics, we also propose to learn a cross-task global pixel-level affinity map from the saliency and segmentation representations. The learned cross-task affinity can be used to refine saliency predictions and propagate CAM maps to provide improved pseudo labels for both tasks. The mutual boost between pseudo label updating and cross-task affinity learning enables iterative improvements on segmentation performance. Extensive experiments demonstrate the effectiveness of the proposed auxiliary learning network structure and the cross-task affinity learning method. The proposed approach achieves state-of-the-art weakly supervised segmentation performance on the challenging PASCAL VOC 2012 and MS COCO benchmarks.
翻訳日:2021-07-28 11:26:20 公開日:2021-07-27
# 幾何学的視覚問題に対する大規模不整形投票の効率化

Efficient Large Scale Inlier Voting for Geometric Vision Problems ( http://arxiv.org/abs/2107.11810v2 )

ライセンス: Link先を確認
Dror Aiger, Simon Lynen, Jan Hosang, Bernhard Zeisl(参考訳) カメラポーズ推定や平面における点マッチングのフィルタリングや、点雲における正規推定など、コンピュータビジョンにおける多くの応用において、アウター・リジェクションや等価不整集合最適化は重要な要素である。 いくつかのアプローチが存在するが、大規模には可能な解の組合せ的爆発に直面し、RANSAC、ハフ変換、ブランチ&バウンドのような最先端の手法は、実用的であるためには最小のインリエ比または事前知識を必要とする。 実際、非常に大きなシーンでのカメラポーズのような問題に対して、これらの条件が満たされない場合、これらのアプローチは指数関数的なランタイム成長を持つため、役に立たない。 この問題にアプローチするために, $r^d$ において "intersecting" $k$-dimensional surface に基づいた異常拒絶の効率的で一般的なアルゴリズムを提案する。 R^d$ の点を求めることで、近傍の曲面の数(したがって不等式)を最大化する様々な幾何学的問題を鋳造するレシピを提供する。 結果として得られるアルゴリズムは、ドメイン固有の境界を必要とせず、競合アルゴリズムよりも近似係数のランタイム依存性をより良く、線形な最悪のケース複雑性を持つ。 これは、連続的な丸めとサンプルのグループ化によって計算回数を制限した空間分解スキームを導入することによって達成される。 私たちのレシピ(とオープンソースコード)は、さまざまなドメインにまたがる新しい問題に対する、このような高速なアプローチを誰でも引き出すことができます。 本手法は,処理時間を大幅に下げた場合,低収率のマッチ数の多い複数のカメラフォーミング問題に対して,汎用性を示す。

Outlier rejection and equivalently inlier set optimization is a key ingredient in numerous applications in computer vision such as filtering point-matches in camera pose estimation or plane and normal estimation in point clouds. Several approaches exist, yet at large scale we face a combinatorial explosion of possible solutions and state-of-the-art methods like RANSAC, Hough transform or Branch&Bound require a minimum inlier ratio or prior knowledge to remain practical. In fact, for problems such as camera posing in very large scenes these approaches become useless as they have exponential runtime growth if these conditions aren't met. To approach the problem we present a efficient and general algorithm for outlier rejection based on "intersecting" $k$-dimensional surfaces in $R^d$. We provide a recipe for casting a variety of geometric problems as finding a point in $R^d$ which maximizes the number of nearby surfaces (and thus inliers). The resulting algorithm has linear worst-case complexity with a better runtime dependency in the approximation factor than competing algorithms while not requiring domain specific bounds. This is achieved by introducing a space decomposition scheme that bounds the number of computations by successively rounding and grouping samples. Our recipe (and open-source code) enables anybody to derive such fast approaches to new problems across a wide range of domains. We demonstrate the versatility of the approach on several camera posing problems with a high number of matches at low inlier ratio achieving state-of-the-art results at significantly lower processing times.
翻訳日:2021-07-28 11:25:55 公開日:2021-07-27
# 圧縮ビデオを用いた効率的な映像オブジェクトセグメンテーション

Efficient Video Object Segmentation with Compressed Video ( http://arxiv.org/abs/2107.12192v2 )

ライセンス: Link先を確認
Kai Xu and Angela Yao(参考訳) ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的な推論フレームワークを提案する。 提案手法は,選択したキーフレームに対する推論を行い,圧縮したビデオビットストリームの動作ベクトルと残差に基づいて,他のフレームに対する予測を行う。 具体的には,キーフレームから他のフレームへのセグメンテーションマスクをマルチ参照で伝播する動きベクトルに基づくワープ手法を提案する。 さらに,ブロック方向伝搬型セグメンテーションマスクに細部を補正・付加可能な残差ベースリファインメントモジュールを提案する。 われわれのアプローチは柔軟であり、既存のビデオオブジェクトセグメンテーションアルゴリズムに加えることができる。 ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。

We propose an efficient inference framework for semi-supervised video object segmentation by exploiting the temporal redundancy of the video. Our method performs inference on selected keyframes and makes predictions for other frames via propagation based on motion vectors and residuals from the compressed video bitstream. Specifically, we propose a new motion vector-based warping method for propagating segmentation masks from keyframes to other frames in a multi-reference manner. Additionally, we propose a residual-based refinement module that can correct and add detail to the block-wise propagated segmentation masks. Our approach is flexible and can be added on top of existing video object segmentation algorithms. With STM with top-k filtering as our base model, we achieved highly competitive results on DAVIS16 and YouTube-VOS with substantial speedups of up to 4.9X with little loss in accuracy.
翻訳日:2021-07-28 11:25:27 公開日:2021-07-27
# クラスインクリメンタル学習におけるコントラストクラス濃度による緩和表現の重複

Alleviate Representation Overlapping in Class Incremental Learning by Contrastive Class Concentration ( http://arxiv.org/abs/2107.12308v2 )

ライセンス: Link先を確認
Zixuan Ni and Haizhou Shi and Siliang Tang and Yueting Zhuang(参考訳) 授業インクリメンタルラーニング(cil)の課題は、学習者が古いクラスのデータと新しいクラスデータを区別することが困難であり、以前のデータは保存されないことである。 すなわち、異なる位相の表現分布は互いに重なり合う。 本稿では,メモリベースとメモリフリーの両方で重複する表現の現象を軽減するために,CILのための新しいCILフレームワークであるContrastive Class concentration for CIL (C4IL)を提案する。 本フレームワークは,コントラスト表現学習のクラス集中効果を活用し,クラス内コンパクト性とクラス間分離性を向上させる。 メモリベースのケースとメモリフリーケースの両方で有効なフレームワークを定量的に検証し,10フェーズと20フェーズのCILの平均とトップ1の精度で,両ケースのベースライン手法を5%上回った。 また,提案手法は重なり合う問題を緩和する,よりコンパクトな表現分布を生成することを示す。

The challenge of the Class Incremental Learning (CIL) lies in difficulty for a learner to discern the old classes' data from the new while no previous data is preserved. Namely, the representation distribution of different phases overlaps with each other. In this paper, to alleviate the phenomenon of representation overlapping for both memory-based and memory-free methods, we propose a new CIL framework, Contrastive Class Concentration for CIL (C4IL). Our framework leverages the class concentration effect of contrastive representation learning, therefore yielding a representation distribution with better intra-class compactibility and inter-class separability. Quantitative experiments showcase our framework that is effective in both memory-based and memory-free cases: it outperforms the baseline methods of both cases by 5% in terms of the average and top-1 accuracy in 10-phase and 20-phase CIL. Qualitative results also demonstrate that our method generates a more compact representation distribution that alleviates the overlapping problem.
翻訳日:2021-07-28 11:25:15 公開日:2021-07-27
# 声質変換を超えて:構造的アンタングル表現の逆学習による音声属性の操作

Beyond Voice Identity Conversion: Manipulating Voice Attributes by Adversarial Learning of Structured Disentangled Representations ( http://arxiv.org/abs/2107.12346v2 )

ライセンス: Link先を確認
Laurent Benaroya, Nicolas Obin, Axel Roebel(参考訳) 音声変換(VC)は、個人の声をデジタル的に変更してコンテンツの一部、主にそのアイデンティティを操作し、残余は変化しない。 ニューラルVCの研究は、非常にリアルなレンダリングで少量のデータを使って音声アイデンティティを偽造する能力で、かなりのブレークスルーを達成した。 本稿では、音声のアイデンティティを超えて、音声属性(例えば、性別と年齢)の操作を可能にするニューラルネットワークアーキテクチャを提案する。 構造化された音声表現の対角学習の最新の進歩を生かして、複数の自己エンコーダを用いて音声を理想主義的に独立した言語的・言語的表現の集合としてエンコードする新しい構造化ニューラルネットワークが提案される。 さらに、提案アーキテクチャは、リップ同期アプリケーションを可能にする変換中に元の音声タイミングを保存できるように、タイム同期される。 実世界のVCTKデータセットにおける音声の性別変換に応用して,提案アーキテクチャは,性別に依存しない表現をうまく学習し,声の性別を極めて高い効率と自然性で変換することができる。

Voice conversion (VC) consists of digitally altering the voice of an individual to manipulate part of its content, primarily its identity, while maintaining the rest unchanged. Research in neural VC has accomplished considerable breakthroughs with the capacity to falsify a voice identity using a small amount of data with a highly realistic rendering. This paper goes beyond voice identity and presents a neural architecture that allows the manipulation of voice attributes (e.g., gender and age). Leveraging the latest advances on adversarial learning of structured speech representation, a novel structured neural network is proposed in which multiple auto-encoders are used to encode speech as a set of idealistically independent linguistic and extra-linguistic representations, which are learned adversariarly and can be manipulated during VC. Moreover, the proposed architecture is time-synchronized so that the original voice timing is preserved during conversion which allows lip-sync applications. Applied to voice gender conversion on the real-world VCTK dataset, our proposed architecture can learn successfully gender-independent representation and convert the voice gender with a very high efficiency and naturalness.
翻訳日:2021-07-28 11:24:56 公開日:2021-07-27