このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200821となっている論文です。

PDF登録状況(公開日: 20200821)

TitleAuthorsAbstract論文公表日・翻訳日
# 身体的視覚探索の探索

An Exploration of Embodied Visual Exploration ( http://arxiv.org/abs/2001.02192v2 )

ライセンス: Link先を確認
Santhosh K. Ramakrishnan, Dinesh Jayaraman, Kristen Grauman(参考訳) 身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考える。 特に重要なのは、ロボットがカメラを装着して新しい環境を抜け出すという、具体的視覚探索の問題だ。 これまでの進歩にもかかわらず、この問題に関連する多くの基本的な質問は未解決のままである。 (i)エージェントがその環境をよく探索する意味は何でしょうか。 (ii)どの方法がうまく機能するか、どのような仮定や環境条件の下で機能するか。 (iii)現在のアプローチが不足している部分と、今後の作業が改善を目指す部分とは何でしょう? これらの質問に答えるべく、まず既存のビジュアル探索アルゴリズムの分類法を示し、それらをベンチマークするための標準フレームワークを作成します。 次に,2つのフォトリアリスティックな3D環境,最先端探査アーキテクチャ,多種多様な評価指標を備えたフレームワークを用いて,最先端の4つのパラダイムについて実験を行った。 我々の実験結果は洞察を与え、視覚的な探索における将来の研究のための新しいパフォーマンス指標とベースラインを提案する。 コード、モデル、データが公開されている。 https://github.com/facebookresearch/exploring_exploration

Embodied computer vision considers perception for robots in novel, unstructured environments. Of particular importance is the embodied visual exploration problem: how might a robot equipped with a camera scope out a new environment? Despite the progress thus far, many basic questions pertinent to this problem remain unanswered: (i) What does it mean for an agent to explore its environment well? (ii) Which methods work well, and under which assumptions and environmental settings? (iii) Where do current approaches fall short, and where might future work seek to improve? Seeking answers to these questions, we first present a taxonomy for existing visual exploration algorithms and create a standard framework for benchmarking them. We then perform a thorough empirical study of the four state-of-the-art paradigms using the proposed framework with two photorealistic simulated 3D environments, a state-of-the-art exploration architecture, and diverse evaluation metrics. Our experimental results offer insights and suggest new performance metrics and baselines for future work in visual exploration. Code, models and data are publicly available: https://github.com/facebookresearch/exploring_exploration
翻訳日:2023-01-13 20:06:57 公開日:2020-08-21
# リカレントニューラルネットワークを用いた予測クラスにおける価値レベルの特徴帰属の視覚的要約

Visual Summary of Value-level Feature Attribution in Prediction Classes with Recurrent Neural Networks ( http://arxiv.org/abs/2001.08379v2 )

ライセンス: Link先を確認
Chuan Wang, Xumeng Wang, Kwan-Liu Ma(参考訳) ディープリカレントニューラルネットワーク(rnn)は、時間系列の意思決定にますます使われている。 しかし、RNNモデルがどのように最終的な予測を生成するかを理解することは大きな課題である。 シーケンス予測のための既存のRNNモデルを解釈する作業は、個々のデータインスタンス(例えば、患者や学生)の予測を説明することに焦点を当てることが多い。 最先端の予測モデルは数百万のインスタンスに最適化された数百万のパラメータで構成されているため、単一のデータインスタンスの予測を説明することは、大きな図を見逃しがちである。 さらに、多くのrnnモデルでは、特徴値帰属が欠落している特徴の有無を表すためにマルチホットエンコーディングを使用している。 異なる特徴値に対する時間的属性を視覚的に要約する対話型システムViSFAを提案する。 ViSFAは、120万の高次元の時間事象の電子健康記録を含むMIMICデータセットのような大規模なデータにスケールする。 我々は、複雑な属性をコンパクトで分かりやすい視覚化に蒸留することにより、RNN予測とデータからの洞察を明らかにするのに、ViSFAが役立つことを実証した。

Deep Recurrent Neural Networks (RNN) is increasingly used in decision-making with temporal sequences. However, understanding how RNN models produce final predictions remains a major challenge. Existing work on interpreting RNN models for sequence predictions often focuses on explaining predictions for individual data instances (e.g., patients or students). Because state-of-the-art predictive models are formed with millions of parameters optimized over millions of instances, explaining predictions for single data instances can easily miss a bigger picture. Besides, many outperforming RNN models use multi-hot encoding to represent the presence/absence of features, where the interpretability of feature value attribution is missing. We present ViSFA, an interactive system that visually summarizes feature attribution over time for different feature values. ViSFA scales to large data such as the MIMIC dataset containing the electronic health records of 1.2 million high-dimensional temporal events. We demonstrate that ViSFA can help us reason RNN prediction and uncover insights from data by distilling complex attribution into compact and easy-to-interpret visualizations.
翻訳日:2023-01-07 13:21:13 公開日:2020-08-21
# Q&A Webサイトにおけるファントムステアリング効果

The Phantom Steering Effect in Q&A Websites ( http://arxiv.org/abs/2002.06160v2 )

ライセンス: Link先を確認
Nicholas Hoernle and Gregory Kehne and Ariel D. Procaccia and Kobi Gal(参考訳) バッジはオンラインプラットフォームにおいて、貢献を促進するインセンティブとして一般的に使用されている。 バッジは、バッジを得る前に貢献率を上げるために人々の行動を「ステアリング」していると広く受け入れられている。 本稿では,バッジの存在下でのユーザ行動の新しい確率モデルを提案する。 何千というQ&AサイトStack Overflowのデータにモデルを適用することで、ステアリングが以前理解されていたほど広く適用されていないことが分かる。 むしろ、ほとんどのユーザーはバッジに対して無関心でありながら、サイトに対してかなりの数の貢献をしている。 ファントムステアリング(Phantom Steering)と呼ばれる興味深い統計現象は、これらのユーザのインタラクションデータについて説明しており、これはステアリングに関する過去の結論に寄与した可能性がある。 その結果,少人数,約20%の利用者がバッジのインセンティブに反応したことが示唆された。 さらに,stack overflowのユーザに対する質的調査を実施し,モデルからの洞察がコミュニティの真の行動を反映していることのさらなる証拠を提供する。 我々は、バッジはオンラインシステムにおける効果的な報酬のスイートに寄与するかもしれないが、stack overflowの評判ポイントのような報酬システムの他の側面の研究はコミュニティの焦点となるべきであると主張している。

Badges are commonly used in online platforms as incentives for promoting contributions. It is widely accepted that badges "steer" people's behavior toward increasing their rate of contributions before obtaining the badge. This paper provides a new probabilistic model of user behavior in the presence of badges. By applying the model to data from thousands of users on the Q&A site Stack Overflow, we find that steering is not as widely applicable as was previously understood. Rather, the majority of users remain apathetic toward badges, while still providing a substantial number of contributions to the site. An interesting statistical phenomenon, termed "Phantom Steering," accounts for the interaction data of these users and this may have contributed to some previous conclusions about steering. Our results suggest that a small population, approximately 20%, of users respond to the badge incentives. Moreover, we conduct a qualitative survey of the users on Stack Overflow which provides further evidence that the insights from the model reflect the true behavior of the community. We argue that while badges might contribute toward a suite of effective rewards in an online system, research into other aspects of reward systems such as Stack Overflow reputation points should become a focus of the community.
翻訳日:2023-01-01 04:15:33 公開日:2020-08-21
# アクティブキャッシュ同期のためのオンライン学習

Online Learning for Active Cache Synchronization ( http://arxiv.org/abs/2002.12014v2 )

ライセンス: Link先を確認
Andrey Kolobov, S\'ebastien Bubeck, Julian Zimmert(参考訳) 既存のマルチアームバンディット(MAB)モデルでは、2つの暗黙の仮定がある: 腕は演奏時にのみペイオフを生成し、エージェントは生成されたすべてのペイオフを観察する。 本稿では,すべてのアームが常にコストを発生させるMAB変種である同期バンディットを紹介するが,エージェントは腕の演奏時のみ,腕の即時コストを観測する。 同期MABは、ウェブクローリングのようなオンラインキャッシュシナリオにインスパイアされ、アームはキャッシュされたアイテムに対応し、アームを再生することはサーバから新しいコピーをダウンロードすることを意味する。 我々は,同期バンドイットのためのオンライン学習アルゴリズムであるmirrorsyncを提案し,それに対する敵対的後悔である$o(t^{2/3})を定め,その実践方法を示す。

Existing multi-armed bandit (MAB) models make two implicit assumptions: an arm generates a payoff only when it is played, and the agent observes every payoff that is generated. This paper introduces synchronization bandits, a MAB variant where all arms generate costs at all times, but the agent observes an arm's instantaneous cost only when the arm is played. Synchronization MABs are inspired by online caching scenarios such as Web crawling, where an arm corresponds to a cached item and playing the arm means downloading its fresh copy from a server. We present MirrorSync, an online learning algorithm for synchronization bandits, establish an adversarial regret of $O(T^{2/3})$ for it, and show how to make it practical.
翻訳日:2022-12-28 07:37:34 公開日:2020-08-21
# 深部局所形状:詳細な3次元再構成のための局所SDF事前学習

Deep Local Shapes: Learning Local SDF Priors for Detailed 3D Reconstruction ( http://arxiv.org/abs/2003.10983v3 )

ライセンス: Link先を確認
Rohan Chabra, Jan Eric Lenssen, Eddy Ilg, Tanner Schmidt, Julian Straub, Steven Lovegrove, Richard Newcombe(参考訳) 複雑で複雑な表面を効率的に再構築することは、機械知覚における長年の目標である。 この問題に対処するために,高画質な3次元形状の符号化と再構成が可能な深部形状表現であるDeep Local Shapes (DeepLS)を導入する。 DeepLSは、従来の表面再構成システムで使用される高密度容量符号距離関数(SDF)を、DeepSDFのような最近の研究にインスパイアされたニューラルネットワークによって定義された局所的に学習された連続的なSDFの集合に置き換える。 ニューラルネットワークと1つの潜伏符号を持つオブジェクトレベルのSDFを表すDeepSDFとは異なり、我々は独立した潜伏符号のグリッドを格納し、それぞれが小さな局所的に表面に関する情報を保持する。 このシーンの局所的な形状への分解は、ネットワークが学習しなければならない事前分布を単純化し、効率的な推論を可能にする。 我々は,DeepLSが高圧縮,精度,局所形状の完備化を実現するフルシーンのオブジェクト形状エンコーディングと再構成を示すことによって,DeepLSの有効性と一般化力を実証する。

Efficiently reconstructing complex and intricate surfaces at scale is a long-standing goal in machine perception. To address this problem we introduce Deep Local Shapes (DeepLS), a deep shape representation that enables encoding and reconstruction of high-quality 3D shapes without prohibitive memory requirements. DeepLS replaces the dense volumetric signed distance function (SDF) representation used in traditional surface reconstruction systems with a set of locally learned continuous SDFs defined by a neural network, inspired by recent work such as DeepSDF. Unlike DeepSDF, which represents an object-level SDF with a neural network and a single latent code, we store a grid of independent latent codes, each responsible for storing information about surfaces in a small local neighborhood. This decomposition of scenes into local shapes simplifies the prior distribution that the network must learn, and also enables efficient inference. We demonstrate the effectiveness and generalization power of DeepLS by showing object shape encoding and reconstructions of full scenes, where DeepLS delivers high compression, accuracy, and local shape completion.
翻訳日:2022-12-20 08:50:24 公開日:2020-08-21
# 層別学習コスト削減のための高次元ニューラル特徴設計

High-dimensional Neural Feature Design for Layer-wise Reduction of Training Cost ( http://arxiv.org/abs/2003.13058v2 )

ライセンス: Link先を確認
Alireza M. Javid, Arun Venkitaraman, Mikael Skoglund, and Saikat Chatterjee(参考訳) 特徴ベクトルを各層の高次元空間にマッピングすることで,ReLUに基づく多層ニューラルネットワークを設計する。 我々は,各層における重み行列を設計し,レイヤー数の増加に伴ってトレーニングコストの低減を図る。 高次元空間における目標への線形射影は、凸コストを最小化した場合、トレーニングコストを低下させる。 最小化には$\ell_2$-normの凸制約が使われ、一般化エラーを減らし、オーバーフィッティングを避ける。 ネットワークの正規化ハイパーパラメータは、トレーニングコストの単調な減少を保証するために解析的に導出されるため、各層で正規化ハイパーパラメータを見つけるためのクロスバリデーションは不要である。 提案アーキテクチャは正規保存であり,非可逆な特徴ベクトルを提供するので,対象を推定するために線形投影を用いる他の学習手法の訓練コストを削減できることを示す。

We design a ReLU-based multilayer neural network by mapping the feature vectors to a higher dimensional space in every layer. We design the weight matrices in every layer to ensure a reduction of the training cost as the number of layers increases. Linear projection to the target in the higher dimensional space leads to a lower training cost if a convex cost is minimized. An $\ell_2$-norm convex constraint is used in the minimization to reduce the generalization error and avoid overfitting. The regularization hyperparameters of the network are derived analytically to guarantee a monotonic decrement of the training cost, and therefore, it eliminates the need for cross-validation to find the regularization hyperparameter in each layer. We show that the proposed architecture is norm-preserving and provides an invertible feature vector, and therefore, can be used to reduce the training cost of any other learning method which employs linear projection to estimate the target.
翻訳日:2022-12-18 13:14:33 公開日:2020-08-21
# 人工知能に基づくパーソナライズシステムにおける透明性の適用

Applying Transparency in Artificial Intelligence based Personalization Systems ( http://arxiv.org/abs/2004.00935v2 )

ライセンス: Link先を確認
Laura Schelenz, Avi Segal, and Kobi Gal(参考訳) 人工知能ベースのシステムは、ユーザに対して関連するコンテンツ、製品、ソリューションを提供するために、パーソナライズをますます利用します。 パーソナライゼーションは、ユーザをサポートし、それぞれのニーズと好みに対処することを目的としている。 しかし、アルゴリズムの進歩と透明性の欠如により、オンライン操作に対する脆弱性がますます高まっている。 このような操作は、ユーザーの対話するシステムに対する信頼度、自律性、満足度を低下させる。 透明性の向上はパーソナライズベースのシステムにとって重要な目標である。 残念ながら、システムデザイナは、開発システムにおける透明性の評価と実装に関するガイダンスを欠いている。 本研究では,技術倫理とコンピュータ科学の知見を組み合わせて,機械生成のパーソナライゼーションのための透明性のベストプラクティスのリストを作成する。 これらのベストプラクティスに基づいて,アルゴリズムシステムの透明性を評価し,向上させたい設計者が使用するチェックリストを開発した。 デザイナーパースペクティブを採用することで,チェックリストを著名なオンラインサービスに適用し,そのメリットと欠点について論じる。 我々は,様々な環境においてチェックリストの採用を奨励し,パーソナライゼーションコミュニティにおける透明性を測定するためのコンセンサスベースのツールを目指していく。

Artificial Intelligence based systems increasingly use personalization to provide users with relevant content, products, and solutions. Personalization is intended to support users and address their respective needs and preferences. However, users are becoming increasingly vulnerable to online manipulation due to algorithmic advancements and lack of transparency. Such manipulation decreases users' levels of trust, autonomy, and satisfaction concerning the systems with which they interact. Increasing transparency is an important goal for personalization based systems. Unfortunately, system designers lack guidance in assessing and implementing transparency in their developed systems. In this work we combine insights from technology ethics and computer science to generate a list of transparency best practices for machine generated personalization. Based on these best practices, we develop a checklist to be used by designers wishing to evaluate and increase the transparency of their algorithmic systems. Adopting a designer perspective, we apply the checklist to prominent online services and discuss its advantages and shortcomings. We encourage researchers to adopt the checklist in various environments and to work towards a consensus-based tool for measuring transparency in the personalization community.
翻訳日:2022-12-17 13:22:31 公開日:2020-08-21
# ポイントとしてのオブジェクトの追跡

Tracking Objects as Points ( http://arxiv.org/abs/2004.01177v2 )

ライセンス: Link先を確認
Xingyi Zhou, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) トラッキングは伝統的に、空間と時間を通して関心点に従う技術であった。 これは強力なディープネットワークの台頭とともに変化した。 今日では、トラッキングはオブジェクト検出を行うパイプラインに支配され、時間的アソシエーション(トラッキング・バイ・検出とも呼ばれる)が続く。 本稿では,最先端技術よりもシンプルで高速かつ高精度な同時検出・追跡アルゴリズムを提案する。 トラッカーであるCenterTrackは、前のフレームから一対のイメージと検出に検出モデルを適用します。 この最小入力により、centertrackはオブジェクトをローカライズし、前のフレームとの関連付けを予測する。 それだけだ。 centertrackはシンプルで、オンライン(未来を覗くことなく)、そしてリアルタイムだ。 これは、22 FPSのMOT17チャレンジで67.3% MOTA、15 FPSのKITTIトラッキングベンチマークで89.4% MOTAを達成した。 CenterTrackは、追加の3D属性を回帰することで、モノラルな3Dトラッキングに容易に拡張できる。 単眼ビデオ入力を用いて、新たにリリースされたnuscenes 3d trackingベンチマークで28.3%のamota@0.2を達成し、28fpsで動作しながら、このベンチマークで単眼ベースラインを実質的に上回った。

Tracking has traditionally been the art of following interest points through space and time. This changed with the rise of powerful deep networks. Nowadays, tracking is dominated by pipelines that perform object detection followed by temporal association, also known as tracking-by-detection. In this paper, we present a simultaneous detection and tracking algorithm that is simpler, faster, and more accurate than the state of the art. Our tracker, CenterTrack, applies a detection model to a pair of images and detections from the prior frame. Given this minimal input, CenterTrack localizes objects and predicts their associations with the previous frame. That's it. CenterTrack is simple, online (no peeking into the future), and real-time. It achieves 67.3% MOTA on the MOT17 challenge at 22 FPS and 89.4% MOTA on the KITTI tracking benchmark at 15 FPS, setting a new state of the art on both datasets. CenterTrack is easily extended to monocular 3D tracking by regressing additional 3D attributes. Using monocular video input, it achieves 28.3% AMOTA@0.2 on the newly released nuScenes 3D tracking benchmark, substantially outperforming the monocular baseline on this benchmark while running at 28 FPS.
翻訳日:2022-12-17 12:55:35 公開日:2020-08-21
# インスペクタガジェット:産業画像のためのデータプログラミングに基づくラベルシステム

Inspector Gadget: A Data Programming-based Labeling System for Industrial Images ( http://arxiv.org/abs/2004.03264v3 )

ライセンス: Link先を確認
Geon Heo, Yuji Roh, Seonghyeon Hwang, Dayun Lee, Steven Euijong Whang(参考訳) 画像の機械学習がSoftware 2.0時代に民主化されるにつれて、深刻なボトルネックの1つは、トレーニングに十分なラベル付きデータを確保することだ。 この問題は、スマートファクトリが産業画像の分析による製品品質管理に機械学習を頼っている製造環境では特に重要である。 このような画像は通常大きめであり、小さな部分しか問題のない部分(例えば表面上の欠陥を識別するなど)で部分的に解析される必要がある。 これらの画像の手動ラベリングは高価であるため、弱い監督は完璧ではないが大規模に作成できる弱いラベルを生成するという魅力的な代替手段である。 データプログラミングはこのカテゴリの最近のパラダイムであり、人間の知識をラベル付け関数の形で使い、それらを生成モデルに組み合わせている。 データプログラミングは、テキストや構造化データに基づくアプリケーションで成功しており、通常、構造化データに変換する方法を見つけることができれば、画像にも適用できる。 本研究では,この変換を必要とせず,直接画像に適用することで,データプログラミングの地平を広げる。 本稿では,クラウドソーシング,データ拡張,データプログラミングを組み合わせた画像ラベルシステムであるインスペクタガジェットを提案する。 本研究は,実産業用画像データセットを用いた実験を行い,プレトレーニングを行わずに畳み込みニューラルネットワーク(cnns)を用いて,他の弱いラベル技術,スヌーバ,ゴーグル,自己学習ベースラインよりも優れた性能が得られることを示す。

As machine learning for images becomes democratized in the Software 2.0 era, one of the serious bottlenecks is securing enough labeled data for training. This problem is especially critical in a manufacturing setting where smart factories rely on machine learning for product quality control by analyzing industrial images. Such images are typically large and may only need to be partially analyzed where only a small portion is problematic (e.g., identifying defects on a surface). Since manual labeling these images is expensive, weak supervision is an attractive alternative where the idea is to generate weak labels that are not perfect, but can be produced at scale. Data programming is a recent paradigm in this category where it uses human knowledge in the form of labeling functions and combines them into a generative model. Data programming has been successful in applications based on text or structured data and can also be applied to images usually if one can find a way to convert them into structured data. In this work, we expand the horizon of data programming by directly applying it to images without this conversion, which is a common scenario for industrial applications. We propose Inspector Gadget, an image labeling system that combines crowdsourcing, data augmentation, and data programming to produce weak labels at scale for image classification. We perform experiments on real industrial image datasets and show that Inspector Gadget obtains better performance than other weak-labeling techniques: Snuba, GOGGLES, and self-learning baselines using convolutional neural networks (CNNs) without pre-training.
翻訳日:2022-12-15 22:34:48 公開日:2020-08-21
# ハイブリッドリカレント畳み込み学習フレームワークを用いた可変レートビデオ圧縮

Variable Rate Video Compression using a Hybrid Recurrent Convolutional Learning Framework ( http://arxiv.org/abs/2004.04244v2 )

ライセンス: Link先を確認
Aishwarya Jadhav(参考訳) 近年、ニューラルネットワークベースの画像圧縮技術は従来のコーデックよりも優れており、学習ベースのビデオコーデックの開発のための門を開いた。 しかし、ビデオの高時間相関を利用するには、より高度なアーキテクチャを採用する必要がある。 本稿では,プログレッシブエンコーダネットワークと組み合わせた予測ネットワークを用いて,連続する映像フレーム間の時間的相関をモデル化する予測自動エンコーディングの概念に基づくハイブリッドビデオ圧縮フレームワークpredencoderを提案する。 可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。 このハイブリッドアーキテクチャの共同トレーニングと微調整により、PredEncoderはMPEG-4コーデックよりも大幅に改善され、HDビデオではH.264コーデックよりも低ビットレートでビットレートの節約を実現した。 本稿では,ビデオ圧縮領域において,高度に最適化された従来の手法と同等に,ニューラルアーキテクチャを活用する方法を示す。

In recent years, neural network-based image compression techniques have been able to outperform traditional codecs and have opened the gates for the development of learning-based video codecs. However, to take advantage of the high temporal correlation in videos, more sophisticated architectures need to be employed. This paper presents PredEncoder, a hybrid video compression framework based on the concept of predictive auto-encoding that models the temporal correlations between consecutive video frames using a prediction network which is then combined with a progressive encoder network to exploit the spatial redundancies. A variable-rate block encoding scheme has been proposed in the paper that leads to remarkably high quality to bit-rate ratios. By joint training and fine-tuning of this hybrid architecture, PredEncoder has been able to gain significant improvement over the MPEG-4 codec and has achieved bit-rate savings over the H.264 codec in the low to medium bit-rate range for HD videos and comparable results over most bit-rates for non-HD videos. This paper serves to demonstrate how neural architectures can be leveraged to perform at par with the highly optimized traditional methodologies in the video compression domain.
翻訳日:2022-12-15 08:46:53 公開日:2020-08-21
# 因果効果のベイズ推定の実際的導入:パラメトリックおよび非パラメトリックアプローチ

A Practical Introduction to Bayesian Estimation of Causal Effects: Parametric and Nonparametric Approaches ( http://arxiv.org/abs/2004.07375v2 )

ライセンス: Link先を確認
Arman Oganisian, Jason A. Roy(参考訳) 近年,因果推論のためのベイズ法の発展が進んでいる。 ベイズモデルに精通した統計学者を対象に,因果効果に対するベイズ推論の紹介を行い,実際的な因果推定に何を加えるかについて概説する。 本稿では,先行者がパラメトリックモデルに縮小とスパーシティを誘導し,因果的仮定に関する確率的感度解析を行う方法を示す。 本稿では,非パラメトリックベイズ推定の概要と因果推論文献への応用について述べる。 ポイント処理および時間変化処理設定における推論を検討する。 後者については,静的および動的治療体制について検討する。 全体として、既製のオープンソースソフトウェアによる実装について説明する。 パラメトリックモデルと非パラメトリックモデルの両方を用いてベイズ因果推論の実装レベル知識を取り除きたい。 論文で使用されるすべての合成例とコードは、GitHubリポジトリで公開されている。

Substantial advances in Bayesian methods for causal inference have been developed in recent years. We provide an introduction to Bayesian inference for causal effects for practicing statisticians who have some familiarity with Bayesian models and would like an overview of what it can add to causal estimation in practical settings. In the paper, we demonstrate how priors can induce shrinkage and sparsity on parametric models and be used to perform probabilistic sensitivity analyses around causal assumptions. We provide an overview of nonparametric Bayesian estimation and survey their applications in the causal inference literature. Inference in the point-treatment and time-varying treatment settings are considered. For the latter, we explore both static and dynamic treatment regimes. Throughout, we illustrate implementation using off-the-shelf open source software. We hope the reader will walk away with implementation-level knowledge of Bayesian causal inference using both parametric and nonparametric models. All synthetic examples and code used in the paper are publicly available on a companion GitHub repository.
翻訳日:2022-12-13 03:57:43 公開日:2020-08-21
# ニューラルネットワーク検証のための並列化技術

Parallelization Techniques for Verifying Neural Networks ( http://arxiv.org/abs/2004.08440v3 )

ライセンス: Link先を確認
Haoze Wu, Alex Ozdemir, Aleksandar Zelji\'c, Ahmed Irfan, Kyle Julian, Divya Gopinath, Sadjad Fouladi, Guy Katz, Corina Pasareanu and Clark Barrett(参考訳) ブール適合性を解決するための並列最適化手法による最近の成功に触発されて、並列コンピューティングを活用してニューラルネットワーク検証のスケーラビリティを向上させるための一連の戦略とヒューリスティックについて検討する。 本稿では, 検証問題を反復的に分割するアルゴリズムを導入し, 入力空間を分割するか, ニューロン活性化の相をケース分割するかの2つの分割戦略を探索する。 また,ニューラルネットワークの検証問題を単純化するために,ニューロン活性化相を用いた高度に並列化可能な前処理アルゴリズムを導入する。 大規模な実験的評価は、既存のベンチマークと航空分野の新しいベンチマークの両方におけるこれらの技術の利点を示している。 大規模分散クラウドベースのプラットフォームを用いてアルゴリズムを超スケールする予備実験も有望な結果を示した。

Inspired by recent successes with parallel optimization techniques for solving Boolean satisfiability, we investigate a set of strategies and heuristics that aim to leverage parallel computing to improve the scalability of neural network verification. We introduce an algorithm based on partitioning the verification problem in an iterative manner and explore two partitioning strategies, that work by partitioning the input space or by case splitting on the phases of the neuron activations, respectively. We also introduce a highly parallelizable pre-processing algorithm that uses the neuron activation phases to simplify the neural network verification problems. An extensive experimental evaluation shows the benefit of these techniques on both existing benchmarks and new benchmarks from the aviation domain. A preliminary experiment with ultra-scaling our algorithm using a large distributed cloud-based platform also shows promising results.
翻訳日:2022-12-12 12:59:13 公開日:2020-08-21
# 胸部X線画像を用いた深層学習

Deep Learning for Screening COVID-19 using Chest X-Ray Images ( http://arxiv.org/abs/2004.10507v4 )

ライセンス: Link先を確認
Sanhita Basu, Sushmita Mitra, Nilanjan Saha(参考訳) 何百万もの「ノーベルウイルス」や新型コロナウイルスの患者をスクリーニングする需要が高まっており、一般的に使われているPCR検査で高い偽陰性が出現しているため、放射線画像(胸部X線など)を用いた新型コロナウイルスの簡易スクリーニング機構の探索が重要である。 このシナリオでは、機械学習(ml)とディープラーニング(dl)は、covid-19ウイルスの特定のシグネチャに関連する可能性のある、変化した肺パレンキマの重要な特徴を検出および抽出するための高速で自動化された効果的な戦略を提供する。 しかし、利用可能なcovid-19データセットは、ディープニューラルネットワークをトレーニングするには不十分である。 そこで我々はドメイン拡張転送学習(detl)という新しい概念を提案する。 我々は、事前訓練された深部畳み込みニューラルネットワークを持つDETLを、関連する大きな胸部X線データセットに使用し、4つのクラス \textit{viz。 これは$normal$, $pneumonia$, $other\_disease$, $Covid-19$である。 胸部x線検査による新型コロナウイルスの診断の可能性を評価するため,5倍のクロス検証を行った。 最初の結果は、より大きく、より多様なデータセットでレプリケーションできる可能性を示している。 全体の精度は 90.13\% \pm 0.14$ と測定された。 新型コロナウイルス検出透明性の考え方を得るため,我々は,モデルが分類中により注意を払っている地域を検出するため,グラディエントクラス活性化マップ(Grad-CAM)という概念を採用した。 臨床所見と強く相関していることが,専門家によって確認された。

With the ever increasing demand for screening millions of prospective "novel coronavirus" or COVID-19 cases, and due to the emergence of high false negatives in the commonly used PCR tests, the necessity for probing an alternative simple screening mechanism of COVID-19 using radiological images (like chest X-Rays) assumes importance. In this scenario, machine learning (ML) and deep learning (DL) offer fast, automated, effective strategies to detect abnormalities and extract key features of the altered lung parenchyma, which may be related to specific signatures of the COVID-19 virus. However, the available COVID-19 datasets are inadequate to train deep neural networks. Therefore, we propose a new concept called domain extension transfer learning (DETL). We employ DETL, with pre-trained deep convolutional neural network, on a related large chest X-Ray dataset that is tuned for classifying between four classes \textit{viz.} $normal$, $pneumonia$, $other\_disease$, and $Covid-19$. A 5-fold cross validation is performed to estimate the feasibility of using chest X-Rays to diagnose COVID-19. The initial results show promise, with the possibility of replication on bigger and more diverse data sets. The overall accuracy was measured as $90.13\% \pm 0.14$. In order to get an idea about the COVID-19 detection transparency, we employed the concept of Gradient Class Activation Map (Grad-CAM) for detecting the regions where the model paid more attention during the classification. This was found to strongly correlate with clinical findings, as validated by experts.
翻訳日:2022-12-10 17:55:21 公開日:2020-08-21
# MeshfreeFlowNet: 物理制約の深い宇宙時間超解法フレームワーク

MeshfreeFlowNet: A Physics-Constrained Deep Continuous Space-Time Super-Resolution Framework ( http://arxiv.org/abs/2005.01463v2 )

ライセンス: Link先を確認
Chiyu Max Jiang, Soheil Esmaeilzadeh, Kamyar Azizzadenesheli, Karthik Kashinath, Mustafa Mustafa, Hamdi A. Tchelepi, Philip Marcus, Prabhat, Anima Anandkumar(参考訳) 低解像度入力から連続(グリッドフリー)時空間解を生成するための,新しいディープラーニングベースの超解法フレームワークであるMeshfreeFlowNetを提案する。 計算効率は高いが、meshfreeflownetは微妙な量の関心を正しく回収する。 MeshfreeFlowNetは、 (i)すべての時空間分解能でサンプリングされる出力 二 課すべき部分微分方程式(PDE)の制約の組及び (iii)完全畳み込みエンコーダによる任意サイズ時空間領域の定サイズ入力の訓練 レイリー・ベナード対流問題における乱流の超解法に関するMeshfreeFlowNetの性能を実験的に検討した。 さまざまな評価指標を通じて, meshfreeflownet が既存のベースラインを大幅に上回っていることを示す。 さらに,meshfreeflownetの大規模実装を提供し,最大128gpuで96.80%のスケーリング効率を実現し,トレーニング時間は4分未満であることを実証した。

We propose MeshfreeFlowNet, a novel deep learning-based super-resolution framework to generate continuous (grid-free) spatio-temporal solutions from the low-resolution inputs. While being computationally efficient, MeshfreeFlowNet accurately recovers the fine-scale quantities of interest. MeshfreeFlowNet allows for: (i) the output to be sampled at all spatio-temporal resolutions, (ii) a set of Partial Differential Equation (PDE) constraints to be imposed, and (iii) training on fixed-size inputs on arbitrarily sized spatio-temporal domains owing to its fully convolutional encoder. We empirically study the performance of MeshfreeFlowNet on the task of super-resolution of turbulent flows in the Rayleigh-Benard convection problem. Across a diverse set of evaluation metrics, we show that MeshfreeFlowNet significantly outperforms existing baselines. Furthermore, we provide a large scale implementation of MeshfreeFlowNet and show that it efficiently scales across large clusters, achieving 96.80% scaling efficiency on up to 128 GPUs and a training time of less than 4 minutes.
翻訳日:2022-12-07 23:29:16 公開日:2020-08-21
# 少数のクラッタ画像を用いた6次元空間推定のためのニューラル物体学習

Neural Object Learning for 6D Pose Estimation Using a Few Cluttered Images ( http://arxiv.org/abs/2005.03717v2 )

ライセンス: Link先を確認
Kiru Park, Timothy Patten, Markus Vincze(参考訳) 近年のオブジェクトの6次元ポーズ推定手法は、テクスチャ化された3次元モデルか、ターゲットポーズの全範囲をカバーする実像のいずれかを想定している。 しかし、テクスチャ化された3Dモデルを取得し、実際のシナリオでオブジェクトのポーズをアノテートすることは困難である。 本稿では,乱雑な画像からのわずかな観察を組み合わせ,任意のポーズでオブジェクトの合成画像を生成するニューラルオブジェクト学習(NOL)を提案する。 ソース画像中のオブジェクトの不正確なポーズを調整するために,新しい改良ステップが提案されている。 2つの公開データセットで実施された評価によると、NOLによって生成されたレンダリング画像は、実際の画像の13倍の手法と比較して、最先端のパフォーマンスにつながる。 新しいデータセットの評価では、固定シーンのシーケンスを使用して複数のオブジェクトを同時にトレーニングし、認識することができる。

Recent methods for 6D pose estimation of objects assume either textured 3D models or real images that cover the entire range of target poses. However, it is difficult to obtain textured 3D models and annotate the poses of objects in real scenarios. This paper proposes a method, Neural Object Learning (NOL), that creates synthetic images of objects in arbitrary poses by combining only a few observations from cluttered images. A novel refinement step is proposed to align inaccurate poses of objects in source images, which results in better quality images. Evaluations performed on two public datasets show that the rendered images created by NOL lead to state-of-the-art performance in comparison to methods that use 13 times the number of real images. Evaluations on our new dataset show multiple objects can be trained and recognized simultaneously using a sequence of a fixed scene.
翻訳日:2022-12-06 00:00:36 公開日:2020-08-21
# Rydberg格子におけるGHZ状態のベイズ最適制御

Bayesian optimal control of GHZ states in Rydberg lattices ( http://arxiv.org/abs/2005.05802v2 )

ライセンス: Link先を確認
Rick Mukherjee, Harry Xie, and Florian Mintert(参考訳) 非古典的状態を頑健に作成する能力は、標準量子限界を超える量子センサに必須である。 ベイズ最適制御は、捕捉されたリドバーグ原子を高絡み合ったGHZ状態に駆動する制御パルスを見つけることができることを示した。 制御列は、イジングダイナミクスの準積分性に基づく物理的直感的な機能を持つ。 これらは実験で構築でき、システムサイズに非常に好適にスケールする準備時間が得られる。

The ability to prepare non-classical states in a robust manner is essential for quantum sensors beyond the standard quantum limit. We demonstrate that Bayesian optimal control is capable of finding control pulses that drive trapped Rydberg atoms into highly entangled GHZ states. The control sequences have a physically intuitive functionality based on the quasi-integrability of the Ising dynamics. They can be constructed in laboratory experiments resulting in preparation times that scale very favourably with the system size.
翻訳日:2022-12-03 19:43:00 公開日:2020-08-21
# 平行集合に対する逆ユークリッドおよびガウス等距離不等式と応用

Reverse Euclidean and Gaussian isoperimetric inequalities for parallel sets with applications ( http://arxiv.org/abs/2006.09568v2 )

ライセンス: Link先を確認
Varun Jog(参考訳) 可測集合 $A \subseteq \mathbb R^d$ の $r$-パラレル集合は、$A$ からの距離が少なくとも $r$ であるすべての点の集合である。 本稿では、最大$V$の体積を持つ$\mathbb R^d$の$r$パラレル集合の表面積が、$e^{\Theta(d)}V/r$で上界であるのに対し、そのガウス曲面面積は$\max(e^{\Theta(d)},e^{\Theta(d)}/r$で上界であることを示す。 また、brunn-minkowski不等式をr$-parallel 集合に対して逆形式として導出し、gaussian-smoothed 確率変数の逆エントロピーパワー不等式を別にして導出する。 理論機械学習の2つの問題に対して,(1) ガウス分布下での学習の計算複雑性をr$-parallel 集合に限定する,(2) 仮説テストにおけるベイズリスクに類似した,敵対的機械学習文献におけるリスクの概念であるロバストリスクを推定するサンプル複雑性を限定する,という2つの問題を適用する。

The $r$-parallel set of a measurable set $A \subseteq \mathbb R^d$ is the set of all points whose distance from $A$ is at most $r$. In this paper, we show that the surface area of an $r$-parallel set in $\mathbb R^d$ with volume at most $V$ is upper-bounded by $e^{\Theta(d)}V/r$, whereas its Gaussian surface area is upper-bounded by $\max(e^{\Theta(d)}, e^{\Theta(d)}/r)$. We also derive a reverse form of the Brunn-Minkowski inequality for $r$-parallel sets, and as an aside a reverse entropy power inequality for Gaussian-smoothed random variables. We apply our results to two problems in theoretical machine learning: (1) bounding the computational complexity of learning $r$-parallel sets under a Gaussian distribution; and (2) bounding the sample complexity of estimating robust risk, which is a notion of risk in the adversarial machine learning literature that is analogous to the Bayes risk in hypothesis testing.
翻訳日:2022-11-20 21:54:51 公開日:2020-08-21
# レート適応チャネル符号に基づく360度画像の対話圧縮における微細粒度アクセス

Fine granularity access in interactive compression of 360-degree images based on rate-adaptive channel codes ( http://arxiv.org/abs/2006.14239v2 )

ライセンス: Link先を確認
Navid Mahmoudian Bidgoli, Thomas Maugey, Aline Roumy(参考訳) 本稿では,全方位画像のインタラクティブ圧縮方式を提案する。 これには、データの効率的な圧縮、ストレージコストの低減、ユーザが要求する圧縮ストリームの一部を抽出するランダムアクセス能力(送信レートの低減)の2つの特性が必要である。 効率的な圧縮には、事前に定義され圧縮された一連の参照によってデータを予測する必要がある。 これはランダムアクセシビリティの精神とは対照的である。 本稿では,レート適応型チャネルコードによって実装されたインクリメンタルコードに基づくこの問題に対する解決策を提案する。 このスキームは、任意のユーザ要求に適応しながら画像をエンコードし、デコーダで利用可能な情報に応じてデータを柔軟に抽出する効率的なコーディングに繋がる。 したがって、要求が既にエンコーダで知られていたかのように、ユーザの要求の間、ユーザ側で表示される必要のある情報のみを送信する。 実験結果から,本コーダは,少ないストレージコストで,最先端タイル方式よりも優れた伝送率が得られることがわかった。 さらに, 送信速度は要求の大きさに応じて徐々に増加し, 段差効果を回避し, 対話型伝送におけるコーダの完全適合性を示す。

In this paper, we propose a new interactive compression scheme for omnidirectional images. This requires two characteristics: efficient compression of data, to lower the storage cost, and random access ability to extract part of the compressed stream requested by the user (for reducing the transmission rate). For efficient compression, data needs to be predicted by a series of references that have been pre-defined and compressed. This contrasts with the spirit of random accessibility. We propose a solution for this problem based on incremental codes implemented by rate-adaptive channel codes. This scheme encodes the image while adapting to any user request and leads to an efficient coding that is flexible in extracting data depending on the available information at the decoder. Therefore, only the information that is needed to be displayed at the user's side is transmitted during the user's request, as if the request was already known at the encoder. The experimental results demonstrate that our coder obtains a better transmission rate than the state-of-the-art tile-based methods at a small cost in storage. Moreover, the transmission rate grows gradually with the size of the request and avoids a staircase effect, which shows the perfect suitability of our coder for interactive transmission.
翻訳日:2022-11-17 04:24:21 公開日:2020-08-21
# 不偏性リスク推定器の誤認 : 補完ラベルを用いた学習を事例として

Unbiased Risk Estimators Can Mislead: A Case Study of Learning with Complementary Labels ( http://arxiv.org/abs/2007.02235v3 )

ライセンス: Link先を確認
Yu-Ting Chou, Gang Niu, Hsuan-Tien Lin, Masashi Sugiyama(参考訳) 弱教師付き学習では、アンバイアスドリスク推定器(URE)は、異なる分布からトレーニングデータとテストデータを引き出す際に、分類器を訓練するための強力なツールである。 それでも、モデルがディープネットワークのように複雑である場合、ureは多くの問題設定に過剰に適合する。 本稿では,相補ラベルを用いた学習と呼ばれる弱教師付き問題を研究することにより,過度に適合する理由について検討する。 勾配推定の質はリスク最小化においてより重要であると論じる。 理論的には、UREは非バイアス勾配推定器(UGE)を与える。 しかし、実際には、UGEは大きなばらつきに悩まされ、経験的勾配は通常最小化時に真の勾配から遠く離れる。 そこで本研究では,ゼロバイアスと分散の低減を両立させ,経験的勾配を方向の真の勾配に合致させる新しいサロゲート相補的損失(scl)フレームワークを提案する。 この特徴により、SCLはオーバーフィッティング問題を緩和し、UREベースの手法を改善した。

In weakly supervised learning, unbiased risk estimator(URE) is a powerful tool for training classifiers when training and test data are drawn from different distributions. Nevertheless, UREs lead to overfitting in many problem settings when the models are complex like deep networks. In this paper, we investigate reasons for such overfitting by studying a weakly supervised problem called learning with complementary labels. We argue the quality of gradient estimation matters more in risk minimization. Theoretically, we show that a URE gives an unbiased gradient estimator(UGE). Practically, however, UGEs may suffer from huge variance, which causes empirical gradients to be usually far away from true gradients during minimization. To this end, we propose a novel surrogate complementary loss(SCL) framework that trades zero bias with reduced variance and makes empirical gradients more aligned with true gradients in the direction. Thanks to this characteristic, SCL successfully mitigates the overfitting issue and improves URE-based methods.
翻訳日:2022-11-13 07:44:19 公開日:2020-08-21
# ASAP-NMS:空間認識による非最大抑圧の高速化

ASAP-NMS: Accelerating Non-Maximum Suppression Using Spatially Aware Priors ( http://arxiv.org/abs/2007.09785v2 )

ライセンス: Link先を確認
Rohun Tripathi, Vasu Singla, Mahyar Najibi, Bharat Singh, Abhishek Sharma and Larry Davis(参考訳) 広く採用されているNon Maximum Suppression(またはGreedy-NMS)は、オブジェクト検出パイプラインにとって重要なモジュールである。 残念なことに、2段/複数段検出器の領域提案段階では、NMSはそのシーケンシャルな性質のため、遅延ボトルネックであることが判明している。 本稿では、Greedy-NMSイテレーションを慎重にプロファイルし、すでに遠くにある提案と、互いに抑制する可能性の少ない提案を比較する際に、大量の計算が無駄になっていることを確認する。 我々は、近くのアンカーから生成される提案のみを比較することでこの問題に対処する。 アンカー格子の翻訳不変性は、NMS中に近くの提案への効率的なアクセスを提供するルックアップテーブルを生成することができる。 これにより、Spatially Aware Priors(ASAP-NMS)を活用し、COCOおよびVOCデータセット上の最先端の2段階検出器の精度を犠牲にすることなく、CPU上でのNMSステップのレイテンシを13.6msから1.2msに改善する加速NMSアルゴリズムが実現される。 重要なことは、ASAP-NMSは画像解像度に非依存であり、推論中に単純なドロップインモジュールとして使用することができる。 実行時のみASAP-NMSを使用すると、V100 GPUを用いたCOCOデータセット上で44.2\%@25HzのmAPが得られる。

The widely adopted sequential variant of Non Maximum Suppression (or Greedy-NMS) is a crucial module for object-detection pipelines. Unfortunately, for the region proposal stage of two/multi-stage detectors, NMS is turning out to be a latency bottleneck due to its sequential nature. In this article, we carefully profile Greedy-NMS iterations to find that a major chunk of computation is wasted in comparing proposals that are already far-away and have a small chance of suppressing each other. We address this issue by comparing only those proposals that are generated from nearby anchors. The translation-invariant property of the anchor lattice affords generation of a lookup table, which provides an efficient access to nearby proposals, during NMS. This leads to an Accelerated NMS algorithm which leverages Spatially Aware Priors, or ASAP-NMS, and improves the latency of the NMS step from 13.6ms to 1.2 ms on a CPU without sacrificing the accuracy of a state-of-the-art two-stage detector on COCO and VOC datasets. Importantly, ASAP-NMS is agnostic to image resolution and can be used as a simple drop-in module during inference. Using ASAP-NMS at run-time only, we obtain an mAP of 44.2\%@25Hz on the COCO dataset with a V100 GPU.
翻訳日:2022-11-09 00:35:04 公開日:2020-08-21
# 表情認識におけるバイアスと公平性の検討

Investigating Bias and Fairness in Facial Expression Recognition ( http://arxiv.org/abs/2007.10075v3 )

ライセンス: Link先を確認
Tian Xu, Jennifer White, Sinan Kalkan, Hatice Gunes(参考訳) 感情表現の認識と顔画像の影響は、感情コンピューティングとコンピュータビジョンの分野でよく研究されている問題であり、顔画像と対応する表情ラベルを含む多数のデータセットが利用可能である。 しかし、これらのデータセットのほとんどが、ヒト全体の公平な分布を考慮して取得されていない。 そこで本研究では,RAF-DBとCelebAの2つのよく知られたデータセットを用いて,ベースライン,属性認識,アンタングルアプローチの3つのアプローチを比較し,表情認識におけるバイアスと公平性の体系的な検討を行った。 結果はこう示しています i) データの増大はベースラインモデルの精度を向上させるが、このだけでバイアス効果を緩和することはできない。 (二) 属性認識とデータ拡張で強化された不整合アプローチの両方が、正確性及び公正性の観点から基準アプローチより優れていること。 (iii)異方性アプローチは、人口バイアスを緩和するための最善の方法である。 (4)偏差緩和戦略は、不均一な属性分布や不均衡なサブグループのデータの存在により適している。

Recognition of expressions of emotions and affect from facial images is a well-studied research problem in the fields of affective computing and computer vision with a large number of datasets available containing facial images and corresponding expression labels. However, virtually none of these datasets have been acquired with consideration of fair distribution across the human population. Therefore, in this work, we undertake a systematic investigation of bias and fairness in facial expression recognition by comparing three different approaches, namely a baseline, an attribute-aware and a disentangled approach, on two well-known datasets, RAF-DB and CelebA. Our results indicate that: (i) data augmentation improves the accuracy of the baseline model, but this alone is unable to mitigate the bias effect; (ii) both the attribute-aware and the disentangled approaches fortified with data augmentation perform better than the baseline approach in terms of accuracy and fairness; (iii) the disentangled approach is the best for mitigating demographic bias; and (iv) the bias mitigation strategies are more suitable in the existence of uneven attribute distribution or imbalanced number of subgroup data.
翻訳日:2022-11-08 13:56:47 公開日:2020-08-21
# KPRNet: プロジェクションベースのLiDARセマンティックセグメンテーションの改善

KPRNet: Improving projection-based LiDAR semantic segmentation ( http://arxiv.org/abs/2007.12668v2 )

ライセンス: Link先を確認
Deyvid Kochanov, Fatemeh Karimi Nejadasl, and Olaf Booij(参考訳) セマンティックセグメンテーションは自動運転車の知覚システムにおいて重要な構成要素である。 本研究では,LiDARスキャンのセグメンテーションにおける精度向上のために,画像と点雲のセグメンテーションの最近の進歩を採用する。 KPRNetは、2Dプロジェクション手法の畳み込みニューラルネットワークアーキテクチャを改善し、KPConvを使用して、一般的に使われている後処理技術を学習可能なポイントワイドコンポーネントに置き換えることで、より正確な3Dラベルを得ることができる。 これらの改善により、私たちのモデルはSemanticKITTIベンチマークの現在の最良のメソッドよりも優れ、mIoUは63.1に達した。

Semantic segmentation is an important component in the perception systems of autonomous vehicles. In this work, we adopt recent advances in both image and point cloud segmentation to achieve a better accuracy in the task of segmenting LiDAR scans. KPRNet improves the convolutional neural network architecture of 2D projection methods and utilizes KPConv to replace the commonly used post-processing techniques with a learnable point-wise component which allows us to obtain more accurate 3D labels. With these improvements our model outperforms the current best method on the SemanticKITTI benchmark, reaching an mIoU of 63.1.
翻訳日:2022-11-07 06:13:11 公開日:2020-08-21
# 森林決定によるロバストな類似性と遠隔学習

Robust Similarity and Distance Learning via Decision Forests ( http://arxiv.org/abs/2007.13843v2 )

ライセンス: Link先を確認
Tyler M. Tomita and Joshua T. Vogelstein(参考訳) ユークリッド距離のような正準距離は、しばしばアイテム間の適切な関係を捉えられず、その後にサブパー推論と予測に繋がる。 多くのアルゴリズムが適切な距離を自動学習するために提案され、そのほとんどは特徴空間上の大域的計量を学習するために線形手法を用いている。 このような手法は、優れた理論特性、解釈可能性、それらを実装するための計算効率のよい手段を提供するが、表現能力には制限がある。 表現力を向上させるために設計されたメソッドは、線形メソッドの1つ以上の優れた特性を犠牲にしている。 このギャップを埋めるために,我々は距離学習のための,高度に表現力のある新しい決定森林アルゴリズムを提案し,これをSimisity and Metric Random Forests (SMERF) と呼ぶ。 SMERFにおける木構築手順は標準分類と回帰木の適切な一般化であることを示す。 そこで, SMERFの数学的駆動力は, 回帰林と直結して検討され, その理論が発展している。 任意の距離を近似し、重要な特徴を特定する能力は、シミュレーションデータセット上で実証的に実証されている。 最後に,ネットワーク内のリンクを正確に予測できることを実証する。

Canonical distances such as Euclidean distance often fail to capture the appropriate relationships between items, subsequently leading to subpar inference and prediction. Many algorithms have been proposed for automated learning of suitable distances, most of which employ linear methods to learn a global metric over the feature space. While such methods offer nice theoretical properties, interpretability, and computationally efficient means for implementing them, they are limited in expressive capacity. Methods which have been designed to improve expressiveness sacrifice one or more of the nice properties of the linear methods. To bridge this gap, we propose a highly expressive novel decision forest algorithm for the task of distance learning, which we call Similarity and Metric Random Forests (SMERF). We show that the tree construction procedure in SMERF is a proper generalization of standard classification and regression trees. Thus, the mathematical driving forces of SMERF are examined via its direct connection to regression forests, for which theory has been developed. Its ability to approximate arbitrary distances and identify important features is empirically demonstrated on simulated data sets. Last, we demonstrate that it accurately predicts links in networks.
翻訳日:2022-11-06 08:21:59 公開日:2020-08-21
# 畳み込みニューラルネットワークを用いた自発妊娠予測

Spontaneous preterm birth prediction using convolutional neural networks ( http://arxiv.org/abs/2008.07000v2 )

ライセンス: Link先を確認
Tomasz W{\l}odarczyk, Szymon P{\l}otka, Przemys{\l}aw Rokita, Nicole Sochacki-W\'ojcicka, Jakub W\'ojcicki, Micha{\l} Lipa, Tomasz Trzci\'nski(参考訳) 毎年1500万人の赤ちゃんが生まれています。 早産(ptb)の合併症により毎年約100万人が死亡している。 多くの生存者は、学習障害や視覚や聴覚の問題など、生涯障害に直面している。 超音波画像(US)の手動解析はいまだ一般的であるが、主観的成分と患者間の臓器の形状と位置の複雑な変化により誤差が生じる傾向にある。 そこで本研究では,出生前超音波画像の分割と分類タスクを訓練した概念的に単純な畳み込みニューラルネットワーク(cnn)を提案する。 本手法は,人間の見落としのない抽出画像の特徴に基づいて,出生前を予測しながら,経血管超音波画像における各種の子宮頸部を効率的に分割する。 u-net,full convolutional network,deeplabv3の3つの一般的なネットワークモデルをセルビックスセグメンテーションタスクに採用した。 得られた結果とモデル効率に基づいて,分類タスクに並列ブランチを追加することで,u-netを拡張した。 提案モデルでは,354枚の2次元超音波画像からなるデータセットを訓練し,平均jaccard係数指数 0.923$\pm$ 0.081 と分類感度 0.677$\pm$ 0.042 のセグメンテーション精度を 3.49\% の偽陽性率で達成した。 術中超音波画像を用いた早期出生予測は,最先端法と比較して良好な結果を得た。

An estimated 15 million babies are born too early every year. Approximately 1 million children die each year due to complications of preterm birth (PTB). Many survivors face a lifetime of disability, including learning disabilities and visual and hearing problems. Although manual analysis of ultrasound images (US) is still prevalent, it is prone to errors due to its subjective component and complex variations in the shape and position of organs across patients. In this work, we introduce a conceptually simple convolutional neural network (CNN) trained for segmenting prenatal ultrasound images and classifying task for the purpose of preterm birth detection. Our method efficiently segments different types of cervixes in transvaginal ultrasound images while simultaneously predicting a preterm birth based on extracted image features without human oversight. We employed three popular network models: U-Net, Fully Convolutional Network, and Deeplabv3 for the cervix segmentation task. Based on the conducted results and model efficiency, we decided to extend U-Net by adding a parallel branch for classification task. The proposed model is trained and evaluated on a dataset consisting of 354 2D transvaginal ultrasound images and achieved a segmentation accuracy with a mean Jaccard coefficient index of 0.923 $\pm$ 0.081 and a classification sensitivity of 0.677 $\pm$ 0.042 with a 3.49\% false positive rate. Our method obtained better results in the prediction of preterm birth based on transvaginal ultrasound images compared to state-of-the-art methods.
翻訳日:2022-10-28 09:15:25 公開日:2020-08-21
# BUT-FIT at SemEval-2020 Task 4: Multilingual Commonsense

BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense ( http://arxiv.org/abs/2008.07259v2 )

ライセンス: Link先を確認
Josef Jon, Martin Faj\v{c}\'ik, Martin Do\v{c}ekal, Pavel Smr\v{z}(参考訳) 本稿では,SemEval 2020 Task 4Commonsense Validation and ExplanationにおけるBUT-FITチームについて述べる。 私たちは3つのサブタスクに参加した。 サブタスクAとBでは、事前訓練された言語表現モデル(ALBERT)とデータ拡張に基づいている。 我々は、多言語モデルと機械翻訳データセット、あるいは翻訳されたモデル入力を用いて、別の言語であるチェコ語のタスクを解く実験を行った。 強い機械翻訳システムでは, 精度の低下を少なく抑えながら, 他言語で使用することができることを示す。 サブタスクCでは,事前訓練されたシーケンス・ツー・シーケンス・モデル(BART)に基づいてBLEUスコアランキングで1位となったが,BLEUと人的評価の相関は低く,最終的に4位となった。 本研究では,評価に使用される指標を分析し,サブタスクbのモデルに基づく追加スコアを提案する。 我々はすべてのサブタスクに対してエラーとデータセット解析を行い,その結果を報告する。

This paper describes work of the BUT-FIT's team at SemEval 2020 Task 4 - Commonsense Validation and Explanation. We participated in all three subtasks. In subtasks A and B, our submissions are based on pretrained language representation models (namely ALBERT) and data augmentation. We experimented with solving the task for another language, Czech, by means of multilingual models and machine translated dataset, or translated model inputs. We show that with a strong machine translation system, our system can be used in another language with a small accuracy loss. In subtask C, our submission, which is based on pretrained sequence-to-sequence model (BART), ranked 1st in BLEU score ranking, however, we show that the correlation between BLEU and human evaluation, in which our submission ended up 4th, is low. We analyse the metrics used in the evaluation and we propose an additional score based on model from subtask B, which correlates well with our manual ranking, as well as reranking method based on the same principle. We performed an error and dataset analysis for all subtasks and we present our findings.
翻訳日:2022-10-28 03:43:24 公開日:2020-08-21
# 深層学習の終末期における神経崩壊の頻度

Prevalence of Neural Collapse during the terminal phase of deep learning training ( http://arxiv.org/abs/2008.08186v2 )

ライセンス: Link先を確認
Vardan Papyan, X.Y. Han, David L. Donoho(参考訳) ディープネットを訓練する現代の実践は、訓練エラーが最初に消滅した時代から始まる訓練の終末期(tpt)であり、tptの間、トレーニング損失がゼロに押される間、トレーニングエラーは効果的にゼロにとどまる。 Direct measurements of TPT, for three prototypical deepnet architectures and across seven canonical classification datasets, expose a pervasive inductive bias we call Neural Collapse, involving four deeply interconnected phenomena: (NC1) Cross-example within-class variability of last-layer training activations collapses to zero, as the individual activations themselves collapse to their class-means; (NC2) The class-means collapse to the vertices of a Simplex Equiangular Tight Frame (ETF); (NC3) Up to rescaling, the last-layer classifiers collapse to the class-means, or in other words to the Simplex ETF, i.e. to a self-dual configuration; (NC4) For a given activation, the classifier's decision collapses to simply choosing whichever class has the closest train class-mean, i.e. the Nearest Class Center (NCC) decision rule. TPTによって誘導される対称的かつ非常に単純な幾何学は、より優れた一般化性能、より良い堅牢性、より良い解釈可能性を含む重要な利益をもたらす。

Modern practice for training classification deepnets involves a Terminal Phase of Training (TPT), which begins at the epoch where training error first vanishes; During TPT, the training error stays effectively zero while training loss is pushed towards zero. Direct measurements of TPT, for three prototypical deepnet architectures and across seven canonical classification datasets, expose a pervasive inductive bias we call Neural Collapse, involving four deeply interconnected phenomena: (NC1) Cross-example within-class variability of last-layer training activations collapses to zero, as the individual activations themselves collapse to their class-means; (NC2) The class-means collapse to the vertices of a Simplex Equiangular Tight Frame (ETF); (NC3) Up to rescaling, the last-layer classifiers collapse to the class-means, or in other words to the Simplex ETF, i.e. to a self-dual configuration; (NC4) For a given activation, the classifier's decision collapses to simply choosing whichever class has the closest train class-mean, i.e. the Nearest Class Center (NCC) decision rule. The symmetric and very simple geometry induced by the TPT confers important benefits, including better generalization performance, better robustness, and better interpretability.
翻訳日:2022-10-27 20:36:55 公開日:2020-08-21
# TNT:ターゲットドライブN軌道予測

TNT: Target-driveN Trajectory Prediction ( http://arxiv.org/abs/2008.08294v2 )

ライセンス: Link先を確認
Hang Zhao, Jiyang Gao, Tian Lan, Chen Sun, Benjamin Sapp, Balakrishnan Varadarajan, Yue Shen, Yi Shen, Yuning Chai, Cordelia Schmid, Congcong Li, Dragomir Anguelov(参考訳) 移動エージェントの将来の挙動を予測することは現実世界のアプリケーションにとって不可欠である。 エージェントの意図とそれに対応する振る舞いが不明であり、本質的にマルチモーダルであるため、これは難しい。 我々の重要な洞察は、適度な時間的地平線内での予測では、将来のモードはターゲット状態の集合によって効果的に捕捉できるということである。 これにより、ターゲット駆動軌道予測(TNT)フレームワークが実現される。 TNTには、エンドツーエンドにトレーニングされた3つのステージがある。 エージェントの潜在的なターゲットは、環境と他のエージェントとのインタラクションをエンコードすることで、未来への$T$ステップを予測します。 TNTはターゲットに条件付けされた軌道状態列を生成する。 最終段階は軌道確率を推定し、最終コンパクトな軌道予測セットを選択する。 これはエージェントが潜伏変数として意図する以前の作業とは対照的であり、様々な軌道を生成するためにテスト時のサンプリングに依存している。 我々は、車と歩行者の軌道予測についてTNTをベンチマークし、Argoverse Forecasting、InterAction、Stanford Droneおよび社内のPedestrian-at-Intersectionデータセットで最先端の予測を行う。

Predicting the future behavior of moving agents is essential for real world applications. It is challenging as the intent of the agent and the corresponding behavior is unknown and intrinsically multimodal. Our key insight is that for prediction within a moderate time horizon, the future modes can be effectively captured by a set of target states. This leads to our target-driven trajectory prediction (TNT) framework. TNT has three stages which are trained end-to-end. It first predicts an agent's potential target states $T$ steps into the future, by encoding its interactions with the environment and the other agents. TNT then generates trajectory state sequences conditioned on targets. A final stage estimates trajectory likelihoods and a final compact set of trajectory predictions is selected. This is in contrast to previous work which models agent intents as latent variables, and relies on test-time sampling to generate diverse trajectories. We benchmark TNT on trajectory prediction of vehicles and pedestrians, where we outperform state-of-the-art on Argoverse Forecasting, INTERACTION, Stanford Drone and an in-house Pedestrian-at-Intersection dataset.
翻訳日:2022-10-27 12:26:31 公開日:2020-08-21
# MEANTIME:シークエンシャルレコメンデーションのための多時間埋め込みと注意機構の混合

MEANTIME: Mixture of Attention Mechanisms with Multi-temporal Embeddings for Sequential Recommendation ( http://arxiv.org/abs/2008.08273v2 )

ライセンス: Link先を確認
Sung Min Cho, Eunhyeok Park, Sungjoo Yoo(参考訳) 近年,自己着脱型モデルが逐次レコメンデーションタスクにおいて最先端のパフォーマンスを達成している。 言語処理からのカスタムに従って、これらのモデルのほとんどは、ユーザの履歴のシーケンシャルな性質を利用するために、単純な位置埋め込みに依存している。 しかし、現在のアプローチにはいくつかの制限がある。 まず、シーケンシャルなレコメンデーションは、タイムスタンプ情報が利用できる言語処理とは異なる。 以前のモデルでは、追加の文脈情報を抽出するのに十分な利用がなかった。 第2に、単純な埋め込み方式を使用することで、同じ埋め込みがすべての可能なコンテキストバイアスを表す必要があるため、情報のボトルネックにつながる可能性がある。 第三に、従来のモデルはそれぞれの注意ヘッドに同じ位置埋め込みを使っているため、重複するパターンを無駄に学習することができる。 このような制約に対処するために,ユーザの行動シーケンスから様々なパターンをキャプチャする多種類の時間的埋め込みと,その多様性を完全に活用した注意構造を用いたMEANTIME(MixturE of AtteNTIon Mechanism with Multi-temporal Embeddings)を提案する。 実世界データを用いた実験により,提案手法が最先端の逐次レコメンデーション手法に勝ることを示し,多種多様な位置情報からモデルがどのように得られるかを分析するための広範なアブレーション研究を行った。

Recently, self-attention based models have achieved state-of-the-art performance in sequential recommendation task. Following the custom from language processing, most of these models rely on a simple positional embedding to exploit the sequential nature of the user's history. However, there are some limitations regarding the current approaches. First, sequential recommendation is different from language processing in that timestamp information is available. Previous models have not made good use of it to extract additional contextual information. Second, using a simple embedding scheme can lead to information bottleneck since the same embedding has to represent all possible contextual biases. Third, since previous models use the same positional embedding in each attention head, they can wastefully learn overlapping patterns. To address these limitations, we propose MEANTIME (MixturE of AtteNTIon mechanisms with Multi-temporal Embeddings) which employs multiple types of temporal embeddings designed to capture various patterns from the user's behavior sequence, and an attention structure that fully leverages such diversity. Experiments on real-world data show that our proposed method outperforms current state-of-the-art sequential recommendation methods, and we provide an extensive ablation study to analyze how the model gains from the diverse positional information.
翻訳日:2022-10-27 09:09:47 公開日:2020-08-21
# DronePose:スムースシルエットロスによる3D空間推定のための光リアルUAVアシストデータセット合成

DronePose: Photorealistic UAV-Assistant Dataset Synthesis for 3D Pose Estimation via a Smooth Silhouette Loss ( http://arxiv.org/abs/2008.08823v2 )

ライセンス: Link先を確認
Georgios Albanis, Nikolaos Zioulis, Anastasios Dimou, Dimitrios Zarpalas, Petros Daras(参考訳) 本研究は,UAVを人的ユーザを支援する協力的エージェントとみなす。 この文脈では、UAVアシスタントの3Dローカライゼーションは、ユーザとUAV間の空間情報の交換を容易にする重要なタスクである。 データ駆動方式でこの問題に対処するため、データ合成パイプラインを設計し、エキソセントリックなユーザビューとエゴセントリックなUAVビューの両方を含む現実的なマルチモーダルデータセットを作成する。 次に,フォトリアリスティック入力と合成入力を併用して単発単眼ポーズ推定モデルを訓練する。 トレーニング中、私たちは差別化可能なレンダリングを利用して、新しいスムーズなシルエット損失で最先端の直接回帰目標を補完します。 その結果,従来のシルエット目標よりも質的かつ定量的な性能向上が示された。 私たちのデータとコードはhttps://vcl3d.github.io/DronePoseで利用可能です。

In this work we consider UAVs as cooperative agents supporting human users in their operations. In this context, the 3D localisation of the UAV assistant is an important task that can facilitate the exchange of spatial information between the user and the UAV. To address this in a data-driven manner, we design a data synthesis pipeline to create a realistic multimodal dataset that includes both the exocentric user view, and the egocentric UAV view. We then exploit the joint availability of photorealistic and synthesized inputs to train a single-shot monocular pose estimation model. During training we leverage differentiable rendering to supplement a state-of-the-art direct regression objective with a novel smooth silhouette loss. Our results demonstrate its qualitative and quantitative performance gains over traditional silhouette objectives. Our data and code are available at https://vcl3d.github.io/DronePose
翻訳日:2022-10-27 04:16:34 公開日:2020-08-21
# 確率的リワードとオンライン推論による異種運転行動の表現

Expressing Diverse Human Driving Behavior with Probabilistic Rewards and Online Inference ( http://arxiv.org/abs/2008.08812v2 )

ライセンス: Link先を確認
Liting Sun, Zheng Wu, Hengbo Ma, Masayoshi Tomizuka(参考訳) 自動運転車のような人間とロボットの相互作用(hri)システムでは、人間の行動の理解と表現が重要である。 人間の行動は自然に豊かで多様である。 コスト/リワード学習は、人間の行動を学び、表現する効率的な方法として、多くの領域でうまく適用されています。 しかし、従来の逆強化学習(irl)アルゴリズムのほとんどは、与えられたデータセット内のすべての動作が単一のコスト関数によって生成されると仮定しているため、人間の行動の多様性を適切に捉えることができない。 合成データと実際の運転データの両方について評価を行う。 定量的および主観的評価の結果から,提案手法は,多様な運転行動の表現や,ユーザ研究における人間の解釈に適合する異なる運転スタイルを抽出できることが示唆された。

In human-robot interaction (HRI) systems, such as autonomous vehicles, understanding and representing human behavior are important. Human behavior is naturally rich and diverse. Cost/reward learning, as an efficient way to learn and represent human behavior, has been successfully applied in many domains. Most of traditional inverse reinforcement learning (IRL) algorithms, however, cannot adequately capture the diversity of human behavior since they assume that all behavior in a given dataset is generated by a single cost function.In this paper, we propose a probabilistic IRL framework that directly learns a distribution of cost functions in continuous domain. Evaluations on both synthetic data and real human driving data are conducted. Both the quantitative and subjective results show that our proposed framework can better express diverse human driving behaviors, as well as extracting different driving styles that match what human participants interpret in our user study.
翻訳日:2022-10-27 04:00:32 公開日:2020-08-21
# 時間的組立におけるクラス内変動の影響の検討

Investigating the Effect of Intraclass Variability in Temporal Ensembling ( http://arxiv.org/abs/2008.08956v2 )

ライセンス: Link先を確認
Siddharth Vohra, Manikandan Ravikiran(参考訳) テンポラリセンスリング(temporal ensembling)は、少数のラベル付きイメージでディープニューラルネットワークモデルをトレーニングする、半教師付きアプローチである。 本稿では,種の大きさと種型に着目した時間的感覚形成におけるクラス内変動の影響について予備的な検討を行った。 実験で分かったのは (a)高いクラス内変動をもたらすデータセットによる精度の大幅な低下がある。 b) より多くのシード画像がデータセット全体にわたって一貫して高い精度で提供し、 (c)種子型は全体としての効率に影響を与え, 低い値と高い値の両方の精度のスペクトルを生じる。 さらに,本実験から,KMNISTが時間的アンサンブルの競争的ベースラインであることも確認した。

Temporal Ensembling is a semi-supervised approach that allows training deep neural network models with a small number of labeled images. In this paper, we present our preliminary study on the effect of intraclass variability on temporal ensembling, with a focus on seed size and seed type, respectively. Through our experiments we find that (a) there is a significant drop in accuracy with datasets that offer high intraclass variability, (b) more seed images offer consistently higher accuracy across the datasets, and (c) seed type indeed has an impact on the overall efficiency, where it produces a spectrum of accuracy both lower and higher. Additionally, based on our experiments, we also find KMNIST to be a competitive baseline for temporal ensembling.
翻訳日:2022-10-27 02:47:27 公開日:2020-08-21
# エキスパートの偏りのある混合:データ転送制限下でのコンピュータビジョン推論を可能にする

Biased Mixtures Of Experts: Enabling Computer Vision Inference Under Data Transfer Limitations ( http://arxiv.org/abs/2008.09662v1 )

ライセンス: Link先を確認
Alhabib Abbas and Yiannis Andreopoulos(参考訳) 本研究では,テスト時のデータ転送制限に応じてコンピュータビジョンモデルを最適化する,新しいmixed-of-expertsクラスを提案する。 提案手法では,入力空間のパーティショニングによって,精度の高い結果を可能にする最小許容データ量が異なることを仮定する。 そこで我々は,専門家が異なる量のデータを必要とする混合物を考察し,各専門家の入力空間を分割するためにスパースゲーティング関数を訓練する。 適切なハイパーパラメータ選択によって、我々のアプローチは専門家の混合物を他人よりも特定の専門家を選ぶことにバイアスを与えることができる。 このようにして,視覚センシングと処理間のデータ転送最適化を凸最適化問題として解決できることを示し,データ可用性と性能の関係を実証するために,偏りのある混合を主流のコンピュータビジョン問題,すなわち: (i)シングルショット検出。 (ii)画像の超解像度、及び (iii)リアルタイムビデオアクション分類。 すべてのケースにおいて、そして専門家が許容データユーティリティの異なる制限を満たすようにベースラインを変更した場合、バイアスのある混合は、利用可能なデータに対する同じ制約を満たすように最適化された以前の作業を大きく上回る。

We propose a novel mixture-of-experts class to optimize computer vision models in accordance with data transfer limitations at test time. Our approach postulates that the minimum acceptable amount of data allowing for highly-accurate results can vary for different input space partitions. Therefore, we consider mixtures where experts require different amounts of data, and train a sparse gating function to divide the input space for each expert. By appropriate hyperparameter selection, our approach is able to bias mixtures of experts towards selecting specific experts over others. In this way, we show that the data transfer optimization between visual sensing and processing can be solved as a convex optimization problem.To demonstrate the relation between data availability and performance, we evaluate biased mixtures on a range of mainstream computer vision problems, namely: (i) single shot detection, (ii) image super resolution, and (iii) realtime video action classification. For all cases, and when experts constitute modified baselines to meet different limits on allowed data utility, biased mixtures significantly outperform previous work optimized to meet the same constraints on available data.
翻訳日:2022-10-26 22:32:13 公開日:2020-08-21
# 機械学習とメタアナリシスによるcovid-19の死亡リスクを高める患者のコンモビディティーと症状の同定

Machine Learning and Meta-Analysis Approach to Identify Patient Comorbidities and Symptoms that Increased Risk of Mortality in COVID-19 ( http://arxiv.org/abs/2008.12683v1 )

ライセンス: Link先を確認
Sakifa Aktar, Ashis Talukder, Md. Martuza Ahamad, A. H. M. Kamal, Jahidur Rahman Khan, Md. Protikuzzaman, Nasif Hossain, Julian M.W. Quinn, Mathew A. Summers, Teng Liaw, Valsamma Eapen, Mohammad Ali Moni(参考訳) 背景:COVID-19に苦しむ人々の適切なケアを提供することで、SARS-CoV-2ウイルスによる病気は、世界的な大きな課題となっている。 感染者の多くは、症状の重症度と死亡リスクを高めるために、新型コロナウイルスと相互作用する既往の状態を持っている。 新型コロナウイルス(COVID-19)の患者は、重篤な病気や死亡のリスクについて情報を持っている可能性が高い。 重篤な症状や死亡率とどのように関連しているかを正確に判断することは、新型コロナウイルスのケアの計画と準備に大いに役立つだろう。 方法: 新型コロナウイルスの重症度と死亡率との相互作用を評価するため, 公表されたグローバル文献のメタ分析を行い, 集計されたCOVID-19グローバルデータセットを用いた機械学習予測分析を行った。 結果】慢性閉塞性肺疾患 (COPD) , 脳血管疾患 (CEVD) , 心血管疾患 (CVD) , 2型糖尿病, 悪性度, 高血圧が, 慢性閉塞性肺疾患 (COPD) に最も関連していると考えられた。 copd, cvd, ckd, 2型糖尿病, 悪性度, 高血圧, 喘息などの新しいコホートデータを用いた機械学習分類は, 死亡者とcovid-19生存者の分類において最も重要な特徴である。 年齢と性別は死亡の最も重要な予測因子であったが, 症状・共同性の組み合わせでは, 肺炎・高血圧, 肺炎・ダイアベテス, 急性呼吸障害症候群 (ARDS) が最も有意な影響を示した。 結論: 本研究は, 病院資源の優先順位付けに寄与する重篤な病状と死亡のリスクが最も高い患者コホートを浮き彫りにしている。

Background: Providing appropriate care for people suffering from COVID-19, the disease caused by the pandemic SARS-CoV-2 virus is a significant global challenge. Many individuals who become infected have pre-existing conditions that may interact with COVID-19 to increase symptom severity and mortality risk. COVID-19 patient comorbidities are likely to be informative about individual risk of severe illness and mortality. Accurately determining how comorbidities are associated with severe symptoms and mortality would thus greatly assist in COVID-19 care planning and provision. Methods: To assess the interaction of patient comorbidities with COVID-19 severity and mortality we performed a meta-analysis of the published global literature, and machine learning predictive analysis using an aggregated COVID-19 global dataset. Results: Our meta-analysis identified chronic obstructive pulmonary disease (COPD), cerebrovascular disease (CEVD), cardiovascular disease (CVD), type 2 diabetes, malignancy, and hypertension as most significantly associated with COVID-19 severity in the current published literature. Machine learning classification using novel aggregated cohort data similarly found COPD, CVD, CKD, type 2 diabetes, malignancy and hypertension, as well as asthma, as the most significant features for classifying those deceased versus those who survived COVID-19. While age and gender were the most significant predictor of mortality, in terms of symptom-comorbidity combinations, it was observed that Pneumonia-Hypertension, Pneumonia-Diabetes and Acute Respiratory Distress Syndrome (ARDS)-Hypertension showed the most significant effects on COVID-19 mortality. Conclusions: These results highlight patient cohorts most at risk of COVID-19 related severe morbidity and mortality which have implications for prioritization of hospital resources.
翻訳日:2022-10-26 22:31:51 公開日:2020-08-21
# dtdn:デュアルタスクのデレイティングネットワーク

DTDN: Dual-task De-raining Network ( http://arxiv.org/abs/2008.09326v1 )

ライセンス: Link先を確認
Zheng Wang, Jianwu Li and Ge Song(参考訳) オブジェクト検出や認識など,コンピュータビジョンにおける多くのタスクにおいて,雨天からの雨害の除去が必要である。 雨害の除去と現実的な詳細の保存という、2つの排他的目的に対処する必要がある。 それらをバランシングすることは、デレーニング手法にとって非常に重要です。 本稿では,2つのサブネットワークであるGAN(Generative Adversarial Network)とCNN(Convolutional Neural Network)の2つのサブネットワークからなる,Duble-task de-raining Network(DTDN)と呼ばれるエンドツーエンドネットワークを提案する。 DTDN-GANは主に構造的な雨害を取り除くために使用され、DTDN-CNNは原画像の詳細を復元するために設計されている。 また、同じ重みを共有しながら異なるトレーニングセットを使用するDTDNの2つのサブネットワークをトレーニングするためのトレーニングアルゴリズムを設計する。 さらに2つの既存のデータセットを豊かにすることで,実雨量の分布を近似する。 実験の結果,本手法は,ベンチマークテストデータセットと実際の雨天画像の両方に基づいて,最近の最先端手法よりも優れていた。

Removing rain streaks from rainy images is necessary for many tasks in computer vision, such as object detection and recognition. It needs to address two mutually exclusive objectives: removing rain streaks and reserving realistic details. Balancing them is critical for de-raining methods. We propose an end-to-end network, called dual-task de-raining network (DTDN), consisting of two sub-networks: generative adversarial network (GAN) and convolutional neural network (CNN), to remove rain streaks via coordinating the two mutually exclusive objectives self-adaptively. DTDN-GAN is mainly used to remove structural rain streaks, and DTDN-CNN is designed to recover details in original images. We also design a training algorithm to train these two sub-networks of DTDN alternatively, which share same weights but use different training sets. We further enrich two existing datasets to approximate the distribution of real rain streaks. Experimental results show that our method outperforms several recent state-of-the-art methods, based on both benchmark testing datasets and real rainy images.
翻訳日:2022-10-26 22:31:19 公開日:2020-08-21
# 芸術画像における曖昧さの定量化に向けて

Toward Quantifying Ambiguities in Artistic Images ( http://arxiv.org/abs/2008.09688v1 )

ライセンス: Link先を確認
Xi Wang, Zoya Bylinskii, Aaron Hertzmann, Robert Pepperell(参考訳) 知覚的曖昧さは、美的経験において重要な役割を担っていると長い間仮定されてきた。 しかし、この理論をテストするための現在のフレームワークは、刺激とデータ収集方法の可用性によって制限されている。 本稿では,画像の集合の知覚的曖昧さを測定する手法を提案する。 観客は、異なる視聴時間の後、画像コンテンツを記述するよう依頼される。 実験はArtbreeder Webサイトを使ってGenerative Adversarial Networksで作成された画像を使って行われる。 ビューア応答のテキスト処理は、画像のあいまいさを計測し記述するためのきめ細かい方法を提供する。

It has long been hypothesized that perceptual ambiguities play an important role in aesthetic experience: a work with some ambiguity engages a viewer more than one that does not. However, current frameworks for testing this theory are limited by the availability of stimuli and data collection methods. This paper presents an approach to measuring the perceptual ambiguity of a collection of images. Crowdworkers are asked to describe image content, after different viewing durations. Experiments are performed using images created with Generative Adversarial Networks, using the Artbreeder website. We show that text processing of viewer responses can provide a fine-grained way to measure and describe image ambiguities.
翻訳日:2022-10-26 22:30:59 公開日:2020-08-21
# ADIC:近似計算を用いた65nmCMOSにおける異常検出集積回路

ADIC: Anomaly Detection Integrated Circuit in 65nm CMOS utilizing Approximate Computing ( http://arxiv.org/abs/2008.09442v1 )

ライセンス: Link先を確認
Bapi Kar, Pradeep Kumar Gopalakrishnan, Sumon Kumar Bose, Mohendra Roy, and Arindam Basu(参考訳) 本稿では,1クラス分類器(OCC)ニューラルネットワークに基づく低消費電力異常検出集積回路(ADIC)を提案する。 ADICは、組み合わせて低消費電力動作を実現する (a)オンライン学習のためのアルゴリズムの慎重な選択 (b)平均エネルギーを下げるための近似計算技術。 特に、オンラインpseudominverse update method(opium)を使用してランダム化されたニューラルネットワークをトレーニングし、迅速かつリソース効率のよい学習を行う。 OPium法の軽量バージョンを同じデータサンプル数でトレーニングする場合、推論の品質に重大な妥協をもたらすことなく、さらに42%の省エネが達成できる。 多数のニューロンを持つ単一の分類器の代わりに、kベースの学習者アプローチのアンサンブルが選択され、学習メモリをk倍に削減する。また、異常検出に基づいてニューラルネットワークのサイズを動的に変化させることで、近似計算を可能にする。 65nmCMOSで作製されたADICは、各BLに32個のニューロンを持つK = 7ベースラーナー(BL)を有し、学習中にそれぞれ11.87pJ/OPと3.35pJ/OPをVdd = 0.75Vで放出する。 さらに、NASAの観測データから評価すると、チップの約80%は寿命の99%でシャットダウンできるため、エネルギー効率は0.48pJ/OPとなり、Vdd = 1.2Vでのフル精度計算よりも18.5倍削減される。

In this paper, we present a low-power anomaly detection integrated circuit (ADIC) based on a one-class classifier (OCC) neural network. The ADIC achieves low-power operation through a combination of (a) careful choice of algorithm for online learning and (b) approximate computing techniques to lower average energy. In particular, online pseudoinverse update method (OPIUM) is used to train a randomized neural network for quick and resource efficient learning. An additional 42% energy saving can be achieved when a lighter version of OPIUM method is used for training with the same number of data samples lead to no significant compromise on the quality of inference. Instead of a single classifier with large number of neurons, an ensemble of K base learner approach is chosen to reduce learning memory by a factor of K. This also enables approximate computing by dynamically varying the neural network size based on anomaly detection. Fabricated in 65nm CMOS, the ADIC has K = 7 Base Learners (BL) with 32 neurons in each BL and dissipates 11.87pJ/OP and 3.35pJ/OP during learning and inference respectively at Vdd = 0.75V when all 7 BLs are enabled. Further, evaluated on the NASA bearing dataset, approximately 80% of the chip can be shut down for 99% of the lifetime leading to an energy efficiency of 0.48pJ/OP, an 18.5 times reduction over full-precision computing running at Vdd = 1.2V throughout the lifetime.
翻訳日:2022-10-26 22:30:17 公開日:2020-08-21
# モバイルヘルス介入のためのオフラインマルチアームバンド : 感情制御を事例として

Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation ( http://arxiv.org/abs/2008.09472v1 )

ライセンス: Link先を確認
Mawulolo K. Ameko, Miranda L. Beltzer, Lihua Cai, Mehdi Boukhechba, Bethany A. Teachman, Laura E. Barnes(参考訳) 携帯電話などの普及型電子機器による治療勧告の提供は、長期的な健康行動管理のための、実用的でスケーラブルな治療媒体になる可能性がある。 しかし、治療オプションの積極的な実験は、時間がかかり、高価であり、場合によっては全く倫理的ではない。 実験者が展開前に新しい治療戦略の有用性を学習し評価できる方法論的アプローチへの関心が高まっている。 そこで本研究では,n=114名から得られた実世界履歴モバイルデジタルデータを用いて感情制御のための治療レコメンデータシステムの開発を行い,新しい感情制御戦略の有用性を検証した。 学習のためのオフラインコンテキスト帯域推定器を多数検討し,学習アルゴリズムのための一般的なフレームワークを提案する。 実験の結果,提案手法は,ベースラインアプローチよりも有意に頑健なオフライン学習アルゴリズムが評価され,感情制御が改善される可能性が示唆された。 感情制御は多くの精神疾患で障害があり、そのようなレコメンデーションアルゴリズムは簡単にスケールアップできるため、このアプローチは多くの人々の治療法へのアクセスを高める可能性を秘めている。 また、感情調整戦略の有効性を予測する上で最も重要なコンテキスト機能を含む、複雑な現実世界のデータにコンテキストバンディットモデルを変換できるいくつかの洞察を共有しています。

Delivering treatment recommendations via pervasive electronic devices such as mobile phones has the potential to be a viable and scalable treatment medium for long-term health behavior management. But active experimentation of treatment options can be time-consuming, expensive and altogether unethical in some cases. There is a growing interest in methodological approaches that allow an experimenter to learn and evaluate the usefulness of a new treatment strategy before deployment. We present the first development of a treatment recommender system for emotion regulation using real-world historical mobile digital data from n = 114 high socially anxious participants to test the usefulness of new emotion regulation strategies. We explore a number of offline contextual bandits estimators for learning and propose a general framework for learning algorithms. Our experimentation shows that the proposed doubly robust offline learning algorithms performed significantly better than baseline approaches, suggesting that this type of recommender algorithm could improve emotion regulation. Given that emotion regulation is impaired across many mental illnesses and such a recommender algorithm could be scaled up easily, this approach holds potential to increase access to treatment for many people. We also share some insights that allow us to translate contextual bandit models to this complex real-world data, including which contextual features appear to be most important for predicting emotion regulation strategy effectiveness.
翻訳日:2022-10-26 22:29:49 公開日:2020-08-21
# NANCY:無線ネットワーク上の映像配信のためのニューラル適応ネットワーク符号化手法

NANCY: Neural Adaptive Network Coding methodologY for video distribution over wireless networks ( http://arxiv.org/abs/2008.09559v1 )

ライセンス: Link先を確認
Paresh Saxena, Mandan Naresh, Manik Gupta, Anirudh Achanta, Sastri Kota and Smrati Gupta(参考訳) 本稿では,無線ネットワーク上での映像配信のための強化学習(RL)を用いて,ビデオおよび適応ネットワーク符号化レート(ANCR)の適応ビットレート(ABR)を生成するシステムであるNANCYを提案する。 NANCYは、QoE(Quality of Experience)メトリクスとして定式化された報酬でニューラルネットワークモデルをトレーニングする。 選択するために共同最適化を行う。 (i)利用可能な帯域幅の変動に対応する将来のビデオチャンクの適応ビットレート (ii)無線ネットワークにおけるパケットロスに対応するためにビデオチャンクスライスを符号化する適応ネットワーク符号化レート。 本稿では,NANCYの設計と実装について述べるとともに,Pensieve や robustMPC などの最先端ビデオレート適応アルゴリズムと比較して性能評価を行う。 その結果,NANCYはペンシーブやロバストMPCよりも平均QoEが29.91%,60.34%高い値を示した。

This paper presents NANCY, a system that generates adaptive bit rates (ABR) for video and adaptive network coding rates (ANCR) using reinforcement learning (RL) for video distribution over wireless networks. NANCY trains a neural network model with rewards formulated as quality of experience (QoE) metrics. It performs joint optimization in order to select: (i) adaptive bit rates for future video chunks to counter variations in available bandwidth and (ii) adaptive network coding rates to encode the video chunk slices to counter packet losses in wireless networks. We present the design and implementation of NANCY, and evaluate its performance compared to state-of-the-art video rate adaptation algorithms including Pensieve and robustMPC. Our results show that NANCY provides 29.91% and 60.34% higher average QoE than Pensieve and robustMPC, respectively.
翻訳日:2022-10-26 22:29:26 公開日:2020-08-21
# 自動運転に向けて:マルチモーダル360$^{\circ}$知覚の提案

Towards Autonomous Driving: a Multi-Modal 360$^{\circ}$ Perception Proposal ( http://arxiv.org/abs/2008.09672v1 )

ライセンス: Link先を確認
Jorge Beltr\'an, Carlos Guindel, Irene Cort\'es, Alejandro Barrera, Armando Astudillo, Jes\'us Urdiales, Mario \'Alvarez, Farid Bekka, Vicente Milan\'es, and Fernando Garc\'ia(参考訳) 本稿では,自動運転車の3次元物体検出・追跡のためのマルチモーダル360$^{\circ}$フレームワークについて述べる。 工程は4つの主要な段階に分けられる。 まず、画像がCNNネットワークに入力され、周囲の道路参加者のインスタンスセグメンテーションを得る。 第二に、推定マスクの提案に対してLiDAR-to-image associationを行う。 そして、各オブジェクトの孤立点をポイントネットアンサンブルで処理し、対応する3dバウンディングボックスとポーズを算出する。 最後に、Unscented Kalman Filterに基づく追跡ステージを使用して、時間とともにエージェントを追跡する。 このソリューションは、新しいセンサー融合構成に基づいて、正確で信頼性の高い道路環境検出を提供する。 自動運転車に配備されたシステムの多種多様なテストは、実際の自動運転アプリケーションで提案された知覚スタックの適合性を評価するのに成功している。

In this paper, a multi-modal 360$^{\circ}$ framework for 3D object detection and tracking for autonomous vehicles is presented. The process is divided into four main stages. First, images are fed into a CNN network to obtain instance segmentation of the surrounding road participants. Second, LiDAR-to-image association is performed for the estimated mask proposals. Then, the isolated points of every object are processed by a PointNet ensemble to compute their corresponding 3D bounding boxes and poses. Lastly, a tracking stage based on Unscented Kalman Filter is used to track the agents along time. The solution, based on a novel sensor fusion configuration, provides accurate and reliable road environment detection. A wide variety of tests of the system, deployed in an autonomous vehicle, have successfully assessed the suitability of the proposed perception stack in a real autonomous driving application.
翻訳日:2022-10-26 22:23:51 公開日:2020-08-21
# 自転車軌道を用いた都市自転車レーン計画:モデル,アルゴリズム,実世界の事例研究

Urban Bike Lane Planning with Bike Trajectories: Models, Algorithms, and a Real-World Case Study ( http://arxiv.org/abs/2008.09645v1 )

ライセンス: Link先を確認
Sheng Liu, Zuo-Jun Max Shen, Xiang Ji(参考訳) 本研究では,自転車共有システムのようなスマートシティのインフラで利用できる,きめ細かい自転車軌道データに基づく都市自転車レーン計画問題について検討する。 重要な決定は、既存の道路網で自転車レーンを構築する場所だ。 自転車のシェアリングシステムが世界中の大都市で普及するにつれて、自転車レーンは多くの自治体によって計画され建設され、サイクリングを促進し、自転車を保護している。 伝統的な自転車レーン計画アプローチは、しばしば測量とヒューリスティックに頼っている。 我々は,自転車軌道計画の指針となる,汎用的で斬新な最適化フレームワークを開発した。 我々は,自転車レーン計画問題をサイクリストの実用機能の観点から形式化し,有効性を最大化するために整数最適化モデルを導出する。 自転車の経路選択を捉えるために,多項ロジットモデルに基づく二段階プログラムを開発した。 基本モデルに関する構造特性を導出し、自転車レーン計画モデルのラグランジアン双対が多項式時間可解であることを証明する。 さらに,経路選択に基づく計画モデルを線形近似法を用いて混合整数線形プログラムとして再構成する。 大規模最適化問題の解法として, トラクタブルな定式化と効率的なアルゴリズムを開発した。 都市政府による実世界のケーススタディとして,提案アルゴリズムの効率を実証し,自転車走行と自転車レーンの連続性の間のトレードオフを定量化する。 ネットワークトポロジーが実用機能に応じてどのように進化するかを示し,サイクリストの経路選択を理解することの重要性を強調する。 提案手法は,スマートシティ運営におけるデータ駆動型都市計画を推進している。

We study an urban bike lane planning problem based on the fine-grained bike trajectory data, which is made available by smart city infrastructure such as bike-sharing systems. The key decision is where to build bike lanes in the existing road network. As bike-sharing systems become widespread in the metropolitan areas over the world, bike lanes are being planned and constructed by many municipal governments to promote cycling and protect cyclists. Traditional bike lane planning approaches often rely on surveys and heuristics. We develop a general and novel optimization framework to guide the bike lane planning from bike trajectories. We formalize the bike lane planning problem in view of the cyclists' utility functions and derive an integer optimization model to maximize the utility. To capture cyclists' route choices, we develop a bilevel program based on the Multinomial Logit model. We derive structural properties about the base model and prove that the Lagrangian dual of the bike lane planning model is polynomial-time solvable. Furthermore, we reformulate the route choice based planning model as a mixed integer linear program using a linear approximation scheme. We develop tractable formulations and efficient algorithms to solve the large-scale optimization problem. Via a real-world case study with a city government, we demonstrate the efficiency of the proposed algorithms and quantify the trade-off between the coverage of bike trips and continuity of bike lanes. We show how the network topology evolves according to the utility functions and highlight the importance of understanding cyclists' route choices. The proposed framework drives the data-driven urban planning scheme in smart city operations management.
翻訳日:2022-10-26 22:23:03 公開日:2020-08-21
# SOTER on ROS:ロボットオペレーティングシステムにおける実行時保証フレームワーク

SOTER on ROS: A Run-Time Assurance Framework on the Robot Operating System ( http://arxiv.org/abs/2008.09707v1 )

ライセンス: Link先を確認
Sumukh Shivakumar, Hazem Torfah, Ankush Desai, Sanjit A. Seshia(参考訳) 本稿では,ロボットオペレーティングシステム(ros)上に安全な分散移動ロボット(dmr)システムを構築するための実行時保証フレームワークであるsoterの実装を提案する。 dmrシステムの安全性は常に設計時に保証することはできない。 SOTERは、DMRシステムのランタイム保証のための言語ベースのアプローチを提供することによって、この問題に対処する。 SOTERは、非同期イベント駆動システムを実装するために設計されたドメイン固有言語であるP言語を使用して、リアクティブロボットソフトウェアを実装している。 複数の実行時保証モジュールを備えたマルチロボット監視ケーススタディを用いて,SOTER for ROSの実装とその有効性を示す。 厳密なシミュレーションにより、未知のコンポーネントや信頼できないコンポーネントを使用しても、SOTERを有効にするシステムが安全であることを示す。

We present an implementation of SOTER, a run-time assurance framework for building safe distributed mobile robotic (DMR) systems, on top of the Robot Operating System (ROS). The safety of DMR systems cannot always be guaranteed at design time, especially when complex, off-the-shelf components are used that cannot be verified easily. SOTER addresses this by providing a language-based approach for run-time assurance for DMR systems. SOTER implements the reactive robotic software using the language P, a domain-specific language designed for implementing asynchronous event-driven systems, along with an integrated run-time assurance system that allows programmers to use unfortified components but still provide safety guarantees. We describe an implementation of SOTER for ROS and demonstrate its efficacy using a multi-robot surveillance case study, with multiple run-time assurance modules. Through rigorous simulation, we show that SOTER enabled systems ensure safety, even when using unknown and untrusted components.
翻訳日:2022-10-26 22:22:39 公開日:2020-08-21
# 離散化条件付けイベントにおける条件付きコーパスの等式判定

Testing for equality between conditional copulas given discretized conditioning events ( http://arxiv.org/abs/2008.09498v1 )

ライセンス: Link先を確認
Alexis Derumigny, Jean-David Fermanian and Aleksey Min(参考訳) 条件付きコプラの簡易化仮定をテストするためのいくつかの手順が最近提案されている。 ポイントワイズ条件付けイベントを考慮せずに、いくつかの共変体が一般ボアリアン条件付け部分集合に属するとき、条件依存構造の整合性を研究する。 条件付きケンドールのtauの等式に基づくいくつかのテスト統計を導入し、それらの漸近分布をヌルの下で導出する。 このような条件付けイベントが固定されていない場合、関連部分集合を再帰的に構築するデータ駆動方式を提案する。 これは、木々の葉に対応する条件付きケンドールのトースの差異を最大化する決定木に基づいている。 これらのテストの性能はシミュレーション実験で示される。 さらに、過去の値のクラスタリングを考慮し、金融株のリターン間の条件依存性についての研究を行う。 最後のアプリケーションは、保険データセットのカバレッジ量間の条件依存を扱う。

Several procedures have been recently proposed to test the simplifying assumption for conditional copulas. Instead of considering pointwise conditioning events, we study the constancy of the conditional dependence structure when some covariates belong to general borelian conditioning subsets. Several test statistics based on the equality of conditional Kendall's tau are introduced, and we derive their asymptotic distributions under the null. When such conditioning events are not fixed ex ante, we propose a data-driven procedure to recursively build such relevant subsets. It is based on decision trees that maximize the differences between the conditional Kendall's taus corresponding to the leaves of the trees. The performances of such tests are illustrated in a simulation experiment. Moreover, a study of the conditional dependence between financial stock returns is managed, given some clustering of their past values. The last application deals with the conditional dependence between coverage amounts in an insurance dataset.
翻訳日:2022-10-26 22:22:21 公開日:2020-08-21
# ParaDRAM:Parallel High-Performance Delayed-Rejection Adaptive Metropolis Markov Chain Monte Carlo Simulationのためのクロスプラットフォームツールボックス

ParaDRAM: A Cross-Language Toolbox for Parallel High-Performance Delayed-Rejection Adaptive Metropolis Markov Chain Monte Carlo Simulations ( http://arxiv.org/abs/2008.09589v1 )

ライセンス: Link先を確認
Amir Shahmoradi, Fatemeh Bagheri(参考訳) 本研究では,並列遅延除去型適応メトロポリス・マルコフ連鎖モンテカルロソフトウェアparadramを提案し,科学的推論に遭遇する数学的目的関数の最適化,サンプリング,統合を行う。 ParaDRAMは現在、C/C++、Fortran、MATLAB、Pythonなどいくつかの人気のあるプログラミング言語からアクセスでき、ParaMonteオープンソースプロジェクトの一部であり、以下の設計目標がある。 1.モンテカルロシミュレーションの完全自動化 2. できるだけ多くのプログラミング言語とコアライブラリの相互運用性により、すべてのプログラミング言語に統一されたアプリケーションプログラミングインタフェースとモンテカルロシミュレーション環境を提供する。 3.高性能 4.パソコンからスーパーコンピュータへのシミュレーションの並列性とスケーラビリティ 5. 外部ライブラリの事実上ゼロ依存。 シミュレーションの完全決定論的再現性 7. シミュレーション結果の総合的な自動報告と後処理。 そこで我々はParaDRAMで実装されたいくつかの新しい手法について,ParaDRAMから得られる擬似マルコフ連鎖の良好な混合と適応の減少を自動的かつ動的に保証する手法について論じる。 また,paradramで使用される効率的なデータ記憶法の実装について,複雑な高次元数学的目的関数をサンプリングするために,単純なシミュレーション問題に対する4の係数を用いてアルゴリズムの平均記憶量と記憶量要件を1桁以上削減する。 最後に,ParaDRAMの設計目標が,幅広いコンピューティングプラットフォーム上でのさまざまな機械学習および科学的推論問題を,ユーザが迅速かつ効率的に解決する上で,どのように役立つかを論じる。

We present ParaDRAM, a high-performance Parallel Delayed-Rejection Adaptive Metropolis Markov Chain Monte Carlo software for optimization, sampling, and integration of mathematical objective functions encountered in scientific inference. ParaDRAM is currently accessible from several popular programming languages including C/C++, Fortran, MATLAB, Python and is part of the ParaMonte open-source project with the following principal design goals: 1. full automation of Monte Carlo simulations, 2. interoperability of the core library with as many programming languages as possible, thus, providing a unified Application Programming Interface and Monte Carlo simulation environment across all programming languages, 3. high-performance 4. parallelizability and scalability of simulations from personal laptops to supercomputers, 5. virtually zero-dependence on external libraries, 6. fully-deterministic reproducibility of simulations, 7. automatic comprehensive reporting and post-processing of the simulation results. We present and discuss several novel techniques implemented in ParaDRAM to automatically and dynamically ensure the good-mixing and the diminishing-adaptation of the resulting pseudo-Markov chains from ParaDRAM. We also discuss the implementation of an efficient data storage method used in ParaDRAM that reduces the average memory and storage requirements of the algorithm by, a factor of 4 for simple simulation problems, to an order of magnitude and more for sampling complex high-dimensional mathematical objective functions. Finally, we discuss how the design goals of ParaDRAM can help users readily and efficiently solve a variety of machine learning and scientific inference problems on a wide range of computing platforms.
翻訳日:2022-10-26 22:21:40 公開日:2020-08-21
# 大規模オンラインモバイルレコメンデーションのためのコンテキストユーザブラウジングバンド

Contextual User Browsing Bandits for Large-Scale Online Mobile Recommendation ( http://arxiv.org/abs/2008.09368v1 )

ライセンス: Link先を確認
Xu He, Bo An, Yanghua Li, Haikai Chen, Qingyu Guo, Xin Li, and Zhirong Wang(参考訳) オンラインレコメンデーションサービスはユーザーに複数の商品を推奨する。 今日では、かなりの数のユーザーがモバイルデバイスでeコマースプラットフォームを訪れている。 モバイルデバイスの画面サイズが限られているため、アイテムの位置がクリックに大きく影響する。 1) 高い位置は1つの商品のクリック数を増やす。 2)「露出」問題:一見して推奨項目がいくつか表示され、ユーザーは他の項目を閲覧するために画面をスライドさせる必要がある。 したがって、後続の推奨項目はユーザには見られず、この種の項目を否定的なサンプルとして扱うのは適切ではない。 多くの作品がオンラインレコメンデーションを文脈的バンディット問題としてモデル化しているが、ポジションの影響を考慮に入れることは稀であり、報酬関数の推定が偏っている可能性がある。 本稿では,これら2つの課題に対処し,オンラインモバイルレコメンデーションの性能向上を目指す。 私たちの貢献は4倍です。 まず、推奨項目のセットの報酬に関する懸念から、オンラインレコメンデーションを文脈組合せバンディット問題としてモデル化し、レコメンデーション集合の報酬を定義する。 第2に,UBM-LinUCB という,Web 検索のためのクリックモデルである User Browsing Model (UBM) を採用することにより,位置に関する2つの問題に対処する,コンテキスト結合型バンドイット手法を提案する。 第3に,形式的後悔分析を行い,提案アルゴリズムが項目数に依存しないサブ線形後悔を実現することを示す。 最後に,このアルゴリズムを2つの実世界のデータセット上で評価する。 オンライン実験は、世界で最も人気のあるeコマースプラットフォームの1つであるTaobaoでも実施されている。 2つのCTR測定結果から,我々のアルゴリズムは,他の文脈的帯域幅アルゴリズムよりも優れていることが示された。

Online recommendation services recommend multiple commodities to users. Nowadays, a considerable proportion of users visit e-commerce platforms by mobile devices. Due to the limited screen size of mobile devices, positions of items have a significant influence on clicks: 1) Higher positions lead to more clicks for one commodity. 2) The 'pseudo-exposure' issue: Only a few recommended items are shown at first glance and users need to slide the screen to browse other items. Therefore, some recommended items ranked behind are not viewed by users and it is not proper to treat this kind of items as negative samples. While many works model the online recommendation as contextual bandit problems, they rarely take the influence of positions into consideration and thus the estimation of the reward function may be biased. In this paper, we aim at addressing these two issues to improve the performance of online mobile recommendation. Our contributions are four-fold. First, since we concern the reward of a set of recommended items, we model the online recommendation as a contextual combinatorial bandit problem and define the reward of a recommended set. Second, we propose a novel contextual combinatorial bandit method called UBM-LinUCB to address two issues related to positions by adopting the User Browsing Model (UBM), a click model for web search. Third, we provide a formal regret analysis and prove that our algorithm achieves sublinear regret independent of the number of items. Finally, we evaluate our algorithm on two real-world datasets by a novel unbiased estimator. An online experiment is also implemented in Taobao, one of the most popular e-commerce platforms in the world. Results on two CTR metrics show that our algorithm outperforms the other contextual bandit algorithms.
翻訳日:2022-10-26 22:21:12 公開日:2020-08-21
# 動的ベイズネットワークを用いたコンピテンスベース学生モデリング

Competence-Based Student Modelling with Dynamic Bayesian Networks ( http://arxiv.org/abs/2008.12114v1 )

ライセンス: Link先を確認
Rafael Morales-Gamboa, L. Enrique Sucar(参考訳) 本稿では,条件付き確率分布を関係型毎に定義した動的ベイズネットワークを用いてオーバーレイ学習モデルを構築するために,能力間の一般化・特殊化・包括/部分的関係を定義した能力マップの汎用的利用法を提案する。 We have created a competences map for a subset of the transversal competences defined as educational goals for the Mexican high school system, then we have built a dynamic Bayesian student model as said before, and we have use it to trace the development of the corresponding competences by some hypothetical students exhibiting representative performances along an online course (low to medium performance, medium to high performance but with low final score, and two terms medium to high performance). その結果,オンライン授業における実学生の能力発達を監視するために,コンピテンスマップに基づく動的ベイズ学生モデル構築手法が有用であることが示唆された。

We present a general method for using a competences map, created by defining generalization/specialization and inclusion/part-of relationships between competences, in order to build an overlay student model in the form of a dynamic Bayesian network in which conditional probability distributions are defined per relationship type. We have created a competences map for a subset of the transversal competences defined as educational goals for the Mexican high school system, then we have built a dynamic Bayesian student model as said before, and we have use it to trace the development of the corresponding competences by some hypothetical students exhibiting representative performances along an online course (low to medium performance, medium to high performance but with low final score, and two terms medium to high performance). The results obtained suggest that the proposed way for constructing dynamic Bayesian student models on the basis of competences maps could be useful to monitor competence development by real students in online course.
翻訳日:2022-10-26 22:14:47 公開日:2020-08-21
# 多目的強化学習エージェントの反復訓練による生体力学的姿勢安定化

Biomechanic Posture Stabilisation via Iterative Training of Multi-policy Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2008.12210v1 )

ライセンス: Link先を確認
Mohammed Hossny and Julie Iskander(参考訳) 高齢者になるまでは、単純なスタンディング姿勢を維持するのにどれほどの時間を費やしたかは認識できません。 人間の脳の運動の制御の大きさをリアルタイムで観察し、下半身の筋肉を活性化・不活性化し、安定した立位を維持するために多リンク3d倒立振子問題を解くことは本当に興味深い。 この実現は、人工知能(AI)エージェントをトレーニングして、エラー伝搬問題によるデジタル筋骨格アバターの立位姿勢を維持する際にさらに顕著である。 本研究では,エージェントが有限個の動作セットを学習し,それらの間の協調によって安定した立位を実現するための反復的な学習手順を導入することで,誤り伝播問題に対処する。 提案手法により,従来の訓練法を用いて4秒から348秒までの起立時間を増加させることができた。 提案手法により,約108秒間の知覚・アクティベーションノイズの一般化と適応が可能となった。

It is not until we become senior citizens do we recognise how much we took maintaining a simple standing posture for granted. It is truly fascinating to observe the magnitude of control the human brain exercises, in real time, to activate and deactivate the lower body muscles and solve a multi-link 3D inverted pendulum problem in order to maintain a stable standing posture. This realisation is even more apparent when training an artificial intelligence (AI) agent to maintain a standing posture of a digital musculoskeletal avatar due to the error propagation problem. In this work we address the error propagation problem by introducing an iterative training procedure for deep reinforcement learning which allows the agent to learn a finite set of actions and how to coordinate between them in order to achieve a stable standing posture. The proposed training approach allowed the agent to increase standing duration from 4 seconds using the traditional training method to 348 seconds using the proposed method. The proposed training method allowed the agent to generalise and accommodate perception and actuation noise for almost 108 seconds.
翻訳日:2022-10-26 22:14:31 公開日:2020-08-21
# ATG-PVD:ドローンによる駐車違反の追跡

ATG-PVD: Ticketing Parking Violations on A Drone ( http://arxiv.org/abs/2008.09305v1 )

ライセンス: Link先を確認
Hengli Wang, Yuxuan Liu, Huaiyang Huang, Yuheng Pan, Wenbin Yu, Jialin Jiang, Dianbin Lyu, Mohammud J. Bocus, Ming Liu, Ioannis Pitas, Rui Fan(参考訳) 本稿では,自動駐車違反検出(PVD)を行うドローンに容易に組み込むことのできる,新たな被疑者調査フレームワークを提案する。 提案するフレームワークは以下のとおりである。 1) 教師なし光フロー推定のための効率的かつ正確な畳み込みニューラルネットワーク(cnn)であるswiftflow 2)車の検出・分類のためのフロー誘導型CNNであるFlow-RCNN 3) 視覚的SLAMに基づく不正駐車車(IPC)候補調査モジュールを開発した。 提案されたフレームワークは、atg roboticsのドローンに組み込まれた。 実験結果から,提案したSwiftFlowは,速度と精度の両面で,他の最先端の教師なし光フロー推定手法よりも優れており,また,提案したFlow-RCNNによりIPC候補を効果的に,かつ効率的に検出することが可能であり,ベースラインネットワークであるFaster-RCNNよりも優れた性能を示す。

In this paper, we introduce a novel suspect-and-investigate framework, which can be easily embedded in a drone for automated parking violation detection (PVD). Our proposed framework consists of: 1) SwiftFlow, an efficient and accurate convolutional neural network (CNN) for unsupervised optical flow estimation; 2) Flow-RCNN, a flow-guided CNN for car detection and classification; and 3) an illegally parked car (IPC) candidate investigation module developed based on visual SLAM. The proposed framework was successfully embedded in a drone from ATG Robotics. The experimental results demonstrate that, firstly, our proposed SwiftFlow outperforms all other state-of-the-art unsupervised optical flow estimation approaches in terms of both speed and accuracy; secondly, IPC candidates can be effectively and efficiently detected by our proposed Flow-RCNN, with a better performance than our baseline network, Faster-RCNN; finally, the actual IPCs can be successfully verified by our investigation module after drone re-localization.
翻訳日:2022-10-26 22:14:10 公開日:2020-08-21
# acdc@lunghp challenge 2019における肺がんの病理組織像のディープラーニングによる分節化

Deep Learning Methods for Lung Cancer Segmentation in Whole-slide Histopathology Images -- the ACDC@LungHP Challenge 2019 ( http://arxiv.org/abs/2008.09352v1 )

ライセンス: Link先を確認
Zhang Li, Jiehua Zhang, Tao Tan, Xichao Teng, Xiaoliang Sun, Yang Li, Lihong Liu, Yang Xiao, Byungjae Lee, Yilong Li, Qianni Zhang, Shujiao Sun, Yushan Zheng, Junyu Yan, Ni Li, Yiyu Hong, Junsu Ko, Hyun Jung, Yanling Liu, Yu-cheng Chen, Ching-wei Wang, Vladimir Yurovskiy, Pavel Maevskikh, Vahid Khanagha, Yi Jiang, Xiangjun Feng, Zhihong Liu, Daiqiang Li, Peter J. Sch\"uffler, Qifeng Yu, Hui Chen, Yuling Tang, Geert Litjens(参考訳) 病理スライドにおける肺癌の正確な分節化は,患者のケアを改善する上で重要なステップである。 肺がんの自動診断のためのcads(computer-assisted diagnosis)法を評価するために, acdc@lunghp (automatic cancer detection and classification in whole-slide lung histopathology)チャレンジを提案した。 ACDC@LungHP 2019は、200人の患者の150のトレーニング画像と50のテスト画像の注釈付きデータセットを使用して、スライド画像全体(WSI)におけるがん組織のセグメンテーション(ピクセルワイズ検出)に焦点を当てた。 本稿では,この課題を概説し,肺がんセグメンテーションの方法のトップ10を要約する。 いずれの手法も偽陽性率,偽陰性率,DICE係数(DC)を用いて評価した。 DCは 0.7354$\pm$0.1149 から 0.8372$\pm$0.0858 までであった。 最善の方法のdcはオブザーバ間の合意に近い(0.8398$\pm$0.0890)。 全ての手法は深層学習に基づいており、マルチモデル法と単一モデル法という2つのグループに分類された。 一般に、マルチモデルメソッドは単一モデルメソッドよりもかなり優れた(\textit{p}$<$0.01$)が、それぞれ0.7966と0.7544である。 深層学習に基づく手法は、wsiの肺癌のさらなる分析のために、病理学者が疑わしい領域を見つけるのに役立つ可能性がある。

Accurate segmentation of lung cancer in pathology slides is a critical step in improving patient care. We proposed the ACDC@LungHP (Automatic Cancer Detection and Classification in Whole-slide Lung Histopathology) challenge for evaluating different computer-aided diagnosis (CADs) methods on the automatic diagnosis of lung cancer. The ACDC@LungHP 2019 focused on segmentation (pixel-wise detection) of cancer tissue in whole slide imaging (WSI), using an annotated dataset of 150 training images and 50 test images from 200 patients. This paper reviews this challenge and summarizes the top 10 submitted methods for lung cancer segmentation. All methods were evaluated using the false positive rate, false negative rate, and DICE coefficient (DC). The DC ranged from 0.7354$\pm$0.1149 to 0.8372$\pm$0.0858. The DC of the best method was close to the inter-observer agreement (0.8398$\pm$0.0890). All methods were based on deep learning and categorized into two groups: multi-model method and single model method. In general, multi-model methods were significantly better ($\textit{p}$<$0.01$) than single model methods, with mean DC of 0.7966 and 0.7544, respectively. Deep learning based methods could potentially help pathologists find suspicious regions for further analysis of lung cancer in WSI.
翻訳日:2022-10-26 22:13:31 公開日:2020-08-21
# カメラ認識ノイズモデルの学習

Learning Camera-Aware Noise Models ( http://arxiv.org/abs/2008.09370v1 )

ライセンス: Link先を確認
Ke-Chi Chang, Ren Wang, Hung-Jin Lin, Yu-Lun Liu, Chia-Ping Chen, Yu-Lin Chang, Hwann-Tzong Chen(参考訳) イメージングセンサノイズのモデリングは、画像処理やコンピュータビジョンアプリケーションにおける根本的な問題である。 これまでのほとんどの作品は統計ノイズモデルを採用しているが、現実世界のノイズは、これらのモデルが表現できるよりもずっと複雑である。 そこで本研究では,実環境騒音から生成ノイズモデルを学習する,データ駆動型手法を提案する。 提案するノイズモデルは、カメラセンサの異なるノイズ特性を同時に学習できるカメラ認識モデルであり、単一の学習ノイズモデルは、異なるカメラセンサに対して異なるノイズを生成することができる。 実験の結果,本手法は既存の統計ノイズモデルや学習に基づく手法を定量的に定性的に上回っていることがわかった。

Modeling imaging sensor noise is a fundamental problem for image processing and computer vision applications. While most previous works adopt statistical noise models, real-world noise is far more complicated and beyond what these models can describe. To tackle this issue, we propose a data-driven approach, where a generative noise model is learned from real-world noise. The proposed noise model is camera-aware, that is, different noise characteristics of different camera sensors can be learned simultaneously, and a single learned noise model can generate different noise for different camera sensors. Experimental results show that our method quantitatively and qualitatively outperforms existing statistical noise models and learning-based methods.
翻訳日:2022-10-26 22:13:06 公開日:2020-08-21
# 心筋MRIのマルチクラスCNNセグメンテーションにおける持続的ホモロジーに基づく位相損失関数

A persistent homology-based topological loss function for multi-class CNN segmentation of cardiac MRI ( http://arxiv.org/abs/2008.09585v1 )

ライセンス: Link先を確認
Nick Byrne, James R. Clough, Giovanni Montana, Andrew P. King(参考訳) 空間的重なりについては,CNNによる短軸心血管磁気共鳴(CMR)画像のセグメンテーションは,観察者間変動と同等の性能を示した。 しかし、従来の訓練手順は画素単位の損失関数に依存し、拡張やグローバルな特徴に対する最適化を制限する。 その結果、推定されたセグメンテーションは、突発的な連結成分や穴を含む空間的コヒーレンスを欠くことができる。 このような結果は、しばしば優先順位として知られる画像セグメントの予測されたトポロジーに違反し、目立たない。 この課題に対処するために、公開された研究は、画像セグメントを明示的な事前評価のために位相的損失関数を構築した永続的ホモロジーを用いている。 すべての可能なラベルとラベルペアを考慮し、より豊かなセグメンテーショントポロジの記述を構築することで、これらの損失をマルチクラスセグメンテーションのタスクに拡張する。 これらのトポロジカル事前は、オーバーラップ性能を犠牲にすることなく、ACDC短軸CMRトレーニングデータセットから150の例のサブセットで全てのトポロジカルエラーを解決することができる。

With respect to spatial overlap, CNN-based segmentation of short axis cardiovascular magnetic resonance (CMR) images has achieved a level of performance consistent with inter observer variation. However, conventional training procedures frequently depend on pixel-wise loss functions, limiting optimisation with respect to extended or global features. As a result, inferred segmentations can lack spatial coherence, including spurious connected components or holes. Such results are implausible, violating the anticipated topology of image segments, which is frequently known a priori. Addressing this challenge, published work has employed persistent homology, constructing topological loss functions for the evaluation of image segments against an explicit prior. Building a richer description of segmentation topology by considering all possible labels and label pairs, we extend these losses to the task of multi-class segmentation. These topological priors allow us to resolve all topological errors in a subset of 150 examples from the ACDC short axis CMR training data set, without sacrificing overlap performance.
翻訳日:2022-10-26 22:12:05 公開日:2020-08-21
# 単眼カメラによる目標追従のための学習ベース追跡と物体検出のブレンディング

Blending of Learning-based Tracking and Object Detection for Monocular Camera-based Target Following ( http://arxiv.org/abs/2008.09644v1 )

ライセンス: Link先を確認
Pranoy Panda, Martin Barczyk(参考訳) ディープラーニングは最近、ビデオストリームの汎用オブジェクトのビジュアルトラッキングに適用され始めている。 ロボット工学の応用のためには、ターゲットトラッカーは、重いあるいは長い閉塞や目標の運動のぼやけによって失われる場合、トラックを回復することが非常に重要である。 本稿では,汎用ターゲットトラッカとオブジェクト検出モジュールとターゲット再識別モジュールを融合するリアルタイムアプローチを提案する。 私たちの研究は、対象が \emph{familiar}オブジェクトのカテゴリに属する場合の畳み込み型リカレントニューラルネットワークベースのオブジェクトトラッカのパフォーマンス向上に焦点を当てています。 提案手法は,85~90FPSのオブジェクトを追跡できるほど軽量であり,また,挑戦的なベンチマークの競合的な結果が得られる。

Deep learning has recently started being applied to visual tracking of generic objects in video streams. For the purposes of robotics applications, it is very important for a target tracker to recover its track if it is lost due to heavy or prolonged occlusions or motion blur of the target. We present a real-time approach which fuses a generic target tracker and object detection module with a target re-identification module. Our work focuses on improving the performance of Convolutional Recurrent Neural Network-based object trackers in cases where the object of interest belongs to the category of \emph{familiar} objects. Our proposed approach is sufficiently lightweight to track objects at 85-90 FPS while attaining competitive results on challenging benchmarks.
翻訳日:2022-10-26 22:11:45 公開日:2020-08-21
# INSIDE:CNNにおける非画像情報による空間的注意制御

INSIDE: Steering Spatial Attention with Non-Imaging Information in CNNs ( http://arxiv.org/abs/2008.10418v1 )

ライセンス: Link先を確認
Grzegorz Jacenk\'ow, Alison Q. O'Neil, Brian Mohr, Sotirios A. Tsaftaris(参考訳) 本研究では,非画像情報をセグメンテーションネットワークに統合して性能向上を図る。 FiLMのようなコンディショニング層は、異なる特徴写像を線形的に選択的に増幅または抑制する手段を提供する。 しかし、畳み込みパラダイム内で空間依存を学ぶことは困難である。 本稿では、特徴量変調を適用する前に、微分パラメトリッド関数(例えばガウス)を含む特徴量注意機構を用いて、非画像情報に基づく空間的局所化を可能にする機構を提案する。 我々は、(内部)空間依存によるメソッドインスタンス変調を命名する。 条件付け情報は、病変の位置、サイズ、心臓周期フェーズなどの空間的または時空間的な情報に関連するあらゆる要素から構成されるかもしれない。 我々の手法はエンドツーエンドで訓練でき、追加の監督を必要としない。 この手法を2つのデータセットで評価した: 位置に基づいてオブジェクトをセグメンテーションする新しいclevr-segデータセットと、容積内の心相とスライス位置を条件としたadcdcデータセットである。 コードとclevr-segデータセットはhttps://github.com/jacenkow/insideにある。

We consider the problem of integrating non-imaging information into segmentation networks to improve performance. Conditioning layers such as FiLM provide the means to selectively amplify or suppress the contribution of different feature maps in a linear fashion. However, spatial dependency is difficult to learn within a convolutional paradigm. In this paper, we propose a mechanism to allow for spatial localisation conditioned on non-imaging information, using a feature-wise attention mechanism comprising a differentiable parametrised function (e.g. Gaussian), prior to applying the feature-wise modulation. We name our method INstance modulation with SpatIal DEpendency (INSIDE). The conditioning information might comprise any factors that relate to spatial or spatio-temporal information such as lesion location, size, and cardiac cycle phase. Our method can be trained end-to-end and does not require additional supervision. We evaluate the method on two datasets: a new CLEVR-Seg dataset where we segment objects based on location, and the ACDC dataset conditioned on cardiac phase and slice location within the volume. Code and the CLEVR-Seg dataset are available at https://github.com/jacenkow/inside.
翻訳日:2022-10-26 22:05:25 公開日:2020-08-21
# 敵対環境におけるロバストかつ効率的な群集コミュニケーショントポロジ

Robust and Efficient Swarm Communication Topologies for Hostile Environments ( http://arxiv.org/abs/2008.09575v1 )

ライセンス: Link先を確認
Vipul Mann, Abhishek Sivaram, Laya Das, Venkat Venkatasubramanian(参考訳) 群知能に基づく最適化手法は、探索空間の体系的な探索と隣人からの情報を組み合わせ、エージェント間の通信に強く依存する。 これらのアルゴリズムは通常、関数のランドスケープが十分に知られていない問題や、他のアルゴリズムの早期収束をもたらす複数の局所光学系を解くために用いられる。 このようなアルゴリズムの応用は、標的グループへの効率的な情報伝達のためのネットワークの設計、薬物分子が拡散前に影響部位を探索するターゲットドラッグデリバリー、ドローンネットワークによる高価値ターゲットローカライゼーションを含む通信システムに見ることができる。 そのようなアプリケーションのいくつかでは、エージェントは、探索中にエージェントを失う可能性がある敵対的な環境に直面します。 このような損失はエージェントの通信トポロジを変えるため、エージェントに利用可能な情報は最終的にアルゴリズムの性能に影響を与える。 本稿では,初期ネットワーク構成の機能として,エージェントの損失がアルゴリズムの性能に与える影響について検討する。 敵環境下で複数の準最適領域を持つ目的関数を最適化するために、粒子群最適化を用い、エージェントの喪失を伴うネットワークトポロジの幅広い性能について検討する。 その結果, 効率性, 堅牢性, 性能の相違がみられ, 性能を最大化するネットワークの一般特性の発見に活用されることがわかった。 さらに,小世界の特性を持つネットワークは,敵対的条件下でのパフォーマンスを最大化する。

Swarm Intelligence-based optimization techniques combine systematic exploration of the search space with information available from neighbors and rely strongly on communication among agents. These algorithms are typically employed to solve problems where the function landscape is not adequately known and there are multiple local optima that could result in premature convergence for other algorithms. Applications of such algorithms can be found in communication systems involving design of networks for efficient information dissemination to a target group, targeted drug-delivery where drug molecules search for the affected site before diffusing, and high-value target localization with a network of drones. In several of such applications, the agents face a hostile environment that can result in loss of agents during the search. Such a loss changes the communication topology of the agents and hence the information available to agents, ultimately influencing the performance of the algorithm. In this paper, we present a study of the impact of loss of agents on the performance of such algorithms as a function of the initial network configuration. We use particle swarm optimization to optimize an objective function with multiple sub-optimal regions in a hostile environment and study its performance for a range of network topologies with loss of agents. The results reveal interesting trade-offs between efficiency, robustness, and performance for different topologies that are subsequently leveraged to discover general properties of networks that maximize performance. Moreover, networks with small-world properties are seen to maximize performance under hostile conditions.
翻訳日:2022-10-26 22:05:08 公開日:2020-08-21
# Eコマースの非Default検索ランキングのためのファインチューンBERT

Fine-tune BERT for E-commerce Non-Default Search Ranking ( http://arxiv.org/abs/2008.09689v1 )

ライセンス: Link先を確認
Yunjiang Jiang, Yue Shang, Hongwei Shen, Wen-Yun Yang and Yun Xiao(参考訳) eコマースプラットフォームにおける非デフォルトランキングの質は、上昇アイテム価格や下降する履歴売上量などに基づいており、ランキング結果の上位で無関係アイテムが露出しやすいため、急な関連性の問題に陥ることが多い。 そこで本研究では,人間ラベルデータを用いたbert-large fine-tunedを用いて,クエリ/タイトルキーワードマッチングにより,まず幅広い候補項目をリコールし,リコールされた項目を分類する2段階のランク付け手法を提案する。 また、複数のGPUホストに並列予測を実装し、TensorflowのC++トークン化カスタムオプも実装した。 このデータチャレンジでは、教師付きフェーズ(全体のF1スコア)で1位、最終フェーズ(クエリ毎の平均F1スコア)で2位を獲得しました。

The quality of non-default ranking on e-commerce platforms, such as based on ascending item price or descending historical sales volume, often suffers from acute relevance problems, since the irrelevant items are much easier to be exposed at the top of the ranking results. In this work, we propose a two-stage ranking scheme, which first recalls wide range of candidate items through refined query/title keyword matching, and then classifies the recalled items using BERT-Large fine-tuned on human label data. We also implemented parallel prediction on multiple GPU hosts and a C++ tokenization custom op of Tensorflow. In this data challenge, our model won the 1st place in the supervised phase (based on overall F1 score) and 2nd place in the final phase (based on average per query F1 score).
翻訳日:2022-10-26 22:04:45 公開日:2020-08-21
# マレヴォレントな対話応答の検出と分類:分類学、データ、方法論

Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data and Methodology ( http://arxiv.org/abs/2008.09706v1 )

ライセンス: Link先を確認
Yangjun Zhang, Pengjie Ren, Maarten de Rijke(参考訳) 会話インターフェースは、人々を情報に結びつける手段として、ますます人気が高まっている。 コーパスベースの会話インターフェイスは、テンプレートベースまたは検索ベースのエージェントよりも多様で自然な応答を生成することができる。 コーパスベースの会話エージェントの生成能力が増大すると、コンテンツや対話行動の点で不適切である不適切な応答を分類し、フィルタリングする必要性が生じる。 不適切なコンテンツの認識と分類に関する以前の研究は、主に対話全体ではなく、特定のカテゴリーのマレヴォランスや単文に焦点が当てられている。 本稿では,Malevolent Dialogue Response Detection and Classification (MDRDC)の課題を定義する。 我々はこの課題の先行研究に3つの貢献をしている。 まず,階層型Malevolent Dialogue Taxonomy(HMDT)を提案する。 次に,ラベル付きマルチターン対話データセットを作成し,mdrdcタスクを分類上の階層的分類タスクとして定式化する。 第3に,mdrdcタスクに最先端テキスト分類手法を適用し,これらの手法の性能評価を目的とした広範な実験報告を行う。

Conversational interfaces are increasingly popular as a way of connecting people to information. Corpus-based conversational interfaces are able to generate more diverse and natural responses than template-based or retrieval-based agents. With their increased generative capacity of corpusbased conversational agents comes the need to classify and filter out malevolent responses that are inappropriate in terms of content and dialogue acts. Previous studies on the topic of recognizing and classifying inappropriate content are mostly focused on a certain category of malevolence or on single sentences instead of an entire dialogue. In this paper, we define the task of Malevolent Dialogue Response Detection and Classification (MDRDC). We make three contributions to advance research on this task. First, we present a Hierarchical Malevolent Dialogue Taxonomy (HMDT). Second, we create a labelled multi-turn dialogue dataset and formulate the MDRDC task as a hierarchical classification task over this taxonomy. Third, we apply stateof-the-art text classification methods to the MDRDC task and report on extensive experiments aimed at assessing the performance of these approaches.
翻訳日:2022-10-26 22:04:30 公開日:2020-08-21
# MPCC: クラスタリングの優先順位と条件のマッチング

MPCC: Matching Priors and Conditionals for Clustering ( http://arxiv.org/abs/2008.09641v1 )

ライセンス: Link先を確認
Nicol\'as Astorga, Pablo Huijse, Pavlos Protopapas and Pablo Est\'evez(参考訳) クラスタリングは、使用されるデータ表現に大きく依存する教師なし学習の基本的なタスクである。 深層生成モデルは情報的低次元データ表現を学習するための有望なツールとして現れてきた。 クラスタリング(mpcc)と,データから潜在変数やクラスタのカテゴリを推論するエンコーダを備えたganベースのモデル,条件付き潜在空間からサンプルを生成するフレキシブルデコーダを提案する。 MPCCでは,多種多様なベンチマークデータセットを超越したクラスタリングタスクにおいて,深層生成モデルと差別的手法との競争・優位性を実証する。 CIFAR10で46.9%の精度でFr'echet開始距離を向上し, 先行学習とエンコーダ更新数の増加により, 生成したサンプルの品質が向上し, 9.49$\pm$ 0.15のインセプションスコアが得られた。

Clustering is a fundamental task in unsupervised learning that depends heavily on the data representation that is used. Deep generative models have appeared as a promising tool to learn informative low-dimensional data representations. We propose Matching Priors and Conditionals for Clustering (MPCC), a GAN-based model with an encoder to infer latent variables and cluster categories from data, and a flexible decoder to generate samples from a conditional latent space. With MPCC we demonstrate that a deep generative model can be competitive/superior against discriminative methods in clustering tasks surpassing the state of the art over a diverse set of benchmark datasets. Our experiments show that adding a learnable prior and augmenting the number of encoder updates improve the quality of the generated samples, obtaining an inception score of 9.49 $\pm$ 0.15 and improving the Fr\'echet inception distance over the state of the art by a 46.9% in CIFAR10.
翻訳日:2022-10-26 22:04:13 公開日:2020-08-21
# 戦略的ユーザによるアルゴリズムの透明性

Algorithmic Transparency with Strategic Users ( http://arxiv.org/abs/2008.09283v1 )

ライセンス: Link先を確認
Qiaochu Wang, Yan Huang, Stefanus Jasin, Param Vir Singh(参考訳) 機械学習アルゴリズムを意思決定に応用した企業は、そのアルゴリズムをユーザーに透明にするべきだろうか? アルゴリズムの透明性を求める声が増えているにもかかわらず、ほとんどの企業はアルゴリズムを不透明に保ち、アルゴリズムの予測能力に悪影響を及ぼす可能性があるユーザーによる潜在的なゲームを挙げている。 我々は,戦略ユーザの存在下でのアルゴリズム的透明性を保ちながら,強みとユーザの余剰度を比較する分析モデルを構築し,新たな洞察を与える。 アルゴリズムを透明にすることで会社に利益をもたらす、幅広い条件を特定します。 場合によっては、機械学習アルゴリズムの予測能力さえも、企業がそれを透明にすれば増大する可能性がある。 対照的に、ユーザーはアルゴリズムの透明性の下で常に良くなるとは限らない。 結果は、不透明なアルゴリズムの予測能力が相関的な特徴から大きく引き起こされ、ユーザが改善するコストがゼロに近い場合にも成り立つ。 全体的に見ると、企業はユーザーによる操作を悪いことと見なすべきではない。 むしろ、アルゴリズムの透明性をレバーとして利用して、ユーザーがより望ましい機能に投資する動機を与えるべきだ。

Should firms that apply machine learning algorithms in their decision-making make their algorithms transparent to the users they affect? Despite growing calls for algorithmic transparency, most firms have kept their algorithms opaque, citing potential gaming by users that may negatively affect the algorithm's predictive power. We develop an analytical model to compare firm and user surplus with and without algorithmic transparency in the presence of strategic users and present novel insights. We identify a broad set of conditions under which making the algorithm transparent benefits the firm. We show that, in some cases, even the predictive power of machine learning algorithms may increase if the firm makes them transparent. By contrast, users may not always be better off under algorithmic transparency. The results hold even when the predictive power of the opaque algorithm comes largely from correlational features and the cost for users to improve on them is close to zero. Overall, our results show that firms should not view manipulation by users as bad. Rather, they should use algorithmic transparency as a lever to motivate users to invest in more desirable features.
翻訳日:2022-10-26 22:03:08 公開日:2020-08-21
# 眼球追跡技術を用いた早期自閉症スペクトラム障害診断

Early Autism Spectrum Disorders Diagnosis Using Eye-Tracking Technology ( http://arxiv.org/abs/2008.09670v1 )

ライセンス: Link先を確認
Anna Solovyova, Sergiy Danylov, Shpenkov Oleksii, Aleksandr Kravchenko(参考訳) 自閉症スペクトラム障害(asd)の診断された子どもの数は年々増加しているが、自閉症の診断と治療への普遍的なアプローチはいまだに存在しない。 オンサイト診断のためのさまざまなツールやアプローチが現在提供されているが、親の大多数はそれにアクセスできず、インターネット上で利用可能なツールや修正プログラムを検索する傾向にある。 資金不足、専門医の欠如、修正方法への信頼度の低さは、asdのリアルタイム診断に影響を与える主要な問題であり、小規模患者の早期治療を得るためには解決する必要がある。 この問題の重要性を理解するため,我々のチームは,オンライン自閉症診断の新しい手法を調査し,子どもの視線活動からの情報に基づいて,ALDの可能性を予測できるアルゴリズムを開発した。 実験で得られた結果は、視線追跡技術が、ASDのマーカーとなる眼球運動特徴を早期に検出するための最も有望なツールである、という私たちの考えを支持しました。 さらに,本手法が安価なウェブカメラシステムに対して信頼性の高い結果をもたらすことを保証するため,一連の実験を行った。 このように、このアプローチは、早期発達とASDコネクテッド障害モニタリングのホームモニタリングのための、追加の最初のスクリーニングツールとして使用できる。 視線追跡に基づく自閉症診断のさらなる発展は、使用可能性が大きく、実践専門家や親にとっての日々の実践においてさらに実施することができる。

While the number of children with diagnosed autism spectrum disorder (ASD) continues to rise from year to year, there is still no universal approach to autism diagnosis and treatment. A great variety of different tools and approaches for the on-site diagnostic are available right now, however, a big percent of parents have no access to them and they tend to search for the available tools and correction programs on the Internet. Lack of money, absence of qualified specialists, and low level of trust to the correction methods are the main issues that affect the in-time diagnoses of ASD and which need to be solved to get the early treatment for the little patients. Understanding the importance of this issue our team decided to investigate new methods of the online autism diagnoses and develop the algorithm that will be able to predict the chances of ASD according to the information from the gaze activity of the child. The results that we got during the experiments show supported our idea that eye-tracking technology is one of the most promising tools for the early detection of the eye-movement features that can be markers of the ASD. Moreover, we have conducted a series of experiments to ensure that our approach has a reliable result on the cheap webcam systems. Thus, this approach can be used as an additional first screening tool for the home monitoring of the early child development and ASD connected disorders monitoring. The further development of eye-tracking based autism diagnosis has a big potential of usage and can be further implemented in the daily practice for practical specialists and parents.
翻訳日:2022-10-26 22:02:52 公開日:2020-08-21
# 軽量畳み込みニューラルネットワークによる人物再同定法の改良

An Improved Person Re-identification Method by light-weight convolutional neural network ( http://arxiv.org/abs/2008.09448v1 )

ライセンス: Link先を確認
Sajad Amouei Sheshkal, Kazim Fouladi-Ghaleh, Hossein Aghababa(参考訳) 人物再同定は、異なる場所で重複しないカメラによって観察される認識過程として定義される。 過去10年間で、監視システムに対する個人再識別の適用と重要性の高まりは、コンピュータビジョンの様々な領域でこの話題を広めた。 人物の再識別は、低解像度、様々なポーズ、照明、背景のぼやけ、咬合などの課題に直面しており、これは認識過程の結果に影響を与える可能性がある。 本稿では,移動学習を用いた人物識別の改善と,シームズネットワークの枠組みにおける検証損失関数の適用を目的とする。 Siameseネットワークは入力としてイメージペアを受け取り、事前訓練されたモデルを介して特徴を抽出する。 EfficientNetは差別的特徴の獲得とデータ要求の削減に使用された。 検証損失の利点はネットワーク学習に利用された。 実験により,提案モデルはCUHK01データセットの最先端手法よりも優れた性能を示した。 例えば rank5 accuracies は cuhk01 データセットの 95.2% (+5.7) である。 また、ランク1で許容率を達成した。 事前訓練されたモデルパラメータのサイズが小さいため、学習速度が向上し、ハードウェアやデータが少なくなる。

Person Re-identification is defined as a recognizing process where the person is observed by non-overlapping cameras at different places. In the last decade, the rise in the applications and importance of Person Re-identification for surveillance systems popularized this subject in different areas of computer vision. Person Re-identification is faced with challenges such as low resolution, varying poses, illumination, background clutter, and occlusion, which could affect the result of recognizing process. The present paper aims to improve Person Re-identification using transfer learning and application of verification loss function within the framework of Siamese network. The Siamese network receives image pairs as inputs and extract their features via a pre-trained model. EfficientNet was employed to obtain discriminative features and reduce the demands for data. The advantages of verification loss were used in the network learning. Experiments showed that the proposed model performs better than state-of-the-art methods on the CUHK01 dataset. For example, rank5 accuracies are 95.2% (+5.7) for the CUHK01 datasets. It also achieved an acceptable percentage in Rank 1. Because of the small size of the pre-trained model parameters, learning speeds up and there will be a need for less hardware and data.
翻訳日:2022-10-26 21:57:07 公開日:2020-08-21
# DOPE:野生における全身3Dポーズ推定のための部品専門家の蒸留

DOPE: Distillation Of Part Experts for whole-body 3D pose estimation in the wild ( http://arxiv.org/abs/2008.09457v1 )

ライセンス: Link先を確認
Philippe Weinzaepfel, Romain Br\'egier, Hadrien Combaluzier, Vincent Leroy, Gr\'egory Rogez(参考訳) そこで本研究では,体,手,顔を含む身体全体の3Dポーズを野生で検出し,推定する最初の方法であるDOPEを紹介する。 このレベルの詳細を達成することは、人々や環境との相互作用を理解する必要がある多くのアプリケーションにとって重要なことです。 主な課題は、全身の3Dポーズをラベル付けしたWildデータの欠如である。 これまでの研究では、体、手、顔に個別にフォーカスするより単純なタスクのために、トレーニングデータが注釈付けや生成されてきた。 本研究では,これらのデータセットを利用して,身体,手,顔のエキスパートといった各部位の独立した専門家を訓練し,その知識を,全身2d-3dポーズ検出用に設計された1つの深層ネットワークに蒸留することを提案する。 実際に、部分的または無アノテーションのトレーニング画像が与えられた場合、各パートエキスパートは、2D、3Dにおけるキーポイントのサブセットを検出し、その結果の見積もりを組み合わせて、全身の擬似地味ポーズを得る。 蒸留損失は、専門家の出力を模倣する全身予測を促進する。 以上の結果から, 本手法は, 蒸留を行わず, 専門家の性能に近づきながら, 同じ全身モデルよりも有意に優れていた。 重要なことは、DOPEは専門家のアンサンブルよりも計算量が少なく、リアルタイムのパフォーマンスを実現することができる。 テストコードとモデルはhttps://europe.naverlabs.com/research/computer-vision/dopeで入手できる。

We introduce DOPE, the first method to detect and estimate whole-body 3D human poses, including bodies, hands and faces, in the wild. Achieving this level of details is key for a number of applications that require understanding the interactions of the people with each other or with the environment. The main challenge is the lack of in-the-wild data with labeled whole-body 3D poses. In previous work, training data has been annotated or generated for simpler tasks focusing on bodies, hands or faces separately. In this work, we propose to take advantage of these datasets to train independent experts for each part, namely a body, a hand and a face expert, and distill their knowledge into a single deep network designed for whole-body 2D-3D pose detection. In practice, given a training image with partial or no annotation, each part expert detects its subset of keypoints in 2D and 3D and the resulting estimations are combined to obtain whole-body pseudo ground-truth poses. A distillation loss encourages the whole-body predictions to mimic the experts' outputs. Our results show that this approach significantly outperforms the same whole-body model trained without distillation while staying close to the performance of the experts. Importantly, DOPE is computationally less demanding than the ensemble of experts and can achieve real-time performance. Test code and models are available at https://europe.naverlabs.com/research/computer-vision/dope.
翻訳日:2022-10-26 21:56:53 公開日:2020-08-21
# 単一画像深度予測が特徴マッチングを容易にする

Single-Image Depth Prediction Makes Feature Matching Easier ( http://arxiv.org/abs/2008.09497v1 )

ライセンス: Link先を確認
Carl Toft, Daniyar Turmukhambetov, Torsten Sattler, Fredrik Kahl, Gabriel Brostow(参考訳) 優れたローカル機能は、多くの3D再ローカライゼーションとマルチビュー再構築パイプラインの堅牢性を改善する。 問題は、視角と距離が局所的な特徴の認識可能性に大きく影響することである。 より優れた局所的特徴点を選択するか、外部情報を活用することによって外観の不変性を改善する試みは、その一部を非現実的にする前提条件を伴っている。 本稿では,局所特徴抽出を驚くほど効果的に向上し,マッチングを改善することを提案する。 単一RGB画像から推定されるCNNに基づく深度は,その欠点にもかかわらず非常に有用であることを示す。 画像を事前にワープし、視点歪みを補正し、SIFTとBRISKの機能を大幅に強化し、カメラが同じシーンを見ているが反対方向を見ているときでも、より良いマッチングを可能にする。

Good local features improve the robustness of many 3D re-localization and multi-view reconstruction pipelines. The problem is that viewing angle and distance severely impact the recognizability of a local feature. Attempts to improve appearance invariance by choosing better local feature points or by leveraging outside information, have come with pre-requisites that made some of them impractical. In this paper, we propose a surprisingly effective enhancement to local feature extraction, which improves matching. We show that CNN-based depths inferred from single RGB images are quite helpful, despite their flaws. They allow us to pre-warp images and rectify perspective distortions, to significantly enhance SIFT and BRISK features, enabling more good matches, even when cameras are looking at the same scene but in opposite directions.
翻訳日:2022-10-26 21:56:30 公開日:2020-08-21
# エゴセントリック光ストリーム群からの行動パターン発見

Behavioural pattern discovery from collections of egocentric photo-streams ( http://arxiv.org/abs/2008.09561v1 )

ライセンス: Link先を確認
Martin Menchon, Estefania Talavera, Jose M Massa and Petia Radeva(参考訳) 行動の自動発見は、人々の生活の質を評価し改善する上で非常に重要である。 エゴセントリックなイメージは、カメラ装着者の日常生活を豊かで客観的に記述する。 本研究では,収集した自我中心の写真ストリームから行動パターンを識別する新しい手法を提案する。 本モデルでは,画像構成を定義するコンテキスト(場所,活動,環境オブジェクト)に基づいて,時間枠を特徴付ける。 ユーザの収集した日数を記述した時間枠間の類似性に基づいて,新しい意味的クラスタリング手法に基づいて行動パターン集合を探索する非教師付きグリーディ手法を提案する。 さらに,提案アルゴリズムの性能評価のための新しいスコア指標を提案する。 7ユーザから抽出した104日と10万枚以上の画像を検証した。 その結果,個人の生活習慣や生活習慣を特徴付ける行動パターンが発見できることがわかった。

The automatic discovery of behaviour is of high importance when aiming to assess and improve the quality of life of people. Egocentric images offer a rich and objective description of the daily life of the camera wearer. This work proposes a new method to identify a person's patterns of behaviour from collected egocentric photo-streams. Our model characterizes time-frames based on the context (place, activities and environment objects) that define the images composition. Based on the similarity among the time-frames that describe the collected days for a user, we propose a new unsupervised greedy method to discover the behavioural pattern set based on a novel semantic clustering approach. Moreover, we present a new score metric to evaluate the performance of the proposed algorithm. We validate our method on 104 days and more than 100k images extracted from 7 users. Results show that behavioural patterns can be discovered to characterize the routine of individuals and consequently their lifestyle.
翻訳日:2022-10-26 21:55:56 公開日:2020-08-21
# ConvNetsにおけるアンチエイリアスへの深い取り組み

Delving Deeper into Anti-aliasing in ConvNets ( http://arxiv.org/abs/2008.09604v1 )

ライセンス: Link先を確認
Xueyan Zou, Fanyi Xiao, Zhiding Yu, Yong Jae Lee(参考訳) エイリアシング(Aliasing)は、高周波信号がサンプリング後に完全に異なる信号に縮退する現象である。 深層アーキテクチャでは、パラメータと計算を減らすためにダウンサンプリング層が広く採用されているため、ディープラーニングのコンテキストにおいて問題として生まれます。 標準的な解決策は、ダウンサンプリングの前にローパスフィルタ(例えばガウスのぼかし)を適用することである。 しかし、空間的位置と特徴チャネルの両方で特徴マップの頻度が変化するため、コンテンツ全体にわたって同じフィルタを適用するのが最適である。 そこで本研究では,入力特徴マップの空間的位置とチャネル群ごとに分離されたフィルタ重みを予測できる適応型コンテンツ対応低パスフィルタリング層を提案する。 提案手法の有効性と一般化について,ImageNet分類,COCOインスタンス分割,Cityscapesセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスなど,複数のタスクにわたって検討した。 定性的かつ定量的な結果は,認識に有用な情報を保持しながらエイリアスを避けるために,異なる特徴周波数に効果的に適応できることを証明している。 コードはhttps://maureenzou.github.io/ddac/で入手できる。

Aliasing refers to the phenomenon that high frequency signals degenerate into completely different ones after sampling. It arises as a problem in the context of deep learning as downsampling layers are widely adopted in deep architectures to reduce parameters and computation. The standard solution is to apply a low-pass filter (e.g., Gaussian blur) before downsampling. However, it can be suboptimal to apply the same filter across the entire content, as the frequency of feature maps can vary across both spatial locations and feature channels. To tackle this, we propose an adaptive content-aware low-pass filtering layer, which predicts separate filter weights for each spatial location and channel group of the input feature maps. We investigate the effectiveness and generalization of the proposed method across multiple tasks including ImageNet classification, COCO instance segmentation, and Cityscapes semantic segmentation. Qualitative and quantitative results demonstrate that our approach effectively adapts to the different feature frequencies to avoid aliasing while preserving useful information for recognition. Code is available at https://maureenzou.github.io/ddac/.
翻訳日:2022-10-26 21:55:43 公開日:2020-08-21
# ポイントクラウド領域における秩序障害

Orderly Disorder in Point Cloud Domain ( http://arxiv.org/abs/2008.09634v1 )

ライセンス: Link先を確認
Morteza Ghahremani, Bernard Tiddeman, Yonghuai Liu and Ardhendu Behera(参考訳) 実世界では、分布外サンプル、ノイズ、歪みがテストデータに存在する。 ポイントクラウドデータ分析のために開発された既存のディープネットワークは、オーバーフィットしがちであり、テストデータの部分的な変更は、ネットワークの予測不能な振る舞いにつながる。 本稿では,「秩序障害」理論を用いた3次元モデル解析のための,スマートでシンプルな深層ネットワークを提案する。 秩序障害とは、複雑なシステム内の障害の複雑な構造を記述する方法である。 本手法は,3次元物体内部の深いパターンを動的リンクによって抽出し,最も安定なパターンを探索し,不安定なパターンを捨てる。 パターンはデータ分散の変化、特に上位層に現れる変化に対してより堅牢である。 特徴は革新的なクローニング分解技術によって抽出され、相互にリンクして安定な複雑なパターンを形成する。 本モデルでは, 消失段階の問題を緩和し, 動的リンク伝播を強化し, パラメータ数を著しく削減する。 挑戦的なベンチマークデータセットに関する広範な実験は、セグメンテーションと分類タスクにおいて、特に、最先端のネットワークが動作しない間、ネットワークのパフォーマンスが10%未満のノイズが存在する場合に、光ネットワークが優れていることを検証します。

In the real world, out-of-distribution samples, noise and distortions exist in test data. Existing deep networks developed for point cloud data analysis are prone to overfitting and a partial change in test data leads to unpredictable behaviour of the networks. In this paper, we propose a smart yet simple deep network for analysis of 3D models using `orderly disorder' theory. Orderly disorder is a way of describing the complex structure of disorders within complex systems. Our method extracts the deep patterns inside a 3D object via creating a dynamic link to seek the most stable patterns and at once, throws away the unstable ones. Patterns are more robust to changes in data distribution, especially those that appear in the top layers. Features are extracted via an innovative cloning decomposition technique and then linked to each other to form stable complex patterns. Our model alleviates the vanishing-gradient problem, strengthens dynamic link propagation and substantially reduces the number of parameters. Extensive experiments on challenging benchmark datasets verify the superiority of our light network on the segmentation and classification tasks, especially in the presence of noise wherein our network's performance drops less than 10% while the state-of-the-art networks fail to work.
翻訳日:2022-10-26 21:55:22 公開日:2020-08-21
# 深層学習に基づく3次元点雲分割モデルの学習のための合成フォトグラムデータの生成

Generating synthetic photogrammetric data for training deep learning based 3D point cloud segmentation models ( http://arxiv.org/abs/2008.09647v1 )

ライセンス: Link先を確認
Meida Chen, Andrew Feng, Kyle McCullough, Pratusha Bhuvana Prasad, Ryan McAlinden, Lucio Soibelman(参考訳) I/ITSEC 2019で、著者らは3Dフォトグラムのポイントクラウド/ミームを分割し、個々の木の位置や地面物質を含むオブジェクト情報を抽出する、完全に自動化されたワークフローを発表した(Chen et al., 2019)。 究極の目標は、現実的な仮想環境を作り、シミュレーションに必要な情報を提供することだ。 本研究では,アメリカ陸軍のone world terrain (owt) プロジェクトにおいて,様々な景観(建築様式,植生の種類,都市密度など)と異なるデータ品質(飛行高度と画像の重なり)を備えたデータベースを用いて,提案手法の一般化性を検証した。 データベースは既存のデータベースよりもかなり大きいが、訓練や検証のための膨大なデータセットが現在不足しているため、ディープラーニングアルゴリズムが真にその潜在能力を達成したかどうかは不明だ。 大量の注釈付き3Dポイントクラウドデータベースを持つことは、データアノテーションの観点からだけでなく、データ収集や処理の観点からも、十分に訓練された人員によって手動でラベル付けする必要がある。 さらに、建物や木塊などのオブジェクトを区別するセグメンテーションモデルは一般的に困難であり、このようなシナリオが収集されたデータセットに常に存在するとは限らない。 そこで本研究の目的は,合成フォトグラムデータを用いて,ディープラーニングアルゴリズムの学習における実世界データを置き換えることにある。 我々は, 深層学習モデルが困難であるシナリオにおいて, 深層学習アルゴリズムを訓練するための十分な大きさのデータベースを提供するために, 合成UAVベースのフォトグラムデータを生成する方法を検討した。

At I/ITSEC 2019, the authors presented a fully-automated workflow to segment 3D photogrammetric point-clouds/meshes and extract object information, including individual tree locations and ground materials (Chen et al., 2019). The ultimate goal is to create realistic virtual environments and provide the necessary information for simulation. We tested the generalizability of the previously proposed framework using a database created under the U.S. Army's One World Terrain (OWT) project with a variety of landscapes (i.e., various buildings styles, types of vegetation, and urban density) and different data qualities (i.e., flight altitudes and overlap between images). Although the database is considerably larger than existing databases, it remains unknown whether deep-learning algorithms have truly achieved their full potential in terms of accuracy, as sizable data sets for training and validation are currently lacking. Obtaining large annotated 3D point-cloud databases is time-consuming and labor-intensive, not only from a data annotation perspective in which the data must be manually labeled by well-trained personnel, but also from a raw data collection and processing perspective. Furthermore, it is generally difficult for segmentation models to differentiate objects, such as buildings and tree masses, and these types of scenarios do not always exist in the collected data set. Thus, the objective of this study is to investigate using synthetic photogrammetric data to substitute real-world data in training deep-learning algorithms. We have investigated methods for generating synthetic UAV-based photogrammetric data to provide a sufficiently sized database for training a deep-learning algorithm with the ability to enlarge the data size for scenarios in which deep-learning models have difficulties.
翻訳日:2022-10-26 21:55:03 公開日:2020-08-21
# microsoft bing 3d都市におけるセマンティックセグメンテーションとデータ融合

Semantic Segmentation and Data Fusion of Microsoft Bing 3D Cities and Small UAV-based Photogrammetric Data ( http://arxiv.org/abs/2008.09648v1 )

ライセンス: Link先を確認
Meida Chen, Andrew Feng, Kyle McCullough, Pratusha Bhuvana Prasad, Ryan McAlinden, Lucio Soibelman(参考訳) Microsoft Bing Mapsのチームは、最先端のセンシングとフォトグラム技術を使って、11の国から125以上の高度に詳細な3D都市を作成した。 3Dシティーモデルは、航空機に搭載されたカメラから高解像度の画像を撮影するフォトグラム技術を用いて作成された。 このような大規模な3D都市データベースは、軍事作戦を支援する仮想シミュレーション環境の構築に関して、アメリカ陸軍の注目を集めている。 しかし,3次元都市モデルは建物,植生,地盤などの意味情報を持っておらず,高度なユーザレベルやシステムレベルのインタラクションを許容できない。 I/ITSEC 2019で著者らは、UAVベースのフォトグラムデータを使用してシミュレーション地形を作成するための、完全に自動化されたデータセグメンテーションとオブジェクト情報抽出フレームワークを発表した。 本稿では3次元都市データのセグメンテーションのための設計したデータセグメンテーションフレームワークの次のステップについて述べる。 本研究では,bingデータに適用した場合の既存フレームワークの強みと限界について最初に検討した。 UAVベースと航空機ベースの測光データの主な違いが強調されている。 航空機用フォトグラムデータにおけるデータ品質問題は,セグメンテーション性能に悪影響を及ぼす可能性がある。 この結果に基づき、Bingデータのセグメンテーションに特化してワークフローを設計した。 さらに,小型無人航空機(UAV)収集データとBingデータの両方を仮想シミュレーション環境で組み合わせることが最終目的であるため,これら2つのソースからのデータを連携して登録する必要がある。 この目的のために著者らは,従来の反復的最近点(ICP)と抽出された意味情報を利用するデータ登録ワークフローも提案した。

With state-of-the-art sensing and photogrammetric techniques, Microsoft Bing Maps team has created over 125 highly detailed 3D cities from 11 different countries that cover hundreds of thousands of square kilometer areas. The 3D city models were created using the photogrammetric technique with high-resolution images that were captured from aircraft-mounted cameras. Such a large 3D city database has caught the attention of the US Army for creating virtual simulation environments to support military operations. However, the 3D city models do not have semantic information such as buildings, vegetation, and ground and cannot allow sophisticated user-level and system-level interaction. At I/ITSEC 2019, the authors presented a fully automated data segmentation and object information extraction framework for creating simulation terrain using UAV-based photogrammetric data. This paper discusses the next steps in extending our designed data segmentation framework for segmenting 3D city data. In this study, the authors first investigated the strengths and limitations of the existing framework when applied to the Bing data. The main differences between UAV-based and aircraft-based photogrammetric data are highlighted. The data quality issues in the aircraft-based photogrammetric data, which can negatively affect the segmentation performance, are identified. Based on the findings, a workflow was designed specifically for segmenting Bing data while considering its characteristics. In addition, since the ultimate goal is to combine the use of both small unmanned aerial vehicle (UAV) collected data and the Bing data in a virtual simulation environment, data from these two sources needed to be aligned and registered together. To this end, the authors also proposed a data registration workflow that utilized the traditional iterative closest point (ICP) with the extracted semantic information.
翻訳日:2022-10-26 21:54:32 公開日:2020-08-21
# 病理画像解析の教師なしドメイン適応のためのグラフニューラルネットワーク

Graph Neural Networks for UnsupervisedDomain Adaptation of Histopathological ImageAnalytics ( http://arxiv.org/abs/2008.09304v1 )

ライセンス: Link先を確認
Dou Xu, Chang Cai, Chaowei Fang, Bin Kong, Jihua Zhu, Zhongyu Li(参考訳) 組織病理学的画像の注釈付けは時間を要するプロセスであり、細胞から組織への大規模な全体スライド画像の精査が必要であり、近年の転移学習技術のフロンティアは、限定的なアノテーションによる画像理解タスクのために広く研究されてきた。 しかし, 組織像の分析に応用した場合, ソーストレーニングデータセットとターゲットデータセット, 異なる組織, 染色外観, イメージング装置の領域差による性能低下を効果的に回避できる例はほとんどない。 そこで本研究では,入力画像を特徴空間に埋め込むバックボーンと,ラベル付き画像の監視信号を伝搬するグラフニューラルネットワーク層とに基づいて,病理組織学的画像解析における教師なし領域適応法を提案する。 グラフモデルは、埋め込み機能空間において、すべての画像をその近傍に接続することで設定される。 次に、グラフニューラルネットワークを使用して、各画像から特徴表現を合成する。 トレーニング段階では、自信のある推論を持つターゲットサンプルが、pseudoラベルで動的に割り当てられる。 クロスエントロピー損失関数は、ソースサンプルの予測を、手動でマークされたラベルと擬似ラベルのターゲットアンプで制限するために使用される。 さらに、ドメイン不変特徴の再現性抽出を容易にするために、最大平均ダイバーシティが採用され、コントラスト学習を用いて学習特徴のカテゴリー識別が向上する。 病理組織学的画像分類のための教師なしdo-main適応実験において,4つの公開データセットにおける最先端性能について検討した。

Annotating histopathological images is a time-consuming andlabor-intensive process, which requires broad-certificated pathologistscarefully examining large-scale whole-slide images from cells to tissues.Recent frontiers of transfer learning techniques have been widely investi-gated for image understanding tasks with limited annotations. However,when applied for the analytics of histology images, few of them can effec-tively avoid the performance degradation caused by the domain discrep-ancy between the source training dataset and the target dataset, suchas different tissues, staining appearances, and imaging devices. To thisend, we present a novel method for the unsupervised domain adaptationin histopathological image analysis, based on a backbone for embeddinginput images into a feature space, and a graph neural layer for propa-gating the supervision signals of images with labels. The graph model isset up by connecting every image with its close neighbors in the embed-ded feature space. Then graph neural network is employed to synthesizenew feature representation from every image. During the training stage,target samples with confident inferences are dynamically allocated withpseudo labels. The cross-entropy loss function is used to constrain thepredictions of source samples with manually marked labels and targetsamples with pseudo labels. Furthermore, the maximum mean diversityis adopted to facilitate the extraction of domain-invariant feature repre-sentations, and contrastive learning is exploited to enhance the categorydiscrimination of learned features. In experiments of the unsupervised do-main adaptation for histopathological image classification, our methodachieves state-of-the-art performance on four public datasets
翻訳日:2022-10-26 21:48:26 公開日:2020-08-21
# InterHand2.6M: 1枚のRGB画像からの3次元干渉型ハンドポース推定のためのデータセットとベースライン

InterHand2.6M: A Dataset and Baseline for 3D Interacting Hand Pose Estimation from a Single RGB Image ( http://arxiv.org/abs/2008.09309v1 )

ライセンス: Link先を確認
Gyeongsik Moon, Shoou-i Yu, He Wen, Takaaki Shiratori, Kyoung Mu Lee(参考訳) 手動インタラクションの分析は、人間の振る舞いをよりよく理解するための重要なステップである。 しかし, 3dハンドポーズ推定におけるほとんどの研究は, 孤立した単手症例に焦点をあてている。 そこで,本研究では,(1)大規模データセットであるInterHand2.6M,(2)ベースラインネットワークであるInterNetを提案する。 提案するinterhand2.6mは、複数の被験者の様々なポーズの下で、単層および相互作用するハンドフレームのラベル付き \textbf{2.6m} で構成される。 われわれのInterNetは同時に3Dシングルと対話型ハンドポーズ推定を行う。 実験では,InterHand2.6Mのインタラクションハンドデータを利用する場合,3次元インタラクションハンドポーズ推定の精度が大きく向上することを示した。 この新しいデータセットの強力なベースラインとなるInterHand2.6M上でのInterNetの精度についても報告する。 最後に,一般画像からの3次元手ポーズ推定結果を示す。 私たちのコードとデータセットはhttps://mks0601.github.io/interhand2.6m/で利用可能です。

Analysis of hand-hand interactions is a crucial step towards better understanding human behavior. However, most researches in 3D hand pose estimation have focused on the isolated single hand case. Therefore, we firstly propose (1) a large-scale dataset, InterHand2.6M, and (2) a baseline network, InterNet, for 3D interacting hand pose estimation from a single RGB image. The proposed InterHand2.6M consists of \textbf{2.6M labeled single and interacting hand frames} under various poses from multiple subjects. Our InterNet simultaneously performs 3D single and interacting hand pose estimation. In our experiments, we demonstrate big gains in 3D interacting hand pose estimation accuracy when leveraging the interacting hand data in InterHand2.6M. We also report the accuracy of InterNet on InterHand2.6M, which serves as a strong baseline for this new dataset. Finally, we show 3D interacting hand pose estimation results from general images. Our code and dataset are available at https://mks0601.github.io/InterHand2.6M/.
翻訳日:2022-10-26 21:47:59 公開日:2020-08-21
# ビジュアルローカライゼーションのための学習特徴のドメイン適応

Domain Adaptation of Learned Features for Visual Localization ( http://arxiv.org/abs/2008.09310v1 )

ライセンス: Link先を確認
Sungyong Baik, Hyo Jin Kim, Tianwei Shen, Eddy Ilg, Kyoung Mu Lee, Chris Sweeney(参考訳) 日時,天気,季節などの変化条件下での視覚的局所化の問題に対処する。 ディープニューラルネットワークに基づく最近の学習されたローカル機能は、古典的な手作りのローカル機能よりも優れたパフォーマンスを示している。 しかし、現実世界のシナリオでは、トレーニングとターゲットイメージの間に大きなドメインギャップがあり、ローカライズ精度が著しく低下する可能性がある。 既存の手法では,この問題に対処するために大量のデータを利用するが,ドメインギャップを減らすために,いくつかの例が必要とされる新しい,実践的なアプローチを提案する。 特に,視覚的ローカライゼーションにおける様々な条件を扱う局所的特徴を学習するための領域適応フレームワークを提案する。 実験結果は,対象領域からのトレーニング例が少ないのに対して,ベースラインよりも優れたパフォーマンスを示す。

We tackle the problem of visual localization under changing conditions, such as time of day, weather, and seasons. Recent learned local features based on deep neural networks have shown superior performance over classical hand-crafted local features. However, in a real-world scenario, there often exists a large domain gap between training and target images, which can significantly degrade the localization accuracy. While existing methods utilize a large amount of data to tackle the problem, we present a novel and practical approach, where only a few examples are needed to reduce the domain gap. In particular, we propose a few-shot domain adaptation framework for learned local features that deals with varying conditions in visual localization. The experimental results demonstrate the superior performance over baselines, while using a scarce number of training examples from the target domain.
翻訳日:2022-10-26 21:47:43 公開日:2020-08-21
# ラベル付きサンプルの少ない適応的半教師付き領域適応のための学習領域不変グラフ

Learning Domain-invariant Graph for Adaptive Semi-supervised Domain Adaptation with Few Labeled Source Samples ( http://arxiv.org/abs/2008.09359v1 )

ライセンス: Link先を確認
Jinfeng Li, Weifeng Liu, Yicong Zhou, Jun Yu, Dapeng Tao(参考訳) ドメイン適応は、ソースドメインからモデルを一般化して、関連するが異なるターゲットドメインのタスクに取り組むことを目的としています。 従来のドメイン適応アルゴリズムは、事前知識として扱われる十分なラベル付きデータがソースドメインで利用できると仮定する。 しかし、ソースドメインにラベル付きデータしか存在しない場合、これらのアルゴリズムは実現できないため、パフォーマンスは大幅に低下する。 この課題に対処するために,いくつかのラベル付きソースサンプルのみを用いたドメイン適応のためのドメイン不変グラフ学習(dgl)手法を提案する。 まず、DGLはNystrom法を導入し、ターゲット領域と類似した幾何学的性質を持つプラスチックグラフを構築する。 そして、DGLはNystrom近似誤差を柔軟に利用して、プラスチックグラフとソースグラフのばらつきを測定し、幾何学的観点から分布ミスマッチを定式化する。 近似誤差を最小化することで、dglはブリッジソースとターゲットドメインへのドメイン不変な幾何グラフを学習する。 最後に,学習した領域不変グラフを半教師付き学習と統合し,さらにクロスドメイン問題を扱う適応半教師付きモデルを提案する。 一般的なデータセットに関する広範な実験の結果は、特にラベル付きソースサンプルがわずかである場合に、DGLの優位性を検証する。

Domain adaptation aims to generalize a model from a source domain to tackle tasks in a related but different target domain. Traditional domain adaptation algorithms assume that enough labeled data, which are treated as the prior knowledge are available in the source domain. However, these algorithms will be infeasible when only a few labeled data exist in the source domain, and thus the performance decreases significantly. To address this challenge, we propose a Domain-invariant Graph Learning (DGL) approach for domain adaptation with only a few labeled source samples. Firstly, DGL introduces the Nystrom method to construct a plastic graph that shares similar geometric property as the target domain. And then, DGL flexibly employs the Nystrom approximation error to measure the divergence between plastic graph and source graph to formalize the distribution mismatch from the geometric perspective. Through minimizing the approximation error, DGL learns a domain-invariant geometric graph to bridge source and target domains. Finally, we integrate the learned domain-invariant graph with the semi-supervised learning and further propose an adaptive semi-supervised model to handle the cross-domain problems. The results of extensive experiments on popular datasets verify the superiority of DGL, especially when only a few labeled source samples are available.
翻訳日:2022-10-26 21:46:49 公開日:2020-08-21
# オブジェクトゴールナビゲーションのためのシーン特化機能

Exploiting Scene-specific Features for Object Goal Navigation ( http://arxiv.org/abs/2008.09403v1 )

ライセンス: Link先を確認
Tommaso Campari, Paolo Eccher, Luciano Serafini and Lamberto Ballan(参考訳) 視覚ナビゲーションタスクにおいて、通常ヘルプエージェントの位置にあるオブジェクトと部屋の本質的な関係は可能か? 本研究では,複雑な家庭環境の中を移動しながら,エージェントが特定のクラスに到達しなければならない問題であるオブジェクトナビゲーションの文脈で,この問題を考察する。 本稿では,複雑なタスクであるナビゲーションモデルのトレーニングを高速化する,新しい縮小データセットを提案する。 提案するデータセットは,膨大な計算資源を用いなくても,オンライン構築地図を合理的に活用しないモデルのトレーニングを可能にする。 したがって、この削減されたデータセットは重要なベンチマークを保証し、より大きな、より困難なデータセットで試される有望なモデルを特定するために使用できる。 次に,smtscモデルを提案する。smtscモデルでは,シーンとオブジェクトの相関性を活用でき,アイデアの正確さを定量的に強調する。

Can the intrinsic relation between an object and the room in which it is usually located help agents in the Visual Navigation Task? We study this question in the context of Object Navigation, a problem in which an agent has to reach an object of a specific class while moving in a complex domestic environment. In this paper, we introduce a new reduced dataset that speeds up the training of navigation models, a notoriously complex task. Our proposed dataset permits the training of models that do not exploit online-built maps in reasonable times even without the use of huge computational resources. Therefore, this reduced dataset guarantees a significant benchmark and it can be used to identify promising models that could be then tried on bigger and more challenging datasets. Subsequently, we propose the SMTSC model, an attention-based model capable of exploiting the correlation between scenes and objects contained in them, highlighting quantitatively how the idea is correct.
翻訳日:2022-10-26 21:45:43 公開日:2020-08-21
# ジェスチャー認識のためのマルチレート・マルチモーダル時間拡張ネットワークの探索

Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition ( http://arxiv.org/abs/2008.09412v1 )

ライセンス: Link先を確認
Zitong Yu, Benjia Zhou, Jun Wan, Pichao Wang, Haoyu Chen, Xin Liu, Stan Z. Li, Guoying Zhao(参考訳) ジェスチャー認識は、アプリケーションの大きな可能性のために、かなりの注目を集めている。 近年,マルチモーダル学習において大きな進歩がみられたが,ジェスチャ認識に有効な時空間的モダリティの相乗効果を完全に探究するには,既存の手法では有効な統合が不十分である。 問題の一部は、既存の手動設計のネットワークアーキテクチャが、マルチモダリティの合同学習において低効率であることによる。 本稿では,RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャ探索法を提案する。 提案手法は2つの鍵成分を含む。 1)3次元中央差分変換(3D-CDC)による時間的表現の強化(3D-CDC)により、時間的差分情報を集約することで、豊かな時間的文脈を捉えることができる。 2)マルチサンプリングレート分岐の最適化バックボーンと異なるモダリティ間の側線接続。 結果として得られたマルチモードマルチレートネットワークは、RGBと深さモードの関係と時間的ダイナミクスを理解するための新しい視点を提供する。 総合的な実験は、3つのベンチマークデータセット(isogd、nvgesture、egogesture)で行われ、シングルモダリティとマルチモダリティ設定の両方で最先端のパフォーマンスを示している。

Gesture recognition has attracted considerable attention owing to its great potential in applications. Although the great progress has been made recently in multi-modal learning methods, existing methods still lack effective integration to fully explore synergies among spatio-temporal modalities effectively for gesture recognition. The problems are partially due to the fact that the existing manually designed network architectures have low efficiency in the joint learning of multi-modalities. In this paper, we propose the first neural architecture search (NAS)-based method for RGB-D gesture recognition. The proposed method includes two key components: 1) enhanced temporal representation via the proposed 3D Central Difference Convolution (3D-CDC) family, which is able to capture rich temporal context via aggregating temporal difference information; and 2) optimized backbones for multi-sampling-rate branches and lateral connections among varied modalities. The resultant multi-modal multi-rate network provides a new perspective to understand the relationship between RGB and depth modalities and their temporal dynamics. Comprehensive experiments are performed on three benchmark datasets (IsoGD, NvGesture, and EgoGesture), demonstrating the state-of-the-art performance in both single- and multi-modality settings.The code is available at https://github.com/ZitongYu/3DCDC-NAS
翻訳日:2022-10-26 21:45:30 公開日:2020-08-21
# 人物再同定のための局所性を考慮した自己監視歩行符号化

Self-Supervised Gait Encoding with Locality-Aware Attention for Person Re-Identification ( http://arxiv.org/abs/2008.09435v1 )

ライセンス: Link先を確認
Haocong Rao, Siqi Wang, Xiping Hu, Mingkui Tan, Huang Da, Jun Cheng, Bin Hu(参考訳) 歩行に基づく人物再識別(Re-ID)は、安全クリティカルな応用に有用であり、3Dスケルトンデータのみを使用して人物の識別的歩行特徴を抽出することは、新たなオープントピックである。 既存の手法は手作りの特徴を採用するか、伝統的な教師付き学習パラダイムによって歩行特徴を学ぶ。 従来の手法とは異なり,ラベルなしの骨格データを用いて自己教師付きで歩行表現を学習できる汎用的な歩行符号化手法を初めて提案する。 具体的には,入力スケルトン配列を逆順に再構成することで,よりリッチなハイレベルなセマンティクスと歩行表現の学習を容易にすることを提案する。 第2に,運動の連続性が時間的に隣接する骨格(局所性)と高い相関関係(局所性)を内在していることに着想を得て,現在骨格を再構築する際に,時間的に隣接する骨格に対してより注意重みを学ぶことを促す局所性認識注意機構を提案する。 最後に,注意に基づくゲイト符号化(ages)を提案する。これは,局所性に配慮した注意によって学習されたコンテキストベクトルを最終ゲイト表現として用いる。 AGEを直接利用して有効人物Re-IDを実現する。 提案手法は,従来の骨格法を10~20%精度で改良し,RGBや深度情報を付加したマルチモーダル法と同等あるいはそれ以上の性能を実現する。 私たちのコードはhttps://github.com/Kali-Hac/SGE-LAで公開されています。

Gait-based person re-identification (Re-ID) is valuable for safety-critical applications, and using only 3D skeleton data to extract discriminative gait features for person Re-ID is an emerging open topic. Existing methods either adopt hand-crafted features or learn gait features by traditional supervised learning paradigms. Unlike previous methods, we for the first time propose a generic gait encoding approach that can utilize unlabeled skeleton data to learn gait representations in a self-supervised manner. Specifically, we first propose to introduce self-supervision by learning to reconstruct input skeleton sequences in reverse order, which facilitates learning richer high-level semantics and better gait representations. Second, inspired by the fact that motion's continuity endows temporally adjacent skeletons with higher correlations ("locality"), we propose a locality-aware attention mechanism that encourages learning larger attention weights for temporally adjacent skeletons when reconstructing current skeleton, so as to learn locality when encoding gait. Finally, we propose Attention-based Gait Encodings (AGEs), which are built using context vectors learned by locality-aware attention, as final gait representations. AGEs are directly utilized to realize effective person Re-ID. Our approach typically improves existing skeleton-based methods by 10-20% Rank-1 accuracy, and it achieves comparable or even superior performance to multi-modal methods with extra RGB or depth information. Our codes are available at https://github.com/Kali-Hac/SGE-LA.
翻訳日:2022-10-26 21:45:08 公開日:2020-08-21
# イベント抽出器の医療データへの適応:共変量シフトの橋渡し

Adapting Event Extractors to Medical Data: Bridging the Covariate Shift ( http://arxiv.org/abs/2008.09266v1 )

ライセンス: Link先を確認
Aakanksha Naik, Jill Lehman, Carolyn Rose(参考訳) ソース領域とターゲット領域の限界分布を整合させることにより、ラベル付きデータなしでイベント抽出器を新しいドメインに適応させるタスクに取り組む。 テストベッドとして、2つの医学領域から英語のテキストを用いて2つの新しいイベント抽出データセットを作成する。 (i)臨床ノート、及び (ii)医師と患者との会話。 3つの限界アライメント手法の有効性をテストする。 (i)敵領域適応(ADA) (ii)ドメイン適応微調整(daft)、及び (iii)言語モデル確率スコア(LIW)に基づく新しいインスタンス重み付け手法。 LIW と DAFT は両ドメインの no-transfer BERT ベースラインよりも改善するが、ADA は臨床ノートにのみ改善する。 異なる種類のシフト(例: lexical shift, semantic shift)におけるパフォーマンスのより深い分析は、モデル間で興味深い変化を示している。 ベストパフォーマンスモデルは,対象ドメインのラベル付きデータを使用し,それぞれ70.0点,72.9点のスコアに到達した。

We tackle the task of adapting event extractors to new domains without labeled data, by aligning the marginal distributions of source and target domains. As a testbed, we create two new event extraction datasets using English texts from two medical domains: (i) clinical notes, and (ii) doctor-patient conversations. We test the efficacy of three marginal alignment techniques: (i) adversarial domain adaptation (ADA), (ii) domain adaptive fine-tuning (DAFT), and (iii) a novel instance weighting technique based on language model likelihood scores (LIW). LIW and DAFT improve over a no-transfer BERT baseline on both domains, but ADA only improves on clinical notes. Deeper analysis of performance under different types of shifts (e.g., lexical shift, semantic shift) reveals interesting variations among models. Our best-performing models reach F1 scores of 70.0 and 72.9 on notes and conversations respectively, using no labeled data from target domains.
翻訳日:2022-10-26 21:38:32 公開日:2020-08-21
# 教師なし感性分析への変分的アプローチ

A Variational Approach to Unsupervised Sentiment Analysis ( http://arxiv.org/abs/2008.09394v1 )

ライセンス: Link先を確認
Ziqian Zeng, Wenxuan Zhou, Xin Liu, Zizheng Lin, Yangqin Song, Michael David Kuo, and Wan Hang Keith Chiu(参考訳) 本稿では,教師なし感情分析に対する変分的アプローチを提案する。 ドメインの専門家が提供した根拠の真理を使わずに、ターゲット-オピニオンワードペアを監視信号として使用します。 例えば、ドキュメントのスニペット "the room is big" (room, big) は、ターゲット-オピニオンワードペアである。 これらのワードペアは、依存性パーサと単純なルールを使って抽出できる。 我々の目的は、目標語が与えられた意見語を予測し、最終的な目標は感情分類器を学習することである。 目的関数に潜在変数、すなわち感情極性を導入することにより、エビデンス下限を介して感情分類器を目的関数に注入することができる。 下限を最適化することで感情分類器を学習できる。 また,2つの文書が類似(異)な意見語を持つ場合,感情分類器が類似(異)な確率分布を生成することを奨励する規則化として,意見語に洗練された制約を課す。 顧客レビューと臨床物語に対する感情分析に本手法を適用した。 実験の結果,両ドメインの感情分析タスクにおいて,教師なしのベースラインを上回り,顧客レビュードメインにおいて,数百のラベルを持つ教師付き手法と比較し,臨床物語領域における教師付き手法と同等の結果を得ることができた。

In this paper, we propose a variational approach to unsupervised sentiment analysis. Instead of using ground truth provided by domain experts, we use target-opinion word pairs as a supervision signal. For example, in a document snippet "the room is big," (room, big) is a target-opinion word pair. These word pairs can be extracted by using dependency parsers and simple rules. Our objective function is to predict an opinion word given a target word while our ultimate goal is to learn a sentiment classifier. By introducing a latent variable, i.e., the sentiment polarity, to the objective function, we can inject the sentiment classifier to the objective function via the evidence lower bound. We can learn a sentiment classifier by optimizing the lower bound. We also impose sophisticated constraints on opinion words as regularization which encourages that if two documents have similar (dissimilar) opinion words, the sentiment classifiers should produce similar (different) probability distribution. We apply our method to sentiment analysis on customer reviews and clinical narratives. The experiment results show our method can outperform unsupervised baselines in sentiment analysis task on both domains, and our method obtains comparable results to the supervised method with hundreds of labels per aspect in customer reviews domain, and obtains comparable results to supervised methods in clinical narratives domain.
翻訳日:2022-10-26 21:38:02 公開日:2020-08-21
# キーワードは局所ベクトル空間におけるすべての単語の平均から遠く離れている

Keywords lie far from the mean of all words in local vector space ( http://arxiv.org/abs/2008.09513v1 )

ライセンス: Link先を確認
Eirini Papagiannopoulou, Grigorios Tsoumakas and Apostolos N. Papadopoulos(参考訳) キーワード抽出は、文書のトピックを簡潔に記述する用語の小さなセットを見つけることを目的とした重要な文書プロセスである。 最も一般的な最先端の教師なしアプローチは、graph-of-wordsを構築し、ノード(候補キーワード)をスコア付けするために様々な集中性尺度を使用するグラフベースの手法のファミリーに属する。 本研究では,文書の単語の主分布を局所的な単語ベクトル表現を用いてモデル化することにより,テキスト文書からキーワードを検出する異なる経路に従う。 次に,テキスト中のそれらの位置と,対応する局所ベクトルと主分布中心との間の距離に基づいて,候補をランク付けする。 提案手法は, 局所表現の特性を検証し, 高精度なベースラインと最先端の教師なしキーワード抽出手法と比較して高い性能を実証する。

Keyword extraction is an important document process that aims at finding a small set of terms that concisely describe a document's topics. The most popular state-of-the-art unsupervised approaches belong to the family of the graph-based methods that build a graph-of-words and use various centrality measures to score the nodes (candidate keywords). In this work, we follow a different path to detect the keywords from a text document by modeling the main distribution of the document's words using local word vector representations. Then, we rank the candidates based on their position in the text and the distance between the corresponding local vectors and the main distribution's center. We confirm the high performance of our approach compared to strong baselines and state-of-the-art unsupervised keyword extraction methods, through an extended experimental study, investigating the properties of the local representations.
翻訳日:2022-10-26 21:37:39 公開日:2020-08-21
# チームDoNotDistribute at SemEval-2020 Task 11:Features, Finetuning, and Data Augmentation in Neural Models for Propaganda Detection in News Articles

Team DoNotDistribute at SemEval-2020 Task 11: Features, Finetuning, and Data Augmentation in Neural Models for Propaganda Detection in News Articles ( http://arxiv.org/abs/2008.09703v1 )

ライセンス: Link先を確認
Michael Kranzlein, Shabnam Behzad, Nazli Goharian(参考訳) 本稿では,SemEval 2020 Shared Task 11: Detection of Propaganda Techniques in News Articlesについて述べる。 本研究は,スパン識別と技術分類の両方のサブタスクに参加し,さまざまなBERTモデルと手作り特徴を用いた実験について報告する。 プロパガンダ検出における今後の研究を支援することを目的として,提案モデルが両タスクのベースラインをはるかに上回って動作し,異なる特徴や手法の有効性を解析するために,アブレーション研究や研究結果の議論に寄与する。

This paper presents our systems for SemEval 2020 Shared Task 11: Detection of Propaganda Techniques in News Articles. We participate in both the span identification and technique classification subtasks and report on experiments using different BERT-based models along with handcrafted features. Our models perform well above the baselines for both tasks, and we contribute ablation studies and discussion of our results to dissect the effectiveness of different features and techniques with the goal of aiding future studies in propaganda detection.
翻訳日:2022-10-26 21:37:24 公開日:2020-08-21
# タスク計画のためのコンパクト信念状態表現

Compact Belief State Representation for Task Planning ( http://arxiv.org/abs/2008.10386v1 )

ライセンス: Link先を確認
Evgenii Safronov, Michele Colledanchise and Lorenzo Natale(参考訳) 確率的信念状態ドメインにおけるタスクプランニングは、状態の不確実性によって影響を受けるこれらのドメインにおいて、複雑で堅牢な実行ポリシーを生成することができる。 タスクプランナーのパフォーマンスは、信念状態の表現に依存します。 しかし、変数の数や実行時間が大きくなると、現在の信念状態表現は容易に難解になる。 この問題に対処するため,我々はカルデシアン積に基づく新しい信念状態表現と,信念サブステートに対するユニオン操作を開発した。 これら2つの演算と単一変数割り当てノードは、Breief State (AOBS)のAnd-Or方向の非巡回グラフを形成する。 本研究では,確率的結果を用いた行動の適用方法を示し,信念状態の保留条件の確率を測る。 模擬前方空間探査におけるAOBSの性能評価を行った。 AOBSのサイズを、以前信仰状態を表すために用いられていた2値決定図(BDD)のサイズと比較した。 AOBSの表現は、完全な信念状態よりもはるかにコンパクトであるだけでなく、多くの場合、BDDよりも優れたスケールを示している。

Task planning in a probabilistic belief state domains allows generating complex and robust execution policies in those domains affected by state uncertainty. The performance of a task planner relies on the belief state representation. However, current belief state representation becomes easily intractable as the number of variables and execution time grows. To address this problem, we developed a novel belief state representation based on cartesian product and union operations over belief substates. These two operations and single variable assignment nodes form And-Or directed acyclic graph of Belief State (AOBS). We show how to apply actions with probabilistic outcomes and measure the probability of conditions holding over belief state. We evaluated AOBS performance in simulated forward state space exploration. We compared the size of AOBS with the size of Binary Decision Diagrams (BDD) that were previously used to represent belief state. We show that AOBS representation is not only much more compact than a full belief state but it also scales better than BDD for most of the cases.
翻訳日:2022-10-26 21:37:10 公開日:2020-08-21
# Beyond Fixed Grid: 変形可能なグリッドによる幾何学的画像表現の学習

Beyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid ( http://arxiv.org/abs/2008.09269v1 )

ライセンス: Link先を確認
Jun Gao, Zian Wang, Jinchen Xuan, Sanja Fidler(参考訳) 現代のコンピュータビジョンでは、画像は通常、一定の一様格子として表現され、いくつかのストライドを持ち、深層畳み込みニューラルネットワークによって処理される。 我々は、グリッドを変形して、高周波画像コンテンツとよりよく一致させることは、より効果的な戦略であると主張する。 学習可能なニューラルネットワークモジュールである \emph{Deformable Grid} DefGrid を導入し、2次元三角格子の頂点の位置オフセットを予測し、変形格子のエッジが画像境界と整合する。 defgridをさまざまな処理レベルでモジュールとして挿入することで、さまざまなユースケース、すなわちさまざまなユースケースで紹介しています。 我々はDefGridをエンド・ツー・エンドのemph{learnable geometry downsampling} 層として利用し、画像の深部CNNへの送出時の解像度を下げるための標準的なプール法を置き換える。 意味セグメンテーションタスクにおいて,一様グリッド上でcnnを使用する場合と比較して,同じグリッド解像度で有意に改善された結果を示す。 また,オブジェクトマスクアノテーションのタスクにおいてDefGridを出力層に利用し,予測した多角形格子上のオブジェクト境界の推論により,既存のピクセルワイドおよび曲線ベースのアプローチよりも正確な結果が得られることを示す。 最終的にdefgridを,教師なし画像分割のためのスタンドアロンモジュールとして紹介し,既存のアプローチよりも優れた性能を示す。 プロジェクトウェブサイト: http://www.cs.toronto.edu/~jungao/def-grid

In modern computer vision, images are typically represented as a fixed uniform grid with some stride and processed via a deep convolutional neural network. We argue that deforming the grid to better align with the high-frequency image content is a more effective strategy. We introduce \emph{Deformable Grid} DefGrid, a learnable neural network module that predicts location offsets of vertices of a 2-dimensional triangular grid, such that the edges of the deformed grid align with image boundaries. We showcase our DefGrid in a variety of use cases, i.e., by inserting it as a module at various levels of processing. We utilize DefGrid as an end-to-end \emph{learnable geometric downsampling} layer that replaces standard pooling methods for reducing feature resolution when feeding images into a deep CNN. We show significantly improved results at the same grid resolution compared to using CNNs on uniform grids for the task of semantic segmentation. We also utilize DefGrid at the output layers for the task of object mask annotation, and show that reasoning about object boundaries on our predicted polygonal grid leads to more accurate results over existing pixel-wise and curve-based approaches. We finally showcase DefGrid as a standalone module for unsupervised image partitioning, showing superior performance over existing approaches. Project website: http://www.cs.toronto.edu/~jungao/def-grid
翻訳日:2022-10-26 21:36:35 公開日:2020-08-21
# KCoreMotif: kコア分解とモチーフの爆発による大規模ネットワークのための効率的なグラフクラスタリングアルゴリズム

KCoreMotif: An Efficient Graph Clustering Algorithm for Large Networks by Exploiting k-core Decomposition and Motifs ( http://arxiv.org/abs/2008.10380v1 )

ライセンス: Link先を確認
Gang Mei, Jingzhi Tu, Lei Xiao, Francesco Piccialli(参考訳) クラスタリング分析は、無線センサネットワークやオンラインソーシャルネットワークなど、さまざまな複雑なネットワークの信頼評価に広く使われている。 スペクトルクラスタリングは、グラフ構造化データ(ネットワーク)の最も一般的に使われるアルゴリズムの1つである。 しかし,従来のスペクトルクラスタリングは計算コストの高い行列操作を必要とするため,大規模ネットワークでは本質的に処理が困難である。 本稿では,大規模ネットワークを扱うために,k-core分解とモチーフを活用し,大規模ネットワークを対象とした効率的なグラフクラスタリングアルゴリズムであるkcoremotifを提案する。 提案するクラスタリングアルゴリズムの背後にある基本的な考え方は、グラフ全体ではなく、kコアサブグラフ上で効率的なモチーフベースのスペクトルクラスタリングアルゴリズムを実行することである。 より具体的には、(1)最初に大きな入力ネットワークのkコア分解を行い、(2)上位のkコアサブグラフに対してモチーフベースのスペクトルクラスタリングを行い、(3)残りの頂点を残りの(k-1)コアサブグラフにグループ化し、最後に大きな入力ネットワークの所望のクラスタを得る。 提案したグラフクラスタリングアルゴリズムKCoreMotifの性能を評価するために,従来のスペクトルクラスタリングアルゴリズムとモチーフベースのスペクトルクラスタリングアルゴリズムの両方をベースラインとして使用し,実世界の18個のデータセットに対してアルゴリズムを比較検討した。 比較結果から,提案アルゴリズムは大規模ネットワークにおいて正確かつ効率的であり,大規模ネットワーク上でのクラスタ内信頼とクラスタ間信頼のさらなる評価に有効であることが示された。

Clustering analysis has been widely used in trust evaluation on various complex networks such as wireless sensors networks and online social networks. Spectral clustering is one of the most commonly used algorithms for graph-structured data (networks). However, the conventional spectral clustering is inherently difficult to work with large-scale networks due to the fact that it needs computationally expensive matrix manipulations. To deal with large networks, in this paper, we propose an efficient graph clustering algorithm, KCoreMotif, specifically for large networks by exploiting k-core decomposition and motifs. The essential idea behind the proposed clustering algorithm is to perform the efficient motif-based spectral clustering algorithm on k-core subgraphs, rather than on the entire graph. More specifically, (1) we first conduct the k-core decomposition of the large input network; (2) we then perform the motif-based spectral clustering for the top k-core subgraphs; (3) we group the remaining vertices in the rest (k-1)-core subgraphs into previously found clusters; and finally obtain the desired clusters of the large input network. To evaluate the performance of the proposed graph clustering algorithm KCoreMotif, we use both the conventional and the motif-based spectral clustering algorithms as the baselines and compare our algorithm with them for 18 groups of real-world datasets. Comparative results demonstrate that the proposed graph clustering algorithm is accurate yet efficient for large networks, which also means that it can be further used to evaluate the intra-cluster and inter-cluster trusts on large networks.
翻訳日:2022-10-26 21:29:29 公開日:2020-08-21
# 皮膚画像を用いた皮膚病変の分類法

Method to Classify Skin Lesions using Dermoscopic images ( http://arxiv.org/abs/2008.09418v1 )

ライセンス: Link先を確認
Hemanth Nadipineni(参考訳) 皮膚がんは、既存の世界のがんの3分の1を構成する最も一般的ながんである。 良性皮膚がんは致命的ではなく、適切な薬で治すことができる。 しかし、それは悪性皮膚がんと同じではない。 悪性黒色腫の場合、その最盛期には、最大寿命は5年以下である。 しかし、早期に検出すれば治すことができる。 多くの臨床試験があるが、診断の精度は49%から81%に低下し、時間がかかる。 そこでdermoscopyが写真に登場しました。 診断精度を高めるのに役立ったが、エラーを起こしやすい行動は取り除けなかった。 主に増殖する皮膚がんの診断には、迅速かつエラーの少ない解決策が必要である。 本研究は,皮膚病変分類における深層学習の活用を扱う。 そこで本研究では,CNN(Convolution Neural Networks)をトレーニングモデルとして,皮膚画像を用いた皮膚病変の自動分類モデルを開発した。 畳み込みニューラルネットワークは、画像の特徴を捉えることで知られている。 したがって、モデルを成功に導く特徴を見つけるためには、医療画像を分析することが望ましい。 クラス不均衡に対処するためのデータ強化、関心領域にフォーカスするセグメンテーション、モデルを堅牢にするための10倍のクロスバリデーションといった技術が注目されている。 このプロジェクトには、ピースワイド線形変換関数を使用した画像の輝度化、画像のグレースケール変換、画像のサイズ変更など、特定の前処理技術の使用も含まれている。 このプロジェクトでは、モデルの精度が向上し、新しい入力戦略や前処理技術がもたらされる方法について、貴重な洞察が集まります。 このモデルの最良の精度は0.886である。

Skin cancer is the most common cancer in the existing world constituting one-third of the cancer cases. Benign skin cancers are not fatal, can be cured with proper medication. But it is not the same as the malignant skin cancers. In the case of malignant melanoma, in its peak stage, the maximum life expectancy is less than or equal to 5 years. But, it can be cured if detected in early stages. Though there are numerous clinical procedures, the accuracy of diagnosis falls between 49% to 81% and is time-consuming. So, dermoscopy has been brought into the picture. It helped in increasing the accuracy of diagnosis but could not demolish the error-prone behaviour. A quick and less error-prone solution is needed to diagnose this majorly growing skin cancer. This project deals with the usage of deep learning in skin lesion classification. In this project, an automated model for skin lesion classification using dermoscopic images has been developed with CNN(Convolution Neural Networks) as a training model. Convolution neural networks are known for capturing features of an image. So, they are preferred in analyzing medical images to find the characteristics that drive the model towards success. Techniques like data augmentation for tackling class imbalance, segmentation for focusing on the region of interest and 10-fold cross-validation to make the model robust have been brought into the picture. This project also includes usage of certain preprocessing techniques like brightening the images using piece-wise linear transformation function, grayscale conversion of the image, resize the image. This project throws a set of valuable insights on how the accuracy of the model hikes with the bringing of new input strategies, preprocessing techniques. The best accuracy this model could achieve is 0.886
翻訳日:2022-10-26 21:28:30 公開日:2020-08-21
# deeplandscape:ランドスケープビデオの敵対的モデリング

DeepLandscape: Adversarial Modeling of Landscape Video ( http://arxiv.org/abs/2008.09655v1 )

ライセンス: Link先を確認
Elizaveta Logacheva, Roman Suvorov, Oleg Khomenko, Anton Mashikhin and Victor Lempitsky(参考訳) ランドスケープ・ビデオの新しいモデルを構築し、静的なランドスケープ・イメージとランドスケープ・アニメーションを混合してトレーニングすることができる。 我々のアーキテクチャはStyleGANモデルを拡張し、シーン内の動的変化をモデル化できるパーツを追加します。 トレーニングが終わると、私たちのモデルは、動く物体と日々の変化を伴って、リアルなタイムラプスな風景ビデオを生成するために使用できます。 さらに、学習したモデルを静的な風景画像に合わせることで、後者を現実的な方法で再現することができる。 ドメイン内潜在コードにつながり,実画像の操作を可能にする,スタイルガン逆変換手順の単純かつ必要な修正を提案する。 定量的比較とユーザ研究により,本モデルが提案手法よりも魅力的なアニメーションを生成することが示唆された。 先行技術との比較を含むアプローチの結果は補足資料やプロジェクトページ https://saic-mdal.github.io/deep-landscape で見ることができる。

We build a new model of landscape videos that can be trained on a mixture of static landscape images as well as landscape animations. Our architecture extends StyleGAN model by augmenting it with parts that allow to model dynamic changes in a scene. Once trained, our model can be used to generate realistic time-lapse landscape videos with moving objects and time-of-the-day changes. Furthermore, by fitting the learned models to a static landscape image, the latter can be reenacted in a realistic way. We propose simple but necessary modifications to StyleGAN inversion procedure, which lead to in-domain latent codes and allow to manipulate real images. Quantitative comparisons and user studies suggest that our model produces more compelling animations of given photographs than previously proposed methods. The results of our approach including comparisons with prior art can be seen in supplementary materials and on the project page https://saic-mdal.github.io/deep-landscape
翻訳日:2022-10-26 21:28:08 公開日:2020-08-21
# 胸部CTにおけるMask RCNNのResNetバックボーンとCOVID-19の徴候の比較解析

Comparative performance analysis of the ResNet backbones of Mask RCNN to segment the signs of COVID-19 in chest CT scans ( http://arxiv.org/abs/2008.09713v1 )

ライセンス: Link先を確認
Muhammad Aleem, Rahul Raj and Arshad Khan(参考訳) 新型コロナウイルス(covid-19)は、世界中で死亡者数と重篤な患者数の増加という点で有害だ。 undp(united national development program)の社会経済計画(society- economic program)によると、新型コロナウイルス(covid-19)のパンデミックは健康危機をはるかに超えている。 画像認識と分類のための畳み込みニューラルネットワーク(cnn)を用いた新型コロナウイルス(covid-19)診断の一環として,近年,胸部x線画像診断技術の進歩が進んでいる。 しかし,監視ラベル画像データの限界を考えると,医療診断の分類と予測リスクモデリングは損なわれる傾向にある。 本稿では,Deep Neural Networks を用いた肺のX線CT(Chest Computed Tomography)スキャンによるヒト肺に対するCOVID-19の影響の同定とモニタリングを目的とする。 われわれはresnet50とresnet101をバックボーンとしてマスクrcnnを採用し、新型コロナウイルスの影響を受けた地域を分割した。 症状が現れるヒト肺の領域を用いて、このモデルでは患者の状態を「mild」または「alarming」に分類する。 さらに、モデルはGoogle Cloud Platform(GCP)にデプロイされ、パフォーマンス評価と精度の向上のために、モデルのオンライン使用をシミュレートする。 ResNet101のバックボーンモデルでは、F1スコアは0.85で、予測スコアは平均9.04秒である。

COVID-19 has been detrimental in terms of the number of fatalities and rising number of critical patients across the world. According to the UNDP (United National Development Programme) Socio-Economic programme, aimed at the COVID-19 crisis, the pandemic is far more than a health crisis: it is affecting societies and economies at their core. There has been greater developments recently in the chest X-ray-based imaging technique as part of the COVID-19 diagnosis especially using Convolution Neural Networks (CNN) for recognising and classifying images. However, given the limitation of supervised labelled imaging data, the classification and predictive risk modelling of medical diagnosis tend to compromise. This paper aims to identify and monitor the effects of COVID-19 on the human lungs by employing Deep Neural Networks on axial CT (Chest Computed Tomography) scan of lungs. We have adopted Mask RCNN, with ResNet50 and ResNet101 as its backbone, to segment the regions, affected by COVID-19 coronavirus. Using the regions of human lungs, where symptoms have manifested, the model classifies condition of the patient as either "Mild" or "Alarming". Moreover, the model is deployed on the Google Cloud Platform (GCP) to simulate the online usage of the model for performance evaluation and accuracy improvement. The ResNet101 backbone model produces an F1 score of 0.85 and faster prediction scores with an average time of 9.04 seconds per inference.
翻訳日:2022-10-26 21:27:50 公開日:2020-08-21
# Bitcoin価格予測のためのブロックチェーントランザクショングラフに基づく機械学習手法

A Blockchain Transaction Graph based Machine Learning Method for Bitcoin Price Prediction ( http://arxiv.org/abs/2008.09667v1 )

ライセンス: Link先を確認
Xiao Li and Weili Wu(参考訳) Bitcoinは最も人気のある暗号通貨の一つだが、最近投資家の注目を集めている。 bitcoinの価格予測タスクは、価値ある洞察と提案を提供するための学術的なトピックの増加をもたらしている。 既存のbitcoinの予測は主に、Bticoin Blockchainの情報、金融、ソーシャルメディアの感情など、さまざまな分野の機能や要素を手動で設計する、簡単な機能エンジニアリングに基づいている。 機能エンジニアリングは多くの人的努力を必要とするだけでなく、直感的に設計された機能の有効性を保証できない。 本稿では,bitcoinトランザクションに符号化された豊富なパターンをマイニングし,異なる範囲のパターンを明らかにするためにkオーダートランザクショングラフを提案する。 パターンを自動的にエンコードするトランザクショングラフベースの機能を提案する。 特徴を受け入れて価格予測を行う新しい予測手法を提案し, 異なる歴史時代の特定のパターンを生かした価格予測手法を提案する。 比較実験の結果,提案手法が最新の最先端手法よりも優れていることがわかった。

Bitcoin, as one of the most popular cryptocurrency, is recently attracting much attention of investors. Bitcoin price prediction task is consequently a rising academic topic for providing valuable insights and suggestions. Existing bitcoin prediction works mostly base on trivial feature engineering, that manually designs features or factors from multiple areas, including Bticoin Blockchain information, finance and social media sentiments. The feature engineering not only requires much human effort, but the effectiveness of the intuitively designed features can not be guaranteed. In this paper, we aim to mining the abundant patterns encoded in bitcoin transactions, and propose k-order transaction graph to reveal patterns under different scope. We propose the transaction graph based feature to automatically encode the patterns. A novel prediction method is proposed to accept the features and make price prediction, which can take advantage from particular patterns from different history period. The results of comparison experiments demonstrate that the proposed method outperforms the most recent state-of-art methods.
翻訳日:2022-10-26 21:27:26 公開日:2020-08-21
# $\ell_0$ 最小化による高次元ロバスト平均推定

Robust Mean Estimation in High Dimensions via $\ell_0$ Minimization ( http://arxiv.org/abs/2008.09239v1 )

ライセンス: Link先を確認
Jing Liu, Aditya Deshmukh, Venugopal V. Veeravalli(参考訳) 高次元におけるロバスト平均推定問題について検討し、データポイントの$\alpha <0.5$分を任意に破壊することができる。 圧縮センシングによって動機づけられたロバスト平均推定問題を、外れ値インジケータベクトルの$\ell_0$-`norm' の最小化として、外れ値データ点に対する第2モーメント制約下で定式化する。 我々は,この目標の最小値がロバスト平均推定問題に対して最適であることを示すとともに,目標を最小化する汎用フレームワークを提案する。 さらに、$\ell_1$および$\ell_p$$(0<p<1)$, 圧縮センシングにおける最小化技術を活用して、$\ell_0$最小化問題に対する計算処理可能な解を提供する。 合成データ実験と実データ実験の両方で、提案アルゴリズムは最先端のロバストな平均推定法を大幅に上回ることを示した。

We study the robust mean estimation problem in high dimensions, where $\alpha <0.5$ fraction of the data points can be arbitrarily corrupted. Motivated by compressive sensing, we formulate the robust mean estimation problem as the minimization of the $\ell_0$-`norm' of the outlier indicator vector, under second moment constraints on the inlier data points. We prove that the global minimum of this objective is order optimal for the robust mean estimation problem, and we propose a general framework for minimizing the objective. We further leverage the $\ell_1$ and $\ell_p$ $(0<p<1)$, minimization techniques in compressive sensing to provide computationally tractable solutions to the $\ell_0$ minimization problem. Both synthetic and real data experiments demonstrate that the proposed algorithms significantly outperform state-of-the-art robust mean estimation methods.
翻訳日:2022-10-26 21:27:10 公開日:2020-08-21
# 多レベルジオコーディングによる空間言語表現

Spatial Language Representation with Multi-Level Geocoding ( http://arxiv.org/abs/2008.09236v1 )

ライセンス: Link先を確認
Sayali Kulkarni, Shailee Jain, Mohammad Javad Hosseini, Jason Baldridge, Eugene Ie, Li Zhang(参考訳) 本稿では,テキストを地理的位置と関連付ける学習を行うマルチレベルジオコーディングモデル(mlg)を提案する。 地球の表面は、同じ大きさの非重なり合う細胞の階層に球を分解する空間充填曲線を用いて表される。 MLGは、複数のレベルの損失と各レベルの細胞を同時に予測することで、一般化と精度のバランスをとる。 MLGは、データセット固有のチューニングを一切使わずに、3つの英語データセットのトポノニム分解能の最先端結果が得られることを示す。 さらに、知識ベースメタデータなしで大きな利益を得ることができ、テキストスパンと座標間の接続を効果的に学習できることを証明し、知識ベースに存在しない頭字語に拡張することができる。

We present a multi-level geocoding model (MLG) that learns to associate texts to geographic locations. The Earth's surface is represented using space-filling curves that decompose the sphere into a hierarchy of similarly sized, non-overlapping cells. MLG balances generalization and accuracy by combining losses across multiple levels and predicting cells at each level simultaneously. Without using any dataset-specific tuning, we show that MLG obtains state-of-the-art results for toponym resolution on three English datasets. Furthermore, it obtains large gains without any knowledge base metadata, demonstrating that it can effectively learn the connection between text spans and coordinates - and thus can be extended to toponymns not present in knowledge bases.
翻訳日:2022-10-26 21:26:49 公開日:2020-08-21
# 遅延感応サービスシステムにおける強化学習に基づく入場制御

Reinforcement Learning-based Admission Control in Delay-sensitive Service Systems ( http://arxiv.org/abs/2008.09590v1 )

ライセンス: Link先を確認
Majid Raeis, Ali Tizghadam and Alberto Leon-Garcia(参考訳) サービスシステムの品質保証(QoS)を保証することは、特にサービスがサービス機能チェーンのようなよりきめ細かいサービスで構成されている場合、難しい作業です。 サービスシステムにおける重要なQoSメトリクスはエンドツーエンドの遅延であり、遅延に敏感なアプリケーションではさらに重要になる。 承認制御はエンドツーエンドの遅延保証を提供する方法の1つであり、期限に間に合う確率が高い場合に限り、コントローラがジョブを受理する。 本稿では,サービスシステムのエンド・ツー・エンド遅延の確率的上限を保証しつつ,不要な拒否の可能性を最小限に抑えながら,強化学習に基づく入場制御を提案する。 コントローラは,ネットワークのキュー長情報のみを使用し,ネットワークトポロジやシステムパラメータに関する知識を必要としない。 長期パフォーマンス指標はサービスシステムにおいて非常に重要であるため、無限の地平線問題によく適合する平均逆強化学習アプローチを採用する。 提案したRLベースの入出力制御器は,システムモデル情報を用いることなく,ネットワークの終端遅延に対する確率的境界を提供することができることを確認した。

Ensuring quality of service (QoS) guarantees in service systems is a challenging task, particularly when the system is composed of more fine-grained services, such as service function chains. An important QoS metric in service systems is the end-to-end delay, which becomes even more important in delay-sensitive applications, where the jobs must be completed within a time deadline. Admission control is one way of providing end-to-end delay guarantee, where the controller accepts a job only if it has a high probability of meeting the deadline. In this paper, we propose a reinforcement learning-based admission controller that guarantees a probabilistic upper-bound on the end-to-end delay of the service system, while minimizes the probability of unnecessary rejections. Our controller only uses the queue length information of the network and requires no knowledge about the network topology or system parameters. Since long-term performance metrics are of great importance in service systems, we take an average-reward reinforcement learning approach, which is well suited to infinite horizon problems. Our evaluations verify that the proposed RL-based admission controller is capable of providing probabilistic bounds on the end-to-end delay of the network, without using system model information.
翻訳日:2022-10-26 21:20:47 公開日:2020-08-21
# モデルチェックのための確率的プログラム変換

Transforming Probabilistic Programs for Model Checking ( http://arxiv.org/abs/2008.09680v1 )

ライセンス: Link先を確認
Ryan Bernstein, Matthijs V\'ak\'ar, Jeannette Wing(参考訳) 確率的プログラミングは信頼性と透過的なデータサイエンスに完全に適しており、ユーザーはモデルの適合性の複雑さを気にすることなく、高レベルの言語でモデルを指定できる。 確率的プログラムの静的解析は、時間消費とエラーが発生しやすいタスクを自動化することによって、高レベルのプログラミングスタイルを実現するさらなる機会を提供する。 確率的プログラムに静的解析を適用し,事前予測チェックとシミュレーションに基づくキャリブレーションという2つの重要なモデルチェック手法の大部分を自動化する。 本手法は,密度関数を指定する確率プログラムを効率的なフォワードサンプリング形式に変換する。 この変換を実現するために,静的解析を用いて確率論的プログラムから因子グラフを抽出し,satソルバを用いて有向非循環グラフの集合を生成し,適切なサンプリングコードを生成するグラフを選択し,1つ以上のサンプリングプログラムを生成する。 ユーザインタラクションの最小化により、静的解析だけで可能な範囲を超えて、アプリケーションの範囲を広げることができます。 我々は,人気のある stan probabilistic programming language をターゲットとした実装を提案し,確率的プログラミングユーザの幅広いコミュニティに対して,堅牢なベイズワークフローの大部分を自動化する。

Probabilistic programming is perfectly suited to reliable and transparent data science, as it allows the user to specify their models in a high-level language without worrying about the complexities of how to fit the models. Static analysis of probabilistic programs presents even further opportunities for enabling a high-level style of programming, by automating time-consuming and error-prone tasks. We apply static analysis to probabilistic programs to automate large parts of two crucial model checking methods: Prior Predictive Checks and Simulation-Based Calibration. Our method transforms a probabilistic program specifying a density function into an efficient forward-sampling form. To achieve this transformation, we extract a factor graph from a probabilistic program using static analysis, generate a set of proposal directed acyclic graphs using a SAT solver, select a graph which will produce provably correct sampling code, then generate one or more sampling programs. We allow minimal user interaction to broaden the scope of application beyond what is possible with static analysis alone. We present an implementation targeting the popular Stan probabilistic programming language, automating large parts of a robust Bayesian workflow for a wide community of probabilistic programming users.
翻訳日:2022-10-26 21:20:25 公開日:2020-08-21
# 社会ネットワーク分析における相同原理

The Homophily Principle in Social Network Analysis ( http://arxiv.org/abs/2008.10383v1 )

ライセンス: Link先を確認
Kazi Zainab Khanam, Gautam Srivastava, Vijay Mago(参考訳) 近年、ソーシャルメディアはソーシャルネットワークのユビキタスかつ不可欠な部分となっている。 社会研究者の主な関心の1つは、ホモフィリー(homophily)として知られる社会集団において、類似した考えを持つ人々が互いに交流する傾向があることである。 ホモフィリーの研究は、社会内の情報や行動の流れに関する優れた洞察を与え、オンラインコミュニティの形成を分析するのに非常に有用である。 本稿では,ソーシャルネットワークにおけるホモフィリーの効果をレビュー・調査し,複数種類のソーシャルネットワークにおいてホモフィリーの効果を識別・測定するために過去数年間提案されてきたアート手法の現状を要約し,今後の研究に向けたオープンチャレンジと方向性に関する批判的な議論をまとめる。

In recent years, social media has become a ubiquitous and integral part of social networking. One of the major attentions made by social researchers is the tendency of like-minded people to interact with one another in social groups, a concept which is known as Homophily. The study of homophily can provide eminent insights into the flow of information and behaviors within a society and this has been extremely useful in analyzing the formations of online communities. In this paper, we review and survey the effect of homophily in social networks and summarize the state of art methods that has been proposed in the past years to identify and measure the effect of homophily in multiple types of social networks and we conclude with a critical discussion of open challenges and directions for future research.
翻訳日:2022-10-26 21:20:04 公開日:2020-08-21
# a(dp)$^2$sgd: 微分プライバシーを持つ非同期分散並列確率勾配降下

A(DP)$^2$SGD: Asynchronous Decentralized Parallel Stochastic Gradient Descent with Differential Privacy ( http://arxiv.org/abs/2008.09246v1 )

ライセンス: Link先を確認
Jie Xu, Wei Zhang, Fei Wang(参考訳) ディープラーニングモデルは一般的に大規模で複雑であるため、トレーニング効率を高めるためには分散学習が不可欠である。 さらに、ヘルスケアのような現実世界のアプリケーションシナリオでは、分散学習はデータをローカルに保ち、プライバシを保護することもできる。 一般的な分散学習戦略はフェデレーション学習(federated learning)であり、グローバルモデルを格納する中央サーバと、モデルパラメータを対応するデータで更新するローカルコンピューティングノードのセットがある。 更新されたモデルパラメータは処理され、中央サーバに送信されるため、通信コストが高くなる。 近年、非同期分散学習が提案され、中央サーバがない場合、各計算ノードが隣人とのみ通信できるように、より効率的で実践的な戦略であることが実証されている。 異なるローカルノード間で生データは送信されないが、悪意のある参加者が攻撃を行うための通信プロセス中に情報漏洩のリスクがある。 本稿では,ADPSGDの通信効率を保ち,悪意のある参加者による推論を防止するために,非同期分散並列SGD(ADPSGD)フレームワークの差分プライベートバージョン(略してA(DP)$^2$SGD)を提案する。 特に、r{\'e}nyi微分プライバシは、コンバージェンスレートが非プライベートバージョンと一致する一方で、複合ガウス機構のより厳密なプライバシー分析を提供するために使われます。 理論的解析によると、A(DP)$^2$SGD は最適 $\mathcal{O}(1/\sqrt{T})$ で SGD として収束する。 経験的に、A(DP)$^2$SGDはSynchronous SGD(SSGD)の微分プライベートバージョンとして同等のモデル精度を達成するが、異種コンピューティング環境ではSSGDよりもはるかに高速に動作する。

As deep learning models are usually massive and complex, distributed learning is essential for increasing training efficiency. Moreover, in many real-world application scenarios like healthcare, distributed learning can also keep the data local and protect privacy. A popular distributed learning strategy is federated learning, where there is a central server storing the global model and a set of local computing nodes updating the model parameters with their corresponding data. The updated model parameters will be processed and transmitted to the central server, which leads to heavy communication costs. Recently, asynchronous decentralized distributed learning has been proposed and demonstrated to be a more efficient and practical strategy where there is no central server, so that each computing node only communicates with its neighbors. Although no raw data will be transmitted across different local nodes, there is still a risk of information leak during the communication process for malicious participants to make attacks. In this paper, we present a differentially private version of asynchronous decentralized parallel SGD (ADPSGD) framework, or A(DP)$^2$SGD for short, which maintains communication efficiency of ADPSGD and prevents the inference from malicious participants. Specifically, R{\'e}nyi differential privacy is used to provide tighter privacy analysis for our composite Gaussian mechanisms while the convergence rate is consistent with the non-private version. Theoretical analysis shows A(DP)$^2$SGD also converges at the optimal $\mathcal{O}(1/\sqrt{T})$ rate as SGD. Empirically, A(DP)$^2$SGD achieves comparable model accuracy as the differentially private version of Synchronous SGD (SSGD) but runs much faster than SSGD in heterogeneous computing environments.
翻訳日:2022-10-26 21:19:51 公開日:2020-08-21
# エッジネットワークにおけるコミュニケーション遅延を用いたフェデレーション学習

Federated Learning with Communication Delay in Edge Networks ( http://arxiv.org/abs/2008.09323v1 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Christopher G. Brinton, Nicol\`o Michelusi(参考訳) フェデレーション学習は、エッジネットワークを通じて機械学習(ML)モデルのトレーニングを分散する潜在的なソリューションとして、大きな注目を集めている。 本稿では,エッジノードとアグリゲータ間の通信遅延という,ネットワークエッジにおけるフェデレーション学習の重要な考察について述べる。 FedDelAvg(フェデレート遅延平均化)と呼ばれる手法が開発され、標準フェデレーション平均化アルゴリズムを一般化し、同期ステップ中に各デバイスで受信した現在のローカルモデルと遅延グローバルモデルとの重み付けを組み込む。 理論解析により,FedDelAvgが達成した大域的モデル損失に基づいて上界を導出し,重み付けと学習率の値に対する学習性能の強い依存性を明らかにする。 一般的なMLタスクの実験結果から,重み付け方式を最適化して遅延を考慮した場合の収束速度の大幅な改善が示唆された。

Federated learning has received significant attention as a potential solution for distributing machine learning (ML) model training through edge networks. This work addresses an important consideration of federated learning at the network edge: communication delays between the edge nodes and the aggregator. A technique called FedDelAvg (federated delayed averaging) is developed, which generalizes the standard federated averaging algorithm to incorporate a weighting between the current local model and the delayed global model received at each device during the synchronization step. Through theoretical analysis, an upper bound is derived on the global model loss achieved by FedDelAvg, which reveals a strong dependency of learning performance on the values of the weighting and learning rate. Experimental results on a popular ML task indicate significant improvements in terms of convergence speed when optimizing the weighting scheme to account for delays.
翻訳日:2022-10-26 21:19:19 公開日:2020-08-21
# 非構造ログにおける自己検出型分類に基づく異常検出

Self-Attentive Classification-Based Anomaly Detection in Unstructured Logs ( http://arxiv.org/abs/2008.09340v1 )

ライセンス: Link先を確認
Sasho Nedelkoski, Jasmin Bogatinovski, Alexander Acker, Jorge Cardoso, Odej Kao(参考訳) 異常の検出は、コンピュータシステムのセキュリティと信頼性のための重要なマイニングタスクである。 ログは、ほぼすべてのコンピュータシステムにおいて、異常検出方法の共通かつ主要なデータソースである。 ランタイムシステムのステータスを記述する重要なイベントを収集する。 近年の研究では,事前定義された非学習的数値ログ表現における一級ディープラーニング手法を中心に研究が進められている。 主な制限は、これらのモデルが正常なログと異常なログのセマンティックな違いを記述するログ表現を学習できないことである。 本稿では,通常のデータと関心のシステムと,補助ログデータセットから異常サンプルを区別するために,インターネット経由で容易にアクセス可能なログ表現を分類するlogsyを提案する。 このような異常検出に対するアプローチの背景にある考え方は、補助データセットが通常のデータの表現を強化するのに十分な情報であり、過度な適合や一般化の改善に対して規則化するには多様である。 新たな超球面損失関数を持つ注目型エンコーダモデルを提案する。 これにより、正規ログと異常ログの固有の違いをキャプチャする、コンパクトなログ表現の学習が可能になる。 実験により,F1スコアの平均改善率は0.25であることがわかった。 logyの特性を調べるために,補助データサイズの影響,専門家の知識の影響,学習したログ表現の品質評価などの追加実験を行った。 その結果、学習した表現はPCAなどの従来の手法の性能を28.2%向上させることができた。

The detection of anomalies is essential mining task for the security and reliability in computer systems. Logs are a common and major data source for anomaly detection methods in almost every computer system. They collect a range of significant events describing the runtime system status. Recent studies have focused predominantly on one-class deep learning methods on predefined non-learnable numerical log representations. The main limitation is that these models are not able to learn log representations describing the semantic differences between normal and anomaly logs, leading to a poor generalization of unseen logs. We propose Logsy, a classification-based method to learn log representations in a way to distinguish between normal data from the system of interest and anomaly samples from auxiliary log datasets, easily accessible via the internet. The idea behind such an approach to anomaly detection is that the auxiliary dataset is sufficiently informative to enhance the representation of the normal data, yet diverse to regularize against overfitting and improve generalization. We propose an attention-based encoder model with a new hyperspherical loss function. This enables learning compact log representations capturing the intrinsic differences between normal and anomaly logs. Empirically, we show an average improvement of 0.25 in the F1 score, compared to the previous methods. To investigate the properties of Logsy, we perform additional experiments including evaluation of the effect of the auxiliary data size, the influence of expert knowledge, and the quality of the learned log representations. The results show that the learned representation boost the performance of the previous methods such as PCA with a relative improvement of 28.2%.
翻訳日:2022-10-26 21:19:04 公開日:2020-08-21
# RespVAD:ビデオ抽出呼吸パターンによる音声活動検出

RespVAD: Voice Activity Detection via Video-Extracted Respiration Patterns ( http://arxiv.org/abs/2008.09466v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Prathosh A.P(参考訳) 音声活動検出(Voice Activity Detection, VAD)とは、音声やビデオなどのデジタル信号における人間の音声の領域を識別するタスクである。 vadは、多くの音声処理システムにおいて必要な第1ステップであるが、音声記録中に高レベルの環境ノイズが発生すると、問題となる。 このような状況下でのVADの性能を向上させるため,話者のビデオ記録の口/唇領域周辺の領域から抽出した視覚情報を活用する手法が提案されている。 これらは音声のみの方法よりも優れているが、口唇領域の忠実な抽出に依存している。 これらに動機づけられたvadの新しいパラダイムは、呼吸が音声生成の主要なエネルギー源であるという事実に基づくものである。 具体的には,話者のビデオから抽出した呼吸パターンを用いた音声非依存のVAD手法を開発した。 呼吸パターンは、まず、光学的フローベース手法を用いて、話者の腹部胸部領域に焦点を当てたビデオから抽出される。 その後、ニューラルシーケンス対シーケンス予測モデルを用いて呼吸パターン信号から音声活動を検出する。 提案手法の有効性は,実音響環境に記録された挑戦的データセットを用いて実験を行い,従来の4つの手法と比較した。

Voice Activity Detection (VAD) refers to the task of identification of regions of human speech in digital signals such as audio and video. While VAD is a necessary first step in many speech processing systems, it poses challenges when there are high levels of ambient noise during the audio recording. To improve the performance of VAD in such conditions, several methods utilizing the visual information extracted from the region surrounding the mouth/lip region of the speakers' video recording have been proposed. Even though these provide advantages over audio-only methods, they depend on faithful extraction of lip/mouth regions. Motivated by these, a new paradigm for VAD based on the fact that respiration forms the primary source of energy for speech production is proposed. Specifically, an audio-independent VAD technique using the respiration pattern extracted from the speakers' video is developed. The Respiration Pattern is first extracted from the video focusing on the abdominal-thoracic region of a speaker using an optical flow based method. Subsequently, voice activity is detected from the respiration pattern signal using neural sequence-to-sequence prediction models. The efficacy of the proposed method is demonstrated through experiments on a challenging dataset recorded in real acoustic environments and compared with four previous methods based on audio and visual cues.
翻訳日:2022-10-26 21:18:41 公開日:2020-08-21
# ランダム検索による逆模倣学習

Adversarial Imitation Learning via Random Search ( http://arxiv.org/abs/2008.09450v1 )

ライセンス: Link先を確認
MyungJae Shin, Joongheon Kim(参考訳) 複雑なタスクに挑戦できるエージェントの開発は、強化学習の目標である。 モデルフリーの強化学習は実現可能な解決策と見なされてきた。 しかし、芸術研究の状況はますます複雑な技術を開発することになっていた。 この複雑さが増し、再建が困難になる。 さらに、報酬依存の問題も存在する。 その結果,専門家の実証から政策を学ぶ模倣学習の研究が注目されるようになった。 イミテーション学習は、環境が提供した明確な報酬信号なしで専門家の行動に関するデータに基づいてポリシーを直接学習する。 しかし、模倣学習は信頼地域政策最適化のような深い強化学習に基づいてポリシーを最適化しようとする。 その結果、深い強化学習に基づく模倣学習もまた再現性の危機を引き起こす。 複雑なモデルフリーモデルの問題に大きな注目を集めている。 微分自由最適化に基づく強化学習とポリシーの単純化により、動的複雑タスクにおける競合性能が得られる。 単純化されたポリシーと微分自由法はアルゴリズムをシンプルにする。 リサーチデモの再構成は簡単になります。 本稿では,単純な線形ポリシーを用いた微分自由最適化を利用した模倣学習手法を提案する。 提案手法はポリシーのパラメータ空間において単純なランダム探索を行い,計算効率を示す。 本稿では,環境からの直接的な報奨信号を持たないモデルを用いて,MuJoCoの移動タスクにおいて,競合性能が得られることを示す。

Developing agents that can perform challenging complex tasks is the goal of reinforcement learning. The model-free reinforcement learning has been considered as a feasible solution. However, the state of the art research has been to develop increasingly complicated techniques. This increasing complexity makes the reconstruction difficult. Furthermore, the problem of reward dependency is still exists. As a result, research on imitation learning, which learns policy from a demonstration of experts, has begun to attract attention. Imitation learning directly learns policy based on data on the behavior of the experts without the explicit reward signal provided by the environment. However, imitation learning tries to optimize policies based on deep reinforcement learning such as trust region policy optimization. As a result, deep reinforcement learning based imitation learning also poses a crisis of reproducibility. The issue of complex model-free model has received considerable critical attention. A derivative-free optimization based reinforcement learning and the simplification on policies obtain competitive performance on the dynamic complex tasks. The simplified policies and derivative free methods make algorithm be simple. The reconfiguration of research demo becomes easy. In this paper, we propose an imitation learning method that takes advantage of the derivative-free optimization with simple linear policies. The proposed method performs simple random search in the parameter space of policies and shows computational efficiency. Experiments in this paper show that the proposed model, without a direct reward signal from the environment, obtains competitive performance on the MuJoCo locomotion tasks.
翻訳日:2022-10-26 21:11:52 公開日:2020-08-21
# トポロジカルグラディエントに基づく競合学習

Topological Gradient-based Competitive Learning ( http://arxiv.org/abs/2008.09477v1 )

ライセンス: Link先を確認
Pietro Barbiero, Gabriele Ciravegna, Vincenzo Randazzo, Giansalvo Cirrincione(参考訳) 位相学習は、集合の要素間の相互空間的関係を明らかにすることを目的とした広い研究領域である。 最も一般的で最も古いアプローチには、教師なしの競合ニューラルネットワークの使用が含まれる。 しかし、これらの手法は、教師なし学習においても特徴抽出において顕著な結果をもたらすことが証明された勾配最適化に基づくものではない。 残念ながら、アルゴリズムの効率と正確性に重点を置くことで、深層クラスタリング技術は、上位層で自明なアルゴリズムを使用しながら、非常に複雑な特徴抽出器で構成されている。 本研究の目的は,競争学習を勾配学習にブリッジすることを目的とした,新たな総合的理論を提供することである。これにより,特徴抽出と投射に極めて強力な深層ニューラルネットワークを使用することと,競争学習の顕著な柔軟性と表現力とを両立させることである。 本稿では,2つの新しい勾配型競合層の理論的等価性を十分に示す。 予備的な実験は、入力行列の変換に基づいて訓練された双対アプローチが、低次元と高次元の両方のシナリオにおいて、より高速な収束率とより高いトレーニング精度をもたらすことを示す。

Topological learning is a wide research area aiming at uncovering the mutual spatial relationships between the elements of a set. Some of the most common and oldest approaches involve the use of unsupervised competitive neural networks. However, these methods are not based on gradient optimization which has been proven to provide striking results in feature extraction also in unsupervised learning. Unfortunately, by focusing mostly on algorithmic efficiency and accuracy, deep clustering techniques are composed of overly complex feature extractors, while using trivial algorithms in their top layer. The aim of this work is to present a novel comprehensive theory aspiring at bridging competitive learning with gradient-based learning, thus allowing the use of extremely powerful deep neural networks for feature extraction and projection combined with the remarkable flexibility and expressiveness of competitive learning. In this paper we fully demonstrate the theoretical equivalence of two novel gradient-based competitive layers. Preliminary experiments show how the dual approach, trained on the transpose of the input matrix i.e. $X^T$, lead to faster convergence rate and higher training accuracy both in low and high-dimensional scenarios.
翻訳日:2022-10-26 21:11:36 公開日:2020-08-21
# 個人とグループフェアネスを超えて

Beyond Individual and Group Fairness ( http://arxiv.org/abs/2008.09490v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Corinna Cortes, Yishay Mansour, Mehryar Mohri(参考訳) 本稿では,公平性に関する既存の静的定義とは異なり,システムから受信された不公平性に導かれる新しいデータ駆動型公平性モデルを提案する。 我々のモデルは、複数のフェアネス基準をサポートし、それらの潜在的な非互換性を考慮している。 我々はこのモデルの確率的設定と敵対的設定の両方を考える。 確率的な設定では、我々のフレームワークは統計的損失を伴うマルコフ決定プロセスとして自然にキャストされ、効率的な消滅する後悔のアルゴリズム的解を与えることができる。 逆条件下では、競合比が保証される効率的なアルゴリズムを設計する。 また,我々のアルゴリズムと人工データセットの確率的フレームワークを用いた実験結果を報告し,その効果を実証的に示す。

We present a new data-driven model of fairness that, unlike existing static definitions of individual or group fairness is guided by the unfairness complaints received by the system. Our model supports multiple fairness criteria and takes into account their potential incompatibilities. We consider both a stochastic and an adversarial setting of our model. In the stochastic setting, we show that our framework can be naturally cast as a Markov Decision Process with stochastic losses, for which we give efficient vanishing regret algorithmic solutions. In the adversarial setting, we design efficient algorithms with competitive ratio guarantees. We also report the results of experiments with our algorithms and the stochastic framework on artificial datasets, to demonstrate their effectiveness empirically.
翻訳日:2022-10-26 21:11:01 公開日:2020-08-21
# ランダム投影による高次元小データセットのクラスタリング

Clustering small datasets in high-dimension by random projection ( http://arxiv.org/abs/2008.09579v1 )

ライセンス: Link先を確認
Alden Bradford, Tarun Yellamraju, and Mireille Boutin(参考訳) 高次元のデータセットは、通常、元の空間でクラスタを形成しない。 統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。 この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。 非線型分離は、特徴空間を原特徴の高次単体を用いて拡張することによって得られる。 得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証し,高次元における統計的検証の課題を回避した。 ランダム線を投影することは、高次元データの階層的クラスタリング手法の一部としてこれまで成功してきた極端次元削減手法である。 この単純化されたフレームワークでは,データセットに応じて,100~200ポイント程度の統計的に重要なクラスタリング構造が発見できることがわかった。 発見された異なる構造は、より多くのポイントがデータセットに追加されるにつれて持続する。

Datasets in high-dimension do not typically form clusters in their original space; the issue is worse when the number of points in the dataset is small. We propose a low-computation method to find statistically significant clustering structures in a small dataset. The method proceeds by projecting the data on a random line and seeking binary clusterings in the resulting one-dimensional data. Non-linear separations are obtained by extending the feature space using monomials of higher degrees in the original features. The statistical validity of the clustering structures obtained is tested in the projected one-dimensional space, thus bypassing the challenge of statistical validation in high-dimension. Projecting on a random line is an extreme dimension reduction technique that has previously been used successfully as part of a hierarchical clustering method for high-dimensional data. Our experiments show that with this simplified framework, statistically significant clustering structures can be found with as few as 100-200 points, depending on the dataset. The different structures uncovered are found to persist as more points are added to the dataset.
翻訳日:2022-10-26 21:10:26 公開日:2020-08-21
# 自然勾配降下を伴うグラフニューラルネットワークの最適化

Optimization of Graph Neural Networks with Natural Gradient Descent ( http://arxiv.org/abs/2008.09624v1 )

ライセンス: Link先を確認
Mohammad Rasool Izadi, Yihao Fang, Robert Stevenson, Lizhen Lin(参考訳) 本研究では,グラフ畳み込みネットワークなどのグラフニューラルネットワークアーキテクチャを最適化するための情報幾何学ツールを提案する。 具体的には、グラフに基づく半教師付き学習のための最適化アルゴリズムを、最適化プロセスにおける自然な勾配情報を用いて開発する。 これにより、基礎となる統計モデルやパラメータ空間の幾何を最適化や推論のために効率的に活用することができる。 我々の知る限りでは、これは他の半教師付き問題に拡張可能なグラフニューラルネットワークの最適化に自然勾配を利用した最初の研究である。 効率的な計算アルゴリズムを開発し,ADAMやSGDといった既存アルゴリズムよりもアルゴリズムの性能が優れていることを示す。

In this work, we propose to employ information-geometric tools to optimize a graph neural network architecture such as the graph convolutional networks. More specifically, we develop optimization algorithms for the graph-based semi-supervised learning by employing the natural gradient information in the optimization process. This allows us to efficiently exploit the geometry of the underlying statistical model or parameter space for optimization and inference. To the best of our knowledge, this is the first work that has utilized the natural gradient for the optimization of graph neural networks that can be extended to other semi-supervised problems. Efficient computations algorithms are developed and extensive numerical studies are conducted to demonstrate the superior performance of our algorithms over existing algorithms such as ADAM and SGD.
翻訳日:2022-10-26 21:10:08 公開日:2020-08-21
# 暗黙的背景モデルのロバスト性と過度適合挙動

Robustness and Overfitting Behavior of Implicit Background Models ( http://arxiv.org/abs/2008.09306v1 )

ライセンス: Link先を確認
Shirley Liu, Charles Lehman and Ghassan AlRegib(参考訳) 本稿では,暗黙的背景推定(scribe)によって修正された画像分類モデルの過適合挙動を,性能に影響を与えずに空間領域の可視化を提供する弱教師付きセグメントモデルに変換する。 セグメンテーションマスクを用いて、テストラベルを必要としないオーバーフィット検出基準を導出する。 さらに,データ拡張によるモデル性能,キャリブレーション,セグメンテーションマスクの変化を,様々な歪み画像に対する過度な縮小対策やテストとして評価した。

In this paper, we examine the overfitting behavior of image classification models modified with Implicit Background Estimation (SCrIBE), which transforms them into weakly supervised segmentation models that provide spatial domain visualizations without affecting performance. Using the segmentation masks, we derive an overfit detection criterion that does not require testing labels. In addition, we assess the change in model performance, calibration, and segmentation masks after applying data augmentations as overfitting reduction measures and testing on various types of distorted images.
翻訳日:2022-10-26 21:09:44 公開日:2020-08-21
# 混合コホート設定における深い残留ネットワークを用いた睡眠ステージの自動分類

Automatic sleep stage classification with deep residual networks in a mixed-cohort setting ( http://arxiv.org/abs/2008.09416v1 )

ライセンス: Link先を確認
Alexander Neergaard Olesen, Poul Jennum, Emmanuel Mignot, Helge B D Sorensen(参考訳) 研究目的:睡眠ステージスコアリングは、睡眠専門家によって手作業で行われ、スコアリングルールの主観的解釈と、低い内的・間的信頼性が引き起こされる。 多くの自動システムはモデル開発に少数の小規模データベースに依存しており、新しいデータセットへの一般化性は未知である。 大規模コホートの一般化性を評価するために,新しい深層ニューラルネットワークを検討した。 方法: 5つのコホートから15684個のポリソムノグラフィを用いて深層ニューラルネットワークモデルを開発した。 4つのシナリオを適用しました 1) モデルにおける様々な時間スケールの影響 2) 1つのコホートにおける他のコホートのパフォーマンスと比較して,より小さく,大きい,または等の大きさのコホートに対する1つのコホートのパフォーマンス 3)シングルオリジンデータと比較すると、混合コホート訓練データの割合が変わる。 4)2,3,4コホートのデータの組み合わせで訓練したモデルを比較した。 結果: 総合的な分類精度は、トレーニングデータの割合の増大(0.25$\%$: 0.782$\pm$ 0.097, 95$\%$ CI [0.777-0.787]; 100$\%$: 0.869$\pm$ 0.064, 95$\%$ CI [0.864-0.872])と、データソースの増加(2: 0.788$\pm$ 0.102, 95$\%$ CI [0.787-0.790]; 3: 0.8$\pm$ 0.092, 95$\%$ CI [0.807-0.810]; 4: 0.821$\pm$ 0.092, 95$\%$ CI [0.807-0.823])によって改善された。 異なるコホートは他のコホートに対して様々なレベルの一般化を示す。 結論: ディープラーニングアルゴリズムに基づく自動睡眠ステージスコアリングシステムは、適切な一般化を確保するために利用可能な多くのソースからできる限り多くのデータを考慮すべきである。 ベンチマークのための公開データセットは、将来の研究のために提供する必要がある。

Study Objectives: Sleep stage scoring is performed manually by sleep experts and is prone to subjective interpretation of scoring rules with low intra- and interscorer reliability. Many automatic systems rely on few small-scale databases for developing models, and generalizability to new datasets is thus unknown. We investigated a novel deep neural network to assess the generalizability of several large-scale cohorts. Methods: A deep neural network model was developed using 15684 polysomnography studies from five different cohorts. We applied four different scenarios: 1) impact of varying time-scales in the model; 2) performance of a single cohort on other cohorts of smaller, greater or equal size relative to the performance of other cohorts on a single cohort; 3) varying the fraction of mixed-cohort training data compared to using single-origin data; and 4) comparing models trained on combinations of data from 2, 3, and 4 cohorts. Results: Overall classification accuracy improved with increasing fractions of training data (0.25$\%$: 0.782 $\pm$ 0.097, 95$\%$ CI [0.777-0.787]; 100$\%$: 0.869 $\pm$ 0.064, 95$\%$ CI [0.864-0.872]), and with increasing number of data sources (2: 0.788 $\pm$ 0.102, 95$\%$ CI [0.787-0.790]; 3: 0.808 $\pm$ 0.092, 95$\%$ CI [0.807-0.810]; 4: 0.821 $\pm$ 0.085, 95$\%$ CI [0.819-0.823]). Different cohorts show varying levels of generalization to other cohorts. Conclusions: Automatic sleep stage scoring systems based on deep learning algorithms should consider as much data as possible from as many sources available to ensure proper generalization. Public datasets for benchmarking should be made available for future research.
翻訳日:2022-10-26 21:09:33 公開日:2020-08-21
# Howl: オープンソースのWakeワード検出システム

Howl: A Deployed, Open-Source Wake Word Detection System ( http://arxiv.org/abs/2008.09606v1 )

ライセンス: Link先を確認
Raphael Tang, Jaejun Lee, Afsaneh Razi, Julia Cambre, Ian Bicking, Jofish Kaye, Jimmy Lin(参考訳) Howlはオープンソースのウェイクワード検出ツールキットで、Mozilla Common VoiceやGoogle Speech Commandsなどのオープンスピーチデータセットをネイティブにサポートする。 音声コマンドのベンチマーク結果と,mcvで構築したウェイクワード検出データセットについて報告する。 我々は,Firefox Web ブラウザで音声対話を可能にするプラグインである Firefox Voice を運用している。 Howlは、私たちの知る限りでは、Webブラウザのデプロイメントターゲットを備えた、初めて完全に生産されたオープンソースのウェイクワード検出ツールキットです。 私たちのコードベースはhttps://github.com/castorini/howlにあります。

We describe Howl, an open-source wake word detection toolkit with native support for open speech datasets, like Mozilla Common Voice and Google Speech Commands. We report benchmark results on Speech Commands and our own freely available wake word detection dataset, built from MCV. We operationalize our system for Firefox Voice, a plugin enabling speech interactivity for the Firefox web browser. Howl represents, to the best of our knowledge, the first fully productionized yet open-source wake word detection toolkit with a web browser deployment target. Our codebase is at https://github.com/castorini/howl.
翻訳日:2022-10-26 21:02:21 公開日:2020-08-21
# トルコ語テキスト分類 : 辞書分析から双方向変換へ

Turkish Text Classification: From Lexicon Analysis to Bidirectional Transformer ( http://arxiv.org/abs/2104.11642v1 )

ライセンス: Link先を確認
Deniz Kavi(参考訳) テキスト分類は学術的にも産業的にも利用が増加している。 ルールベースの手法はかなり成功したが、教師付き機械学習はほとんどの言語で最も成功し、ほとんどの研究は英語で行われた。 本稿では,トルコ語における語彙分析,サポートベクターマシン,テキスト分類・感情分析タスクにおける極度勾配強調手法の成功を評価し,トルコ語テキスト分類の従来の手法を上回って,事前学習されたトランスフォーマベース分類器を提案する。 テキスト分類の文脈では、記事で提案されているすべての機械学習モデルはドメインに依存しず、タスク固有の修正を必要としない。

Text classification has seen an increased use in both academic and industry settings. Though rule based methods have been fairly successful, supervised machine learning has been shown to be most successful for most languages, where most research was done on English. In this article, the success of lexicon analysis, support vector machines, and extreme gradient boosting for the task of text classification and sentiment analysis are evaluated in Turkish and a pretrained transformer based classifier is proposed, outperforming previous methods for Turkish text classification. In the context of text classification, all machine learning models proposed in the article are domain-independent and do not require any task-specific modifications.
翻訳日:2022-10-26 21:02:13 公開日:2020-08-21
# COOKIE:Eコマースにおける知識グラフに関する会話勧告データセット

COOKIE: A Dataset for Conversational Recommendation over Knowledge Graphs in E-commerce ( http://arxiv.org/abs/2008.09237v1 )

ライセンス: Link先を確認
Zuohui Fu, Yikun Xian, Yaxin Zhu, Yongfeng Zhang, Gerard de Melo(参考訳) 本稿では,電子商取引プラットフォームのナレッジグラフよりも会話レコメンデーションのための新しいデータセット cookie を提案する。 データセットはAmazonのレビューコーパスから構築され、ユーザエージェント対話とカスタムナレッジグラフを統合してレコメンデーションする。 具体的には,まず統合知識グラフを構築し,会話のスケルトンとして機能するユーザとプロダクトのペア間の重要なエンティティを抽出する。 そして、選択した項目を人間の粗大なプロセスに反映した会話をシミュレートする。 提案したベースラインと実験により,我々のデータセットが会話レコメンデーションに革新的な機会を提供することを示す。

In this work, we present a new dataset for conversational recommendation over knowledge graphs in e-commerce platforms called COOKIE. The dataset is constructed from an Amazon review corpus by integrating both user-agent dialogue and custom knowledge graphs for recommendation. Specifically, we first construct a unified knowledge graph and extract key entities between user--product pairs, which serve as the skeleton of a conversation. Then we simulate conversations mirroring the human coarse-to-fine process of choosing preferred items. The proposed baselines and experiments demonstrate that our dataset is able to provide innovative opportunities for conversational recommendation.
翻訳日:2022-10-26 21:02:00 公開日:2020-08-21
# 逆マルコフ決定過程におけるFPLの精製解析

Refined Analysis of FPL for Adversarial Markov Decision Processes ( http://arxiv.org/abs/2008.09251v1 )

ライセンス: Link先を確認
Yuanhao Wang and Kefan Dong(参考訳) 我々は,MDPに対する報酬を逆選択し,遷移関数を未知あるいは未知とすることができる,逆マルコフ決定過程(MDP)問題を考える。 どちらの設定でも、FPL(Follow-the-PerturbedLeader)ベースのアルゴリズムは以前の文献で提案されている。 しかし、FPLベースのアルゴリズムの既定の後悔境界は、ミラードネッセントに基づくアルゴリズムよりも悪い。 我々は,fplベースのアルゴリズムを両設定で解析し,より高速で簡単なアルゴリズムを用いて,現在の最善の後悔領域に適合させる。

We consider the adversarial Markov Decision Process (MDP) problem, where the rewards for the MDP can be adversarially chosen, and the transition function can be either known or unknown. In both settings, Follow-the-PerturbedLeader (FPL) based algorithms have been proposed in previous literature. However, the established regret bounds for FPL based algorithms are worse than algorithms based on mirrordescent. We improve the analysis of FPL based algorithms in both settings, matching the current best regret bounds using faster and simpler algorithms.
翻訳日:2022-10-26 21:01:51 公開日:2020-08-21
# 中毒攻撃から回帰学習者を守る

Defending Regression Learners Against Poisoning Attacks ( http://arxiv.org/abs/2008.09279v1 )

ライセンス: Link先を確認
Sandamal Weerasinghe, Sarah M. Erfani, Tansu Alpcan, Christopher Leckie, Justin Kopacz(参考訳) 回帰モデルは工学的応用から金融予測まで広く使われており、攻撃者が予測を操作できるデータ中毒の訓練のような標的となる悪意のある攻撃に対して脆弱である。 この問題に対処しようとする以前の研究は、攻撃/攻撃者の性質に関する仮定や学習者の知識を過大評価することに依存しており、現実的ではない。 N-LIDと呼ばれる新しい局所固有次元(LID)に基づく測度を導入し,その近傍データ点のLIDの局所偏差を測定する。 そこで我々は,N-LIDが通常の試料と区別できることを示し,N-LIDをベースとした防御手法を提案する。 ベンチマークデータセットを用いた広範な数値実験により,提案した防御機構は,予測精度(未固定リッジモデルと比較して最大76%低いMSE)とランニング時間において,アートディフェンスの状態を向上することを示した。

Regression models, which are widely used from engineering applications to financial forecasting, are vulnerable to targeted malicious attacks such as training data poisoning, through which adversaries can manipulate their predictions. Previous works that attempt to address this problem rely on assumptions about the nature of the attack/attacker or overestimate the knowledge of the learner, making them impractical. We introduce a novel Local Intrinsic Dimensionality (LID) based measure called N-LID that measures the local deviation of a given data point's LID with respect to its neighbors. We then show that N-LID can distinguish poisoned samples from normal samples and propose an N-LID based defense approach that makes no assumptions of the attacker. Through extensive numerical experiments with benchmark datasets, we show that the proposed defense mechanism outperforms the state of the art defenses in terms of prediction accuracy (up to 76% lower MSE compared to an undefended ridge model) and running time.
翻訳日:2022-10-26 21:01:41 公開日:2020-08-21
# データ中毒攻撃に対する分散分類器の防御

Defending Distributed Classifiers Against Data Poisoning Attacks ( http://arxiv.org/abs/2008.09284v1 )

ライセンス: Link先を確認
Sandamal Weerasinghe, Tansu Alpcan, Sarah M. Erfani, Christopher Leckie(参考訳) サポートベクタマシン(SVM)は、毒殺攻撃やラベルフリップなどのターゲットデータ操作に対して脆弱である。 トレーニングサンプルのサブセットを慎重に操作することで、アタッカーは学習者に誤った決定境界を計算させ、誤分類を引き起こす。 工学的および生命クリティカルな応用におけるSVMの重要性の増大を考慮すると、このような攻撃に対する抵抗性を改善する新しい防御アルゴリズムを開発する。 局所固有次元(Local Intrinsic dimensionity, LID)は、データサンプルの外れ値を特徴付ける有望な計量である。 本研究では,LID計算におけるカーネル距離を用いたK-LIDという新しいLID近似を導入し,高次元変換空間におけるLIDの計算を可能にする。 我々は、疑わしいデータサンプルがSVM決定境界に与える影響を強調しない識別特性として、K-LIDを用いた攻撃に対する重み付けSVMを導入する。 各試料は、攻撃されたK-LID分布よりも良性K-LID分布から、そのK-LID値がどの程度高いかに重み付けされる。 次に,SDRに基づく監視システムを事例として,提案手法を分散SVMフレームワークに適用する方法を実演する。 ベンチマークデータセットを用いた実験により、提案した防御は分類誤り率を大幅に削減する(平均10%)。

Support Vector Machines (SVMs) are vulnerable to targeted training data manipulations such as poisoning attacks and label flips. By carefully manipulating a subset of training samples, the attacker forces the learner to compute an incorrect decision boundary, thereby cause misclassifications. Considering the increased importance of SVMs in engineering and life-critical applications, we develop a novel defense algorithm that improves resistance against such attacks. Local Intrinsic Dimensionality (LID) is a promising metric that characterizes the outlierness of data samples. In this work, we introduce a new approximation of LID called K-LID that uses kernel distance in the LID calculation, which allows LID to be calculated in high dimensional transformed spaces. We introduce a weighted SVM against such attacks using K-LID as a distinguishing characteristic that de-emphasizes the effect of suspicious data samples on the SVM decision boundary. Each sample is weighted on how likely its K-LID value is from the benign K-LID distribution rather than the attacked K-LID distribution. We then demonstrate how the proposed defense can be applied to a distributed SVM framework through a case study on an SDR-based surveillance system. Experiments with benchmark data sets show that the proposed defense reduces classification error rates substantially (10% on average).
翻訳日:2022-10-26 21:01:23 公開日:2020-08-21
# 神経因果表現の償却学習

Amortized learning of neural causal representations ( http://arxiv.org/abs/2008.09301v1 )

ライセンス: Link先を確認
Nan Rosemary Ke, Jane. X. Wang, Jovana Mitrovic, Martin Szummer, Danilo J. Rezende(参考訳) 因果モデルは、すべての介入の下でデータ生成プロセスをコンパクトかつ効率的にエンコードすることができ、従って分布の変化によりより一般化することができる。 これらのモデルは、しばしばベイズ的ネットワークとして表現され、変数の数に劣るスケールを学習する。 さらに、これらのアプローチは、学習済みの知識を活用して新しい因果モデルを学ぶのに役立てることはできない。 これらの課題に取り組むために,ニューラルネットワークを用いた因果モデル学習のための新しいアルゴリズムである \textit{causal relational networks} (crn) を提案する。 CRNは連続表現を用いて因果モデルを表現するため、変数の数をはるかに増やすことができる。 これらのモデルは、新しい因果モデルの学習を容易にするために、以前に学習した情報も取り入れる。 最後に,連続表現を用いた因果モデル評価のための復号化基準を提案する。 提案手法は,従来見られなかった因果関係モデルに高精度かつ迅速に適応する合成データについて検証する。

Causal models can compactly and efficiently encode the data-generating process under all interventions and hence may generalize better under changes in distribution. These models are often represented as Bayesian networks and learning them scales poorly with the number of variables. Moreover, these approaches cannot leverage previously learned knowledge to help with learning new causal models. In order to tackle these challenges, we represent a novel algorithm called \textit{causal relational networks} (CRN) for learning causal models using neural networks. The CRN represent causal models using continuous representations and hence could scale much better with the number of variables. These models also take in previously learned information to facilitate learning of new causal models. Finally, we propose a decoding-based metric to evaluate causal models with continuous representations. We test our method on synthetic data achieving high accuracy and quick adaptation to previously unseen causal models.
翻訳日:2022-10-26 21:01:03 公開日:2020-08-21
# 学習表現の解決による説明可能なレコメンダシステム

Explainable Recommender Systems via Resolving Learning Representations ( http://arxiv.org/abs/2008.09316v1 )

ライセンス: Link先を確認
Ninghao Liu, Yong Ge, Li Li, Xia Hu, Rui Chen, Soo-Hyun Choi(参考訳) Recommender システムは、大量の情報をフィルタリングし、ユーザの関心をマッチさせるウェブアプリケーションにおいて、基本的な役割を果たす。 様々なシナリオにおいてより効果的なモデルの開発に多くの努力が注がれているが、レコメンダシステムの説明可能性に関する調査は遅れを取っている。 説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。 本稿では,モデル説明可能性に関連する要素を形式的に導入した後,表現学習プロセスの透明性を向上させることにより,新しい説明可能なレコメンデーションモデルを提案する。 具体的には、従来のモデルにおける表現絡み合い問題を克服するために、従来のグラフ畳み込みを改訂し、異なる層からの情報を識別する。 また、各表現ベクトルは複数のセグメントに分解され、各セグメントはデータの1つの意味的側面に関連する。 我々のモデルでは、過去の研究と異なり、因子発見と表現学習が同時に行われ、付加的な属性情報や知識を扱うことができる。 このようにして、提案モデルは、ユーザやアイテムに対する解釈可能かつ意味のある表現を学ぶことができる。 説明可能性と有効性の間のトレードオフが必要な従来の方法とは異なり,提案手法の性能は説明可能性を考慮すると否定的な影響を受けない。 最後に,モデルの性能と説明の忠実性を検証するため,包括的な実験を行った。

Recommender systems play a fundamental role in web applications in filtering massive information and matching user interests. While many efforts have been devoted to developing more effective models in various scenarios, the exploration on the explainability of recommender systems is running behind. Explanations could help improve user experience and discover system defects. In this paper, after formally introducing the elements that are related to model explainability, we propose a novel explainable recommendation model through improving the transparency of the representation learning process. Specifically, to overcome the representation entangling problem in traditional models, we revise traditional graph convolution to discriminate information from different layers. Also, each representation vector is factorized into several segments, where each segment relates to one semantic aspect in data. Different from previous work, in our model, factor discovery and representation learning are simultaneously conducted, and we are able to handle extra attribute information and knowledge. In this way, the proposed model can learn interpretable and meaningful representations for users and items. Unlike traditional methods that need to make a trade-off between explainability and effectiveness, the performance of our proposed explainable model is not negatively affected after considering explainability. Finally, comprehensive experiments are conducted to validate the performance of our model as well as explanation faithfulness.
翻訳日:2022-10-26 21:00:38 公開日:2020-08-21
# rectified decision tree: 解釈可能かつ効果的な機械学習の展望を探る

Rectified Decision Trees: Exploring the Landscape of Interpretable and Effective Machine Learning ( http://arxiv.org/abs/2008.09413v1 )

ライセンス: Link先を確認
Yiming Li, Jiawang Bai, Jiawei Li, Xue Yang, Yong Jiang, Shu-Tao Xia(参考訳) 解釈性と有効性は、実際に機械学習手法を採用する上で必須かつ不可欠の2つの要件である。 本稿では,これらの要件を同時に満たす可能性を検討するために,知識蒸留に基づく決定木拡張(rerectified decision tree, ReDT)を提案する。 具体的には,標準決定木の分割基準と終了条件を拡張し,決定論的分割パスを保ちながらソフトラベルによるトレーニングを可能にする。 次に,教師モデルから抽出したソフトラベルに基づいて,新しいジャックニフェ法を用いてReDTを訓練する。 したがって、レットは、比較的良好な性能を保ちながら、決定木の優れた解釈可能な性質を維持する。 ハードラベルの代わりにソフトラベルを採用する効果も経験的および理論的に分析した。 驚くべきことに、ソフトラベルの導入は、教師モデルから蒸留された'ダーク知識'から予期せぬ贈り物である総ノードとルールの側面から、標準決定木と比較して、モデルのサイズを減少させることを示している。

Interpretability and effectiveness are two essential and indispensable requirements for adopting machine learning methods in reality. In this paper, we propose a knowledge distillation based decision trees extension, dubbed rectified decision trees (ReDT), to explore the possibility of fulfilling those requirements simultaneously. Specifically, we extend the splitting criteria and the ending condition of the standard decision trees, which allows training with soft labels while preserving the deterministic splitting paths. We then train the ReDT based on the soft label distilled from a well-trained teacher model through a novel jackknife-based method. Accordingly, ReDT preserves the excellent interpretable nature of the decision trees while having a relatively good performance. The effectiveness of adopting soft labels instead of hard ones is also analyzed empirically and theoretically. Surprisingly, experiments indicate that the introduction of soft labels also reduces the model size compared with the standard decision trees from the aspect of the total nodes and rules, which is an unexpected gift from the `dark knowledge' distilled from the teacher model.
翻訳日:2022-10-26 21:00:18 公開日:2020-08-21
# 協調フィルタリング推薦システムにおけるユーザ発見の反復的特性の理論的モデル化

Theoretical Modeling of the Iterative Properties of User Discovery in a Collaborative Filtering Recommender System ( http://arxiv.org/abs/2008.13526v1 )

ライセンス: Link先を確認
Sami Khenissi and Mariem Boujelbene and Olfa Nasraoui(参考訳) レコメンダシステムのクローズドフィードバックループは、異なるタイプのバイアスにつながる一般的な設定である。 これらのバイアスに対するいくつかの研究は、レコメンデーションへの影響を緩和する手法を設計することで対処している。 しかし、既存の研究の多くは、クローズドフィードバックループが様々なバイアスをレコメンデーションステップのいくつかの部分に組み込む上で重要な役割を果たすシステムの反復的な振る舞いを考慮していない。 本稿では,フィードバックループ内で動作するレコメンダシステムの異なるコンポーネントの漸近的進化をモデル化する理論的枠組みを提案し,ユーザ発見と盲点の定量化に関する理論的境界と収束特性を導出する。 また,実生活データセットを用いて実験的に理論的知見を検証し,理論的枠組みにおける基本探索戦略の効率を実証的に検証した。 本研究は,フィードバックループの効果の定量化と,機械学習とレコメンデーションプロセスにおけるフィードバックループの反復性を明確に組み込んだ人工知能と機械学習アルゴリズムの設計に関する理論的基礎を定めている。

The closed feedback loop in recommender systems is a common setting that can lead to different types of biases. Several studies have dealt with these biases by designing methods to mitigate their effect on the recommendations. However, most existing studies do not consider the iterative behavior of the system where the closed feedback loop plays a crucial role in incorporating different biases into several parts of the recommendation steps. We present a theoretical framework to model the asymptotic evolution of the different components of a recommender system operating within a feedback loop setting, and derive theoretical bounds and convergence properties on quantifiable measures of the user discovery and blind spots. We also validate our theoretical findings empirically using a real-life dataset and empirically test the efficiency of a basic exploration strategy within our theoretical framework. Our findings lay the theoretical basis for quantifying the effect of feedback loops and for designing Artificial Intelligence and machine learning algorithms that explicitly incorporate the iterative nature of feedback loops in the machine learning and recommendation process.
翻訳日:2022-10-26 20:53:32 公開日:2020-08-21
# 木構造LSTMのバッチ正規化のための制約付き再帰アルゴリズム

A constrained recursion algorithm for batch normalization of tree-sturctured LSTM ( http://arxiv.org/abs/2008.09409v1 )

ライセンス: Link先を確認
Ruo Ando, Yoshiyasu Takefuji(参考訳) 木構造LSTMは階層上の長距離相互作用を考える上で有望な方法である。 しかし,木構造LSTMの構築と走行のハイパーパラメータチューニングに関する研究はほとんど行われていない。 例えば、状態初期化の間隔のようなハイパーパラメータは、トレーニングコストと並列化を減らすためにバッチ正規化を適用することに特化して検討されていない。 本稿では,バッチ正規化木構造LSTMをトラバースする新しい再帰アルゴリズムを提案する。 提案手法では,バッチ正規化を適用したLSTMの2進木表現の深度優先探索のための再帰アルゴリズムに制約を課す。 制約付き再帰法により、バッチ正規化の過程で発生するいくつかの木構造LSTMのトラバースにおけるハイパーパラメータを制御できる。 木道は2つの段階に分けられる。 まず,最新の木構造LSTMブロックの開始点を発見するために,モデルの幅優先探索を適用した。 次に、深度優先探索を行い、木構造LSTMを横切る。 提案手法により,再帰アルゴリズムの制約を変更することにより,再帰的ニューラルネットワーク実装のハイパーパラメータの選択を最適化することが可能になる。 実験では,木構造LSTMの状態初期化の長さを変化させることで,検証損失と計算時間を計測・プロットする。 提案手法は,木構造LSTMのバッチ数や状態初期化間隔の長さなどのハイパーパラメータチューニングに有効であることが判明した。

Tree-structured LSTM is promising way to consider long-distance interaction over hierarchies. However, there have been few research efforts on the hyperparameter tuning of the construction and traversal of tree-structured LSTM. To name a few, hyperparamters such as the interval of state initialization, the number of batches for normalization have been left unexplored specifically in applying batch normalization for reducing training cost and parallelization. In this paper, we propose a novel recursive algorithm for traversing batch normalized tree-structured LSTM. In proposal method, we impose the constraint on the recursion algorithm for the depth-first search of binary tree representation of LSTM for which batch normalization is applied. With our constrained recursion, we can control the hyperparameter in the traversal of several tree-structured LSTMs which is generated in the process of batch normalization. The tree traversal is divided into two steps. At first stage, the width-first search over models is applied for discover the start point of the latest tree-structured LSTM block. Then, the depth-first search is run to traverse tree-structured LSTM. Proposed method enables us to explore the optimized selection of hyperparameters of recursive neural network implementation by changing the constraints of our recursion algorithm. In experiment, we measure and plot the validation loss and computing time with changing the length of internal of state initialization of tree-structured LSTM. It has been turned out that proposal method is effective for hyperparameter tuning such as the number of batches and length of interval of state initialization of tree-structured LSTM.
翻訳日:2022-10-26 20:52:57 公開日:2020-08-21
# ツイートからニュースへの変換:教師なしのテキスト生成に関する調査

Tweet to News Conversion: An Investigation into Unsupervised Controllable Text Generation ( http://arxiv.org/abs/2008.09333v1 )

ライセンス: Link先を確認
Zishan Ahmad, Mukuntha N S, Asif Ekbal, Pushpak Bhattacharyya(参考訳) テキストジェネレータシステムは、エンコーダデコーダのような最近のディープラーニングモデルの出現によって、非常に人気が高まっている。 生成した出力の情報やスタイルを管理せずに制御することは、重要かつ困難な自然言語処理(NLP)タスクである。 本稿では,災害ドメインのツイートの集合から,並列データなしでコヒーレントな段落を構築するタスクを定義する。 パイプラインに2つのシステムを構築することで、この問題に対処します。 最初のシステムは教師なしのスタイル転送に焦点を当て、個々のツイートをニュース文に変換する。 第2のシステムは、第1のシステムからの出力を縫合してコヒーレントニュース段落を形成する。 また,文を命題に分割し,第2体系を訓練して文をマージする新しい訓練機構を提案する。 我々は、ツイートセットとその等価ニュース段落からなる検証とテストセットを作成し、経験的評価を行う。 完全に教師なしの環境で、我々のモデルはBLEUスコア19.32を達成し、スタイルを転送し、ツイートを結合して意味のあるニュース段落を形成することに成功した。

Text generator systems have become extremely popular with the advent of recent deep learning models such as encoder-decoder. Controlling the information and style of the generated output without supervision is an important and challenging Natural Language Processing (NLP) task. In this paper, we define the task of constructing a coherent paragraph from a set of disaster domain tweets, without any parallel data. We tackle the problem by building two systems in pipeline. The first system focuses on unsupervised style transfer and converts the individual tweets into news sentences. The second system stitches together the outputs from the first system to form a coherent news paragraph. We also propose a novel training mechanism, by splitting the sentences into propositions and training the second system to merge the sentences. We create a validation and test set consisting of tweet-sets and their equivalent news paragraphs to perform empirical evaluation. In a completely unsupervised setting, our model was able to achieve a BLEU score of 19.32, while successfully transferring styles and joining tweets to form a meaningful news paragraph.
翻訳日:2022-10-26 20:52:14 公開日:2020-08-21
# EmoGraph: グラフネットワークを用いた感情相関のキャプチャ

EmoGraph: Capturing Emotion Correlations using Graph Networks ( http://arxiv.org/abs/2008.09378v1 )

ライセンス: Link先を確認
Peng Xu, Zihan Liu, Genta Indra Winata, Zhaojiang Lin, Pascale Fung(参考訳) 多くの感情認識手法は、個々の感情を独立して考慮し、そのファジィな性質や相互接続を無視して感情理解課題に取り組む。 本稿では,感情相関を捉え,異なる分類タスクを支援する方法について検討する。 グラフネットワークを通じて異なる感情間の依存関係をキャプチャするEmoGraphを提案する。 これらのグラフは、異なる感情カテゴリの共起統計を利用して構築される。 2つのマルチラベル分類データセットの実証的な結果は、特にマクロF1では、EmoGraphが強いベースラインを上回っていることを示している。 さらに、キャプチャされた感情相関がシングルラベル分類タスクに役立つことを示す実験もある。

Most emotion recognition methods tackle the emotion understanding task by considering individual emotion independently while ignoring their fuzziness nature and the interconnections among them. In this paper, we explore how emotion correlations can be captured and help different classification tasks. We propose EmoGraph that captures the dependencies among different emotions through graph networks. These graphs are constructed by leveraging the co-occurrence statistics among different emotion categories. Empirical results on two multi-label classification datasets demonstrate that EmoGraph outperforms strong baselines, especially for macro-F1. An additional experiment illustrates the captured emotion correlations can also benefit a single-label classification task.
翻訳日:2022-10-26 20:51:15 公開日:2020-08-21
# 逐次オブジェクト操作タスクのための後見体験リプレイによるカリキュラム学習

Curriculum Learning with Hindsight Experience Replay for Sequential Object Manipulation Tasks ( http://arxiv.org/abs/2008.09377v1 )

ライセンス: Link先を確認
Binyamin Manela, Armin Biess(参考訳) 複雑なタスクをゼロから学習することは困難であり、人や人工エージェントにとって不可能であることが多い。 カリキュラムは代わりに使用することができ、複雑なタスク(ターゲットタスク)を一連のソースタスク(カリキュラム)に分解する。 各ソースタスクは、複雑さを増す次のソースタスクの単純化バージョンである。 学習は、カリキュラムの事前のソースタスクからの知識を使いながら、各ソースタスクのトレーニングによって徐々に行われる。 本研究では,カリキュラム学習と後見体験リプレイ(her)を組み合わせて,複数の目標に対して逐次オブジェクト操作タスクを学習し,フィードバックを分散させる新しいアルゴリズムを提案する。 このアルゴリズムは、多くのオブジェクト操作タスクに固有のリカレント構造を利用し、元のシミュレーションで学習プロセス全体を各ソースタスクに調整することなく実装する。 我々は,3つの挑戦的な投球課題に対して,このアルゴリズムを検証した。

Learning complex tasks from scratch is challenging and often impossible for humans as well as for artificial agents. A curriculum can be used instead, which decomposes a complex task (target task) into a sequence of source tasks (the curriculum). Each source task is a simplified version of the next source task with increasing complexity. Learning then occurs gradually by training on each source task while using knowledge from the curriculum's prior source tasks. In this study, we present a new algorithm that combines curriculum learning with Hindsight Experience Replay (HER), to learn sequential object manipulation tasks for multiple goals and sparse feedback. The algorithm exploits the recurrent structure inherent in many object manipulation tasks and implements the entire learning process in the original simulation without adjusting it to each source task. We have tested our algorithm on three challenging throwing tasks and show vast improvements compared to vanilla-HER.
翻訳日:2022-10-26 20:45:10 公開日:2020-08-21
# 状態集約を用いたモデルフリーエピソディック制御

Model-Free Episodic Control with State Aggregation ( http://arxiv.org/abs/2008.09685v1 )

ライセンス: Link先を確認
Rafael Pinto(参考訳) エピソディック制御は、高記憶力と計算能力の要求を強制しながら強化学習を高度にサンプル効率良く行う方法を提供する。 本研究はこれらの要件を緩和するための単純なヒューリスティックを提案し,MFEC(Model-Free Episodic Control)に適用する。 アタリゲームの実験では、このヒューリスティックはMFECの計算要求を減らし、ハイパーパラメータの保守的な選択が使用されると性能が著しく低下しないことを示した。 したがって、強化学習タスクを扱う場合、エピソディクス制御はより実現可能な選択肢となる。

Episodic control provides a highly sample-efficient method for reinforcement learning while enforcing high memory and computational requirements. This work proposes a simple heuristic for reducing these requirements, and an application to Model-Free Episodic Control (MFEC) is presented. Experiments on Atari games show that this heuristic successfully reduces MFEC computational demands while producing no significant loss of performance when conservative choices of hyperparameters are used. Consequently, episodic control becomes a more feasible option when dealing with reinforcement learning tasks.
翻訳日:2022-10-26 20:44:38 公開日:2020-08-21
# シナプス塑性によるオペレーショナルニューラルネットワークの爆発的不均一性

Exploiting Heterogeneity in Operational Neural Networks by Synaptic Plasticity ( http://arxiv.org/abs/2009.08934v1 )

ライセンス: Link先を確認
Serkan Kiranyaz, Junaid Malik, Habib Ben Abdallah, Turker Ince, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 最近提案されたネットワークモデルであるオペレーショナルニューラルネットワーク(ONN)は、線形ニューロンモデルのみで均質な従来の畳み込みニューラルネットワーク(CNN)を一般化することができる。 異種ネットワークモデルとして、ONNは一般化されたニューロンモデルに基づいており、任意の非線形演算子をカプセル化して多様性を高め、ネットワークの複雑さとトレーニングデータを最小限に抑えた高度に複雑でマルチモーダルな関数や空間を学習することができる。 しかし、ONNの最適演算子を見つけるデフォルトの探索手法であるGreedy Iterative Search (GIS) は、通常、複数のトレーニングセッションを要し、各層に1つの演算子セットを見つける。 これは計算上要求されるだけでなく、ネットワークの不均一性も制限される。なぜなら同じ演算子セットが各層の全ニューロンで使用されるからである。 この不足に対処し、より優れた不均一性を利用するため、本研究では、生体ニューロンにおいて必須の学習理論を定めているシナプス可塑性パラダイムに基づいて、ネットワークの隠れたニューロンの最適操作集合を探索することに焦点を当てている。 トレーニング中、ライブラリ内の各オペレータセットは、最悪のものから最高のものまで、シナプス可塑性レベルで評価することができ、各隠れたレイヤにある上位のオペレータセットを使用して、エリートonnを設定することができる。 高難易度問題に対する実験結果から、少数のニューロンや層であっても、GISベースのONNよりも優れた学習性能が得られることが示され、その結果、CNNに対する性能格差はさらに拡大した。

The recently proposed network model, Operational Neural Networks (ONNs), can generalize the conventional Convolutional Neural Networks (CNNs) that are homogenous only with a linear neuron model. As a heterogenous network model, ONNs are based on a generalized neuron model that can encapsulate any set of non-linear operators to boost diversity and to learn highly complex and multi-modal functions or spaces with minimal network complexity and training data. However, the default search method to find optimal operators in ONNs, the so-called Greedy Iterative Search (GIS) method, usually takes several training sessions to find a single operator set per layer. This is not only computationally demanding, also the network heterogeneity is limited since the same set of operators will then be used for all neurons in each layer. To address this deficiency and exploit a superior level of heterogeneity, in this study the focus is drawn on searching the best-possible operator set(s) for the hidden neurons of the network based on the Synaptic Plasticity paradigm that poses the essential learning theory in biological neurons. During training, each operator set in the library can be evaluated by their synaptic plasticity level, ranked from the worst to the best, and an elite ONN can then be configured using the top ranked operator sets found at each hidden layer. Experimental results over highly challenging problems demonstrate that the elite ONNs even with few neurons and layers can achieve a superior learning performance than GIS-based ONNs and as a result the performance gap over the CNNs further widens.
翻訳日:2022-10-26 20:44:29 公開日:2020-08-21
# 同時事例の高速同定のための機械学習モデルの評価

Evaluating Machine Learning Models for the Fast Identification of Contingency Cases ( http://arxiv.org/abs/2008.09384v1 )

ライセンス: Link先を確認
Florian Schaefer, Jan-Hendrik Menke, Martin Braun(参考訳) 電力フロー結果の高速近似は、電力系統計画と実稼働に有用である。 計画では、数年で異なる制御戦略や偶発政策が検討されれば、数百万の電力フロー計算が必要となる。 ライブ操作では、グリッドオペレータは、グリッド状態が短時間で緊急要求を満たすかどうかを評価する必要がある。 本稿では,回帰法と分類法を比較し,バス電圧やラインの負荷など多変量結果を予測するか,重要な負荷状況を特定するための時間ステップのバイナリ分類を行う。 本手法は,1年15分,5分で時系列に基づく3つの現実的な電力系統で検証する。 我々は、多層パーセプトロン(MLP)、決定木、k-アネレスト近傍、勾配向上など、さまざまな機械学習モデルを比較し、必要なトレーニング時間と予測時間と予測誤差を評価する。 さらに,各手法に必要なトレーニングデータの量を決定し,生成の未学習削減の近似を含む結果を示す。 比較手法では,MLPをタスクに適したものとして同定した。 mlpに基づくモデルは、97-98 %の精度と0.0-0.64 %の非常に低い偽陰性予測で臨界状況を予測できる。

Fast approximations of power flow results are beneficial in power system planning and live operation. In planning, millions of power flow calculations are necessary if multiple years, different control strategies or contingency policies are to be considered. In live operation, grid operators must assess if grid states comply with contingency requirements in a short time. In this paper, we compare regression and classification methods to either predict multi-variable results, e.g. bus voltage magnitudes and line loadings, or binary classifications of time steps to identify critical loading situations. We test the methods on three realistic power systems based on time series in 15 min and 5 min resolution of one year. We compare different machine learning models, such as multilayer perceptrons (MLPs), decision trees, k-nearest neighbours, gradient boosting, and evaluate the required training time and prediction times as well as the prediction errors. We additionally determine the amount of training data needed for each method and show results, including the approximation of untrained curtailment of generation. Regarding the compared methods, we identified the MLPs as most suitable for the task. The MLP-based models can predict critical situations with an accuracy of 97-98 % and a very low number of false negative predictions of 0.0-0.64 %.
翻訳日:2022-10-26 20:43:30 公開日:2020-08-21
# ベイジアンネットワーク分類器のための微分可能なTAN構造学習

Differentiable TAN Structure Learning for Bayesian Network Classifiers ( http://arxiv.org/abs/2008.09566v1 )

ライセンス: Link先を確認
Wolfgang Roth and Franz Pernkopf(参考訳) ベイズネットワークの構造を学ぶことは難しい組合せ最適化問題である。 本稿では,個別の入力特徴を持つベイズ型ネットワーク分類器のツリー拡張型ネーブベイズ構造(TAN)の学習について考察する。 提案手法は,可能なグラフ構造の空間上で組合せ最適化を行う代わりに,グラフ構造上の分布を学習する。 訓練後、この分布の最も可能性の高い構造を選択する。 これにより、勾配に基づく最適化を用いてベイズネットワークパラメータとTAN構造との合同トレーニングが可能になる。 提案手法は特定の損失に非依存であり,識別可能であることのみを必要とする。 判別確率マージンに基づくハイブリッド生成弁別損失を用いた広範囲実験を行った。 提案手法はランダムなTAN構造とChow-Liu TAN構造を一貫して上回る。

Learning the structure of Bayesian networks is a difficult combinatorial optimization problem. In this paper, we consider learning of tree-augmented naive Bayes (TAN) structures for Bayesian network classifiers with discrete input features. Instead of performing a combinatorial optimization over the space of possible graph structures, the proposed method learns a distribution over graph structures. After training, we select the most probable structure of this distribution. This allows for a joint training of the Bayesian network parameters along with its TAN structure using gradient-based optimization. The proposed method is agnostic to the specific loss and only requires that it is differentiable. We perform extensive experiments using a hybrid generative-discriminative loss based on the discriminative probabilistic margin. Our method consistently outperforms random TAN structures and Chow-Liu TAN structures.
翻訳日:2022-10-26 20:43:11 公開日:2020-08-21
# ドメインシフト下でのプライバシー保護

Privacy Preserving Recalibration under Domain Shift ( http://arxiv.org/abs/2008.09643v1 )

ライセンス: Link先を確認
Rachel Luo, Shengjia Zhao, Jiaming Song, Jonathan Kuck, Stefano Ermon, Silvio Savarese(参考訳) 高精細な実世界のアプリケーションに展開される分類器は、キャリブレーションされた信頼スコアを出力しなければならない。 リカバリレーションアルゴリズムはモデルの確率推定を大幅に改善するが、既存のアルゴリズムは、テストデータがトレーニングデータと異なる分布に従う現実の状況では適用されず、プライバシ保護が最優先である(例えば、患者記録を保護する)。 差分プライバシー制約下での校正問題の性質を抽象化する枠組みを導入する。 このフレームワークは、ドメインシフトの状況に有効でありながら、差分プライバシーを満たすために既存の校正アルゴリズムを適用することができる。 また,このフレームワークを参考に,プライベートデータセットの先行処理に匹敵する,新しいリカバリアルゴリズムである精度温度スケーリングも設計した。 広範にわたる実証研究において,本アルゴリズムは差分プライバシーの制約下でのドメインシフトベンチマークの校正を改善する。 imagenet-cデータセットの15番目の重大度摂動において、本手法は0.029の中央値のeceを達成し、次の最良の再校正法よりも2倍、再校正なしでは5倍近く良い。

Classifiers deployed in high-stakes real-world applications must output calibrated confidence scores, i.e. their predicted probabilities should reflect empirical frequencies. Recalibration algorithms can greatly improve a model's probability estimates; however, existing algorithms are not applicable in real-world situations where the test data follows a different distribution from the training data, and privacy preservation is paramount (e.g. protecting patient records). We introduce a framework that abstracts out the properties of recalibration problems under differential privacy constraints. This framework allows us to adapt existing recalibration algorithms to satisfy differential privacy while remaining effective for domain-shift situations. Guided by our framework, we also design a novel recalibration algorithm, accuracy temperature scaling, that outperforms prior work on private datasets. In an extensive empirical study, we find that our algorithm improves calibration on domain-shift benchmarks under the constraints of differential privacy. On the 15 highest severity perturbations of the ImageNet-C dataset, our method achieves a median ECE of 0.029, over 2x better than the next best recalibration method and almost 5x better than without recalibration.
翻訳日:2022-10-26 20:42:59 公開日:2020-08-21