このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210319となっている論文です。

PDF登録状況(公開日: 20210319)

TitleAuthorsAbstract論文公表日・翻訳日
# セマンティック画像合成のための逆スーパービジョンしか必要としない

You Only Need Adversarial Supervision for Semantic Image Synthesis ( http://arxiv.org/abs/2012.04781v3 )

ライセンス: Link先を確認
Vadim Sushko, Edgar Sch\"onfeld, Dan Zhang, Juergen Gall, Bernt Schiele, Anna Khoreva(参考訳) 最近の成功にもかかわらず、セマンティクス画像合成のためのganモデルは、敵の監督だけで訓練する場合、画像品質の低下に苦しむ。 歴史的には、VGGに基づく知覚的損失がこの問題を克服し、合成品質を大幅に向上させたが、同時に意味画像合成のためのGANモデルの進歩を制限した。 本稿では,高品質な結果を得るためには,敵対的監督のみを必要とする新しい簡易ganモデルを提案する。 我々は,与えられた意味的ラベルマップを訓練の基盤として,意味的セグメンテーションネットワークとして識別器を再設計する。 空間的・意味的に認識された識別器のフィードバックを通じて、識別器とジェネレータにより強い監督を与えることにより、入力ラベルマップにより良いアライメントで高忠実度の画像の合成が可能となり、知覚的損失が過剰になる。 さらに,生成器に注入された3次元ノイズテンソルを大域的および局所的にサンプリングすることにより,高品質なマルチモーダル画像合成を実現する。 本モデルにより合成した画像はより多様であり,実画像の色やテクスチャ分布に密接に従っている。 我々は、敵対的な監視のみを使用して、異なるデータセットにわたる技術の現状を平均6ドルFIDと5ドルmIoUポイントで改善する。

Despite their recent successes, GAN models for semantic image synthesis still suffer from poor image quality when trained with only adversarial supervision. Historically, additionally employing the VGG-based perceptual loss has helped to overcome this issue, significantly improving the synthesis quality, but at the same time limiting the progress of GAN models for semantic image synthesis. In this work, we propose a novel, simplified GAN model, which needs only adversarial supervision to achieve high quality results. We re-design the discriminator as a semantic segmentation network, directly using the given semantic label maps as the ground truth for training. By providing stronger supervision to the discriminator as well as to the generator through spatially- and semantically-aware discriminator feedback, we are able to synthesize images of higher fidelity with better alignment to their input label maps, making the use of the perceptual loss superfluous. Moreover, we enable high-quality multi-modal image synthesis through global and local sampling of a 3D noise tensor injected into the generator, which allows complete or partial image change. We show that images synthesized by our model are more diverse and follow the color and texture distributions of real images more closely. We achieve an average improvement of $6$ FID and $5$ mIoU points over the state of the art across different datasets using only adversarial supervision.
翻訳日:2021-05-16 21:34:07 公開日:2021-03-19
# SPlit: データ分割のための最適な方法

SPlit: An Optimal Method for Data Splitting ( http://arxiv.org/abs/2012.10945v2 )

ライセンス: Link先を確認
V. Roshan Joseph and Akhil Vakayil(参考訳) 本稿では,データセットをトレーニングとテストセットに分割するためのSPlitと呼ばれる最適手法を提案する。 SPlitは、最初に連続分布の最適な代表点を見つけるために開発されたSP(Support Points)の手法に基づいている。 逐次隣接アルゴリズムを用いてデータセットからのサブサンプリングにSPを適用する。 また、SPlitを回帰問題と分類問題の両方に適用できるように、分類変数を扱うように拡張する。 実データセット上でのSPlitの実装は、一般的に使用されるランダムスプリッティング法と比較して、いくつかのモデリング手法における最悪のテスト性能を大幅に改善したことを示す。

In this article we propose an optimal method referred to as SPlit for splitting a dataset into training and testing sets. SPlit is based on the method of Support Points (SP), which was initially developed for finding the optimal representative points of a continuous distribution. We adapt SP for subsampling from a dataset using a sequential nearest neighbor algorithm. We also extend SP to deal with categorical variables so that SPlit can be applied to both regression and classification problems. The implementation of SPlit on real datasets shows substantial improvement in the worst-case testing performance for several modeling methods compared to the commonly used random splitting procedure.
翻訳日:2021-05-01 04:45:41 公開日:2021-03-19
# 効果的・効率的・露光認識情報検索のためのニューラル手法

Neural Methods for Effective, Efficient, and Exposure-Aware Information Retrieval ( http://arxiv.org/abs/2012.11685v2 )

ライセンス: Link先を確認
Bhaskar Mitra(参考訳) 深いアーキテクチャを持つニューラルネットワークは、コンピュータビジョン、音声認識、自然言語処理において大幅な性能向上を示している。 しかし、情報検索(IR)の課題は他の応用分野とは異なる。 IRの一般的な形式は、キーワードベースのクエリに応答して、文書または短いパスのランク付けを含む。 有効なirシステムは、クエリーとドキュメントの用語間の関係をモデル化することで、クエリーとドキュメントの語彙のミスマッチ問題に対処する必要がある。 モデルは、クエリにレアな用語(人名や製品モデル番号など)が含まれている場合の語彙マッチングも考慮し、トレーニング中に見えないようにし、意味的に関連があるが無関係な結果の検索を避ける必要がある。 多くの実生活のIRタスクにおいて、検索には数十億のドキュメントを含む商用Web検索エンジンのドキュメントインデックスなど、非常に大規模なコレクションが含まれる。 効率的なIR手法は、逆インデックスのような特殊なIRデータ構造を利用して、大規模なコレクションから効率的に取り出す必要がある。 情報が必要な場合、IRシステムは、情報アーティファクトがどれだけの露出を受信するかを、表示すべきか、どこに配置すべきかを判断することで仲介する。 露光対応IRシステムは、検索したアイテムやコンテンツパブリッシャに対する露出のパリティなどの関連性以外に、さらなる目的のために最適化することができる。 本稿では,irタスクの具体的ニーズと課題に動機づけられた新しいニューラルアーキテクチャと手法を提案する。

Neural networks with deep architectures have demonstrated significant performance improvements in computer vision, speech recognition, and natural language processing. The challenges in information retrieval (IR), however, are different from these other application areas. A common form of IR involves ranking of documents--or short passages--in response to keyword-based queries. Effective IR systems must deal with query-document vocabulary mismatch problem, by modeling relationships between different query and document terms and how they indicate relevance. Models should also consider lexical matches when the query contains rare terms--such as a person's name or a product model number--not seen during training, and to avoid retrieving semantically related but irrelevant results. In many real-life IR tasks, the retrieval involves extremely large collections--such as the document index of a commercial Web search engine--containing billions of documents. Efficient IR methods should take advantage of specialized IR data structures, such as inverted index, to efficiently retrieve from large collections. Given an information need, the IR system also mediates how much exposure an information artifact receives by deciding whether it should be displayed, and where it should be positioned, among other results. Exposure-aware IR systems may optimize for additional objectives, besides relevance, such as parity of exposure for retrieved items and content publishers. In this thesis, we present novel neural architectures and methods motivated by the specific needs and challenges of IR tasks.
翻訳日:2021-04-27 06:47:39 公開日:2021-03-19
# 教師なし深層クラスタリングと強化学習は、非常に小さなトレーニングセットでmri脳腫瘍を正確にセグメント化できる

Unsupervised deep clustering and reinforcement learning can accurately segment MRI brain tumors with very small training sets ( http://arxiv.org/abs/2012.13321v2 )

ライセンス: Link先を確認
Joseph Stember, Hrithwik Shalu(参考訳) 目的: 医療画像における病変分画は治療反応の評価の鍵となる。 近年,放射線画像に強化学習を適用して病変の局所化を図っている。 さらに,強化学習は教師付き深層学習の重要な制限、すなわち大量の注釈付きトレーニングデータの必要性をなくし,教師付きアプローチに欠ける貴重な直観を与えることができることを示した。 しかし, 病変・構造区分の基本的な課題には対処しなかった。 本稿では、教師なしのディープラーニングクラスタリングと強化学習を組み合わせて、MRI上の脳病変を分割する手法を提案する。 材料と方法:まず教師なしのディープラーニングクラスタリングを用いて画像をクラスタリングし,MRI画像毎の候補病変マスクを生成する。 ユーザーは10枚のトレーニング画像ごとにベストマスクを選択する。 その後,マスク選択のための強化学習アルゴリズムをトレーニングした。 トレーニング済みの深度Qネットワークを,10枚の画像の別個のテストセットでテストした。 また、同じトレーニング/テスト画像のセット上で、U-netで教師付きディープラーニングネットワークをトレーニングし、テストした。 結果: 教師なしアプローチは, トレーニングデータに迅速に適合し, テストセットで予測精度が低い(平均Diceスコア16%)のに対して, 教師なし深層クラスタリングと強化学習は平均Diceスコア83%を達成した。 結語:我々は脳腫瘍セグメントに対する教師なし深層クラスタリングと強化学習の原理実証的応用を実証した。 このアプローチは、手書きのアノテーションを必要とせずに、放射線科医からの最小限の入力を必要とする、人間によるAIを表す。

Purpose: Lesion segmentation in medical imaging is key to evaluating treatment response. We have recently shown that reinforcement learning can be applied to radiological images for lesion localization. Furthermore, we demonstrated that reinforcement learning addresses important limitations of supervised deep learning; namely, it can eliminate the requirement for large amounts of annotated training data and can provide valuable intuition lacking in supervised approaches. However, we did not address the fundamental task of lesion/structure-of- interest segmentation. Here we introduce a method combining unsupervised deep learning clustering with reinforcement learning to segment brain lesions on MRI. Materials and Methods: We initially clustered images using unsupervised deep learning clustering to generate candidate lesion masks for each MRI image. The user then selected the best mask for each of 10 training images. We then trained a reinforcement learning algorithm to select the masks. We tested the corresponding trained deep Q network on a separate testing set of 10 images. For comparison, we also trained and tested a U-net supervised deep learning network on the same set of training/testing images. Results: Whereas the supervised approach quickly overfit the training data and predictably performed poorly on the testing set (16% average Dice score), the unsupervised deep clustering and reinforcement learning achieved an average Dice score of 83%. Conclusion: We have demonstrated a proof-of-principle application of unsupervised deep clustering and reinforcement learning to segment brain tumors. The approach represents human-allied AI that requires minimal input from the radiologist without the need for hand-traced annotation.
翻訳日:2021-04-25 08:25:45 公開日:2021-03-19
# POMDPにおけるロバスト非対称学習

Robust Asymmetric Learning in POMDPs ( http://arxiv.org/abs/2012.15566v2 )

ライセンス: Link先を確認
Andrew Warrington and J. Wilder Lavington and Adam Scibior and Mark Schmidt and Frank Wood(参考訳) 部分的に観察されたマルコフ決定プロセスのポリシーは、対応する完全に観察されたマルコフ決定プロセスのポリシーを模倣することで効率的に学習することができる。 残念ながら、このような模倣学習の既存のアプローチには深刻な欠陥がある。専門家は訓練生に何が見えないのかを知らないため、部分的な情報の下では準最適で、安全ではないアクションを奨励する可能性がある。 提案手法は,エージェントとエージェントを協調的に訓練する適応型非対称なDAgger (A2D) を効率的に構築するために,模倣エージェントポリシーの期待する報酬を最大化するために専門家を訓練する目的を導出する。 a2dは、エージェントが安全に模倣できる専門家ポリシーを生成し、その結果、固定された専門家を模倣して学習したポリシーを上回ることを示します。

Policies for partially observed Markov decision processes can be efficiently learned by imitating policies for the corresponding fully observed Markov decision processes. Unfortunately, existing approaches for this kind of imitation learning have a serious flaw: the expert does not know what the trainee cannot see, and so may encourage actions that are sub-optimal, even unsafe, under partial information. We derive an objective to instead train the expert to maximize the expected reward of the imitating agent policy, and use it to construct an efficient algorithm, adaptive asymmetric DAgger (A2D), that jointly trains the expert and the agent. We show that A2D produces an expert policy that the agent can safely imitate, in turn outperforming policies learned by imitating a fixed expert.
翻訳日:2021-04-17 17:23:08 公開日:2021-03-19
# (参考訳) 補助的損失以上のもの:逆行性擬似深度世代による抗スポーフィングバックボーントレーニング [全文訳有]

More than just an auxiliary loss: Anti-spoofing Backbone Training via Adversarial Pseudo-depth Generation ( http://arxiv.org/abs/2101.00200v2 )

ライセンス: CC BY 4.0
Chang Keun Paik, Naeun Ko, Youngjoon Yoo(参考訳) 本稿では,RGB画像を用いたアンチ・スプーフィングのタスクにおいて,重要な性能を発揮するための新しい訓練パイプラインについて述べる。 我々は,最終的な分類器のバックボーンとして使用されるネットワークの事前学習にpseudo-depthを使用することによる影響を探求し,強調する。 アンチスプーフィングタスクにおける擬似深みの使用は、それ自体では新しいアイデアではないが、従来の試みでは、予測を行うための機能や、主分類器のトレーニングを支援する補助的損失の一部として、単に別の意味情報として擬似深みの重要性を正規化するために、単に別の媒体として疑似深みを使用する。 この研究を通じて,前訓練された生成元学習によって最終的な分類器を訓練することで,生成的逆ネットワークフレームワークから与えられた顔画像の擬似奥行きを予測できるという大きな利点があると主張する。 実験結果から,本手法はデータセット内サンプルだけでなく,トレーニング中に見たことのないデータセット間サンプルにも一般化可能な,より適応性の高いシステムであることが示唆された。 定量的に, この手法は, 15.8 倍のパラメータを用いて, 最新のアンチスプーフィングモデルのベースライン性能に接近する。 さらに, 提案手法は, 付加的なラベル付けと資源とのトレードオフを考慮した産業・アプリケーション環境において, 付加的な意味情報を持たない基本バイナリラベルのみを用いて, 有効に動作することを示した。

In this paper, a new method of training pipeline is discussed to achieve significant performance on the task of anti-spoofing with RGB image. We explore and highlight the impact of using pseudo-depth to pre-train a network that will be used as the backbone to the final classifier. While the usage of pseudo-depth for anti-spoofing task is not a new idea on its own, previous endeavours utilize pseudo-depth simply as another medium to extract features for performing prediction, or as part of many auxiliary losses in aiding the training of the main classifier, normalizing the importance of pseudo-depth as just another semantic information. Through this work, we argue that there exists a significant advantage in training the final classifier can be gained by the pre-trained generator learning to predict the corresponding pseudo-depth of a given facial image, from a Generative Adversarial Network framework. Our experimental results indicate that our method results in a much more adaptable system that can generalize beyond intra-dataset samples, but to inter-dataset samples, which it has never seen before during training. Quantitatively, our method approaches the baseline performance of the current state of the art anti-spoofing models with 15.8x less parameters used. Moreover, experiments showed that the introduced methodology performs well only using basic binary label without additional semantic information which indicates potential benefits of this work in industrial and application based environment where trade-off between additional labelling and resources are considered.
翻訳日:2021-04-17 11:53:05 公開日:2021-03-19
# (参考訳) 半教師付き畳み込みエンコーダデコーダを用いた円走査合成アパーチャ超音波画像のターゲット検出とセグメンテーション [全文訳有]

Target Detection and Segmentation in Circular-Scan Synthetic-Aperture-S onar Images using Semi-Supervised Convolutional Encoder-Decoders ( http://arxiv.org/abs/2101.03603v2 )

ライセンス: CC BY 4.0
Isaac J. Sledge, Matthew S. Emigh, Jonathan L. King, Denton L. Woods, J. Tory Cobb, Jose C. Principe(参考訳) 本研究では,円形走査型合成アパーチャソナー(csas)を用いた多面的半コヒーレント画像のためのサリエンシーに基づくマルチターゲット検出・セグメンテーションフレームワークを提案する。 我々のフレームワークはマルチブランチ・畳み込みエンコーダ・デコーダネットワーク(MB-CEDN)に依存している。 エンコーダ部は、ターゲットの1つ以上のCSAS画像から特徴を抽出する。 これらの特徴を分割して複数のデコーダに供給し、抽出した特徴のピクセルレベル分類を行い、教師なしの方法でターゲットを大まかにマスクし、教師なしの方法で前景と背景画素を検出する。 これらのターゲット検出推定は、ターゲットを構成するものに関して異なる視点を提供する。 これらの意見は、文脈的および空間的制約をモデル化するディープパーシングネットワークにケースケードされ、どちらのソリューション推定よりもターゲットを分離するのに役立つ。 5つの対象クラスを持つ実世界のCSASデータを用いて,本フレームワークの評価を行った。 我々はCSASターゲット検出とセグメンテーションの両方を最初に検討するため、既存の画像およびビデオ処理ネットワークトポロジを比較目的から適用する。 私たちのフレームワークはディープネットワークよりも優れています。 これは、様々な標的と海底タイプに対する最先端の教師なしアプローチを大幅に上回る。

We propose a saliency-based, multi-target detection and segmentation framework for multi-aspect, semi-coherent imagery formed from circular-scan, synthetic-aperture sonar (CSAS). Our framework relies on a multi-branch, convolutional encoder-decoder network (MB-CEDN). The encoder portion extracts features from one or more CSAS images of the targets. These features are then split off and fed into multiple decoders that perform pixel-level classification on the extracted features to roughly mask the target in an unsupervised-trained manner and detect foreground and background pixels in a supervised-trained manner. Each of these target-detection estimates provide different perspectives as to what constitute a target. These opinions are cascaded into a deep-parsing network to model contextual and spatial constraints that help isolate targets better than either solution estimate alone. We evaluate our framework using real-world CSAS data with five broad target classes. Since we are the first to consider both CSAS target detection and segmentation, we adapt existing image and video-processing network topologies from the literature for comparative purposes. We show that our framework outperforms supervised deep networks. It greatly outperforms state-of-the-art unsupervised approaches for diverse target and seafloor types.
翻訳日:2021-04-08 10:51:00 公開日:2021-03-19
# 絶対値制約:株価予測のためのニューラルネットワークモデルの性能評価を無効にする理由

Absolute Value Constraint: The Reason for Invalid Performance Evaluation Results of Neural Network Models for Stock Price Prediction ( http://arxiv.org/abs/2101.10942v2 )

ライセンス: Link先を確認
Yi Wei(参考訳) 株価予測のためのニューラルネットワーク(NNSPP)は数十年前から人気がある。 しかし、研究成果の大部分は研究論文に残っており、証券市場において真の役割を果たすことはできない。 この状況に繋がる主な理由の1つは、予測誤差(PE)に基づく評価結果に統計的欠陥があることである。 その予測結果は、最も重要な金融方向の属性を表現できない。 そのため、証券市場における実践的応用のための説得力、解釈性、一貫性のあるモデルパフォーマンス評価結果を投資家に提供することはできない。 説明するために、中国上海と深センの株式市場から6年間で20の株式データセットから選択されたデータと、米国nasdaqとnyseの20の株式データセットを使用しました。 我々は6つの浅い深層ニューラルネットワークを実装し、株価を予測し、4つの予測誤差を評価に用いた。 その結果、予測誤差値は、株価予測のモデル精度を部分的に反映するだけであり、モデル予測株価の方向の変化を反映できないことがわかった。 この特徴は、PEがNSPPの評価指標として適切でないことを決定する。 そうでなければ、投資家に大きなリスクをもたらすことになる。 そこで本論文では,PE法がNSPP評価に適さないことを確認する実験プラットフォームを構築し,今後新たなNSPP評価法を作成する必要があるという理論的根拠を提供する。

Neural networks for stock price prediction(NNSPP) have been popular for decades. However, most of its study results remain in the research paper and cannot truly play a role in the securities market. One of the main reasons leading to this situation is that the prediction error(PE) based evaluation results have statistical flaws. Its prediction results cannot represent the most critical financial direction attributes. So it cannot provide investors with convincing, interpretable, and consistent model performance evaluation results for practical applications in the securities market. To illustrate, we have used data selected from 20 stock datasets over six years from the Shanghai and Shenzhen stock market in China, and 20 stock datasets from NASDAQ and NYSE in the USA. We implement six shallow and deep neural networks to predict stock prices and use four prediction error measures for evaluation. The results show that the prediction error value only partially reflects the model accuracy of the stock price prediction, and cannot reflect the change in the direction of the model predicted stock price. This characteristic determines that PE is not suitable as an evaluation indicator of NNSPP. Otherwise, it will bring huge potential risks to investors. Therefore, this paper establishes an experiment platform to confirm that the PE method is not suitable for the NNSPP evaluation, and provides a theoretical basis for the necessity of creating a new NNSPP evaluation method in the future.
翻訳日:2021-04-08 08:18:44 公開日:2021-03-19
# (参考訳) 特徴抽出手法を用いた分類を用いた学生感情分析

Student sentiment Analysis Using Classification With Feature Extraction Techniques ( http://arxiv.org/abs/2102.05439v2 )

ライセンス: CC BY 4.0
Latika Tamrakar, Dr.Padmavati Shrivastava, Dr. S. M. Ghosh(参考訳) 技術的成長は、技術と知り合ったり、学習経験を高めることによって、教育システムに多くの革命をもたらした。 現在、Webベースの学習は大いに人気を集めている。 本稿では,Webベースの学習とその学生に対する効果について述べる。 教育や学習システムの主要な要素の1つはフィードバックであり、効果的に使わなければならないかどうかを学ぶことは有益である。 本稿では,ロジスティック回帰(LR),サポートベクトルマシン(SVM),ネイブベイズ(NB),決定木(DT)といった機械学習技術が,フィードバック学生の感情に重きを置くWebベース学習にどのように適用できるかを検討する。 また,2種類の特徴抽出手法 (FET) ,すなわち,数ベクトル (CVr) と単語のバグ (BoW) と,項周波数と逆文書周波数 (TF-IDF) の2種類について検討する。 本研究では,提案するLR, SVM, NB, DTモデルを用いて, 学生フィードバックデータセット(SFB)の存在を分類し, クリーン化データセットと特徴抽出技術を用いて精度を向上することが目的である。 SFBは,学生の感情分析において重要な関心事の一つである。

Technical growths have empowered, numerous revolutions in the educational system by acquainting with technology into the classroom and by elevating the learning experience. Nowadays Web-based learning is getting much popularity. This paper describes the web-based learning and their effectiveness towards students. One of the prime factors in education or learning system is feedback; it is beneficial to learning if it must be used effectively. In this paper, we worked on how machine learning techniques like Logistic Regression (LR), Support Vector Machine (SVM), Naive Bayes (NB), Decision Tree (DT) can be applied over Web-based learning, emphasis given on sentiment present in the feedback students. We also work on two types of Feature Extraction Technique (FETs) namely Count Vector (CVr) or Bag of Words) (BoW) and Term Frequency and Inverse Document Frequency (TF-IDF) Vector. In the research study, it is our goal for our proposed LR, SVM, NB, and DT models to classify the presence of Student Feedback Dataset (SFB) with improved accuracy with cleaned dataset and feature extraction techniques. The SFB is one of the significant concerns among the student sentimental analysis.
翻訳日:2021-04-06 08:00:34 公開日:2021-03-19
# 3次元表面上の偏微分方程式に対する物理インフォームドニューラルネットワークフレームワーク:時間依存問題

A Physics-Informed Neural Network Framework For Partial Differential Equations on 3D Surfaces: Time-Dependent Problems ( http://arxiv.org/abs/2103.13878v1 )

ライセンス: Link先を確認
Zhiwei Fang, Justin Zhang, Xiu Yang(参考訳) 本稿では,時間依存曲面PDEに対する物理インフォームドニューラルネットワークの解法について述べる。 従来の数値解法とは異なり、表面上のPDEとメッシュの拡張は不要である。 表面微分作用素の簡易な事前推定を行い、PINNの損失値が表面PDEの残余の指標となることを示す。 数値実験により本アルゴリズムの有効性が検証された。

In this paper, we show a physics-informed neural network solver for the time-dependent surface PDEs. Unlike the traditional numerical solver, no extension of PDE and mesh on the surface is needed. We show a simplified prior estimate of the surface differential operators so that PINN's loss value will be an indicator of the residue of the surface PDEs. Numerical experiments verify efficacy of our algorithm.
翻訳日:2021-04-05 01:07:37 公開日:2021-03-19
# $FM^2$:Recommenderシステムのためのフィールド行列化ファクトリゼーションマシン

$FM^2$: Field-matrixed Factorization Machines for Recommender Systems ( http://arxiv.org/abs/2102.12994v2 )

ライセンス: Link先を確認
Yang Sun, Junwei Pan, Alex Zhang, Aaron Flores(参考訳) クリックスルー率(CTR)予測はレコメンダシステムやオンライン広告において重要な役割を果たす。 これらのアプリケーションで使用されるデータはマルチフィールド分類データであり、各機能は1つのフィールドに属する。 フィールド情報は重要であることが証明され、モデルのフィールドを考慮したいくつかの研究がある。 本稿では,フィールド情報を効果的かつ効率的にモデル化する新しい手法を提案する。 提案手法はFwFMの直接改良であり、FmFM(Field-matrixed Factorization Machines)と呼ばれる。 また、FmFMフレームワークにおけるFMとFwFMの新たな説明を提案し、FFMと比較した。 クロス項のプルーニングに加えて、我々のモデルは、ソフトプルーニングとして機能する埋め込みベクトルのフィールド固有変数次元をサポートする。 また、モデル性能を維持しながら寸法を最小化する効率的な方法も提案した。 FmFMモデルは中間ベクトルをキャッシュすることでさらに最適化することができ、予測には数千の浮動小数点演算(FLOP)しか必要としない。 実験の結果,FFMよりも複雑であることがわかった。 FmFMモデルの性能は、実行時にもっとFLOPを必要とするDNNモデルに匹敵する。

Click-through rate (CTR) prediction plays a critical role in recommender systems and online advertising. The data used in these applications are multi-field categorical data, where each feature belongs to one field. Field information is proved to be important and there are several works considering fields in their models. In this paper, we proposed a novel approach to model the field information effectively and efficiently. The proposed approach is a direct improvement of FwFM, and is named as Field-matrixed Factorization Machines (FmFM, or $FM^2$). We also proposed a new explanation of FM and FwFM within the FmFM framework, and compared it with the FFM. Besides pruning the cross terms, our model supports field-specific variable dimensions of embedding vectors, which acts as soft pruning. We also proposed an efficient way to minimize the dimension while keeping the model performance. The FmFM model can also be optimized further by caching the intermediate vectors, and it only takes thousands of floating-point operations (FLOPs) to make a prediction. Our experiment results show that it can out-perform the FFM, which is more complex. The FmFM model's performance is also comparable to DNN models which require much more FLOPs in runtime.
翻訳日:2021-04-05 00:43:07 公開日:2021-03-19
# よりポジティブに考える:教師なし再同定における対比的リアリングの実証的研究

Take More Positives: An Empirical Study of Contrastive Learing in Unsupervised Person Re-Identification ( http://arxiv.org/abs/2101.04340v2 )

ライセンス: Link先を確認
Xuanyu He, Wei Zhang, Ran Song, Qian Zhang, Xiangyuan Lan, Lin Ma(参考訳) unsupervised person re-id(re-id)は、教師なしメソッドのパフォーマンスギャップを閉じることを目的としている。 これらの手法は,データポイント間の信頼関係を学習中に構築する。 しかし,その成功の理由は,ラベル生成機構だけでなく,探索されていない設計の理由も実証的に示す。 教師なしの2つのre-ID手法をクロスメソッドで研究することにより、データ拡張とPKサンプリングの設計により、暗黙的にハードネガティブな問題を処理できることを指摘する。 本稿では,この問題に対する別の単純な解,すなわちトレーニング中により多くの正の値を取る方法を見いだし,擬似ラベルを生成し,反復的にモデルを更新する。 そこで本研究では,教師なし者に対するメモリバックのないコントラスト学習法を提案する。 我々の手法はベンチマークデータセットでうまく機能し、最先端の手法よりも優れています。 コードは利用可能になる。

Unsupervised person re-identification (re-ID) aims at closing the performance gap to supervised methods. These methods build reliable relationship between data points while learning representations. However, we empirically show that the reason why they are successful is not only their label generation mechanisms, but also their unexplored designs. By studying two unsupervised person re-ID methods in a cross-method way, we point out a hard negative problem is handled implicitly by their designs of data augmentations and PK sampler respectively. In this paper, we find another simple solution for the problem, i.e., taking more positives during training, by which we generate pseudo-labels and update models in an iterative manner. Based on our findings, we propose a contrastive learning method without a memory back for unsupervised person re-ID. Our method works well on benchmark datasets and outperforms the state-of-the-art methods. Code will be made available.
翻訳日:2021-04-04 01:45:00 公開日:2021-03-19
# (参考訳) nepta-uranian interplanetary(nuip) ミッションのためのニューラルネットワークの実装

Implementation of Artificial Neural Networks for the Nepta-Uranian Interplanetary (NUIP) Mission ( http://arxiv.org/abs/2103.11843v1 )

ライセンス: CC BY 4.0
Saurabh Gore, Manuel Ntumba(参考訳) 2030年代初頭には海王星、天王星、木星の間の天体のアライメントが実現し、2つの氷の巨人の周囲で惑星のフライオーバー能力を達成するのに十分な運動量が得られる。 nuipミッションの出発窓のための天王星探査機の打ち上げは2030年1月から2035年1月までであり、ミッションの期間は6年から10年であり、nuipミッションの出発窓のためのneptaプローブの打ち上げは2031年2月から2032年4月までであり、ミッションの期間は7年から10年である。 最善を尽くすために。 深層学習は、自律的かつインテリジェントな空間誘導問題において重要な役割を果たすことが期待されている。 これにより、旅行時間が短縮され、ミッション時間が短縮され、宇宙船は15年以内の高度な機器や電力システムの寿命を保てるようになる。 本稿では、ミッション中に最適な制御動作と画像分類を予測することができる深層ニューラルネットワーク、すなわち畳み込みニューラルネットワークと繰り返しニューラルネットワークの設計を提案する。 nepta-uranian interplanetary mission(nepta-urania n interplanetary mission) 最適搭載カメラで撮影されたraw画像のみを使用する。 また、nepta-uranian宇宙船の通信システムの設計につながったnuipミッションのユニークな要件と制約についても記述している。 提案されたミッションは、フライオーバーを行いながら天王星と海王星のテレメトリデータを収集し、得られたデータを地球に送信してさらなる分析を行う。 高度な分光計と粒子検出器は、氷の巨人の性質をよりよく定量化できるだろう。

A celestial alignment between Neptune, Uranus, and Jupiter will occur in the early 2030s, allowing a slingshot around Jupiter to gain enough momentum to achieve planetary flyover capability around the two ice giants. The launch of the uranian probe for the departure windows of the NUIP mission is between January 2030 and January 2035, and the duration of the mission is between six and ten years, and the launch of the Nepta probe for the departure windows of the NUIP mission is between February 2031 and April 2032 and the duration of the mission is between seven and ten years. To get the most out of alignment. Deep learning methods are expected to play a critical role in autonomous and intelligent spatial guidance problems. This would reduce travel time, hence mission time, and allow the spacecraft to perform well for the life of its sophisticated instruments and power systems up to fifteen years. This article proposes a design of deep neural networks, namely convolutional neural networks and recurrent neural networks, capable of predicting optimal control actions and image classification during the mission. Nepta-Uranian interplanetary mission, using only raw images taken by optimal onboard cameras. It also describes the unique requirements and constraints of the NUIP mission, which led to the design of the communications system for the Nepta-Uranian spacecraft. The proposed mission is expected to collect telemetry data on Uranus and Neptune while performing the flyovers and transmit the obtained data to Earth for further analysis. The advanced range of spectrometers and particle detectors available would allow better quantification of the ice giant's properties.
翻訳日:2021-03-26 06:32:43 公開日:2021-03-19
# (参考訳) コントラスト検出による視覚訓練の効率化 [全文訳有]

Efficient Visual Pretraining with Contrastive Detection ( http://arxiv.org/abs/2103.10957v1 )

ライセンス: CC BY 4.0
Olivier J. H\'enaff, Skanda Koppula, Jean-Baptiste Alayrac, Aaron van den Oord, Oriol Vinyals, Jo\~ao Carreira(参考訳) 自己教師付き事前学習は、転送学習に強力な表現をもたらすことが示されている。 しかし、これらのパフォーマンス向上は計算コストが大きく、最先端の手法は教師付き事前訓練よりも桁違いに多くの計算を必要とする。 我々は,この計算ボトルネックに,オブジェクトレベルの特徴を拡張的に識別するタスクを,新たな自己監督的,コントラスト的検出を導入することで対処する。 この目的は、画像毎の豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能を実現すると同時に、最大5倍の事前トレーニングを必要とする。 特に、我々の最強のimagenetプリトレーニングモデルは、これまでで最大の自己監督システムであるseerと同等の性能を備えています。 最後に,COCO から PASCAL への教師あり移行学習によるギャップを埋めるため,COCO などの複雑な画像の事前学習をシームレスに行う。

Self-supervised pretraining has been shown to yield powerful representations for transfer learning. These performance gains come at a large computational cost however, with state-of-the-art methods requiring an order of magnitude more computation than supervised pretraining. We tackle this computational bottleneck by introducing a new self-supervised objective, contrastive detection, which tasks representations with identifying object-level features across augmentations. This objective extracts a rich learning signal per image, leading to state-of-the-art transfer performance from ImageNet to COCO, while requiring up to 5x less pretraining. In particular, our strongest ImageNet-pretrained model performs on par with SEER, one of the largest self-supervised systems to date, which uses 1000x more pretraining data. Finally, our objective seamlessly handles pretraining on more complex images such as those in COCO, closing the gap with supervised transfer learning from COCO to PASCAL.
翻訳日:2021-03-26 06:31:30 公開日:2021-03-19
# (参考訳) ノイズ最適化による微分プライベート推論

Differentially private inference via noisy optimization ( http://arxiv.org/abs/2103.11003v1 )

ライセンス: CC BY 4.0
Marco Avella-Medina, Casey Bradshaw, Po-Ling Loh(参考訳) 本稿では,微分プライベートm推定器を計算するための汎用最適化ベースフレームワークと,差分プライベート信頼領域を構築する新しい手法を提案する。 まず,大域的線形あるいは二次収束を伴う最適プライベート推定器を得るために,雑音勾配降下法や雑音ニュートン法と併用して,ロバストな統計が利用できることを示す。 我々は局所的かつ大域的収束の保証を局所的強い凸性と自己一致の両方の下で確立し、我々のプライベートな推定器は非プライベートなm-推定器のほぼ最適な近傍に高い確率で収束することを示した。 第二に, パラメトリック推定の問題を, 自己の非漸近的分散の微分的プライベート推定器を構成することで解決する。 これは当然、信頼領域を構築し仮説検証を行う上で重要な統計量の近似につながる。 シミュレーションにおける小サンプル実験性能の向上につながるバイアス補正の有効性を実証する。 本手法の利点をいくつかの数値例で示す。

We propose a general optimization-based framework for computing differentially private M-estimators and a new method for constructing differentially private confidence regions. Firstly, we show that robust statistics can be used in conjunction with noisy gradient descent or noisy Newton methods in order to obtain optimal private estimators with global linear or quadratic convergence, respectively. We establish local and global convergence guarantees, under both local strong convexity and self-concordance, showing that our private estimators converge with high probability to a nearly optimal neighborhood of the non-private M-estimators. Secondly, we tackle the problem of parametric inference by constructing differentially private estimators of the asymptotic variance of our private M-estimators. This naturally leads to approximate pivotal statistics for constructing confidence regions and conducting hypothesis testing. We demonstrate the effectiveness of a bias correction that leads to enhanced small-sample empirical performance in simulations. We illustrate the benefits of our methods in several numerical examples.
翻訳日:2021-03-26 06:13:44 公開日:2021-03-19
# (参考訳) AxonNet:DW-MRIによるボクセル内構造推定のための自己教師型ディープニューラルネットワーク [全文訳有]

AxonNet: A self-supervised Deep Neural Network for Intravoxel Structure Estimation from DW-MRI ( http://arxiv.org/abs/2103.11006v1 )

ライセンス: CC0 1.0
Hanna Ehrlich and Mariano Rivera(参考訳) 本稿では,深層学習に基づくDW-MRIからのボクセル内パラメータ推定手法を提案する。 ニューラルネットワーク(DNN)が拡散強調信号から情報を抽出し,脳幹を再構築する可能性を示唆する。 2つのDNNモデルを提案する: 1つはボクセルの形で軸索構造を推定し、もう1つはボクセル近傍を用いて中心ボクセルの構造を計算する。 提案手法は問題に適したパラメータ表現に基づいている。 買収プロトコルの真のタグ付けデータを持つことは事実上不可能であるため、自己管理戦略を用いた。 総合データと実データを用いた実験により,我々のアプローチは競争的であり,学習時間を考慮した場合であっても,計算時間はsoma法よりも高速であることが判明した。 同じ取得プロトコルで複数の画像の予測を考えると、この計算上の利点は増加する。

We present a method for estimating intravoxel parameters from a DW-MRI based on deep learning techniques. We show that neural networks (DNNs) have the potential to extract information from diffusion-weighted signals to reconstruct cerebral tracts. We present two DNN models: one that estimates the axonal structure in the form of a voxel and the other to calculate the structure of the central voxel using the voxel neighborhood. Our methods are based on a proposed parameter representation suitable for the problem. Since it is practically impossible to have real tagged data for any acquisition protocol, we used a self-supervised strategy. Experiments with synthetic data and real data show that our approach is competitive, and the computational times show that our approach is faster than the SOTA methods, even if training times are considered. This computational advantage increases if we consider the prediction of multiple images with the same acquisition protocol.
翻訳日:2021-03-26 06:12:43 公開日:2021-03-19
# (参考訳) 心臓が母国語で話す:多言語による心臓信号のキャプション [全文訳有]

Let Your Heart Speak in its Mother Tongue: Multilingual Captioning of Cardiac Signals ( http://arxiv.org/abs/2103.11011v1 )

ライセンス: CC BY 4.0
Dani Kiyasseh, Tingting Zhu, David Clifton(参考訳) 心電図などの心臓信号は、臨床報告の形で一般的に臨床医によって要約される患者の健康状態に関するかなりの量の情報を伝達する。 そこで本研究では,心臓信号を入力として受信し,臨床報告を出力として生成するディープニューラルネットワークを提案する。 さらにこれを拡張して多言語レポートを生成します。 そこで我々は,多言語の臨床報告データセットを作成し,公開する。 十分なラベル付きデータがない場合、ディープニューラルネットワークは、パラメータが任意のタスクで最初に学習されるウォームスタートや事前トレーニングの恩恵を受ける。 本稿では,臨床報告からのトークンを他言語のトークンとランダムに置換し,全てのトークンの言語予測を行う,識別型多言語事前学習の形式でそのようなタスクを提案する。 本手法は, MLM, ELECTRA, MARGEなどの最先端の事前訓練法と同等に動作し, 同時に多種多様な臨床報告が得られた。 また、多言語モデルはモノリンガルモデルよりも優れており、非公式にこの有益な現象を多言語モデルの祝福と表現している。

Cardiac signals, such as the electrocardiogram, convey a significant amount of information about the health status of a patient which is typically summarized by a clinician in the form of a clinical report, a cumbersome process that is prone to errors. To streamline this routine process, we propose a deep neural network capable of captioning cardiac signals; it receives a cardiac signal as input and generates a clinical report as output. We extend this further to generate multilingual reports. To that end, we create and make publicly available a multilingual clinical report dataset. In the absence of sufficient labelled data, deep neural networks can benefit from a warm-start, or pre-training, procedure in which parameters are first learned in an arbitrary task. We propose such a task in the form of discriminative multilingual pre-training where tokens from clinical reports are randomly replaced with those from other languages and the network is tasked with predicting the language of all tokens. We show that our method performs on par with state-of-the-art pre-training methods such as MLM, ELECTRA, and MARGE, while simultaneously generating diverse and plausible clinical reports. We also demonstrate that multilingual models can outperform their monolingual counterparts, informally terming this beneficial phenomenon as the blessing of multilinguality.
翻訳日:2021-03-26 05:59:32 公開日:2021-03-19
# (参考訳) 自動運転のためのビデオクラス非依存セグメンテーションベンチマーク [全文訳有]

Video Class Agnostic Segmentation Benchmark for Autonomous Driving ( http://arxiv.org/abs/2103.11015v1 )

ライセンス: CC BY 4.0
Mennatullah Siam, Alex Kendall, Martin Jagersand(参考訳) セマンティックセグメンテーションアプローチは通常、未知のオブジェクトを考慮せずに、閉じた有限個の既知のクラスを持つ大規模データで訓練される。 特定の安全クリティカルなロボットアプリケーション、特に自動運転では、トレーニング時に未知のものを含め、すべてのオブジェクトを分割することが重要である。 自律運転における単眼映像列から未知物体へのビデオクラス非依存セグメンテーションのタスクを定式化する。 ビデオクラス非依存セグメンテーションは、オープンセットまたはモーションセグメンテーション問題として定式化することができる。 両方の定式化を議論し、データセットを提供し、両方のトラックに対して異なるベースラインアプローチをベンチマークする。 モーションセグメンテーショントラックでは,リアルタイムジョイントパンオプティカルとモーションインスタンスセグメンテーションのベンチマークを行い,エゴフロー抑制の効果を評価した。 オープンセットセグメンテーショントラックでは、外観と幾何学を組み合わせたベースライン手法を評価し、セマンティッククラスごとのプロトタイプを学習する。 次に、これを補助的なコントラスト損失を用いて既知のオブジェクトと未知のオブジェクトの識別を改善するモデルと比較する。 すべてのデータセットとモデルがhttps://msiam.github .io/vca/で公開されている。

Semantic segmentation approaches are typically trained on large-scale data with a closed finite set of known classes without considering unknown objects. In certain safety-critical robotics applications, especially autonomous driving, it is important to segment all objects, including those unknown at training time. We formalize the task of video class agnostic segmentation from monocular video sequences in autonomous driving to account for unknown objects. Video class agnostic segmentation can be formulated as an open-set or a motion segmentation problem. We discuss both formulations and provide datasets and benchmark different baseline approaches for both tracks. In the motion-segmentation track we benchmark real-time joint panoptic and motion instance segmentation, and evaluate the effect of ego-flow suppression. In the open-set segmentation track we evaluate baseline methods that combine appearance, and geometry to learn prototypes per semantic class. We then compare it to a model that uses an auxiliary contrastive loss to improve the discrimination between known and unknown objects. All datasets and models are publicly released at https://msiam.github .io/vca/.
翻訳日:2021-03-26 05:41:22 公開日:2021-03-19
# (参考訳) ヨーロッパ温帯森林におけるAIを用いた哺乳類のカメラトラップ画像からの自動種認識への第一歩 [全文訳有]

A first step towards automated species recognition from camera trap images of mammals using AI in a European temperate forest ( http://arxiv.org/abs/2103.11052v1 )

ライセンス: CC BY 4.0
Mateusz Choinski, Mateusz Rogowski, Piotr Tynecki, Dries P.J. Kuijper, Marcin Churski, Jakub W. Bubnicki(参考訳) カメラトラップは世界中で野生生物の監視に使われている。 ディープラーニング(dl)モデルの可用性は高まっているが、野生生物のモニタリングをサポートするためのこの技術の有効利用は限られている。 これは主にDL技術の複雑さと高い計算要求のためである。 本稿では,ポーランドのビアロヴィエザ森林(BF)における哺乳類のカメラトラップ画像の自動ラベル付けのための軽量で最先端のYOLOv5アーキテクチャの実装について述べる。 カメラトラップデータは、大規模な野生生物監視プロジェクトを管理するためのオープンソースアプリケーションであるTRAPPERソフトウェアを使用して、編成および調和された。 提案した画像認識パイプラインは、訓練データと試験データ(動物との合計2659枚)を用いて、BFにおいて最も多く発生する中型および大型哺乳動物12種の識別において、平均85%のF1スコアを達成した。 予備的な結果から, YOLOv5オブジェクト検出・分類モデルは, 転送学習手法の導入後, 有望な軽量DLソリューションであると結論付けた。 API経由で既存のWebベースのカメラトラップデータ処理プラットフォームに効率的に接続することができる。 TRAPPERシステム。 trapperはすでに、ヨーロッパの多くの研究グループによるカメラトラッピングデータセットの管理と分類に使われているため、aiベースの自動種分類の実装は、データ処理ワークフローを著しく高速化し、データ駆動野生生物の監視と保存を支援する。 さらに、YOLOv5開発者は、カメラトラップデバイスから直接、動物集団監視の新しい章を開くことができるエッジデバイス上で、より良いパフォーマンスを実現している。

Camera traps are used worldwide to monitor wildlife. Despite the increasing availability of Deep Learning (DL) models, the effective usage of this technology to support wildlife monitoring is limited. This is mainly due to the complexity of DL technology and high computing requirements. This paper presents the implementation of the light-weight and state-of-the-art YOLOv5 architecture for automated labeling of camera trap images of mammals in the Bialowieza Forest (BF), Poland. The camera trapping data were organized and harmonized using TRAPPER software, an open source application for managing large-scale wildlife monitoring projects. The proposed image recognition pipeline achieved an average accuracy of 85% F1-score in the identification of the 12 most commonly occurring medium-size and large mammal species in BF using a limited set of training and testing data (a total 2659 images with animals). Based on the preliminary results, we concluded that the YOLOv5 object detection and classification model is a promising light-weight DL solution after the adoption of transfer learning technique. It can be efficiently plugged in via an API into existing web-based camera trapping data processing platforms such as e.g. TRAPPER system. Since TRAPPER is already used to manage and classify (manually) camera trapping datasets by many research groups in Europe, the implementation of AI-based automated species classification may significantly speed up the data processing workflow and thus better support data-driven wildlife monitoring and conservation. Moreover, YOLOv5 developers perform better performance on edge devices which may open a new chapter in animal population monitoring in real time directly from camera trap devices.
翻訳日:2021-03-26 05:30:25 公開日:2021-03-19
# 順序付きメモリポリシネットワークによるタスク分割の学習

Learning Task Decomposition with Ordered Memory Policy Network ( http://arxiv.org/abs/2103.10972v1 )

ライセンス: Link先を確認
Yuchen Lu, Yikang Shen, Siyuan Zhou, Aaron Courville, Joshua B. Tenenbaum, Chuang Gan(参考訳) 多くの複雑な現実世界のタスクはいくつかのレベルのサブタスクで構成されている。 人間はこれらの階層構造を利用して学習プロセスを加速し、より良い一般化を達成する。 本研究では,インダクティブバイアスを研究し,実演から学習することでサブタスク階層を発見するための順序記憶ポリシーネットワーク(ompn)を提案する。 検出されたサブタスク階層はタスクの分解や、未解決のデモンストレーションでサブタスク境界の回復に使用できる。 craft と dial の実験では,非教師なし設定と弱い教師なし設定の両方において,強いベースラインと比較して高いタスク分解性能を達成可能であることを実証した。 ompnは部分的に観測可能な環境にも直接適用でき、タスクの分解性能も向上する。 私たちの視覚化は、サブタスク階層がモデルに現れることをさらに確認します。

Many complex real-world tasks are composed of several levels of sub-tasks. Humans leverage these hierarchical structures to accelerate the learning process and achieve better generalization. In this work, we study the inductive bias and propose Ordered Memory Policy Network (OMPN) to discover subtask hierarchy by learning from demonstration. The discovered subtask hierarchy could be used to perform task decomposition, recovering the subtask boundaries in an unstruc-tured demonstration. Experiments on Craft and Dial demonstrate that our modelcan achieve higher task decomposition performance under both unsupervised and weakly supervised settings, comparing with strong baselines. OMPN can also bedirectly applied to partially observable environments and still achieve higher task decomposition performance. Our visualization further confirms that the subtask hierarchy can emerge in our model.
翻訳日:2021-03-23 14:56:44 公開日:2021-03-19
# textessence:コーパス間の意味的変化をインタラクティブに解析するツール

TextEssence: A Tool for Interactive Analysis of Semantic Shifts Between Corpora ( http://arxiv.org/abs/2103.11029v1 )

ライセンス: Link先を確認
Denis Newman-Griffis, Venkatesh Sivaraman, Adam Perer, Eric Fosler-Lussier, Harry Hochheiser(参考訳) 単語や概念の埋め込みは言語の構文や意味の規則性を捉えているが、異なるコーパスの特性や相互関係を研究するツールとしての使用は限られている。 組込みを用いたコーパスの比較分析を可能にする対話型システムtextessenceを提案する。 TextEssenceには、視覚的、隣接する、類似性に基づく、軽量なWebベースのインターフェースへの埋め込み分析モードが含まれている。 さらに,コーパス解析のための高品質な組込みの同定を支援するため,最寄りの近傍重なりに基づく組込み信頼度の新しい尺度を提案する。 新型コロナウイルスの科学的文献に関するケーススタディでは、システムの有用性が示されている。 TextEssenceはhttps://github.com/d rgriffis/text-essenc eから入手できる。

Embeddings of words and concepts capture syntactic and semantic regularities of language; however, they have seen limited use as tools to study characteristics of different corpora and how they relate to one another. We introduce TextEssence, an interactive system designed to enable comparative analysis of corpora using embeddings. TextEssence includes visual, neighbor-based, and similarity-based modes of embedding analysis in a lightweight, web-based interface. We further propose a new measure of embedding confidence based on nearest neighborhood overlap, to assist in identifying high-quality embeddings for corpus analysis. A case study on COVID-19 scientific literature illustrates the utility of the system. TextEssence is available from https://github.com/d rgriffis/text-essenc e.
翻訳日:2021-03-23 14:54:58 公開日:2021-03-19
# 個別に公平なランキング

Individually Fair Ranking ( http://arxiv.org/abs/2103.11023v1 )

ライセンス: Link先を確認
Amanda Bower, Hamid Eftekhari, Mikhail Yurochkin, Yuekai Sun(参考訳) 本研究では,LTRモデルを個別に学習するアルゴリズムを開発した。 提案手法では,少数グループの項目が多数派からの類似項目とともに現れることを保証する。 この公正ランク付けの概念は、教師付き学習から個々の公平性の定義に基づいており、単にランク付けモデルが低表示項目に基本的な露出レベルを提供することを保証する以前の公正なltrアプローチよりもニュアンスが高い。 本手法は, 個別の公正性を強制する最適輸送ベース正規化器と, 正規化器を最適化するための効率的なアルゴリズムである。 本手法は,個別に公平なltrモデルに結びつくことを示し,この手法が人口統計学の偏りを考慮した評価課題に有効であることを示す。

We develop an algorithm to train individually fair learning-to-rank (LTR) models. The proposed approach ensures items from minority groups appear alongside similar items from majority groups. This notion of fair ranking is based on the definition of individual fairness from supervised learning and is more nuanced than prior fair LTR approaches that simply ensure the ranking model provides underrepresented items with a basic level of exposure. The crux of our method is an optimal transport-based regularizer that enforces individual fairness and an efficient algorithm for optimizing the regularizer. We show that our approach leads to certifiably individually fair LTR models and demonstrate the efficacy of our method on ranking tasks subject to demographic biases.
翻訳日:2021-03-23 14:54:46 公開日:2021-03-19
# GNAS: 汎用ニューラルネットワークアーキテクチャ検索フレームワーク

GNAS: A Generalized Neural Network Architecture Search Framework ( http://arxiv.org/abs/2103.11820v1 )

ライセンス: Link先を確認
Dige Ai(参考訳) 実際には、NAS(Neural Architecture Search)のトレーニングで遭遇する問題は単純ではないが、難易度の組み合わせ(誤った補償推定、次元の呪い、過度な適合、高い複雑さなど)が直面することが多い。 そこで本研究では,NASの単一問題のみを解決し,実践的な技術の流れと組み合わせた従来の研究への参照と改善について述べる。 本稿では,演算子の探索空間からネットワーク構造を分離するフレームワークを提案する。 2つのBOHB(Bayesian Optimization Hyperband)を用いて、巨大なネットワーク構造と演算子探索空間を交互に探索する。 そして,児童モデルのフィードバックを用いて,GCN-baesd予測器を訓練した。 このアプローチは、効率を改善しながら次元の呪いを処理します。 活性化関数と初期化もニューラルネットワークの重要な構成要素であり、モデルの一般化能力に影響を与える可能性がある。 本稿では、アクティベーション関数と初期化メソッドドメインを導入し、演算子探索空間に結合して一般化された探索空間を形成し、子モデルの一般化能力を向上させる。 最後に、ニューラルネットワーク検索にフレームワークを適用し、複数のデータセットで大幅な改善を達成しました。

In practice, the problems encountered in training NAS (Neural Architecture Search) are not simplex, but a series of combinations of difficulties are often faced(incorrect compensation estimation, curse of dimension, overfitting, high complexity, etc.). From the point of view for solving practical problems, this paper makes reference and improvement to the previous researches which only solve the single problem of NAS, and combines them into a practical technology flow. This paper propose a framework that decouples the network structure from the search space for operators. We use two BOHBs(Bayesian Optimization Hyperband) to search alternately in the vast network structure and operator search space. And then, we trained a GCN-baesd predictor using the feedback of the child model. This approach takes care of the dimension curse while improving efficiency. Considering that activation function and initialization are also important components of neural network, and can affect the generalization ability of the model. This paper introduced an activation function and an initialization method domain, join them to the operator search space to form a generalized search space, thus improving the generalization ability of the child model. At last, We applied our framework to neural architecture search and achieved significant improvements on multiple datasets.
翻訳日:2021-03-23 14:50:25 公開日:2021-03-19
# ディープラーニングによるgmreのリアルタイム高速化

Accelerating GMRES with Deep Learning in Real-Time ( http://arxiv.org/abs/2103.10975v1 )

ライセンス: Link先を確認
Kevin Luna, Katherine Klymko, Johannes P. Blaschke(参考訳) GMRESは、非常に大きな線形方程式系の解を見つけるために用いられる強力な数値解法である。 これらの方程式系は科学や工学において多くの応用に現れる。 本稿では,GMRESの解法を高速化するために,リアルタイム機械学習アルゴリズムを実演する。 aiアクセラレータは、ユーザ入力(事前学習されたデータセットなど)を必要とせずに、ソリューションまでの時間を徐々に最適化する方法を学習します。 アルゴリズムがどのようにデータを集め、gmreを最適化するかを説明します。 我々は,python で高速化 (mlgmres) ソルバを実装し,アルゴリズムを実証する。 次に MLGMRES を用いてポアソン方程式の解を高速化する。 ポアソン方程式の形式解の性質にインフォームドされ、異なるニューラルネットワークの性能をテストする。 我々の重要な特徴は、非局所的な関係を学習できるネットワークは、入力問題の大きさでスケールする必要がなく、高速コンピューティングで発生する非常に大きな問題に対して良い候補となることである。 研究した入力に対して、我々の手法はおよそ2$\times$Accelerator を提供する。

GMRES is a powerful numerical solver used to find solutions to extremely large systems of linear equations. These systems of equations appear in many applications in science and engineering. Here we demonstrate a real-time machine learning algorithm that can be used to accelerate the time-to-solution for GMRES. Our framework is novel in that is integrates the deep learning algorithm in an in situ fashion: the AI-accelerator gradually learns how to optimizes the time to solution without requiring user input (such as a pre-trained data set). We describe how our algorithm collects data and optimizes GMRES. We demonstrate our algorithm by implementing an accelerated (MLGMRES) solver in Python. We then use MLGMRES to accelerate a solver for the Poisson equation -- a class of linear problems that appears in may applications. Informed by the properties of formal solutions to the Poisson equation, we test the performance of different neural networks. Our key takeaway is that networks which are capable of learning non-local relationships perform well, without needing to be scaled with the input problem size, making them good candidates for the extremely large problems encountered in high-performance computing. For the inputs studied, our method provides a roughly 2$\times$ acceleration.
翻訳日:2021-03-23 14:50:06 公開日:2021-03-19
# 物理インフォームドディープワントを用いたパラメトリック偏微分方程式の解作用素の学習

Learning the solution operator of parametric partial differential equations with physics-informed DeepOnets ( http://arxiv.org/abs/2103.10974v1 )

ライセンス: Link先を確認
Sifan Wang, Hanwen Wang, Paris Perdikaris(参考訳) ディープ作用素ネットワーク(DeepONets)は、無限次元バナッハ空間間の非線形作用素を近似する実証能力によって注目されている。 しかし、その顕著な初期の約束にもかかわらず、彼らは通常、取得に費用がかかる対の入出力観測からなる大きなデータセットを必要とするが、それらの予測は観測データを生成する基礎となる物理原理と一致しないかもしれない。 本研究では,deeponetモデルの出力を物理的一貫性を確保するために偏りを与える効果的な正則化機構を導入するために,物理に変形したdeeponetsという新しいモデルクラスを提案する。 これは、モデルトレーニング中にソフトペナルティ制約を通じて基礎となる物理法則を強制するために自動微分を利用することによって達成される。 我々は,このシンプルかつ極めて効果的な拡張が,DeepOnetsの予測精度を大幅に向上するだけでなく,大規模なトレーニングデータセットの必要性を大幅に低減できることを示した。 この目的のために、物理インフォームドディープノネットは与えられた初期条件や境界条件を除いて、ペアの入出力観測なしにパラメトリック偏微分方程式(PDE)を解くことができる。 提案手法の有効性を,多種多様なPDEを網羅した総合的な数値研究を通じて論じる。 驚くべきことに、訓練された物理学インフォームドディープネットモデルは、従来のpdeソルバと比較して最大3桁の速さで、1秒で$\mathcal{o}(10^3)$の時間依存pdeの解を予測できる。 この原稿に付随するデータとコードは、 \url{https://github.com/P redictiveIntelligenc eLab/Physics-informe d-DeepONets}で公開されている。

Deep operator networks (DeepONets) are receiving increased attention thanks to their demonstrated capability to approximate nonlinear operators between infinite-dimensional Banach spaces. However, despite their remarkable early promise, they typically require large training data-sets consisting of paired input-output observations which may be expensive to obtain, while their predictions may not be consistent with the underlying physical principles that generated the observed data. In this work, we propose a novel model class coined as physics-informed DeepONets, which introduces an effective regularization mechanism for biasing the outputs of DeepOnet models towards ensuring physical consistency. This is accomplished by leveraging automatic differentiation to impose the underlying physical laws via soft penalty constraints during model training. We demonstrate that this simple, yet remarkably effective extension can not only yield a significant improvement in the predictive accuracy of DeepOnets, but also greatly reduce the need for large training data-sets. To this end, a remarkable observation is that physics-informed DeepONets are capable of solving parametric partial differential equations (PDEs) without any paired input-output observations, except for a set of given initial or boundary conditions. We illustrate the effectiveness of the proposed framework through a series of comprehensive numerical studies across various types of PDEs. Strikingly, a trained physics informed DeepOnet model can predict the solution of $\mathcal{O}(10^3)$ time-dependent PDEs in a fraction of a second -- up to three orders of magnitude faster compared a conventional PDE solver. The data and code accompanying this manuscript are publicly available at \url{https://github.com/P redictiveIntelligenc eLab/Physics-informe d-DeepONets}.
翻訳日:2021-03-23 14:47:54 公開日:2021-03-19
# 概念的類似性とコミュニケーション的要求形状の照合--実験的研究

Conceptual similarity and communicative need shape colexification: an experimental study ( http://arxiv.org/abs/2103.11024v1 )

ライセンス: Link先を確認
Andres Karjus, Richard A. Blythe, Simon Kirby, Tianyu Wang, Kenny Smith(参考訳) 語彙化(colexification)とは、複数の意味が言語で1つの単語を共有する現象を指す。 言語間のレキシフィケーションパターンはほとんど予測可能であることが示されており、同様の概念はしばしばコレキシフィケーションされる。 この一般的な傾向を超えて、コレキシフィケーションパターンを形成する上でコミュニケーションの必要性が重要な役割を果たすという最近の主張を試す。 我々は、人工言語コミュニケーションゲームパラダイムを用いて、一連の人間実験を用いてこの問題にアプローチする。 我々の4つの実験の結果は、以前の言語横断的発見と一致している。 類似した意味のペアを頻繁に区別する必要性に直面した場合、話者はコミュニケーションの効率を維持するためにコレクサイゼーションの好みを調整し、コミュニケーションにおいて区別する必要がある類似した意味をコレクサリングすることを避ける。 この研究は、言語は話者のニーズと好みによって形成されるという議論を支持するさらなる証拠を提供する。

Colexification refers to the phenomenon of multiple meanings sharing one word in a language. Cross-linguistic lexification patterns have been shown to be largely predictable, as similar concepts are often colexified. We test a recent claim that, beyond this general tendency, communicative needs play an important role in shaping colexification patterns. We approach this question by means of a series of human experiments, using an artificial language communication game paradigm. Our results across four experiments match the previous cross-linguistic findings: all other things being equal, speakers do prefer to colexify similar concepts. However, we also find evidence supporting the communicative need hypothesis: when faced with a frequent need to distinguish similar pairs of meanings, speakers adjust their colexification preferences to maintain communicative efficiency, and avoid colexifying those similar meanings which need to be distinguished in communication. This research provides further evidence to support the argument that languages are shaped by the needs and preferences of their speakers.
翻訳日:2021-03-23 14:43:06 公開日:2021-03-19
# 野生における複数非拘束画像からの確率的3次元人物形状と姿勢推定

Probabilistic 3D Human Shape and Pose Estimation from Multiple Unconstrained Images in the Wild ( http://arxiv.org/abs/2103.10978v1 )

ライセンス: Link先を確認
Akash Sengupta, Ignas Budvytis, Roberto Cipolla(参考訳) 本稿では,RGB画像からの3次元人体形状とポーズ推定の問題に対処する。 この分野での最近の進歩は、入力として単一の画像、ビデオまたはマルチビュー画像に焦点を当てている。 対照的に、被験者の複数の画像群から、被写体ポーズ、カメラ視点、背景条件に制約を伴わずに、形状とポーズを推定する新しいタスクを提案する。 本課題に対する解決策は,SMPL本体形状上の分布を予測し,グループ内の入力画像にパラメータを付加する。 各画像から予測された身体形状分布を確率論的に組み合わせ、最終的な複数画像形状予測を得る。 SSP-3Dデータセットとテープ計測された人間のプライベートデータセットの単画像入力と比較して,多画像入力グループに存在する付加体形状情報により3次元人物形状推定の指標が向上することを示す。 さらに,3次元物体上の分布の予測はポーズ予測の不確かさを定量化することができる。 提案手法は,3dpwデータセット上で有意義なポーズ不確実性を示し,ポーズ推定指標の点で最先端と競合する。

This paper addresses the problem of 3D human body shape and pose estimation from RGB images. Recent progress in this field has focused on single images, video or multi-view images as inputs. In contrast, we propose a new task: shape and pose estimation from a group of multiple images of a human subject, without constraints on subject pose, camera viewpoint or background conditions between images in the group. Our solution to this task predicts distributions over SMPL body shape and pose parameters conditioned on the input images in the group. We probabilistically combine predicted body shape distributions from each image to obtain a final multi-image shape prediction. We show that the additional body shape information present in multi-image input groups improves 3D human shape estimation metrics compared to single-image inputs on the SSP-3D dataset and a private dataset of tape-measured humans. In addition, predicting distributions over 3D bodies allows us to quantify pose prediction uncertainty, which is useful when faced with challenging input images with significant occlusion. Our method demonstrates meaningful pose uncertainty on the 3DPW dataset and is competitive with the state-of-the-art in terms of pose estimation metrics.
翻訳日:2021-03-23 14:38:16 公開日:2021-03-19
# 三露光四面体センサを用いたHDR映像再構成

HDR Video Reconstruction with Tri-Exposure Quad-Bayer Sensors ( http://arxiv.org/abs/2103.10982v1 )

ライセンス: Link先を確認
Yitong Jiang, Inchang Choi, Jun Jiang, Jinwei Gu(参考訳) 本稿では,新しい3露光型クアッドバイヤーセンサを用いたハイダイナミックレンジ(HDR)ビデオ再構成手法を提案する。 多数の露光セットとフレーム上の空間的均一な展開により、従来の空間的変動露光(SVE)HDRビデオ手法よりもノイズや空間的アーティファクトに対して堅牢である。 それでも、長い露光による動きのぼやけ、短い露光によるノイズ、そしてsve法の固有の空間的アーティファクトは大きな障害のままである。 さらに,ビデオ再構成の安定性を考慮した時間的コヒーレンスも考慮しなければならない。 これらの課題に取り組むため,我々は,これらの問題を分割・解決する新しいネットワークアーキテクチャを導入する。 また,ネットワークを広いダイナミックレンジに適応させるために,hdrフレームの強調画素と陰影画素の両方から等しく寄与するldr再構成損失を提案する。 一連の比較とアブレーション研究を通じて,我々の解を用いた3重露光4重ベイヤは,従来の再構成法よりも,特にダイナミックレンジの広いシーンや動きのある物体に対して,より最適であることを示した。

We propose a novel high dynamic range (HDR) video reconstruction method with new tri-exposure quad-bayer sensors. Thanks to the larger number of exposure sets and their spatially uniform deployment over a frame, they are more robust to noise and spatial artifacts than previous spatially varying exposure (SVE) HDR video methods. Nonetheless, the motion blur from longer exposures, the noise from short exposures, and inherent spatial artifacts of the SVE methods remain huge obstacles. Additionally, temporal coherence must be taken into account for the stability of video reconstruction. To tackle these challenges, we introduce a novel network architecture that divides-and-conquers these problems. In order to better adapt the network to the large dynamic range, we also propose LDR-reconstruction loss that takes equal contributions from both the highlighted and the shaded pixels of HDR frames. Through a series of comparisons and ablation studies, we show that the tri-exposure quad-bayer with our solution is more optimal to capture than previous reconstruction methods, particularly for the scenes with larger dynamic range and objects with motion.
翻訳日:2021-03-23 14:37:56 公開日:2021-03-19
# 自己監視型分類ネットワーク

Self-Supervised Classification Network ( http://arxiv.org/abs/2103.10994v1 )

ライセンス: Link先を確認
Elad Amrani, Alex Bronstein(参考訳) 本稿では,新たなエンドツーエンド分類ニューラルネットワークであるSelf-Classifierを提案する。 自己分類器は、同一サンプルの2つの拡張ビューの同一クラス予測を最適化することにより、ラベルと表現を1段階のエンドツーエンドで同時に学習する。 非退化解(すなわち、すべてのラベルが同じクラスに割り当てられる解)を保証するために、ラベルに一様事前をアサートする。 数学的には、通常のクロスエントロピー損失とは異なり、我々の手法はそのような解を避けている。 Self-Classifierは実装が簡単で、事実上無制限のデータにスケーラブルである。 他の教師なし分類アプローチとは異なり、事前トレーニングや期待最大化アルゴリズム、擬似ラベル、外部クラスタリングの使用は不要である。 他の対照的な学習表現学習アプローチとは異なり、メモリバンクや第2のネットワークは不要である。 比較的単純ではあるが,本手法は,教師なし分類と教師なし表現学習という2つの目的のために,ImageNet, CIFAR10, CIFAR100による最先端のパフォーマンスに匹敵する結果が得られる。 さらに、大規模なImageNetデータセットでうまく機能する初の教師なしエンドツーエンド分類ネットワークである。 コードは利用可能になる。

We present Self-Classifier -- a novel self-supervised end-to-end classification neural network. Self-Classifier learns labels and representations simultaneously in a single-stage end-to-end manner by optimizing for same-class prediction of two augmented views of the same sample. To guarantee non-degenerate solutions (i.e., solutions where all labels are assigned to the same class), a uniform prior is asserted on the labels. We show mathematically that unlike the regular cross-entropy loss, our approach avoids such solutions. Self-Classifier is simple to implement and is scalable to practically unlimited amounts of data. Unlike other unsupervised classification approaches, it does not require any form of pre-training or the use of expectation maximization algorithms, pseudo-labelling or external clustering. Unlike other contrastive learning representation learning approaches, it does not require a memory bank or a second network. Despite its relative simplicity, our approach achieves comparable results to state-of-the-art performance with ImageNet, CIFAR10 and CIFAR100 for its two objectives: unsupervised classification and unsupervised representation learning. Furthermore, it is the first unsupervised end-to-end classification network to perform well on the large-scale ImageNet dataset. Code will be made available.
翻訳日:2021-03-23 14:37:37 公開日:2021-03-19
# TDIOT:ディープビデオオブジェクト追跡のためのターゲット駆動推論

TDIOT: Target-driven Inference for Deep Video Object Tracking ( http://arxiv.org/abs/2103.11017v1 )

ライセンス: Link先を確認
Filiz Gurkan, Llukman Cerkezi, Ozgun Cirakman, Bilge Gunsel(参考訳) 最近のトラッキングバイ検出アプローチでは、静止画像で高い性能を発揮するため、深部物体検出をターゲット検出ベースラインとして使用している。 効果的なビデオオブジェクト追跡のために、オブジェクト検出は、カスタムデザイン推論アーキテクチャまたはトラッキング目的のためのエンドツーエンドのジョイントトレーニングによって実行されるデータ関連ステップと統合される。 本研究では,従来のアプローチを採用し,トレーニング済みのMask R-CNNディープオブジェクト検出器をベースラインとして利用する。 マスクr-cnnのfpn-resnet101バックボーン上に配置した新しい推論アーキテクチャを導入し,追跡目的のための追加のトレーニングを必要とせず,検出と追跡を共同で行う。 提案する単一オブジェクトトラッカであるtdiotは、データアソシエーションに外観類似性に基づく時間マッチングを適用する。 追跡不連続性に対処するため,短期追跡のためにSiamFCを利用する推論ヘッド層に局所探索およびマッチングモジュールを組み込む。 さらに,スケール変化に対するロバスト性を向上させるために,ターゲットのトレースによって指定された適応的に拡大した空間近傍でターゲットを探索できるスケール適応領域提案ネットワークを提案する。 長期追跡要件を満たすために、lbpヒストグラムモデルに基づいてターゲットの存在を監視するために、低コスト検証層を推論アーキテクチャに組み込む。 VOT2016、VOT2018、VOT-LT2018データセットのビデオのパフォーマンス評価では、TDIOTは最先端の短期トラッカーに比べて精度が高く、長期追跡では同等のパフォーマンスを提供する。

Recent tracking-by-detectio n approaches use deep object detectors as target detection baseline, because of their high performance on still images. For effective video object tracking, object detection is integrated with a data association step performed by either a custom design inference architecture or an end-to-end joint training for tracking purpose. In this work, we adopt the former approach and use the pre-trained Mask R-CNN deep object detector as the baseline. We introduce a novel inference architecture placed on top of FPN-ResNet101 backbone of Mask R-CNN to jointly perform detection and tracking, without requiring additional training for tracking purpose. The proposed single object tracker, TDIOT, applies an appearance similarity-based temporal matching for data association. In order to tackle tracking discontinuities, we incorporate a local search and matching module into the inference head layer that exploits SiamFC for short term tracking. Moreover, in order to improve robustness to scale changes, we introduce a scale adaptive region proposal network that enables to search the target at an adaptively enlarged spatial neighborhood specified by the trace of the target. In order to meet long term tracking requirements, a low cost verification layer is incorporated into the inference architecture to monitor presence of the target based on its LBP histogram model. Performance evaluation on videos from VOT2016, VOT2018 and VOT-LT2018 datasets demonstrate that TDIOT achieves higher accuracy compared to the state-of-the-art short-term trackers while it provides comparable performance in long term tracking.
翻訳日:2021-03-23 14:37:21 公開日:2021-03-19
# ConDA: 継続的に教師なしのドメイン適応

ConDA: Continual Unsupervised Domain Adaptation ( http://arxiv.org/abs/2103.11056v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Chowdhury Sadman Jahan, Andreas Savakis(参考訳) ドメイン適応(DA)技術は、トレーニングに使用されるソースドメインとテストが行われるターゲットドメインの間のドメインシフトを克服するために重要である。 しかし、現在のDAメソッドは、ターゲットドメイン全体が適応中に利用可能であると仮定している。 本稿では、より小さなバッチでターゲットデータが利用可能になり、ターゲットドメイン全体の適応が実現不可能となる、より現実的なシナリオについて考察する。 本研究では,未ラベルのターゲットサンプルをバッチで受信し,継続的な適応を行う,新しいデータ制約型DAパラダイムを提案する。 そこで本研究では,バッファを用いた非教師なし領域適応のための新しいソースフリー手法を提案する。 連続的なDAフレームワークでは、バッファ管理戦略を用いてバッファに格納されたデータと入ってくるバッチからサンプルを選択的に混合し、この組み合わせを使ってモデルを漸進的に更新する。 対象領域全体に基づいた最先端DA手法を用いて,連続DA手法の分類性能を評価する。 提案手法は,適応中に対象領域全体にアクセスすることで,既存のDA手法よりも優れていることを示す。

Domain Adaptation (DA) techniques are important for overcoming the domain shift between the source domain used for training and the target domain where testing takes place. However, current DA methods assume that the entire target domain is available during adaptation, which may not hold in practice. This paper considers a more realistic scenario, where target data become available in smaller batches and adaptation on the entire target domain is not feasible. In our work, we introduce a new, data-constrained DA paradigm where unlabeled target samples are received in batches and adaptation is performed continually. We propose a novel source-free method for continual unsupervised domain adaptation that utilizes a buffer for selective replay of previously seen samples. In our continual DA framework, we selectively mix samples from incoming batches with data stored in a buffer using buffer management strategies and use the combination to incrementally update our model. We evaluate the classification performance of the continual DA approach with state-of-the-art DA methods based on the entire target domain. Our results on three popular DA datasets demonstrate that our method outperforms many existing state-of-the-art DA methods with access to the entire target domain during adaptation.
翻訳日:2021-03-23 14:36:59 公開日:2021-03-19
# 偽装のリバースエンジニアリングのための勾配に基づく逆攻撃の帰属

Attribution of Gradient Based Adversarial Attacks for Reverse Engineering of Deceptions ( http://arxiv.org/abs/2103.11002v1 )

ライセンス: Link先を確認
Michael Goebel, Jason Bunk, Srinjoy Chattopadhyay, Lakshmanan Nataraj, Shivkumar Chandrasekaran and B.S. Manjunath(参考訳) 機械学習(ML)アルゴリズムは、トレーニングとデプロイメントの両方において、敵の攻撃や詐欺の影響を受けやすい。 これらの敵対的機械学習攻撃の背後にあるツールチェーンの自動リバースエンジニアリングは、これらの攻撃で使用されるツールとプロセスを取り戻すのに役立つ。 本稿では,共起Pixel統計とラプラシアン残差を用いた対向ML攻撃ツールチェーンの自動識別と帰属を支援する2つの手法を提案する。 実験の結果, 提案手法は, 対向サンプルの生成に用いるパラメータを同定できることがわかった。 我々の知る限りでは、これは属性勾配に基づく敵攻撃とそれらのパラメータを推定する最初のアプローチである。 ソースコードとデータは、https://github.com/m ichael-goebel/ei_red で入手できる。

Machine Learning (ML) algorithms are susceptible to adversarial attacks and deception both during training and deployment. Automatic reverse engineering of the toolchains behind these adversarial machine learning attacks will aid in recovering the tools and processes used in these attacks. In this paper, we present two techniques that support automated identification and attribution of adversarial ML attack toolchains using Co-occurrence Pixel statistics and Laplacian Residuals. Our experiments show that the proposed techniques can identify parameters used to generate adversarial samples. To the best of our knowledge, this is the first approach to attribute gradient based adversarial attacks and estimate their parameters. Source code and data is available at: https://github.com/m ichael-goebel/ei_red
翻訳日:2021-03-23 14:20:10 公開日:2021-03-19
# セマンティックセグメンテーションと深さ推定のための単眼ビデオを用いた自己監督型ブートストラップトレーニング

Bootstrapped Self-Supervised Training with Monocular Video for Semantic Segmentation and Depth Estimation ( http://arxiv.org/abs/2103.11031v1 )

ライセンス: Link先を確認
Yihao Zhang and John J. Leonard(参考訳) 世界で展開されているロボットにとって、初期設定知識を改善するために自律的な学習能力を持つことが望ましい。 ラベル付きデータセット上の教師付きトレーニングでシステムが初期ブートストラップされた自己教師付き学習問題として定式化し,ラベル付きデータのみを使用して教師付きトレーニングベースライン上でシステムを改善する自己教師付きトレーニング方法を提案する。 本研究では,単眼映像におけるフレーム間の時間的一貫性を利用して自己監督訓練を行う。 本手法により, 十分に訓練されたセマンティクスセグメンテーションネットワークをさらに改善できることを示す。 さらに,自己指導型学習フレームワークは,ネットワークが純粋指導型トレーニングや自己指導型トレーニングよりも深度推定を学習しやすいことを示す。

For a robot deployed in the world, it is desirable to have the ability of autonomous learning to improve its initial pre-set knowledge. We formalize this as a bootstrapped self-supervised learning problem where a system is initially bootstrapped with supervised training on a labeled dataset and we look for a self-supervised training method that can subsequently improve the system over the supervised training baseline using only unlabeled data. In this work, we leverage temporal consistency between frames in monocular video to perform this bootstrapped self-supervised training. We show that a well-trained state-of-the-art semantic segmentation network can be further improved through our method. In addition, we show that the bootstrapped self-supervised training framework can help a network learn depth estimation better than pure supervised training or self-supervised training.
翻訳日:2021-03-23 14:19:58 公開日:2021-03-19
# 直交ラテン方形に対する整数と制約プログラミングの再検討

Integer and Constraint Programming Revisited for Mutually Orthogonal Latin Squares ( http://arxiv.org/abs/2103.11018v1 )

ライセンス: Link先を確認
Noah Rubin, Curtis Bright, Kevin K. H. Cheung, Brett Stevens(参考訳) 本稿では,整数プログラミング (IP) と制約プログラミング (CP) を用いて相互直交ラテン二乗 (MOLS) の集合を探索する。 どちらのプログラミングパラダイムも以前はMOLSの探索に使われてきたが、近年ではIPとCPの解法が大幅に改善され、MOLS問題における最新のIPとCPの解法がどのように機能するかのデータが不足している。 最先端の解決器をブラックボックスとして使用することで、すべての順序でMOLSのペア(あるいはその非存在を証明)を素早く見つけることができました。 さらに, 拡張対称性分割法を定式化し, 解法の有効性を向上させるとともに, 簡単なcp符号化も改善した。 また、CPとIPソルバを用いてMOLSの三重項を探索し、そのタイミングを以前に発表されたものと比較し、この手法を用いた実行時間を推定して、10のMOLSの三重項の存在を判断する長年の未解決問題の解決を図った。

In this paper we provide results on using integer programming (IP) and constraint programming (CP) to search for sets of mutually orthogonal latin squares (MOLS). Both programming paradigms have previously successfully been used to search for MOLS, but solvers for IP and CP solvers have significantly improved in recent years and data on how modern IP and CP solvers perform on the MOLS problem is lacking. Using state-of-the-art solvers as black boxes we were able to quickly find pairs of MOLS (or prove their nonexistence) in all orders up to ten. Moreover, we improve the effectiveness of the solvers by formulating an extended symmetry breaking method as well as an improvement to the straightforward CP encoding. We also analyze the effectiveness of using CP and IP solvers to search for triples of MOLS, compare our timings to those which have been previously published, and estimate the running time of using this approach to resolve the longstanding open problem of determining the existence of a triple of MOLS of order ten.
翻訳日:2021-03-23 14:17:06 公開日:2021-03-19
# ダイバージェンスに基づく畳み込みニューラルネットワークを用いた運動画像脳波信号の分類

Classification of Motor Imagery EEG Signals by Using a Divergence Based Convolutional Neural Network ( http://arxiv.org/abs/2103.10977v1 )

ライセンス: Link先を確認
Zumray Dokur, Tamer Olmez(参考訳) ディープニューラルネットワーク(DNN)はパターン分類に成功している。 しかし、DNNの高い分類性能は、彼らの大規模なトレーニングセットと関連している。 残念ながら、文献では、運動画像(MI)脳波(EEG)信号の分類に用いられるデータセットには、少数のサンプルが含まれている。 小規模データセットによる高性能化を実現するために,ほとんどの研究は,分類処理前に共通空間パターン (csp) などの変換を用いてきた。 しかし、CSPは主題に依存し、リアルタイムアプリケーションに計算負荷を導入する。 脳波信号の分類性能の向上には増補法が適用されないことが文献に示されている。 本研究では,cspのような先行する変換を用いるのではなく,mi eeg信号の分類性能に及ぼす増強過程の影響を調査し,mi eegの分類に高い成功率をもたらすことで,cspと競合できることを示した。 拡張処理に加えて,dnn構造を改良して分類性能を高め,ノード数を削減し,ハイパーパラメータを少なくした。 完全連結ニューラルネットワーク(FCNN)の代わりに,畳み込みニューラルネットワーク(CNN)の最終層に続く最小距離ネットワーク(MDN)を分類器として使用した。 脳波データセットを増強し、cnnのトレーニングのみに焦点を当てることで、提案構造のトレーニングアルゴリズムは変換を施すことなく強化される。 2005年と2008年の2クラスと4クラスからなる脳-コンピュータ・インタフェース(BCI)コンペティションにおいて,これらの改善が平均性能に与える影響を実証した。

Deep neural networks (DNNs) are observed to be successful in pattern classification. However, high classification performances of DNNs are related to their large training sets. Unfortunately, in the literature, the datasets used to classify motor imagery (MI) electroencephalogram (EEG) signals contain a small number of samples. To achieve high performances with small-sized datasets, most of the studies have employed a transformation such as common spatial patterns (CSP) before the classification process. However, CSP is dependent on subjects and introduces computational load in real-time applications. It is observed in the literature that the augmentation process is not applied for increasing the classification performance of EEG signals. In this study, we have investigated the effect of the augmentation process on the classification performance of MI EEG signals instead of using a preceding transformation such as the CSP, and we have demonstrated that by resulting in high success rates for the classification of MI EEGs, the augmentation process is able to compete with the CSP. In addition to the augmentation process, we modified the DNN structure to increase the classification performance, to decrease the number of nodes in the structure, and to be used with less number of hyper parameters. A minimum distance network (MDN) following the last layer of the convolutional neural network (CNN) was used as the classifier instead of a fully connected neural network (FCNN). By augmenting the EEG dataset and focusing solely on CNN's training, the training algorithm of the proposed structure is strengthened without applying any transformation. We tested these improvements on brain-computer interface (BCI) competitions 2005 and 2008 databases with two and four classes, and the high impact of the augmentation on the average performances are demonstrated.
翻訳日:2021-03-23 14:16:45 公開日:2021-03-19
# モードワイドテンソル分解:CUR分解の多次元一般化

Mode-wise Tensor Decompositions: Multi-dimensional Generalizations of CUR Decompositions ( http://arxiv.org/abs/2103.11037v1 )

ライセンス: Link先を確認
HanQin Cai, Keaton Hamm, Longxiu Huang, Deanna Needell(参考訳) 低階テンソル近似は、現代の機械学習とデータサイエンスの基本的なツールである。 本稿では, 千鳥と繊維CURの2つの一次テンソルCUR近似のキャラクタリゼーション, 摂動解析, および効率的なサンプリング戦略について検討する。 低次階テンソルに対する正確なテンソルCUR分解を特徴付ける。 また、(逆あるいはガウス的な)ノイズが現れるとき、テンソルCUR近似の理論誤差も提示する。 さらに,テンソルが不整合構造であれば,低コスト均一サンプリングがテンソルCUR近似に十分であることを示す。 人工的および実世界の両方のデータセットを用いた実証的な性能評価は、他の最先端のローマルチ線形テンソル近似に対するテンソルCUR近似の利点を確立する。

Low rank tensor approximation is a fundamental tool in modern machine learning and data science. In this paper, we study the characterization, perturbation analysis, and an efficient sampling strategy for two primary tensor CUR approximations, namely Chidori and Fiber CUR. We characterize exact tensor CUR decompositions for low multilinear rank tensors. We also present theoretical error bound of the tensor CUR approximations when (adversarial or Gaussian) noise appears. Moreover, we show that low cost uniform sampling is sufficient for tensor CUR approximations if the tensor has an incoherent structure. Empirical performance evaluations, with both synthetic and real-world datasets, establish the advantage of the tensor CUR approximations over other state-of-the-art low multilinear rank tensor approximations.
翻訳日:2021-03-23 14:06:39 公開日:2021-03-19
# 開集合認識のための1-vs-Restネットワークの集団決定

Collective Decision of One-vs-Rest Networks for Open Set Recognition ( http://arxiv.org/abs/2103.10230v2 )

ライセンス: Link先を確認
Jaeyeon Jang and Chang Ouk Kim(参考訳) トレーニング中に見えない未知の例は、しばしば現実世界の機械学習タスクに現れ、インテリジェントな自己学習システムは、既知の例と未知の例を区別することができる。 そこで, 未知を分類し, 識別する問題に対処するオープンセット認識(OSR)が最近注目されている。 しかし、ソフトマックス層を用いた従来のディープニューラルネットワークは一般化に弱いため、未知数に対して高い信頼度を得られる。 本稿では,未知数を拒否する厳密で洗練された決定境界を設定しながら,既知の分類性能を維持し,osrの性能を最大化できるという直観に基づく単純なosr手法を提案する。 この目的のために、複数のワンバスレストネットワーク(OVRN)が畳み込みニューラルネットワーク特徴抽出器に従う新しいネットワーク構造を提案する。 ここで、OVRNは単純なフィードフォワードニューラルネットワークであり、クラス固有の差別的特徴を学習することで非マッチングを拒否する能力を高める。 さらに、集合的決定スコアは、ovrnsが到達した複数の決定を組み合わせて、過剰一般化を緩和することによってモデル化される。 実験の結果, オーバージェネレーションを効果的に低減することにより, 提案手法は最先端の手法よりも優れた性能を示した。

Unknown examples that are unseen during training often appear in real-world machine learning tasks, and an intelligent self-learning system should be able to distinguish between known and unknown examples. Accordingly, open set recognition (OSR), which addresses the problem of classifying knowns and identifying unknowns, has recently been highlighted. However, conventional deep neural networks using a softmax layer are vulnerable to overgeneralization, producing high confidence scores for unknowns. In this paper, we propose a simple OSR method based on the intuition that OSR performance can be maximized by setting strict and sophisticated decision boundaries that reject unknowns while maintaining satisfactory classification performance on knowns. For this purpose, a novel network structure is proposed, in which multiple one-vs-rest networks (OVRNs) follow a convolutional neural network feature extractor. Here, the OVRN is a simple feed-forward neural network that enhances the ability to reject nonmatches by learning class-specific discriminative features. Furthermore, the collective decision score is modeled by combining the multiple decisions reached by the OVRNs to alleviate overgeneralization. Extensive experiments were conducted on various datasets, and the experimental results showed that the proposed method performed significantly better than the state-of-the-art methods by effectively reducing overgeneralization.
翻訳日:2021-03-23 11:38:40 公開日:2021-03-19
# (参考訳) Hopper:時空間共振用マルチホップトランス

Hopper: Multi-hop Transformer for Spatiotemporal Reasoning ( http://arxiv.org/abs/2103.10574v1 )

ライセンス: CC BY 4.0
Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf(参考訳) 本稿では,ビデオにおける時空間的対象中心推論の問題について考察する。 我々のアプローチの中心は、物体の永続性、すなわち、他の物体に閉じ込められたり、閉じ込められたり、運ばれたりしながら、ビデオ中を移動する物体の位置を推論する能力である。 既存のディープラーニングベースのアプローチは、ビデオ推論問題に適用すると時空間バイアスを被ることが多い。 ビデオ中のオブジェクトの永続性を推論するためにマルチホップ変換器を用いるホッパーを提案する。 ビデオとローカライゼーションクエリが与えられた場合、Hopperは画像やオブジェクトのトラックに対して、重要なフレームを反復的に自動的にホップして、対象物の最終位置を予測する。 時空間バイアスを低減するために, コントラスト損失を用いることの有効性を示す。 キャリーブデータセット上で評価した結果、ホッパーは1fpsで73.2%のtop-1精度を達成できた。 また,関心のあるオブジェクトを適切にローカライズするために,複数ステップの推論を必要とするcater-hデータセットを構築することで,hopperが長期的推論を行うことを実証する。

This paper considers the problem of spatiotemporal object-centric reasoning in videos. Central to our approach is the notion of object permanence, i.e., the ability to reason about the location of objects as they move through the video while being occluded, contained or carried by other objects. Existing deep learning based approaches often suffer from spatiotemporal biases when applied to video reasoning problems. We propose Hopper, which uses a Multi-hop Transformer for reasoning object permanence in videos. Given a video and a localization query, Hopper reasons over image and object tracks to automatically hop over critical frames in an iterative fashion to predict the final position of the object of interest. We demonstrate the effectiveness of using a contrastive loss to reduce spatiotemporal biases. We evaluate over CATER dataset and find that Hopper achieves 73.2% Top-1 accuracy using just 1 FPS by hopping through just a few critical frames. We also demonstrate Hopper can perform long-term reasoning by building a CATER-h dataset that requires multi-step reasoning to localize objects of interest correctly.
翻訳日:2021-03-22 21:41:08 公開日:2021-03-19
# (参考訳) マルチソースドメイン適応のための動的転送 [全文訳有]

Dynamic Transfer for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2103.10583v1 )

ライセンス: CC BY 4.0
Yunsheng Li, Lu Yuan, Yinpeng Chen, Pei Wang, Nuno Vasconcelos(参考訳) マルチソースドメイン適応の最近の仕事は、パラメータが静的なドメイン非依存モデルを学ぶことに焦点を当てている。 しかし、このような静的モデルは複数のドメイン間の競合を扱うのが難しく、ソースドメインとターゲットドメインの両方のパフォーマンス劣化に悩まされている。 本稿では,モデルパラメータをサンプルに適用した領域競合に対処するための動的転送について述べる。 重要な洞察は、ドメインにまたがるモデルを適用することは、サンプルにまたがるモデルを適用することで達成されるということだ。 これにより、ソースドメインの障壁を壊し、マルチソースドメインを単一ソースドメインにする。 これはまた、ソースドメインとターゲットドメインのアライメントを単純化する。 さらに, 残差行列と静的畳み込み行列を集約することで, 動的伝達を単純にモデル化できることがわかった。 実験の結果、ドメインラベルを使わずに、我々の動的転送は、大規模なマルチソースドメイン適応データセットであるdomainnetにおいて、最先端のメソッドを3%以上上回っています。 ソースコードはhttps://github.com/l iyunsheng13/DRTにある。

Recent works of multi-source domain adaptation focus on learning a domain-agnostic model, of which the parameters are static. However, such a static model is difficult to handle conflicts across multiple domains, and suffers from a performance degradation in both source domains and target domain. In this paper, we present dynamic transfer to address domain conflicts, where the model parameters are adapted to samples. The key insight is that adapting model across domains is achieved via adapting model across samples. Thus, it breaks down source domain barriers and turns multi-source domains into a single-source domain. This also simplifies the alignment between source and target domains, as it only requires the target domain to be aligned with any part of the union of source domains. Furthermore, we find dynamic transfer can be simply modeled by aggregating residual matrices and a static convolution matrix. Experimental results show that, without using domain labels, our dynamic transfer outperforms the state-of-the-art method by more than 3% on the large multi-source domain adaptation datasets -- DomainNet. Source code is at https://github.com/l iyunsheng13/DRT.
翻訳日:2021-03-22 21:39:18 公開日:2021-03-19
# (参考訳) Fusion-FlowNet: センサフュージョンとディープフューズドスパイキングネットワークアーキテクチャを用いたエネルギー効率の高い光フロー推定 [全文訳有]

Fusion-FlowNet: Energy-Efficient Optical Flow Estimation using Sensor Fusion and Deep Fused Spiking-Analog Network Architectures ( http://arxiv.org/abs/2103.10592v1 )

ライセンス: CC BY 4.0
Chankyu Lee, Adarsh Kumar Kosta and Kaushik Roy(参考訳) 光強度のフレームをサンプリングする標準のフレームベースのカメラは、高速動作のための動きのぼやけによって大きな影響を受け、ダイナミックレンジが高い場合にシーンを正確に認識できない。 一方、イベントベースのカメラは、個々のピクセル強度の変化を非同期に検出することで、これらの制限を克服する。 しかし、イベントカメラは動き中のピクセルに関する情報のみを提供し、スパースデータに繋がる。 したがって、画素の全体的な密度挙動の推定は困難である。 センサにまつわる問題に対処するため,フレームベースとイベントベースの両方のセンサを用いたエネルギー効率の高い光フロー推定のためのセンサ融合フレームワークFusion-FlowNetを提案する。 提案するネットワークアーキテクチャはスパイキングニューラルネットワーク(SNN)とアナログニューラルネットワーク(ANN)の融合であり,それぞれ非同期イベントストリームと通常のフレームベースイメージを同時に処理するように設計されている。 我々のネットワークは、高価なビデオアノテーションを避けるために教師なし学習を用いてエンドツーエンドで訓練されている。 この方法は、異なる環境(ラピッドモーションと挑戦的な照明条件)にわたってよく一般化され、MVSEC(Multi-Vehicle Stereo Event Camera)データセット上で最先端の光フロー予測を示す。 さらに,ネットワークパラメータ数や計算エネルギーコストの観点から,ネットワークの大幅な削減を実現している。

Standard frame-based cameras that sample light intensity frames are heavily impacted by motion blur for high-speed motion and fail to perceive scene accurately when the dynamic range is high. Event-based cameras, on the other hand, overcome these limitations by asynchronously detecting the variation in individual pixel intensities. However, event cameras only provide information about pixels in motion, leading to sparse data. Hence, estimating the overall dense behavior of pixels is difficult. To address such issues associated with the sensors, we present Fusion-FlowNet, a sensor fusion framework for energy-efficient optical flow estimation using both frame- and event-based sensors, leveraging their complementary characteristics. Our proposed network architecture is also a fusion of Spiking Neural Networks (SNNs) and Analog Neural Networks (ANNs) where each network is designed to simultaneously process asynchronous event streams and regular frame-based images, respectively. Our network is end-to-end trained using unsupervised learning to avoid expensive video annotations. The method generalizes well across distinct environments (rapid motion and challenging lighting conditions) and demonstrates state-of-the-art optical flow prediction on the Multi-Vehicle Stereo Event Camera (MVSEC) dataset. Furthermore, our network offers substantial savings in terms of the number of network parameters and computational energy cost.
翻訳日:2021-03-22 21:04:21 公開日:2021-03-19
# (参考訳) DCF-ASN:識別相関フィルタと注意型シームズネットワークによる粗大なリアルタイム視覚追跡 [全文訳有]

DCF-ASN: Coarse-to-fine Real-time Visual Tracking via Discriminative Correlation Filter and Attentional Siamese Network ( http://arxiv.org/abs/2103.10607v1 )

ライセンス: CC BY 4.0
Xizhe Xue, Ying Li, Xiaoyue Yin, Qiang Shen(参考訳) 識別相関フィルタ (DCF) とシアムネットワークは, それぞれ優れた計算効率と信頼性のある類似度メトリック学習により, 視覚追跡タスクにおいて有望な性能を達成している。 しかし、DCFのリアルタイム応答を維持しながら、強力なディープネットワークを効果的に活用する方法は、依然として難しい問題である。 クロス相関演算子を分離層としてシアムネットワークに埋め込み、追跡精度を高めることが一般的である。 このようなネットワークの重要なコンポーネントである相関層は、ネットワークの他の部分と共にオンラインで更新される。 しかし、深刻な混乱に直面すると、混乱したトラッカーは蓄積されたエラーのためにターゲットから完全に外れる可能性がある。 これらの問題に対処するために、まずオンライン更新DCFモジュールを介してターゲット状態を大まかに推測し、続いてオフライン学習型非対称システマネットワーク(ASN)を介してターゲットを微妙に特定する粗大な追跡フレームワークを提案する。 DCFの指導と学習チャネルの重み付けから得られた基礎構造テンプレートを利用して、ASNは特徴表現を洗練し、正確なターゲットローカライゼーションを実現する。 5つの一般的な追跡データセットの体系的な実験により、提案したDCF-ASNは、追跡効率が良く、最先端のパフォーマンスを達成することを示した。

Discriminative correlation filters (DCF) and siamese networks have achieved promising performance on visual tracking tasks thanks to their superior computational efficiency and reliable similarity metric learning, respectively. However, how to effectively take advantages of powerful deep networks, while maintaining the real-time response of DCF, remains a challenging problem. Embedding the cross-correlation operator as a separate layer into siamese networks is a popular choice to enhance the tracking accuracy. Being a key component of such a network, the correlation layer is updated online together with other parts of the network. Yet, when facing serious disturbance, fused trackers may still drift away from the target completely due to accumulated errors. To address these issues, we propose a coarse-to-fine tracking framework, which roughly infers the target state via an online-updating DCF module first and subsequently, finely locates the target through an offline-training asymmetric siamese network (ASN). Benefitting from the guidance of DCF and the learned channel weights obtained through exploiting the given ground-truth template, ASN refines feature representation and implements precise target localization. Systematic experiments on five popular tracking datasets demonstrate that the proposed DCF-ASN achieves the state-of-the-art performance while exhibiting good tracking efficiency.
翻訳日:2021-03-22 20:49:55 公開日:2021-03-19
# (参考訳) 半弱ラベルデータを用いた画像分類訓練 [全文訳有]

Training image classifiers using Semi-Weak Label Data ( http://arxiv.org/abs/2103.10608v1 )

ライセンス: CC BY-SA 4.0
Anxiang Zhang, Ankit Shah, Bhiksha Raj(参考訳) 多重インスタンス学習(MIL)では、弱ラベルがバッグレベルで提供され、存在/存在情報のみが知られる。 しかし、完全な教師付きモデルに比べて性能にかなりの差があり、MILアプローチの適用性が制限されている。 そこで本稿では,この問題を軽減するため,新たな半弱ラベル学習パラダイムを提案する。 半弱ラベルデータは、ラベルの比率を知ることとは対照的に、与えられたクラスの有無と各クラスの正確な数を知るデータとして定義する。 次に,半弱ラベルから学習する問題に対処する2段階のフレームワークを提案する。 これは、情報のカウントが非負かつ離散的であるという事実を利用する。 CIFAR-10から生成されたサンプルについて実験を行った。 本モデルと完全教師付き設定ベースライン,弱教師付き設定ベースライン,pro-portion(llp)ベースラインからの学習を比較した。 我々のフレームワークは、MILベースの弱い視線設定と比率設定からの学習のベースラインモデルよりも優れているだけでなく、完全に教師されたモデルと比較しても同等の結果が得られる。 さらに,データセットをまたいで解析し,バッチサイズ,損失アーキテクチャの変更,バッグサイズ,正規化による変動を分析するため,徹底的なアブレーション研究を行う。

In Multiple Instance learning (MIL), weak labels are provided at the bag level with only presence/absence information known. However, there is a considerable gap in performance in comparison to a fully supervised model, limiting the practical applicability of MIL approaches. Thus, this paper introduces a novel semi-weak label learning paradigm as a middle ground to mitigate the problem. We define semi-weak label data as data where we know the presence or absence of a given class and the exact count of each class as opposed to knowing the label proportions. We then propose a two-stage framework to address the problem of learning from semi-weak labels. It leverages the fact that counting information is non-negative and discrete. Experiments are conducted on generated samples from CIFAR-10. We compare our model with a fully-supervised setting baseline, a weakly-supervised setting baseline and learning from pro-portion (LLP) baseline. Our framework not only outperforms both baseline models for MIL-based weakly super-vised setting and learning from proportion setting, but also gives comparable results compared to the fully supervised model. Further, we conduct thorough ablation studies to analyze across datasets and variation with batch size, losses architectural changes, bag size and regularization
翻訳日:2021-03-22 20:34:49 公開日:2021-03-19
# (参考訳) 階層型プールを用いたスケーラブルなビジュアルトランスフォーマー [全文訳有]

Scalable Visual Transformers with Hierarchical Pooling ( http://arxiv.org/abs/2103.10619v1 )

ライセンス: CC BY 4.0
Zizheng Pan, Bohan Zhuang, Jing Liu, Haoyu He, Jianfei Cai(参考訳) 最近提案された視覚画像変換器(ViT)は、画像分類などの画像認識タスクにおいて有望な性能を達成している。 しかし、現在のViTモデルのルーチンは、推論中に完全長のパッチシーケンスを維持することである。 この目的のために,HVT (Hierarchical Visual Transformer) を提案する。これにより,CNN (Convolutional Neural Networks) のダウンサンプリング機能に類似した,視覚トークンを徐々にプールしてシーケンス長を縮小し,計算コストを削減できる。 これは、シーケンス長の削減による余分な計算複雑性を導入することなく、深さ/幅/解像度/パッチサイズの次元をスケールすることで、モデル容量を増大させる大きな利点をもたらす。 さらに,平均プールされた視覚トークンは,単一のクラストークンよりも識別情報が多いことが実証的に判明した。 HVTのスケーラビリティ向上を実証するため,画像分類タスクについて広範な実験を行った。 匹敵するFLOPでは、私たちのHVTはImageNetとCIFAR-100データセットの競合ベースラインよりも優れています。

The recently proposed Visual image Transformers (ViT) with pure attention have achieved promising performance on image recognition tasks, such as image classification. However, the routine of the current ViT model is to maintain a full-length patch sequence during inference, which is redundant and lacks hierarchical representation. To this end, we propose a Hierarchical Visual Transformer (HVT) which progressively pools visual tokens to shrink the sequence length and hence reduces the computational cost, analogous to the feature maps downsampling in Convolutional Neural Networks (CNNs). It brings a great benefit that we can increase the model capacity by scaling dimensions of depth/width/resoluti on/patch size without introducing extra computational complexity due to the reduced sequence length. Moreover, we empirically find that the average pooled visual tokens contain more discriminative information than the single class token. To demonstrate the improved scalability of our HVT, we conduct extensive experiments on the image classification task. With comparable FLOPs, our HVT outperforms the competitive baselines on ImageNet and CIFAR-100 datasets.
翻訳日:2021-03-22 20:18:10 公開日:2021-03-19
# (参考訳) 適応線形制御の次元自由理解に向けて

Towards a Dimension-Free Understanding of Adaptive Linear Control ( http://arxiv.org/abs/2103.10620v1 )

ライセンス: CC BY 4.0
Juan C. Perdomo, Max Simchowitz, Alekh Agarwal, Peter Bartlett(参考訳) 超高次元あるいは無限次元の系に対する線形二次制御器の適応制御問題について検討する。 サブリニアな後悔は有限次元の入力を必要とするが、オンライン制御を行うためにシステムの環境状態次元は境界化される必要はない。 無限次元系を保ち、周囲次元への依存を問題複雑性のより自然な概念に置き換える LQR に対する最初の後悔境界を提供する。 この保証は、演算子ノルムのようなより厳密な尺度で一貫したパラメータ回復を必要とせず、システムパラメータの推定における予測誤差とスケールする、確実性同値に対する新しい摂動によって生じる。 有限次元の設定に特化すると、境界は最適次元と時間軸依存性に近く回復する。

We study the problem of adaptive control of the linear quadratic regulator for systems in very high, or even infinite dimension. We demonstrate that while sublinear regret requires finite dimensional inputs, the ambient state dimension of the system need not be bounded in order to perform online control. We provide the first regret bounds for LQR which hold for infinite dimensional systems, replacing dependence on ambient dimension with more natural notions of problem complexity. Our guarantees arise from a novel perturbation bound for certainty equivalence which scales with the prediction error in estimating the system parameters, without requiring consistent parameter recovery in more stringent measures like the operator norm. When specialized to finite dimensional settings, our bounds recover near optimal dimension and time horizon dependence.
翻訳日:2021-03-22 20:03:09 公開日:2021-03-19
# (参考訳) Cluster-to-Conquer: 全スライド画像分類のためのエンドツーエンドマルチインスタンス学習フレームワーク [全文訳有]

Cluster-to-Conquer: A Framework for End-to-End Multi-Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2103.10626v1 )

ライセンス: CC BY 4.0
Yash Sharma, Aman Shrivastava, Lubaina Ehsan, Christopher A. Moskaluk, Sana Syed, Donald E. Brown(参考訳) 近年,Digitalized Whole Slide Images (WSIs) の利用可能化により,深層学習に基づくコンピュータビジョン技術による診断の自動化が実現されている。 しかし、WSIは独自の計算とアルゴリズムの課題を提示している。 WSIはギガピクセルサイズの100Kピクセルで、ディープニューラルネットワークのトレーニングに直接使うことはできない。 また、詳細なアノテーションが面倒で専門家にとって時間がかかるため、しばしばスライドレベルのラベルのみがトレーニング用に利用できる。 MIL(Multiple-instanc e Learning)フレームワークを用いたアプローチは、これらの課題を克服することが示されている。 現在の最先端アプローチでは、学習フレームワークを2つの分離された部分に分割している。パッチをエンコードするための畳み込みニューラルネットワーク(CNN)と、スライドレベルの予測のための独立した集約アプローチだ。 このアプローチでは、アグリゲーションステップはcnnエンコーダによって学習された表現に依存しない。 我々は,wsi から ${k}$-groups にパッチをクラスタし,各グループから ${k}'$ パッチをサンプルしてトレーニングを行うエンドツーエンドフレームワークを提案し,スライドレベル予測のための適応的注意機構 (cluster-to-conquer (c2c)) を用いる。 我々は、WSIをクラスタに分割することで、パッチから抽出した様々な識別機能に公開することにより、モデルトレーニングを改善することを実証した。 クラスタ内のパッチの注意重みと均一分布との間にKL分散損失を導入することでクラスタリング機構を正規化した。 このフレームワークは、スライドレベルのクロスエントロピー、パッチレベルのクロスエントロピー、KLの分散損失(実装:https://github.com/ YashSharma/C2C)にエンドツーエンドで最適化されている。

In recent years, the availability of digitized Whole Slide Images (WSIs) has enabled the use of deep learning-based computer vision techniques for automated disease diagnosis. However, WSIs present unique computational and algorithmic challenges. WSIs are gigapixel-sized ($\sim$100K pixels), making them infeasible to be used directly for training deep neural networks. Also, often only slide-level labels are available for training as detailed annotations are tedious and can be time-consuming for experts. Approaches using multiple-instance learning (MIL) frameworks have been shown to overcome these challenges. Current state-of-the-art approaches divide the learning framework into two decoupled parts: a convolutional neural network (CNN) for encoding the patches followed by an independent aggregation approach for slide-level prediction. In this approach, the aggregation step has no bearing on the representations learned by the CNN encoder. We have proposed an end-to-end framework that clusters the patches from a WSI into ${k}$-groups, samples ${k}'$ patches from each group for training, and uses an adaptive attention mechanism for slide level prediction; Cluster-to-Conquer (C2C). We have demonstrated that dividing a WSI into clusters can improve the model training by exposing it to diverse discriminative features extracted from the patches. We regularized the clustering mechanism by introducing a KL-divergence loss between the attention weights of patches in a cluster and the uniform distribution. The framework is optimized end-to-end on slide-level cross-entropy, patch-level cross-entropy, and KL-divergence loss (Implementation: https://github.com/Y ashSharma/C2C).
翻訳日:2021-03-22 20:01:43 公開日:2021-03-19
# (参考訳) SoK:自動音声認識システムのセキュリティ研究のためのモジュール化アプローチ [全文訳有]

SoK: A Modularized Approach to Study the Security of Automatic Speech Recognition Systems ( http://arxiv.org/abs/2103.10651v1 )

ライセンス: CC BY 4.0
Yuxuan Chen, Jiangshan Zhang, Xuejing Yuan, Shengzhi Zhang, Kai Chen, Xiaofeng Wang and Shanqing Guo(参考訳) 自動音声認識(asr)を人間の機械の操作、同時解釈、音声の書き起こしなどのアプリケーションで広く利用することで、そのセキュリティ保護がますます重要になっている。 近年の研究では、帯域外の信号攻撃や敵対的攻撃などを可能にする一般的なasrシステムの弱点を明らかにし、さらに様々な対策(信号の平滑化、敵意トレーニングなど)を提案した。 ASRのセキュリティ(攻撃と防衛の両方)に関する体系的な理解はいまだに欠けている。 本稿では,asrセキュリティに関する知識の体系化と,モジュール化ワークフローに基づく既存作業の包括的分類法を提案する。 さらに,画像認識システム(IRS, Image Recognition System, 画像認識システム)のセキュリティに関する研究を概観し, 後者のドメイン知識を用いて, 前者の立場を理解するのに役立てる。 一般に、irsとasrはどちらも知覚システムである。 これらの類似性は、ISRが提案する攻撃と防衛ソリューションのスペクトルに基づいて、ASRの既存の文献を体系的に研究し、より高度な攻撃の方向と、より効果的なASRの保護につながる可能性のある方向を特定できる。 対照的に、それらの違い、特にIRSと比較してASRの複雑さは、ASRセキュリティにおける固有の課題や機会を学ぶのに役立ちます。 特に,モデルに関する知識の欠如や学習データがない場合でも,ASRモデル間での移動学習が実現可能であることを示す実験的検討を行った。

With the wide use of Automatic Speech Recognition (ASR) in applications such as human machine interaction, simultaneous interpretation, audio transcription, etc., its security protection becomes increasingly important. Although recent studies have brought to light the weaknesses of popular ASR systems that enable out-of-band signal attack, adversarial attack, etc., and further proposed various remedies (signal smoothing, adversarial training, etc.), a systematic understanding of ASR security (both attacks and defenses) is still missing, especially on how realistic such threats are and how general existing protection could be. In this paper, we present our systematization of knowledge for ASR security and provide a comprehensive taxonomy for existing work based on a modularized workflow. More importantly, we align the research in this domain with that on security in Image Recognition System (IRS), which has been extensively studied, using the domain knowledge in the latter to help understand where we stand in the former. Generally, both IRS and ASR are perceptual systems. Their similarities allow us to systematically study existing literature in ASR security based on the spectrum of attacks and defense solutions proposed for IRS, and pinpoint the directions of more advanced attacks and the directions potentially leading to more effective protection in ASR. In contrast, their differences, especially the complexity of ASR compared with IRS, help us learn unique challenges and opportunities in ASR security. Particularly, our experimental study shows that transfer learning across ASR models is feasible, even in the absence of knowledge about models (even their types) and training data.
翻訳日:2021-03-22 19:49:52 公開日:2021-03-19
# (参考訳) 線形部分空間クラスタリングを超えて:非線形多様体クラスタリングアルゴリズムの比較研究

Beyond Linear Subspace Clustering: A Comparative Study of Nonlinear Manifold Clustering Algorithms ( http://arxiv.org/abs/2103.10656v1 )

ライセンス: CC BY 4.0
Maryam Abdolali, Nicolas Gillis(参考訳) サブスペースクラスタリングは、教師なしクラスタリングの重要なアプローチである。 これは、高次元のデータポイントが複数の低次元線型部分空間の周りにほぼ分散しているという仮定に基づいている。 顕著な部分空間クラスタリングアルゴリズムの大部分は、自己表現表現として知られる他のデータポイントの線形結合としてデータポイントの表現に依存している。 制限線型性の仮定を克服するために、非線形多様体の結合上のデータに対する部分空間クラスタリングアプローチを成功させるために、多くの非線形アプローチが提案されている。 本稿では,過去10年間に提案されてきた非線形サブスペースクラスタリング手法について概説する。 本稿では,最先端のアプローチを局所保存,カーネルベース,ニューラルネットワークの3つのカテゴリに分類する新しい分類法を提案する。 各カテゴリの主要な代表アルゴリズムは、慎重に設計された合成および実世界のデータセットで広範囲に比較される。 これらのアプローチの詳細な分析は、この分野における潜在的研究の方向性と未解決の課題を広げている。

Subspace clustering is an important unsupervised clustering approach. It is based on the assumption that the high-dimensional data points are approximately distributed around several low-dimensional linear subspaces. The majority of the prominent subspace clustering algorithms rely on the representation of the data points as linear combinations of other data points, which is known as a self-expressive representation. To overcome the restrictive linearity assumption, numerous nonlinear approaches were proposed to extend successful subspace clustering approaches to data on a union of nonlinear manifolds. In this comparative study, we provide a comprehensive overview of nonlinear subspace clustering approaches proposed in the last decade. We introduce a new taxonomy to classify the state-of-the-art approaches into three categories, namely locality preserving, kernel based, and neural network based. The major representative algorithms within each category are extensively compared on carefully designed synthetic and real-world data sets. The detailed analysis of these approaches unfolds potential research directions and unsolved challenges in this field.
翻訳日:2021-03-22 19:13:48 公開日:2021-03-19
# (参考訳) サーバーレス環境におけるBERTモデルの低コスト展開 [全文訳有]

Cost-effective Deployment of BERT Models in Serverless Environment ( http://arxiv.org/abs/2103.10673v1 )

ライセンス: CC BY-SA 4.0
Katar\'ina Bene\v{s}ov\'a, Andrej \v{S}vec, Marek \v{S}uppa(参考訳) 本研究では,実運用環境におけるBERTスタイルのモデルをAWS Lambdaにデプロイ可能であることを示す。 フリーで利用できる事前学習モデルは、このように展開するには大きすぎるため、知識蒸留を利用して、2つの現実世界のタスクのためのプロプライエタリデータセット上のモデルを微調整する:感情分析とセマンティックテキストの類似性。 その結果、特定のドメイン用に調整され、サーバレス環境にデプロイ可能なモデルが得られます。 その後のパフォーマンス分析は、このソリューションが本番使用に許容されるレイテンシレベルを報告しているだけでなく、BERTモデルの小規模から中規模へのデプロイメントに費用対効果があることを示している。

In this study we demonstrate the viability of deploying BERT-style models to AWS Lambda in a production environment. Since the freely available pre-trained models are too large to be deployed in this way, we utilize knowledge distillation and fine-tune the models on proprietary datasets for two real-world tasks: sentiment analysis and semantic textual similarity. As a result, we obtain models that are tuned for a specific domain and deployable in the serverless environment. The subsequent performance analysis shows that this solution does not only report latency levels acceptable for production use but that it is also a cost-effective alternative to small-to-medium size deployments of BERT models, all without any infrastructure overhead.
翻訳日:2021-03-22 19:12:14 公開日:2021-03-19
# (参考訳) ノンイテレーティブかつ生涯の方法でスーパーピクセルを学ぶ [全文訳有]

Learning the Superpixel in a Non-iterative and Lifelong Manner ( http://arxiv.org/abs/2103.10681v1 )

ライセンス: CC BY 4.0
Lei Zhu, Qi She, Bin Zhang, Yanye Lu, Zhilin Lu, Duo Li, Jie Hu(参考訳) スーパーピクセルは、画像中のピクセルを数百のコンパクトなパーティションに自動的にクラスタリングすることで生成される。 高品質なスーパーピクセルを生成するために畳み込みニューラルネットワーク(CNN)を用いる研究もあるが、これらのネットワークの設計原則、特に手動ラベルや過剰な計算資源に依存しているため、従来の教師なしセグメンテーション手法と比較して柔軟性が制限されている。 我々は,長寿命クラスタリングタスクとしてCNNベースのスーパーピクセルセグメンテーションを再定義し,LNS-Netと呼ばれる教師なしCNNベースの手法を提案する。 lns-netは、手動のラベルなしで、ノンイテレーティブで生涯にわたってスーパーピクセルを学習できる。 具体的には、クラスタフレンドリーな機能を効率的に生成するために、LSS-Netに軽量な機能埋め込み器を提案する。 これらの機能により、シードノードは非イテレーティブな方法でクラスタピクセルに自動的に割り当てられる。 さらに、LNS-Netは、チャネルと空間の両方の文脈に基づいて重みの勾配を再スケーリングすることで、過度な適合を避けることで、逐次的生涯学習に適応することができる。 実験により、提案手法は3つのベンチマークにおいて、他の最先端手法に比べて約10倍の複雑さで大幅に性能が向上することを示した。

Superpixel is generated by automatically clustering pixels in an image into hundreds of compact partitions, which is widely used to perceive the object contours for its excellent contour adherence. Although some works use the Convolution Neural Network (CNN) to generate high-quality superpixel, we challenge the design principles of these networks, specifically for their dependence on manual labels and excess computation resources, which limits their flexibility compared with the traditional unsupervised segmentation methods. We target at redefining the CNN-based superpixel segmentation as a lifelong clustering task and propose an unsupervised CNN-based method called LNS-Net. The LNS-Net can learn superpixel in a non-iterative and lifelong manner without any manual labels. Specifically, a lightweight feature embedder is proposed for LNS-Net to efficiently generate the cluster-friendly features. With those features, seed nodes can be automatically assigned to cluster pixels in a non-iterative way. Additionally, our LNS-Net can adapt the sequentially lifelong learning by rescaling the gradient of weight based on both channel and spatial context to avoid overfitting. Experiments show that the proposed LNS-Net achieves significantly better performance on three benchmarks with nearly ten times lower complexity compared with other state-of-the-art methods.
翻訳日:2021-03-22 19:01:43 公開日:2021-03-19
# (参考訳) 逆プロンプトによる事前学習言語モデルからの制御可能生成 [全文訳有]

Controllable Generation from Pre-trained Language Models via Inverse Prompting ( http://arxiv.org/abs/2103.10685v1 )

ライセンス: CC BY 4.0
Xu Zou, Da Yin, Qingyang Zhong, Hongxia Yang, Zhilin Yang, Jie Tang(参考訳) 大規模事前学習型言語モデルは、現実的なテキストを生成する強力な能力を示している。 しかし、生成結果の制御は依然として困難である。 プロンプトのような従来のアプローチは十分ではなく、言語モデルの使用を制限する。 そこで本研究では,テキスト生成をより良く制御するための逆プロンプト手法を提案する。 逆プロンプトの基本的な考え方は、生成したテキストを使用してビームサーチ中のプロンプトを逆予測することで、プロンプトと生成されたテキストの関連性を高め、より良い制御性を提供する。 経験的に,大規模な中国語モデルを事前学習し,オープンドメイン詩生成とオープンドメイン長文質問応答のタスクに対する人間的評価を用いた体系的研究を行った。 提案手法は,提案手法がベースラインを大幅に上回り,生成品質が課題のいくつかにおいて人的性能に近いことを示す。 ナレーターはhttps://pretrain.ami ner.cn/apps/poetry.h tmlで、私たちの詩生成デモはhttps://pretrain.ami ner.cn/app/qa.comで試すことができます。 研究者のために、コードはhttps://github.com/t hudm/inversepromptin gで提供される。

Large-scale pre-trained language models have demonstrated strong capabilities of generating realistic text. However, it remains challenging to control the generation results. Previous approaches such as prompting are far from sufficient, which limits the usage of language models. To tackle this challenge, we propose an innovative method, inverse prompting, to better control text generation. The core idea of inverse prompting is to use generated text to inversely predict the prompt during beam search, which enhances the relevance between the prompt and the generated text and provides better controllability. Empirically, we pre-train a large-scale Chinese language model to perform a systematic study using human evaluation on the tasks of open-domain poem generation and open-domain long-form question answering. Our results show that our proposed method substantially outperforms the baselines and that our generation quality is close to human performance on some of the tasks. Narrators can try our poem generation demo at https://pretrain.ami ner.cn/apps/poetry.h tml, while our QA demo can be found at https://pretrain.ami ner.cn/app/qa. For researchers, the code is provided in https://github.com/T HUDM/InversePromptin g.
翻訳日:2021-03-22 18:44:45 公開日:2021-03-19
# (参考訳) 人間行動提供のための意味的文脈推論 [全文訳有]

Semantic Contextual Reasoning to Provide Human Behavior ( http://arxiv.org/abs/2103.10694v1 )

ライセンス: CC BY 4.0
Sarika Jain and Archana Patel(参考訳) 近年、世界は人間の行動の複雑さに関連する様々な原始を目撃してきた。 時間、データ、メモリなどのリソースの制約とともに、不十分、不完全、仮の前提が存在する場合にイベントを特定することは、インテリジェントシステムの重要な側面である。 データ爆発はインテリジェントシステムにとって最も困難な研究課題の1つであり、人間行動を提供するために、この不均一でvoluminousなデータを最適に表現し保存する。 リソースの制約やユーザのプライオリティを前提とした、インテリジェントだがパーソナライズされた人間の行動の要件がある。 知識は、オントロジーの形式で表されるとき、ユーザによって提示されるクエリに対するインテリジェントな応答を発生しますが、ユーザコンテキストに応じてコンテンツを提供しません。 そこで本研究では,ユーザコンテキストを定量化し,意味的コンテキスト推論を提供するモデルを提案する。 特定の事象を特定し、利用可能なリソース、前提、例外、所望の特異性の関数として決定の信頼性を計算する診断的信念アルゴリズム(dba)も提示される。 日々の日常的問合せの領域で実証実験を行い,その結果から,問合せに対する回答と信頼度は,ユーザコンテキストによって異なることが示された。

In recent years, the world has witnessed various primitives pertaining to the complexity of human behavior. Identifying an event in the presence of insufficient, incomplete, or tentative premises along with the constraints on resources such as time, data and memory is a vital aspect of an intelligent system. Data explosion presents one of the most challenging research issues for intelligent systems; to optimally represent and store this heterogeneous and voluminous data semantically to provide human behavior. There is a requirement of intelligent but personalized human behavior subject to constraints on resources and priority of the user. Knowledge, when represented in the form of an ontology, procures an intelligent response to a query posed by users; but it does not offer content in accordance with the user context. To this aim, we propose a model to quantify the user context and provide semantic contextual reasoning. A diagnostic belief algorithm (DBA) is also presented that identifies a given event and also computes the confidence of the decision as a function of available resources, premises, exceptions, and desired specificity. We conduct an empirical study in the domain of day-to-day routine queries and the experimental results show that the answer to queries and also its confidence varies with user context.
翻訳日:2021-03-22 18:25:57 公開日:2021-03-19
# (参考訳) QROSS: 学習用ソルバーサロゲートによるQUBO緩和パラメータ最適化 [全文訳有]

QROSS: QUBO Relaxation Parameter Optimisation via Learning Solver Surrogates ( http://arxiv.org/abs/2103.10695v1 )

ライセンス: CC BY 4.0
Tian Huang, Siong Thye Goh, Sabrish Gopalakrishnan, Tao Luo, Qianxiao Li, Hoong Chuin Lau(参考訳) 制約付き組合せ最適化問題の解法として、まず2次非制約二元最適化(QUBO)問題に変換し、標準のQUBO解法を用いて解くのが一般的である。 しかし、この緩和は制約に対する目的とペナルティのバランスをとるハイパーパラメータを導入し、その選択した値がパフォーマンスに大きな影響を与えます。 したがって、これらのパラメータのチューニングは重要な問題である。 既存の一般的なハイパーパラメータチューニング手法では、QUBOソルバに複数の高価な呼び出しを必要とするため、類似の組合せ最適化問題の繰り返し解が必要な場合、性能クリティカルなアプリケーションでは実行できない。 本稿では,問題のインスタンスの集合に関するソルバデータから学習することで,quboソルバのサロゲートモデルを構築するqross法を提案する。 このようにして、インスタンスの共通構造と解決者との相互作用を捉えることができ、QUBO解決者への呼び出し回数が少ないようなペナルティパラメータを適切に選択することができる。 そこで本研究では,従来の超パラメータチューニング手法と比較してQUBOソルバへの呼び出しが少なく,より優れた解を見つけることができることを示す。 さらに、単純な適応法では、QROSSは分布外データセットや様々なタイプのQUBOソルバによく一般化される。

An increasingly popular method for solving a constrained combinatorial optimisation problem is to first convert it into a quadratic unconstrained binary optimisation (QUBO) problem, and solve it using a standard QUBO solver. However, this relaxation introduces hyper-parameters that balance the objective and penalty terms for the constraints, and their chosen values significantly impact performance. Hence, tuning these parameters is an important problem. Existing generic hyper-parameter tuning methods require multiple expensive calls to a QUBO solver, making them impractical for performance critical applications when repeated solutions of similar combinatorial optimisation problems are required. In this paper, we propose the QROSS method, in which we build surrogate models of QUBO solvers via learning from solver data on a collection of instances of a problem. In this way, we are able capture the common structure of the instances and their interactions with the solver, and produce good choices of penalty parameters with fewer number of calls to the QUBO solver. We take the Traveling Salesman Problem (TSP) as a case study, where we demonstrate that our method can find better solutions with fewer calls to QUBO solver compared with conventional hyper-parameter tuning techniques. Moreover, with simple adaptation methods, QROSS is shown to generalise well to out-of-distribution datasets and different types of QUBO solvers.
翻訳日:2021-03-22 18:00:09 公開日:2021-03-19
# (参考訳) AutoTune: 高速飛行のためのコントローラチューニング [全文訳有]

AutoTune: Controller Tuning for High-Speed Flight ( http://arxiv.org/abs/2103.10698v1 )

ライセンス: CC BY 4.0
Antonio Loquercio, Alessandro Saviolo, Davide Scaramuzza(参考訳) 騒音や外乱のため、高速飛行のための制御器は非常に困難である。 本稿では, 制御器が高速操作をトラッキングする際のチューニングにどの程度敏感か? 自動チューニングには何のアルゴリズムが使えるのか? 最初の質問に答えるために,パラメータと性能の関係を調査し,操作が速くなればなるほど,コントローラがパラメータに敏感になることを示す。 第2の疑問に答えるために,既存の制御チューニング手法をレビューし,前処理が高速飛行のタスクにおいて性能に乏しいことを発見した。 そこで我々は,高速飛行に特化したサンプリング型チューニングアルゴリズムであるautotuneを提案する。 従来の研究とは対照的に,我々のアルゴリズムは,ドローンの事前知識や最適化関数を前提とせず,パラメータの最適化空間のマルチモーダル特性に対処することができる。 我々はシミュレーションと物理界の両方でオートチューンを徹底的に評価する。 実験では、既存のチューニングアルゴリズムを最大90%の軌道完了度で上回りました。 結果得られたコントローラーはairsim game of dronesコンペティション(airsim game of drone competition)でテストされています。 最後にautotuneは、人間のエキスパートが調整したパラメータに関して、物理的プラットフォームを飛行する際のトラッキングエラーを改善する。

Due to noisy actuation and external disturbances, tuning controllers for high-speed flight is very challenging. In this paper, we ask the following questions: How sensitive are controllers to tuning when tracking high-speed maneuvers? What algorithms can we use to automatically tune them? To answer the first question, we study the relationship between parameters and performance and find out that the faster the maneuver, the more sensitive a controller becomes to its parameters. To answer the second question, we review existing methods for controller tuning and discover that prior works often perform poorly on the task of high-speed flight. Therefore, we propose AutoTune, a sampling-based tuning algorithm specifically tailored to high-speed flight. In contrast to previous work, our algorithm does not assume any prior knowledge of the drone or its optimization function and can deal with the multi-modal characteristics of the parameters' optimization space. We thoroughly evaluate AutoTune both in simulation and in the physical world. In our experiments, we outperform existing tuning algorithms by up to 90\% in trajectory completion. The resulting controllers are tested in the AirSim Game of Drones competition, where we outperform the winner by up to 25\% in lap-time. Finally, we show that AutoTune improves tracking error when flying a physical platform with respect to parameters tuned by a human expert.
翻訳日:2021-03-22 17:43:49 公開日:2021-03-19
# (参考訳) 自己教師付きコントラスト学習と多言語適応を用いたゼロリソース言語のための音響単語埋め込み [全文訳有]

Acoustic word embeddings for zero-resource languages using self-supervised contrastive learning and multilingual adaptation ( http://arxiv.org/abs/2103.10731v1 )

ライセンス: CC BY-SA 4.0
Christiaan Jacobs, Yevgen Matusevych, Herman Kamper(参考訳) 音響単語埋め込み(AWEs)は、可変長音声セグメントの固定次元表現である。 ラベル付きデータがないゼロリソース言語の場合、aweアプローチの一つは教師なしのオートエンコーダベースのリカレントモデルを使用することである。 教師付きAWEモデルは、複数の十分なリソースを持つ言語で訓練され、目に見えないゼロリソース言語に適用されます。 本稿では, 教師なしと多言語移動の設定の両方において, 最近のコントラスト学習損失をいかに活用するかを検討する。 まず、教師なし項発見システムからの用語は対照的な自己スーパービジョンに利用でき、従来の教師なし単言語AWEモデルよりも改善されることを示す。 第二に,多言語aweモデルが検出された用語を用いて,特定のゼロリソース言語にどのように適応できるかを検討する。 自己教師付きコントラスト適応は,多言語対応オートエンコーダやシャム語aweモデルよりも優れており,6つのゼロリソース言語における単語識別タスクにおいて最良である。

Acoustic word embeddings (AWEs) are fixed-dimensional representations of variable-length speech segments. For zero-resource languages where labelled data is not available, one AWE approach is to use unsupervised autoencoder-based recurrent models. Another recent approach is to use multilingual transfer: a supervised AWE model is trained on several well-resourced languages and then applied to an unseen zero-resource language. We consider how a recent contrastive learning loss can be used in both the purely unsupervised and multilingual transfer settings. Firstly, we show that terms from an unsupervised term discovery system can be used for contrastive self-supervision, resulting in improvements over previous unsupervised monolingual AWE models. Secondly, we consider how multilingual AWE models can be adapted to a specific zero-resource language using discovered terms. We find that self-supervised contrastive adaptation outperforms adapted multilingual correspondence autoencoder and Siamese AWE models, giving the best overall results in a word discrimination task on six zero-resource languages.
翻訳日:2021-03-22 17:26:20 公開日:2021-03-19
# (参考訳) 前景テクスチャ置換に基づくカートンデータセット合成 [全文訳有]

Carton dataset synthesis based on foreground texture replacement ( http://arxiv.org/abs/2103.10738v1 )

ライセンス: CC BY 4.0
Lijun Gou, Shengkai Wu, Jinrong Yang, Hangcheng Yu, Linchen Xi, Xiaoping Li, Chao Deng(参考訳) 産業アプリケーションのためのオブジェクト検出モデルを迅速にデプロイする際の大きな障害のひとつは、大きな注釈付きデータセットがないことである。 現在、電子商取引業界には、包括的医薬品物流会社(CPLC)、eコマース物流会社(ECLC)、果物市場(FM)といった3つのシナリオからカルトン画像を含むSacked Carton Dataset(SCD)が存在する。 しかし、ドメインシフトのため、SCDの3つのシナリオのうちの1つからカートンデータセットでトレーニングされたモデルは、残りのシナリオに適用した場合の一般化能力に乏しい。 この問題を解決するために, ソースデータセットの前景テクスチャを対象データセットの前景インスタンステクスチャに置き換える, 新たな画像合成法を提案する。 この方法はターゲットデータセットを大幅に拡張し、モデルの性能を向上させる。 まず,カートンインスタンスの異なる曲面を識別するサーフェスセグメンテーションアルゴリズムを提案する。 次に, カートンインスタンスの閉塞, 脱落, 不完全輪郭の問題を解決するために, 輪郭再構成アルゴリズムを提案する。 最後に、gaussian fusionアルゴリズムを使用して、ソースデータセットから背景を、ターゲットデータセットから前景と融合する。 実験では、新しい画像合成法により、少なくとも4.3\%\sim6.5\%がRetinaNetで、3.4\%\sim6.8\%がターゲットドメインで高速なR-CNNでAPを大きく向上させることができる。 ソースドメインでは、RetinaNetで1.7\%\sim2\%、高速R-CNNで0.9\%\sim1.5\%でパフォーマンスAPを改善することができる。 コードは href{https://github.com/h ustgetlijun/RCAN}{here} で入手できる。

One major impediment in rapidly deploying object detection models for industrial applications is the lack of large annotated datasets. Currently, in the e-commerce logistics industry, there is a Sacked Carton Dataset(SCD) that contains carton images from three scenarios such as comprehensive pharmaceutical logistics company(CPLC), e-commerce logistics company(ECLC), fruit market(FM). However, due to domain shift, the model trained with carton datasets from one of the three scenarios in SCD has poor generalization ability when applied to the rest scenarios. To solve this problem, a novel image synthesis method is proposed to replace the foreground texture of the source datasets with the foreground instance texture of the target datasets. This method can greatly augment the target datasets and improve the model's performance. We firstly propose a surfaces segmentation algorithm to identify the different surfaces of the carton instance. Secondly, a contour reconstruction algorithm is proposed to solve the problem of occlusion, truncation, and incomplete contour of carton instances. Finally, we use the Gaussian fusion algorithm to fuse the background from the source datasets with the foreground from the target datasets. In the experiments, our novel image synthesis method can largely boost AP by at least $4.3\%\sim6.5\%$ on RetinaNet and $3.4\%\sim6.8\%$ on Faster R-CNN for the target domain. And on the source domain, the performance AP can be improved by $1.7\%\sim2\%$ on RetinaNet and $0.9\%\sim1.5\%$ on Faster R-CNN. Code is available \href{https://github.com/h ustgetlijun/RCAN}{here}.
翻訳日:2021-03-22 17:10:32 公開日:2021-03-19
# (参考訳) 関連時系列予測のためのグラフ注意リカレントニューラルネットワーク [全文訳有]

Graph Attention Recurrent Neural Networks for Correlated Time Series Forecasting ( http://arxiv.org/abs/2103.10760v1 )

ライセンス: CC BY 4.0
Razvan-Gabriel Cirstea, Chenjuan Guo and Bin Yang(参考訳) 我々は、複数のエンティティが時間とともに相互に相互作用し、そのエンティティの状態が複数の相関時系列として表されるような設定を考える。 例えば、速度センサは道路ネットワーク内の異なる場所に配置され、時間を通して特定の位置の速度が対応するセンサによって時系列としてキャプチャされ、その結果、異なる場所からの複数の速度時系列が相関することが多い。 相関時系列の正確な予測を可能にするために,まず,空間的近接を考慮したグラフ注意再帰ニューラルネットワークを提案する。まず,グラフの適応重み行列を導出するマルチヘッドアテンション機構を用いて,異なるタイムスタンプにおける頂点間の相関関係(例えば,異なる位置での速度)を捉える。 第2に、時系列間の相関を考慮した適応重み行列を考慮しつつ、時間依存性を考慮した繰り返しニューラルネットワークを用い、提案手法の有効性を実証し、ほとんどの設定において最先端の手法よりも優れていることを示す。 この写本はワークショップ用紙[1]の完全なバージョンを提供する。

We consider a setting where multiple entities inter-act with each other over time and the time-varying statuses of the entities are represented as multiple correlated time series. For example, speed sensors are deployed in different locations in a road network, where the speed of a specific location across time is captured by the corresponding sensor as a time series, resulting in multiple speed time series from different locations, which are often correlated. To enable accurate forecasting on correlated time series, we proposes graph attention recurrent neural networks.First, we build a graph among different entities by taking into account spatial proximity and employ a multi-head attention mechanism to derive adaptive weight matrices for the graph to capture the correlations among vertices (e.g., speeds at different locations) at different timestamps. Second, we employ recurrent neural networks to take into account temporal dependency while taking into account the adaptive weight matrices learned from the first step to consider the correlations among time series.Experiments on a large real-world speed time series data set suggest that the proposed method is effective and outperforms the state-of-the-art in most settings. This manuscript provides a full version of a workshop paper [1].
翻訳日:2021-03-22 16:46:18 公開日:2021-03-19
# (参考訳) DFS:一般化ゼロショット学習のための多元的特徴合成モデル [全文訳有]

DFS: A Diverse Feature Synthesis Model for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2103.10764v1 )

ライセンス: CC BY 4.0
Bonan Li and Xuecheng Nie and Congying Han(参考訳) ジェネレーティブベースの戦略は、一般化ゼロショット学習タスクにおいて大きな可能性を示している。 しかし,良質な分類器を訓練するために,未発見のクラスでは特徴の多様性が欠如しているため,一般化が困難である。 本稿では,GZSLモデルの一般化可能性を高めるために,未知のクラスの特徴的多様性を改善することを提案する。 そこで本研究では,新しい分散特徴合成(DFS)モデルを提案する。 生成プロセスにおける意味的知識のみを利用する以前の研究とは異なり、DFSはセマンティック知識と統合された方法で視覚的知識を利用するため、クラス固有の多様な特徴サンプルを抽出し、テストフェーズで目に見えないクラスと見えないクラスの両方を認識するための堅牢な分類器へと導く。 学習を単純化するため、dfsはアライメントされた空間における視覚的かつ意味的な知識を表し、低複雑さな実装で優れた機能サンプルを作成することができる。 従って、DFSは2つの連続したジェネレータで構成されている: 整列した特徴生成、セマンティクスと視覚表現を整列した特徴に転送する、合成された特徴生成、整列した空間における無見えないクラスの多様な特徴サンプルを生成する。 DFSの有効性を検証するための総合的な実験を行った。 その結果、未確認クラスの多様な機能を生成する効果が示され、複数のベンチマークのパフォーマンスが向上した。 コードは受理時にリリースされる。

Generative based strategy has shown great potential in the Generalized Zero-Shot Learning task. However, it suffers severe generalization problem due to lacking of feature diversity for unseen classes to train a good classifier. In this paper, we propose to enhance the generalizability of GZSL models via improving feature diversity of unseen classes. For this purpose, we present a novel Diverse Feature Synthesis (DFS) model. Different from prior works that solely utilize semantic knowledge in the generation process, DFS leverages visual knowledge with semantic one in a unified way, thus deriving class-specific diverse feature samples and leading to robust classifier for recognizing both seen and unseen classes in the testing phase. To simplify the learning, DFS represents visual and semantic knowledge in the aligned space, making it able to produce good feature samples with a low-complexity implementation. Accordingly, DFS is composed of two consecutive generators: an aligned feature generator, transferring semantic and visual representations into aligned features; a synthesized feature generator, producing diverse feature samples of unseen classes in the aligned space. We conduct comprehensive experiments to verify the efficacy of DFS. Results demonstrate its effectiveness to generate diverse features for unseen classes, leading to superior performance on multiple benchmarks. Code will be released upon acceptance.
翻訳日:2021-03-22 16:34:02 公開日:2021-03-19
# (参考訳) LSDAT: 意思決定に基づく敵攻撃のための低ランク・スパース分解 [全文訳有]

LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial Attack ( http://arxiv.org/abs/2103.10787v1 )

ライセンス: CC BY 4.0
Ashkan Esmaeili, Marzieh Edraki, Nazanin Rahnavard, Mubarak Shah, Ajmal Mian(参考訳) 低ランク・スパース分解(LSD)を利用してクエリの数を劇的に減らし、与えられた許容範囲制約の下での最先端の意思決定ベース手法と比較して、優れた不正率を達成する画像認識型意思決定ベースブラックボックスアタックであるLSDATを提案する。 LSDATは、入力サンプルのスパース成分と逆サンプルとで形成された低次元部分空間の摂動を利用して、クエリ効率を得る。 特定の興味の摂動は、入力と逆方向のスパース成分の間の経路をトラバースすることで得られる。 提案するスパース摂動 (sparse perturbation) は, 入力サンプルから決定境界までの最短経路(最短経路の最もスパース近似であり, モデルを騙す可能性が高い)に対して最も短い経路を持つスパース摂動 (sparse perturbation) である。 LSDATの機能を正当化するために理論的解析が提供される。 クエリ効率を改善することを目的とした他の次元還元に基づく技術(例えばFFTに基づくもの)とは異なり、LSDは画像ピクセル領域で直接機能し、スパーシティのような非$\ell_2$制約が満たされることを保証する。 lsdはクエリ数をよりよく制御し、全てのクエリを生成するために一度だけ入力画像と逆画像のスパース分解を実行するため、計算効率を提供する。 lsdat による$\ell_0$,$\ell_2$,$\ ell_\infty$ の限定攻撃を lsdat で実演し,実験で概説されているような,さまざまな低照会予算シナリオにおける基準決定に基づく攻撃と比較した。

We propose LSDAT, an image-agnostic decision-based black-box attack that exploits low-rank and sparse decomposition (LSD) to dramatically reduce the number of queries and achieve superior fooling rates compared to the state-of-the-art decision-based methods under given imperceptibility constraints. LSDAT crafts perturbations in the low-dimensional subspace formed by the sparse component of the input sample and that of an adversarial sample to obtain query-efficiency. The specific perturbation of interest is obtained by traversing the path between the input and adversarial sparse components. It is set forth that the proposed sparse perturbation is the most aligned sparse perturbation with the shortest path from the input sample to the decision boundary for some initial adversarial sample (the best sparse approximation of shortest path, likely to fool the model). Theoretical analyses are provided to justify the functionality of LSDAT. Unlike other dimensionality reduction based techniques aimed at improving query efficiency (e.g, ones based on FFT), LSD works directly in the image pixel domain to guarantee that non-$\ell_2$ constraints, such as sparsity, are satisfied. LSD offers better control over the number of queries and provides computational efficiency as it performs sparse decomposition of the input and adversarial images only once to generate all queries. We demonstrate $\ell_0$, $\ell_2$ and $\ell_\infty$ bounded attacks with LSDAT to evince its efficiency compared to baseline decision-based attacks in diverse low-query budget scenarios as outlined in the experiments.
翻訳日:2021-03-22 16:18:38 公開日:2021-03-19
# (参考訳) 物理的制約を考慮した形状最適化のためのトランスファーブルモデル [全文訳有]

Transferable Model for Shape Optimization subject to Physical Constraints ( http://arxiv.org/abs/2103.10805v1 )

ライセンス: CC BY 4.0
Lukas Harsch, Johannes Burgbacher, Stefan Riedelbauch(参考訳) ニューラルネットワークと物理方程式の相互作用は、幅広い応用を提供する。 ニューラルネットワークが与えられた物理的制約の対象となるオブジェクトを変換する方法を提供する。 したがって、U-Netアーキテクチャは流体の物理挙動を学習するために用いられる。 このネットワークはフローシミュレーションの解を推定するために使用され、広範囲の一般的なチャネルフローシミュレーションで示される。 物理的有意義な量は、例えば、得られた溶液上で計算することができる。 圧力の差や物体に対する力などです 物体の物理的制約と幾何学的表現の相互作用に,薄板スプライスを用いた空間トランスフォーマーネットワークを用いる。 これにより、オブジェクトが与えられた制約を満たすように、初期から対象の幾何学への変換を行う。 この方法は完全微分可能であり、勾配情報は変換に使うことができる。 これは逆の設計プロセスと見なすことができる。 この手法の他の多くの提案手法に対する利点は、物理制約が推論された流れ場解に基づいていることである。 したがって、様々な問題の設定に適用でき、与えられた幾何パラメータや物理量に限定されない転送可能なモデルが存在する。

The interaction of neural networks with physical equations offers a wide range of applications. We provide a method which enables a neural network to transform objects subject to given physical constraints. Therefore an U-Net architecture is used to learn the underlying physical behaviour of fluid flows. The network is used to infer the solution of flow simulations, which will be shown for a wide range of generic channel flow simulations. Physical meaningful quantities can be computed on the obtained solution, e.g. the total pressure difference or the forces on the objects. A Spatial Transformer Network with thin-plate-splines is used for the interaction between the physical constraints and the geometric representation of the objects. Thus, a transformation from an initial to a target geometry is performed such that the object is fulfilling the given constraints. This method is fully differentiable i.e., gradient informations can be used for the transformation. This can be seen as an inverse design process. The advantage of this method over many other proposed methods is, that the physical constraints are based on the inferred flow field solution. Thus, we have a transferable model which can be applied to varying problem setups and is not limited to a given set of geometry parameters or physical quantities.
翻訳日:2021-03-22 15:55:00 公開日:2021-03-19
# (参考訳) ニューラルネットワークシミュレーションによる進行レンズ性能の予測 [全文訳有]

Prediction of progressive lens performance from neural network simulations ( http://arxiv.org/abs/2103.10842v1 )

ライセンス: CC BY 4.0
Alexander Leube, Lukas Lang, Gerhard Kelch and Siegfried Wahl(参考訳) 目的: 本研究の目的は,畳み込みニューラルネットワーク(cnn)に基づいて視覚視力(va)を予測する枠組みを示し,pal設計を比較することである。 方法: 簡単な2つの隠蔽層CNNを訓練し, CNNの特徴抽出能力と心理的階段法を組み合わせたランドルトCsのギャップ配向を分類した。 主観的に測定した39眼から誘導された球面脱焦点(+/-1.5d, ステップサイズ: 0.5d)から臨床用vaの予測可能性についてシミュレーションを行った。 その後,低次および高次収差を含む汎用ハードまたはソフトpal設計(付加力2.5d)により補正された眼前眼のシミュレーションを行った。 結果: 0.20 logmar +/-0.035 logmarのオフセットが一致し, オフセット補正結果からのva.bland-altman解析では-0.08 logmarと+0.07 logmarの一致限界(+/-1.96 sd)が確認された。 palsに対するシミュレーションの適用により、汎用ハード設計のためのより大きな遠方領域が確認されたが、中間層と近傍のゾーン幅の違いは明らかではなかった。 さらに,PALの中央でより優れたVAの水平領域が発見され,物体収差を用いた現実的な性能シミュレーションや生理的性能測定がVAとして重要であることが確認された。 結論: 提案する総合シミュレーションツールは, 主観的視覚性能の正確なモデルとして機能することが示された。 さらに、PALのシミュレーション応用は、異なる光学設計の視覚性能を比較する効果的な方法としての可能性を示した。 さらに、シミュレーションは視覚知覚の神経的側面を組み込んだ基礎を提供し、将来的な神経処理を含むvaをシミュレートする。

Purpose: The purpose of this study is to present a framework to predict visual acuity (VA) based on a convolutional neural network (CNN) and to further to compare PAL designs. Method: A simple two hidden layer CNN was trained to classify the gap orientations of Landolt Cs by combining the feature extraction abilities of a CNN with psychophysical staircase methods. The simulation was validated regarding its predictability of clinical VA from induced spherical defocus (between +/-1.5 D, step size: 0.5 D) from 39 subjectively measured eyes. Afterwards, a simulation for a presbyopic eye corrected by either a generic hard or a soft PAL design (addition power: 2.5 D) was performed including lower and higher order aberrations. Result: The validation revealed consistent offset of +0.20 logMAR +/-0.035 logMAR from simulated VA. Bland-Altman analysis from offset-corrected results showed limits of agreement (+/-1.96 SD) of -0.08 logMAR and +0.07 logMAR, which is comparable to clinical repeatability of VA assessment. The application of the simulation for PALs confirmed a bigger far zone for generic hard design but did not reveal zone width differences for the intermediate or near zone. Furthermore, a horizontal area of better VA at the mid of the PAL was found, which confirms the importance for realistic performance simulations using object-based aberration and physiological performance measures as VA. Conclusion: The proposed holistic simulation tool was shown to act as an accurate model for subjective visual performance. Further, the simulations application for PALs indicated its potential as an effective method to compare visual performance of different optical designs. Moreover, the simulation provides the basis to incorporate neural aspects of visual perception and thus simulate the VA including neural processing in future.
翻訳日:2021-03-22 15:40:55 公開日:2021-03-19
# (参考訳) 動的システムの共同パラメータ発見と生成モデリング [全文訳有]

Joint Parameter Discovery and Generative Modeling of Dynamic Systems ( http://arxiv.org/abs/2103.10905v1 )

ライセンス: CC BY 4.0
Gregory Barber, Mulugeta A. Haile, Tzikang Chen(参考訳) 結合調和振動子のような未知の力学系に$n$のばねと点質量を与える。 私たちはしばしば、その物理パラメータ、すなわち、洞察を得ることに興味を持っています。 運動の軌跡を観察することで 硬さと質量 動画フレームや時系列データから、ダイナミックスモデルの知識なしにどうやってこれを達成すればよいのか? 物理パラメータを基礎となる物理と整合した方法で推定するニューラルネットワークフレームワークを提案する。 ニューラルネットワークは、深層潜伏変数モデルを使用して、システムの物理パラメータを標準座標観測から切り離す。 その後、発見された物理パラメータに関してうまく一般化するハミルトンパラメータ化を返す。 我々は、単純な調和振動子、$n=1$、および騒がしい観測でこのフレームワークをテストし、基礎となるシステムパラメータを発見し、これらの発見パラメータに関してよく一般化することを示した。 また,本モデルはトレーニング間隔を超えてシステムのダイナミクスを推定し,非物理的に制約されたベースラインモデルよりも優れる。 ソースコードとデータセットは、このurlで見ることができる。

Given an unknown dynamic system such as a coupled harmonic oscillator with $n$ springs and point masses. We are often interested in gaining insights into its physical parameters, i.e. stiffnesses and masses, by observing trajectories of motion. How do we achieve this from video frames or time-series data and without the knowledge of the dynamics model? We present a neural framework for estimating physical parameters in a manner consistent with the underlying physics. The neural framework uses a deep latent variable model to disentangle the system physical parameters from canonical coordinate observations. It then returns a Hamiltonian parameterization that generalizes well with respect to the discovered physical parameters. We tested our framework with simple harmonic oscillators, $n=1$, and noisy observations and show that it discovers the underlying system parameters and generalizes well with respect to these discovered parameters. Our model also extrapolates the dynamics of the system beyond the training interval and outperforms a non-physically constrained baseline model. Our source code and datasets can be found at this URL: https://github.com/g barber94/ConSciNet.
翻訳日:2021-03-22 15:29:50 公開日:2021-03-19
# (参考訳) IAプランナー:高速道路の高密度ダイナミックシナリオにおける自動運転車の瞬時解析を用いた運動計画 [全文訳有]

IA Planner: Motion Planning Using Instantaneous Analysis for Autonomous Vehicle in the Dense Dynamic Scenarios on Highways ( http://arxiv.org/abs/2103.10909v1 )

ライセンス: CC BY 4.0
Xiaoyu Yang and Huiyun Li(参考訳) 密集したダイナミックなシナリオでは、安全で快適な軌道の計画には、トラフィック参加者が高速で運転している場合の課題がいっぱいです。 古典的なグラフ探索とサンプリング手法は、まず経路計画を行い、次に対応する速度を設定し、高速な障害物に対処する戦略を欠いている。 分離最適化法はS-LドメインとS-Tドメインでそれぞれ動作計画を実行する。 これらの手法はレーン変更軌跡を計画するために大きな自由な構成空間を必要とする。 密集したダイナミックシーンでは、軌道計画の失敗や他の人による切り込みが容易であり、運転速度が遅く、安全上の危険をもたらす。 本研究では,時空間における衝突関係を解析し,衝突関係を同時に解析する瞬時解析モデルを提案する。 モデルでは、3次元時空間領域における衝突のない制約を2次元空間領域に投影し、冗長な制約を除去し、計算複雑性を低減する。 実験の結果,提案手法は密集した動的シナリオにおいて安全かつ快適な車線変更軌道を計画できることがわかった。 同時に、交通効率を改善し、乗り心地を向上させる。

In dense and dynamic scenarios, planning a safe and comfortable trajectory is full of challenges when traffic participants are driving at high speed. The classic graph search and sampling methods first perform path planning and then configure the corresponding speed, which lacks a strategy to deal with the high-speed obstacles. Decoupling optimization methods perform motion planning in the S-L and S-T domains respectively. These methods require a large free configuration space to plan the lane change trajectory. In dense dynamic scenes, it is easy to cause the failure of trajectory planning and be cut in by others, causing slow driving speed and bring safety hazards. We analyze the collision relationship in the spatio-temporal domain, and propose an instantaneous analysis model which only analyzes the collision relationship at the same time. In the model, the collision-free constraints in 3D spatio-temporal domain is projected to the 2D space domain to remove redundant constraints and reduce computational complexity. Experimental results show that our method can plan a safe and comfortable lane-changing trajectory in dense dynamic scenarios. At the same time, it improves traffic efficiency and increases ride comfort.
翻訳日:2021-03-22 15:17:20 公開日:2021-03-19
# Bilinear Classes: RLにおける確率的一般化のための構造的フレームワーク

Bilinear Classes: A Structural Framework for Provable Generalization in RL ( http://arxiv.org/abs/2103.10897v1 )

ライセンス: Link先を確認
Simon S. Du, Sham M. Kakade, Jason D. Lee, Shachar Lovett, Gaurav Mahajan, Wen Sun and Ruosong Wang(参考訳) 本研究は,強化学習における関数近似を用いた一般化を可能にする新しい構造的枠組みであるバイリニアクラスを提案する。 このフレームワークは、多項式のサンプル複雑性が達成可能なほとんどすべての既存モデルを取り込んでおり、特に、いくつかの既知の特徴空間において最適な$q$-関数と最適な$v$-関数の両方が線形である線形$q^*/v^*$モデルのような新しいモデルを含んでいる。 本研究の主な成果は, 線形クラスに対する多項式サンプルの複雑性を持つRLアルゴリズムであり, このサンプルの複雑さは, 基礎となる教師付き学習サブプロブレムの一般化誤差の低減という観点から述べられている。 これらの境界は、既存のモデルの最もよく知られたサンプル複雑性境界にほぼ一致する。 さらに、このフレームワークは無限次元 (RKHS) の設定にも拡張される: 線形$Q^*/V^*$モデル、線形 MDP および線形混合 MDP に対して、明示的な特徴次元(無限であるかもしれない)に明示的に依存しないサンプル複素量を与えるが、代わりに情報理論量にのみ依存する。

This work introduces Bilinear Classes, a new structural framework, which permit generalization in reinforcement learning in a wide variety of settings through the use of function approximation. The framework incorporates nearly all existing models in which a polynomial sample complexity is achievable, and, notably, also includes new models, such as the Linear $Q^*/V^*$ model in which both the optimal $Q$-function and the optimal $V$-function are linear in some known feature space. Our main result provides an RL algorithm which has polynomial sample complexity for Bilinear Classes; notably, this sample complexity is stated in terms of a reduction to the generalization error of an underlying supervised learning sub-problem. These bounds nearly match the best known sample complexity bounds for existing models. Furthermore, this framework also extends to the infinite dimensional (RKHS) setting: for the the Linear $Q^*/V^*$ model, linear MDPs, and linear mixture MDPs, we provide sample complexities that have no explicit dependence on the explicit feature dimension (which could be infinite), but instead depends only on information theoretic quantities.
翻訳日:2021-03-22 14:46:13 公開日:2021-03-19
# ConViT:Soft Convolutional Inductive Biaseによる視覚変換器の改良

ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases ( http://arxiv.org/abs/2103.10697v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun(参考訳) 畳み込みアーキテクチャはビジョンタスクで非常に成功した。 ハードインダクティブバイアスは、サンプル効率のよい学習を可能にするが、潜在的に低いパフォーマンス天井のコストが伴う。 視覚変換器(ViT)はより柔軟な自己注意層に依存しており、最近画像分類においてCNNよりも優れています。 しかし、大きな外部データセットでのコストのかかる事前トレーニングや、事前訓練された畳み込みネットワークからの蒸留が必要となる。 本稿では,これらの2つのアーキテクチャの長所を,それぞれの制限を回避しながら組み合わせることが可能か,という疑問を提起する。 この目的のために,「ソフト」畳み込み型インダクティブバイアスを具備できる位置的セルフアテンションの一形態であるゲート型位置自己アテンション(gpsa)を導入する。 gpsa層を初期化し、畳み込み層の局所性を模倣し、各注意頭に位置と内容情報に対する注意を規制するゲーティングパラメータを調整させ、局所性から逃れる自由を与える。 その結果、畳み込みのようなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れており、サンプル効率は大幅に改善されている。 学習における局所性の役割について,まずバニラ自己注意層でどのように促進されるかを定量化し,GPSA層でどのように回避されるかを分析する。 我々は,ConViTの成功をよりよく理解するために,様々な信念を提示して結論付ける。 私たちのコードとモデルは公開されています。

Convolutional architectures have proven extremely successful for vision tasks. Their hard inductive biases enable sample-efficient learning, but come at the cost of a potentially lower performance ceiling. Vision Transformers (ViTs) rely on more flexible self-attention layers, and have recently outperformed CNNs for image classification. However, they require costly pre-training on large external datasets or distillation from pre-trained convolutional networks. In this paper, we ask the following question: is it possible to combine the strengths of these two architectures while avoiding their respective limitations? To this end, we introduce gated positional self-attention (GPSA), a form of positional self-attention which can be equipped with a "soft" convolutional inductive bias. We initialize the GPSA layers to mimic the locality of convolutional layers, then give each attention head the freedom to escape locality by adjusting a gating parameter regulating the attention paid to position versus content information. The resulting convolutional-like ViT architecture, ConViT, outperforms the DeiT on ImageNet, while offering a much improved sample efficiency. We further investigate the role of locality in learning by first quantifying how it is encouraged in vanilla self-attention layers, then analyzing how it is escaped in GPSA layers. We conclude by presenting various ablations to better understand the success of the ConViT. Our code and models are released publicly.
翻訳日:2021-03-22 14:45:33 公開日:2021-03-19
# ディープメトリック学習による画像コセメンテーションの改善

Improving Image co-segmentation via Deep Metric Learning ( http://arxiv.org/abs/2103.10670v1 )

ライセンス: Link先を確認
Zhengwen Li, Xiabi Liu(参考訳) Deep Metric Learning (DML)はコンピュータビジョンタスクに役立つ。 本稿ではまず,DMLを画像のコセグメンテーションに導入する。 画像分割のための新しい三重項損失であるis-triplet loss for shortを提案し,従来の画像分割損失と組み合わせた。 画像間の距離を学習する一般的なdmlタスクと異なり、各ピクセルをサンプルとして扱い、それらの埋め込み特徴を高次元空間に使用して三重項を形成する。 さらに,IS-Triplet損失の計算を可能とするために,効率的なトリプルサンプリング戦略を提案する。 最後に、IS-Triplet損失と従来の3つの画像分割損失を組み合わせて画像分割を行う。 提案手法を画像のコセメンテーションに適用し,sbcosegデータセットとインターネットデータセットでテストする。 実験結果から,本手法は高次元空間における画素のカテゴリ識別を効果的に向上し,従来の画像分割の精度向上に寄与することが示唆された。

Deep Metric Learning (DML) is helpful in computer vision tasks. In this paper, we firstly introduce DML into image co-segmentation. We propose a novel Triplet loss for Image Segmentation, called IS-Triplet loss for short, and combine it with traditional image segmentation loss. Different from the general DML task which learns the metric between pictures, we treat each pixel as a sample, and use their embedded features in high-dimensional space to form triples, then we tend to force the distance between pixels of different categories greater than of the same category by optimizing IS-Triplet loss so that the pixels from different categories are easier to be distinguished in the high-dimensional feature space. We further present an efficient triple sampling strategy to make a feasible computation of IS-Triplet loss. Finally, the IS-Triplet loss is combined with 3 traditional image segmentation losses to perform image segmentation. We apply the proposed approach to image co-segmentation and test it on the SBCoseg dataset and the Internet dataset. The experimental result shows that our approach can effectively improve the discrimination of pixels' categories in high-dimensional space and thus help traditional loss achieve better performance of image segmentation with fewer training epochs.
翻訳日:2021-03-22 14:45:10 公開日:2021-03-19
# Tf-GCZSL:タスクフリーの連続ゼロショット学習

Tf-GCZSL: Task-Free Generalized Continual Zero-Shot Learning ( http://arxiv.org/abs/2103.10741v1 )

ライセンス: Link先を確認
Chandan Gautam, Sethupathy Parameswaran, Ashish Mishra, Suresh Sundaram(参考訳) ゼロショット学習(ZSL)の文献で提案される手法は、通常オフライン学習に適しており、連続的なストリーミングデータから継続的に学習することはできない。 シーケンシャルデータは、トレーニング中のタスクの形式で提供される。 近年,この問題に対処し,連続ZSL(CZSL)法を開発する試みがいくつか行われている。 しかし、これらのCZSL法は、訓練中にタスク間の明確なタスク境界情報を必要とする。 本稿では,連続学習中にタスク情報を必要としないタスクフリー(タスク非依存)CZSL手法を提案する。 タスクフリーなCZSL法では,ZSLの実行に可変オートエンコーダ(VAE)を用いる。 CZSL法を開発するために,経験リプレイの概念と知識蒸留と正規化を組み合わせた。 ここで、トレーニングサンプルの暗黒知識を用いて知識蒸留を行い、これは本質的に壊滅的な忘れる問題を克服するのに役立つ。 さらに、短期記憶を用いたタスクフリー学習が可能となる。 最後に、VAEの潜伏空間で生成された合成特徴に基づいて分類器を訓練する。 さらに、実験は困難で実用的なZSL、すなわち一般化ZSL(GZSL)で実施される。 これらの実験は、2種類の単頭連続学習環境で実施される: (i) 軽度な設定-: タスク境界は訓練中のみに知られ、テスト中は知られていない; (ii) 厳格な設定-: タスク境界は訓練中だけでなくテスト中にも知られていない。 5つのベンチマークデータセットの実験結果は、CZSLのアプローチの有効性を示している。

Methods proposed in the literature for zero-shot learning (ZSL) are typically suitable for offline learning and cannot continually learn from sequential streaming data. The sequential data comes in the form of tasks during training. Recently, a few attempts have been made to handle this issue and develop continual ZSL (CZSL) methods. However, these CZSL methods require clear task-boundary information between the tasks during training, which is not practically possible. This paper proposes a task-free (i.e., task-agnostic) CZSL method, which does not require any task information during continual learning. The proposed task-free CZSL method employs a variational autoencoder (VAE) for performing ZSL. To develop the CZSL method, we combine the concept of experience replay with knowledge distillation and regularization. Here, knowledge distillation is performed using the training sample's dark knowledge, which essentially helps overcome the catastrophic forgetting issue. Further, it is enabled for task-free learning using short-term memory. Finally, a classifier is trained on the synthetic features generated at the latent space of the VAE. Moreover, the experiments are conducted in a challenging and practical ZSL setup, i.e., generalized ZSL (GZSL). These experiments are conducted for two kinds of single-head continual learning settings: (i) mild setting-: task-boundary is known only during training but not during testing; (ii) strict setting-: task-boundary is not known at training, as well as testing. Experimental results on five benchmark datasets exhibit the validity of the approach for CZSL.
翻訳日:2021-03-22 14:44:48 公開日:2021-03-19
# シーケンスラベリングのためのマスキング条件付確率場

Masked Conditional Random Fields for Sequence Labeling ( http://arxiv.org/abs/2103.10682v1 )

ライセンス: Link先を確認
Tianwen Wei, Jianwei Qi, Shenghuan He, Songtao Sun(参考訳) 条件付きランダムフィールド(CRF)ベースのニューラルモデルは、シーケンスラベリング問題を解決する最も高性能な方法の一つである。 その大きな成功にもかかわらず、CRFは時々違法なタグ列を生成する欠点がある。 o"タグの直後に"i-"タグを含むシーケンスは、基礎となるバイオタグスキームによって禁止される。 本研究では,学習段階と復号段階の両方において候補経路に制約を課すCRFの変種実装を容易にするMasked Conditional Random Field (MCRF)を提案する。 提案手法はこの問題を徹底的に解決し,既存のCRFモデルに対してほぼゼロのコストで一貫した改善をもたらすことを示す。

Conditional Random Field (CRF) based neural models are among the most performant methods for solving sequence labeling problems. Despite its great success, CRF has the shortcoming of occasionally generating illegal sequences of tags, e.g. sequences containing an "I-" tag immediately after an "O" tag, which is forbidden by the underlying BIO tagging scheme. In this work, we propose Masked Conditional Random Field (MCRF), an easy to implement variant of CRF that impose restrictions on candidate paths during both training and decoding phases. We show that the proposed method thoroughly resolves this issue and brings consistent improvement over existing CRF-based models with near zero additional cost.
翻訳日:2021-03-22 14:44:26 公開日:2021-03-19
# 言語モデルを用いたシャノンゲーム:要約評価のための人間自由アプローチ

Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation ( http://arxiv.org/abs/2103.10918v1 )

ライセンス: Link先を確認
Nicholas Egan, Oleg Vasilyev, John Bohannon(参考訳) 要約の目的は、文書の中で最も重要な情報を簡潔に述べることである。 この原則を念頭に置いて,事前学習言語モデルを用いて文書と要約間で共有される情報を推定する参照不要要約評価指標を導入する。 これらの指標は、数十年前に提案された要約品質スコアリング手法であるShannon Gameに対する現代的な見解であり、人間のアノテーションを言語モデルに置き換える。 また,これらのメトリクスは,サマリの助けなしに言語モデルのパフォーマンスに基づいて,最近提案されているサマリ品質測定手法であるbranchの拡張であると考えている。 GPT-2を用いて、導入した指標が、カバレッジ、全体的な品質、および5つの要約次元に基づいて人間の判断と相関していることを実証的に検証した。

The goal of a summary is to concisely state the most important information in a document. With this principle in mind, we introduce new reference-free summary evaluation metrics that use a pretrained language model to estimate the information shared between a document and its summary. These metrics are a modern take on the Shannon Game, a method for summary quality scoring proposed decades ago, where we replace human annotators with language models. We also view these metrics as an extension of BLANC, a recently proposed approach to summary quality measurement based on the performance of a language model with and without the help of a summary. Using GPT-2, we empirically verify that the introduced metrics correlate with human judgement based on coverage, overall quality, and five summary dimensions.
翻訳日:2021-03-22 14:44:16 公開日:2021-03-19
# bertsurv:外傷患者の予後予測のためのbert-based survival model

BERTSurv: BERT-Based Survival Models for Predicting Outcomes of Trauma Patients ( http://arxiv.org/abs/2103.10928v1 )

ライセンス: Link先を確認
Yun Zhao, Qinghang Hong, Xinlu Zhang, Yu Deng, Yuqing Wang, and Linda Petzold(参考訳) 生存分析は特定の結果の時間を予測する技術であり、集中治療単位(ICU)外傷患者の結果を予測するために広く用いられている。 近年、深層学習モデルが医療に注目を集めている。 しかし、測定値、臨床ノート、死亡率の関係をモデル化できる深層学習手法が欠如している。 本稿では,非構造化臨床ノートを用いた言語表現モデルとしてトランスフォーマ(bert)からの双方向エンコーダ表現を適用し,死亡率予測と生存率解析を行う深層学習サバイバルフレームワークbertsurvを提案する。 bertsurvの臨床測定も取り入れています。 二進的クロスエントロピー(BCE)損失では、BERTSurvは二進的な結果(死の予測)として死亡を予測できる。 部分log-likelihood (pll) が失われると、bertsurvは死亡確率を時間対事象の結果として予測する(生存分析)。 重度ケアIII(MIMIC III)外傷患者データについて,BERTSurvを医療情報マートに適用した。 死亡予測のため、BERTSurvは0.86の受信動作特性曲線(AUC-ROC)の曲線の下での領域を得たが、これはメモ無しで多層パーセプトロン(MLP)の基線よりも3.6%向上した。 生存分析では、BERTSurvは0.7のコンコーダンス指標(C-index)を達成した。 さらに、BERTの注意ヘッドの可視化は、臨床ノートのパターンを抽出し、モデルがどのように異なる入力に重みを割り当てるかを示すことによって、モデルの解釈可能性を向上させるのに役立つ。

Survival analysis is a technique to predict the times of specific outcomes, and is widely used in predicting the outcomes for intensive care unit (ICU) trauma patients. Recently, deep learning models have drawn increasing attention in healthcare. However, there is a lack of deep learning methods that can model the relationship between measurements, clinical notes and mortality outcomes. In this paper we introduce BERTSurv, a deep learning survival framework which applies Bidirectional Encoder Representations from Transformers (BERT) as a language representation model on unstructured clinical notes, for mortality prediction and survival analysis. We also incorporate clinical measurements in BERTSurv. With binary cross-entropy (BCE) loss, BERTSurv can predict mortality as a binary outcome (mortality prediction). With partial log-likelihood (PLL) loss, BERTSurv predicts the probability of mortality as a time-to-event outcome (survival analysis). We apply BERTSurv on Medical Information Mart for Intensive Care III (MIMIC III) trauma patient data. For mortality prediction, BERTSurv obtained an area under the curve of receiver operating characteristic curve (AUC-ROC) of 0.86, which is an improvement of 3.6% over baseline of multilayer perceptron (MLP) without notes. For survival analysis, BERTSurv achieved a concordance index (C-index) of 0.7. In addition, visualizations of BERT's attention heads help to extract patterns in clinical notes and improve model interpretability by showing how the model assigns weights to different inputs.
翻訳日:2021-03-22 14:43:46 公開日:2021-03-19
# 外傷患者の多臓器不全予測のための機械学習構成の実証分析

Empirical Analysis of Machine Learning Configurations for Prediction of Multiple Organ Failure in Trauma Patients ( http://arxiv.org/abs/2103.10929v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Rachael Callcut, and Linda Petzold(参考訳) 多発性臓器不全(MOF)は致命的な疾患である。 緊急性や死亡率が高いため、臨床医が適切な治療を行うには早期発見が不可欠である。 本稿では,データ前処理(損失値処理,ラベルバランス,特徴スケーリング),特徴選択,分類器選択,ハイパーパラメータチューニングなどを含む,包括的な機械学習(ML)構成による初期MOF予測の定量的解析を行う。 その結果、分類器の選択は、すべての構成の中でパフォーマンス改善とバリエーションの両方に影響を及ぼすことがわかった。 一般に、アンサンブルメソッドを含む複雑な分類器は、単純な分類器よりも優れた性能を提供できる。 しかし、複雑な分類器を盲目的に追求することは、性能のばらつきを増大させるリスクをもたらすため、無意識である。

Multiple organ failure (MOF) is a life-threatening condition. Due to its urgency and high mortality rate, early detection is critical for clinicians to provide appropriate treatment. In this paper, we perform quantitative analysis on early MOF prediction with comprehensive machine learning (ML) configurations, including data preprocessing (missing value treatment, label balancing, feature scaling), feature selection, classifier choice, and hyperparameter tuning. Results show that classifier choice impacts both the performance improvement and variation most among all the configurations. In general, complex classifiers including ensemble methods can provide better performance than simple classifiers. However, blindly pursuing complex classifiers is unwise as it also brings the risk of greater performance variation.
翻訳日:2021-03-22 14:43:20 公開日:2021-03-19
# Stack Overflowにおける意図に基づく質問関連性予測モデル

Attention-based model for predicting question relatedness on Stack Overflow ( http://arxiv.org/abs/2103.10763v1 )

ライセンス: Link先を確認
Jiayan Pei, Yimin wu, Zishan Qin, Yao Cong, Jingtao Guan(参考訳) Stack Overflowは、近年ますます多くのユーザを惹きつけている、最も人気のあるプログラミングコミュニティベースの質問回答(PCQA)サイトの1つである。 Stack Overflowでユーザが疑問を提起したり、質問したりすると、関連する質問が問題の解決に役立つ。 質問間の関連性を自動的に予測できるディープラーニングに基づくアプローチは数多く存在するが,2つの質問間のインタラクション情報が失われる可能性があるため,これらのアプローチは限定されている。 本稿では,この深層学習手法を採用し,スタックオーバーフロー上の質問間の関連性を自動予測する意図に基づく文対相互作用モデル(ASIM)を提案する。 質問間の意味的相互作用情報をキャプチャするために,注意機構を採用する。 さらに、このタスクのために、ソフトウェアエンジニアリングドメインに特有の単語の埋め込みを事前訓練し、リリースしました。 実験の結果、ASIMは精度、リコール、マイクロF1評価基準のベースラインアプローチよりも大幅に改善し、このタスクで最先端のパフォーマンスを実現した。 我々のモデルは、AskUbuntuの重複問題検出タスクでもうまく機能し、類似しているが異なるタスクであり、その一般化と堅牢性を証明する。

Stack Overflow is one of the most popular Programming Community-based Question Answering (PCQA) websites that has attracted more and more users in recent years. When users raise or inquire questions in Stack Overflow, providing related questions can help them solve problems. Although there are many approaches based on deep learning that can automatically predict the relatedness between questions, those approaches are limited since interaction information between two questions may be lost. In this paper, we adopt the deep learning technique, propose an Attention-based Sentence pair Interaction Model (ASIM) to predict the relatedness between questions on Stack Overflow automatically. We adopt the attention mechanism to capture the semantic interaction information between the questions. Besides, we have pre-trained and released word embeddings specific to the software engineering domain for this task, which may also help other related tasks. The experiment results demonstrate that ASIM has made significant improvement over the baseline approaches in Precision, Recall, and Micro-F1 evaluation metrics, achieving state-of-the-art performance in this task. Our model also performs well in the duplicate question detection task of AskUbuntu, which is a similar but different task, proving its generalization and robustness.
翻訳日:2021-03-22 14:43:07 公開日:2021-03-19
# マルコフガウス過程のスパースアルゴリズム

Sparse Algorithms for Markovian Gaussian Processes ( http://arxiv.org/abs/2103.10710v1 )

ライセンス: Link先を確認
William J. Wilkinson, Arno Solin, Vincent Adam(参考訳) 非常に大きなデータセットにスケールする近似ベイズ推定法は、実世界の時系列に確率モデルを活用する上で重要である。 スパースマルコフ・ガウシアン過程は、変数の誘導と効率的なカルマンフィルタのような再帰を組み合わせ、計算とメモリ要求が誘導点数で線形にスケールするアルゴリズムとなり、同時にパラレルパラメータの更新と確率最適化も可能である。 このパラダイムの下では、近似的推論に対する一般のサイトベースアプローチを導出し、非ガウス的可能性と局所ガウス的用語であるサイトを近似する。 提案手法は, 変分推論, 期待伝播, 古典非線形カルマンスムーサなど, 機械学習と信号処理の文献から得られるアルゴリズムの新たなスパース拡張の一群を導出する。 提案手法は大規模時系列に適しており,時間と空間の差分点を持つ時空間データに適用可能であることを示す。

Approximate Bayesian inference methods that scale to very large datasets are crucial in leveraging probabilistic models for real-world time series. Sparse Markovian Gaussian processes combine the use of inducing variables with efficient Kalman filter-like recursions, resulting in algorithms whose computational and memory requirements scale linearly in the number of inducing points, whilst also enabling parallel parameter updates and stochastic optimisation. Under this paradigm, we derive a general site-based approach to approximate inference, whereby we approximate the non-Gaussian likelihood with local Gaussian terms, called sites. Our approach results in a suite of novel sparse extensions to algorithms from both the machine learning and signal processing literature, including variational inference, expectation propagation, and the classical nonlinear Kalman smoothers. The derived methods are suited to large time series, and we also demonstrate their applicability to spatio-temporal data, where the model has separate inducing points in both time and space.
翻訳日:2021-03-22 14:42:48 公開日:2021-03-19
# ノイズ変調: モデルを自分で解釈させる

Noise Modulation: Let Your Model Interpret Itself ( http://arxiv.org/abs/2103.10603v1 )

ライセンス: Link先を確認
Haoyang Li and Xinggang Wang(参考訳) Given the great success of Deep Neural Networks(DNNs) and the black-box nature of it,the interpretability of these models becomes an important issue.The majority of previous research works on the post-hoc interpretation of a trained model.But recently, adversarial training shows that it is possible for a model to have an interpretable input-gradient through training.However,adv ersarial training lacks efficiency for interpretability.To resolve this problem, we construct an approximation of the adversarial perturbations and discover a connection between adversarial training and amplitude modulation. ディジタルアナロジーに基づいて, 入力段階のモデルに対して, モデルを学習するための効率的かつモデル非依存な代替手段としてノイズ変調を提案する。

Given the great success of Deep Neural Networks(DNNs) and the black-box nature of it,the interpretability of these models becomes an important issue.The majority of previous research works on the post-hoc interpretation of a trained model.But recently, adversarial training shows that it is possible for a model to have an interpretable input-gradient through training.However,adv ersarial training lacks efficiency for interpretability.To resolve this problem, we construct an approximation of the adversarial perturbations and discover a connection between adversarial training and amplitude modulation. Based on a digital analogy,we propose noise modulation as an efficient and model-agnostic alternative to train a model that interprets itself with input-gradients.Expe riment results show that noise modulation can effectively increase the interpretability of input-gradients model-agnosticly.
翻訳日:2021-03-22 14:42:30 公開日:2021-03-19
# 深部印象による知識誘導型物体発見

Knowledge-Guided Object Discovery with Acquired Deep Impressions ( http://arxiv.org/abs/2103.10611v1 )

ライセンス: Link先を確認
Jinyang Yuan, Bin Li, Xiangyang Xue(参考訳) 本稿では,ADI (Aquired Deep Impressions) というフレームワークを提案し,コンストラクショナルシーン理解のための「印象」としてオブジェクトの知識を継続的に学習する。 この枠組みでは、まず1つのオブジェクトを含むシーン画像からの知識を教師ありの方法で獲得し、その後、人間と同じように学習した知識の指導のもと、これまで見てきたことのないオブジェクトを含む、新たな多目的シーン画像から学習を続ける。 物体の印象をニューラルネットワークのパラメータに記憶し、生成的再生戦略を適用することにより、学習知識を再利用して擬似アノテーションで画像を生成し、新たなシーンの学習を支援する。 提案するadiフレームワークは知識の獲得と活用に焦点をあて、構成シーン表現に提案されている既存の深層生成モデルと補完するものである。 ベースモデルを適用してadiフレームワークに当てはめ、2種類のデータセットで実験を行います。 実験結果から,提案手法は得られた印象を効果的に活用し,シーン分解性能を向上させることが示唆された。

We present a framework called Acquired Deep Impressions (ADI) which continuously learns knowledge of objects as "impressions" for compositional scene understanding. In this framework, the model first acquires knowledge from scene images containing a single object in a supervised manner, and then continues to learn from novel multi-object scene images which may contain objects that have not been seen before without any further supervision, under the guidance of the learned knowledge as humans do. By memorizing impressions of objects into parameters of neural networks and applying the generative replay strategy, the learned knowledge can be reused to generate images with pseudo-annotations and in turn assist the learning of novel scenes. The proposed ADI framework focuses on the acquisition and utilization of knowledge, and is complementary to existing deep generative models proposed for compositional scene representation. We adapt a base model to make it fall within the ADI framework and conduct experiments on two types of datasets. Empirical results suggest that the proposed framework is able to effectively utilize the acquired impressions and improve the scene decomposition performance.
翻訳日:2021-03-22 14:42:19 公開日:2021-03-19
# エネルギー認識プルーニングによる小型深層ニューラルネットワークを目指して

Toward Compact Deep Neural Networks via Energy-Aware Pruning ( http://arxiv.org/abs/2103.10858v1 )

ライセンス: Link先を確認
Seul-Ki Yeom, Kyung-Hwan Shim, Jee-Hyun Hwang(参考訳) 驚くべきパフォーマンスにもかかわらず、現代のディープニューラルネットワークは必然的に、学習とデプロイメントにかなりの計算コストを伴っており、エッジデバイスでの使用と互換性がない可能性がある。 これらのオーバーヘッドを減らそうとする最近の取り組みは、パフォーマンスの劣化なしに様々な層のパラメータを刈り取り分解することである。 そこで本研究では,ネットワークにおける各フィルタの重要性を核ノルム(NN)を用いて定量化する,新しいエネルギー対応プルーニング手法を提案する。 提案されたエネルギ対応プルーニングは、CIFAR-10とImageNet上の複数のネットワークアーキテクチャを持つ広範囲のシナリオを対象とした、Top-1精度、FLOP、パラメータ削減のための最先端技術性能をもたらす。 おもちゃの実験では、微調整をしていないにもかかわらず、NNがクラス間の決定境界にほとんど変化がないだけでなく、以前の一般的な基準よりも明らかに優れていることを視覚的に観察することができる。 40.4/49.8%、パラメータ低減45.9/52.9%、top-1精度94.13/94.61%、resnet-56/110、cifar-10。 さらに,データサイズやデータ品質の点で異なるプルーニング設定に一貫性があり,アクセラレーションと圧縮の安定性を無視できる精度損失で強調することができる。 私たちのコードはhttps://github.com/n ota-github/nota-prun ing_rankで利用可能です。

Despite of the remarkable performance, modern deep neural networks are inevitably accompanied with a significant amount of computational cost for learning and deployment, which may be incompatible with their usage on edge devices. Recent efforts to reduce these overheads involves pruning and decomposing the parameters of various layers without performance deterioration. Inspired by several decomposition studies, in this paper, we propose a novel energy-aware pruning method that quantifies the importance of each filter in the network using nuclear-norm (NN). Proposed energy-aware pruning leads to state-of-the art performance for Top-1 accuracy, FLOPs, and parameter reduction across a wide range of scenarios with multiple network architectures on CIFAR-10 and ImageNet after fine-grained classification tasks. On toy experiment, despite of no fine-tuning, we can visually observe that NN not only has little change in decision boundaries across classes, but also clearly outperforms previous popular criteria. We achieve competitive results with 40.4/49.8% of FLOPs and 45.9/52.9% of parameter reduction with 94.13/94.61% in the Top-1 accuracy with ResNet-56/110 on CIFAR-10, respectively. In addition, our observations are consistent for a variety of different pruning setting in terms of data size as well as data quality which can be emphasized in the stability of the acceleration and compression with negligible accuracy loss. Our code is available at https://github.com/n ota-github/nota-prun ing_rank.
翻訳日:2021-03-22 14:42:01 公開日:2021-03-19
# MetaLabelNet: ノイズラベルからソフトラベルを生成することを学ぶ

MetaLabelNet: Learning to Generate Soft-Labels from Noisy-Labels ( http://arxiv.org/abs/2103.10869v1 )

ライセンス: Link先を確認
G\"orkem Algan, Ilkay Ulusoy(参考訳) 実世界のデータセットは一般的にノイズの多いラベルを持ち、ディープニューラルネットワーク(DNN)の性能に悪影響を及ぼす。 この問題に対処するために,メタオブジェクトに応じて生成するソフトラベルに基づいてベース分類器を訓練するラベル雑音頑健な学習アルゴリズムを提案する。 各イテレーションでは、従来のトレーニングの前に、メタオブジェクトはソフトラベルを変更することで損失関数を満足させ、その結果、勾配の更新がメタデータに最小の損失をもたらす。 データインスタンスの抽出した特徴からソフトラベルが生成され、マッピング関数はMetaLabelNetと呼ばれる単一層パーセプトロン(SLP)ネットワークによって学習される。 次に、生成されたソフトラベルを用いてベース分類器を訓練する。 これらのイテレーションは、トレーニングデータのバッチ毎に繰り返される。 我々のアルゴリズムは、少量のクリーンデータをメタデータとして使用し、多くのケースで無益に取得できる。 我々は,合成音と実世界音の両方でベンチマークデータセットを広範囲に実験する。 その結果,既存のベースラインよりも優れたアプローチが得られた。

Real-world datasets commonly have noisy labels, which negatively affects the performance of deep neural networks (DNNs). In order to address this problem, we propose a label noise robust learning algorithm, in which the base classifier is trained on soft-labels that are produced according to a meta-objective. In each iteration, before conventional training, the meta-objective reshapes the loss function by changing soft-labels, so that resulting gradient updates would lead to model parameters with minimum loss on meta-data. Soft-labels are generated from extracted features of data instances, and the mapping function is learned by a single layer perceptron (SLP) network, which is called MetaLabelNet. Following, base classifier is trained by using these generated soft-labels. These iterations are repeated for each batch of training data. Our algorithm uses a small amount of clean data as meta-data, which can be obtained effortlessly for many cases. We perform extensive experiments on benchmark datasets with both synthetic and real-world noises. Results show that our approach outperforms existing baselines.
翻訳日:2021-03-22 14:41:39 公開日:2021-03-19
# クロスドメインアンサンブルによるロバストネス

Robustness via Cross-Domain Ensembles ( http://arxiv.org/abs/2103.10919v1 )

ライセンス: Link先を確認
Teresa Yeo, O\u{g}uzhan Fatih Kar, Amir Zamir(参考訳) 本稿では、トレーニングデータ分布からシフトに頑健なニューラルネットワーク予測を実現する方法を提案する。 提案手法は,多種多様なキュー(「中間領域」と呼ばれる)を用いて予測を行い,それらを一つの強い予測にまとめる。 この考え方の前提は、異なるキューによる予測が分布シフトに異なる反応をするので、1つの堅牢な最終予測にそれらをマージできるはずである。 我々は,各予測に関する不確実性に基づいて,直接的かつ原則的にマージを行う。 提案手法を検証した複数のタスクとデータセット(タスクノミー、レプリカ、イメージネット、cifar)を用いて、従来の学習方法や従来のディープアンサンブル、その他いくつかのベースラインよりもかなり堅牢であることを示す。

We present a method for making neural network predictions robust to shifts from the training data distribution. The proposed method is based on making predictions via a diverse set of cues (called 'middle domains') and ensembling them into one strong prediction. The premise of the idea is that predictions made via different cues respond differently to a distribution shift, hence one should be able to merge them into one robust final prediction. We perform the merging in a straightforward but principled manner based on the uncertainty associated with each prediction. The evaluations are performed using multiple tasks and datasets (Taskonomy, Replica, ImageNet, CIFAR) under a wide range of adversarial and non-adversarial distribution shifts which demonstrate the proposed method is considerably more robust than its standard learning counterpart, conventional deep ensembles, and several other baselines.
翻訳日:2021-03-22 14:41:22 公開日:2021-03-19
# 画像からの計算感情分析:最近の進歩と今後の展開

Computational Emotion Analysis From Images: Recent Advances and Future Directions ( http://arxiv.org/abs/2103.10798v1 )

ライセンス: Link先を確認
Sicheng Zhao, Quanwei Huang, Youbao Tang, Xingxu Yao, Jufeng Yang, Guiguang Ding, Bj\"orn W. Schuller(参考訳) 通常、人間の感情はイメージによって引き起こされる。 近年,画像の感情を理解するための研究が盛んに行われている。 本章では,最近の進歩を要約し,今後の方向性を示唆することに着目し,計算的視点からイメージ感情分析(IEA)を導入することを目的とする。 心理学の一般的な感情表現モデルから始めます。 次に、研究者が解決しようとしている重要な計算問題を定義し、一般的に異なるIEAタスクに使用される教師付きフレームワークを提供する。 IEAでの大きな課題が導入された後、感情の特徴抽出、教師付き分類器学習、ドメイン適応に関する代表的な手法を提示する。 さらに,評価のために利用可能なデータセットを導入し,主な結果を要約する。 最後に、研究者が追求できるいくつかのオープン質問と今後の方向性について論じる。

Emotions are usually evoked in humans by images. Recently, extensive research efforts have been dedicated to understanding the emotions of images. In this chapter, we aim to introduce image emotion analysis (IEA) from a computational perspective with the focus on summarizing recent advances and suggesting future directions. We begin with commonly used emotion representation models from psychology. We then define the key computational problems that the researchers have been trying to solve and provide supervised frameworks that are generally used for different IEA tasks. After the introduction of major challenges in IEA, we present some representative methods on emotion feature extraction, supervised classifier learning, and domain adaptation. Furthermore, we introduce available datasets for evaluation and summarize some main results. Finally, we discuss some open questions and future directions that researchers can pursue.
翻訳日:2021-03-22 14:40:51 公開日:2021-03-19
# 言葉で絵を描く

Paint by Word ( http://arxiv.org/abs/2103.10951v1 )

ライセンス: Link先を確認
David Bau, Alex Andonian, Audrey Cui, YeonHwan Park, Ali Jahanian, Aude Oliva, Antonio Torralba(参考訳) ゼロショットイメージペインティングの問題点について検討する。 具体的色や有限のセマンティックな概念のみを用いて画像に修正を描く代わりに、オープンなフルテキスト記述に基づいてセマンティックなペンキを作る方法を尋ねる: 私たちのゴールは、合成された画像の場所を指して、"ラスティック"や"オプレント"、"ハッピードッグ"といった任意の新しい概念を適用することである。 そこで本手法では,現実的な画像の最先端生成モデルと最先端のテキスト画像意味的類似性ネットワークを組み合わせる。 大きな変更を行うには、潜在空間を探索するために非勾配法を用いることが重要であり、ganの計算を緩和して特定の領域への変更を目標とすることが重要である。 提案手法を複数のベースラインと比較するために,ユーザスタディを実施している。

We investigate the problem of zero-shot semantic image painting. Instead of painting modifications into an image using only concrete colors or a finite set of semantic concepts, we ask how to create semantic paint based on open full-text descriptions: our goal is to be able to point to a location in a synthesized image and apply an arbitrary new concept such as "rustic" or "opulent" or "happy dog." To do this, our method combines a state-of-the art generative model of realistic images with a state-of-the-art text-image semantic similarity network. We find that, to make large changes, it is important to use non-gradient methods to explore latent space, and it is important to relax the computations of the GAN to target changes to a specific region. We conduct user studies to compare our methods to several baselines.
翻訳日:2021-03-22 14:40:42 公開日:2021-03-19
# API2Com: APIドキュメンテーションを使ったコードコメントの自動生成の改善について

API2Com: On the Improvement of Automatically Generated Code Comments Using API Documentations ( http://arxiv.org/abs/2103.10668v1 )

ライセンス: Link先を確認
Ramin Shahbazi, Rishab Sharma, Fatemeh H. Fard(参考訳) コードコメントはプログラム理解に役立ち、開発者のソフトウェアメンテナンスを助ける重要なアーティファクトとみなされる。 しかし、特に複雑なソフトウェアプロジェクトでは、コメントが欠落しているか、時代遅れになっている。 その結果,いくつかの自動コメント生成モデルが開発されている。 最近のモデルは、生成したコメントを改善するために、統一モデリング言語クラス図のような外部知識リソースの統合を調査します。 本稿では、コメント生成のための知識リソースとして、API Docs(Application Programming Interface Documentations)を利用するモデルであるAPI2Comを提案する。 API Docsにはメソッドの詳細な記述が含まれているので、生成されたコメントでより良いコンテキストを提供できる。 API Docsは、私たちのモデルのコードスニペットと抽象構文木と一緒に使用されます。 このモデルを130,000以上のメソッドからなる大規模なJavaデータセットに適用し,TransformerとRNNベースのアーキテクチャを用いて評価する。 興味深いことに、API Docsを使用する場合、パフォーマンスの上昇は無視できる。 そのため、異なる実験を行い、その結果を推論する。 1つのapiのみを含むメソッドでは、apiドキュメントを追加することで、平均でbleuスコアが4%向上する(bleuスコアは機械翻訳で使われる自動評価指標である)。 しかし、メソッドで使用されるAPIの数が増えるにつれて、入力で使用される長いドキュメントによって、コメント生成時のモデルの性能が低下する。 その結果、apiドキュメントはより良いコメントを生成するのに役立ちます。しかし、すべてのドキュメントを同時に使用するのではなく、メソッド内で最も有意義なコメントを識別するための新しいテクニックが必要です。

Code comments can help in program comprehension and are considered as important artifacts to help developers in software maintenance. However, the comments are mostly missing or are outdated, specially in complex software projects. As a result, several automatic comment generation models are developed as a solution. The recent models explore the integration of external knowledge resources such as Unified Modeling Language class diagrams to improve the generated comments. In this paper, we propose API2Com, a model that leverages the Application Programming Interface Documentations (API Docs) as a knowledge resource for comment generation. The API Docs include the description of the methods in more details and therefore, can provide better context in the generated comments. The API Docs are used along with the code snippets and Abstract Syntax Trees in our model. We apply the model on a large Java dataset of over 130,000 methods and evaluate it using both Transformer and RNN-base architectures. Interestingly, when API Docs are used, the performance increase is negligible. We therefore run different experiments to reason about the results. For methods that only contain one API, adding API Docs improves the results by 4% BLEU score on average (BLEU score is an automatic evaluation metric used in machine translation). However, as the number of APIs that are used in a method increases, the performance of the model in generating comments decreases due to long documentations used in the input. Our results confirm that the API Docs can be useful in generating better comments, but, new techniques are required to identify the most informative ones in a method rather than using all documentations simultaneously.
翻訳日:2021-03-22 14:40:27 公開日:2021-03-19
# 品質進化性es:良好なパフォーマンスと多様な子孫の分布を持つ進化する個人

Quality Evolvability ES: Evolving Individuals With a Distribution of Well Performing and Diverse Offspring ( http://arxiv.org/abs/2103.10790v1 )

ライセンス: Link先を確認
Adam Katona, Daniel W. Franks, James Alfred Walker(参考訳) ディープラーニングの成功から得られた最も重要な教訓の1つは、学習した表現が、私たちが手で設計した表現よりも、どんなタスクでもずっとうまく機能する傾向があることです。 しかし、優れた遺伝的表現を自動学習することを目的とした進化性アルゴリズムは、おそらく大量の計算能力を必要とするため、比較的注目を集めていない。 最近のメソッド evolvability es は、少ない計算で進化可能性を直接選択できる。 しかし、進化可能性とタスクパフォーマンスが一致した問題を解決するためにのみ使用できる。 本稿では,タスク性能と進化性を同時に最適化する手法であるQuality Evolvability ESを提案する。 提案手法は,品質多様性アルゴリズムと同様のモチベーションを持つが,重要な差異がある。 Quality Diversityは、多種多様だが遺伝的に遠く離れた個体のアーカイブを見つけることを目的としているが、Quality Evolvabilityは、多種多様で優れた子孫の分布を持つ個人を見つけることを目的としている。 そうすることで、Quality Evolvabilityはより進化可能な表現を見つけることを余儀なくされます。 ロボットのロコモーション制御タスクにおいて,品質進化性esは,品質多様性法と同様に,客観的な手法よりも早く学習でき,騙し込みの問題に対処できることを示す。

One of the most important lessons from the success of deep learning is that learned representations tend to perform much better at any task compared to representations we design by hand. Yet evolution of evolvability algorithms, which aim to automatically learn good genetic representations, have received relatively little attention, perhaps because of the large amount of computational power they require. The recent method Evolvability ES allows direct selection for evolvability with little computation. However, it can only be used to solve problems where evolvability and task performance are aligned. We propose Quality Evolvability ES, a method that simultaneously optimizes for task performance and evolvability and without this restriction. Our proposed approach Quality Evolvability has similar motivation to Quality Diversity algorithms, but with some important differences. While Quality Diversity aims to find an archive of diverse and well-performing, but potentially genetically distant individuals, Quality Evolvability aims to find a single individual with a diverse and well-performing distribution of offspring. By doing so Quality Evolvability is forced to discover more evolvable representations. We demonstrate on robotic locomotion control tasks that Quality Evolvability ES, similarly to Quality Diversity methods, can learn faster than objective-based methods and can handle deceptive problems.
翻訳日:2021-03-22 14:40:02 公開日:2021-03-19
# coordinet: 信頼性の高い車両位置推定のための不確実性認識ポーズレグレッサー

CoordiNet: uncertainty-aware pose regressor for reliable vehicle localization ( http://arxiv.org/abs/2103.10796v1 )

ライセンス: Link先を確認
Arthur Moreau, Nathan Piasco, Dzmitry Tsishkou, Bogdan Stanciulescu, Arnaud de La Fortelle(参考訳) 本稿では,ロボットと自律走行車用ニューラルネットワークを用いた視覚カメラのローカライゼーションについて検討する。 我々の解はCNNに基づくアルゴリズムであり、単一の画像から直接カメラのポーズ(3次元翻訳と3次元回転)を予測する。 また、そのポーズの不確実性の推定も提供する。 ポーズと不確実性は単一の損失関数と共に学習される。 さらに,シーン幾何を埋め込むために設計された,CoordiNetという完全畳み込み型アーキテクチャを提案する。 私たちのフレームワークは、利用可能な最大のベンチマークであるOxford RobotCarデータセットにおいて、同等の手法よりも優れています。 また,大規模なシーンにおける車両位置推定(18fps)の性能についても検討した。 この設定では,構造ベース手法は大規模データベースを必要とするため,提案手法は信頼性の高い代替案であり,忙しい都市部で1.9kmのループで29cmの中央値誤差を達成した。

In this paper, we investigate visual-based camera localization with neural networks for robotics and autonomous vehicles applications. Our solution is a CNN-based algorithm which predicts camera pose (3D translation and 3D rotation) directly from a single image. It also provides an uncertainty estimate of the pose. Pose and uncertainty are learned together with a single loss function. Furthermore, we propose a new fully convolutional architecture, named CoordiNet, designed to embed some of the scene geometry. Our framework outperforms comparable methods on the largest available benchmark, the Oxford RobotCar dataset, with an average error of 8 meters where previous best was 19 meters. We have also investigated the performance of our method on large scenes for real time (18 fps) vehicle localization. In this setup, structure-based methods require a large database, and we show that our proposal is a reliable alternative, achieving 29cm median error in a 1.9km loop in a busy urban area.
翻訳日:2021-03-22 14:38:11 公開日:2021-03-19
# Deep Label Fusion: ハイブリッドマルチアトラスセグメンテーションとディープラーニングパイプラインの3次元エンド・ツー・エンド

Deep Label Fusion: A 3D End-to-End Hybrid Multi-Atlas Segmentation and Deep Learning Pipeline ( http://arxiv.org/abs/2103.10892v1 )

ライセンス: Link先を確認
Long Xie, Laura E.M. Wisse, Jiancong Wang, Sadhana Ravikumar, Trevor Glenn, Anica Luther, Sydney Lim, David A. Wolk, and Paul A. Yushkevich(参考訳) deep learning (dl)は、様々な医療画像分割タスクにおける最先端の方法論である。 しかし、比較的大量の手動ラベル付きトレーニングデータが必要であり、一部のアプリケーションでは生成できない可能性がある。 さらに、DL法はサンプル外データに対して比較的一般化性が低い。 一方、マルチアトラスセグメンテーション(MAS)は、限られたトレーニングデータと優れた一般化性を用いて、有望な性能を発揮する。 dlの高精度とmasの優れた一般化性を統合したハイブリッド手法は,手作業でラベル付けされたデータを生成するのが難しいセグメンテーション問題において重要な役割を果たす可能性がある。 以前の作業のほとんどは、エンドツーエンドパイプラインを通じて最終セグメンテーションの精度を直接最適化するのではなく、dlを使用してmasの単一コンポーネントを改善することに重点を置いている。 2dイメージのバイナリセグメンテーションでこのアイデアを探求した研究は1つだけだったが、それがマルチクラス3dセグメンテーション問題にうまく一般化するかどうかは不明である。 本研究では,MAS と DL の長所を生かした3D エンドツーエンドハイブリッドパイプラインである Deep label fusion (DLF) を提案する。 3T T1-weighted と T2-weighted MRI を用いた中側頭葉亜領域の分節化において, DLF は従来のラベル融合法や直接DLアプローチである U-Net よりも有意な改善が得られた。 さらに、7Tで取得した見知らぬ類似データセットに適用すると、DLFはその優れた性能を維持し、優れた一般化性を示している。

Deep learning (DL) is the state-of-the-art methodology in various medical image segmentation tasks. However, it requires relatively large amounts of manually labeled training data, which may be infeasible to generate in some applications. In addition, DL methods have relatively poor generalizability to out-of-sample data. Multi-atlas segmentation (MAS), on the other hand, has promising performance using limited amounts of training data and good generalizability. A hybrid method that integrates the high accuracy of DL and good generalizability of MAS is highly desired and could play an important role in segmentation problems where manually labeled data is hard to generate. Most of the prior work focuses on improving single components of MAS using DL rather than directly optimizing the final segmentation accuracy via an end-to-end pipeline. Only one study explored this idea in binary segmentation of 2D images, but it remains unknown whether it generalizes well to multi-class 3D segmentation problems. In this study, we propose a 3D end-to-end hybrid pipeline, named deep label fusion (DLF), that takes advantage of the strengths of MAS and DL. Experimental results demonstrate that DLF yields significant improvements over conventional label fusion methods and U-Net, a direct DL approach, in the context of segmenting medial temporal lobe subregions using 3T T1-weighted and T2-weighted MRI. Further, when applied to an unseen similar dataset acquired in 7T, DLF maintains its superior performance, which demonstrates its good generalizability.
翻訳日:2021-03-22 14:37:55 公開日:2021-03-19
# コール書き起こしの抽出要約

Extractive Summarization of Call Transcripts ( http://arxiv.org/abs/2103.10599v1 )

ライセンス: Link先を確認
Pratik K. Biswas and Aleksandr Iakubovich(参考訳) テキスト要約は、テキストから最も重要な情報を抽出し、より少ない文で簡潔に提示するプロセスである。 Call transcriptは、顧客(呼び出し者)とエージェント(顧客代表者)の間の電話会話のテキスト記述を含むテキストである。 本稿では, 文選択と句読点復元を併用して, より読みやすい要約を生成するために, 未読あるいは未読の呼起こ書き起こしを凝縮する手法を提案する。 大規模なテスト,評価,比較により,この要約法の有効性が示された。

Text summarization is the process of extracting the most important information from the text and presenting it concisely in fewer sentences. Call transcript is a text that involves textual description of a phone conversation between a customer (caller) and agent(s) (customer representatives). This paper presents an indigenously developed method that combines topic modeling and sentence selection with punctuation restoration in condensing ill-punctuated or un-punctuated call transcripts to produce summaries that are more readable. Extensive testing, evaluation and comparisons have demonstrated the efficacy of this summarizer for call transcript summarization.
翻訳日:2021-03-22 14:37:01 公開日:2021-03-19
# MuRIL: インド語の多言語表現

MuRIL: Multilingual Representations for Indian Languages ( http://arxiv.org/abs/2103.10730v1 )

ライセンス: Link先を確認
Simran Khanuja, Diksha Bansal, Sarvesh Mehtani, Savya Khosla, Atreyee Dey, Balaji Gopalan, Dilip Kumar Margam, Pooja Aggarwal, Rajiv Teja Nagipogu, Shachi Dave, Shruti Gupta, Subhash Chandra Bose Gali, Vish Subramanian, Partha Talukdar(参考訳) インドは多言語社会であり、1369の合理化言語と方言が全国で話されている(INDIA, 2011)。 これらのうち22の予定言語は、合計17億人の話者と121の言語が10,000人以上の話者を抱えている(india, 2011)。 インドはまた、デジタル・フットプリント(statista、2020年)で2番目に大きい(かつ成長している)。 それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で亜最適に機能する。 これは多言語言語モデル(lms)が100以上の言語で一緒に訓練されることがしばしばあり、語彙や訓練データのイン言語表現が小さいことから説明できる。 多言語lmsはリソース指向のシナリオ(wu, dredze, 2020; lauscher et al., 2020)では、限られたデータが言語のさまざまなニュアンスを捉えるのに役立ちません。 また、ラテン語に翻訳された言語テキストや、特に非公式の設定(ソーシャルメディアプラットフォームなど)で英語と混ざったコードでもよく観察される(rijhwani et al., 2017)。 この現象は、現在の最先端多言語LMでは適切に扱えない。 上記のギャップに対処するため,IN言語に特化した多言語LMであるMuRILを提案する。 MuRILは相当量のINテキストコーパスで訓練されている。 学習中に教師付き言語間信号として機能する翻訳文対と翻訳文対の両方を用いて,単言語テキストコーパスを明示的に拡張する。 MuRILは、言語横断XTREMEベンチマーク(Hu et al., 2020)において、全てのタスクにおいて多言語BERT(mBERT)を著しく上回っている。 また、選択したデータセットのトランスリテラル化(ネイティブからラテン文字)テストセットについて結果を示し、トランスリテラルデータの処理における MuRIL の有効性を示す。

India is a multilingual society with 1369 rationalized languages and dialects being spoken across the country (INDIA, 2011). Of these, the 22 scheduled languages have a staggering total of 1.17 billion speakers and 121 languages have more than 10,000 speakers (INDIA, 2011). India also has the second largest (and an ever growing) digital footprint (Statista, 2020). Despite this, today's state-of-the-art multilingual systems perform suboptimally on Indian (IN) languages. This can be explained by the fact that multilingual language models (LMs) are often trained on 100+ languages together, leading to a small representation of IN languages in their vocabulary and training data. Multilingual LMs are substantially less effective in resource-lean scenarios (Wu and Dredze, 2020; Lauscher et al., 2020), as limited data doesn't help capture the various nuances of a language. One also commonly observes IN language text transliterated to Latin or code-mixed with English, especially in informal settings (for example, on social media platforms) (Rijhwani et al., 2017). This phenomenon is not adequately handled by current state-of-the-art multilingual LMs. To address the aforementioned gaps, we propose MuRIL, a multilingual LM specifically built for IN languages. MuRIL is trained on significantly large amounts of IN text corpora only. We explicitly augment monolingual text corpora with both translated and transliterated document pairs, that serve as supervised cross-lingual signals in training. MuRIL significantly outperforms multilingual BERT (mBERT) on all tasks in the challenging cross-lingual XTREME benchmark (Hu et al., 2020). We also present results on transliterated (native to Latin script) test sets of the chosen datasets and demonstrate the efficacy of MuRIL in handling transliterated data.
翻訳日:2021-03-22 14:36:51 公開日:2021-03-19
# 人道支援のためのコンゴスワヒリ機械翻訳

Congolese Swahili Machine Translation for Humanitarian Response ( http://arxiv.org/abs/2103.10734v1 )

ライセンス: Link先を確認
Alp \"Oktem, Eric DeLuca, Rodrigue Bashizi, Eric Paquin, Grace Tang(参考訳) 本稿では、人道的翻訳ワークフローを改善する動機を生かした双方向コンゴスワヒリ(SWC)をフランス語(FRA)ニューラルマシン翻訳システムに適用する取り組みについて述べる。 トレーニングのために25,302文の一般ドメイン並列コーパスを作成し,公開データと組み合わせた。 クロスダイアレクトトランスファーやセミ教師付き学習といった低リソース手法を用いて,swc-fraとfra-swcの方向における2.4点と3.5点の改善をそれぞれ記録した。 コンゴ民主共和国(DRC)で運用されている新型コロナウイルスのチャットボットを用いて,モデルのユーザビリティを評価するため,人間による評価を行った。 swc-fra方向の直接評価では、平均品質ランキングは10中6.3で、対象文字列の75%がソーステキストのメインメッセージを伝える。 FRA-SWC方向では, 後編集評価の予備試験により, 機械翻訳に有用である可能性が示唆された。 モデル、最大100万の文を含むデータセット、開発パイプライン、パブリック使用用のトランスレータWebアプリを作成しています。

In this paper we describe our efforts to make a bidirectional Congolese Swahili (SWC) to French (FRA) neural machine translation system with the motivation of improving humanitarian translation workflows. For training, we created a 25,302-sentence general domain parallel corpus and combined it with publicly available data. Experimenting with low-resource methodologies like cross-dialect transfer and semi-supervised learning, we recorded improvements of up to 2.4 and 3.5 BLEU points in the SWC-FRA and FRA-SWC directions, respectively. We performed human evaluations to assess the usability of our models in a COVID-domain chatbot that operates in the Democratic Republic of Congo (DRC). Direct assessment in the SWC-FRA direction demonstrated an average quality ranking of 6.3 out of 10 with 75% of the target strings conveying the main message of the source text. For the FRA-SWC direction, our preliminary tests on post-editing assessment showed its potential usefulness for machine-assisted translation. We make our models, datasets containing up to 1 million sentences, our development pipeline, and a translator web-app available for public use.
翻訳日:2021-03-22 14:36:23 公開日:2021-03-19
# 自動運転システムから自動運転車へ:用語を明確に

From driving automation systems to autonomous vehicles: clarifying the terminology ( http://arxiv.org/abs/2103.10844v1 )

ライセンス: Link先を確認
David Fern\'andez Llorca(参考訳) 用語のランドスケープは、自動運転や自動車に言及するときは、ややぎこちない。 用語の多用は相互に使われ、誤用や混乱を招く。 技術的、社会的、法的進歩により、それぞれの概念を対応する場所に配置できる明確な用語を確立することがますます不可欠になっている。

The terminological landscape is rather cluttered when referring to autonomous driving or vehicles. A plethora of terms are used interchangeably, leading to misuse and confusion. With its technological, social and legal progress, it is increasingly imperative to establish a clear terminology that allows each concept to be placed in its corresponding place.
翻訳日:2021-03-22 14:35:38 公開日:2021-03-19
# PSCC-Net:画像操作検出と位置推定のためのプログレッシブ・スパニシブ・チャネル相関ネットワーク

PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2103.10596v1 )

ライセンス: Link先を確認
Xiaohong Liu, Yaojie Liu, Jun Chen, Xiaoming Liu(参考訳) スプライシング、コピーモーブ、削除といった画像コンテンツの操作を防御するため、画像操作を検出・ローカライズするprogressive spatio-channel correlation network(pscc-net)を開発した。 pscc-netは、局所的および大域的な特徴を抽出するトップダウンパスと、入力画像が操作されているかどうかを検出するボトムアップパスの2つのパス手順で画像を処理し、その操作マスクを4つのスケールで推定する。 従来のエンコーダデコーダやノープール構造とは異なり、PSCC-Netは密接な相互接続を持つ異なるスケールの機能を活用して、粗大な操作マスクを生成する。 さらに、空間的・チャネル的相関モジュール(SCCM)は、ボトムアップ経路における空間的相関とチャネル的相関の両方をキャプチャし、ネットワークが広範囲な操作攻撃に対処できるようにする。 軽量のバックボーンとプログレッシブ機構のおかげで、PSCC-Netは50以上のFPSで1,080P画像を処理できる。 大規模な実験では、PSCC-Netが検出と局所化の両面で最先端の手法よりも優れていることを示した。

To defend against manipulation of image content, such as splicing, copy-move, and removal, we develop a Progressive Spatio-Channel Correlation Network (PSCC-Net) to detect and localize image manipulations. PSCC-Net processes the image in a two-path procedure: a top-down path that extracts local and global features and a bottom-up path that detects whether the input image is manipulated, and estimates its manipulation masks at 4 scales, where each mask is conditioned on the previous one. Different from the conventional encoder-decoder and no-pooling structures, PSCC-Net leverages features at different scales with dense cross-connections to produce manipulation masks in a coarse-to-fine fashion. Moreover, a Spatio-Channel Correlation Module (SCCM) captures both spatial and channel-wise correlations in the bottom-up path, which endows features with holistic cues, enabling the network to cope with a wide range of manipulation attacks. Thanks to the light-weight backbone and progressive mechanism, PSCC-Net can process 1,080P images at 50+ FPS. Extensive experiments demonstrate the superiority of PSCC-Net over the state-of-the-art methods on both detection and localization.
翻訳日:2021-03-22 14:34:19 公開日:2021-03-19
# 運動量増強による対向移動性向上

Boosting Adversarial Transferability through Enhanced Momentum ( http://arxiv.org/abs/2103.10609v1 )

ライセンス: Link先を確認
Xiaosen Wang, Jiadong Lin, Han Hu, Jingdong Wang, Kun He(参考訳) 深層学習モデルは、良性画像に人間に知覚可能な摂動を加えることで作られた敵の例に弱いことが知られている。 既存の攻撃手法の多くはホワイトボックス攻撃性能は高いが、他のモデルを攻撃する場合の移動性は低い。 様々な運動量反復勾配法は, 対向移動性の向上に有効であることが示されている。 以下に示すように, 対向移動性を高めるために, 運動量反復勾配法を提案する。 具体的には、反復過程中にのみ勾配を蓄積する代わりに、前回の反復の勾配方向にサンプリングされたデータポイントの平均勾配を蓄積し、更新方向を安定させ、局所的な最大値の低下から逃れる。 標準のImageNetデータセットに対する大規模な実験により、我々の手法は運動量に基づく手法の逆転率を平均11.1%向上できることを示した。 さらに, 様々な入力変換手法を取り入れることで, 対向変換性をさらに向上させることができる。 また、アンサンブルモデル設定下では、いくつかの先進防衛モデルも攻撃しており、平均して7.8%以上の拡張が目覚ましい。

Deep learning models are known to be vulnerable to adversarial examples crafted by adding human-imperceptible perturbations on benign images. Many existing adversarial attack methods have achieved great white-box attack performance, but exhibit low transferability when attacking other models. Various momentum iterative gradient-based methods are shown to be effective to improve the adversarial transferability. In what follows, we propose an enhanced momentum iterative gradient-based method to further enhance the adversarial transferability. Specifically, instead of only accumulating the gradient during the iterative process, we additionally accumulate the average gradient of the data points sampled in the gradient direction of the previous iteration so as to stabilize the update direction and escape from poor local maxima. Extensive experiments on the standard ImageNet dataset demonstrate that our method could improve the adversarial transferability of momentum-based methods by a large margin of 11.1% on average. Moreover, by incorporating with various input transformation methods, the adversarial transferability could be further improved significantly. We also attack several extra advanced defense models under the ensemble-model setting, and the enhancements are remarkable with at least 7.8% on average.
翻訳日:2021-03-22 14:33:54 公開日:2021-03-19
# デグレードはアップグレード:低光度画像強調のための学習劣化

Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement ( http://arxiv.org/abs/2103.10621v1 )

ライセンス: Link先を確認
Kui Jiang, Zhongyuan Wang, Zheng Wang, Peng Yi, Xiao Wang, Yansheng Qiu, Chen Chen, Chia-Wen Lin(参考訳) 低照度画像強調は、視覚的自然性を維持しながら、画像の可視性を改善することを目的としている。 強調作業が直接実施される傾向にある既存の方法と異なり,細部と色を2ステップで精細化しつつ,内在的な劣化と低照度画像の照度について検討する。 カラー画像定式化(拡散照明色+環境照明色)にインスパイアされ、まず、低照度入力からの劣化を推定し、環境照明色の歪みをシミュレートし、その内容を改善し、拡散照明色の損失を回復する。 そこで本研究では,新しい劣化・減弱生成ネットワーク(DRGN)を提案する。 その特徴は1)劣化学習とコンテンツの洗練のための新しい二段階生成ネットワークである。 1段階の手法に勝るだけでなく、モデルトレーニングのために十分なペア化サンプルを合成することができる; 2) 複雑な未混合問題に対処する上でより効果的な、多段階的な目的情報(劣化や内容)を多段階的に表現する多段階融合ネットワーク。 拡張タスクと共同検出タスクの併用による大規模な実験により,提案手法の有効性と効率が検証され,PSNRではSOTAが0.95dB,ExDarkでは3.18\%を上回った。 我々のコードは \url{https://github.com/k uijiang0802/DRGN} で入手できる。

Low-light image enhancement aims to improve an image's visibility while keeping its visual naturalness. Different from existing methods, which tend to accomplish the enhancement task directly, we investigate the intrinsic degradation and relight the low-light image while refining the details and color in two steps. Inspired by the color image formulation (diffuse illumination color plus environment illumination color), we first estimate the degradation from low-light inputs to simulate the distortion of environment illumination color, and then refine the content to recover the loss of diffuse illumination color. To this end, we propose a novel Degradation-to-Refin ement Generation Network (DRGN). Its distinctive features can be summarized as 1) A novel two-step generation network for degradation learning and content refinement. It is not only superior to one-step methods, but also is capable of synthesizing sufficient paired samples to benefit the model training; 2) A multi-resolution fusion network to represent the target information (degradation or contents) in a multi-scale cooperative manner, which is more effective to address the complex unmixing problems. Extensive experiments on both the enhancement task and the joint detection task have verified the effectiveness and efficiency of our proposed method, surpassing the SOTA by 0.95dB in PSNR on LOL1000 dataset and 3.18\% in mAP on ExDark dataset. Our code is available at \url{https://github.com/k uijiang0802/DRGN}
翻訳日:2021-03-22 14:33:37 公開日:2021-03-19
# CE-FPN:物体検出のためのチャネル情報強化

CE-FPN: Enhancing Channel Information for Object Detection ( http://arxiv.org/abs/2103.10643v1 )

ライセンス: Link先を確認
Yihao Luo, Xiang Cao, Juntao Zhang, Xiang Cao, Jingjuan Guo, Haibo Shen, Tianjiang Wang and Qi Feng(参考訳) 特徴ピラミッドネットワーク(FPN)は,オブジェクト検出におけるマルチスケール特徴抽出に有効なフレームワークである。 しかし、現在のFPNベースの手法は、主にチャネル還元の本質的な欠陥に悩まされ、セマンティックな情報が失われる。 そして、雑多な融合特徴マップは深刻なエイリアス効果を引き起こす可能性がある。 本稿では,これらの問題を解決するための,単純かつ効果的なモジュールを3つ備えた新しいチャネル拡張機能ピラミッドネットワーク(ce-fpn)を提案する。 具体的には,サブピクセル畳み込みに触発されて,チャネル拡張とアップサンプリングの両方を行うサブピクセルスキップ融合法を提案する。 元の1x1畳み込みや線形アップサンプリングの代わりに、チャネル削減による情報損失を軽減する。 そこで,我々は,サブピクセル畳み込みによるリッチチャネル情報の利用により,他のコンテキストメソッドよりも優れた特徴表現を抽出するサブピクセルコンテキスト拡張モジュールを提案する。 さらに、各レベルの最終的な統合機能を最適化するためにチャンネル注意誘導モジュールを導入し、わずかな計算負荷でエイリアス効果を緩和する。 実験の結果, CE-FPNはMS COCOベンチマークの最先端FPN検出器と比較して, 競争性能が向上していることがわかった。

Feature pyramid network (FPN) has been an effective framework to extract multi-scale features in object detection. However, current FPN-based methods mostly suffer from the intrinsic flaw of channel reduction, which brings about the loss of semantical information. And the miscellaneous fused feature maps may cause serious aliasing effects. In this paper, we present a novel channel enhancement feature pyramid network (CE-FPN) with three simple yet effective modules to alleviate these problems. Specifically, inspired by sub-pixel convolution, we propose a sub-pixel skip fusion method to perform both channel enhancement and upsampling. Instead of the original 1x1 convolution and linear upsampling, it mitigates the information loss due to channel reduction. Then we propose a sub-pixel context enhancement module for extracting more feature representations, which is superior to other context methods due to the utilization of rich channel information by sub-pixel convolution. Furthermore, a channel attention guided module is introduced to optimize the final integrated features on each level, which alleviates the aliasing effect only with a few computational burdens. Our experiments show that CE-FPN achieves competitive performance compared to state-of-the-art FPN-based detectors on MS COCO benchmark.
翻訳日:2021-03-22 14:33:12 公開日:2021-03-19
# XProtoNet: 胸部X線撮影における診断

XProtoNet: Diagnosis in Chest Radiography with Global and Local Explanations ( http://arxiv.org/abs/2103.10663v1 )

ライセンス: Link先を確認
Eunji Kim, Siwon Kim, Minji Seo, Sungroh Yoon(参考訳) 胸部X線撮影におけるディープニューラルネットワークを用いた自動診断は、放射線医が生命を脅かす病気を検出するのに役立つ。 しかし、既存の手法は正確な説明のない予測のみを提供し、診断方法の信頼性を損なう。 本稿では,胸部x線撮影のためのグローバルかつ局所的に解釈可能な診断フレームワークであるxprotonetを提案する。 XProtoNetは、プロトタイプであるX線画像から各疾患の代表的なパターンを学習し、そのパターンに基づいて所定のX線画像を診断する。 病気の兆候が現れる可能性のある領域を予測し、予測された領域の特徴をプロトタイプと比較する。 プロトタイプが単一の画像の予測にどのように寄与するか、グローバルな説明、プロトタイプ、ローカルな説明を提供することができる。 解釈可能性の制約にもかかわらず、XProtoNetはパブリックNIH胸部X線データセット上で最先端の分類性能を達成する。

Automated diagnosis using deep neural networks in chest radiography can help radiologists detect life-threatening diseases. However, existing methods only provide predictions without accurate explanations, undermining the trustworthiness of the diagnostic methods. Here, we present XProtoNet, a globally and locally interpretable diagnosis framework for chest radiography. XProtoNet learns representative patterns of each disease from X-ray images, which are prototypes, and makes a diagnosis on a given X-ray image based on the patterns. It predicts the area where a sign of the disease is likely to appear and compares the features in the predicted area with the prototypes. It can provide a global explanation, the prototype, and a local explanation, how the prototype contributes to the prediction of a single image. Despite the constraint for interpretability, XProtoNet achieves state-of-the-art classification performance on the public NIH chest X-ray dataset.
翻訳日:2021-03-22 14:32:57 公開日:2021-03-19
# 人間の運動予測のためのマルチスケール相関学習

Learning Multiscale Correlations for Human Motion Prediction ( http://arxiv.org/abs/2103.10674v1 )

ライセンス: Link先を確認
Honghong Zhou, Caili Guo, Hao Zhang and Yanjun Wang(参考訳) 人間の動き予測の進歩にもかかわらず、これらの周期的かつ複雑な動きを予測することは依然として難しい課題である。 人体成分間の相関を捉えることが、人間の動きを理解する鍵であると考えている。 本稿では,この問題に対処するために,新しい多スケールグラフ畳み込みネットワーク(mgcn)を提案する。 まず, 適応型マルチスケール対話符号化モジュール (MIEM) を設計し, 人体相関を学習するために, スケール変換モジュールとスケール相互作用モジュールの2つのサブモジュールからなる。 次に,動きを逐次復号化するために粗大な復号化戦略を適用する。 人間の動作予測のための標準ベンチマークデータセットであるHuman3.6MとCMUモーションキャプチャデータセットの2つのアプローチを評価する。 提案手法は,特に複雑な行動カテゴリーにおいて,短期的および長期的予測の両方において最先端のパフォーマンスを実現することを示す。

In spite of the great progress in human motion prediction, it is still a challenging task to predict those aperiodic and complicated motions. We believe that to capture the correlations among human body components is the key to understand the human motion. In this paper, we propose a novel multiscale graph convolution network (MGCN) to address this problem. Firstly, we design an adaptive multiscale interactional encoding module (MIEM) which is composed of two sub modules: scale transformation module and scale interaction module to learn the human body correlations. Secondly, we apply a coarse-to-fine decoding strategy to decode the motions sequentially. We evaluate our approach on two standard benchmark datasets for human motion prediction: Human3.6M and CMU motion capture dataset. The experiments show that the proposed approach achieves the state-of-the-art performance for both short-term and long-term prediction especially in those complicated action category.
翻訳日:2021-03-22 14:32:44 公開日:2021-03-19
# mdmmt:ビデオ検索のためのマルチドメインマルチモーダルトランスフォーマー

MDMMT: Multidomain Multimodal Transformer for Video Retrieval ( http://arxiv.org/abs/2103.10699v1 )

ライセンス: Link先を確認
Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr Petiushko(参考訳) 我々は,MSRVTT と LSMDC のベンチマークにおいて,テキストからビデオへの検索タスクを新たに提案する。 さらに、最先端の結果は、2つのデータセット上の1つのモデルで、微調整することなく達成される。 このマルチドメインの一般化は、異なるビデオキャプションデータセットの適切な組み合わせによって達成される。 異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。 さらに、多くの一般的なデータセットの交わりを確認し、MSRVTTがテストと列車の部品の間にかなりの重複があることを発見し、ActivityNetでも同様の状況が観察されている。

We present a new state-of-the-art on the text to video retrieval task on MSRVTT and LSMDC benchmarks where our model outperforms all previous solutions by a large margin. Moreover, state-of-the-art results are achieved with a single model on two datasets without finetuning. This multidomain generalisation is achieved by a proper combination of different video caption datasets. We show that training on different datasets can improve test results of each other. Additionally we check intersection between many popular datasets and found that MSRVTT has a significant overlap between the test and the train parts, and the same situation is observed for ActivityNet.
翻訳日:2021-03-22 14:32:32 公開日:2021-03-19
# ClawCraneNet: テキストベースのビデオセグメンテーションのためのオブジェクトレベルの関係を活用する

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation ( http://arxiv.org/abs/2103.10702v1 )

ライセンス: Link先を確認
Chen Liang, Yu Wu, Yawei Luo and Yi Yang(参考訳) テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。 基本的にはセマンティック理解ときめ細かいビデオ理解が必要です。 既存の手法はボトムアップ方式でセグメンテーションモデルに言語表現を導入しており、これは単にConvNetsの局所受容領域内で視覚と言語間の相互作用を実行するだけである。 自然言語/参照表現の記述論理とは対照的な部分的観察によって,モデルが地域レベルの関係をほとんど構築できないため,このような相互作用は実現できないと主張する。 実際、人々は通常、他のオブジェクトとの関係を使ってターゲットオブジェクトを記述するが、ビデオ全体を見ることなく簡単には理解できない。 この問題に対処するために、言語指導でオブジェクトを人間のセグメント化する方法を模倣して、新しいトップダウンアプローチを導入する。 まずビデオ中のすべての候補オブジェクトを特定し、それらのハイレベルオブジェクト間の関係を解析することで参照オブジェクトを選択する。 3種類のオブジェクトレベルの関係を精密な関係理解,すなわち位置関係,テキスト誘導意味関係,時間関係の3種類について検討した。 a2d文とj-hmdb文を広範囲に実験した結果,本手法は最先端手法を大差で上回った。 定性的な結果は、より説明しやすいことも示しています。

Text-based video segmentation is a challenging task that segments out the natural language referred objects in videos. It essentially requires semantic comprehension and fine-grained video understanding. Existing methods introduce language representation into segmentation models in a bottom-up manner, which merely conducts vision-language interaction within local receptive fields of ConvNets. We argue that such interaction is not fulfilled since the model can barely construct region-level relationships given partial observations, which is contrary to the description logic of natural language/referring expressions. In fact, people usually describe a target object using relations with other objects, which may not be easily understood without seeing the whole video. To address the issue, we introduce a novel top-down approach by imitating how we human segment an object with the language guidance. We first figure out all candidate objects in videos and then choose the refereed one by parsing relations among those high-level objects. Three kinds of object-level relations are investigated for precise relationship understanding, i.e., positional relation, text-guided semantic relation, and temporal relation. Extensive experiments on A2D Sentences and J-HMDB Sentences show our method outperforms state-of-the-art methods by a large margin. Qualitative results also show our results are more explainable.
翻訳日:2021-03-22 14:32:22 公開日:2021-03-19
# 時間とソースによる画像の接続:低データ、不均一なインスタンス検索の導入

Connecting Images through Time and Sources: Introducing Low-data, Heterogeneous Instance Retrieval ( http://arxiv.org/abs/2103.10729v1 )

ライセンス: Link先を確認
Dimitri Gominski and Val\'erie Gouet-Brunet and Liming Chen(参考訳) 機能学習に依存するアプリケーションの印象的な結果により、ディープラーニングはアルゴリズムとデータの境界を曖昧にした。 トレーニングデータセットを選択し、特徴抽出のためにバックボーンネットワークを選択し、voil\`a を選択する。 しかし、ユースケースにマッチするトレーニングデータセットが存在するという基本的な仮説は、必ずしも満たされていない。 さらに,内容の変動によらず相互接続の需要は,特徴の一般化とロバスト性を高めることを要求している。 これらの問題に特徴付けられる興味深い応用は、歴史的および文化的画像データベースの関連である。 インスタンス検索という一見単純なタスクを通じて、バリエーションやセマンティックな内容のパネルによく反応する特徴を選択することは簡単ではないことを示す。 Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。 さらに、インスタンス検索における中核的な問題に関する洞察を与え、パフォーマンスを高めるための4つの最新技術をテストする。

With impressive results in applications relying on feature learning, deep learning has also blurred the line between algorithm and data. Pick a training dataset, pick a backbone network for feature extraction, and voil\`a ; this usually works for a variety of use cases. But the underlying hypothesis that there exists a training dataset matching the use case is not always met. Moreover, the demand for interconnections regardless of the variations of the content calls for increasing generalization and robustness in features. An interesting application characterized by these problematics is the connection of historical and cultural databases of images. Through the seemingly simple task of instance retrieval, we propose to show that it is not trivial to pick features responding well to a panel of variations and semantic content. Introducing a new enhanced version of the Alegoria benchmark, we compare descriptors using the detailed annotations. We further give insights about the core problems in instance retrieval, testing four state-of-the-art additional techniques to increase performance.
翻訳日:2021-03-22 14:32:02 公開日:2021-03-19
# 振り返って:自己監督型マルチスペクトル対応推定

There and Back Again: Self-supervised Multispectral Correspondence Estimation ( http://arxiv.org/abs/2103.10768v1 )

ライセンス: Link先を確認
Celyn Walters (1), Oscar Mendez (1), Mark Johnson, Richard Bowden (1) ((1) CVSSP, University of Surrey)(参考訳) 自動運転車から医療画像まで、幅広い応用分野において、マルチスペクトル画像はカラー画像に存在しない追加情報を抽出する機会を提供する。 この情報を容易に利用できるようにするための最も重要なステップの1つは、異なるスペクトル間の密接な対応の正確な推定である。 クロススペクトル画像の性質上、視覚領域の対応解法のほとんどは単に適用できない。 さらに、ほとんどのクロススペクトル技術はスペクトル特性を利用してアライメントを行う。 本研究では,複数のスペクトルに一般化する方法で,密接な対応推定問題に対処することを目的としている。 私たちは、自己監督を可能にする新しいサイクル一貫性メトリクスを導入することでこれを行います。 これはスペクトルに依存しない損失関数と組み合わせることで、複数のスペクトルで同じネットワークをトレーニングすることができます。 本稿では,高密度RGB-FIR対応推定における課題について述べる。 また,rgb-nirとrgb-rgbでは,類似した自己教師付きアプローチよりも高い精度を実現する。 本研究は,スペクトル間のアライメントを一般化する共通枠組みを用いて,クロススペクトル対応推定を解くことができることを示す。

Across a wide range of applications, from autonomous vehicles to medical imaging, multi-spectral images provide an opportunity to extract additional information not present in color images. One of the most important steps in making this information readily available is the accurate estimation of dense correspondences between different spectra. Due to the nature of cross-spectral images, most correspondence solving techniques for the visual domain are simply not applicable. Furthermore, most cross-spectral techniques utilize spectra-specific characteristics to perform the alignment. In this work, we aim to address the dense correspondence estimation problem in a way that generalizes to more than one spectrum. We do this by introducing a novel cycle-consistency metric that allows us to self-supervise. This, combined with our spectra-agnostic loss functions, allows us to train the same network across multiple spectra. We demonstrate our approach on the challenging task of dense RGB-FIR correspondence estimation. We also show the performance of our unmodified network on the cases of RGB-NIR and RGB-RGB, where we achieve higher accuracy than similar self-supervised approaches. Our work shows that cross-spectral correspondence estimation can be solved in a common framework that learns to generalize alignment across spectra.
翻訳日:2021-03-22 14:31:47 公開日:2021-03-19
# UniMoCo: 教師なし、セミスーパービジョン、フルスーパービジョンのビジュアル表現学習

UniMoCo: Unsupervised, Semi-Supervised and Full-Supervised Visual Representation Learning ( http://arxiv.org/abs/2103.10773v1 )

ライセンス: Link先を確認
Zhigang Dai, Bolun Cai, Yugeng Lin, Junying Chen(参考訳) Momentum Contrast (MoCo) は教師なし視覚表現において大きな成功を収めている。 しかし、すでにラベル付けされている、教師付きおよび半教師付きデータセットが多数存在する。 ラベルアノテーションを完全に活用するために,ラベル付きデータの任意の比率とラベルなしデータトレーニングをサポートするためにMoCoを拡張したUnified Momentum Contrast (UniMoCo)を提案する。 MoCoと比較して、UniMoCoは以下の2つの変更がある: 1) MoCoの1つの正のペアとは異なる、クエリラベルとラベルキューを比較することで、複数の正のペアをオンザフライで維持する。 2)一対最適化の観点から任意の数の正と負をサポートするための統一コントラスト(ユニコン)損失を提案する。 私たちのUniConは、理論と実践における監督された対照的な損失よりも合理的で強力です。 実験では,イメージネットラベルの異なる複数のUniMoCoモデルを事前訓練し,下流タスクの性能評価を行った。 実験の結果,UniMoCoは教師なし,半教師あり,教師ありの視覚表現学習に適していることがわかった。

Momentum Contrast (MoCo) achieves great success for unsupervised visual representation. However, there are a lot of supervised and semi-supervised datasets, which are already labeled. To fully utilize the label annotations, we propose Unified Momentum Contrast (UniMoCo), which extends MoCo to support arbitrary ratios of labeled data and unlabeled data training. Compared with MoCo, UniMoCo has two modifications as follows: (1) Different from a single positive pair in MoCo, we maintain multiple positive pairs on-the-fly by comparing the query label to a label queue. (2) We propose a Unified Contrastive(UniCon) loss to support an arbitrary number of positives and negatives in a unified pair-wise optimization perspective. Our UniCon is more reasonable and powerful than the supervised contrastive loss in theory and practice. In our experiments, we pre-train multiple UniMoCo models with different ratios of ImageNet labels and evaluate the performance on various downstream tasks. Experiment results show that UniMoCo generalizes well for unsupervised, semi-supervised and supervised visual representation learning.
翻訳日:2021-03-22 14:31:33 公開日:2021-03-19
# Skeleton Merger: 教師なしキーポイント検出器

Skeleton Merger: an Unsupervised Aligned Keypoint Detector ( http://arxiv.org/abs/2103.10814v1 )

ライセンス: Link先を確認
Ruoxi Shi, Zhengrong Xue, Yang You, Cewu Lu(参考訳) 整列した3Dキーポイントの検出は、オブジェクト追跡、形状検索、ロボット工学といった多くのシナリオにおいて不可欠である。 しかし、一般にキーポイント自体の曖昧さのため、あらゆる種類のオブジェクトに対して高品質なデータセットを作成することは困難である。 一方、現在の教師なし検出器は、良好なカバレッジで整列キーポイントを生成できない。 本稿では,骨格を用いて物体を再構成する非教師付きキーポイント検出器,Skeleton Mergerを提案する。 これはAutoencoderアーキテクチャに基づいている。 エンコーダはキーポイントを提案し、キーポイント間のエッジの活性化強度を予測する。 デコーダは骨格の均一なサンプリングを行い、点方向のオフセットを持つ小さな点雲に精製する。 そして、活性化強度を適用し、サブクラウドをマージする。 入力点雲と活性化強度によって隠蔽されたサブ雲からなる再構成との距離として,複合チャンファー距離 (CCD) を提案する。 我々は,Skeleton Mergerがセマンティックに豊富な有意なキーポイントを適切なアライメントで検出できることを示し,KeypointNetデータセット上の教師付きメソッドと同等のパフォーマンスを示す。 また、検出器はノイズやサブサンプリングに頑健であることが示されている。 私たちのコードはhttps://github.com/e liphatfs/skeletonmer gerで入手できます。

Detecting aligned 3D keypoints is essential under many scenarios such as object tracking, shape retrieval and robotics. However, it is generally hard to prepare a high-quality dataset for all types of objects due to the ambiguity of keypoint itself. Meanwhile, current unsupervised detectors are unable to generate aligned keypoints with good coverage. In this paper, we propose an unsupervised aligned keypoint detector, Skeleton Merger, which utilizes skeletons to reconstruct objects. It is based on an Autoencoder architecture. The encoder proposes keypoints and predicts activation strengths of edges between keypoints. The decoder performs uniform sampling on the skeleton and refines it into small point clouds with pointwise offsets. Then the activation strengths are applied and the sub-clouds are merged. Composite Chamfer Distance (CCD) is proposed as a distance between the input point cloud and the reconstruction composed of sub-clouds masked by activation strengths. We demonstrate that Skeleton Merger is capable of detecting semantically-rich salient keypoints with good alignment, and shows comparable performance to supervised methods on the KeypointNet dataset. It is also shown that the detector is robust to noise and subsampling. Our code is available at https://github.com/e liphatfs/SkeletonMer ger.
翻訳日:2021-03-22 14:31:14 公開日:2021-03-19
# GLOWin:医療画像における不整形特徴表現学習のためのフローベース非可逆生成フレームワーク

GLOWin: A Flow-based Invertible Generative Framework for Learning Disentangled Feature Representations in Medical Images ( http://arxiv.org/abs/2103.10868v1 )

ライセンス: Link先を確認
Aadhithya Sankar, Matthias Keicher, Rami Eisawy, Abhijeet Parida, Franz Pfister, Seong Tae Kim, Nassir Navab(参考訳) 不連続表現は多くの下流タスクで有用であり、ディープラーニングモデルをより解釈しやすくし、大量のラベル付きまたはラベル付きデータを必要とする他のモデルのトレーニングに有用な合成生成画像の機能を制御するのに役立つ。 近年,データ分布を可逆関数で直接モデル化することにより,現実的な画像を生成するためのフローベース生成モデルが提案されている。 本研究では, エンドツーエンドの可逆性を持ち, 不連続表現を学習できるフローベースの生成モデルフレームワークglooinを提案する。 各コンポーネントが1つの生成因子の表現を学ぶように、潜在空間をコンポーネントに分解することで、特徴の絡み合いが達成される。 一般脳腫瘍mrデータセットにおける提案法を評価するため, 包括的実験を行った。 定量的および定性的な結果から,提案手法は複雑な医用画像から特徴を引き離すのに有効であることが示唆された。

Disentangled representations can be useful in many downstream tasks, help to make deep learning models more interpretable, and allow for control over features of synthetically generated images that can be useful in training other models that require a large number of labelled or unlabelled data. Recently, flow-based generative models have been proposed to generate realistic images by directly modeling the data distribution with invertible functions. In this work, we propose a new flow-based generative model framework, named GLOWin, that is end-to-end invertible and able to learn disentangled representations. Feature disentanglement is achieved by factorizing the latent space into components such that each component learns the representation for one generative factor. Comprehensive experiments have been conducted to evaluate the proposed method on a public brain tumor MR dataset. Quantitative and qualitative results suggest that the proposed method is effective in disentangling the features from complex medical images.
翻訳日:2021-03-22 14:30:55 公開日:2021-03-19
# sewer-ml:マルチラベル下水道欠陥分類データセットとベンチマーク

Sewer-ML: A Multi-Label Sewer Defect Classification Dataset and Benchmark ( http://arxiv.org/abs/2103.10895v1 )

ライセンス: Link先を確認
Joakim Bruslund Haurum and Thomas B. Moeslund(参考訳) おそらく、下水道インフラは現代の社会で最もコストのかかるインフラの1つである。 下水道管は手動で検査され、パイプが故障しているかどうかを判定する。 しかし、このプロセスは、資格のある検査官の数と、パイプの検査に要する時間によって制限される。 したがって、このプロセスの自動化は高い関心を集めている。 これまでのところ、下水道の欠陥分類におけるコンピュータビジョンのアプローチの成功は、公開データセットの欠如による他分野の成功と比べて限定されている。 そこで本研究では,画像に基づく下水道欠陥分類のための多ラベル分類データセットであるSwer-MLを提案する。 下水道MLデータセットは、9年間に3つの異なるユーティリティ企業の下水道検査官によって注釈付けされた13万枚の画像で構成されている。 また,このデータセットとともに,ベンチマークアルゴリズムと性能評価のための新しい指標を提案する。 ベンチマークアルゴリズムは、12の最先端アルゴリズム、下水道欠陥分類領域から6つ、マルチラベル分類領域から6つの評価を行い、最高の性能アルゴリズムを組み合わせる。 新しいメトリクスは、クラスが重み付けしたF2スコア、$\text{F}2_{\text{CIW}}$であり、通常のパイプF1スコア、$\text{F}1_{\text{Normal}}$と共に使用される各クラスの経済的影響を反映している。 ベンチマークアルゴリズムは、$\text{F}2_{\text{CIW}}$スコア55.11%、$\text{F}1_{\text{Normal}}$スコア90.94%を達成し、Swer-MLデータセットに十分な改善の余地を残している。 コード、モデル、データセットはプロジェクトページhttps://vap.aau.dk/s ewer-ml/で確認できる。

Perhaps surprisingly sewerage infrastructure is one of the most costly infrastructures in modern society. Sewer pipes are manually inspected to determine whether the pipes are defective. However, this process is limited by the number of qualified inspectors and the time it takes to inspect a pipe. Automatization of this process is therefore of high interest. So far, the success of computer vision approaches for sewer defect classification has been limited when compared to the success in other fields mainly due to the lack of public datasets. To this end, in this work we present a large novel and publicly available multi-label classification dataset for image-based sewer defect classification called Sewer-ML. The Sewer-ML dataset consists of 1.3 million images annotated by professional sewer inspectors from three different utility companies across nine years. Together with the dataset, we also present a benchmark algorithm and a novel metric for assessing performance. The benchmark algorithm is a result of evaluating 12 state-of-the-art algorithms, six from the sewer defect classification domain and six from the multi-label classification domain, and combining the best performing algorithms. The novel metric is a class-importance weighted F2 score, $\text{F}2_{\text{CIW}}$, reflecting the economic impact of each class, used together with the normal pipe F1 score, $\text{F}1_{\text{Normal}}$. The benchmark algorithm achieves an $\text{F}2_{\text{CIW}}$ score of 55.11% and $\text{F}1_{\text{Normal}}$ score of 90.94%, leaving ample room for improvement on the Sewer-ML dataset. The code, models, and dataset are available at the project page https://vap.aau.dk/s ewer-ml/
翻訳日:2021-03-22 14:30:38 公開日:2021-03-19
# hw-nas-bench:hardwar e-aware neural architecture search benchmark

HW-NAS-Bench:Hardwar e-Aware Neural Architecture Search Benchmark ( http://arxiv.org/abs/2103.10584v1 )

ライセンス: Link先を確認
Chaojian Li, Zhongzhi Yu, Yonggan Fu, Yongan Zhang, Yang Zhao, Haoran You, Qixuan Yu, Yue Wang, Yingyan Lin(参考訳) HardWare-aware Neural Architecture Search (HW-NAS)は、リソースに制約のある日常的なデバイスにデプロイされるDNNの設計を自動化することで、最近大きな注目を集めている。 その有望な性能にもかかわらず、最適なhw-nasソリューションの開発は、アルゴリズム、マイクロアーキテクチャ、デバイス固有のコンパイルにおいて学際的な知識を必要とするため、非常に困難である。 まず、NASプロセスに組み込むハードウェアコストを決定するために、既存の作業は、コンパイル済みのハードウェアコストルックアップテーブルまたはデバイス固有のハードウェアコストモデルを採用する。 どちらもhw-nasイノベーションの発展を制限し、非ハードウェアの専門家に参入障壁を課している。 第二に、一般的なNASと同様、重要な計算資源と、採用されている検索空間、ハイパーパラメータ、ハードウェアデバイスの違いのために、HW-NASアルゴリズムのベンチマークが難しいことが知られている。 この目的のために,HW-NAS研究のための最初の公開データセットであるHW-NAS-Benchを開発した。 hw-nas-benchの設計のために、nas-bench-201とfbnetの検索スペースにおける全ネットワークのハードウェア性能を3つのカテゴリ(商用エッジデバイス、fpga、asic)に分類される6つのハードウェアデバイスで注意深く収集した。 さらに,HW-NAS-Benchの測定結果を総合的に分析し,HW-NAS研究の知見を提供する。 最後に、(1)HW-NAS-Benchは、ハードウェアの専門家が単にクエリをするだけでHW-NASを実行できることを示し、(2)専用デバイス固有のHW-NASが、正しい精度とコストのトレードオフにつながることを実証する。 コードと収集されたデータはhttps://github.com/R ICE-EIC/HW-NAS-Bench .comで公開されている。

HardWare-aware Neural Architecture Search (HW-NAS) has recently gained tremendous attention by automating the design of DNNs deployed in more resource-constrained daily life devices. Despite its promising performance, developing optimal HW-NAS solutions can be prohibitively challenging as it requires cross-disciplinary knowledge in the algorithm, micro-architecture, and device-specific compilation. First, to determine the hardware-cost to be incorporated into the NAS process, existing works mostly adopt either pre-collected hardware-cost look-up tables or device-specific hardware-cost models. Both of them limit the development of HW-NAS innovations and impose a barrier-to-entry to non-hardware experts. Second, similar to generic NAS, it can be notoriously difficult to benchmark HW-NAS algorithms due to their significant required computational resources and the differences in adopted search spaces, hyperparameters, and hardware devices. To this end, we develop HW-NAS-Bench, the first public dataset for HW-NAS research which aims to democratize HW-NAS research to non-hardware experts and make HW-NAS research more reproducible and accessible. To design HW-NAS-Bench, we carefully collected the measured/estimated hardware performance of all the networks in the search spaces of both NAS-Bench-201 and FBNet, on six hardware devices that fall into three categories (i.e., commercial edge devices, FPGA, and ASIC). Furthermore, we provide a comprehensive analysis of the collected measurements in HW-NAS-Bench to provide insights for HW-NAS research. Finally, we demonstrate exemplary user cases to (1) show that HW-NAS-Bench allows non-hardware experts to perform HW-NAS by simply querying it and (2) verify that dedicated device-specific HW-NAS can indeed lead to optimal accuracy-cost trade-offs. The codes and all collected data are available at https://github.com/R ICE-EIC/HW-NAS-Bench .
翻訳日:2021-03-22 14:30:10 公開日:2021-03-19
# ディープニューラルネットワークにおけるカスケード重み付け -ネットワークプルーニングの利点と落とし穴-

Cascade Weight Shedding in Deep Neural Networks: Benefits and Pitfalls for Network Pruning ( http://arxiv.org/abs/2103.10629v1 )

ライセンス: Link先を確認
Kambiz Azarian and Fatih Porikli(参考訳) 本研究では,ニューラルネットワークにおけるカスケード重み付け現象を初めて報告し,ネットワークの重みのごく一部を刈り取ることに応答して,その後に発生する微調整相の間,残りの割合を数エポックにわたって削り取る。 カスケード重み付けは,現在ある場合,ランダムプルーニングなどの非最適スキームの性能を著しく向上させることができることを示す。 これはプルーニングメソッドが特定の状況下でうまく機能する理由を説明しているが、ResNet50対MobileNetV3のような他の状況では不十分である。 我々は、グローバルスケールベースのプルーニング(GMP)が、その単純さにもかかわらず、広範囲のシナリオに対して競争力のあるパフォーマンスを提供する理由を洞察する。 また,gmpの精度向上のためのカスケード重みシェディングの可能性を示し,計算量を削減する。 そこで我々は,pruning と learning-rate schedule の重要性を強調する。 重み付けと学習段階の巻き戻し手法に光を当て,カスケードの重み付けに結びつく可能性を示し,微調整よりも有利な理由を示した。 また,カスケード重み付けが保持重量のセットに及ぼす影響と半構造化プルーニングに与える影響についても検討した。 最後に、今後の研究の方向性を示す。

We report, for the first time, on the cascade weight shedding phenomenon in deep neural networks where in response to pruning a small percentage of a network's weights, a large percentage of the remaining is shed over a few epochs during the ensuing fine-tuning phase. We show that cascade weight shedding, when present, can significantly improve the performance of an otherwise sub-optimal scheme such as random pruning. This explains why some pruning methods may perform well under certain circumstances, but poorly under others, e.g., ResNet50 vs. MobileNetV3. We provide insight into why the global magnitude-based pruning, i.e., GMP, despite its simplicity, provides a competitive performance for a wide range of scenarios. We also demonstrate cascade weight shedding's potential for improving GMP's accuracy, and reduce its computational complexity. In doing so, we highlight the importance of pruning and learning-rate schedules. We shed light on weight and learning-rate rewinding methods of re-training, showing their possible connections to the cascade weight shedding and reason for their advantage over fine-tuning. We also investigate cascade weight shedding's effect on the set of kept weights, and its implications for semi-structured pruning. Finally, we give directions for future research.
翻訳日:2021-03-22 14:29:31 公開日:2021-03-19
# 解釈可能な深層学習:解釈、解釈可能性、信頼性など

Interpretable Deep Learning: Interpretations, Interpretability, Trustworthiness, and Beyond ( http://arxiv.org/abs/2103.10689v1 )

ライセンス: Link先を確認
Xuhong Li, Haoyi Xiong, Xingjian Li, Xuanyu Wu, Xiao Zhang, Ji Liu, Jiang Bian, Dejing Dou(参考訳) ディープニューラルネットワークは、さまざまな機械学習や人工知能タスクを扱う上で、非常に優れたパフォーマンスで知られている。 しかしながら、その過度にパラメータ化されたブラックボックスの性質から、深層モデルの予測結果を理解することはしばしば困難である。 近年,深層モデルによる意思決定の方法を説明する,あるいは明らかにするための解釈ツールが数多く提案されている。 本稿では,本研究を概観し,総合的な調査を行う。 具体的には、人々が混乱する2つの基本的な概念、解釈と解釈可能性を紹介し、明らかにする。 まず、解釈における研究の取り組みに対処するために、異なる観点から、新しい分類法を提案することによって、いくつかの最近の解釈アルゴリズムの設計を精査する。 そして,解釈結果を理解するために,解釈アルゴリズムを評価するための性能指標についても検討する。 さらに,「信頼できる」解釈アルゴリズムを用いてモデルの解釈可能性を評価する既存の研究を概説する。 最後に,深層モデルの解釈と,逆ロバスト性やデータ拡張といった他の要因との関係を考察し,解釈アルゴリズムや評価アプローチのためのオープンソースライブラリをいくつか紹介する。

Deep neural networks have been well-known for their superb performance in handling various machine learning and artificial intelligence tasks. However, due to their over-parameterized black-box nature, it is often difficult to understand the prediction results of deep models. In recent years, many interpretation tools have been proposed to explain or reveal the ways that deep models make decisions. In this paper, we review this line of research and try to make a comprehensive survey. Specifically, we introduce and clarify two basic concepts-interpretat ions and interpretability-tha t people usually get confused. First of all, to address the research efforts in interpretations, we elaborate the design of several recent interpretation algorithms, from different perspectives, through proposing a new taxonomy. Then, to understand the results of interpretation, we also survey the performance metrics for evaluating interpretation algorithms. Further, we summarize the existing work in evaluating models' interpretability using "trustworthy" interpretation algorithms. Finally, we review and discuss the connections between deep models' interpretations and other factors, such as adversarial robustness and data augmentations, and we introduce several open-source libraries for interpretation algorithms and evaluation approaches.
翻訳日:2021-03-22 14:29:08 公開日:2021-03-19
# 高雑音データに基づくオンライン学習モデルのロバスト性向上

Enhancing Robustness of On-line Learning Models on Highly Noisy Data ( http://arxiv.org/abs/2103.10824v1 )

ライセンス: Link先を確認
Zilong Zhao, Robert Birke, Rui Han, Bogdan Robu, Sara Bouchenak, Sonia Ben Mokhtar, Lydia Y. Chen(参考訳) 分類アルゴリズムは、iot、クラウド、顔認識など、さまざまなシステムの異常を検出するために、データソースがクリーンである、すなわち特徴とラベルが正しく設定されている、という一般的な仮定の下で広く採用されている。 しかし、不注意なアノテーションや不正な異常検出のための悪意のあるデータ変換のため、ワイルドから収集されたデータは信頼できない。 本稿では、ロバスト異常検出(RAD)という2層データ選択フレームワークを拡張し、両層が最終的な異常検出決定に寄与するアンサンブル予測を新たに設計する。 異常検出のオンライン的性質に適応するために,分類器の相反する意見,反復的クリーニング,およびオラクル知識の付加的特徴を検討する。 受信したデータストリームからオンライン学習し、連続的にデータをクリーンにすることで、蓄積したデータセットから学習能力の増大に適応する。 さらに、oracle learningの概念を探求し、難しいデータポイントに対する真のラベルの追加情報を提供する。 具体的には、(i)IoT攻撃の10つのクラスの検出、(ii)ビッグデータジョブの4つのタスク障害の予測、(iii)100人のセレブの顔を認識する3つのユースケースに注目します。 評価の結果、RADは異常検出の精度を向上し、最大98.95%のIoTデバイス攻撃(+7%)、最大85.03%のクラウドタスク障害(+14%)を40%のラベルノイズで達成し、その拡張により、最大77.51%の顔認識(+39%)を30%のラベルノイズで達成できることがわかった。 提案するradとその拡張は一般的であり、異なる異常検出アルゴリズムに適用することができる。

Classification algorithms have been widely adopted to detect anomalies for various systems, e.g., IoT, cloud and face recognition, under the common assumption that the data source is clean, i.e., features and labels are correctly set. However, data collected from the wild can be unreliable due to careless annotations or malicious data transformation for incorrect anomaly detection. In this paper, we extend a two-layer on-line data selection framework: Robust Anomaly Detector (RAD) with a newly designed ensemble prediction where both layers contribute to the final anomaly detection decision. To adapt to the on-line nature of anomaly detection, we consider additional features of conflicting opinions of classifiers, repetitive cleaning, and oracle knowledge. We on-line learn from incoming data streams and continuously cleanse the data, so as to adapt to the increasing learning capacity from the larger accumulated data set. Moreover, we explore the concept of oracle learning that provides additional information of true labels for difficult data points. We specifically focus on three use cases, (i) detecting 10 classes of IoT attacks, (ii) predicting 4 classes of task failures of big data jobs, and (iii) recognising 100 celebrities faces. Our evaluation results show that RAD can robustly improve the accuracy of anomaly detection, to reach up to 98.95% for IoT device attacks (i.e., +7%), up to 85.03% for cloud task failures (i.e., +14%) under 40% label noise, and for its extension, it can reach up to 77.51% for face recognition (i.e., +39%) under 30% label noise. The proposed RAD and its extensions are general and can be applied to different anomaly detection algorithms.
翻訳日:2021-03-22 14:28:52 公開日:2021-03-19
# 異種データからの薬物-薬物相互作用の予測--組込みアプローチ

Predicting Drug-Drug Interactions from Heterogeneous Data: An Embedding Approach ( http://arxiv.org/abs/2103.10916v1 )

ライセンス: Link先を確認
Devendra Singh Dhami, Siwen Yan, Gautam Kunapuli, David Page, Sriraam Natarajan(参考訳) 機械学習を用いた薬物-薬物相互作用(ddis)の予測と発見が広く研究されている。 しかしながら、ほとんどのアプローチは、薬物構造のテキストデータやテキスト表現に焦点を当てている。 本稿では, 薬物構造画像, 薬物構造文字列表現, 薬物関係の関連表現などの複数のデータソースを入力として利用する最初の研究について述べる。 そこで本研究では,近年のディープネットワークの進歩を利用して,DDIの予測に様々な入力源を統合する。 DDIの予測に不均一なデータを組み合わせることの有効性を実証的に示すために, 薬物に対するスタンドアロンの異なるデータ型を用いたいくつかの最先端手法に対する実証的評価を行った。

Predicting and discovering drug-drug interactions (DDIs) using machine learning has been studied extensively. However, most of the approaches have focused on text data or textual representation of the drug structures. We present the first work that uses multiple data sources such as drug structure images, drug structure string representation and relational representation of drug relationships as the input. To this effect, we exploit the recent advances in deep networks to integrate these varied sources of inputs in predicting DDIs. Our empirical evaluation against several state-of-the-art methods using standalone different data types for drugs clearly demonstrate the efficacy of combining heterogeneous data in predicting DDIs.
翻訳日:2021-03-22 14:27:57 公開日:2021-03-19
# 学習曲線の形状についての一考察

The Shape of Learning Curves: a Review ( http://arxiv.org/abs/2103.10948v1 )

ライセンス: Link先を確認
Tom Viering, Marco Loog(参考訳) 学習曲線は、学習者の一般化性能のトレーニングセットサイズへの依存性についての洞察を与える。 この重要なツールは、モデル選択、より多くのトレーニングデータの効果の予測、モデルトレーニングとハイパーパラメータチューニングの計算複雑性の低減に使用することができる。 本稿では,この用語の起源を振り返り,学習曲線の形式的定義を提供し,その推定などの基礎を概説する。 本研究の主な貢献は,学習曲線の形状に関する文献の包括的概要である。 我々は、しばしば力の法則や指数関数の形を持つよく曲げられた曲線を支持する経験的および理論的証拠について議論する。 ガウス過程の学習曲線,表示可能な複雑な形状,それらに影響を与える因子について考察する。 学習曲線の学習曲線の例に特に注意を払っており、トレーニングデータが増えると学習成績が悪化する。 最後に、より深い経験的、理論的調査を必要とする様々なオープンな問題を指摘します。 総じて、我々のレビューは学習曲線は驚くほど多様であり、普遍的なモデルは特定できないと指摘している。

Learning curves provide insight into the dependence of a learner's generalization performance on the training set size. This important tool can be used for model selection, to predict the effect of more training data, and to reduce the computational complexity of model training and hyperparameter tuning. This review recounts the origins of the term, provides a formal definition of the learning curve, and briefly covers basics such as its estimation. Our main contribution is a comprehensive overview of the literature regarding the shape of learning curves. We discuss empirical and theoretical evidence that supports well-behaved curves that often have the shape of a power law or an exponential. We consider the learning curves of Gaussian processes, the complex shapes they can display, and the factors influencing them. We draw specific attention to examples of learning curves that are ill-behaved, showing worse learning performance with more training data. To wrap up, we point out various open problems that warrant deeper empirical and theoretical investigation. All in all, our review underscores that learning curves are surprisingly diverse and no universal model can be identified.
翻訳日:2021-03-22 14:27:49 公開日:2021-03-19
# gcn-alp:アンカーリンク予測における衝突対応

GCN-ALP: Addressing Matching Collisions in Anchor Link Prediction ( http://arxiv.org/abs/2103.10600v1 )

ライセンス: Link先を確認
Hao Gao, Yongqing Wang, Shanshan Lyu, Huawei Shen, Xueqi Cheng(参考訳) 現在、オンラインユーザーはソーシャル化オンラインサービスのために複数のソーシャルメディアに参加することを好んでいる。 問題であるtextit{anchor link prediction} は、ユーザプロファイル、コンテンツ、ソーシャルネットワーク間のネットワーク構造に関する共通基盤にユーザデータをリンクするように形式化されている。 従来の作業の多くは、観察されたユーザデータに明示的または暗黙的な特徴を持つマッチング関数の学習に集中していた。 しかし、観測されたユーザデータの低品質はアンカーリンクの判断を混乱させ、実際の衝突問題と一致する。 本稿では,局所構造一貫性を探求し,一致する衝突を回避するためにマッチンググラフを構築する。 さらに,マッチンググラフ上でのアンカーリンク予測を効率的に解くために,ミニバッチ戦略によるグラフ畳み込みネットワークを提案する。 3つの実アプリケーションシナリオに関する実験結果は,予測精度と効率性の両方において提案手法の大きな可能性を示している。 さらに、学習埋め込みの可視化は、マッチンググラフ上のアンカーリンクの推論を理解するための定性的な方法を提供する。

Nowadays online users prefer to join multiple social media for the purpose of socialized online service. The problem \textit{anchor link prediction} is formalized to link user data with the common ground on user profile, content and network structure across social networks. Most of the traditional works concentrated on learning matching function with explicit or implicit features on observed user data. However, the low quality of observed user data confuses the judgment on anchor links, resulting in the matching collision problem in practice. In this paper, we explore local structure consistency and then construct a matching graph in order to circumvent matching collisions. Furthermore, we propose graph convolution networks with mini-batch strategy, efficiently solving anchor link prediction on matching graph. The experimental results on three real application scenarios show the great potentials of our proposed method in both prediction accuracy and efficiency. In addition, the visualization of learned embeddings provides us a qualitative way to understand the inference of anchor links on the matching graph.
翻訳日:2021-03-22 14:27:12 公開日:2021-03-19
# タスク計画のための知識ベース階層型pomdp

Knowledge-Based Hierarchical POMDPs for Task Planning ( http://arxiv.org/abs/2103.10642v1 )

ライセンス: Link先を確認
Sergio A. Serrano, Elizabeth Santiago, Jose Martinez-Carranza, Eduardo Morales, L. Enrique Sucar(参考訳) タスク計画の主な目標は、エージェントを初期状態から目標状態に導く一連のアクションを構築することです。 ロボット工学では、アクションは通常いくつかの可能性があり、センサーはエラーで測定する傾向があるため、これは特に難しい。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、システムの状態を変更・監視するアクションの不確実性をモデル化する能力のため、一般的に使用される。 しかし、POMDPの解法は計算コストがかかるため、ほとんどのロボットアプリケーションでは使用が禁止される。 本稿では,サービスロボティクスのためのタスク計画アーキテクチャを提案する。 サービスロボット設計においては,ロボットとその環境に関する知識を符号化し,情報のモジュール化と再利用を促進する手法を提案する。 また,新しい再帰的なPOMDPの定義を導入することで,アーキテクチャがPOMDPの階層を自律的に構築し,手作業で解決する計画の生成と実行を可能にする。 実験結果から,再帰的階層的アプローチに従えば,基本手法と比較して,アーキテクチャは,不確実性や大きさの異なるいくつかのシナリオ下で頑健性を維持する(あるいは改善する)一方で,計画時間を大幅に短縮できることがわかった。

The main goal in task planning is to build a sequence of actions that takes an agent from an initial state to a goal state. In robotics, this is particularly difficult because actions usually have several possible results, and sensors are prone to produce measurements with error. Partially observable Markov decision processes (POMDPs) are commonly employed, thanks to their capacity to model the uncertainty of actions that modify and monitor the state of a system. However, since solving a POMDP is computationally expensive, their usage becomes prohibitive for most robotic applications. In this paper, we propose a task planning architecture for service robotics. In the context of service robot design, we present a scheme to encode knowledge about the robot and its environment, that promotes the modularity and reuse of information. Also, we introduce a new recursive definition of a POMDP that enables our architecture to autonomously build a hierarchy of POMDPs, so that it can be used to generate and execute plans that solve the task at hand. Experimental results show that, in comparison to baseline methods, by following a recursive hierarchical approach the architecture is able to significantly reduce the planning time, while maintaining (or even improving) the robustness under several scenarios that vary in uncertainty and size.
翻訳日:2021-03-22 14:26:57 公開日:2021-03-19
# AIエンジニアの教育から学んだこと

Lessons Learned from Educating AI Engineers ( http://arxiv.org/abs/2103.10703v1 )

ライセンス: Link先を確認
Petra Heck and Gerard Schouten(参考訳) 過去3年間、ソフトウェアエンジニアがaiエンジニアを専門とするプラクティス指向、独身レベル、教育プログラムを構築してきました。 このプログラムの経験と、私たちの学生が業界で実行している実践的な課題は、AIエンジニアの職業に関する貴重な洞察を与えてくれました。 本稿では,本プログラムと産業・研究で学んだ教訓について論じる。

Over the past three years we have built a practice-oriented, bachelor level, educational programme for software engineers to specialize as AI engineers. The experience with this programme and the practical assignments our students execute in industry has given us valuable insights on the profession of AI engineer. In this paper we discuss our programme and the lessons learned for industry and research.
翻訳日:2021-03-22 14:26:37 公開日:2021-03-19
# 構成可能なシステムにおける深層学習ワークロードの性能解析

Performance Analysis of Deep Learning Workloads on a Composable System ( http://arxiv.org/abs/2103.10911v1 )

ライセンス: Link先を確認
Kauotar El Maghraoui and Lorraine M. Herger and Chekuri Choudary and Kim Tran and Todd Deshane and David Hanson(参考訳) 構成可能なインフラストラクチャは、計算、ストレージ、アクセラレータ、ネットワークなどのリソースとして定義され、プール内で共有され、アプリケーション要件を満たすためにさまざまな構成でグループ化される。 このリソースを「ミックス・アンド・マッチ」する自由は、システムの最終設計やハードウェア実装に先立って、設計サイクルの初期段階で動的に実験することができる。 この設計は、さまざまなワークロードに柔軟性を提供し、実験や測定を制御可能な動的共同設計プラットフォームを提供する。 例えば、重要なパフォーマンスボトルネックは実験段階で早期に明らかになるため、コストと時間のかかる間違いを避けることができる。 さらに、新しいシステムオンチップ(SoC)と新しいアクセラレータータイプを実験する際に、様々なシステムレベルのトポロジーを評価することができる。 本稿では,IBM Research AI Hardware Center(AIHC)のパートナが実装した,エンタープライズ構成可能なインフラストラクチャの設計について詳述する。 構成可能なシステムに対する実験的な評価は、システムがどのように機能するかを洞察し、様々なリソース集約と再構成が代表的ディープラーニングベンチマークに与える影響を評価する。

A composable infrastructure is defined as resources, such as compute, storage, accelerators and networking, that are shared in a pool and that can be grouped in various configurations to meet application requirements. This freedom to 'mix and match' resources dynamically allows for experimentation early in the design cycle, prior to the final architectural design or hardware implementation of a system. This design provides flexibility to serve a variety of workloads and provides a dynamic co-design platform that allows experiments and measurements in a controlled manner. For instance, key performance bottlenecks can be revealed early on in the experimentation phase thus avoiding costly and time consuming mistakes. Additionally, various system-level topologies can be evaluated when experimenting with new System on Chip (SoCs) and new accelerator types. This paper details the design of an enterprise composable infrastructure that we have implemented and made available to our partners in the IBM Research AI Hardware Center (AIHC). Our experimental evaluations on the composable system give insights into how the system works and evaluates the impact of various resource aggregations and reconfigurations on representative deep learning benchmarks.
翻訳日:2021-03-22 14:26:33 公開日:2021-03-19
# 任意出力帯域設定におけるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution in Arbitrary Input-Output Band Settings ( http://arxiv.org/abs/2103.10614v1 )

ライセンス: Link先を確認
Zhongyang Zhang, Zhiyang Xu, Zia Ahmed, Asif Salekin, Tauhidur Rahman(参考訳) スペクトル帯域が狭いハイパースペクトル画像(HSI)は、豊富なスペクトル情報をキャプチャし、多くのコンピュータビジョンタスクに適している。 HSIの基本的な限界の1つは空間分解能の低さであり、この問題に対処するための超解像(SR)に関する最近の研究がいくつか提案されている。 しかし、hsiカメラの多様性により、異なるカメラは異なるスペクトル応答関数と総チャネル数を持つ画像をキャプチャする。 既存のHSIデータセットは通常小さく、モデリングには不十分である。 入力帯域のピーク波長の任意の数でhsi画像を取り込み、任意の数の出力帯域のピーク波長で超解像したhsiを生成するメタラーニングベースの超解像モデルを提案する。 NTIRE2020 と ICVL データセットからバンドをサンプリングし,データセット間設定をシミュレートし,スペクトル補間と外挿を施した HSI SR を実行する。 すべてのサブデータセットに対して単一のmlsrモデルをトレーニングし、各サブデータセットの専用ベースラインモデルをトレーニングします。 その結果,提案手法は最先端HSI SR法と同等以上の性能を示した。

Hyperspectral images (HSIs) with narrow spectral bands can capture rich spectral information, making them suitable for many computer vision tasks. One of the fundamental limitations of HSI is its low spatial resolution, and several recent works on super-resolution(SR) have been proposed to tackle this challenge. However, due to HSI cameras' diversity, different cameras capture images with different spectral response functions and the number of total channels. The existing HSI datasets are usually small and consequently insufficient for modeling. We propose a Meta-Learning-Based Super-Resolution(MLS R) model, which can take in HSI images at an arbitrary number of input bands' peak wavelengths and generate super-resolved HSIs with an arbitrary number of output bands' peak wavelengths. We artificially create sub-datasets by sampling the bands from NTIRE2020 and ICVL datasets to simulate the cross-dataset settings and perform HSI SR with spectral interpolation and extrapolation on them. We train a single MLSR model for all sub-datasets and train dedicated baseline models for each sub-dataset. The results show the proposed model has the same level or better performance compared to the-state-of-the-art HSI SR methods.
翻訳日:2021-03-22 14:26:16 公開日:2021-03-19
# 胸部x線疾患分類のための変分知識蒸留

Variational Knowledge Distillation for Disease Classification in Chest X-Rays ( http://arxiv.org/abs/2103.10825v1 )

ライセンス: Link先を確認
Tom van Sonsbeek, Xiantong Zhen, Marcel Worring and Ling Shao(参考訳) 画像データのみに依存する疾患分類は、医用画像解析に大きな関心を惹きつける。 しかし、現在のモデルはさらに改良され、Electronic Health Records (EHRs) も採用され、患者の豊富な情報と臨床医の発見が含まれている。 EHRにおける臨床入力への依存度が高いため,この情報を疾患分類に組み込むことは困難であり,自動診断の可能性に限界がある。 本稿では,eersの知識を活用したx線に基づく疾患分類のための新しい確率的推論フレームワークである \textit{variational knowledge distillation} (vkd) を提案する。 具体的には、条件付き潜在変数モデルを導入し、関連するEHRテキスト上で、X線画像の潜時表現と変分後条件を推論する。 これにより、学習中に疾患に関連する視覚特徴を抽出し、x線スキャンのみに基づいて、未発見の患者に対してより正確な分類を行うことができる。 提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。 その結果,提案する変分知識蒸留は医用画像分類の性能を一貫して向上させ,現在の方法を大幅に上回ることがわかった。

Disease classification relying solely on imaging data attracts great interest in medical image analysis. Current models could be further improved, however, by also employing Electronic Health Records (EHRs), which contain rich information on patients and findings from clinicians. It is challenging to incorporate this information into disease classification due to the high reliance on clinician input in EHRs, limiting the possibility for automated diagnosis. In this paper, we propose \textit{variational knowledge distillation} (VKD), which is a new probabilistic inference framework for disease classification based on X-rays that leverages knowledge from EHRs. Specifically, we introduce a conditional latent variable model, where we infer the latent representation of the X-ray image with the variational posterior conditioning on the associated EHR text. By doing so, the model acquires the ability to extract the visual features relevant to the disease during learning and can therefore perform more accurate classification for unseen patients at inference based solely on their X-ray scans. We demonstrate the effectiveness of our method on three public benchmark datasets with paired X-ray images and EHRs. The results show that the proposed variational knowledge distillation can consistently improve the performance of medical image classification and significantly surpasses current methods.
翻訳日:2021-03-22 14:25:56 公開日:2021-03-19
# 慣性凝縮核融合の認知シミュレーションモデル:シミュレーションと実験データを組み合わせて

Cognitive simulation models for inertial confinement fusion: Combining simulation and experimental data ( http://arxiv.org/abs/2103.10590v1 )

ライセンス: Link先を確認
K. D. Humbird, J. L. Peterson, J. Salmonson, B. K. Spears(参考訳) 慣性閉じ込め核融合(ICF)実験のための設計空間は広く、実験は非常に高価である。 研究者は、高性能なインロジョンを探すために設計空間を探索するために、コンピューターシミュレーションに大きく依存している。 しかし、ICF多物理符号は仮定を単純化し、複雑なインロジョンの実験的な測定から逸脱させる必要がある。 より効果的な設計と調査のために、シミュレーションは過去の実験データからの入力を必要とする。 本研究では,シミュレーションと実験データを共通の予測モデルに組み合わせた認知シミュレーション手法について述べる。 この方法は、トランスファーラーニングと呼ばれる機械学習技術を利用して、1つのタスクを解くように訓練されたモデルを取り、それをスパースデータセットで部分的に再トレーニングして、異なるが関連するタスクを解決する。 ICF設計の文脈では、ニューラルネットワークモデルは大規模なシミュレーションデータベースで訓練され、実験データで部分的に再訓練され、シミュレーション単独よりもはるかに正確なモデルを生成する。 我々は,国立点火施設におけるICF実験のモデル性能の向上を実演し,いくつかの重要な観測対象に対して10%未満の誤差で最近の実験結果を予測する。 我々は、この方法がパフォーマンスを最適化するためのデータ駆動実験キャンペーンにどのように使われるかについて議論し、主要な製品 -- データが取得されるにつれてますます正確になるモデルを示す。

The design space for inertial confinement fusion (ICF) experiments is vast and experiments are extremely expensive. Researchers rely heavily on computer simulations to explore the design space in search of high-performing implosions. However, ICF multiphysics codes must make simplifying assumptions, and thus deviate from experimental measurements for complex implosions. For more effective design and investigation, simulations require input from past experimental data to better predict future performance. In this work, we describe a cognitive simulation method for combining simulation and experimental data into a common, predictive model. This method leverages a machine learning technique called transfer learning, the process of taking a model trained to solve one task, and partially retraining it on a sparse dataset to solve a different, but related task. In the context of ICF design, neural network models trained on large simulation databases and partially retrained on experimental data, producing models that are far more accurate than simulations alone. We demonstrate improved model performance for a range of ICF experiments at the National Ignition Facility, and predict the outcome of recent experiments with less than ten percent error for several key observables. We discuss how the methods might be used to carry out a data-driven experimental campaign to optimize performance, illustrating the key product -- models that become increasingly accurate as data is acquired.
翻訳日:2021-03-22 14:24:47 公開日:2021-03-19
# 逐次レコメンデーションのためのadversarial and contrastive variational autoencoder

Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation ( http://arxiv.org/abs/2103.10693v1 )

ライセンス: Link先を確認
Zhe Xie, Chengxuan Liu, Yichi Zhang, Hongtao Lu, Dong Wang and Yue Ding(参考訳) 新たなトピックとしての逐次推薦は、その重要な実践的重要性から注目が集まっている。 ディープラーニングとアテンションメカニズムに基づくモデルは、逐次推薦において優れたパフォーマンスを達成している。 近年、変分オートエンコーダ(VAE)に基づく生成モデルは、協調フィルタリングにおいてユニークな利点を示している。 特に、VAEの繰り返しバージョンとしてのシーケンシャルなVAEモデルは、ユーザシーケンス内のアイテム間の時間的依存関係を効果的にキャプチャし、シーケンシャルなレコメンデーションを実行することができる。 しかし、vaeに基づくモデルは、得られた近似後続分布の表現能力が制限され、結果として生成されたサンプルの品質が低下するという共通の限界に苦しむ。 これは特にシーケンスの生成に当てはまる。 そこで本研究では,逐次レコメンデーションのためのadversarial and contrastive variational autoencoder (acvae)という新しい手法を提案する。 具体的には、まず、逆変分ベイズ(AVB)フレームワークを用いて、逆数生成のための逆数学習を導入し、高品質な潜時変数を生成する。 そして、対照的な損失を生かします。 潜在変数は、コントラスト損失を最小化することで、よりパーソナライズされた特徴とサルエント特性を得ることができる。 さらに、シーケンスをエンコードする場合、シーケンス内の大域的および局所的な関係を捉えるために、再帰的および畳み込み的構造を適用する。 最後に,4つの実世界のデータセットについて広範な実験を行う。 実験の結果,ACVAEモデルは他の最先端手法よりも優れていた。

Sequential recommendation as an emerging topic has attracted increasing attention due to its important practical significance. Models based on deep learning and attention mechanism have achieved good performance in sequential recommendation. Recently, the generative models based on Variational Autoencoder (VAE) have shown the unique advantage in collaborative filtering. In particular, the sequential VAE model as a recurrent version of VAE can effectively capture temporal dependencies among items in user sequence and perform sequential recommendation. However, VAE-based models suffer from a common limitation that the representational ability of the obtained approximate posterior distribution is limited, resulting in lower quality of generated samples. This is especially true for generating sequences. To solve the above problem, in this work, we propose a novel method called Adversarial and Contrastive Variational Autoencoder (ACVAE) for sequential recommendation. Specifically, we first introduce the adversarial training for sequence generation under the Adversarial Variational Bayes (AVB) framework, which enables our model to generate high-quality latent variables. Then, we employ the contrastive loss. The latent variables will be able to learn more personalized and salient characteristics by minimizing the contrastive loss. Besides, when encoding the sequence, we apply a recurrent and convolutional structure to capture global and local relationships in the sequence. Finally, we conduct extensive experiments on four real-world datasets. The experimental results show that our proposed ACVAE model outperforms other state-of-the-art methods.
翻訳日:2021-03-22 14:24:25 公開日:2021-03-19
# PAMELI: 計算に要する多目的最適化問題のためのメタアルゴリズム

PAMELI: A Meta-Algorithm for Computationally Expensive Multi-Objective Optimization Problems ( http://arxiv.org/abs/2103.10736v1 )

ライセンス: Link先を確認
Santiago Cuervo, Miguel Melgarejo, Angie Blanco-Ca\~non, Laura Reyes-Fajardo, Sergio Rojas-Galeano(参考訳) 本稿では,計算コストの高い問題を多目的に最適化するアルゴリズムを提案する。 提案アルゴリズムは,実数モデルのモデルで定義される一連の代理問題の解法に基づいて,約Pareto-Optimalと推定される解のみを真に高価な関数を用いて評価する。 解の探索の他に,最適サロゲートモデルのためのメタ探索と最適化景観のためのナビゲーション戦略も行なっており,新たな情報が得られるにつれて解の探索戦略を問題に適用する。 本手法の競合性は,1つの最先端サーロゲート支援進化アルゴリズムによるベンチマーク問題に対する実験的比較によって実証される。

We present an algorithm for multi-objective optimization of computationally expensive problems. The proposed algorithm is based on solving a set of surrogate problems defined by models of the real one, so that only solutions estimated to be approximately Pareto-optimal are evaluated using the real expensive functions. Aside of the search for solutions, our algorithm also performs a meta-search for optimal surrogate models and navigation strategies for the optimization landscape, therefore adapting the search strategy for solutions to the problem as new information about it is obtained. The competitiveness of our approach is demonstrated by an experimental comparison with one state-of-the-art surrogate-assisted evolutionary algorithm on a set of benchmark problems.
翻訳日:2021-03-22 14:24:00 公開日:2021-03-19
# ustc-nelslip system description for dihard-iii challenge

USTC-NELSLIP System Description for DIHARD-III Challenge ( http://arxiv.org/abs/2103.10661v1 )

ライセンス: Link先を確認
Yuxuan Wang, Maokui He, Shutong Niu, Lei Sun, Tian Gao, Xin Fang, Jia Pan, Jun Du, Chin-Hui Lee(参考訳) 本稿では,第3回DIHARD音声ダイアリゼーションチャレンジへの提案システムについて述べる。 従来のクラスタリングベースシステムに加えて,音声分離やts-vad(target-speake r based voice activity detection)などのダイアリゼーション問題を解決するためのフロントエンド技術と,反復的なデータ浄化を組み合わせることで,システムの革新を実現した。 また,音声領域分類をドメイン依存処理の設計に適用した。 最後に,システム融合と選択のためのポスト処理を行った。 最良システムは, トラック1で11.30%, トラック2で16.78%, 評価セットでそれぞれ達成した。

This system description describes our submission system to the Third DIHARD Speech Diarization Challenge. Besides the traditional clustering based system, the innovation of our system lies in the combination of various front-end techniques to solve the diarization problem, including speech separation and target-speaker based voice activity detection (TS-VAD), combined with iterative data purification. We also adopted audio domain classification to design domain-dependent processing. Finally, we performed post processing to do system fusion and selection. Our best system achieved DERs of 11.30% in track 1 and 16.78% in track 2 on evaluation set, respectively.
翻訳日:2021-03-22 14:23:11 公開日:2021-03-19
# 逆ベルマン方程式によるDEC-POMDPのEMアルゴリズムの効率化

Forward and Backward Bellman equations improve the efficiency of EM algorithm for DEC-POMDP ( http://arxiv.org/abs/2103.10752v1 )

ライセンス: Link先を確認
Takehiro Tottori and Tetsuya J. Kobayashi(参考訳) decentralized partial observable markov decision process (dec-pomdp)はエージェントチームによるシーケンシャルな意思決定問題をモデル化する。 DEC-POMDPの計画は潜在変数モデルの最大推定として解釈できるため、EMアルゴリズムによりDEC-POMDPを解くことができる。 しかし、DEC-POMDPのEMでは、前向きのアルゴリズムは無限水平線まで計算され、計算効率を損なう必要がある。 本稿では,前方および後方のベルマン方程式をemに導入することにより,ベルマンemアルゴリズム(bem)と修正ベルマンemアルゴリズム(mbem)を提案する。 BEMは、無限の地平線まで前向きのアルゴリズムではなく、前向きのベルマン方程式と後向きのベルマン方程式を計算するため、BEMよりも効率的である。 しかし、BEMは逆行列を計算するため、問題のサイズが大きければ、BEMよりも常に効率的であるとは限らない。 逆行列を持たないベルマン方程式を計算し、MBEMにおけるこの欠点を回避する。 数値実験により,MBEMの収束はEMよりも速いことが示された。

Decentralized Partially Observable Markov Decision Process (DEC-POMDP) models sequential decision making problems by a team of agents. Since the planning of DEC-POMDP can be interpreted as the maximum likelihood estimation for the latent variable model, DEC-POMDP can be solved by EM algorithm. However, in EM for DEC-POMDP, the forward-backward algorithm needs to be calculated up to the infinite horizon, which impairs the computational efficiency. In this paper, we propose Bellman EM algorithm (BEM) and Modified Bellman EM algorithm (MBEM) by introducing the forward and backward Bellman equations into EM. BEM can be more efficient than EM because BEM calculates the forward and backward Bellman equations instead of the forward-backward algorithm up to the infinite horizon. However, BEM cannot always be more efficient than EM when the size of problems is large because BEM calculates an inverse matrix. We circumvent this shortcoming in MBEM by calculating the forward and backward Bellman equations without the inverse matrix. Our numerical experiments demonstrate that the convergence of MBEM is faster than that of EM.
翻訳日:2021-03-22 14:23:00 公開日:2021-03-19
# MAPE, 制御理論, 機械学習を組み合わせた適応システムの実現に向けて

Towards Better Adaptive Systems by Combining MAPE, Control Theory, and Machine Learning ( http://arxiv.org/abs/2103.10847v1 )

ライセンス: Link先を確認
Danny Weyns, Bradley Schmerl, Masako Kishida, Alberto Leva, Marin Litoiu, Necmiye Ozay, Colin Paterson, Kenji Tei(参考訳) 適応システムを構築するための2つの確立されたアプローチは、アーキテクチャモデル(別名知識)が適応を決定する理由となるMAPEループを使用するアーキテクチャベースの適応と、適応を実現するための制御理論(CT)の原則に依存する制御ベースの適応である。 近年、異なる適応メカニズムをサポートするために機械学習(ml)を適用することへの関心も急速に高まっている。 本論文では,MAPE と CT は独立して適用すべき特性と強度を有するが,これらのアプローチが相互にどのように関連し,それらをML と組み合わせてサポートすることにより,より優れた適応システムを実現するかという問題に対処する。 我々は、クラウドベースのエンタープライズシステムのシナリオを用いて、異なる適応アプローチを組み合わせる動機付け、異なるアプローチを組み合わせる際に分析を説明する。 結論として、この興味深い分野のさらなる研究のために、オープンな質問のセットを提供する。

Two established approaches to engineer adaptive systems are architecture-based adaptation that uses a Monitor-Analysis-Pla nning-Executing (MAPE) loop that reasons over architectural models (aka Knowledge) to make adaptation decisions, and control-based adaptation that relies on principles of control theory (CT) to realize adaptation. Recently, we also observe a rapidly growing interest in applying machine learning (ML) to support different adaptation mechanisms. While MAPE and CT have particular characteristics and strengths to be applied independently, in this paper, we are concerned with the question of how these approaches are related with one another and whether combining them and supporting them with ML can produce better adaptive systems. We motivate the combined use of different adaptation approaches using a scenario of a cloud-based enterprise system and illustrate the analysis when combining the different approaches. To conclude, we offer a set of open questions for further research in this interesting area.
翻訳日:2021-03-22 14:22:42 公開日:2021-03-19
# 浅部ReLUニューラルネットワークの景観解析:アフィン標的関数の臨界点の完全分類

Landscape analysis for shallow ReLU neural networks: complete classification of critical points for affine target functions ( http://arxiv.org/abs/2103.10922v1 )

ライセンス: Link先を確認
Patrick Cheridito, Arnulf Jentzen, Florian Rossmannek(参考訳) 本稿では,1つの隠れ層を持つreluニューラルネットワークの真の損失の風景を解析する。 対象関数がアフィンである場合の臨界点の完全な分類を提供する。 特に、局所ミニマ点とサドル点が特別な形式でなければならないことを証明し、局所極小が存在しないことを示す。 我々のアプローチは組み合わせ的な性質を持ち、reluニューラルネットワークで起こりうる様々な種類の隠れたニューロンを注意深く分析することに基づいている。

In this paper, we analyze the landscape of the true loss of a ReLU neural network with one hidden layer. We provide a complete classification of the critical points in the case where the target function is affine. In particular, we prove that local minima and saddle points have to be of a special form and show that there are no local maxima. Our approach is of a combinatorial nature and builds on a careful analysis of the different types of hidden neurons that can occur in a ReLU neural network.
翻訳日:2021-03-22 14:22:23 公開日:2021-03-19
# (参考訳) 高現実性仮想トライオンにおける絡み合ったサイクル一貫性 [全文訳有]

Disentangled Cycle Consistency for Highly-realistic Virtual Try-On ( http://arxiv.org/abs/2103.09479v2 )

ライセンス: CC BY 4.0
Chongjian Ge, Yibing Song, Yuying Ge, Han Yang, Wei Liu and Ping Luo(参考訳) Image Virtual try-onは、人画像上の服を、希望する着物画像に置き換える。 人とショップ内服がペアリングされていないため、難しいです。 既存の方法は、仮想トライオンをインペイントまたはサイクル一貫性として定式化する。 これら2つの定式化は、世代ネットワークが自己監督的な方法で入力画像を再構築することを奨励する。 しかし、既存の方法は衣服や非着用地域を区別しない。 ストレートフォワード生成は、画像内容が重結合しているため、仮想試行品質を損なう。 本稿では,DCTON(Disentangled Cycle-Consistency Try-On Network)を提案する。 DCTONは、衣服のワープ、皮膚合成、画像合成を含む仮想トライオンの重要なコンポーネントをアンサングルすることで、高現実的な試行画像を生成することができる。 この目的のために、DCTONはサイクル整合学習の後、自然に自己指導的に訓練することができる。 挑戦的なベンチマークに関する大規模な実験は、DCTONが最先端のアプローチより優れていることを示している。

Image virtual try-on replaces the clothes on a person image with a desired in-shop clothes image. It is challenging because the person and the in-shop clothes are unpaired. Existing methods formulate virtual try-on as either in-painting or cycle consistency. Both of these two formulations encourage the generation networks to reconstruct the input image in a self-supervised manner. However, existing methods do not differentiate clothing and non-clothing regions. A straight-forward generation impedes virtual try-on quality because of the heavily coupled image contents. In this paper, we propose a Disentangled Cycle-consistency Try-On Network (DCTON). The DCTON is able to produce highly-realistic try-on images by disentangling important components of virtual try-on including clothes warping, skin synthesis, and image composition. To this end, DCTON can be naturally trained in a self-supervised manner following cycle consistency learning. Extensive experiments on challenging benchmarks show that DCTON outperforms state-of-the-art approaches favorably.
翻訳日:2021-03-22 12:21:45 公開日:2021-03-19
# (参考訳) 系統分類学

Phylogenetic typology ( http://arxiv.org/abs/2103.10198v2 )

ライセンス: CC BY 4.0
Gerhard J\"ager and Johannes Wahle(参考訳) 本稿では,共通祖先による統計的非独立性を制御しながら,言語変数の頻度分布を推定する新しい手法を提案する。 従来の手法と異なり,本手法では,大規模かつ小規模の言語群から分離した言語群まで,データから推定される連続的なスケールで異なる関連度を制御しながら,すべての利用可能なデータを使用する。 まず、系統の分布は語彙データから推測される。 第二に、これらの系統はパラメータ状態間の遷移率を統計的に推定する統計モデルの一部として用いられる。 最後に、結果のマルコフ過程の長期平衡が計算される。 ケーススタディとして、世界中の言語にまたがる潜在的な単語順序相関について検討する。

In this article we propose a novel method to estimate the frequency distribution of linguistic variables while controlling for statistical non-independence due to shared ancestry. Unlike previous approaches, our technique uses all available data, from language families large and small as well as from isolates, while controlling for different degrees of relatedness on a continuous scale estimated from the data. Our approach involves three steps: First, distributions of phylogenies are inferred from lexical data. Second, these phylogenies are used as part of a statistical model to statistically estimate transition rates between parameter states. Finally, the long-term equilibrium of the resulting Markov process is computed. As a case study, we investigate a series of potential word-order correlations across the languages of the world.
翻訳日:2021-03-22 12:06:10 公開日:2021-03-19
# (参考訳) 目標指向対話エージェントにおける音声認識のための言語モデルの文脈バイアス [全文訳有]

Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents ( http://arxiv.org/abs/2103.10325v2 )

ライセンス: CC BY 4.0
Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff(参考訳) 目標指向の対話インタフェースは特定のタスクを達成するように設計されており、通常、事前に定義された構造と目標に固執する複数のターンにまたがる相互作用を持つ。 しかしながら、ASR(Automatic Speech Recognition)システムにおける従来のニューラル言語モデル(NLM)は、主に限られた文脈で訓練された文量である。 本稿では,長期依存をモデル化し,音声認識を改善するために,文脈をLSTMベースのNLMに組み込む方法について検討する。 具体的には、複数のターンにまたがってコンテキストを搬送し、自然言語理解(NLU)モデルからのシステムダイアログアクトや、チャットボットのユーザ提供構造などの語彙的コンテキストキューを使用する。 また,推測時間に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。 実験の結果, 目標指向音声データセット上での非テキストレベルのNLMレコーダよりも単語誤り率 (WER) が7%低下した。

Goal-oriented conversational interfaces are designed to accomplish specific tasks and typically have interactions that tend to span multiple turns adhering to a pre-defined structure and a goal. However, conventional neural language models (NLM) in Automatic Speech Recognition (ASR) systems are mostly trained sentence-wise with limited context. In this paper, we explore different ways to incorporate context into a LSTM based NLM in order to model long range dependencies and improve speech recognition. Specifically, we use context carry over across multiple turns and use lexical contextual cues such as system dialog act from Natural Language Understanding (NLU) models and the user provided structure of the chatbot. We also propose a new architecture that utilizes context embeddings derived from BERT on sample utterances provided during inference time. Our experiments show a word error rate (WER) relative reduction of 7% over non-contextual utterance-level NLM rescorers on goal-oriented audio datasets.
翻訳日:2021-03-22 12:05:02 公開日:2021-03-19
# (参考訳) ビットバック符号化を用いた状態空間モデルによるロスレス圧縮 [全文訳有]

Lossless compression with state space models using bits back coding ( http://arxiv.org/abs/2103.10150v2 )

ライセンス: CC0 1.0
James Townsend, Iain Murray(参考訳) 我々は'bits back with ans'法を潜在マルコフ構造を持つ時系列モデルに一般化する。 このモデル群には隠れマルコフモデル(hmms)、線形ガウス状態空間モデル(lgssms)などが含まれる。 本手法が小規模モデルに有効であることを実験的に証明し,ビデオ圧縮などの大規模設定への適用性について考察した。

We generalize the 'bits back with ANS' method to time-series models with a latent Markov structure. This family of models includes hidden Markov models (HMMs), linear Gaussian state space models (LGSSMs) and many more. We provide experimental evidence that our method is effective for small scale models, and discuss its applicability to larger scale settings such as video compression.
翻訳日:2021-03-22 11:55:16 公開日:2021-03-19
# AXM-Net:Person Re-IDのためのクロスモーダルコンテキスト共有アテンションネットワーク

AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID ( http://arxiv.org/abs/2101.08238v2 )

ライセンス: Link先を確認
Ammarah Farooq, Muhammad Awais, Josef Kittler, Syed Safwan Khalid(参考訳) クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。 鍵となる課題は、人に存在する意味情報に従ってモダリティ間の表現を調整し、背景情報を無視することである。 本稿では,意味的に整合した視覚表現とテキスト表現を学ぶために設計された新しいcnnベースのアーキテクチャであるaxm-netを提案する。 基盤となるビルディングブロックは、視覚とテキストのモダリティから来る複数の特徴マップストリームと、新しい学習可能なコンテキスト共有セマンティックアライメントネットワークで構成されている。 また,特徴のよりきめ細かな局所的詳細と,頑健な特徴マッチングのための相互親和性損失に焦点を合わせるために,相補的なモーダル内注意学習機構を提案する。 私たちの設計は、データから機能アライメントを暗黙的に学習できるという点でユニークです。 AXM-Net全体はエンドツーエンドでトレーニングできる。 人物検索とクロスモーダルなRe-IDタスクについて報告する。 大規模な実験により提案した枠組みを検証し,その優位性を示す。

Cross-modal person re-identification (Re-ID) is critical for modern video surveillance systems. The key challenge is to align inter-modality representations according to semantic information present for a person and ignore background information. In this work, we present AXM-Net, a novel CNN based architecture designed for learning semantically aligned visual and textual representations. The underlying building block consists of multiple streams of feature maps coming from visual and textual modalities and a novel learnable context sharing semantic alignment network. We also propose complementary intra modal attention learning mechanisms to focus on more fine-grained local details in the features along with a cross-modal affinity loss for robust feature matching. Our design is unique in its ability to implicitly learn feature alignments from data. The entire AXM-Net can be trained in an end-to-end manner. We report results on both person search and cross-modal Re-ID tasks. Extensive experimentation validates the proposed framework and demonstrates its superiority by outperforming the current state-of-the-art methods by a significant margin.
翻訳日:2021-03-22 11:28:37 公開日:2021-03-19
# ベトナムにおけるオープンドメインソーシャルメディアコメントに対する構成的・毒性的音声検出

Constructive and Toxic Speech Detection for Open-domain Social Media Comments in Vietnamese ( http://arxiv.org/abs/2103.10069v2 )

ライセンス: Link先を確認
Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ソーシャルメディアの普及は、オンラインフォーラムでのコメントの増加につながっている。 しかし、ユーザーには役に立たない不適切なコメントがいくつか残っている。 さらに、これらのコメントは人々にとって非常に有毒で有害です。 本稿では,1万件のコメントを付加した構築的・有害な音声検出用データセット,UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) を作成する。 これらの課題に対して,ベトナムのNLPにおける最先端の伝達学習モデルであるPhoBERTを用いた構築的・有害な音声検出システムを提案する。 本システムでは, 建設的コメントと有毒コメントを別々に同定し, 78.59%, 59.40%のF1スコアを得た。 さらに,データセットを客観的に評価するために,従来の機械学習モデルやディープニューラルネットワークベースモデルなど,さまざまなベースラインモデルを実装している。 結果から,オンライン議論の課題を解決し,ベトナムのソーシャルメディアコメントを自動的に識別する枠組みを開発することができた。

The rise of social media has led to the increasing of comments on online forums. However, there still exists some invalid comments which were not informative for users. Moreover, those comments are also quite toxic and harmful to people. In this paper, we create a dataset for classifying constructive and toxic speech detection, named UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) with 10,000 human-annotated comments. For these tasks, we proposed a system for constructive and toxic speech detection with the state-of-the-art transfer learning model in Vietnamese NLP as PhoBERT. With this system, we achieved 78.59% and 59.40% F1-score for identifying constructive and toxic comments separately. Besides, to have an objective assessment for the dataset, we implement a variety of baseline models as traditional Machine Learning and Deep Neural Network-Based models. With the results, we can solve some problems on the online discussions and develop the framework for identifying constructiveness and toxicity Vietnamese social media comments automatically.
翻訳日:2021-03-22 11:07:49 公開日:2021-03-19
# ボールの回収・攻撃予測モデルに基づくサッカーチームディフェンスの評価

Evaluation of soccer team defense based on prediction models of ball recovery and being attacked ( http://arxiv.org/abs/2103.09627v2 )

ライセンス: Link先を確認
Kosuke Toda, Masakiyo Teranishi, Keisuke Kushiro, Keisuke Fujii(参考訳) 計測技術の発展に伴い,各種スポーツにおける実技の動きに関するデータが利用可能となり,戦術・戦略の計画・評価に使用されることが期待される。 特に、チームスポーツにおける防御は、統計データが不足しているため、一般に評価が難しい。 スコアの予測に基づく従来の評価方法は信頼性が低く、ゲーム全体を通して稀な事象を予測しており、スコアに至る様々なプレーを評価することは困難である。 一方で、得点や支配的な地域につながる特定のプレーに基づく評価手法は、プレイヤーやチームのパフォーマンス(例えば得点)を評価するのに不適格な場合もある。 本研究では,すべての選手とボールの位置データを用いて,ゴールよりも頻繁に発生する球の回復と攻撃の予測に基づいて,チームパフォーマンスに関する包括的視点からチーム防御を評価する手法を提案する。 サッカー45試合のデータを用いて,実試合およびシーズンを通して,提案する指標とチームパフォーマンスの関係について検討した。 その結果、提案する分類器は、希少な事象(すなわち目標)に基づく既存の分類器よりも正確な真の事象を予測できることがわかった。 また,提案指標は季節の長期成績と適度な相関を示した。 これらの結果から,提案指標は偶発的要因を伴って勝敗よりも信頼性の高い指標である可能性が示唆された。

With the development of measurement technology, data on the movements of actual games in various sports are available and are expected to be used for planning and evaluating the tactics and strategy. In particular, defense in team sports is generally difficult to be evaluated because of the lack of statistical data. Conventional evaluation methods based on predictions of scores are considered unreliable and predict rare events throughout the entire game, and it is difficult to evaluate various plays leading up to a score. On the other hand, evaluation methods based on certain plays that lead to scoring and dominant regions are sometimes unsuitable to evaluate the performance (e.g., goals scored) of players and teams. In this study, we propose a method to evaluate team defense from a comprehensive perspective related to team performance based on the prediction of ball recovery and being attacked, which occur more frequently than goals, using player actions and positional data of all players and the ball. Using data from 45 soccer matches, we examined the relationship between the proposed index and team performance in actual matches and throughout a season. Results show that the proposed classifiers more accurately predicted the true events than the existing classifiers which were based on rare events (i.e., goals). Also, the proposed index had a moderate correlation with the long-term outcomes of the season. These results suggest that the proposed index might be a more reliable indicator rather than winning or losing with the inclusion of accidental factors.
翻訳日:2021-03-22 11:07:34 公開日:2021-03-19
# デンマークのfungi 2020 - 単なる画像認識データセットではない

Danish Fungi 2020 -- Not Just Another Image Recognition Dataset ( http://arxiv.org/abs/2103.10107v2 )

ライセンス: Link先を確認
Luk\'a\v{s} Picek, Milan \v{S}ulc, Ji\v{r}\'i Matas, Jacob Heilmann-Clausen, Thomas S. Jeppesen, Thomas L{\ae}ss{\o}e, Tobias Fr{\o}slev(参考訳) 我々は,新しい細粒度データセットとベンチマークであるdanish fungi 2020 (df20) を紹介する。 このデータセットはデンマークの菌類アトラスに提出された観測から構築され、その分類学的精度の高いクラスラベル、少数のエラー、高度に不均衡な長い尾を持つクラス分布、豊富な観察メタデータ、そして明確に定義されたクラス階層に特有である。 df20はimagenetと重複しないため、imagenetの公開チェックポイントから微調整されたモデルの偏りのない比較が可能になる。 提案した評価プロトコルはメタデータを使って分類を改善することができる。 正確な地理的位置、生息地、および基板は、分類器の校正テストを促進し、最終的にデバイス設定が分類性能に与える影響を研究することができる。 畳み込みニューラルネットワーク(CNN)と最近のビジョントランスフォーマー(ViT)を用いた実験は、DF20が難しい課題であることを示している。 興味深いことに、ViTは81.25%の精度でCNNベースラインよりも優れており、CNNエラーを13%削減している。 決定プロセスにメタデータを含めるベースライン手順は、分類精度を3.5ポイント以上向上させ、エラー率を20%削減する。 すべてのメソッドと実験のソースコードは、https://sites.google .com/view/danish-fun gi-datasetで入手できる。

We introduce a novel fine-grained dataset and benchmark, the Danish Fungi 2020 (DF20). The dataset, constructed from observations submitted to the Danish Fungal Atlas, is unique in its taxonomy-accurate class labels, small number of errors, highly unbalanced long-tailed class distribution, rich observation metadata, and well-defined class hierarchy. DF20 has zero overlap with ImageNet, allowing unbiased comparison of models fine-tuned from publicly available ImageNet checkpoints. The proposed evaluation protocol enables testing the ability to improve classification using metadata -- e.g. precise geographic location, habitat, and substrate, facilitates classifier calibration testing, and finally allows to study the impact of the device settings on the classification performance. Experiments using Convolutional Neural Networks (CNN) and the recent Vision Transformers (ViT) show that DF20 presents a challenging task. Interestingly, ViT achieves results superior to CNN baselines with 81.25% accuracy, reducing the CNN error by 13%. A baseline procedure for including metadata into the decision process improves the classification accuracy by more than 3.5 percentage points, reducing the error rate by 20%. The source code for all methods and experiments is available at https://sites.google .com/view/danish-fun gi-dataset.
翻訳日:2021-03-22 11:07:13 公開日:2021-03-19