このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200523となっている論文です。

PDF登録状況(公開日: 20200523)

TitleAuthorsAbstract論文公表日・翻訳日
# 植物育種における親の収量予測 : ニューラル・コラボレーティブ・フィルタリングによるアプローチ

Predicting Yield Performance of Parents in Plant Breeding: A Neural Collaborative Filtering Approach ( http://arxiv.org/abs/2001.09902v2 )

ライセンス: Link先を確認
Saeed Khaki, Zahra Khalilzadeh and Lizhi Wang(参考訳) 実験トウモロコシハイブリッドは、2人の親、いわゆるインブレッドとテスタを一緒に交配することで、植物の育種プログラムで作られる。 親のクロス組み合わせの総数は膨大であり、時間と予算の限られた資源のため、可能なクロス組み合わせのすべてをテストすることは不可能であるため、交差のための最良の親の組み合わせの同定は困難である。 2020年のSyngenta Crop Challengeで、Syngenta氏は、2016年から2018年の間に280箇所に植えられた593のブラインドと496人のテスタの合計クロスの組み合わせの約4%の履歴収率パフォーマンスを記録し、他のブラインドやテスタから収集した履歴収率データに基づいて、植えられていないブラインドとテスタのクロス組み合わせの収率パフォーマンスを予測するよう参加者に求めた。 本稿では,この問題を解決するために,行列分解法とニューラルネットワークを組み合わせた協調フィルタリング法を提案する。 計算結果から,提案モデルがラッソ,ランダムフォレスト(rf),ニューラルネットワークなど他のモデルを大きく上回っていることが示唆された。 提案手法と結果は2020年シンジェンタ・クロップチャレンジで得られた。

Experimental corn hybrids are created in plant breeding programs by crossing two parents, so-called inbred and tester, together. Identification of best parent combinations for crossing is challenging since the total number of possible cross combinations of parents is large and it is impractical to test all possible cross combinations due to limited resources of time and budget. In the 2020 Syngenta Crop Challenge, Syngenta released several large datasets that recorded the historical yield performances of around 4% of total cross combinations of 593 inbreds with 496 testers which were planted in 280 locations between 2016 and 2018 and asked participants to predict the yield performance of cross combinations of inbreds and testers that have not been planted based on the historical yield data collected from crossing other inbreds and testers. In this paper, we present a collaborative filtering method which is an ensemble of matrix factorization method and neural networks to solve this problem. Our computational results suggested that the proposed model significantly outperformed other models such as LASSO, random forest (RF), and neural networks. Presented method and results were produced within the 2020 Syngenta Crop Challenge.
翻訳日:2023-01-06 07:59:29 公開日:2020-05-23
# 効率的な深部画像圧縮のための統一エンドツーエンドフレームワーク

A Unified End-to-End Framework for Efficient Deep Image Compression ( http://arxiv.org/abs/2002.03370v3 )

ライセンス: Link先を確認
Jiaheng Liu, Guo Lu, Zhihao Hu, Dong Xu(参考訳) 画像圧縮は画像の空間的冗長性を低減するために広く用いられている手法である。 近年,ニューラルネットワークの強力な表現能力を用いて,学習に基づく画像圧縮が大きな進歩を遂げている。 しかし、現在の最先端の学習ベースの画像圧縮手法は、実用的応用能力を制限する膨大な計算コストに苦しむ。 本稿では,チャネルアテンションモジュール,ガウス混合モデル,デコーダ側エンハンスメントモジュールといった3つの新しい技術に基づく,効率的な深部画像圧縮(edic)と呼ばれる統一フレームワークを提案する。 具体的には,画像圧縮を学習するための自動エンコーダ方式ネットワークを設計する。 符号化効率を向上させるために,チャネルアテンションモジュールを用いて潜在表現間のチャネル関係を利用する。 さらに、エントロピーモデルに対してガウス混合モデルを導入し、ビットレート推定の精度を向上させる。 さらに,画像圧縮性能をさらに向上させるデコーダ側強調モジュールを導入する。 EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。 同時に, edic法は, 計算コストをわずかに高めながら, 符号化性能を著しく向上させる。 さらに,提案手法が現在の最先端画像圧縮法より優れており,Minnen法と比較して復号速度の150倍以上高速であることを示す実験結果が得られた。 提案フレームワークは,最新のディープビデオ圧縮システムDVCの性能向上にも成功している。 私たちのコードはhttps://github.com/liujiaheng/compressionでリリースします。

Image compression is a widely used technique to reduce the spatial redundancy in images. Recently, learning based image compression has achieved significant progress by using the powerful representation ability from neural networks. However, the current state-of-the-art learning based image compression methods suffer from the huge computational cost, which limits their capacity for practical applications. In this paper, we propose a unified framework called Efficient Deep Image Compression (EDIC) based on three new technologies, including a channel attention module, a Gaussian mixture model and a decoder-side enhancement module. Specifically, we design an auto-encoder style network for learning based image compression. To improve the coding efficiency, we exploit the channel relationship between latent representations by using the channel attention module. Besides, the Gaussian mixture model is introduced for the entropy model and improves the accuracy for bitrate estimation. Furthermore, we introduce the decoder-side enhancement module to further improve image compression performance. Our EDIC method can also be readily incorporated with the Deep Video Compression (DVC) framework to further improve the video compression performance. Simultaneously, our EDIC method boosts the coding performance significantly while bringing slightly increased computational cost. More importantly, experimental results demonstrate that the proposed approach outperforms the current state-of-the-art image compression methods and is up to more than 150 times faster in terms of decoding speed when compared with Minnen's method. The proposed framework also successfully improves the performance of the recent deep video compression system DVC. Our code will be released at https://github.com/liujiaheng/compression.
翻訳日:2023-01-02 14:53:06 公開日:2020-05-23
# PointHop++: 3D分類のためのポイントセットの軽量学習モデル

PointHop++: A Lightweight Learning Model on Point Sets for 3D Classification ( http://arxiv.org/abs/2002.03281v2 )

ライセンス: Link先を確認
Min Zhang, Yifan Wang, Pranav Kadam, Shan Liu and C.-C. Jay Kuo(参考訳) ポイントホップ法は、Zhangらによって、教師なし特徴抽出を伴う3Dポイントクラウド分類のために提案された。 最先端の分類性能を達成しつつ、トレーニングの複雑さが極めて低い。 本稿では,pointhop法をさらに2つの側面で改善する。 1)モデルパラメータ数とモデル複雑度を減少させる。 2)クロスエントロピー基準に基づく識別特徴の自動順序付け。 このメソッドはPointHop++と呼ばれる。 第1の改善はウェアラブルとモバイルコンピューティングに不可欠であり,第2の改善は統計ベースと最適化ベースの機械学習方法論を橋渡しするものだ。 ModelNet40ベンチマークデータセットで行った実験により、PointHop++メソッドがディープニューラルネットワーク(DNN)ソリューションと同等に動作し、他の教師なし特徴抽出方法を上回る性能を示す。

The PointHop method was recently proposed by Zhang et al. for 3D point cloud classification with unsupervised feature extraction. It has an extremely low training complexity while achieving state-of-the-art classification performance. In this work, we improve the PointHop method furthermore in two aspects: 1) reducing its model complexity in terms of the model parameter number and 2) ordering discriminant features automatically based on the cross-entropy criterion. The resulting method is called PointHop++. The first improvement is essential for wearable and mobile computing while the second improvement bridges statistics-based and optimization-based machine learning methodologies. With experiments conducted on the ModelNet40 benchmark dataset, we show that the PointHop++ method performs on par with deep neural network (DNN) solutions and surpasses other unsupervised feature extraction methods.
翻訳日:2023-01-02 14:27:03 公開日:2020-05-23
# 極端領域解析に基づく欠陥検出のためのディープラーニングフレームワーク

Extremal Region Analysis based Deep Learning Framework for Detecting Defects ( http://arxiv.org/abs/2003.08525v2 )

ライセンス: Link先を確認
Zelin Deng, Xiaolong Yan, Shengjun Zhang, Colleen P. Bailey(参考訳) 本稿では,最大安定極性領域(MSER)解析に基づく統一欠陥検出フレームワークのための畳み込みニューラルネットワーク(CNN)を提案する。 提案フレームワークは,MSERの汎用性と安定性を利用して,所望の欠陥候補を生成する。 そして、欠陥候補に対して特定の訓練済みバイナリcnn分類器を採用し、最終欠陥セットを生成する。 さまざまなカテゴリの欠陥データセットが,実験で使用されている。 より一般的に、MSERのパラメータ設定は、様々な業界(高精度、高いリコールなど)の異なる要件を満たすように調整できる。 広範な実験結果から,提案手法の有効性が示された。

A maximally stable extreme region (MSER) analysis based convolutional neural network (CNN) for unified defect detection framework is proposed in this paper. Our proposed framework utilizes the generality and stability of MSER to generate the desired defect candidates. Then a specific trained binary CNN classifier is adopted over the defect candidates to produce the final defect set. Defect datasets over different categories \blue{are used} in the experiments. More generally, the parameter settings in MSER can be adjusted to satisfy different requirements in various industries (high precision, high recall, etc). Extensive experimental results have shown the efficacy of the proposed framework.
翻訳日:2022-12-22 04:41:39 公開日:2020-05-23
# Span-based Question Answeringのための多人数対話における階層的文脈学習のためのトランスフォーマー

Transformers to Learn Hierarchical Contexts in Multiparty Dialogue for Span-based Question Answering ( http://arxiv.org/abs/2004.03561v2 )

ライセンス: Link先を確認
Changmao Li, Jinho D. Choi(参考訳) 多人数対話における階層表現を学習するトランスフォーマーに新しいアプローチを導入する。 まず、3つの言語モデリングタスクを使用して、トークンレベルの言語モデリングと発話順序予測を事前学習し、トークンと発話の埋め込みの両方を学び、会話コンテキストの理解を深める。 次に、発話予測とトークンスパン予測とのマルチタスク学習を、スパンベースの質問応答(QA)のためのファインチューンに適用する。 このアプローチはFriendsQAデータセットに基づいて評価され,最先端トランスフォーマモデルであるBERTとRoBERTaに対して3.8%と1.4%の改善が見られた。

We introduce a novel approach to transformers that learns hierarchical representations in multiparty dialogue. First, three language modeling tasks are used to pre-train the transformers, token- and utterance-level language modeling and utterance order prediction, that learn both token and utterance embeddings for better understanding in dialogue contexts. Then, multi-task learning between the utterance prediction and the token span prediction is applied to fine-tune for span-based question answering (QA). Our approach is evaluated on the FriendsQA dataset and shows improvements of 3.8% and 1.4% over the two state-of-the-art transformer models, BERT and RoBERTa, respectively.
翻訳日:2022-12-15 22:37:45 公開日:2020-05-23
# CovidSens:COVID-19の信頼性の高いソーシャルセンシング

CovidSens: A Vision on Reliable Social Sensing for COVID-19 ( http://arxiv.org/abs/2004.04565v3 )

ライセンス: Link先を確認
Md Tahmid Rashid, Dong Wang(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、この病気の正確なタイムリーな情報を広めることが本質的に重要になっている。 インターネット接続とスマートデバイスの普及により、ソーシャルセンシングは、オンラインユーザーからリアルタイムな観察を抽出する、動的AI駆動型センシングパラダイムとして登場しつつある。 本稿では,社会センシングに基づくリスクアラートシステムのビジョンであるcovid-19sensを提案する。 CovidSensは、新型コロナウイルス(COVID-19)の感染拡大を一般大衆に知らせ、リスクの高い地域を特定するのに積極的に役立つ。 CovidSensの概念は、3つの観測によって動機付けられている。 1)オンラインソーシャルメディアを通じて新型コロナウイルスの経験を積極的に共有する人々 2)公式の警告チャンネルや報道機関は、ソーシャルメディアで報告する人よりも比較的遅い。 3) オンラインユーザはデータ処理や分析を行う強力なモバイルデバイスを頻繁に備えている。 我々は、一般人が生み出すポストを利用して、新型コロナウイルスの伝播データを収集・循環するリアルタイムセンシング・分析システムを構築する前例のない機会を期待する。 特に、covid-19sensのビジョンは、次のような質問に答えようとしている。 タイムリーかつ効果的に拡散の状況を一般大衆に知らせるにはどうすればいいのか。 エッジデバイス上の計算能力を活用して、エッジベースのソーシャルセンシングプラットフォームを完全に構築するには、どうすればよいのか? 本稿では,CovidSensの役割を論じ,信頼性の高いソーシャルセンシングに基づくリスク警告システムの開発における潜在的な課題を明らかにする。 我々は、複数の分野から派生したアプローチが、これらの課題に効果的に対処できることを想定する。 最後に,CovidSensにおける今後の研究の方向性について概説する。

With the spiraling pandemic of the Coronavirus Disease 2019 (COVID-19), it has becoming inherently important to disseminate accurate and timely information about the disease. Due to the ubiquity of Internet connectivity and smart devices, social sensing is emerging as a dynamic AI-driven sensing paradigm to extract real-time observations from online users. In this paper, we propose CovidSens, a vision of social sensing based risk alert systems to spontaneously obtain and analyze social data to infer COVID-19 propagation. CovidSens can actively help to keep the general public informed about the COVID-19 spread and identify risk-prone areas. The CovidSens concept is motivated by three observations: 1) people actively share their experience of COVID-19 via online social media, 2) official warning channels and news agencies are relatively slower than people reporting on social media, and 3) online users are frequently equipped with powerful mobile devices that can perform data processing and analytics. We envision unprecedented opportunities to leverage posts generated by ordinary people to build real-time sensing and analytic system for gathering and circulating COVID-19 propagation data. Specifically, the vision of CovidSens attempts to answer the questions: How to distill reliable information on COVID-19 with prevailing rumors and misinformation? How to inform the general public about the state of the spread timely and effectively? How to leverage the computational power on edge devices to construct fully integrated edge-based social sensing platforms? In this vision paper, we discuss the roles of CovidSens and identify potential challenges in developing reliable social sensing based risk alert systems. We envision that approaches originating from multiple disciplines can be effective in addressing the challenges. Finally, we outline a few research directions for future work in CovidSens.
翻訳日:2022-12-15 03:31:37 公開日:2020-05-23
# 医療表データの分類とリスク予測の不確実性推定

Uncertainty estimation for classification and risk prediction on medical tabular data ( http://arxiv.org/abs/2004.05824v2 )

ライセンス: Link先を確認
Lotta Meijerink, Giovanni Cin\`a, Michele Tonutti (Pacmed)(参考訳) モデルがまれな状態の患者に予測を提供するヘルスケアのようなデータ収集分野において、モデルの予測の不確実性を測定する能力は、意思決定支援ツールの有効性向上とユーザー信頼の向上につながる可能性がある。 本研究は,医療用表データにおける分類の不確実性推定とリスク予測を2倍の方法で理解する。 まず,不確実性推定手法を選択するためのヒューリスティックスセットを拡張し,改良し,稀な病理の一般化や臨床プロトコルの変化,腐敗したデータのシミュレーションなど,臨床的に関連するシナリオに対するテストを導入する。 さらに臨床症例に応じてこれらのヒューリスティックスを区別する。 第2に,自動エンコーダによってよりうまく実行される重要な課題であるドメイン外サンプルの検出において,アンサンブルや関連技術が不十分であることを示す。 これらの発言は、クラス不均衡による不確実性推定の相互作用、モデリング後のキャリブレーション、その他のモデリング手順などを考慮することで強化される。 我々の研究結果は、おもちゃと現実世界のデータに関する一連の実験によって裏付けられている。

In a data-scarce field such as healthcare, where models often deliver predictions on patients with rare conditions, the ability to measure the uncertainty of a model's prediction could potentially lead to improved effectiveness of decision support tools and increased user trust. This work advances the understanding of uncertainty estimation for classification and risk prediction on medical tabular data, in a two-fold way. First, we expand and refine the set of heuristics to select an uncertainty estimation technique, introducing tests for clinically-relevant scenarios such as generalization to uncommon pathologies, changes in clinical protocol and simulations of corrupted data. We furthermore differentiate these heuristics depending on the clinical use-case. Second, we observe that ensembles and related techniques perform poorly when it comes to detecting out-of-domain examples, a critical task which is carried out more successfully by auto-encoders. These remarks are enriched by considerations of the interplay of uncertainty estimation with class imbalance, post-modeling calibration and other modeling procedures. Our findings are supported by an array of experiments on toy and real-world data.
翻訳日:2022-12-13 23:16:31 公開日:2020-05-23
# FLAT:Flat-Lattice Transformerを用いた中国のNER

FLAT: Chinese NER Using Flat-Lattice Transformer ( http://arxiv.org/abs/2004.11795v2 )

ライセンス: Link先を確認
Xiaonan Li, Hang Yan, Xipeng Qiu, Xuanjing Huang(参考訳) 近年,中国語名空間認識(ner)において,単語情報を取り込むことで文字文字格子構造が有効であることが証明されている。 しかし、格子構造は複雑で動的であるため、既存の格子モデルのほとんどはGPUの並列計算を完全に活用することは困難であり、通常は推論速度は低い。 本稿では,格子構造をスパンからなる平坦な構造に変換する,中国語ner用フラットラティストランスを提案する。 各スパンは、文字または潜在単語とその元の格子における位置に対応する。 Transformerのパワーとよく設計された位置符号化により、FLATは格子情報を完全に活用でき、優れた並列化能力を有する。 4つのデータセットの実験では、FLATは他のレキシコンベースのモデルよりも性能と効率が優れていた。

Recently, the character-word lattice structure has been proved to be effective for Chinese named entity recognition (NER) by incorporating the word information. However, since the lattice structure is complex and dynamic, most existing lattice-based models are hard to fully utilize the parallel computation of GPUs and usually have a low inference-speed. In this paper, we propose FLAT: Flat-LAttice Transformer for Chinese NER, which converts the lattice structure into a flat structure consisting of spans. Each span corresponds to a character or latent word and its position in the original lattice. With the power of Transformer and well-designed position encoding, FLAT can fully leverage the lattice information and has an excellent parallelization ability. Experiments on four datasets show FLAT outperforms other lexicon-based models in performance and efficiency.
翻訳日:2022-12-10 03:34:09 公開日:2020-05-23
# MATINF: 分類、質問回答、要約のための共同ラベル付き大規模データセット

MATINF: A Jointly Labeled Large-Scale Dataset for Classification, Question Answering and Summarization ( http://arxiv.org/abs/2004.12302v2 )

ライセンス: Link先を確認
Canwen Xu and Jiaxin Pei and Hongtao Wu and Yiyu Liu and Chenliang Li(参考訳) 近年、大規模データセットは自然言語処理のほぼすべての領域で開発を大いに促進している。 しかし、現在NLPにはクロスタスクデータセットは存在せず、マルチタスク学習の開発を妨げている。 分類,質問応答,要約のための,最初の共同ラベル付き大規模データセットであるMATINFを提案する。 MATINFには、人間ラベル付きカテゴリとユーザ生成の質問記述を備えた1億7700万の質問回答ペアが含まれている。 このような豊富な情報に基づいて、MATINFは分類、質問応答、要約を含む3つの主要なNLPタスクに適用できる。 我々は、MATINF上で既存の手法と新しいマルチタスクベースラインをベンチマークし、さらなる研究を促す。 MATINFや他のデータセットに対する包括的な比較実験は、MATINFが持つメリットを実証している。

Recently, large-scale datasets have vastly facilitated the development in nearly all domains of Natural Language Processing. However, there is currently no cross-task dataset in NLP, which hinders the development of multi-task learning. We propose MATINF, the first jointly labeled large-scale dataset for classification, question answering and summarization. MATINF contains 1.07 million question-answer pairs with human-labeled categories and user-generated question descriptions. Based on such rich information, MATINF is applicable for three major NLP tasks, including classification, question answering, and summarization. We benchmark existing methods and a novel multi-task baseline over MATINF to inspire further research. Our comprehensive comparison and experiments over MATINF and other datasets demonstrate the merits held by MATINF.
翻訳日:2022-12-09 13:08:49 公開日:2020-05-23
# ロボット産業導入作業のためのメタ強化学習

Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks ( http://arxiv.org/abs/2004.14404v2 )

ライセンス: Link先を確認
Gerrit Schoettler, Ashvin Nair, Juan Aparicio Ojea, Sergey Levine, Eugen Solowjow(参考訳) ロボットの挿入作業は接触機構と摩擦機構が特徴であり、非モデル化された物理的効果のために従来のフィードバック制御手法では困難である。 強化学習(rl)は、このような環境で制御ポリシーを学ぶための有望なアプローチである。 しかし、RLは探査中は安全ではなく、収集に費用がかかる大量の実世界のトレーニングデータを必要とする可能性がある。 本稿では, メタ強化学習を用いて, 模擬産業挿入タスクのファミリーを解くことで, シミュレーションの課題の大部分を解決し, 実世界での政策を迅速に適応させる方法について検討する。 実世界の経験を20回未満の試行で実世界の挿入作業に挑戦するエージェントを訓練することで,我々のアプローチを実証する。 ビデオやその他の資料はhttps://pearl-insertion.github.io/で入手できる。

Robotic insertion tasks are characterized by contact and friction mechanics, making them challenging for conventional feedback control methods due to unmodeled physical effects. Reinforcement learning (RL) is a promising approach for learning control policies in such settings. However, RL can be unsafe during exploration and might require a large amount of real-world training data, which is expensive to collect. In this paper, we study how to use meta-reinforcement learning to solve the bulk of the problem in simulation by solving a family of simulated industrial insertion tasks and then adapt policies quickly in the real world. We demonstrate our approach by training an agent to successfully perform challenging real-world insertion tasks using less than 20 trials of real-world experience. Videos and other material are available at https://pearl-insertion.github.io/
翻訳日:2022-12-08 14:37:45 公開日:2020-05-23
# 病院入所予測における騒音汚染:強化学習による長期文書分類

Noise Pollution in Hospital Readmission Prediction: Long Document Classification with Reinforcement Learning ( http://arxiv.org/abs/2005.01259v2 )

ライセンス: Link先を確認
Liyan Xu, Julien Hogan, Rachel E. Patzer and Jinho D. Choi(参考訳) 本稿では,腎移植後の可読性予測のための長期臨床文書中のノイズ抽出のための強化学習手法を提案する。 我々は、各文書が表文やタスクに関係のない文を含むノイズの多い10万以上のトークンで構成される小さなデータセット上で、堅牢なモデルを開発するという課題に直面している。 まず4種類のエンコーダを実験し,最善の文書表現を経験的に決定し,ノイズ抽出過程を逐次的決定問題としてモデル化した長文からノイズ文を除去するために強化学習を適用した。 以上の結果から,従来の単語エンコーダは,このタスクにおいて深層学習に基づくエンコーダよりも優れており,強化学習は25%のテキストセグメントを抽出しながらベースラインを改善することができることがわかった。 分析の結果,強化学習は典型的なノイズトークンとタスク固有のノイズテキストの両方を識別できることがわかった。

This paper presents a reinforcement learning approach to extract noise in long clinical documents for the task of readmission prediction after kidney transplant. We face the challenges of developing robust models on a small dataset where each document may consist of over 10K tokens with full of noise including tabular text and task-irrelevant sentences. We first experiment four types of encoders to empirically decide the best document representation, and then apply reinforcement learning to remove noisy text from the long documents, which models the noise extraction process as a sequential decision problem. Our results show that the old bag-of-words encoder outperforms deep learning-based encoders on this task, and reinforcement learning is able to improve upon baseline while pruning out 25% text segments. Our analysis depicts that reinforcement learning is able to identify both typical noisy tokens and task-specific noisy text.
翻訳日:2022-12-07 00:01:34 公開日:2020-05-23
# ニューラルネットワークモデルにおける構文一般化の体系的評価

A Systematic Assessment of Syntactic Generalization in Neural Language Models ( http://arxiv.org/abs/2005.03692v2 )

ライセンス: Link先を確認
Jennifer Hu, Jon Gauthier, Peng Qian, Ethan Wilcox, Roger P. Levy(参考訳) 最先端のニューラルネットワークモデルは、言語モデリングベンチマークで低いパープレキシティスコアを達成し続けているが、広範囲な予測性能の最適化が人間のような構文知識につながるかどうかは不明だ。 さらに、既存の研究は、適切な構文的一般化を生成するために必要なモデル特性について明確な図面を提供していない。 本稿では,言語モデルの統語的知識を体系的に評価し,34組の英語統語的テストスイート上で20種類のモデルタイプとデータサイズの組み合わせをテストした。 我々は,逐次モデルが他のアーキテクチャを過小評価しながら,モデルアーキテクチャによる構文一般化性能に著しい違いを見出した。 モデルアーキテクチャとトレーニングデータセットサイズ(1M-40Mワード)を要因的に操作すると,構文一般化性能のばらつきは,実験で検証したコーパスのデータセットサイズよりもはるかに大きいことがわかった。 また,パープレキシティと構文一般化性能の相関関係も明らかにした。

While state-of-the-art neural network models continue to achieve lower perplexity scores on language modeling benchmarks, it remains unknown whether optimizing for broad-coverage predictive performance leads to human-like syntactic knowledge. Furthermore, existing work has not provided a clear picture about the model properties required to produce proper syntactic generalizations. We present a systematic evaluation of the syntactic knowledge of neural language models, testing 20 combinations of model types and data sizes on a set of 34 English-language syntactic test suites. We find substantial differences in syntactic generalization performance by model architecture, with sequential models underperforming other architectures. Factorially manipulating model architecture and training dataset size (1M--40M words), we find that variability in syntactic generalization performance is substantially greater by architecture than by dataset size for the corpora tested in our experiments. Our results also reveal a dissociation between perplexity and syntactic generalization performance.
翻訳日:2022-12-05 23:25:49 公開日:2020-05-23
# アクティブメトリック学習のためのバッチデコレーション

Batch Decorrelation for Active Metric Learning ( http://arxiv.org/abs/2005.10008v2 )

ライセンス: Link先を確認
Priyadarshini K, Ritesh Goru, Siddhartha Chaudhuri and Subhasis Chaudhuri(参考訳) オブジェクト $x_i$ はオブジェクト $x_j$ よりもオブジェクト $x_k$ に近い。 基本的な目標が分類であり、暗黙的あるいは明示的なメトリクスがバイナリであるクラスベース学習の先行研究とは対照的に、オブジェクト間の(dis)相似性の「em度」を表す「emperceptual」メトリックに焦点を当てている。 標準的なアクティブラーニングアプローチは,トリプレットの"em batches"に対するアノテーション要求が一度に発生すると劣化することがわかった。 本研究では,各基準に対するヒューリスティックの選択を分離しながら,情報量と多様性を両立させる三重項のバッチをデコレートする手法を提案する。 実験により,本手法は汎用的で適応可能であり,最先端技術よりも優れていることが示された。

We present an active learning strategy for training parametric models of distance metrics, given triplet-based similarity assessments: object $x_i$ is more similar to object $x_j$ than to $x_k$. In contrast to prior work on class-based learning, where the fundamental goal is classification and any implicit or explicit metric is binary, we focus on {\em perceptual} metrics that express the {\em degree} of (dis)similarity between objects. We find that standard active learning approaches degrade when annotations are requested for {\em batches} of triplets at a time: our studies suggest that correlation among triplets is responsible. In this work, we propose a novel method to {\em decorrelate} batches of triplets, that jointly balances informativeness and diversity while decoupling the choice of heuristic for each criterion. Experiments indicate our method is general, adaptable, and outperforms the state-of-the-art.
翻訳日:2022-12-01 04:56:23 公開日:2020-05-23
# CATN: アスペクト転送ネットワークによるコールドスタートユーザのためのクロスドメインレコメンデーション

CATN: Cross-Domain Recommendation for Cold-Start Users via Aspect Transfer Network ( http://arxiv.org/abs/2005.10549v2 )

ライセンス: Link先を確認
Cheng Zhao, Chenliang Li, Rong Xiao, Hongbo Deng, Aixin Sun(参考訳) 大きなレコメンダシステムでは、製品(またはアイテム)は、さまざまなカテゴリまたはドメインにある可能性がある。 関連する2つのドメイン(例えば、ブックとムービー)が与えられた場合、ユーザーは1つのドメイン内のアイテムと相互作用するが、他のドメインでは相互作用しない。 後者では、これらのユーザはコールドスタートユーザとみなされる。 あるドメインから他のドメインへのインタラクションに基づいてユーザの好みを効果的に転送する方法は、クロスドメインレコメンデーションにおいて重要な問題である。 レビューベースレコメンデーションの進歩に触発されて,レビューから派生したアスペクトレベルでのユーザ嗜好伝達をモデル化することを提案する。 そこで本研究では,コールドスタートユーザ(catn)のためのアスペクト転送ネットワークを用いたクロスドメインレコメンデーションフレームワークを提案する。 CATNは、レビュー文書から各ユーザと各アイテムの複数のアスペクトを抽出し、注意機構を用いてドメイン間のアスペクト相関を学習する。 また,類似するユーザからの補助的なレビューを活用し,ユーザのアスペクト表現を強化した。 そして、エンドツーエンドの最適化フレームワークを使用して、モデルの堅牢性を強化する。 実世界のデータセットでは、提案したCATNは、評価予測精度の点でSOTAモデルよりも優れている。 さらなる分析により、このモデルは、細かい粒度でドメイン間のユーザーアスペクト接続を明確化することができ、レコメンデーションを説明できることを示した。

In a large recommender system, the products (or items) could be in many different categories or domains. Given two relevant domains (e.g., Book and Movie), users may have interactions with items in one domain but not in the other domain. To the latter, these users are considered as cold-start users. How to effectively transfer users' preferences based on their interactions from one domain to the other relevant domain, is the key issue in cross-domain recommendation. Inspired by the advances made in review-based recommendation, we propose to model user preference transfer at aspect-level derived from reviews. To this end, we propose a cross-domain recommendation framework via aspect transfer network for cold-start users (named CATN). CATN is devised to extract multiple aspects for each user and each item from their review documents, and learn aspect correlations across domains with an attention mechanism. In addition, we further exploit auxiliary reviews from like-minded users to enhance a user's aspect representations. Then, an end-to-end optimization framework is utilized to strengthen the robustness of our model. On real-world datasets, the proposed CATN outperforms SOTA models significantly in terms of rating prediction accuracy. Further analysis shows that our model is able to reveal user aspect connections across domains at a fine level of granularity, making the recommendation explainable.
翻訳日:2022-12-01 00:05:19 公開日:2020-05-23
# MBA-RainGAN: 単一画像からの降雨除去を混合するマルチブランチアテンション生成適応ネットワーク

MBA-RainGAN: Multi-branch Attention Generative Adversarial Network for Mixture of Rain Removal from Single Images ( http://arxiv.org/abs/2005.10582v2 )

ライセンス: Link先を確認
Yiyang Shen, Yidan Feng, Sen Deng, Dong Liang, Jing Qin, Haoran Xie, Mingqiang Wei(参考訳) 豪雨の日、ガラスを通して画像が撮影されるとき、雨はシーンオブジェクトの視界をひどく損なう。 3つの興味深い現象を観察しました 1) 雨は,雨滴,雨霧,雨の霧の混合物である。 2)カメラからの奥行きは,近距離と遠距離の物体がそれぞれ雨のストレークと雨のヘイズによって視覚的に遮られている物体の視認度を判定する。 3)ガラス上の雨滴は画像空間全体の可視性にランダムに影響を及ぼす。 我々は初めて、オブジェクトの全体視認性は雨の混合(MOR)によって決定されると考える。 しかし、既存のソリューションと確立されたデータセットは、MORを完全に考慮していない。 本研究では,最初に新しいレイン画像モデルを定式化し,雨滴を考慮したレインシティスケープ(RainCityscapes++)を開発した。 さらに,MORを完全に除去するマルチブランチアテンション生成対向ネットワーク(MBA-RainGAN)を提案する。 この実験はraincityscapes++の最先端技術に対するアプローチの視覚的および数値的改善を示している。 コードとデータセットが利用可能になる。

Rain severely hampers the visibility of scene objects when images are captured through glass in heavily rainy days. We observe three intriguing phenomenons that, 1) rain is a mixture of raindrops, rain streaks and rainy haze; 2) the depth from the camera determines the degrees of object visibility, where objects nearby and faraway are visually blocked by rain streaks and rainy haze, respectively; and 3) raindrops on the glass randomly affect the object visibility of the whole image space. We for the first time consider that, the overall visibility of objects is determined by the mixture of rain (MOR). However, existing solutions and established datasets lack full consideration of the MOR. In this work, we first formulate a new rain imaging model; by then, we enrich the popular RainCityscapes by considering raindrops, named RainCityscapes++. Furthermore, we propose a multi-branch attention generative adversarial network (termed an MBA-RainGAN) to fully remove the MOR. The experiment shows clear visual and numerical improvements of our approach over the state-of-the-arts on RainCityscapes++. The code and dataset will be available.
翻訳日:2022-11-30 23:37:55 公開日:2020-05-23
# HF-UNet: 高精度前立腺分割のためのマルチタスクU-Netにおける階層的タスク間関係の学習

HF-UNet: Learning Hierarchically Inter-Task Relevance in Multi-Task U-Net for Accurate Prostate Segmentation ( http://arxiv.org/abs/2005.10439v2 )

ライセンス: Link先を確認
Kelei He, Chunfeng Lian, Bing Zhang, Xin Zhang, Xiaohuan Cao, Dong Nie, Yang Gao, Junfeng Zhang, Dinggang Shen(参考訳) 前立腺の正確なセグメンテーションは、外照射治療における重要なステップである。 本稿では,2段階ネットワークを用いたCT画像における前立腺分割の課題に取り組む。 1)迅速なローカライズの第1段階,及び 2) 前立腺を正確に区分する第2段階。 第2段階で前立腺を精密に区分するために,前立腺を分割するメインタスクと前立腺境界を区切る補助タスクを含むマルチタスク学習フレームワークに前立腺区分を定式化する。 ここでは,ct画像中の不明瞭な前立腺境界のガイダンスとして,第2の課題を適用した。 さらに、従来のマルチタスクのディープネットワークは、通常、すべてのタスクでほとんどのパラメータ(例えば、特徴表現)を共有し、異なるタスクの特異性は必然的に無視されるため、データ適合性を制限する可能性がある。 対照的に、階層的に融合したU-Net構造、すなわちHF-UNetによってそれらを解く。 HF-UNetは2つのタスクを補完する2つのブランチを持ち、新しいアテンションベースのタスク一貫性学習ブロックは2つのデコードブランチ間で各レベルで通信する。 したがって、HF-UNetは、異なるタスクの共有表現を階層的に学習し、異なるタスクの学習表現の特異性を同時に保持することができる。 339例から得られた画像を含む大規模なCT画像データセットについて,提案手法の広範な評価を行った。 実験の結果,HF-UNetは従来のマルチタスクネットワークアーキテクチャや最先端手法よりも優れていた。

Accurate segmentation of the prostate is a key step in external beam radiation therapy treatments. In this paper, we tackle the challenging task of prostate segmentation in CT images by a two-stage network with 1) the first stage to fast localize, and 2) the second stage to accurately segment the prostate. To precisely segment the prostate in the second stage, we formulate prostate segmentation into a multi-task learning framework, which includes a main task to segment the prostate, and an auxiliary task to delineate the prostate boundary. Here, the second task is applied to provide additional guidance of unclear prostate boundary in CT images. Besides, the conventional multi-task deep networks typically share most of the parameters (i.e., feature representations) across all tasks, which may limit their data fitting ability, as the specificities of different tasks are inevitably ignored. By contrast, we solve them by a hierarchically-fused U-Net structure, namely HF-UNet. The HF-UNet has two complementary branches for two tasks, with the novel proposed attention-based task consistency learning block to communicate at each level between the two decoding branches. Therefore, HF-UNet endows the ability to learn hierarchically the shared representations for different tasks, and preserve the specificities of learned representations for different tasks simultaneously. We did extensive evaluations of the proposed method on a large planning CT image dataset, including images acquired from 339 patients. The experimental results show HF-UNet outperforms the conventional multi-task network architectures and the state-of-the-art methods.
翻訳日:2022-11-30 23:11:11 公開日:2020-05-23
# MapReduce通信パターンのベンチマークと性能モデリング

Benchmarking and Performance Modelling of MapReduce Communication Pattern ( http://arxiv.org/abs/2005.11608v1 )

ライセンス: Link先を確認
Sheriffo Ceesay, Adam Barker, Yuhui Lin(参考訳) クラウドやオンプレミスで動作するビッグデータアプリケーションのパフォーマンスの理解と予測は、運用全体のコストを最小化し、パフォーマンスボトルネックを特定する努力の機会を提供する。 ビッグデータフレームワークの低レベル内部の複雑さとアプリケーションとワークロードの構成パラメータの多様さにより、包括的なパフォーマンスモデリングソリューションを思いつくのは困難でコストがかかります。 本稿では、幅広い構成可能なパラメータではなく、MapReduce通信パターンの低レベル内部について検討し、最小限のパフォーマンスドライバを用いて、与えられたクラスタ上でのアプリケーションの実行時間を近似するフェーズレベルのパラメトリックモデルを開発した。 モデルは、見えないアプリケーションのパフォーマンスを推測し、任意のデータセットを入力として使用する場合のパフォーマンスを近似するために使うことができる。 このアプローチは、経験的な実験を2つのセットアップで実行することで検証されます。 平均して、両方のセットアップのエラーレートは、測定値から10%以上または10%以下である。

Understanding and predicting the performance of big data applications running in the cloud or on-premises could help minimise the overall cost of operations and provide opportunities in efforts to identify performance bottlenecks. The complexity of the low-level internals of big data frameworks and the ubiquity of application and workload configuration parameters makes it challenging and expensive to come up with comprehensive performance modelling solutions. In this paper, instead of focusing on a wide range of configurable parameters, we studied the low-level internals of the MapReduce communication pattern and used a minimal set of performance drivers to develop a set of phase level parametric models for approximating the execution time of a given application on a given cluster. Models can be used to infer the performance of unseen applications and approximate their performance when an arbitrary dataset is used as input. Our approach is validated by running empirical experiments in two setups. On average the error rate in both setups is plus or minus 10% from the measured values.
翻訳日:2022-11-30 03:56:59 公開日:2020-05-23
# 時系列サーマルニューワードマイニングに基づく新型コロナウイルスの世論と感情モニタリングシステム

COVID-19 Public Opinion and Emotion Monitoring System Based on Time Series Thermal New Word Mining ( http://arxiv.org/abs/2005.11458v1 )

ライセンス: Link先を確認
Yixian Zhang, Jieren Chen, Boyi Liu, Yifan Yang, Haocheng Li, Xinyi Zheng, Xi Chen, Tenglong Ren and Naixue Xiong(参考訳) 新しい流行の広がりと発展に伴い、公衆の感情における流行の変化の傾向を特定することは非常に参考になる。 我々は,時系列の熱的新語マイニングに基づく世論監視システムを設計,実装した。 ネットワークトピックの時間的爆発に基づく新しい単語構造発見手法と、新型コロナウイルス(covid-19)の世論環境に対する中国の感情分析手法を提案する。 Scrapy-Redis-Bloomfilter"分散クローラフレームワークを構築してデータを収集する。 システムは、コメントに基づいてレビュアーのポジティブな感情とネガティブな感情を判断し、希望、幸福、抑うつといった7つの感情の深さを反映することもできる。 最後に,このシステムの感情判別モデルを改善し,covid-19関連コメントの感情判別誤差とjiagu深層学習モデルを比較した。 その結果,モデルの一般化能力は向上し,判別誤差は小さくなった。 我々は、公開感情の傾向、様々な感情カテゴリー、キーワード、ホットトピックなどの比率を明確に示し、公開意見の発達を完全に直感的に反映する大規模なデータ可視化画面を設計した。

With the spread and development of new epidemics, it is of great reference value to identify the changing trends of epidemics in public emotions. We designed and implemented the COVID-19 public opinion monitoring system based on time series thermal new word mining. A new word structure discovery scheme based on the timing explosion of network topics and a Chinese sentiment analysis method for the COVID-19 public opinion environment is proposed. Establish a "Scrapy-Redis-Bloomfilter" distributed crawler framework to collect data. The system can judge the positive and negative emotions of the reviewer based on the comments, and can also reflect the depth of the seven emotions such as Hopeful, Happy, and Depressed. Finally, we improved the sentiment discriminant model of this system and compared the sentiment discriminant error of COVID-19 related comments with the Jiagu deep learning model. The results show that our model has better generalization ability and smaller discriminant error. We designed a large data visualization screen, which can clearly show the trend of public emotions, the proportion of various emotion categories, keywords, hot topics, etc., and fully and intuitively reflect the development of public opinion.
翻訳日:2022-11-30 03:56:12 公開日:2020-05-23
# 古典的不変理論の観点から見た3次元幾何学的モーメント不変量

3D geometric moment invariants from the point of view of the classical invariant theory ( http://arxiv.org/abs/2006.05674v1 )

ライセンス: Link先を確認
Leonid Bedratyuk(参考訳) 本研究の目的は、3次元幾何モーメント不変量と不変量理論との接続の問題を明らかにすることであり、古典的不変量理論の問題として3次元幾何モーメント不変量を記述する問題を考えることである。 群 $SO(3)$ と $SL(2)$ が局所同型であるという顕著な事実を用いて、3次元幾何学的モーメント不変量から古典的不変量理論のよく知られた問題への導出問題を減らした。 同時に3次元幾何学的モーメント不変量の代数の概念を導入し、3次元幾何学的モーメント不変量の計算の正確なステートメントを与え、それらがいくつかのバイナリ形式の結合 $SL(2)$-不変量の代数に同型であることを証明する。 不変量の計算を単純化するために、リー群 $so(3)$ の作用からそのリー代数 $\mathfrak{sl}_2$ の作用へと進む。 著者は、画像解析とパターン認識の分野の研究者にとって、この結果が役に立つことを期待している。

The aim of this paper is to clear up the problem of the connection between the 3D geometric moments invariants and the invariant theory, considering a problem of describing of the 3D geometric moments invariants as a problem of the classical invariant theory. Using the remarkable fact that the groups $SO(3)$ and $SL(2)$ are locally isomorphic, we reduced the problem of deriving 3D geometric moments invariants to the well-known problem of the classical invariant theory. We give a precise statement of the 3D geometric invariant moments computation, introducing the notions of the algebras of simultaneous 3D geometric moment invariants, and prove that they are isomorphic to the algebras of joint $SL(2)$-invariants of several binary forms. To simplify the calculating of the invariants we proceed from an action of Lie group $SO(3)$ to an action of its Lie algebra $\mathfrak{sl}_2$. The author hopes that the results will be useful to the researchers in the fields of image analysis and pattern recognition.
翻訳日:2022-11-30 03:55:46 公開日:2020-05-23
# コールドスタート勧告のための合同訓練カプセルネットワーク

Joint Training Capsule Network for Cold Start Recommendation ( http://arxiv.org/abs/2005.11467v1 )

ライセンス: Link先を確認
Tingting Liang, Congying Xia, Yuyu Yin, Philip S. Yu(参考訳) 本稿では,コールドスタート推薦タスクのための新しいニューラルネットワーク,ジョイントトレーニングカプセルネットワーク(JTCN)を提案する。 本稿では,新鮮ユーザ側情報に基づいて,インタラクション履歴以外の高レベルのユーザ嗜好を模倣することを提案する。 具体的には、動的ルーティング・バイ・アグリメント機構により、低レベルのインタラクション履歴から高レベルのユーザ嗜好を集約する。 さらに、JTCNは、ユーザの好みを模倣した損失と、推奨するソフトマックス損失をエンドツーエンドで共同でトレーニングする。 2つの公開データセットの実験では、提案モデルの有効性が示されている。 JTCNはコールスタートレコメンデーションにおいて、CiteULikeで少なくとも7.07%、Amazonで16.85%の他の最先端メソッドを改善している。

This paper proposes a novel neural network, joint training capsule network (JTCN), for the cold start recommendation task. We propose to mimic the high-level user preference other than the raw interaction history based on the side information for the fresh users. Specifically, an attentive capsule layer is proposed to aggregate high-level user preference from the low-level interaction history via a dynamic routing-by-agreement mechanism. Moreover, JTCN jointly trains the loss for mimicking the user preference and the softmax loss for the recommendation together in an end-to-end manner. Experiments on two publicly available datasets demonstrate the effectiveness of the proposed model. JTCN improves other state-of-the-art methods at least 7.07% for CiteULike and 16.85% for Amazon in terms of Recall@100 in cold start recommendation.
翻訳日:2022-11-30 03:55:05 公開日:2020-05-23
# Pythia: カバレッジによるフィードバックと学習ベースのミューテーションを備えた,文法ベースのREST APIファジリング

Pythia: Grammar-Based Fuzzing of REST APIs with Coverage-guided Feedback and Learning-based Mutations ( http://arxiv.org/abs/2005.11498v1 )

ライセンス: Link先を確認
Vaggelis Atlidakis, Roxana Geambasu, Patrice Godefroid, Marina Polishchuk, Baishakhi Ray(参考訳) 本稿では、カバレッジ誘導フィードバックとステートフルなREST APIファジリングのための学習ベースの突然変異戦略によって文法ベースのファジリングを強化する最初のファジィであるPythiaを紹介する。 Pythiaは統計モデルを使用して、構造的に有効なシード入力からターゲットREST APIの一般的な使用パターンを学習する。 その後、一般的な使用パターンから逸脱した少量のノイズを注入し、構文的妥当性を維持しながら学習に基づく突然変異を生成する。 pythiaの変異戦略は、文法的に有効なテストケースを生成するのに役立ち、カバレッジガイドされたフィードバックは、バグを見つけやすいテストケースの優先順位付けに役立ちます。 我々は、Pythiaがコードカバレッジと新しいバグの両方において、以前のアプローチより優れていることを示す3つの実運用規模のオープンソースクラウドサービスに関する実験的評価を行った。 pythiaを使って、私たちは29の新しいバグを発見しました。

This paper introduces Pythia, the first fuzzer that augments grammar-based fuzzing with coverage-guided feedback and a learning-based mutation strategy for stateful REST API fuzzing. Pythia uses a statistical model to learn common usage patterns of a target REST API from structurally valid seed inputs. It then generates learning-based mutations by injecting a small amount of noise deviating from common usage patterns while still maintaining syntactic validity. Pythia's mutation strategy helps generate grammatically valid test cases and coverage-guided feedback helps prioritize the test cases that are more likely to find bugs. We present experimental evaluation on three production-scale, open-source cloud services showing that Pythia outperforms prior approaches both in code coverage and new bugs found. Using Pythia, we found 29 new bugs which we are in the process of reporting to the respective service owners.
翻訳日:2022-11-30 03:54:48 公開日:2020-05-23
# トランスフォーマーを用いたマルウェアキャラクタの考案

Devising Malware Characterstics using Transformers ( http://arxiv.org/abs/2005.12978v1 )

ライセンス: Link先を確認
Simra Shahid, Tanmay Singh, Yash Sharma, Kapil Sharma(参考訳) サイバーセキュリティの脅威が増えているため、研究者がマルウェア分析のセキュリティレポートをスキミングすることはますます困難になっている。 マルウェアの報告全体を読まなくても、非常に関連性の高い文を抽出できる必要がある。 本稿では,Advanced Persistent Threat Reportsから,関連するマルウェアの挙動を報告する。 この主要な貢献は、マルウェア行動分析のアプローチをトランスフォーマーする試みである。

With the increasing number of cybersecurity threats, it becomes more difficult for researchers to skim through the security reports for malware analysis. There is a need to be able to extract highly relevant sentences without having to read through the entire malware reports. In this paper, we are finding relevant malware behavior mentions from Advanced Persistent Threat Reports. This main contribution is an opening attempt to Transformer the approach for malware behavior analysis.
翻訳日:2022-11-30 03:53:55 公開日:2020-05-23
# DartMinHash: 軽量セットの高速スケッチ

DartMinHash: Fast Sketching for Weighted Sets ( http://arxiv.org/abs/2005.11547v1 )

ライセンス: Link先を確認
Tobias Christiani(参考訳) 重み付きハッシュは、類似性探索や大規模カーネルマシンに応用した標準的な次元削減手法である。 重み付き集合 $x \in \mathbb{r}_{\geq 0}^{d}$ をとり、期待時間$o(k \log k + \vert x \vert_{0}\log( \vert x \vert_1 + 1/\vert x \vert_1))$ を計算し、最先端のbagminhashアルゴリズム(kdd '18)に基づいて改善し、スパースデータに対する最速の重み付きminhashアルゴリズムを表す単純なアルゴリズムを導入する。 ICWS (ICDM '10) や BagMinhash と比較して,$k$ と $\Vert x \Vert_0$ でスケールした実行時間は,一般的なユースケースでは 10$x のスピードアップが得られる。 提案手法は, ジャカルド類似性により, 最大期待時間$O(LK + \Vert x \Vert_0)$の近傍探索に対して, 完全独立局所性感性ハッシュ値を$(L, K)$パラメータ化して計算し, 未加重集合においても先行処理を改善する手法である。

Weighted minwise hashing is a standard dimensionality reduction technique with applications to similarity search and large-scale kernel machines. We introduce a simple algorithm that takes a weighted set $x \in \mathbb{R}_{\geq 0}^{d}$ and computes $k$ independent minhashes in expected time $O(k \log k + \Vert x \Vert_{0}\log( \Vert x \Vert_1 + 1/\Vert x \Vert_1))$, improving upon the state-of-the-art BagMinHash algorithm (KDD '18) and representing the fastest weighted minhash algorithm for sparse data. Our experiments show running times that scale better with $k$ and $\Vert x \Vert_0$ compared to ICWS (ICDM '10) and BagMinhash, obtaining $10$x speedups in common use cases. Our approach also gives rise to a technique for computing fully independent locality-sensitive hash values for $(L, K)$-parameterized approximate near neighbor search under weighted Jaccard similarity in optimal expected time $O(LK + \Vert x \Vert_0)$, improving on prior work even in the case of unweighted sets.
翻訳日:2022-11-30 03:53:48 公開日:2020-05-23
# PhyAAt:音声データセットに対する聴覚注意の生理

PhyAAt: Physiology of Auditory Attention to Speech Dataset ( http://arxiv.org/abs/2005.11577v1 )

ライセンス: Link先を確認
Nikesh Bajaj, Jes\'us Requena Carri\'on, Francesco Bellotti(参考訳) 自然発話に対する聴覚的注意は複雑な脳プロセスである。 生理的信号からの定量化は、現在の脳-コンピュータ-インタフェースシステムの応用範囲の改善と拡張に有用であるが、それでも難しい課題である。 本稿では,自然発話に対する聴覚的注意実験から収集した生理的信号のデータセットについて述べる。 この実験では、異なる聴覚条件の英語文を再現した聴覚刺激を25名の非ネイティブ参加者に提示し、文章の書き起こしを依頼した。 実験では,14チャンネルの脳波,ガルバニック皮膚反応,光胸腺信号が各被験者から収集された。 正しく書き起こされた単語の数に基づいて,被験者に提示される各聴覚刺激に対して注意スコアが得られた。 注意点と聴覚条件との間には強い相関(p<0.0001$)が認められた。 また、収集したデータセットを含む4つの予測タスクを定式化し、特徴抽出フレームワークを開発する。 各予測タスクの結果は、スペクトル特徴を有するサポートベクターマシンを用いて得られ、チャンスレベルよりも優れている。 このデータセットは、python libraryphyaatとともに、さらなる研究のために公開され、本論文で提示された結果の前処理、モデリング、再現を容易にする。 データセットとその他のリソースはwebページで共有されている。

Auditory attention to natural speech is a complex brain process. Its quantification from physiological signals can be valuable to improving and widening the range of applications of current brain-computer-interface systems, however it remains a challenging task. In this article, we present a dataset of physiological signals collected from an experiment on auditory attention to natural speech. In this experiment, auditory stimuli consisting of reproductions of English sentences in different auditory conditions were presented to 25 non-native participants, who were asked to transcribe the sentences. During the experiment, 14 channel electroencephalogram, galvanic skin response, and photoplethysmogram signals were collected from each participant. Based on the number of correctly transcribed words, an attention score was obtained for each auditory stimulus presented to subjects. A strong correlation ($p<<0.0001$) between the attention score and the auditory conditions was found. We also formulate four different predictive tasks involving the collected dataset and develop a feature extraction framework. The results for each predictive task are obtained using a Support Vector Machine with spectral features, and are better than chance level. The dataset has been made publicly available for further research, along with a python library - phyaat to facilitate the preprocessing, modeling, and reproduction of the results presented in this paper. The dataset and other resources are shared on webpage - https://phyaat.github.io.
翻訳日:2022-11-30 03:53:15 公開日:2020-05-23
# AnimGAN: 文字アニメーションのための時空間制約付き生成逆数ネットワーク

AnimGAN: A Spatiotemporally-Conditioned Generative Adversarial Network for Character Animation ( http://arxiv.org/abs/2005.11489v1 )

ライセンス: Link先を確認
Maryam Sadat Mirzaei, Kourosh Meshgi, Etienne Frigo, Toyoaki Nishida(参考訳) リアルなキャラクターアニメーションを作成することは、人間とAIの相互作用において不可欠なタスクの1つである。 ヒューマノイドのポーズのシーケンスと見なされるこのタスクは、時空間の滑らかさとリアリズムの制約を伴うシーケンス生成問題と見なすことができる。 さらに、私たちはAIエージェントの行動を制御するために、何をすべきか、具体的にはどのように行うべきかを彼らに与えたいと考えています。 我々は,時空間条件付きGANを提案し,意味論や時空間力学の観点から,与えられたシーケンスに類似したシーケンスを生成する。 LSTMベースのジェネレータとグラフConvNet識別器を用いて、このシステムはジェスチャー、表現、アクションの大規模なデータセット上でエンドツーエンドに訓練される。 実験により,従来の条件付きGANと比較して,ユーザ期待に合致する有意で現実的で,意味的に関連するヒューマノイドアニメーションシーケンスを生成することができた。

Producing realistic character animations is one of the essential tasks in human-AI interactions. Considered as a sequence of poses of a humanoid, the task can be considered as a sequence generation problem with spatiotemporal smoothness and realism constraints. Additionally, we wish to control the behavior of AI agents by giving them what to do and, more specifically, how to do it. We proposed a spatiotemporally-conditioned GAN that generates a sequence that is similar to a given sequence in terms of semantics and spatiotemporal dynamics. Using LSTM-based generator and graph ConvNet discriminator, this system is trained end-to-end on a large gathered dataset of gestures, expressions, and actions. Experiments showed that compared to traditional conditional GAN, our method creates plausible, realistic, and semantically relevant humanoid animation sequences that match user expectations.
翻訳日:2022-11-30 03:46:58 公開日:2020-05-23
# 属性認識のための階層的特徴埋め込み

Hierarchical Feature Embedding for Attribute Recognition ( http://arxiv.org/abs/2005.11576v1 )

ライセンス: Link先を確認
Jie Yang, Jiarou Fan, Yiru Wang, Yige Wang, Weihao Gan, Lin Liu, Wei Wu(参考訳) 属性認識は視点の変化、照明のバリエーション、外見の多様性などによって重要だが難しい課題である。 以前の作業のほとんどは属性レベルの機能埋め込みのみを考慮しており、複雑な不均質な条件下では機能しない可能性がある。 この問題に対処するために,属性情報とID情報を組み合わせた詳細な特徴埋め込みを学習する階層的特徴埋め込み(HFE)フレームワークを提案する。 HFEでは,クラス間とクラス内機能を同時に埋め込みます。 同じ属性を持つサンプルだけでなく、同じIDを持つサンプルもより緊密に収集されるため、属性に関して視覚的に硬いサンプルの機能埋め込みを制限し、変動条件に対する堅牢性を向上させることができる。 属性レベルとidレベルの制約からなるhfe損失を利用することで,この階層構造を確立する。 また,絶対境界正規化と動的損失重みを補足成分として導入し,機能埋め込みの構築を支援する。 実験により,2つの歩行者属性データセットと顔属性データセットの最先端結果が得られた。

Attribute recognition is a crucial but challenging task due to viewpoint changes, illumination variations and appearance diversities, etc. Most of previous work only consider the attribute-level feature embedding, which might perform poorly in complicated heterogeneous conditions. To address this problem, we propose a hierarchical feature embedding (HFE) framework, which learns a fine-grained feature embedding by combining attribute and ID information. In HFE, we maintain the inter-class and intra-class feature embedding simultaneously. Not only samples with the same attribute but also samples with the same ID are gathered more closely, which could restrict the feature embedding of visually hard samples with regard to attributes and improve the robustness to variant conditions. We establish this hierarchical structure by utilizing HFE loss consisted of attribute-level and ID-level constraints. We also introduce an absolute boundary regularization and a dynamic loss weight as supplementary components to help build up the feature embedding. Experiments show that our method achieves the state-of-the-art results on two pedestrian attribute datasets and a facial attribute dataset.
翻訳日:2022-11-30 03:46:12 公開日:2020-05-23
# ワンショット教師なしクロスドメイン検出

One-Shot Unsupervised Cross-Domain Detection ( http://arxiv.org/abs/2005.11610v1 )

ライセンス: Link先を確認
Antonio D'Innocente, Francesco Cappio Borlino, Silvia Bucci, Barbara Caputo, Tatiana Tommasi(参考訳) ここ数年、オブジェクト検出の著しい進歩にもかかわらず、ビジュアルドメインをまたいだオブジェクトを確実に検出することは、まだ未解決の課題である。 このトピックは近年注目を集めているが、現在のアプローチはすべて、トレーニング時に使用する大量のターゲットデータにアクセスする能力に依存している。 これは重大な仮定であり、多くの場合、検出器が使用される領域を予測したり、データを取得する前にそれにアクセスすることは不可能である。 例えば、ソーシャルメディアから画像フィードを監視するタスクを考えてみてください。 異なるユーザによって画像が作成され、アップロードされるため、トレーニング中に予測できない別のターゲットドメインに属します。 本論文では,テスト時に見られる対象サンプルを1つだけ使用することにより,ドメイン間の非教師なし適応を可能にするオブジェクト検出アルゴリズムを提案する。 自己教師付きタスクを反復的に解いて,任意のサンプルにワンショットで適応するマルチタスクアーキテクチャを導入することで,これを実現する。 我々はこの補助適応をクロスタスク擬似ラベルによりさらに強化する。 最近のクロスドメイン検出法に対する詳細なベンチマーク解析と詳細なアブレーション研究は、定義されたワンショットシナリオの最先端を設定する方法の利点を示している。

Despite impressive progress in object detection over the last years, it is still an open challenge to reliably detect objects across visual domains. Although the topic has attracted attention recently, current approaches all rely on the ability to access a sizable amount of target data for use at training time. This is a heavy assumption, as often it is not possible to anticipate the domain where a detector will be used, nor to access it in advance for data acquisition. Consider for instance the task of monitoring image feeds from social media: as every image is created and uploaded by a different user it belongs to a different target domain that is impossible to foresee during training. This paper addresses this setting, presenting an object detection algorithm able to perform unsupervised adaption across domains by using only one target sample, seen at test time. We achieve this by introducing a multi-task architecture that one-shot adapts to any incoming sample by iteratively solving a self-supervised task on it. We further enhance this auxiliary adaptation with cross-task pseudo-labeling. A thorough benchmark analysis against the most recent cross-domain detection methods and a detailed ablation study show the advantage of our method, which sets the state-of-the-art in the defined one-shot scenario.
翻訳日:2022-11-30 03:45:36 公開日:2020-05-23
# 頭上魚眼画像における回転認識型人物検出

RAPiD: Rotation-Aware People Detection in Overhead Fisheye Images ( http://arxiv.org/abs/2005.11623v1 )

ライセンス: Link先を確認
Zhihao Duan, M. Ozan Tezcan, Hayato Nakamura, Prakash Ishwar, Janusz Konrad(参考訳) 近年,魚眼画像は画像半径に沿って常に現れるか,あるいは計算複雑性を劇的に増大させる重要な前処理・後処理を必要とすると仮定して,人を表現するために放射整列ボックスを使用している。 本研究では、任意指向の拘束箱を用いて人を検出する、RAPiDと呼ばれるエンドツーエンドの回転認識人検出手法を開発する。 我々の完全畳み込みニューラルネットワークは、周期的損失関数を用いて各境界ボックスの角度を直接回帰する。 我々はまた、魚眼ビデオの視覚タスクだけでなく、人物検出のための、回転した境界ボックスの時空間的アノテーションを備えた新しいデータセットも作成しました。 3つの魚眼画像データセットにおいて, 単純かつ効果的な手法が最先端の結果を上回っていることを示す。 コードとデータセットはhttp://vip.bu.edu/rapidで利用可能である。

Recent methods for people detection in overhead, fisheye images either use radially-aligned bounding boxes to represent people, assuming people always appear along image radius or require significant pre-/post-processing which radically increases computational complexity. In this work, we develop an end-to-end rotation-aware people detection method, named RAPiD, that detects people using arbitrarily-oriented bounding boxes. Our fully-convolutional neural network directly regresses the angle of each bounding box using a periodic loss function, which accounts for angle periodicities. We have also created a new dataset with spatio-temporal annotations of rotated bounding boxes, for people detection as well as other vision tasks in overhead fisheye videos. We show that our simple, yet effective method outperforms state-of-the-art results on three fisheye-image datasets. Code and dataset are available at http://vip.bu.edu/rapid .
翻訳日:2022-11-30 03:45:16 公開日:2020-05-23
# Peri-Net-Pro: き裂パターンの定量的不確実性を有する神経過程

Peri-Net-Pro: The neural processes with quantified uncertainty for crack patterns ( http://arxiv.org/abs/2005.13461v1 )

ライセンス: Link先を確認
Moonseop Kim, Guang Lin(参考訳) 本稿では,クラック研究に適した周辺力学理論を用いて,移動円板内のクラックパターンを予測し,モードに応じて分類し,最終的に回帰解析を行う。 このようにして、周辺力学を用いた分子動力学シミュレーションにより、各モードに応じて亀裂パターンを求める。 画像分類と回帰研究は畳み込みニューラルネットワーク(cnns)とニューラルネットワークプロセスを通じて行われる。 まず, 有限要素法(FEM)のひび割れパターン画像生成における問題点を理論的に補うことができるペリダイナミックスを用いて, データの量と品質を増大させた。 第2に, 周辺力学理論を用いて得られたPMB, LPS, VESモデルのケーススタディを行った。 CNNを用いて画像を分類し、PMB、LBS、VESモデルの適合性を決定するケーススタディが実施された。 最後に, ひび割れパターンの画像の回帰解析を行い, ひび割れパターンの予測を行った。 回帰問題では, 変分の結果をエポックに従って表現することにより, ニューラル過程を通じてエポック数を増大させることで, 変分の結果が減少することが確認できる。 この研究の最も重要な点は、トレーニングデータが不足している、あるいは不足している場合でも、神経プロセスが正確な予測を行うことだ。

This paper uses the peridynamic theory, which is well-suited to crack studies, to predict the crack patterns in a moving disk and classify them according to the modes and finally perform regression analysis. In that way, the crack patterns are obtained according to each mode by Molecular Dynamic (MD) simulation using the peridynamics. Image classification and regression studies are conducted through Convolutional Neural Networks (CNNs) and the neural processes. First, we increased the amount and quality of the data using peridynamics, which can theoretically compensate for the problems of the finite element method (FEM) in generating crack pattern images. Second, we did the case study for the PMB, LPS, and VES models that were obtained using the peridynamic theory. Case studies were performed to classify the images using CNNs and determine the PMB, LBS, and VES models' suitability. Finally, we performed the regression analysis for the images of the crack patterns with neural processes to predict the crack patterns. In the regression problem, by representing the results of the variance according to the epochs, it can be confirmed that the result of the variance is decreased by increasing the epoch numbers through the neural processes. The most critical point of this study is that the neural processes make an accurate prediction even if there are missing or insufficient training data.
翻訳日:2022-11-30 03:44:30 公開日:2020-05-23
# 予測モジュール型ニューラルネットワークを用いた不変3次元形状認識

Invariant 3D Shape Recognition using Predictive Modular Neural Networks ( http://arxiv.org/abs/2005.11558v1 )

ライセンス: Link先を確認
Vasileios Petridis (Dept. of Electrical and Computer Engineering, Aristotle University, Thessaloniki, Greece)(参考訳) 本稿では,Predictive Modular Neural Networksモデル/アーキテクチャを2変数の関数と非ユークリッド空間に一般化する。 3次元不変形状認識とテクスチャ認識の文脈で提示される。 PreMONNは局所的な関係を使い、モジュラーであり、漸進的な学習を示す。 認識プロセスは、形状やテクスチャの任意の時点で開始することができるので、参照ポイントは不要である。 その局所的な関係特性により、閉塞の存在下でも形状やテクスチャを認識することができる。 解析は主に数学である。 しかし,いくつかの実験結果が得られた。 本稿では,ジェスチャ認識,行動認識,動的テクスチャ認識などの多くの問題に適用できる。

In this paper PREMONN (PREdictive MOdular Neural Networks) model/architecture is generalized to functions of two variables and to non-Euclidean spaces. It is presented in the context of 3D invariant shape recognition and texture recognition. PREMONN uses local relation, it is modular and exhibits incremental learning. The recognition process can start at any point on a shape or texture, so a reference point is not needed. Its local relation characteristic enables it to recognize shape and texture even in presence of occlusion. The analysis is mainly mathematical. However, we present some experimental results. The methods presented in this paper can be applied to many problems such as gesture recognition, action recognition, dynamic texture recognition etc.
翻訳日:2022-11-30 03:37:51 公開日:2020-05-23
# Witch's Shot から Music Making Bones へ -医療従事者のための資料から技術言語とVice Versa

From Witch's Shot to Music Making Bones -- Resources for Medical Laymen to Technical Language and Vice Versa ( http://arxiv.org/abs/2005.11494v1 )

ライセンス: Link先を確認
Laura Seiffe, Oliver Marten, Michael Mikhailov, Sven Schmeier, Sebastian M\"oller, Roland Roller(参考訳) 多くの人が、食べる食べ物やスポーツ活動、訪問したイベントなど、ソーシャルメディアやフォーラムで情報を共有している。 これはまた、個人の健康状態に関する情報にも当てはまる。 オンライン上で共有する情報は、ライフスタイルや健康状況を直接、あるいは間接的に公開し、貴重なデータリソースを提供します。 そのデータを利用することができれば、病気の危険因子の検出や薬物の有害な薬物反応などのアプリケーションを作成することができる。 しかし、ほとんどの人は医学の専門家ではないため、使用する言語は、医療従事者が行うような正確な医学表現よりも記述的である可能性がある。 これらの関連する情報を検出・利用するには、対応する医療概念に翻訳・/またはリンクする必要がある。 この研究は、ドイツにおけるこの課題に対処するために、ベースラインデータソースを提示する。 本稿では, 患者フォーラムにおいて, 医師と技術表現をアノテートした新しいデータセットと, 医学的同義語と定義のセットを紹介し, そのデータに最初のベースライン結果を示す。

Many people share information in social media or forums, like food they eat, sports activities they do or events which have been visited. This also applies to information about a person's health status. Information we share online unveils directly or indirectly information about our lifestyle and health situation and thus provides a valuable data resource. If we can make advantage of that data, applications can be created that enable e.g. the detection of possible risk factors of diseases or adverse drug reactions of medications. However, as most people are not medical experts, language used might be more descriptive rather than the precise medical expression as medics do. To detect and use those relevant information, laymen language has to be translated and/or linked to the corresponding medical concept. This work presents baseline data sources in order to address this challenge for German. We introduce a new data set which annotates medical laymen and technical expressions in a patient forum, along with a set of medical synonyms and definitions, and present first baseline results on the data.
翻訳日:2022-11-30 03:37:41 公開日:2020-05-23
# 貿易利益性に基づく膝点同定

Knee Point Identification Based on Trade-Off Utility ( http://arxiv.org/abs/2005.11600v1 )

ライセンス: Link先を確認
Ke Li, Haifeng Nie, Huifu Gao, Xin Yao(参考訳) ニーポイントは、あらゆる目的において最小限のトレードオフ損失として特徴づけられ、多基準意思決定において意思決定者にとって魅力的である。 対照的に、他のパレート最適解は、ある目的に対する小さな改善が他の目的の少なくとも1つに重大な劣化をもたらす可能性があるため、あまり魅力的ではない。 本稿では,kpituと呼ばれるトレードオフユーティリティに基づく簡易かつ効果的な膝点識別手法を提案する。 KPITUの基本的な考え方は、ソリューションが膝点であるか否かを、近隣の他のソリューションと比較することによって、順次検証することである。 特に、ソリューションがひざまずくのは、隣人の間で最良のトレードオフユーティリティを持っている場合に限る。 さらに,膝点同定を並列に行うKPITUのGPU版を実装した。 このGPUバージョンは、最悪のケースの複雑さを2次から線形に減らす。 KPITUの有効性を検証するため,134個のテスト問題インスタンス上での5つの最先端膝点同定法との比較を行った。 実験結果から,kpituの優れた性能は,多くの局所膝関節の問題点において十分に示された。 最後に、進化過程において、EMOアルゴリズムがハエの膝点を探索するためのKPITUの有用性を更に検証する。

Knee points, characterised as their smallest trade-off loss at all objectives, are attractive to decision makers in multi-criterion decision-making. In contrast, other Pareto-optimal solutions are less attractive since a small improvement on one objective can lead to a significant degradation on at least one of the other objectives. In this paper, we propose a simple and effective knee point identification method based on trade-off utility, dubbed KPITU, to help decision makers identify knee points from a given set of trade-off solutions. The basic idea of KPITU is to sequentially validate whether a solution is a knee point or not by comparing its trade-off utility with others within its neighbourhood. In particular, a solution is a knee point if and only if it has the best trade-off utility among its neighbours. Moreover, we implement a GPU version of KPITU that carries out the knee point identification in a parallel manner. This GPU version reduces the worst-case complexity from quadratic to linear. To validate the effectiveness of KPITU, we compare its performance with five state-of-the-art knee point identification methods on 134 test problem instances. Empirical results fully demonstrate the outstanding performance of KPITU especially on problems with many local knee points. At the end, we further validate the usefulness of KPITU for guiding EMO algorithms to search for knee points on the fly during the evolutionary process.
翻訳日:2022-11-30 03:37:25 公開日:2020-05-23
# 微調整弾性回折光ネットワーク

Misalignment Resilient Diffractive Optical Networks ( http://arxiv.org/abs/2005.11464v1 )

ライセンス: Link先を確認
Deniz Mengu, Yifan Zhao, Nezih T. Yardimci, Yair Rivenson, Mona Jarrahi, Aydogan Ozcan(参考訳) 光機械学習フレームワークとして、Diffractive Deep Neural Networks (D2NN)は、ディープラーニングで使用されるデータ駆動トレーニング手法を利用して、3Dで光-物質相互作用を考案し、所望の統計的推論タスクを実行する。 この微分フレームワークで設計された多層光学オブジェクト認識プラットフォームは、手書き数字分類の98%のブラインド推論精度を達成できる画像データに一般化することが示されている。 回折ネットワークの多層構造は、回折効率、推論能力、光信号コントラストにおいて大きな利点をもたらす。 しかし、複数の回折層を使用することは、光学的推論のためにこれらの回折系の作成とアライメントに実用的な課題をもたらす。 本稿では,3次元のミスアライメントに対する拡散ネットワークのロバスト性や,トレーニングされた拡散ネットワークの物理的実装における耐加工性を大幅に向上させる新たなトレーニング手法を紹介し,実験的に実証する。 3次元の望ましくない層間ミスアライメントを光フォワードモデルにおける連続的ランダム変数としてモデル化することにより、拡散ネットワークは広い範囲のミスアライメントに対して推論精度を維持するよう訓練される。 さらに, このワクチン接種戦略を, 出力面における微分検出器を用いた拡散型ネットワークの訓練や, 複合ハイブリッド(光電子)ネットワークの合同学習にも拡張し, これらの拡散型設計のすべてが, 訓練段階における3次元製造変動や変位を考慮し, 誤調整に対する弾力性を向上させることを明らかにする。

As an optical machine learning framework, Diffractive Deep Neural Networks (D2NN) take advantage of data-driven training methods used in deep learning to devise light-matter interaction in 3D for performing a desired statistical inference task. Multi-layer optical object recognition platforms designed with this diffractive framework have been shown to generalize to unseen image data achieving e.g., >98% blind inference accuracy for hand-written digit classification. The multi-layer structure of diffractive networks offers significant advantages in terms of their diffraction efficiency, inference capability and optical signal contrast. However, the use of multiple diffractive layers also brings practical challenges for the fabrication and alignment of these diffractive systems for accurate optical inference. Here, we introduce and experimentally demonstrate a new training scheme that significantly increases the robustness of diffractive networks against 3D misalignments and fabrication tolerances in the physical implementation of a trained diffractive network. By modeling the undesired layer-to-layer misalignments in 3D as continuous random variables in the optical forward model, diffractive networks are trained to maintain their inference accuracy over a large range of misalignments; we term this diffractive network design as vaccinated D2NN (v-D2NN). We further extend this vaccination strategy to the training of diffractive networks that use differential detectors at the output plane as well as to jointly-trained hybrid (optical-electronic) networks to reveal that all of these diffractive designs improve their resilience to misalignments by taking into account possible 3D fabrication variations and displacements during their training phase.
翻訳日:2022-11-30 03:37:04 公開日:2020-05-23
# S3VAE:表現距離とデータ生成のための自己監督型シーケンスVAE

S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement and Data Generation ( http://arxiv.org/abs/2005.11437v1 )

ライセンス: Link先を確認
Yizhe Zhu, Martin Renqiang Min, Asim Kadav, Hans Peter Graf(参考訳) 本稿では,逐次データ(ビデオやオーディオなど)の不連続表現を自己スーパービジョンで学習する逐次変分オートエンコーダを提案する。 具体的には、入力データ自体や市販の機能モデルから容易にアクセス可能な監視信号の利点を利用して、これらの信号を利用するための補助的なタスクを設計する。 信号の監督により、入力列の表現を静的因子と動的因子(すなわち時間不変部分と時間不安定部分)に容易に切り離すことができる。 映像と音声の包括的実験により,本モデルの有効性を検証し,自己スーパービジョンを用いたモデルが,基底真理ラベル付き完全教師付きモデルと比較し,最先端の教師なしモデルよりも大きなマージンで上回ることを実証した。

We propose a sequential variational autoencoder to learn disentangled representations of sequential data (e.g., videos and audios) under self-supervision. Specifically, we exploit the benefits of some readily accessible supervisory signals from input data itself or some off-the-shelf functional models and accordingly design auxiliary tasks for our model to utilize these signals. With the supervision of the signals, our model can easily disentangle the representation of an input sequence into static factors and dynamic factors (i.e., time-invariant and time-varying parts). Comprehensive experiments across videos and audios verify the effectiveness of our model on representation disentanglement and generation of sequential data, and demonstrate that, our model with self-supervision performs comparable to, if not better than, the fully-supervised model with ground truth labels, and outperforms state-of-the-art unsupervised models by a large margin.
翻訳日:2022-11-30 03:36:20 公開日:2020-05-23
# 2段階物体検出における肯定的提案の不均衡

Delving into the Imbalance of Positive Proposals in Two-stage Object Detection ( http://arxiv.org/abs/2005.11472v1 )

ライセンス: Link先を確認
Zheng Ge, Zequn Jie, Xin Huang, Chengzheng Li, Osamu Yoshie(参考訳) 不均衡問題は、現在のオブジェクト検出モデルにとって、大きな問題であるが未解決のボトルネックである。 本研究では,不均衡問題に関して2つの重要な議論は行われなかった。 第1の不均衡は、R-CNNモジュール(すなわち、後分類レイヤー)が初期のトレーニング段階でのネガティブな提案に対して非常に偏りを持つような、多数の低品質のRPN提案にある。 第2の不均衡は、異なるテスト画像にまたがる不均衡な接地数に起因し、テストフェーズにおける潜在的に有望な提案の数の不均衡をもたらす。 これら2つの不均衡問題に対処するため、我々はより高速なR-CNNに2つのイノベーションを取り入れた。 1) R-CNNグラディエントアニーリング(RGA)戦略は, 早期研修における肯定的提案の影響を高める。 2) 1つのバックボーンのトレーニング中に正・負のサンプリング比が異なる並列R-CNNモジュール(PRM)のセット。 当社のRGAとPRMは、COCOミニバルでAPを2.0%改善することができます。 crowdhumanの実験は、さまざまなオブジェクト検出タスクにおけるイノベーションの有効性をさらに検証します。

Imbalance issue is a major yet unsolved bottleneck for the current object detection models. In this work, we observe two crucial yet never discussed imbalance issues. The first imbalance lies in the large number of low-quality RPN proposals, which makes the R-CNN module (i.e., post-classification layers) become highly biased towards the negative proposals in the early training stage. The second imbalance stems from the unbalanced ground-truth numbers across different testing images, resulting in the imbalance of the number of potentially existing positive proposals in testing phase. To tackle these two imbalance issues, we incorporates two innovations into Faster R-CNN: 1) an R-CNN Gradient Annealing (RGA) strategy to enhance the impact of positive proposals in the early training stage. 2) a set of Parallel R-CNN Modules (PRM) with different positive/negative sampling ratios during training on one same backbone. Our RGA and PRM can totally bring 2.0% improvements on AP on COCO minival. Experiments on CrowdHuman further validates the effectiveness of our innovations across various kinds of object detection tasks.
翻訳日:2022-11-30 03:36:01 公開日:2020-05-23
# 物体検出のための注意誘導コンテキスト特徴ピラミッドネットワーク

Attention-guided Context Feature Pyramid Network for Object Detection ( http://arxiv.org/abs/2005.11475v1 )

ライセンス: Link先を確認
Junxu Cao, Qi Chen, Jun Guo, and Ruichao Shi(参考訳) オブジェクト検出では、高分解能入力における特徴マップ解像度と受容フィールドの間の矛盾する要件にどう対処すればよいかはまだ未解決のままである。 本稿では,注意誘導型マルチパス機能を統合することで,様々な大きな受容領域からの識別情報を活用できる,注意誘導型コンテキスト特徴ピラミッドネットワーク(AC-FPN)という新しいアーキテクチャを構築する。 モデルは2つのモジュールを含む。 ひとつはコンテキスト抽出モジュール(CEM)で、複数の受容領域から大きなコンテキスト情報を探索する。 冗長な文脈関係は、ローカライゼーションと認識を誤解させる可能性があるため、アテンション機構を用いてオブジェクト上のサルエントな依存関係を適応的に捉えるアテンションガイドモジュール(am)という2つ目のモジュールも設計する。 AMは2つのサブモジュール、すなわちコンテキスト注意モジュール(CxAM)とコンテンツ注意モジュール(CnAM)で構成される。 最も重要なことは、当社のAC-FPNを既存のFPNベースのモデルに簡単に接続できることです。 オブジェクト検出とインスタンスセグメンテーションに関する広範囲な実験により,提案したCEMとAMの既存モデルは,それらのない既存モデルよりも有意に優れており,我々のモデルは最先端の結果を得ることができた。 ソースコードはhttps://github.com/caojunxu/ac-fpnで公開しました。

For object detection, how to address the contradictory requirement between feature map resolution and receptive field on high-resolution inputs still remains an open question. In this paper, to tackle this issue, we build a novel architecture, called Attention-guided Context Feature Pyramid Network (AC-FPN), that exploits discriminative information from various large receptive fields via integrating attention-guided multi-path features. The model contains two modules. The first one is Context Extraction Module (CEM) that explores large contextual information from multiple receptive fields. As redundant contextual relations may mislead localization and recognition, we also design the second module named Attention-guided Module (AM), which can adaptively capture the salient dependencies over objects by using the attention mechanism. AM consists of two sub-modules, i.e., Context Attention Module (CxAM) and Content Attention Module (CnAM), which focus on capturing discriminative semantics and locating precise positions, respectively. Most importantly, our AC-FPN can be readily plugged into existing FPN-based models. Extensive experiments on object detection and instance segmentation show that existing models with our proposed CEM and AM significantly surpass their counterparts without them, and our model successfully obtains state-of-the-art results. We have released the source code at https://github.com/Caojunxu/AC-FPN.
翻訳日:2022-11-30 03:35:45 公開日:2020-05-23
# ドメイン適応シーンテキスト検出のための自己学習

Self-Training for Domain Adaptive Scene Text Detection ( http://arxiv.org/abs/2005.11487v1 )

ライセンス: Link先を確認
Yudi Chen, Wei Wang, Yu Zhou, Fei Yang, Dongbao Yang, Weiping Wang(参考訳) ディープラーニングに基づくシーンのテキスト検出は大きな進歩を遂げているが、十分に訓練された検出器は、異なるドメインのパフォーマンス低下に苦しむ。 一般に、ターゲット領域で検出器を訓練するには膨大な量のデータが不可欠である。 しかし、データ収集とアノテーションは高価で時間がかかる。 この問題に対処するために,アノテーションのないビデオや画像から擬似ラベルでハードサンプルを自動的にマイニングする自己学習フレームワークを提案する。 ハードサンプルのノイズを低減するため、検出結果と追跡結果の融合に基づいて、新しいテキストマイニングモジュールを実装した。 次に、ビデオが使用不可能で、画像のみを使用できるタスクのために、画像対ビデオ生成方法を設計する。 ICDAR2015, MSRA-TD500, ICDAR2017 MLTなどの標準ベンチマーク実験の結果, 自己学習法の有効性が示された。 自己学習と実データによる微調整を施したシンプルなMask R-CNNは、最先端の手法で同等あるいはそれ以上の結果が得られる。

Though deep learning based scene text detection has achieved great progress, well-trained detectors suffer from severe performance degradation for different domains. In general, a tremendous amount of data is indispensable to train the detector in the target domain. However, data collection and annotation are expensive and time-consuming. To address this problem, we propose a self-training framework to automatically mine hard examples with pseudo-labels from unannotated videos or images. To reduce the noise of hard examples, a novel text mining module is implemented based on the fusion of detection and tracking results. Then, an image-to-video generation method is designed for the tasks that videos are unavailable and only images can be used. Experimental results on standard benchmarks, including ICDAR2015, MSRA-TD500, ICDAR2017 MLT, demonstrate the effectiveness of our self-training method. The simple Mask R-CNN adapted with self-training and fine-tuned on real data can achieve comparable or even superior results with the state-of-the-art methods.
翻訳日:2022-11-30 03:35:20 公開日:2020-05-23
# ディープラーニングを用いた逆マルチクラスadaboostによる水中物体検出

Underwater object detection using Invert Multi-Class Adaboost with deep learning ( http://arxiv.org/abs/2005.11552v1 )

ライセンス: Link先を確認
Long Chen, Zhihua Liu, Lei Tong, Zheheng Jiang, Shengke Wang, Junyu Dong, Huiyu Zhou(参考訳) 近年、ディープラーニングに基づく手法は、標準オブジェクト検出において有望な性能を達成している。 しかし, これらの手法では, 水中物体検出に十分な能力が欠如している。(1) 実際のアプリケーションにおける物体は通常小さく, 画像はぼやけており, (2) 水中データセットや実アプリケーションの画像は異種ノイズを伴う。 この2つの問題に対処するために,まず,サンプル重み付きハイパーネットワーク(swipenet)という,小型オブジェクト検出のための新しいニューラルネットワークアーキテクチャを提案する。 SWIPENetは高解像度でセマンティックなハイパーフィーチャーマップで構成されており、小さなオブジェクト検出精度を大幅に向上させることができる。 さらに,新しいサンプル重み付けアルゴリズムである逆マルチクラスadaboost (ima) を用いて,スウィッチネットのサンプル重み付けをモデル化し,提案するスウィッチネットに対するノイズの影響を低減する新しいサンプル重み付け損失関数を提案する。 URPC2017とURPC2018の2つの水中ロボットピッキングコンテストデータセットの実験により、提案したSWIPENet+IMAフレームワークは、最先端のオブジェクト検出アプローチに対して、検出精度が向上することを示した。

In recent years, deep learning based methods have achieved promising performance in standard object detection. However, these methods lack sufficient capabilities to handle underwater object detection due to these challenges: (1) Objects in real applications are usually small and their images are blurry, and (2) images in the underwater datasets and real applications accompany heterogeneous noise. To address these two problems, we first propose a novel neural network architecture, namely Sample-WeIghted hyPEr Network (SWIPENet), for small object detection. SWIPENet consists of high resolution and semantic rich Hyper Feature Maps which can significantly improve small object detection accuracy. In addition, we propose a novel sample-weighted loss function which can model sample weights for SWIPENet, which uses a novel sample re-weighting algorithm, namely Invert Multi-Class Adaboost (IMA), to reduce the influence of noise on the proposed SWIPENet. Experiments on two underwater robot picking contest datasets URPC2017 and URPC2018 show that the proposed SWIPENet+IMA framework achieves better performance in detection accuracy against several state-of-the-art object detection approaches.
翻訳日:2022-11-30 03:29:33 公開日:2020-05-23
# 侵入検知システムにおけるビッグデータを用いたデータマイニング:システム文献レビュー

Data Mining with Big Data in Intrusion Detection Systems: A Systematic Literature Review ( http://arxiv.org/abs/2005.12267v1 )

ライセンス: Link先を確認
Fadi Salo, MohammadNoor Injadat, Ali Bou Nassif, Aleksander Essex(参考訳) クラウドコンピューティングは、複雑でハイパフォーマンスでスケーラブルな計算に欠かせない技術になっている。 クラウド技術の展開における指数関数的な拡大は、さまざまなアプリケーション、リソース、プラットフォームから大量のデータを生み出しました。 結果として、データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めています。 そのため、ビッグデータ環境における侵入検知システム(ids)の設計と展開が重要になっている。 本稿では,2013~2018年を通じて,idsベースのソリューションで使用されるデータマイニング技術(dmt)の体系的文献レビュー(slr)を行う。 本研究は,32項目を同定する基準に基づく推定サンプリングを実施し,本調査の原点となった。 これらの項目を慎重に調査した結果,IDSコンテキストに展開する17個のDMTが同定された。 本稿では、DMTと分散ストリーミングフレームワーク(DSF)を実装し、ビッグデータ環境における悪意のある攻撃を検知および/または防止するための様々な研究のメリットと欠点について述べる。

Cloud computing has become a powerful and indispensable technology for complex, high performance and scalable computation. The exponential expansion in the deployment of cloud technology has produced a massive amount of data from a variety of applications, resources and platforms. In turn, the rapid rate and volume of data creation has begun to pose significant challenges for data management and security. The design and deployment of intrusion detection systems (IDS) in the big data setting has, therefore, become a topic of importance. In this paper, we conduct a systematic literature review (SLR) of data mining techniques (DMT) used in IDS-based solutions through the period 2013-2018. We employed criterion-based, purposive sampling identifying 32 articles, which constitute the primary source of the present survey. After a careful investigation of these articles, we identified 17 separate DMTs deployed in an IDS context. This paper also presents the merits and disadvantages of the various works of current research that implemented DMTs and distributed streaming frameworks (DSF) to detect and/or prevent malicious attacks in a big data environment.
翻訳日:2022-11-30 03:29:13 公開日:2020-05-23
# 階層型グラフポーリングニューラルネットワークの逆攻撃

Adversarial Attack on Hierarchical Graph Pooling Neural Networks ( http://arxiv.org/abs/2005.11560v1 )

ライセンス: Link先を確認
Haoteng Tang, Guixiang Ma, Yurong Chen, Lei Guo, Wei Wang, Bo Zeng, Liang Zhan(参考訳) 近年、ノード分類やグラフ分類など、多くのタスクにおいて、グラフ表現学習の強力なアプローチとして示されているグラフニューラルネットワーク(gnns)の出現と開発が目撃されている。 これらのモデルの堅牢性に関する研究は、機械学習分野でも注目を集め始めている。 しかし、この領域における既存の研究のほとんどはノードレベルのタスクのためのGNNに焦点を当てているが、グラフ分類タスクのためのGNNの堅牢性の研究はほとんど行われていない。 本稿では,階層型グラフプーリング(hgp)ニューラルネットワークの脆弱性について検討することを目的とした。 本稿では,この課題に対する敵攻撃フレームワークを提案する。 具体的には,階層型gnnベースのグラフ分類モデルを騙すために,畳み込み演算子とプール演算子からなるサロゲートモデルを設計する。 我々は、プール演算子によって保存されたノードを攻撃ターゲットに設定し、次に攻撃対象を少しゆがめ、階層的なGNNでプール演算子を騙して、保存すべき間違ったノードを選択する。 代理モデルによる複数のデータセットから生成された逆数サンプルは、現在の最先端グラフ分類モデルを攻撃するのに十分な転送性を有することを示す。 さらに,ターゲットモデル上でロバストなトレインを行い,再トレーニングされたグラフ分類モデルが,敵のサンプルからの攻撃に対してよりよく防御できることを実証する。 我々の知る限りでは、これは階層的なGNNベースのグラフ分類モデルに対する敵攻撃に関する最初の研究である。

Recent years have witnessed the emergence and development of graph neural networks (GNNs), which have been shown as a powerful approach for graph representation learning in many tasks, such as node classification and graph classification. The research on the robustness of these models has also started to attract attentions in the machine learning field. However, most of the existing work in this area focus on the GNNs for node-level tasks, while little work has been done to study the robustness of the GNNs for the graph classification task. In this paper, we aim to explore the vulnerability of the Hierarchical Graph Pooling (HGP) Neural Networks, which are advanced GNNs that perform very well in the graph classification in terms of prediction accuracy. We propose an adversarial attack framework for this task. Specifically, we design a surrogate model that consists of convolutional and pooling operators to generate adversarial samples to fool the hierarchical GNN-based graph classification models. We set the preserved nodes by the pooling operator as our attack targets, and then we perturb the attack targets slightly to fool the pooling operator in hierarchical GNNs so that they will select the wrong nodes to preserve. We show the adversarial samples generated from multiple datasets by our surrogate model have enough transferability to attack current state-of-art graph classification models. Furthermore, we conduct the robust train on the target models and demonstrate that the retrained graph classification models are able to better defend against the attack from the adversarial samples. To the best of our knowledge, this is the first work on the adversarial attack against hierarchical GNN-based graph classification models.
翻訳日:2022-11-30 03:28:14 公開日:2020-05-23
# パーソナライズドレコメンデーションのためのスキューネスランキング最適化

Skewness Ranking Optimization for Personalized Recommendation ( http://arxiv.org/abs/2005.12971v1 )

ライセンス: Link先を確認
Chuan-Ju Wang, Yu-Neng Chuang, Chih-Ming Chen, and Ming-Feng Tsai(参考訳) 本稿では,スキュー正規分布の特徴を利用してパーソナライズされたレコメンデーションの問題をモデル化する新しい最適化基準を提案する。 具体的には、開発基準は、最適化基準に3つのハイパーパラメータをアタッチしたスキュー正規分布の概念と柔軟性を借用する。 さらに, 理論的な観点からは, 提案基準の最大化とスキュー正規分布の形状パラメータの関係を確立するだけでなく, ROC曲線の下での領域の最大化に対する提案基準の類似性や漸近解析も提供する。 大規模実世界のデータセットで行った実験の結果、我々のモデルが最先端の技術を著しく上回っており、テストされたデータセットで一貫して最高のパフォーマンスが得られることがわかった。

In this paper, we propose a novel optimization criterion that leverages features of the skew normal distribution to better model the problem of personalized recommendation. Specifically, the developed criterion borrows the concept and the flexibility of the skew normal distribution, based on which three hyperparameters are attached to the optimization criterion. Furthermore, from a theoretical point of view, we not only establish the relation between the maximization of the proposed criterion and the shape parameter in the skew normal distribution, but also provide the analogies and asymptotic analysis of the proposed criterion to maximization of the area under the ROC curve. Experimental results conducted on a range of large-scale real-world datasets show that our model significantly outperforms the state of the art and yields consistently best performance on all tested datasets.
翻訳日:2022-11-30 03:27:50 公開日:2020-05-23
# 運動画像の感情障害脳波分類

Emotion-robust EEG Classification for Motor Imagery ( http://arxiv.org/abs/2005.13523v1 )

ライセンス: Link先を確認
Abdul Moeed(参考訳) 脳コンピュータインタフェース(BCI)の開発は、補助システムでの使用を通じて、重度の物理的不安を持つ人々に権限を与えている。 これを達成するための一般的な方法は、脳信号を特定のコマンドのコードにマッピングするMotor Imagery (MI) である。 脳波(eeg)は、その非侵襲性を考慮して脳信号を記録するのに好ましい。 実用性はあるものの、MI-BCIシステムはまだ研究所に限られている。 主な原因は、そのようなシステムの堅牢性の欠如である。 cybathlon 2016の2つのチームによって仮定されたように、システムの脆弱性の特定の原因は、被験者の感情的な覚醒状態の急激な変化である。 この研究は、MI-BCIシステムをこのような感情的な摂動に耐性を持たせることを目的としている。 そのため、脳波データを記録する前に、被験者は高低刺激のバーチャルリアリティ(VR)環境に晒される。 新型コロナウイルス(COVID-19)の出現により、方法論の変更を余儀なくされました。 感情的な覚醒を分類するために機械学習アルゴリズムを訓練する代わりに、各状態のプロキシとして機能する対象を分類する。 さらに、MIモデルは各覚醒状態の代わりに各主題に対して訓練される。 MI-BCIを使用するためのトレーニング対象は困難で時間のかかるプロセスであるため、このばらつきを低減し、ロバスト性を高めることは、BCIを利用した補助技術の受容と採用を著しく加速させる。

Developments in Brain Computer Interfaces (BCIs) are empowering those with severe physical afflictions through their use in assistive systems. Common methods of achieving this is via Motor Imagery (MI), which maps brain signals to code for certain commands. Electroencephalogram (EEG) is preferred for recording brain signal data on account of it being non-invasive. Despite their potential utility, MI-BCI systems are yet confined to research labs. A major cause for this is lack of robustness of such systems. As hypothesized by two teams during Cybathlon 2016, a particular source of the system's vulnerability is the sharp change in the subject's state of emotional arousal. This work aims towards making MI-BCI systems resilient to such emotional perturbations. To do so, subjects are exposed to high and low arousal-inducing virtual reality (VR) environments before recording EEG data. The advent of COVID-19 compelled us to modify our methodology. Instead of training machine learning algorithms to classify emotional arousal, we opt for classifying subjects that serve as proxy for each state. Additionally, MI models are trained for each subject instead of each arousal state. As training subjects to use MI-BCI can be an arduous and time-consuming process, reducing this variability and increasing robustness can considerably accelerate the acceptance and adoption of assistive technologies powered by BCI.
翻訳日:2022-11-30 03:27:01 公開日:2020-05-23
# 超球面前駆体としてのドメイン知識によるファイングラインドファウショットビジョン

Fine-Grain Few-Shot Vision via Domain Knowledge as Hyperspherical Priors ( http://arxiv.org/abs/2005.11450v1 )

ライセンス: Link先を確認
Bijan Haney and Alexander Lavin(参考訳) プロトタイプネットワークはコンピュータビジョンにおける数発の学習タスクでうまく機能することが示されている。 しかしこれらのネットワークは、クラスが互いに非常によく似ていて(きめの細かい分類)、現在(表データを用いて)事前の知識を考慮しない場合に苦労している。 球面ラテント空間を用いてプロトタイプを符号化し、クラスを極大に分離し、ドメイン知識を情報的先行として組み込むことにより、数発の細粒度分類を実現できる。 本稿では,a-prioriドメイン情報を埋め込んだプロトタイプのハイパースフィアを構築する方法について述べるとともに,1ショットの分類とトレーニング時間の5倍のスピードアップで,詳細な分類を行うためのベンチマークデータセットに対するアプローチの有効性を示す。

Prototypical networks have been shown to perform well at few-shot learning tasks in computer vision. Yet these networks struggle when classes are very similar to each other (fine-grain classification) and currently have no way of taking into account prior knowledge (through the use of tabular data). Using a spherical latent space to encode prototypes, we can achieve few-shot fine-grain classification by maximally separating the classes while incorporating domain knowledge as informative priors. We describe how to construct a hypersphere of prototypes that embed a-priori domain information, and demonstrate the effectiveness of the approach on challenging benchmark datasets for fine-grain classification, with top results for one-shot classification and 5x speedups in training time.
翻訳日:2022-11-30 03:26:42 公開日:2020-05-23
# 自動車運転における自然主義的運転データからの学習

Learning from Naturalistic Driving Data for Human-like Autonomous Highway Driving ( http://arxiv.org/abs/2005.11470v1 )

ライセンス: Link先を確認
Donghao Xu, Zhezhang Ding, Xu He, Huijing Zhao, Mathieu Moze, Fran\c{c}ois Aioun, and Franck Guillemard(参考訳) 自動運転車がスマートで予測可能な交通参加者であることは、人間のような方法での運転が重要である。 この目標を達成するには、動き計画モジュールのパラメータを慎重に調整する必要がある。 本研究では,自然な運転データから移動プランナのコストパラメータを学習する手法を提案する。 この学習は、選択された軌跡に同一の交通状況下での人間の運転軌跡を近似させることにより達成される。 採用された運動プランナーは、まず軌道空間の候補軌跡をサンプリングし、計画された軌跡として最小限のコストで選択するという広く受け入れられた手法に従う。 また, 快適性, 効率性, 安全性などの従来の要因に加えて, コスト関数が人間の運転者のような行動決定のインセンティブを組み込むことにより, レーン変更決定と運動計画の両方を一つの枠組みに統合する。 2種類のレーンインセンティブコスト - ヒューリスティックと学習ベース - が提案され、実装されている。 提案手法の有効性を検証するため,北京市内の高速道路で収集された運転者の自然な軌跡データを用いて,左車線と右車線に対する車線変化のサンプルを含むデータセットを開発した。 レーン変更決定と運動計画の両方について実験を行い、有望な結果を得る。

Driving in a human-like manner is important for an autonomous vehicle to be a smart and predictable traffic participant. To achieve this goal, parameters of the motion planning module should be carefully tuned, which needs great effort and expert knowledge. In this study, a method of learning cost parameters of a motion planner from naturalistic driving data is proposed. The learning is achieved by encouraging the selected trajectory to approximate the human driving trajectory under the same traffic situation. The employed motion planner follows a widely accepted methodology that first samples candidate trajectories in the trajectory space, then select the one with minimal cost as the planned trajectory. Moreover, in addition to traditional factors such as comfort, efficiency and safety, the cost function is proposed to incorporate incentive of behavior decision like a human driver, so that both lane change decision and motion planning are coupled into one framework. Two types of lane incentive cost -- heuristic and learning based -- are proposed and implemented. To verify the validity of the proposed method, a data set is developed by using the naturalistic trajectory data of human drivers collected on the motorways in Beijing, containing samples of lane changes to the left and right lanes, and car followings. Experiments are conducted with respect to both lane change decision and motion planning, and promising results are achieved.
翻訳日:2022-11-30 03:26:26 公開日:2020-05-23
# 整流回路網を用いた構造予測のための学習制約

Learning Constraints for Structured Prediction Using Rectifier Networks ( http://arxiv.org/abs/2006.01209v1 )

ライセンス: Link先を確認
Xingyuan Pan, Maitrey Mehta, Vivek Srikumar(参考訳) 自然言語処理タスクは、複数の相互依存的な決定によって出力が構築される構造的予測問題である。 過去の研究は、出力空間上の制約としてフレーム化されたドメイン知識が予測精度の向上に役立つことを示した。 しかし、良い制約を設計するには、しばしばドメインの専門知識に依存する。 本稿では,そのような制約を学習する問題を考察する。 そこで本研究では,2層整流回路網を訓練して有効な構造やサブ構造を同定し,学習したネットワークを推論変数上の線形制約系に変換する手法を提案する。 いくつかのnlpタスクにおける実験では,学習制約が予測精度を向上できることが示されている。

Various natural language processing tasks are structured prediction problems where outputs are constructed with multiple interdependent decisions. Past work has shown that domain knowledge, framed as constraints over the output space, can help improve predictive accuracy. However, designing good constraints often relies on domain expertise. In this paper, we study the problem of learning such constraints. We frame the problem as that of training a two-layer rectifier network to identify valid structures or substructures, and show a construction for converting a trained network into a system of linear constraints over the inference variables. Our experiments on several NLP tasks show that the learned constraints can improve the prediction accuracy, especially when the number of training examples is small.
翻訳日:2022-11-30 03:18:54 公開日:2020-05-23
# 機械学習におけるアナロジーに基づく説明

Towards Analogy-Based Explanations in Machine Learning ( http://arxiv.org/abs/2005.12800v1 )

ライセンス: Link先を確認
Eyke H\"ullermeier(参考訳) 類似推論の原理は、例えば分類と選好学習の新しい方法を開発するために、機械学習の文脈で最近適用されている。 本稿では,予測精度の高い新しい学習アルゴリズムを構築する上で,類推的推論は確かに有用であるが,解釈可能性や説明可能性の観点からはそれほど興味深いものではないと論じる。 より具体的には、アナロジーに基づくアプローチは、説明可能なAIと解釈可能な機械学習という領域における既存のアプローチの代替手段であり、アナロジーに基づく機械学習アルゴリズムによる予測の説明は、類似性に基づく説明を有意義な方法で補うことができる、という見解を取る。 これらの主張を裏付けるために、アナロジーに基づく説明の基本的な考え方を概説し、いくつかの例を用いてその有用性を説明する。

Principles of analogical reasoning have recently been applied in the context of machine learning, for example to develop new methods for classification and preference learning. In this paper, we argue that, while analogical reasoning is certainly useful for constructing new learning algorithms with high predictive accuracy, is is arguably not less interesting from an interpretability and explainability point of view. More specifically, we take the view that an analogy-based approach is a viable alternative to existing approaches in the realm of explainable AI and interpretable machine learning, and that analogy-based explanations of the predictions produced by a machine learning algorithm can complement similarity-based explanations in a meaningful way. To corroborate these claims, we outline the basic idea of an analogy-based explanation and illustrate its potential usefulness by means of some examples.
翻訳日:2022-11-30 03:18:43 公開日:2020-05-23
# スキューデータセットのためのアクティブラーニング

Active Learning for Skewed Data Sets ( http://arxiv.org/abs/2005.11442v1 )

ライセンス: Link先を確認
Abbas Kazerouni and Qi Zhao and Jing Xie and Sandeep Tata and Marc Najork(参考訳) 各ラウンドで、エージェントがラベルのないデータポイントのバッチを選択し、ラベルをクエリし、バイナリ分類器を更新する、シーケンシャルなアクティブな学習問題を考える。 本論文では,本論文では,アクティブラーニングに関する研究が豊富に行われているが,重度クラス不均衡(skew)と少量の初期トレーニングデータという2つの特徴を持つ問題に焦点を当てている。 これらの問題は、多くのwebアプリケーションで驚くべき頻度で発生します。 例えば、オンラインコミュニティ(ポルノ、暴力、ヘイトスピーチ)における攻撃的またはセンシティブなコンテンツの検出は、業界や研究コミュニティから大きな注目を集めている。 コンテンツの大部分は攻撃的ではないので、そのようなコンテンツに対する肯定的な例の数は、負の例よりも桁違いに小さい。 さらに、そのような問題を解決するために機械学習モデルを構築する場合、通常は少量の初期訓練データしか存在しない。 これらの問題に対処するために,現在ラベル付けされているトレーニング例を通じて利用可能な知識を活用し,利用可能な大量のラベル付きデータを探索するハイブリッドアクティブラーニングアルゴリズム(hal)を提案する。 シミュレーションの結果から,HALはマージンサンプリングのような強力なベースラインと比較して,ラベル付けするポイントに対して,より優れた選択を行うことが示された。 HALによってラベル付けのために選択された例に基づいて訓練された分類器は、サンプルのラベル付けに同じ予算を与えられたターゲットメトリクス(精度-リコール曲線下の領域など)の基準線を容易に上回る。 halは、さまざまな機械学習アプリケーションに対して、アクティブラーニングを構築するためのシンプルで直感的で、計算が容易な方法を提供すると信じています。

Consider a sequential active learning problem where, at each round, an agent selects a batch of unlabeled data points, queries their labels and updates a binary classifier. While there exists a rich body of work on active learning in this general form, in this paper, we focus on problems with two distinguishing characteristics: severe class imbalance (skew) and small amounts of initial training data. Both of these problems occur with surprising frequency in many web applications. For instance, detecting offensive or sensitive content in online communities (pornography, violence, and hate-speech) is receiving enormous attention from industry as well as research communities. Such problems have both the characteristics we describe -- a vast majority of content is not offensive, so the number of positive examples for such content is orders of magnitude smaller than the negative examples. Furthermore, there is usually only a small amount of initial training data available when building machine-learned models to solve such problems. To address both these issues, we propose a hybrid active learning algorithm (HAL) that balances exploiting the knowledge available through the currently labeled training examples with exploring the large amount of unlabeled data available. Through simulation results, we show that HAL makes significantly better choices for what points to label when compared to strong baselines like margin-sampling. Classifiers trained on the examples selected for labeling by HAL easily out-perform the baselines on target metrics (like area under the precision-recall curve) given the same budget for labeling examples. We believe HAL offers a simple, intuitive, and computationally tractable way to structure active learning for a wide range of machine learning applications.
翻訳日:2022-11-30 03:18:28 公開日:2020-05-23
# 構造帯域に対する信頼度に基づく新しいアルゴリズム

A Novel Confidence-Based Algorithm for Structured Bandits ( http://arxiv.org/abs/2005.11593v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Alessandro Lazaric, Marcello Restelli(参考訳) 各腕の報酬と他の腕の報酬を関連付ける有限腕の確率的バンディットについて検討した。 我々は、与えられた構造を利用して真のバンディット問題のパラメータの上に信頼セットを構築し、全ての準最適アームを迅速に破棄する新しいフェーズドアルゴリズムを導入する。 特に、構造を持たない標準的なバンディットアルゴリズムとは異なり、他のアームを引っ張ることで収集された情報により、サブオプティカルアームが選択された回数が実際に減少する可能性がある。 さらに,いくつかの構造において,アルゴリズムの時間的拡張の後悔は時間とともに一様に有界であることを示す。 これらの定数-回帰構造に対しては、一致する下界も導出する。 最後に,本手法が既存の手法よりも優れた構造を活用できることを数値的に示す。

We study finite-armed stochastic bandits where the rewards of each arm might be correlated to those of other arms. We introduce a novel phased algorithm that exploits the given structure to build confidence sets over the parameters of the true bandit problem and rapidly discard all sub-optimal arms. In particular, unlike standard bandit algorithms with no structure, we show that the number of times a suboptimal arm is selected may actually be reduced thanks to the information collected by pulling other arms. Furthermore, we show that, in some structures, the regret of an anytime extension of our algorithm is uniformly bounded over time. For these constant-regret structures, we also derive a matching lower bound. Finally, we demonstrate numerically that our approach better exploits certain structures than existing methods.
翻訳日:2022-11-30 03:18:00 公開日:2020-05-23
# T$\ell_1$-norm最大化に基づく主成分分析

Principal Component Analysis Based on T$\ell_1$-norm Maximization ( http://arxiv.org/abs/2005.12263v1 )

ライセンス: Link先を確認
Xiang-Fei Yang, Yuan-Hai Shao, Chun-Na Li, Li-Ming Liu, Nai-Yang Deng(参考訳) 古典的主成分分析(PCA)は、外れ値やノイズに対する感度に悩まされる。 したがって、$\ell_1$-normと$\ell_p$-norm(0 < p < 1$)に基づくPCAが研究されている。 その中でも、$\ell_p$-normに基づくものがロバスト性の観点から最も興味深いようである。 しかし、その数値性能は満足できない。 なお、t$\ell_1$-norm は、ある意味では$\ell_p$-norm (0 < p < 1$) に似ているが、外れ値に対するより強い抑制効果とより良い連続性を持つ。 そこで本論文では,T$\ell_1$-normに基づくPCAを提案する。 数値実験により,PCA-$\ell_p$と$\ell_p$SPCAとPCA,PCA-$\ell_1$より優れた性能を示した。

Classical principal component analysis (PCA) may suffer from the sensitivity to outliers and noise. Therefore PCA based on $\ell_1$-norm and $\ell_p$-norm ($0 < p < 1$) have been studied. Among them, the ones based on $\ell_p$-norm seem to be most interesting from the robustness point of view. However, their numerical performance is not satisfactory. Note that, although T$\ell_1$-norm is similar to $\ell_p$-norm ($0 < p < 1$) in some sense, it has the stronger suppression effect to outliers and better continuity. So PCA based on T$\ell_1$-norm is proposed in this paper. Our numerical experiments have shown that its performance is superior than PCA-$\ell_p$ and $\ell_p$SPCA as well as PCA, PCA-$\ell_1$ obviously.
翻訳日:2022-11-30 03:17:49 公開日:2020-05-23
# ProAlignNet : 雑音の進行的調整のための教師なし学習

ProAlignNet : Unsupervised Learning for Progressively Aligning Noisy Contours ( http://arxiv.org/abs/2005.11546v1 )

ライセンス: Link先を確認
VSR Veeravasarapu, Abhishek Goel, Deepak Mittal, Maneesh Singh(参考訳) 輪郭形状のアライメントはコンピュータビジョンにおける基本的な問題であるが、特に観察が部分的でノイズがあり、概ね不一致である場合、難しい問題である。 画像構造を整列させるために提案された最近のConvNetアーキテクチャは、主に、そのトレーニングプロセスにおける損失関数として近接不感な画素単位の類似度測定を使用するため、形状の輪郭表現に失敗する傾向にある。 本研究は,輪郭形状間の大規模不一致と複雑な変換を考慮し,新しいコンブネット「proalignnet」を提案する。 マルチスケールでワープパラメータを推論し、スケールの増大よりも複雑な変換が徐々に増加する。 古典的な形態的チャムファー距離変換を用いた近接感度および局所形状依存類似度測定値の上限から導出される新しい損失関数をトレーニングすることで、輪郭、ノイズ、欠落部分の整列を -- 教師無しで- 学習する。 これらの提案の信頼性を,いくつかの基本的な健全性チェック実験により評価した。 次に,実世界の2つの応用における提案モデルの有効性を実証する。 (i)地理データを航空画像マップに整列すること。 (ii)粗アノテートされたセグメンテーションラベルの精錬 どちらのアプリケーションでも、提案したモデルは最先端の手法よりも一貫して優れている。

Contour shape alignment is a fundamental but challenging problem in computer vision, especially when the observations are partial, noisy, and largely misaligned. Recent ConvNet-based architectures that were proposed to align image structures tend to fail with contour representation of shapes, mostly due to the use of proximity-insensitive pixel-wise similarity measures as loss functions in their training processes. This work presents a novel ConvNet, "ProAlignNet" that accounts for large scale misalignments and complex transformations between the contour shapes. It infers the warp parameters in a multi-scale fashion with progressively increasing complex transformations over increasing scales. It learns --without supervision-- to align contours, agnostic to noise and missing parts, by training with a novel loss function which is derived an upperbound of a proximity-sensitive and local shape-dependent similarity metric that uses classical Morphological Chamfer Distance Transform. We evaluate the reliability of these proposals on a simulated MNIST noisy contours dataset via some basic sanity check experiments. Next, we demonstrate the effectiveness of the proposed models in two real-world applications of (i) aligning geo-parcel data to aerial image maps and (ii) refining coarsely annotated segmentation labels. In both applications, the proposed models consistently perform superior to state-of-the-art methods.
翻訳日:2022-11-30 03:17:28 公開日:2020-05-23