このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210525となっている論文です。

PDF登録状況(公開日: 20210525)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) write by memorizing: 階層的検索に基づく医療レポート生成 [全文訳有]

Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation ( http://arxiv.org/abs/2106.06471v1 )

ライセンス: CC BY 4.0
Xingyi Yang, Muchao Ye, Quanzeng You, Fenglong Ma(参考訳) 医療レポート生成は、医療画像分析において最も難しい課題の1つである。 既存のアプローチは有望な結果を得たが、文章を取得するために事前に定義されたテンプレートデータベースを必要とするか、医学レポート生成の階層的性質を無視している。 そこで本研究では,新しい階層的検索機構を組み込んだメドライタを提案し,臨床的に正確なレポート生成のためのレポートレベルテンプレートと文レベルのテンプレートを自動抽出する。 MedWriterはまずVisual-Language Retrieval~(VLR)モジュールを使用して、与えられた画像の最も関連性の高いレポートを取得する。 文間の論理コヒーレンスを保証するために、言語-言語検索〜(llr)モジュールを導入し、前述した記述に基づいて関連文を取得する。 最後に、言語デコーダは、検索されたレポートと文から画像の特徴と特徴を融合して意味のある医療レポートを生成する。 我々は,Open-IとMIMIC-CXRの2つのデータセットに対して,自動評価と人的評価によるモデルの有効性を検証した。

Medical report generation is one of the most challenging tasks in medical image analysis. Although existing approaches have achieved promising results, they either require a predefined template database in order to retrieve sentences or ignore the hierarchical nature of medical report generation. To address these issues, we propose MedWriter that incorporates a novel hierarchical retrieval mechanism to automatically extract both report and sentence-level templates for clinically accurate report generation. MedWriter first employs the Visual-Language Retrieval~(VLR) module to retrieve the most relevant reports for the given images. To guarantee the logical coherence between sentences, the Language-Language Retrieval~(LLR) module is introduced to retrieve relevant sentences based on the previous generated description. At last, a language decoder fuses image features and features from retrieved reports and sentences to generate meaningful medical reports. We verified the effectiveness of our model by automatic evaluation and human evaluation on two datasets, i.e., Open-I and MIMIC-CXR.
翻訳日:2021-06-20 22:30:43 公開日:2021-05-25
# 距離空間を橋渡しするための学習: インテント検出とスロット充填の少数共同学習

Learning to Bridge Metric Spaces: Few-shot Joint Learning of Intent Detection and Slot Filling ( http://arxiv.org/abs/2106.07343v1 )

ライセンス: Link先を確認
Yutai Hou, Yongkui Lai, Cheng Chen, Wanxiang Che, Ting Liu(参考訳) 本稿では,対話言語理解のための数ショット共同学習について検討する。 既存の少数ショットモデルのほとんどは、わずか数例で1つのタスクを毎回学習する。 しかし、対話言語理解には、意図の検出とスロットフィリングという2つの密接に関連するタスクが含まれており、しばしば2つのタスクを共同で学習する利点がある。 これは、いくつかの例からタスク関係をキャプチャし、共同で複数のタスクを学習できる、新しいマイナショット学習テクニックを提唱するものだ。 これを実現するために,データリッチな領域にインテントとスロットの計量空間を橋渡しし,橋渡しされた距離空間を特定のマイナショット領域に適応させる,類似性に基づくマイナショット学習スキームconpromを提案する。 SnipsとFewJointという2つの公開データセットの実験では、我々のモデルは1枚と5枚のショット設定で強いベースラインを大幅に上回っている。

In this paper, we investigate few-shot joint learning for dialogue language understanding. Most existing few-shot models learn a single task each time with only a few examples. However, dialogue language understanding contains two closely related tasks, i.e., intent detection and slot filling, and often benefits from jointly learning the two tasks. This calls for new few-shot learning techniques that are able to capture task relations from only a few examples and jointly learn multiple tasks. To achieve this, we propose a similarity-based few-shot learning scheme, named Contrastive Prototype Merging network (ConProm), that learns to bridge metric spaces of intent and slot on data-rich domains, and then adapt the bridged metric space to the specific few-shot domain. Experiments on two public datasets, Snips and FewJoint, show that our model significantly outperforms the strong baselines in one and five shots settings.
翻訳日:2021-06-20 16:04:31 公開日:2021-05-25
# 新型コロナウイルス(covid-19)パンデミック発生時におけるアメリカのデジタルニュースメディアの話題モデリングと進展

Topic Modeling and Progression of American Digital News Media During the Onset of the COVID-19 Pandemic ( http://arxiv.org/abs/2106.09572v1 )

ライセンス: Link先を確認
Xiangpeng Wan, Michael C. Lucic, Hakim Ghazzai, Yehia Massoud(参考訳) 現在、世界は深刻な世界的なパンデミックの最中にあり、人々の生活のあらゆる側面に影響を与えている。 その結果、パンデミックの影響の相違により、米国では新型コロナウイルス関連のデジタルメディア記事が大量に掲載されている。 この大量の情報は、十分な時間内にオーディエンスによって消費されることは困難である。 本稿では,様々なデジタル物品を自動で管理可能な情報に抽出できる自然言語処理(NLP)パイプラインを開発した。また,様々なソースからのプッシュ問題(すなわち,COVID-19パンデミック)の包括的視点を読者に迅速に得るために,時間とともに議論される話題をモデル化する。 パンデミックの開始時に、まず大量の新型コロナウイルス関連記事を集めることで、これらの目標を達成する。 その後,非教師なし,半教師なしの学習手順を要約に応用し,コミュニティ検出手法を用いて類似度に基づいて分類した。 次に,BARTアルゴリズムを用いて記事群ごとのトピックを特定する。 最後に、NLP-ピペリン出力に基づく詳細なデジタルメディア分析を行い、COVID-19を取り巻く会話が時間とともにどのように発展していくかを示す。

Currently, the world is in the midst of a severe global pandemic, which has affected all aspects of people's lives. As a result, there is a deluge of COVID-related digital media articles published in the United States, due to the disparate effects of the pandemic. This large volume of information is difficult to consume by the audience in a reasonable amount of time. In this paper, we develop a Natural Language Processing (NLP) pipeline that is capable of automatically distilling various digital articles into manageable pieces of information, while also modelling the progression topics discussed over time in order to aid readers in rapidly gaining holistic perspectives on pressing issues (i.e., the COVID-19 pandemic) from a diverse array of sources. We achieve these goals by first collecting a large corpus of COVID-related articles during the onset of the pandemic. After, we apply unsupervised and semi-supervised learning procedures to summarize articles, then cluster them based on their similarities using the community detection methods. Next, we identify the topic of each cluster of articles using the BART algorithm. Finally, we provide a detailed digital media analysis based on the NLP-pipeline outputs and show how the conversation surrounding COVID-19 evolved over time.
翻訳日:2021-06-20 16:03:36 公開日:2021-05-25
# 自己適応型群集システム(SASS)

Self-Adaptive Swarm System (SASS) ( http://arxiv.org/abs/2106.04679v1 )

ライセンス: Link先を確認
Qin Yang(参考訳) 分散人工知能(DAI)は、AIエンティティが協力して、推論、計画、問題解決、行動と戦略の組織化、集団決定、学習を行う。 この博士論文は、知覚、コミュニケーション、計画、実行、意思決定、学習の間の4段階の自動化ギャップを埋めるための、原則付きマルチエージェントシステム(mas)協調フレームワーク、自己適応スウォームシステム(sass)を提案する。

Distributed artificial intelligence (DAI) studies artificial intelligence entities working together to reason, plan, solve problems, organize behaviors and strategies, make collective decisions and learn. This Ph.D. research proposes a principled Multi-Agent Systems (MAS) cooperation framework, Self-Adaptive Swarm System (SASS), to bridge the fourth level automation gap between perception, communication, planning, execution, decision-making, and learning.
翻訳日:2021-06-13 13:57:40 公開日:2021-05-25
# 逆翻訳とパラフレージングを用いたヘイトスピーチ検出のためのデータ拡張

Data Expansion using Back Translation and Paraphrasing for Hate Speech Detection ( http://arxiv.org/abs/2106.04681v1 )

ライセンス: Link先を確認
Djamila Romaissa Beddiar and Md Saroar Jahan and Mourad Oussalah(参考訳) ソーシャルメディアプラットフォームにおけるユーザ生成コンテンツの普及に伴い、有害コンテンツや虐待コンテンツを自動的に識別するメカニズムの確立が規制当局、研究者、社会にとって大きな関心事となっている。 言論の自由と尊厳のバランスを維持することは、ソーシャルメディアプラットフォーム規制当局にとって大きな関心事である。 ディープラーニングアプローチによる攻撃的コンテンツの自動検出は、励まし効果をもたらすように見えるが、ディープラーニングベースのトレーニングモデルは、しばしば欠落している大量の高品質なラベル付きデータを必要とする。 本稿では,逆変換法を融合する深層学習に基づく新しい手法と,データ拡張のためのパラフレージング手法を提案する。 我々のパイプラインは、ヘイトスピーチの分類のための異なる単語埋め込みに基づくアーキテクチャを探索する。 バック変換技術は、大きなコーパスで事前学習され、主に機械翻訳に使用されるエンコーダ-デコーダアーキテクチャに依存している。 さらに、パラフレーズ化はトランスフォーマーモデルと専門家の混合を利用して多様なパラフレーズを生成する。 最後に、LSTMとCNNを比較して、より高度な分類結果を求める。 我々は、askfmコーパス、formspringデータセット、warnerおよびwaseemデータセット、olid、wikipedia toxic commentsデータセットの5つの公開データセットについて提案を評価した。 提案の性能と関連する結果との比較により,提案の有効性と健全性が示された。

With proliferation of user generated contents in social media platforms, establishing mechanisms to automatically identify toxic and abusive content becomes a prime concern for regulators, researchers, and society. Keeping the balance between freedom of speech and respecting each other dignity is a major concern of social media platform regulators. Although, automatic detection of offensive content using deep learning approaches seems to provide encouraging results, training deep learning-based models requires large amounts of high-quality labeled data, which is often missing. In this regard, we present in this paper a new deep learning-based method that fuses a Back Translation method, and a Paraphrasing technique for data augmentation. Our pipeline investigates different word-embedding-based architectures for classification of hate speech. The back translation technique relies on an encoder-decoder architecture pre-trained on a large corpus and mostly used for machine translation. In addition, paraphrasing exploits the transformer model and the mixture of experts to generate diverse paraphrases. Finally, LSTM, and CNN are compared to seek enhanced classification results. We evaluate our proposal on five publicly available datasets; namely, AskFm corpus, Formspring dataset, Warner and Waseem dataset, Olid, and Wikipedia toxic comments dataset. The performance of the proposal together with comparison to some related state-of-art results demonstrate the effectiveness and soundness of our proposal.
翻訳日:2021-06-13 13:57:30 公開日:2021-05-25
# (参考訳) オンライン広告のための広告戦略レコメンデーションシステム [全文訳有]

We Know What You Want: An Advertising Strategy Recommender System for Online Advertising ( http://arxiv.org/abs/2105.14188v1 )

ライセンス: CC BY 4.0
Liyi Guo, Junqi Jin, Haoqi Zhang, Zhenzhe Zheng, Zhiye Yang, Zhizhuang Xing, Fei Pan, Fan Wu, Lvyin Niu, Haiyang Xu, Chuan Yu, Yuning Jiang, Xiaoqiang Zhu(参考訳) 広告収入がeコマースプラットフォームの主要な収入源であるEコマースプラットフォームにおいて、広告主は重要な役割を担っている。 したがって、広告リアルタイム入札における試行錯誤のコストを減らし、広告主により良い広告体験を提供することは、Eコマースプラットフォームの長期的な収益に不可欠である。 この目標を達成するために、広告プラットフォームは広告主のユニークなマーケティング要求を理解し、パーソナライズされた最適な広告戦略を積極的に推奨する必要がある。 本研究では,タオバオディスプレイ広告プラットフォーム上で,一定入札と群集最適化のためのプロトタイプレコメンデータシステムを最初に展開する。 そこで本稿では,広告主の戦略推薦問題を文脈的帯域幅問題としてモデル化した動的入札戦略推薦システムを提案する。 ニューラルネットワークをエージェントとして使用して,広告主のプロファイルや過去の採用行動に基づいて,広告主の要求を予測する。 推定された需要に基づいて,提案の最適な入札戦略を導出し,広告性能を表示させることで広告主と対話するシミュレーション入札を行う。 探索・探索ジレンマを解決するため,ネットワークの不確実性を表すためにDropoutを用いて,効率的な戦略探索のためのトンプソンサンプリングを行う。 オンライン評価では、システムは広告主の広告パフォーマンスを最適化でき、広告主はシステムを開き、提案を選択し、採用し、プラットフォームの売上をさらに増やすことができる。 Alibabaのオンライン入札データに基づくシミュレーション実験では、エージェントが広告主の採用率を効果的に最適化できることが証明されている。

Advertisers play an important role in e-commerce platforms, whose advertising expenditures are the main source of revenue for e-commerce platforms. Therefore, providing advertisers with a better advertising experience by reducing their cost of trial and error during ad real-time bidding is crucial to the long-term revenue of e-commerce platforms. To achieve this goal, the advertising platform needs to understand the advertisers' unique marketing demands and actively recommend personalized and optimal advertising strategies for them. In this work, we first deploy a prototype recommender system on Taobao display advertising platform for constant bid and crowd optimization. Then, we propose a novel recommender system for dynamic bidding strategy recommendation, which models the advertiser's strategy recommendation problem as a contextual bandit problem. We use a neural network as the agent to predict the advertisers' demands based on their profile and historical adoption behaviors. Based on the estimated demand, we apply simulated bidding to derive the optimal bidding strategy for recommendation and interact with the advertiser by displaying the possible advertising performance. To solve the exploration/exploita tion dilemma, we use Dropout to represent the uncertainty of the network, which approximately equals to conduct Thompson sampling for efficient strategy exploration. Online evaluations show that the system can optimize the advertisers' advertising performance, and advertisers are willing to open the system, select and adopt the suggestions, which further increases the platform's revenue income. Simulation experiments based on Alibaba online bidding data prove that the agent can effectively optimize the adoption rate of advertisers, and Thompson sampling can better balance exploration and exploitation to further optimize the performance of the model.
翻訳日:2021-06-06 09:16:57 公開日:2021-05-25
# データ拡張によるマルチモーダルモデルパフォーマンスの強化: Facebookのヘイトなミームチャレンジソリューション

Enhance Multimodal Model Performance with Data Augmentation: Facebook Hateful Meme Challenge Solution ( http://arxiv.org/abs/2105.13132v1 )

ライセンス: Link先を確認
Yang Li, Zinc Zhang, Hutchin Huang(参考訳) 有害なコンテンツ検出は、ディープラーニングが実現し、大きな違いをもたらす分野のひとつです。 FacebookのHateful Memes Challengeは、ディープラーニングアルゴリズムを使用したマルチモーダルミームにおけるヘイトフルスピーチの検出に挑戦することで、そのような可能性を達成するのに役立つ。 本稿では,VilBERT と Visual BERT を用いたマルチモーダル・事前学習モデルを提案する。 データ拡張から生成されたトレーニングデータセットを追加することで、モデルのパフォーマンスを改善した。 トレーニングデータセットの拡大は、Visual BERTモデルでAUROCを2%以上向上させるのに役立ちました。 提案手法は0.7439 AUROCを精度0.7037で達成し,顕著な進歩を示した。

Hateful content detection is one of the areas where deep learning can and should make a significant difference. The Hateful Memes Challenge from Facebook helps fulfill such potential by challenging the contestants to detect hateful speech in multi-modal memes using deep learning algorithms. In this paper, we utilize multi-modal, pre-trained models VilBERT and Visual BERT. We improved models' performance by adding training datasets generated from data augmentation. Enlarging the training data set helped us get a more than 2% boost in terms of AUROC with the Visual BERT model. Our approach achieved 0.7439 AUROC along with an accuracy of 0.7037 on the challenge's test set, which revealed remarkable progress.
翻訳日:2021-05-28 16:03:44 公開日:2021-05-25
# (参考訳) 楕円型正規埋め込み [全文訳有]

Elliptical Ordinal Embedding ( http://arxiv.org/abs/2105.10457v2 )

ライセンス: CC BY 4.0
A\"issatou Diallo and Johannes F\"urnkranz(参考訳) 通常の埋め込みは、"item $j$ is close to item $i$ than item $k$"という形式の制約の集合からオブジェクトの低次元表現を見つけることを目的としている。 典型的には、各対象は低次元距離空間内の点ベクトルに写像される。 我々は、点ベクトルではなく密度への写像は、表現そのものとその空間における相対的な位置に関する不確かさを本質的に反映するなど、興味深い利点をもたらすと主張している。 実際、本論文では、各対象をガウス分布として埋め込むことを提案する。 本研究では,これらの埋め込みが制約を満たすことなくデータの基盤構造を捕捉し,表現の性質を探求する能力について検討する。 合成および実世界のデータセットの実験は、我々のアプローチの利点を示している。 さらに、空間内のマッピング対象の視覚的知覚を豊かにする不確実性をモデル化する利点について述べる。

Ordinal embedding aims at finding a low dimensional representation of objects from a set of constraints of the form "item $j$ is closer to item $i$ than item $k$". Typically, each object is mapped onto a point vector in a low dimensional metric space. We argue that mapping to a density instead of a point vector provides some interesting advantages, including an inherent reflection of the uncertainty about the representation itself and its relative location in the space. Indeed, in this paper, we propose to embed each object as a Gaussian distribution. We investigate the ability of these embeddings to capture the underlying structure of the data while satisfying the constraints, and explore properties of the representation. Experiments on synthetic and real-world datasets showcase the advantages of our approach. In addition, we illustrate the merit of modelling uncertainty, which enriches the visual perception of the mapped objects in the space.
翻訳日:2021-05-28 09:28:11 公開日:2021-05-25
# (参考訳) GapPredict: ドラフトゲノム集合におけるギャップ解消のための言語モデル [全文訳有]

GapPredict: A Language Model for Resolving Gaps in Draft Genome Assemblies ( http://arxiv.org/abs/2105.10552v2 )

ライセンス: CC BY 4.0
Eric Chen, Justin Chu, Jessica Zhang, Rene L. Warren, Inanc Birol(参考訳) 短読DNAシークエンシング装置は、1ランあたり1e+12塩基以上、通常150塩基以上からなる。 この高いスループットにもかかわらず、de novoアセンブリーアルゴリズムは、これらのゲノムの繰り返し領域と難易度領域の両方により、短い読み込みを用いて連続したゲノム配列の再構築が困難である。 短い読み取りアセンブリの課題のいくつかは、ペアエンド読み込みを使用して組み立てられたシーケンスを足場にすることで軽減される。 しかし、これらの足場の未解決配列は「ギャップ」として現れる。 本稿では,キャラクタレベル言語モデルを用いて足場ギャップ内の未解決ヌクレオチドを予測するツールであるgappredictを紹介する。 我々は,最先端のギャップ充填ツールシールに対するgap予測をベンチマークし,後者が未充填で残したサンプルギャップの65.6%を前者が満たせることを観察し,ゲノム配列集合におけるギャップ充填問題に対するディープラーニングアプローチの実用性を示した。

Short-read DNA sequencing instruments can yield over 1e+12 bases per run, typically composed of reads 150 bases long. Despite this high throughput, de novo assembly algorithms have difficulty reconstructing contiguous genome sequences using short reads due to both repetitive and difficult-to-sequenc e regions in these genomes. Some of the short read assembly challenges are mitigated by scaffolding assembled sequences using paired-end reads. However, unresolved sequences in these scaffolds appear as "gaps". Here, we introduce GapPredict, a tool that uses a character-level language model to predict unresolved nucleotides in scaffold gaps. We benchmarked GapPredict against the state-of-the-art gap-filling tool Sealer, and observed that the former can fill 65.6% of the sampled gaps that were left unfilled by the latter, demonstrating the practical utility of deep learning approaches to the gap-filling problem in genome sequence assembly.
翻訳日:2021-05-28 09:09:20 公開日:2021-05-25
# (参考訳) AutoReCon: データフリー圧縮のためのニューラルアーキテクチャ検索に基づく再構築 [全文訳有]

AutoReCon: Neural Architecture Search-based Reconstruction for Data-free Compression ( http://arxiv.org/abs/2105.12151v1 )

ライセンス: CC BY 4.0
Baozhou Zhu and Peter Hofstee and Johan Peltenburg and Jinho Lee and Zaid Alars(参考訳) データフリー圧縮は、プライバシや送信の問題のために圧縮される事前トレーニングモデルのトレーニングデータセットが利用できないため、新しい課題を提起する。 したがって、圧縮の前に再構成されたトレーニングデータセットを計算するのが一般的な方法である。 現在の再構成法は、事前学習したモデルからの情報を活用して、再構成されたトレーニングデータセットをジェネレータで計算する。 しかし,現在の再構成手法では,事前学習したモデルからより多くの情報を抽出することに注力するが,ネットワーク工学を活用しない。 この研究は、ネットワーク工学を再構築手法の設計手法として考える最初のものである。 具体的には,ニューラルアーキテクチャ検索に基づく再構成手法であるAutoReConを提案する。 提案したAutoReCon法では, 事前学習した再構成モデルにより, ジェネレータアーキテクチャを自動設計する。 実験結果から,AutoRecon法で検出したジェネレータを用いることで,データフリー圧縮の性能が常に向上することがわかった。

Data-free compression raises a new challenge because the original training dataset for a pre-trained model to be compressed is not available due to privacy or transmission issues. Thus, a common approach is to compute a reconstructed training dataset before compression. The current reconstruction methods compute the reconstructed training dataset with a generator by exploiting information from the pre-trained model. However, current reconstruction methods focus on extracting more information from the pre-trained model but do not leverage network engineering. This work is the first to consider network engineering as an approach to design the reconstruction method. Specifically, we propose the AutoReCon method, which is a neural architecture search-based reconstruction method. In the proposed AutoReCon method, the generator architecture is designed automatically given the pre-trained model for reconstruction. Experimental results show that using generators discovered by the AutoRecon method always improve the performance of data-free compression.
翻訳日:2021-05-28 08:23:34 公開日:2021-05-25
# (参考訳) IntelliCAT: 品質推定と翻訳提案を備えたインテリジェント機械翻訳後編集 [全文訳有]

IntelliCAT: Intelligent Machine Translation Post-Editing with Quality Estimation and Translation Suggestion ( http://arxiv.org/abs/2105.12172v1 )

ライセンス: CC BY 4.0
Dongjun Lee, Junhyeong Ahn, Heesoo Park, Jaemin Jo(参考訳) 我々は、機械翻訳出力における後処理プロセスを合理化するニューラルネットワークを用いた対話型翻訳インタフェースであるIntelliCATを提案する。 各機械翻訳文の品質を予測する文レベルqeと、修正を必要とする機械翻訳文の部分を特定する単語レベルqeの2つの粒度で品質推定(qe)モデルを利用する。 さらに、左右の文脈を条件とした新しい翻訳提案モデルを導入し、修正のための特定の単語や句の代替案を提供する。 最後に、単語アライメントにより、IntelliCATは翻訳された文書に元の文書のスタイルを自動的に保存する。 提案するqeと翻訳提案に基づく後編集により,翻訳品質が著しく向上することを示す。 さらに、ユーザ調査により、intellicatが提供する3つの機能は、スクラッチからの翻訳に比べて翻訳時間の52.9\%のスピードアップを達成し、後編集タスクを著しく加速することが判明した。 インターフェースはhttps://intellicat.b eringlab.com/で公開されている。

We present IntelliCAT, an interactive translation interface with neural models that streamline the post-editing process on machine translation output. We leverage two quality estimation (QE) models at different granularities: sentence-level QE, to predict the quality of each machine-translated sentence, and word-level QE, to locate the parts of the machine-translated sentence that need correction. Additionally, we introduce a novel translation suggestion model conditioned on both the left and right contexts, providing alternatives for specific words or phrases for correction. Finally, with word alignments, IntelliCAT automatically preserves the original document's styles in the translated document. The experimental results show that post-editing based on the proposed QE and translation suggestions can significantly improve translation quality. Furthermore, a user study reveals that three features provided in IntelliCAT significantly accelerate the post-editing task, achieving a 52.9\% speedup in translation time compared to translating from scratch. The interface is publicly available at https://intellicat.b eringlab.com/.
翻訳日:2021-05-28 08:05:14 公開日:2021-05-25
# (参考訳) 奥行き完了・拡張のための自己ガイド型インスタンス認識ネットワーク [全文訳有]

Self-Guided Instance-Aware Network for Depth Completion and Enhancement ( http://arxiv.org/abs/2105.12186v1 )

ライセンス: CC BY 4.0
Zhongzhen Luo, Fengjia Zhang, Guoyi Fu, Jiajie Xu(参考訳) 奥行き完了は、光沢、透明または遠方の表面をセンサで適切にスキャンできないため、スパース深度測定から濃密な深度画像の推測を目的としている。 既存の手法のほとんどは、画素ワイド画像の内容とそれに対応する深度値に基づいて、欠落した深度測定を直接補間する。 その結果、オブジェクトの境界がぼやけ、不正確な構造になる。 To address these problems, we propose a novel self-guided instance-aware network (SG-IANet) that: (1) utilize self-guided mechanism to extract instance-level features that is needed for depth restoration, (2) exploit the geometric and context information into network learning to conform to the underlying constraints for edge clarity and structure consistency, (3) regularize the depth estimation and mitigate the impact of noise by instance-aware learning, and (4) train with synthetic data only by domain randomization to bridge the reality gap. 合成および実世界のデータセットに関する大規模な実験により,提案手法が従来の手法より優れていることを示す。 さらなるアブレーション研究は、提案手法のさらなる洞察を与え、我々のモデルの一般化能力を実証する。

Depth completion aims at inferring a dense depth image from sparse depth measurement since glossy, transparent or distant surface cannot be scanned properly by the sensor. Most of existing methods directly interpolate the missing depth measurements based on pixel-wise image content and the corresponding neighboring depth values. Consequently, this leads to blurred boundaries or inaccurate structure of object. To address these problems, we propose a novel self-guided instance-aware network (SG-IANet) that: (1) utilize self-guided mechanism to extract instance-level features that is needed for depth restoration, (2) exploit the geometric and context information into network learning to conform to the underlying constraints for edge clarity and structure consistency, (3) regularize the depth estimation and mitigate the impact of noise by instance-aware learning, and (4) train with synthetic data only by domain randomization to bridge the reality gap. Extensive experiments on synthetic and real world dataset demonstrate that our proposed method outperforms previous works. Further ablation studies give more insights into the proposed method and demonstrate the generalization capability of our model.
翻訳日:2021-05-28 07:47:55 公開日:2021-05-25
# (参考訳) 安全な値関数 [全文訳有]

Safe Value Functions ( http://arxiv.org/abs/2105.12204v1 )

ライセンス: CC BY 4.0
Pierre-Fran\c{c}ois Massiani, Steve Heim, Friedrich Solowjow, Sebastian Trimpe(参考訳) 制御における安全性と最適性の関係はよく理解されておらず、しばしば重要なが矛盾する目標と見なされる。 この関係を形式化する必要性は、特に学習ベースの方法の隆盛を考えると、差し迫っている。 実際、強化学習では、単純に報酬関数を罰則化することで修正することが一般的であり、罰は単なるヒューリスティックとして扱われる。 我々は、この関係を厳格に検証し、安全な値関数:与えられたタスクに最適な値関数の要件を定式化し、安全性を強制する。 強い双対性の証明を通してこの関係の構造を明らかにし、安全値関数を誘導する有限ペナルティが常に存在することを示す。 このペナルティは一意ではないが、上限は高く、より大きなペナルティは最適性に害を及ぼさない。 必要最小限のペナルティを計算することはしばしば不可能であるが、ペナルティ、報酬、ディスカウントファクター、ダイナミクスの相互作用の明確な構造を明らかにする。 この知見は、安全が重要である制御問題に対して報奨関数を設計するための実践的で理論的なヒューリスティックを示唆する。

The relationship between safety and optimality in control is not well understood, and they are often seen as important yet conflicting objectives. There is a pressing need to formalize this relationship, especially given the growing prominence of learning-based methods. Indeed, it is common practice in reinforcement learning to simply modify reward functions by penalizing failures, with the penalty treated as a mere heuristic. We rigorously examine this relationship, and formalize the requirements for safe value functions: value functions that are both optimal for a given task, and enforce safety. We reveal the structure of this relationship through a proof of strong duality, showing that there always exists a finite penalty that induces a safe value function. This penalty is not unique, but upper-unbounded: larger penalties do not harm optimality. Although it is often not possible to compute the minimum required penalty, we reveal clear structure of how the penalty, rewards, discount factor, and dynamics interact. This insight suggests practical, theory-guided heuristics to design reward functions for control problems where safety is important.
翻訳日:2021-05-28 07:30:23 公開日:2021-05-25
# (参考訳) ベイズおよびクレダルネットワークにおける適応テストのための新しいスコア [全文訳有]

A New Score for Adaptive Tests in Bayesian and Credal Networks ( http://arxiv.org/abs/2105.12205v1 )

ライセンス: CC BY 4.0
Alessandro Antonucci and Francesca Mangili and Claudio Bonesana and Giorgia Adorni(参考訳) テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。 ベイジアンネットワークのようなグラフィカルモデルは、特に複数のスキルを扱う際に、質問やスキルに関する不確実性を説明可能な方法でモデル化できるため、適応テストに使用される。 質問/スキル関係における不確実性のより良い推論は、間隔確率によって達成できる。 これにより、モデルがクレーダルネットワークになるため、質問を選択するのに必要なクエリの推測的な複雑さが難しくなります。 これは特に、適応機構を駆動するためにスコアとして使われる情報理論量の場合である。 我々は,後方確率のモードに基づくスコアの代替系を示し,それゆえ説明が容易である。 これにより, 適応過程の品質に悪影響を及ぼすことなく, クレーダルケースの評価を大幅に単純化する。 合成および実世界のデータに関する数値実験は、この主張を支持するために用いられる。

A test is adaptive when its sequence and number of questions is dynamically tuned on the basis of the estimated skills of the taker. Graphical models, such as Bayesian networks, are used for adaptive tests as they allow to model the uncertainty about the questions and the skills in an explainable fashion, especially when coping with multiple skills. A better elicitation of the uncertainty in the question/skills relations can be achieved by interval probabilities. This turns the model into a credal network, thus making more challenging the inferential complexity of the queries required to select questions. This is especially the case for the information theoretic quantities used as scores to drive the adaptive mechanism. We present an alternative family of scores, based on the mode of the posterior probabilities, and hence easier to explain. This makes considerably simpler the evaluation in the credal case, without significantly affecting the quality of the adaptive process. Numerical tests on synthetic and real-world data are used to support this claim.
翻訳日:2021-05-28 06:55:48 公開日:2021-05-25
# (参考訳) 非線形係数-ニューラルアーキテクチャ設計のための実践的ガイド

The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture Design ( http://arxiv.org/abs/2105.12210v1 )

ライセンス: CC BY 4.0
George Philipp(参考訳) 本質的に、ニューラルネットワークは任意の微分可能パラメトリゼーション関数である。 どんなタスクでもニューラルネットワークアーキテクチャを選択するのは、それらの関数の空間を検索するのと同じくらい複雑です。 ここ数年、'neural architecture design' は、主に 'neural architecture search' (nas) と同義語である。 ブルートフォース、大規模な検索。 NASは実践的な仕事において大きな利益をもたらした。 しかし、NASの手法は、CNNやLSTMに基づいて数十年後にさかのぼるアーキテクチャ周辺の小さな地区で、アーキテクチャ空間の局所的な最適化を探すことになる。 本研究では, ゼロショットアーキテクチャ設計 (ZSAD) と呼ぶアーキテクチャ設計に対して, 異なる補完的なアプローチを示す。 我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。 次に、アーキテクチャ定義自体の観点からエラーを説明し、この説明に基づいてアーキテクチャを変更するためのツールを開発します。 これは、ディープラーニングの実践者に前例のないレベルのコントロールを与える。 事前の技術が存在しないタスクであっても、最初のコード行が書かれる前にインフォームドな設計判断を行うことができる。 私たちの最初の大きな貢献は、ニューラルアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であり、アーキテクチャのモデルの複雑さの主要な側面であることを示すことです。 非線形性係数 (NLC) は, 非線形性を測定するスカラー計量である。 広範な実証研究を通じて,学習前のランダム初期化状態におけるnlcの価値は,トレーニング後のテストエラーの強力な予測因子であり,最適なテストエラーを得るためには,右サイズのnlcを達成することが不可欠であることを示した。 NLCは概念的に単純で、任意のフィードフォワードネットワークに対してよく定義されており、計算が容易で安価であり、広範な理論的、経験的、概念的な基盤を持ち、アーキテクチャ定義から命令的に従い、我々の「非線形正規化」アルゴリズムで容易に制御できる。 我々は、nlcはアーキテクチャ設計、特にニューラルネットワーク解析の最も強力なスカラー統計であると主張する。 我々の分析は平均場理論によって加速され、我々はレイヤーの「メタ分布」を明らかにするために使われる。 NLC以外にも、テストとトレーニングのエラーに大きな説明的影響を持つ、さまざまなメトリクスとプロパティを発見し、具体化しています。 続いて、これらのメトリクスと特性を用いて、さまざまなランダムに生成されたアーキテクチャにおけるエラーのばらつきの大半を説明します。 アーキテクチャ設計者のための実践的なガイドに洞察をまとめることで、ディープラーニングデプロイメントの試行錯誤フェーズを大幅に短縮できると考えています。 本研究は,他の深層学習研究の多くを,注意と厳密性の観点から超越した実験的プロトコルを基礎としている。 我々は、例えば、影響を研究する。 データセット、学習率、浮動小数点精度、損失関数、統計的推定誤差、パフォーマンスやその他の重要な特性に対するバッチ相互依存性。 我々は,建築設計研究の進展を著しく加速させると考えられる研究の実践を促進する。

In essence, a neural network is an arbitrary differentiable, parametrized function. Choosing a neural network architecture for any task is as complex as searching the space of those functions. For the last few years, 'neural architecture design' has been largely synonymous with 'neural architecture search' (NAS), i.e. brute-force, large-scale search. NAS has yielded significant gains on practical tasks. However, NAS methods end up searching for a local optimum in architecture space in a small neighborhood around architectures that often go back decades, based on CNN or LSTM. In this work, we present a different and complementary approach to architecture design, which we term 'zero-shot architecture design' (ZSAD). We develop methods that can predict, without any training, whether an architecture will achieve a relatively high test or training error on a task after training. We then go on to explain the error in terms of the architecture definition itself and develop tools for modifying the architecture based on this explanation. This confers an unprecedented level of control on the deep learning practitioner. They can make informed design decisions before the first line of code is written, even for tasks for which no prior art exists. Our first major contribution is to show that the 'degree of nonlinearity' of a neural architecture is a key causal driver behind its performance, and a primary aspect of the architecture's model complexity. We introduce the 'nonlinearity coefficient' (NLC), a scalar metric for measuring nonlinearity. Via extensive empirical study, we show that the value of the NLC in the architecture's randomly initialized state before training is a powerful predictor of test error after training and that attaining a right-sized NLC is essential for attaining an optimal test error. The NLC is also conceptually simple, well-defined for any feedforward network, easy and cheap to compute, has extensive theoretical, empirical and conceptual grounding, follows instructively from the architecture definition, and can be easily controlled via our 'nonlinearity normalization' algorithm. We argue that the NLC is the most powerful scalar statistic for architecture design specifically and neural network analysis in general. Our analysis is fueled by mean field theory, which we use to uncover the 'meta-distribution&#x 27; of layers. Beyond the NLC, we uncover and flesh out a range of metrics and properties that have a significant explanatory influence on test and training error. We go on to explain the majority of the error variation across a wide range of randomly generated architectures with these metrics and properties. We compile our insights into a practical guide for architecture designers, which we argue can significantly shorten the trial-and-error phase of deep learning deployment. Our results are grounded in an experimental protocol that exceeds that of the vast majority of other deep learning studies in terms of carefulness and rigor. We study the impact of e.g. dataset, learning rate, floating-point precision, loss function, statistical estimation error and batch inter-dependency on performance and other key properties. We promote research practices that we believe can significantly accelerate progress in architecture design research.
翻訳日:2021-05-28 06:39:00 公開日:2021-05-25
# (参考訳) 過パラメータニューラルネットワークにおける損失景観の幾何学:対称性と不変性

Geometry of the Loss Landscape in Overparameterized Neural Networks: Symmetries and Invariances ( http://arxiv.org/abs/2105.12221v1 )

ライセンス: CC BY 4.0
Berfin \c{S}im\c{s}ek, Fran\c{c}ois Ged, Arthur Jacot, Francesco Spadaro, Cl\'ement Hongler, Wulfram Gerstner, Johanni Brea(参考訳) 過パラメータ化多層ニューラルネットワークにおける置換対称性が「対称性誘起」臨界点を生成する方法を検討した。 l $ 最小幅のネットワークを仮定すると、$ r_1^*, \ldots, r_{l-1}^* $ は$ r_1^* でゼロロスの最小値に達する。 r_{L-1}^*! 互いに置換する孤立点を$とすると、各層に1つの余分なニューロンを加えるだけで、これらすべての離散ミニマを単一の多様体に接続できる。 幅$ r^*+ h =: m $ は大域ミニマの多様体を明示的に記述する: $ T(r^*, m) $ affine subspaces of dimension at least $ h $ connected with each。 幅$m$のネットワークに対して、幅$r<r^*$の小さなネットワークの臨界点に関連する対称性によって誘導される臨界点のみを含むアフィン部分空間の数$G(r,m)$を同定する。 組合せ解析により、T $ と G $ の閉形式式を導出し、対称性によって誘導される臨界部分空間の数が、わずかに過度に過度に過度に過度に過度な状態(h $)で大域的なミニマ多様体を形成するアフィン部分空間の数を支配していることを示す。 オーバーパラメータ化ニューラルネットワークの非凸損失関数の最小化に関する新たな知見を提供する。

We study how permutation symmetries in overparameterized multi-layer neural networks generate `symmetry-induced 7; critical points. Assuming a network with $ L $ layers of minimal widths $ r_1^*, \ldots, r_{L-1}^* $ reaches a zero-loss minimum at $ r_1^*! \cdots r_{L-1}^*! $ isolated points that are permutations of one another, we show that adding one extra neuron to each layer is sufficient to connect all these previously discrete minima into a single manifold. For a two-layer overparameterized network of width $ r^*+ h =: m $ we explicitly describe the manifold of global minima: it consists of $ T(r^*, m) $ affine subspaces of dimension at least $ h $ that are connected to one another. For a network of width $m$, we identify the number $G(r,m)$ of affine subspaces containing only symmetry-induced critical points that are related to the critical points of a smaller network of width $r<r^*$. Via a combinatorial analysis, we derive closed-form formulas for $ T $ and $ G $ and show that the number of symmetry-induced critical subspaces dominates the number of affine subspaces forming the global minima manifold in the mildly overparameterized regime (small $ h $) and vice versa in the vastly overparameterized regime ($h \gg r^*$). Our results provide new insights into the minimization of the non-convex loss function of overparameterized neural networks.
翻訳日:2021-05-28 06:34:29 公開日:2021-05-25
# (参考訳) 変形可能な画像登録のためのモデル駆動変分ネットワークの学習 [全文訳有]

Learning a Model-Driven Variational Network for Deformable Image Registration ( http://arxiv.org/abs/2105.12227v1 )

ライセンス: CC BY 4.0
Xi Jia, Alexander Thorley, Wei Chen, Huaqi Qiu, Linlin Shen, Iain B Styles, Hyung Jin Chang, Ales Leonardis, Antonio de Marvao, Declan P. O'Regan, Daniel Rueckert, Jinming Duan(参考訳) 画像登録に対するデータ駆動型ディープラーニングアプローチは、特に訓練データに制限がある場合、従来の反復的アプローチよりも精度が低い。 ディープラーニングの高速推論速度を保ちながらこの問題に対処するために,教師なし変形可能な画像登録のための新しいカスケード変分ネットワーク vr-net を提案する。 可変分割最適化手法を用いて,まず,汎用変分フレームワークで確立された画像登録問題を2つのサブプロブレムに変換し,一方はポイントワイズ・クローズド・フォーム・ソリューション,もう一方はデノジング問題とした。 次に、2つの神経層(すなわち)を提案する。 変形層と強度一貫性層)を解析解と残留U-Netをモデル化し、デノナイジング問題を定式化する。 一般化デノナイジング層) 最後に、ワープ層、強度一貫性層、一般化された復調層をカスケードしてVRネットワークを形成する。 3つの(2つの2次元と1つの3次元)心臓磁気共鳴画像データセットの大規模な実験により、VR-Netは登録精度において最先端のディープラーニング手法よりも優れており、ディープラーニングの高速推論速度と変動モデルのデータ効率は維持されている。

Data-driven deep learning approaches to image registration can be less accurate than conventional iterative approaches, especially when training data is limited. To address this whilst retaining the fast inference speed of deep learning, we propose VR-Net, a novel cascaded variational network for unsupervised deformable image registration. Using the variable splitting optimization scheme, we first convert the image registration problem, established in a generic variational framework, into two sub-problems, one with a point-wise, closed-form solution while the other one is a denoising problem. We then propose two neural layers (i.e. warping layer and intensity consistency layer) to model the analytical solution and a residual U-Net to formulate the denoising problem (i.e. generalized denoising layer). Finally, we cascade the warping layer, intensity consistency layer, and generalized denoising layer to form the VR-Net. Extensive experiments on three (two 2D and one 3D) cardiac magnetic resonance imaging datasets show that VR-Net outperforms state-of-the-art deep learning methods on registration accuracy, while maintains the fast inference speed of deep learning and the data-efficiency of variational model.
翻訳日:2021-05-28 06:32:01 公開日:2021-05-25
# (参考訳) SB-GCN:CADアセンブリの自動マッチングのための構造化BREPグラフ畳み込みネットワーク [全文訳有]

SB-GCN: Structured BREP Graph Convolutional Network for Automatic Mating of CAD Assemblies ( http://arxiv.org/abs/2105.12238v1 )

ライセンス: CC BY 4.0
Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vova Kim, Adriana Schulz(参考訳) アセンブリモデリングはコンピュータ支援設計(CAD)のコアタスクであり、CADワークフローにおける作業の約3分の1を構成する。 したがって、このプロセスの最適化はCADシステムの設計において大きなチャンスとなるが、現在のアセンブリベースモデリングの研究は、現代のCADにおける支配的なデータ構造であるパラメトリック境界表現(BREP)を反映しているため、現代のCADシステムには直接適用されない。 CADアセンブリモデリングは、アセンブリを、既存の作業に共通する世界座標ではなく、BREPトポロジに対して定義される部分間のペアワイズ制約と呼ばれるシステムとして定義する。 そこで我々は,sb-gcn を提案する。sb-gcn は,部品のトポロジカル構造を保ちつつ,cad タイプメートを予測するための表現学習手法である。 システムをトレーニングするために,BREP CADアセンブリの最初の大規模データセットをコンパイルし,ベンチマークメイト予測タスクとともにリリースする。 最後に,提案したモデルと既存のCADシステムとの互換性を,72.2%の精度で提案することで,ユーザによるメイト生成を支援するツールの構築により実証する。

Assembly modeling is a core task of computer aided design (CAD), comprising around one third of the work in a CAD workflow. Optimizing this process therefore represents a huge opportunity in the design of a CAD system, but current research of assembly based modeling is not directly applicable to modern CAD systems because it eschews the dominant data structure of modern CAD: parametric boundary representations (BREPs). CAD assembly modeling defines assemblies as a system of pairwise constraints, called mates, between parts, which are defined relative to BREP topology rather than in world coordinates common to existing work. We propose SB-GCN, a representation learning scheme on BREPs that retains the topological structure of parts, and use these learned representations to predict CAD type mates. To train our system, we compiled the first large scale dataset of BREP CAD assemblies, which we are releasing along with benchmark mate prediction tasks. Finally, we demonstrate the compatibility of our model with an existing commercial CAD system by building a tool that assists users in mate creation by suggesting mate completions, with 72.2% accuracy.
翻訳日:2021-05-28 05:33:34 公開日:2021-05-25
# (参考訳) Graph Self Supervised Learning:BT, HSIC, VICReg [全文訳有]

Graph Self Supervised Learning: the BT, the HSIC, and the VICReg ( http://arxiv.org/abs/2105.12247v1 )

ライセンス: CC BY 4.0
Sayan Nag(参考訳) 自己教師型学習と事前学習戦略はここ数年で特に畳み込みニューラルネットワーク(CNN)のために発展してきた。 近年,グラフニューラルネットワーク(GNN)にもそのような手法が適用されている。 本稿では,これまでcnnに適用した有望な結果を示す,損失関数の異なるグラフベースの自己教師付き学習戦略(barlow twins[7], hsic[4], vicreg[1])を用いてきた。 また、VICRegとHSICの利点を組み合わせたハイブリッド損失関数を提案し、VICRegHSICと呼ぶ。 これらの手法の性能は、MUTAG と PROTEINS という2つの異なるデータセットに適用した場合に比較されている。 さらに、異なるバッチサイズ、プロジェクタ次元、データ拡張戦略の影響も検討されている。 結果は予備的であり、他のデータセットで調査を続けます。

Self-supervised learning and pre-training strategies have developed over the last few years especially for Convolutional Neural Networks (CNNs). Recently application of such methods can also be noticed for Graph Neural Networks (GNNs). In this paper, we have used a graph based self-supervised learning strategy with different loss functions (Barlow Twins[ 7], HSIC[ 4], VICReg[ 1]) which have shown promising results when applied with CNNs previously. We have also proposed a hybrid loss function combining the advantages of VICReg and HSIC and called it as VICRegHSIC. The performance of these aforementioned methods have been compared when applied to two different datasets namely MUTAG and PROTEINS. Moreover, the impact of different batch sizes, projector dimensions and data augmentation strategies have also been explored. The results are preliminary and we will be continuing to explore with other datasets.
翻訳日:2021-05-28 04:57:41 公開日:2021-05-25
# (参考訳) 深部強化学習によるUAV衝突回避の解釈 [全文訳有]

Interpretable UAV Collision Avoidance using Deep Reinforcement Learning ( http://arxiv.org/abs/2105.12254v1 )

ライセンス: CC BY 4.0
Deepak-George Thomas, Daniil Olshanskyi, Karter Krueger, Ali Jannesari(参考訳) 自律飛行システムの成功の主な構成要素は、タスクの完了と衝突回避である。 ほとんどのディープラーニングアルゴリズムは、トレーニングされた環境と条件下でこれらの側面を実行しながら成功している。 しかし、新しい環境にさらされると失敗する。 本稿では,様々な入力に対して効果的に推論可能な自己照査モデルによる深層強化学習を用いた自律型uav飛行について述べる。 推論能力に加えて、現実の条件下での使用を可能にする解釈可能である。 気象や環境によってアルゴリズムをテストした結果,従来のDeep Reinforcement Learningアルゴリズムに比べて堅牢であることが判明した。

The major components of any successful autonomous flight system are task completion and collision avoidance. Most deep learning algorithms are successful while executing these aspects under the environment and conditions in which they have been trained. However, they fail when subjected to novel environments. In this paper we present autonomous UAV flight using Deep Reinforcement Learning augmented with Self-Attention Models that can effectively reason when subjected to varying inputs. In addition to their reasoning ability, they also are interpretable which enables it to be used under real-world conditions. We have tested our algorithm under different weather and environments and found it to be robust compared to conventional Deep Reinforcement Learning algorithms.
翻訳日:2021-05-28 04:52:15 公開日:2021-05-25
# (参考訳) プロダクトデザインのフィードバックとしてのスタイルの類似性 [全文訳有]

Style Similarity as Feedback for Product Design ( http://arxiv.org/abs/2105.12256v1 )

ライセンス: CC BY 4.0
Mathew Schwartz, Tomer Weiss, Esra Ataer-Cansizoglu, Jae-Woo Choi(参考訳) プロダクトのマッチングと推奨は、顧客と企業の両方にとって有益である。 家庭用品の電子商取引の急速な増加に伴い、何百万もの商品にそのようなレコメンデーションを提供するための量的手法の需要が高まっている。 このアプローチはAmazonやWayfairなどのオンラインストアによって促進されており、その目標は全体の販売を最大化することにある。 全体的な販売に焦点をあてるのではなく、非常に推奨される製品の設計品質を決定するために、ビッグデータ分析を採用することで、製品設計の視点を取ります。 具体的には、このような製品の視覚的スタイルの互換性に焦点を当てる。 我々は、数千の家具製品に対してスタイルベースの類似度尺度を実装した以前の作業を構築した。 分析と可視化を用いて,高い互換性を有する家具製品の属性を抽出する。 電子商取引サイトを閲覧する消費者と類似製品を表示する方法を反映した,ループ内ワークフローの設計者を提案する。 我々の発見は、新しい製品を設計する際に有用であり、複数のスタイルにまたがってどの家具が強い互換性を持つのかについての洞察を提供するため、より推奨される可能性が高い。

Matching and recommending products is beneficial for both customers and companies. With the rapid increase in home goods e-commerce, there is an increasing demand for quantitative methods for providing such recommendations for millions of products. This approach is facilitated largely by online stores such as Amazon and Wayfair, in which the goal is to maximize overall sales. Instead of focusing on overall sales, we take a product design perspective, by employing big-data analysis for determining the design qualities of a highly recommended product. Specifically, we focus on the visual style compatibility of such products. We build off previous work which implemented a style-based similarity metric for thousands of furniture products. Using analysis and visualization, we extract attributes of furniture products that are highly compatible style-wise. We propose a designer in-the-loop workflow that mirrors methods of displaying similar products to consumers browsing e-commerce websites. Our findings are useful when designing new products, since they provide insight regarding what furniture will be strongly compatible across multiple styles, and hence, more likely to be recommended.
翻訳日:2021-05-28 04:31:20 公開日:2021-05-25
# (参考訳) 新型コロナウイルスの文献調査における治験要素検出の効果 [全文訳有]

Impact of detecting clinical trial elements in exploration of COVID-19 literature ( http://arxiv.org/abs/2105.12261v1 )

ライセンス: CC BY 4.0
Simon \v{S}uster, Karin Verspoor, Timothy Baldwin, Jey Han Lau, Antonio Jimeno Yepes, David Martinez, Yulia Otmakhova(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、バイオメディカル文献の効率的な探索を可能にするツールの需要がさらに高まった。 概念認識と臨床試験の定義要素(例)の検出から生じる半構造化情報である。 PICOの基準)は文献検索を支援するために広く用いられてきたが、この抽象化の貢献は、特にテキストベースの検索に関して、よく理解されていない。 本研究では,標準検索エンジンによる検索結果と臨床関連概念を用いたフィルタリング結果との比較を行った。 trec-covid共有タスクのアノテーションに基づく分析により、関係性および概念に基づく文献探索の特徴に関する定量的かつ質的洞察を得る。 最も重要なことは、リレーショナル・コンセプトの選択が、検索されたオリジナルのコレクションをフィルタリングし、不正なドキュメントの割合を減少させ、精度を増加させることである。

The COVID-19 pandemic has driven ever-greater demand for tools which enable efficient exploration of biomedical literature. Although semi-structured information resulting from concept recognition and detection of the defining elements of clinical trials (e.g. PICO criteria) has been commonly used to support literature search, the contributions of this abstraction remain poorly understood, especially in relation to text-based retrieval. In this study, we compare the results retrieved by a standard search engine with those filtered using clinically-relevant concepts and their relations. With analysis based on the annotations from the TREC-COVID shared task, we obtain quantitative as well as qualitative insights into characteristics of relational and concept-based literature exploration. Most importantly, we find that the relational concept selection filters the original retrieved collection in a way that decreases the proportion of unjudged documents and increases the precision, which means that the user is likely to be exposed to a larger number of relevant documents.
翻訳日:2021-05-28 04:13:58 公開日:2021-05-25
# 多元細粒オブジェクト認識のための弱教師付き例注意と木種分類への応用

Weakly Supervised Instance Attention for Multisource Fine-Grained Object Recognition with an Application to Tree Species Classification ( http://arxiv.org/abs/2105.10983v2 )

ライセンス: Link先を確認
Bulut Aygunes, Ramazan Gokberk Cinbis, Selim Aksoy(参考訳) 補完スペクトル、空間、構造情報を利用するマルチソース画像解析は、オブジェクトを多くの類似したサブカテゴリの1つに分類することを目的とした、きめ細かいオブジェクト認識の恩恵を受ける。 しかし、比較的小さなオブジェクトを含むマルチソースタスクでは、最小の登録エラーでさえ分類プロセスに高い不確実性をもたらす可能性がある。 入力画像は,与えられたクラスラベルを持つオブジェクトが近傍に存在し,その正確な位置を知らずに,期待される対象位置周辺の大きな近傍に対応するという,弱い教師付き学習視点からこの問題にアプローチする。 提案手法では,オブジェクトの同時配置と分類に並列分岐を持つ単一ソースのディープインスタンスアテンションモデルを使用し,このモデルを複数ソースに拡張することで,位置不確実性のないと仮定された参照ソースを用いて,確率レベル,ロジットレベル,特徴レベル,画素レベルという4つのレベルにおける複数のソースの融合を支援する。 その結果,RGB,マルチスペクトル,LiDARデータを用いた場合の最高性能ベースラインよりも5.7%向上し,40種類の木を認識した場合の精度が53%向上した。 また,様々なパラメータの複雑性設定において,各モデルを評価することで,モデルのキャパシティが増加すると,デフォルトキャパシティ設定よりも6.3%向上する。

Multisource image analysis that leverages complementary spectral, spatial, and structural information benefits fine-grained object recognition that aims to classify an object into one of many similar subcategories. However, for multisource tasks that involve relatively small objects, even the smallest registration errors can introduce high uncertainty in the classification process. We approach this problem from a weakly supervised learning perspective in which the input images correspond to larger neighborhoods around the expected object locations where an object with a given class label is present in the neighborhood without any knowledge of its exact location. The proposed method uses a single-source deep instance attention model with parallel branches for joint localization and classification of objects, and extends this model into a multisource setting where a reference source that is assumed to have no location uncertainty is used to aid the fusion of multiple sources in four different levels: probability level, logit level, feature level, and pixel level. We show that all levels of fusion provide higher accuracies compared to the state-of-the-art, with the best performing method of feature-level fusion resulting in 53% accuracy for the recognition of 40 different types of trees, corresponding to an improvement of 5.7% over the best performing baseline when RGB, multispectral, and LiDAR data are used. We also provide an in-depth comparison by evaluating each model at various parameter complexity settings, where the increased model capacity results in a further improvement of 6.3% over the default capacity setting.
翻訳日:2021-05-27 13:46:11 公開日:2021-05-25
# 深層学習自然言語処理モデルの文脈知覚的可視化

Context-Sensitive Visualization of Deep Learning Natural Language Processing Models ( http://arxiv.org/abs/2105.12202v1 )

ライセンス: Link先を確認
Andrew Dunn, Diana Inkpen, R\u{a}zvan Andonie(参考訳) トランスフォーマーニューラルネットワークの導入は、ここ数年で自然言語処理(NLP)の状況を変えてきた。 これまでのところ、どの可視化システムも、トランスフォーマーのすべての側面を調べることができていない。 これが現在の仕事の動機となった。 我々は,既存のNLPツールを活用して,出力に最も大きな影響を及ぼすトークン群(単語)を検索し,元のテキストからコンテキストを保存できる新しいNLP変換器のコンテキストセンシティブ可視化手法を提案する。 まず,文レベルの依存構文解析器を用いて有望な単語群を強調する。 依存関係パーサは、文中の単語間の関係のツリーを作成する。 次に, 入力テキストから, 隣接および非隣接のタプルを体系的に取り除き, それらのトークンが欠落した新しいテキストを複数生成する。 得られたテキストは、事前訓練されたBERTモデルに渡される。 分類出力を全文と比較し、活性化強度の違いを記録する。 ターゲット分類出力ニューロンの最大の差を生み出す修正されたテキストを選択し、除去された単語の組み合わせがモデルの出力に最も影響を与えると考えられる。 最後に、最も影響力のある単語の組み合わせをヒートマップで視覚化する。

The introduction of Transformer neural networks has changed the landscape of Natural Language Processing (NLP) during the last years. So far, none of the visualization systems has yet managed to examine all the facets of the Transformers. This gave us the motivation of the current work. We propose a new NLP Transformer context-sensitive visualization method that leverages existing NLP tools to find the most significant groups of tokens (words) that have the greatest effect on the output, thus preserving some context from the original text. First, we use a sentence-level dependency parser to highlight promising word groups. The dependency parser creates a tree of relationships between the words in the sentence. Next, we systematically remove adjacent and non-adjacent tuples of \emph{n} tokens from the input text, producing several new texts with those tokens missing. The resulting texts are then passed to a pre-trained BERT model. The classification output is compared with that of the full text, and the difference in the activation strength is recorded. The modified texts that produce the largest difference in the target classification output neuron are selected, and the combination of removed words are then considered to be the most influential on the model's output. Finally, the most influential word combinations are visualized in a heatmap.
翻訳日:2021-05-27 13:40:36 公開日:2021-05-25
# 密度推定:インフレーション-デフレ手法

Density estimation: an inflation-deflation approach ( http://arxiv.org/abs/2105.12152v1 )

ライセンス: Link先を確認
Christian Horvat, Jean-Pascal Pfister(参考訳) 正規化フロー(NF)は神経ネットワークに基づく普遍密度推定器である。 しかし、この普遍性は制限され、密度の支持はユークリッド空間に微分同型である必要がある。 本稿では,この制限を,普遍性を犠牲にすることなく克服する新しい手法を提案する。 提案手法では,正規空間に雑音を付加してデータ多様体を膨らませ,この膨らんだ多様体上でnfを訓練し,最後に学習密度を分解する。 主な結果は、多様体上の十分条件と、対応する推定器が厳密であるノイズの特定の選択を与える。 本手法はnfsと同じ計算複雑性を持ち,逆流れの計算を必要としない。 また、埋め込み次元が多様体次元よりもはるかに大きい場合、正規空間のノイズはガウス雑音によってよく近似できることを示す。 これにより、多様体次元が既知であるような非平坦多様体上の任意の密度を近似する手法が利用できる。

Normalizing Flows (NFs) are universal density estimators based on Neuronal Networks. However, this universality is limited: the density's support needs to be diffeomorphic to a Euclidean space. In this paper, we propose a novel method to overcome this limitation without sacrificing universality. The proposed method inflates the data manifold by adding noise in the normal space, trains an NF on this inflated manifold, and, finally, deflates the learned density. Our main result provides sufficient conditions on the manifold and the specific choice of noise under which the corresponding estimator is exact. Our method has the same computational complexity as NFs and does not require computing an inverse flow. We also show that, if the embedding dimension is much larger than the manifold dimension, noise in the normal space can be well approximated by Gaussian noise. This allows to use our method for approximating arbitrary densities on non-flat manifolds provided that the manifold dimension is known.
翻訳日:2021-05-27 13:39:33 公開日:2021-05-25
# 頑健な一層ニューラルネットワークトレーニングの実用的凸定式化

Practical Convex Formulation of Robust One-hidden-layer Neural Network Training ( http://arxiv.org/abs/2105.12237v1 )

ライセンス: Link先を確認
Yatong Bai, Tanmay Gautam, Yu Gai, Somayeh Sojoudi(参考訳) 近年の研究では、一層型スカラー出力完全連結ReLUニューラルネットワークのトレーニングを有限次元凸プログラムとして再構成できることが示されている。 残念ながら、このような凸プログラムの規模はデータサイズで指数関数的に増加する。 本研究では,線形複雑性を持つ確率的手続きが正確な定式化によく近いことを証明する。 さらに、逆入力摂動に頑健なニューラルネットワークを訓練する「逆トレーニング」問題を効率的に解くための凸最適化手法を導出する。 本手法は,バイナリ分類と回帰に適用でき,高速勾配符号法 (fgsm) や投影勾配降下法 (pgd) といった,現在の敵対的訓練法に代わるものを提供する。 実験では,提案手法が従来の手法よりも著しく頑健性と性能を発揮できることを実証する。

Recent work has shown that the training of a one-hidden-layer, scalar-output fully-connected ReLU neural network can be reformulated as a finite-dimensional convex program. Unfortunately, the scale of such a convex program grows exponentially in data size. In this work, we prove that a stochastic procedure with a linear complexity well approximates the exact formulation. Moreover, we derive a convex optimization approach to efficiently solve the "adversarial training" problem, which trains neural networks that are robust to adversarial input perturbations. Our method can be applied to binary classification and regression, and provides an alternative to the current adversarial training methods, such as Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD). We demonstrate in experiments that the proposed method achieves a noticeably better adversarial robustness and performance than the existing methods.
翻訳日:2021-05-27 13:36:10 公開日:2021-05-25
# rank-one行列推定:勾配降下ダイナミクスの解析時間発展

Rank-one matrix estimation: analytic time evolution of gradient descent dynamics ( http://arxiv.org/abs/2105.12257v1 )

ライセンス: Link先を確認
Antoine Bodin, Nicolas Macris(参考訳) 階数 1 の対称行列は付加雑音によって崩壊すると考えられる。 ランク 1 行列は半径 $\sqrt{n}$ の球面上の $n$-component 未知ベクトルによって構成され、球面上の二次コスト関数の勾配降下により、高次元の極限 n$ の破れた行列からこのベクトルを推定する問題を考える。 推定器と未知ベクトルの重なり合いの時間的進化の明示的な公式とコストは厳密に導出される。 長い時間領域では、信号対雑音比の関数としてよく知られたスペクトル相転移を回復する。 明示的な公式は、時間進化の興味深い過渡的な特徴を指摘することもできる。 解析手法はランダム行列理論の最近の進歩に基づき,半円法則の局所バージョンを用いる。

We consider a rank-one symmetric matrix corrupted by additive noise. The rank-one matrix is formed by an $n$-component unknown vector on the sphere of radius $\sqrt{n}$, and we consider the problem of estimating this vector from the corrupted matrix in the high dimensional limit of $n$ large, by gradient descent for a quadratic cost function on the sphere. Explicit formulas for the whole time evolution of the overlap between the estimator and unknown vector, as well as the cost, are rigorously derived. In the long time limit we recover the well known spectral phase transition, as a function of the signal-to-noise ratio. The explicit formulas also allow to point out interesting transient features of the time evolution. Our analysis technique is based on recent progress in random matrix theory and uses local versions of the semi-circle law.
翻訳日:2021-05-27 13:35:47 公開日:2021-05-25
# RGB-Dを用いたOcclusion Aware Kernel correlation Filter Tracker

Occlusion Aware Kernel Correlation Filter Tracker using RGB-D ( http://arxiv.org/abs/2105.12161v1 )

ライセンス: Link先を確認
Srishti Yadav(参考訳) 大規模なトレーニングデータセットを必要とするディープラーニングとは異なり、KCF(Kernelized correlation Filter)のような相関フィルタベースのトラッカーは、トラックされた画像(循環行列)の暗黙的な特性をリアルタイムでトレーニングする。 追跡における実用的な応用にもかかわらず、理論的、数学的、実験的にkcfに関連する基礎をよりよく理解する必要がある。 この論文はまず、トラッカーの動作プロトタイプを詳述し、リアルタイムアプリケーションにおけるその効果と可視化のサポートについて検討する。 さらに, 咬合, スケール変化, 物体回転, アウトオブビュー, モデルドリフトなどの問題点についても, rgb-d kernel correlation tracker を用いて検討した。 また,粒子フィルタを用いてトラッカーの精度を向上させることも検討した。 この結果は、a)標準データセットとb)Microsoft Kinect V2センサーを用いて、リアルタイムに評価される。 この研究は、カーネルベースの相関フィルタトラッカーの有効性をよりよく理解し、追跡におけるいくつかの利点を更に定義するための基盤となると信じている。

Unlike deep learning which requires large training datasets, correlation filter-based trackers like Kernelized Correlation Filter (KCF) uses implicit properties of tracked images (circulant matrices) for training in real-time. Despite their practical application in tracking, a need for a better understanding of the fundamentals associated with KCF in terms of theoretically, mathematically, and experimentally exists. This thesis first details the workings prototype of the tracker and investigates its effectiveness in real-time applications and supporting visualizations. We further address some of the drawbacks of the tracker in cases of occlusions, scale changes, object rotation, out-of-view and model drift with our novel RGB-D Kernel Correlation tracker. We also study the use of particle filters to improve trackers' accuracy. Our results are experimentally evaluated using a) standard dataset and b) real-time using the Microsoft Kinect V2 sensor. We believe this work will set the basis for a better understanding of the effectiveness of kernel-based correlation filter trackers and to further define some of its possible advantages in tracking.
翻訳日:2021-05-27 13:35:23 公開日:2021-05-25
# 深層残留ネットワークのスケーリング特性

Scaling Properties of Deep Residual Networks ( http://arxiv.org/abs/2105.12245v1 )

ライセンス: Link先を確認
Alain-Sam Cohen, Rama Cont, Alain Rossier, Renyuan Xu(参考訳) 残差ネットワーク(resnets)はパターン認識において印象的な結果を示しており、近年では神経常微分方程式(neural odes)との関連が認識され、理論上の関心を集めている。 このリンクは、層数の増加に伴うネットワーク重みの滑らかな関数への収束に依存する。 確率勾配降下法で訓練された重みの物性とネットワーク深度によるスケーリングについて, 詳細な数値実験により検討した。 神経ODE文学で想定されるものとは大きく異なるスケーリング体制の存在を観察する。 活性化関数の滑らかさのようなネットワークアーキテクチャの特定の特徴により、代替のODE極限、確率微分方程式、あるいはこれらのいずれかを得ることができる。 これらの結果は、ディープResNetの漸近的記述としてのニューラルODEモデルの妥当性に疑問を呈し、ディープネットワーク限界のより良い記述として別の微分方程式のクラスを指し示している。

Residual networks (ResNets) have displayed impressive results in pattern recognition and, recently, have garnered considerable theoretical interest due to a perceived link with neural ordinary differential equations (neural ODEs). This link relies on the convergence of network weights to a smooth function as the number of layers increases. We investigate the properties of weights trained by stochastic gradient descent and their scaling with network depth through detailed numerical experiments. We observe the existence of scaling regimes markedly different from those assumed in neural ODE literature. Depending on certain features of the network architecture, such as the smoothness of the activation function, one may obtain an alternative ODE limit, a stochastic differential equation or neither of these. These findings cast doubts on the validity of the neural ODE model as an adequate asymptotic description of deep ResNets and point to an alternative class of differential equations as a better description of the deep network limit.
翻訳日:2021-05-27 13:33:50 公開日:2021-05-25
# NukeLM:原子力・エネルギー分野のための事前訓練および微調整言語モデル

NukeLM: Pre-Trained and Fine-Tuned Language Models for the Nuclear and Energy Domains ( http://arxiv.org/abs/2105.12192v1 )

ライセンス: Link先を確認
Lee Burke, Karl Pazdernik, Daniel Fortin, Benjamin Wilson, Rustam Goychayev, and John Mattingly(参考訳) 自然言語処理(nlp)タスク(テキスト分類、名前付きエンティティ認識など) ここ数年で革命的な改善がありました これはbertのような言語モデルによるもので、大きな事前学習されたモデルを使って深い知識の伝達を実現し、特定のタスクでモデルを微調整する。 BERTアーキテクチャは、モデルがドメイン関連テキストを使用して事前トレーニングされたときに、ドメイン固有のタスクに対してさらに優れたパフォーマンスを示す。 これらの最近の進歩に触発されて、我々は米国エネルギー省科学技術情報局(OSTI)データベースから150万の抽象化を事前訓練した核ドメイン言語モデルであるNukeLMを開発した。 このnukelmモデルは、研究論文をバイナリクラス(核燃料サイクル [nfc] に関連するものか否か)または論文の主題に関する複数のカテゴリに分類するために微調整される。 細調整前のBERTスタイルアーキテクチャの事前学習は,両項目の分類作業において高い性能を示すことを示す。 この情報は、核空間で出版される引用ネットワークの理解を深め、核(または核関連)領域における新しい研究領域を明らかにするために必要なタスクである原稿を適切にトリアージするために重要である。

Natural language processing (NLP) tasks (text classification, named entity recognition, etc.) have seen revolutionary improvements over the last few years. This is due to language models such as BERT that achieve deep knowledge transfer by using a large pre-trained model, then fine-tuning the model on specific tasks. The BERT architecture has shown even better performance on domain-specific tasks when the model is pre-trained using domain-relevant texts. Inspired by these recent advancements, we have developed NukeLM, a nuclear-domain language model pre-trained on 1.5 million abstracts from the U.S. Department of Energy Office of Scientific and Technical Information (OSTI) database. This NukeLM model is then fine-tuned for the classification of research articles into either binary classes (related to the nuclear fuel cycle [NFC] or not) or multiple categories related to the subject of the article. We show that continued pre-training of a BERT-style architecture prior to fine-tuning yields greater performance on both article classification tasks. This information is critical for properly triaging manuscripts, a necessary task for better understanding citation networks that publish in the nuclear space, and for uncovering new areas of research in the nuclear (or nuclear-relevant) domains.
翻訳日:2021-05-27 13:33:24 公開日:2021-05-25
# Project CodeNet: コーディングタスクの多様性を学ぶためのコードデータセットのための大規模AI

Project CodeNet: A Large-Scale AI for Code Dataset for Learning a Diversity of Coding Tasks ( http://arxiv.org/abs/2105.12655v1 )

ライセンス: Link先を確認
Ruchir Puri, David S. Kung, Geert Janssen, Wei Zhang, Giacomo Domeniconi, Vladmir Zolotov, Julian Dolby, Jie Chen, Mihir Choudhury, Lindsey Decker, Veronika Thost, Luca Buratti, Saurabh Pujar, Ulrich Finkler(参考訳) ディープラーニングと機械学習アルゴリズムの進歩は、コンピュータビジョン、音声認識、自然言語処理などにおいて画期的な進歩をもたらした。 さらに、過去数十年にわたって、ソフトウェアは私たちの社会のあらゆる側面のファブリックに組み込まれてきました。 これら2つのトレンドは、AI for Codeの急成長する研究領域に新たな関心を呼び起こした。 ソフトウェア開発がエンタープライズレガシーアプリケーションのすべての産業とコードインフラストラクチャに浸透するにつれ、ソフトウェア開発の生産性を高め、レガシーアプリケーションを近代化することが、これまで以上に重要になっている。 過去10年間で、ImageNetのような大規模なデータセットは、コンピュータビジョンから言語や音声理解まで、アルゴリズムの進歩において重要な役割を担ってきた。 本稿では,AI for Codeのアルゴリズム的進歩を加速するための,一級,大規模,多種多様,高品質なデータセットであるProject CodeNetを提案する。 1400万のコードサンプルと、55の異なるプログラミング言語で約500万行のコードからなる。 project codenetはその規模だけでなく、コードの類似性やコードのレコメンデーションアルゴリズムの進歩の分類、多種多様なプログラミング言語間のコード変換、コードパフォーマンスの向上(ランタイムとメモリの両方)といった、ベンチマークの助けにもなります。 CodeNetは700万以上のコードサンプルに対して、サンプルのインプットと出力のテストセットも提供している。 ユーザビリティ機能として、私たちはproject codenetでソースコードをインプットとして簡単に機械学習モデルに使用できる表現に変換するプリプロセッシングツールをいくつか提供しています。

Advancements in deep learning and machine learning algorithms have enabled breakthrough progress in computer vision, speech recognition, natural language processing and beyond. In addition, over the last several decades, software has been built into the fabric of every aspect of our society. Together, these two trends have generated new interest in the fast-emerging research area of AI for Code. As software development becomes ubiquitous across all industries and code infrastructure of enterprise legacy applications ages, it is more critical than ever to increase software development productivity and modernize legacy applications. Over the last decade, datasets like ImageNet, with its large scale and diversity, have played a pivotal role in algorithmic advancements from computer vision to language and speech understanding. In this paper, we present Project CodeNet, a first-of-its-kind, very large scale, diverse, and high-quality dataset to accelerate the algorithmic advancements in AI for Code. It consists of 14M code samples and about 500M lines of code in 55 different programming languages. Project CodeNet is not only unique in its scale, but also in the diversity of coding tasks it can help benchmark: from code similarity and classification for advances in code recommendation algorithms, and code translation between a large variety programming languages, to advances in code performance (both runtime, and memory) improvement techniques. CodeNet also provides sample input and output test sets for over 7M code samples, which can be critical for determining code equivalence in different languages. As a usability feature, we provide several preprocessing tools in Project CodeNet to transform source codes into representations that can be readily used as inputs into machine learning models.
翻訳日:2021-05-27 13:20:31 公開日:2021-05-25
# シミュレーションヒューマノイドフットボールにおける運動制御からチームプレイへ

From Motor Control to Team Play in Simulated Humanoid Football ( http://arxiv.org/abs/2105.12196v1 )

ライセンス: Link先を確認
Siqi Liu, Guy Lever, Zhe Wang, Josh Merel, S. M. Ali Eslami, Daniel Hennes, Wojciech M. Czarnecki, Yuval Tassa, Shayegan Omidshafiei, Abbas Abdolmaleki, Noah Y. Siegel, Leonard Hasenclever, Luke Marris, Saran Tunyasuvunakool, H. Francis Song, Markus Wulfmeier, Paul Muller, Tuomas Haarnoja, Brendan D. Tracey, Karl Tuyls, Thore Graepel, Nicolas Heess(参考訳) 物理的世界の知的行動は、複数の空間的および時間的スケールで構造を示す。 運動は究極的には即時筋緊張や関節トルクのレベルで実行されるが、はるかに長い時間スケールで定義された目標と、最終的には他のエージェントとの協調を含む身体自体よりもはるかに遠くまで広がる関係において、それらが選択される必要がある。 人工知能の最近の研究は、複雑な動き、長期計画、マルチエージェント調整の各問題に対する学習に基づくアプローチの可能性を示唆している。 しかし、その統合をめざした研究は限られている。 本研究は,現実の仮想環境でサッカーをするために,物理的にシミュレートされたヒューマノイドアバターのチームを訓練することによる。 本研究では, 模倣学習, シングルエージェント, 多エージェント強化学習, 人口ベース学習を組み合わせた手法を開発し, 異なる抽象レベルでの意思決定に, 伝達可能な行動表現を利用する。 プレイヤーはまず、完全に関節化された身体を制御して、ランニングやターンのような現実的な人間的な動きをし、その後ドリブルやシューティングのような中級のサッカースキルを獲得し、最後に、他人の意識を発達させ、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋め、数十秒のタイムスケールでチームとしてゴール指向の行動を調整する。 本研究では,様々な抽象レベルにおける行動の出現と,実世界のスポーツ分析の統計を含むいくつかの分析手法を用いて,これらの行動の基盤となる表現について検討する。 本研究は,物理的に具体化されたマルチエージェント設定において,複数の尺度での統合意思決定の完全な実演を構成する。 プロジェクトビデオはhttps://youtu.be/khm wq9pv7mg。

Intelligent behaviour in the physical world exhibits structure at multiple spatial and temporal scales. Although movements are ultimately executed at the level of instantaneous muscle tensions or joint torques, they must be selected to serve goals defined on much longer timescales, and in terms of relations that extend far beyond the body itself, ultimately involving coordination with other agents. Recent research in artificial intelligence has shown the promise of learning-based approaches to the respective problems of complex movement, longer-term planning and multi-agent coordination. However, there is limited research aimed at their integration. We study this problem by training teams of physically simulated humanoid avatars to play football in a realistic virtual environment. We develop a method that combines imitation learning, single- and multi-agent reinforcement learning and population-based training, and makes use of transferable representations of behaviour for decision making at different levels of abstraction. In a sequence of stages, players first learn to control a fully articulated body to perform realistic, human-like movements such as running and turning; they then acquire mid-level football skills such as dribbling and shooting; finally, they develop awareness of others and play as a team, bridging the gap between low-level motor control at a timescale of milliseconds, and coordinated goal-directed behaviour as a team at the timescale of tens of seconds. We investigate the emergence of behaviours at different levels of abstraction, as well as the representations that underlie these behaviours using several analysis techniques, including statistics from real-world sports analytics. Our work constitutes a complete demonstration of integrated decision-making at multiple scales in a physically embodied multi-agent setting. See project video at https://youtu.be/KHM wq9pv7mg.
翻訳日:2021-05-27 13:18:39 公開日:2021-05-25
# 機械学習ソフトウェアのバイアス:なぜ? どうやって? どうしたらいいの?

Bias in Machine Learning Software: Why? How? What to do? ( http://arxiv.org/abs/2105.12195v1 )

ライセンス: Link先を確認
Joymallya Chakraborty, Suvodeep Majumder, Tim Menzies(参考訳) ソフトウェアはますます、犯罪者の逮捕、クレジットカードの承認、従業員の雇用など、自律的な意思決定を行っている。 これらの決定のいくつかは偏見を示し、特定の社会グループ(例えば)に悪影響を及ぼす。 性別、人種、年齢、婚姻状況によって定義されるもの) バイアス緩和に関する多くの先行研究は以下の形式を取る: 複数の方法でデータまたは学習者を変更し、そのどれかが公平性を改善するかどうかを確認する。 おそらくもっとよいアプローチは、バイアスの根本原因を仮定し、解決戦略を適用することである。 バイアスの根本原因は(a)どのデータが選択されたか、(b)これらの例に割り当てられたラベルに影響する事前決定であると仮定する。 我々のFair-SMOTEアルゴリズムはバイアス付きラベルを除去し、感度特性に基づいて、サンプルが正クラスと負のクラスの両方で等しいような内部分布を再バランスさせる。 テストでは、この方法が以前のアプローチと同じくらいバイアスを減らすのに有効であることが分かりました。 さらに、Fair-SMOTEによって生成されたモデルは、他の最先端の公正性改善アルゴリズムよりも高い性能(リコールとF1)を達成する。 分析した学習者やデータセットの数で測定された知識を最大限に活用するために,本研究は文献で提示されたバイアス緩和に関する最も大きな研究の1つである。

Increasingly, software is making autonomous decisions in case of criminal sentencing, approving credit cards, hiring employees, and so on. Some of these decisions show bias and adversely affect certain social groups (e.g. those defined by sex, race, age, marital status). Many prior works on bias mitigation take the following form: change the data or learners in multiple ways, then see if any of that improves fairness. Perhaps a better approach is to postulate root causes of bias and then applying some resolution strategy. This paper postulates that the root causes of bias are the prior decisions that affect- (a) what data was selected and (b) the labels assigned to those examples. Our Fair-SMOTE algorithm removes biased labels; and rebalances internal distributions such that based on sensitive attribute, examples are equal in both positive and negative classes. On testing, it was seen that this method was just as effective at reducing bias as prior approaches. Further, models generated via Fair-SMOTE achieve higher performance (measured in terms of recall and F1) than other state-of-the-art fairness improvement algorithms. To the best of our knowledge, measured in terms of number of analyzed learners and datasets, this study is one of the largest studies on bias mitigation yet presented in the literature.
翻訳日:2021-05-27 13:15:38 公開日:2021-05-25
# LTEとWi-Fi共存におけるベイズ非パラメトリック強化学習

Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence ( http://arxiv.org/abs/2105.12249v1 )

ライセンス: Link先を確認
Po-Kan Shih(参考訳) 次世代のワイヤレス通信の形成に伴い、モノのインターネット、自動運転車、ドローンといった新しいアプリケーションが、無許可の帯域を混雑させている。 LTEのようなライセンス付きネットワークも、高容量のコンテンツを低コストで提供するために、未ライセンスの帯域で提供される。 しかし、LTEは他とスペクトルを共有するように設計されていない。 これらのネットワークのための協力センターは、不均一な特性を持ち、誰もが自由にスペクトルを入力・離脱できるため、設計は困難である。 一つの統一設計で無限のシナリオを組み込むことは不可能であるため、別の解決策は各ネットワークに自身の共存ポリシーを学習させることである。 以前のソリューションは固定シナリオでのみ動作する。 本研究では,Wi-Fi と LTE-LAA エージェントの5GHz 帯における共存に対処する強化学習アルゴリズムを提案する。 共存問題はDec-POMDPとしてモデル化され、異なるエージェントの政策の不確実性に対応するために、非パラメトリックの政策学習にベイズ的アプローチが採用された。 報酬関数に公正度尺度を導入し、エージェント間の公平な共有を奨励した。 後部近似の確率および変分推論として値関数を変換することにより,強化学習を最適化問題とした。 シミュレーションの結果、このアルゴリズムはコンパクトなポリシー表現で高い値に達し、エージェントセットに適用しても計算効率が保たれることが示された。

With the formation of next generation wireless communication, a growing number of new applications like internet of things, autonomous car, and drone is crowding the unlicensed spectrum. Licensed network such as LTE also comes to the unlicensed spectrum for better providing high-capacity contents with low cost. However, LTE was not designed for sharing spectrum with others. A cooperation center for these networks is costly because they possess heterogeneous properties and everyone can enter and leave the spectrum unrestrictedly, so the design will be challenging. Since it is infeasible to incorporate potentially infinite scenarios with one unified design, an alternative solution is to let each network learn its own coexistence policy. Previous solutions only work on fixed scenarios. In this work a reinforcement learning algorithm is presented to cope with the coexistence between Wi-Fi and LTE-LAA agents in 5 GHz unlicensed spectrum. The coexistence problem was modeled as a Dec-POMDP and Bayesian approach was adopted for policy learning with nonparametric prior to accommodate the uncertainty of policy for different agents. A fairness measure was introduced in the reward function to encourage fair sharing between agents. The reinforcement learning was turned into an optimization problem by transforming the value function as likelihood and variational inference for posterior approximation. Simulation results demonstrate that this algorithm can reach high value with compact policy representations, and stay computationally efficient when applying to agent set.
翻訳日:2021-05-27 13:15:05 公開日:2021-05-25
# 連続制御タスクに対するロバスト値反復

Robust Value Iteration for Continuous Control Tasks ( http://arxiv.org/abs/2105.12189v1 )

ライセンス: Link先を確認
Michael Lutter and Shie Mannor and Jan Peters and Dieter Fox and Animesh Garg(参考訳) シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。 一般に、最適ポリシーは近似モデルと対応する状態分配に過剰に適合し、しばしば基盤となる分布シフトをトラスネファーすることができない。 本稿では,コンパクト状態領域における最適値関数を動的計画法を用いて計算し,システムダイナミクスの逆摂動を組み込んだロバスト適合値反復法を提案する。 敵対的な摂動は、ダイナミクスの変化にロバストな最適な政策を奨励する。 強化学習の連続時間的視点を用いて, 状態, 行動, 観察, モデルパラメータの最適摂動をクローズドフォームで導出する。 特に、結果のアルゴリズムは状態やアクションの離散化を必要としない。 したがって、min-max値関数更新に最適対向摂動を効率的に組み込むことができる。 結果のアルゴリズムをFruta振り子とカートポールに適用する。 システムの質量を変化させることで、異なるモデルパラメータにわたる定量的および質的性能を評価する。 より深い強化学習アルゴリズムや非破壊的なアルゴリズムと比較して,ロバストな値反復がより堅牢であることを示す。 実験のビデオはhttps://sites.google .com/view/rfviで見ることができる。

When transferring a control policy from simulation to a physical system, the policy needs to be robust to variations in the dynamics to perform well. Commonly, the optimal policy overfits to the approximate model and the corresponding state-distribution, often resulting in failure to trasnfer underlying distributional shifts. In this paper, we present Robust Fitted Value Iteration, which uses dynamic programming to compute the optimal value function on the compact state domain and incorporates adversarial perturbations of the system dynamics. The adversarial perturbations encourage a optimal policy that is robust to changes in the dynamics. Utilizing the continuous-time perspective of reinforcement learning, we derive the optimal perturbations for the states, actions, observations and model parameters in closed-form. Notably, the resulting algorithm does not require discretization of states or actions. Therefore, the optimal adversarial perturbations can be efficiently incorporated in the min-max value function update. We apply the resulting algorithm to the physical Furuta pendulum and cartpole. By changing the masses of the systems we evaluate the quantitative and qualitative performance across different model parameters. We show that robust value iteration is more robust compared to deep reinforcement learning algorithm and the non-robust version of the algorithm. Videos of the experiments are shown at https://sites.google .com/view/rfvi
翻訳日:2021-05-27 13:11:32 公開日:2021-05-25
# フィルタトポロジカル空間の簡潔な表現を学習するためのドメイン・オブブリバストなアプローチ

A Domain-Oblivious Approach for Learning Concise Representations of Filtered Topological Spaces ( http://arxiv.org/abs/2105.12208v1 )

ライセンス: Link先を確認
Yu Qin, Brittany Terese Fasy, Carola Wenk, and Brian Summa(参考訳) 永続図は、データ視覚化におけるフィルタトポロジカル空間の基本的特徴の定量化に広く用いられている。 多くの応用において、図間の計算距離は必須であるが、計算コストのためにこれらの計算距離は困難である。 本稿では,永続化図のバイナリコード表現を学習し,距離の高速な計算を可能にする永続化図ハッシュフレームワークを提案する。 このフレームワークは、学習過程を制御するための図距離損失関数を備えた生成逆ネットワーク(GAN)上に構築されている。 図をベクトル化された表現に変換する代わりに、図をバイナリコードにハッシュします。 このモデルのトレーニングは、合成された無作為な図から純粋に計算できるというドメイン公約である。 その結果,提案手法はモデルの再トレーニングを必要とせず,様々なデータセットに直接適用できる。 これらのバイナリコードは、高速ハミング距離を用いて比較した場合、他のベクトル化表現よりもデータセット間の位相的類似性を維持する。 この手法を評価するために,このフレームワークをダイアグラムクラスタリングの問題に適用し,手法の品質と性能を最先端と比較した。 さらに、10kパーシステンスダイアグラムを持つデータセットにおける我々のアプローチのスケーラビリティを示すが、現在のテクニックでは不可能である。 さらに,実験結果から,本手法はメモリ使用量が少ないほど大幅に高速化され,比較性能も向上した。

Persistence diagrams have been widely used to quantify the underlying features of filtered topological spaces in data visualization. In many applications, computing distances between diagrams is essential; however, computing these distances has been challenging due to the computational cost. In this paper, we propose a persistence diagram hashing framework that learns a binary code representation of persistence diagrams, which allows for fast computation of distances. This framework is built upon a generative adversarial network (GAN) with a diagram distance loss function to steer the learning process. Instead of attempting to transform diagrams into vectorized representations, we hash diagrams into binary codes, which have natural advantages in large-scale tasks. The training of this model is domain-oblivious in that it can be computed purely from synthetic, randomly created diagrams. As a consequence, our proposed method is directly applicable to various datasets without the need of retraining the model. These binary codes, when compared using fast Hamming distance, better maintain topological similarity properties between datasets than other vectorized representations. To evaluate this method, we apply our framework to the problem of diagram clustering and we compare the quality and performance of our approach to the state-of-the-art. In addition, we show the scalability of our approach on a dataset with 10k persistence diagrams, which is not possible with current techniques. Moreover, our experimental results demonstrate that our method is significantly faster with less memory usage, while retaining comparable or better quality comparisons.
翻訳日:2021-05-27 13:11:03 公開日:2021-05-25
# (参考訳) エデルマンの意識的アーティファクトへの歩み [全文訳有]

Edelman's Steps Toward a Conscious Artifact ( http://arxiv.org/abs/2105.10461v2 )

ライセンス: CC BY 4.0
Jeffrey L. Krichmar(参考訳) 2006年、カリフォルニア州ラ・ジョラ(la jolla)の神経科学研究所(neuralsciences institute, nsi)で、ジェラルド・エデルマン(gerald edelman)は、意識的な人工物の作成に向けたロードマップを説明した。 私の知る限り、このロードマップは公開されていません。 しかし、それは、その会議以来何年もの間、私の考えと他の多くの人々の考えを形作りました。 このショートペーパーは、ミーティング中に受け取ったメモに基づいており、このロードマップの重要なステップを説明しています。 15年以上前と同じように、今日は画期的だと思います。

In 2006, during a meeting of a working group of scientists in La Jolla, California at The Neurosciences Institute (NSI), Gerald Edelman described a roadmap towards the creation of a Conscious Artifact. As far as I know, this roadmap was not published. However, it did shape my thinking and that of many others in the years since that meeting. This short paper, which is based on my notes taken during the meeting, describes the key steps in this roadmap. I believe it is as groundbreaking today as it was more than 15 years ago.
翻訳日:2021-05-27 10:43:46 公開日:2021-05-25
# (参考訳) 畳み込みニューラルネットワークを用いた心疾患予測のための新しいディープラーニングアーキテクチャ [全文訳有]

Novel Deep Learning Architecture for Heart Disease Prediction using Convolutional Neural Network ( http://arxiv.org/abs/2105.10816v2 )

ライセンス: CC BY 4.0
Shadab Hussain, Susmith Barigidad, Shadab Akhtar, Md Suaib(参考訳) 医療は人間の生活において最も重要な側面の1つです。 心臓病は、世界中の多くの人々の生活を妨げる最も致命的な病気の1つとして知られている。 心臓病は早期に検出され、生命の喪失を防ぐことができる。 医療診断のための大規模データの利用は、心臓疾患の早期診断を自動化するための複雑な機械学習とディープラーニングベースのモデルの開発に役立った。 古典的なアプローチは、トレーニングセットで見られていない新しいデータにうまく一般化しないという点で制限されている。 これは、トレーニングとテストの精度の大きなギャップによって示されます。 本稿では、1次元畳み込みニューラルネットワークを用いて、健康な人と非健康な人の分類を行い、古典的アプローチの限界を克服する新しいディープラーニングアーキテクチャを提案する。 早期診断に役立つ患者のリスクプロファイルを評価するために、様々な臨床パラメータが使用される。 提案するネットワークのオーバーフィットを回避するために,様々な手法が用いられている。 提案するネットワークは、データセット上で97%以上のトレーニング精度と96%のテスト精度を達成する。 このモデルの精度は,提案手法の有効性を実証する様々な性能パラメータを用いて,他の分類アルゴリズムと詳細に比較した。

Healthcare is one of the most important aspects of human life. Heart disease is known to be one of the deadliest diseases which is hampering the lives of many people around the world. Heart disease must be detected early so the loss of lives can be prevented. The availability of large-scale data for medical diagnosis has helped developed complex machine learning and deep learning-based models for automated early diagnosis of heart diseases. The classical approaches have been limited in terms of not generalizing well to new data which have not been seen in the training set. This is indicated by a large gap in training and test accuracies. This paper proposes a novel deep learning architecture using a 1D convolutional neural network for classification between healthy and non-healthy persons to overcome the limitations of classical approaches. Various clinical parameters are used for assessing the risk profile in the patients which helps in early diagnosis. Various techniques are used to avoid overfitting in the proposed network. The proposed network achieves over 97% training accuracy and 96% test accuracy on the dataset. The accuracy of the model is compared in detail with other classification algorithms using various performance parameters which proves the effectiveness of the proposed architecture.
翻訳日:2021-05-27 08:11:07 公開日:2021-05-25
# (参考訳) 機械読解モデルにおける逆攻撃による統計的バイアスの解明 [全文訳有]

Using Adversarial Attacks to Reveal the Statistical Bias in Machine Reading Comprehension Models ( http://arxiv.org/abs/2105.11136v2 )

ライセンス: CC BY 4.0
Jieyu Lin, Jiajie Zou and Nai Ding(参考訳) 事前学習された言語モデルは、多くのMachine Reading Comprehension (MRC)タスクで人間レベルのパフォーマンスを達成したが、これらのモデルが本当に言語を理解しているのか、データセットの統計的バイアスを利用して質問に答えているのかは不明だ。 本稿では,mrcモデルに対する単純かつ効果的な手法を示し,モデル内の統計的バイアスを明らかにする。 提案手法を RACE データセットに適用し,各 MRC 質問に対する回答を 4 つの選択肢から選択する。 BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した優先順位を示す。 これらの無関係な選択肢に干渉すると、RCモデルの性能は人間レベルの性能からチャンスレベルの性能まで低下させることができる。 しかし、人間読者はこれらの無関係な選択肢の影響を受けていない。 最後に,モデルの統計的バイアスを大幅に低減できる拡張トレーニング手法を提案する。

Pre-trained language models have achieved human-level performance on many Machine Reading Comprehension (MRC) tasks, but it remains unclear whether these models truly understand language or answer questions by exploiting statistical biases in datasets. Here, we demonstrate a simple yet effective method to attack MRC models and reveal the statistical biases in these models. We apply the method to the RACE dataset, for which the answer to each MRC question is selected from 4 options. It is found that several pre-trained language models, including BERT, ALBERT, and RoBERTa, show consistent preference to some options, even when these options are irrelevant to the question. When interfered by these irrelevant options, the performance of MRC models can be reduced from human-level performance to the chance-level performance. Human readers, however, are not clearly affected by these irrelevant options. Finally, we propose an augmented training method that can greatly reduce models' statistical biases.
翻訳日:2021-05-27 08:03:06 公開日:2021-05-25
# (参考訳) 入力摂動とサブセット走査を用いた皮膚科領域の分布外検出 [全文訳有]

Out-of-Distribution Detection in Dermatology using Input Perturbation and Subset Scanning ( http://arxiv.org/abs/2105.11160v2 )

ライセンス: CC BY 4.0
Hannah Kim, Girmaw Abebe Tadesse, Celia Cintas, Skyler Speakman, Kush Varshney(参考訳) 近年のディープラーニングの進歩は、皮膚疾患の自動分類の開発にブレークスルーをもたらした。 皮膚科領域におけるこれらのモデルへの関心が高まる中、入力データ分布シフトに対するロバスト性などの側面に取り組むことが重要である。 現在の皮膚疾患モデルでは、異なるハードウェアデバイスからの検査サンプルや、トレーニングサンプルからのアウト・オブ・ディストリビューション(OOD)である臨床設定や未知の疾患サンプルに対して、誤った推論が行われる可能性がある。 そこで本研究では,決定に先立って,これらのOODサンプルを簡易かつ効果的に検出する手法を提案する。 この検出は潜伏空間表現(例えば、事前訓練された皮膚疾患分類器の内部層の活性化)の走査によって行われる。 入力サンプルはまた、OODサンプルの発散を最大化するために摂動することもできる。 1)異なるプロトコルから収集したサンプルを同定し,2)未知の疾患クラスからのサンプルを検出する。 さらに,提案手法の性能評価を行い,他の最先端手法と比較する。 さらに、データ駆動皮膚科学の応用は、ほとんどのデータセットが皮膚トーン分布のバイアスを被っていると報告されているため、人種および民族間の臨床ケアの格差を深くする可能性がある。 そこで本研究では,これらのOOD検出手法の皮膚音に対する公平性についても検討した。 実験の結果、OODサンプルの検出において複数のデータセット間で競合性能が得られ、これらのサンプルを推測する前により効果的な転送学習手法を設計するために(将来的に)使用できることがわかった。

Recent advances in deep learning have led to breakthroughs in the development of automated skin disease classification. As we observe an increasing interest in these models in the dermatology space, it is crucial to address aspects such as the robustness towards input data distribution shifts. Current skin disease models could make incorrect inferences for test samples from different hardware devices and clinical settings or unknown disease samples, which are out-of-distribution (OOD) from the training samples. To this end, we propose a simple yet effective approach that detect these OOD samples prior to making any decision. The detection is performed via scanning in the latent space representation (e.g., activations of the inner layers of any pre-trained skin disease classifier). The input samples could also perturbed to maximise divergence of OOD samples. We validate our ODD detection approach in two use cases: 1) identify samples collected from different protocols, and 2) detect samples from unknown disease classes. Additionally, we evaluate the performance of the proposed approach and compare it with other state-of-the-art methods. Furthermore, data-driven dermatology applications may deepen the disparity in clinical care across racial and ethnic groups since most datasets are reported to suffer from bias in skin tone distribution. Therefore, we also evaluate the fairness of these OOD detection methods across different skin tones. Our experiments resulted in competitive performance across multiple datasets in detecting OOD samples, which could be used (in the future) to design more effective transfer learning techniques prior to inferring on these samples.
翻訳日:2021-05-27 07:48:57 公開日:2021-05-25
# (参考訳) SRH-Net: ステレオマッチングのためのスタック型再帰時間ガラスネットワーク [全文訳有]

SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching ( http://arxiv.org/abs/2105.11587v1 )

ライセンス: CC BY 4.0
Hongzhi Du, Yanyan Li, Yanbiao Sun, Jigui Zhu and Federico Tombari(参考訳) コスト集約戦略は、学習ベースのステレオマッチングタスクにおいて重要な役割を担っている。そこでは、3D畳み込みフィルタが技術の状態を取得するが、集中的な計算資源を必要とする。 本稿では, 3次元畳み込みフィルタが使用する4次元立方体体積を, 繰り返しコスト集約戦略を利用して, 同時に扱うのではなく, 相違方向に沿って逐次コストマップに分解する。 さらに,各コストマップを処理するために,新しい再帰モジュール stacked recurrent hourglass (srh) を提案する。 我々の時間ガラスネットワークは、GRU(Gated Recurrent Units)とダウン/アップサンプリング層に基づいて構築されている。 次に、2つの時間ガラスネットワークを積層し、マルチスケール情報をスキップ接続により処理し、無テクスチャ領域におけるパイプラインの性能を向上させる。 提案アーキテクチャは、エンドツーエンドパイプラインで実装され、パブリックデータセット上で評価され、精度の低下を伴わずにスタックされた砂時計3d cnnを使用したpsmnetと比較して、gpuメモリ消費量が最大56.1\%削減される。 さらに,複数の高分解能ペアに対して提案手法のスケーラビリティを実証する一方,以前に学習した手法はメモリ制約のために失敗することが多い。 コードは \url{https://github.com/h ongzhidu/srhnet} でリリースされる。

The cost aggregation strategy shows a crucial role in learning-based stereo matching tasks, where 3D convolutional filters obtain state of the art but require intensive computation resources, while 2D operations need less GPU memory but are sensitive to domain shift. In this paper, we decouple the 4D cubic cost volume used by 3D convolutional filters into sequential cost maps along the direction of disparity instead of dealing with it at once by exploiting a recurrent cost aggregation strategy. Furthermore, a novel recurrent module, Stacked Recurrent Hourglass (SRH), is proposed to process each cost map. Our hourglass network is constructed based on Gated Recurrent Units (GRUs) and down/upsampling layers, which provides GRUs larger receptive fields. Then two hourglass networks are stacked together, while multi-scale information is processed by skip connections to enhance the performance of the pipeline in textureless areas. The proposed architecture is implemented in an end-to-end pipeline and evaluated on public datasets, which reduces GPU memory consumption by up to 56.1\% compared with PSMNet using stacked hourglass 3D CNNs without the degradation of accuracy. Then, we further demonstrate the scalability of the proposed method on several high-resolution pairs, while previously learned approaches often fail due to the memory constraint. The code is released at \url{https://github.com/h ongzhidu/SRHNet}.
翻訳日:2021-05-27 05:38:13 公開日:2021-05-25
# (参考訳) 量子プロセッサ上に実装された量子ホップフィールド連想メモリ [全文訳有]

A Quantum Hopfield Associative Memory Implemented on an Actual Quantum Processor ( http://arxiv.org/abs/2105.11590v1 )

ライセンス: CC BY 4.0
Nathan Eli Miller and Saibal Mukhopadhyay(参考訳) 本稿では、量子ホップフィールド連想メモリ(QHAM)について紹介し、IBM Quantum Experienceを用いたシミュレーションおよびハードウェアにおけるその機能を示す。 QHAMは、多くの異なる機械学習アプリケーションに利用でき、中間回路計測やリセット操作を必要とせずに実際の量子ハードウェア上で実装できる量子ニューロン設計に基づいている。 ハードウェアノイズモデルによるシミュレーションと、15量子ibmq_16_melbourneデバイスの実装により、ハードウェアエラーを考慮したニューロンと完全QHAMの精度を解析する。 量子ニューロンとQHAMはノイズに耐性があり、低量子ビットと時間オーバーヘッドを必要とする。 我々は、QHAMを量子ビットおよび回路レベルのエラーに対して有効メモリ容量をテストすることでベンチマークし、量子ハードウェアのNISQ時代におけるその能力を実証する。 NISQ時代の量子ハードウェアで実装された最初の機能的QHAMのデモは、量子コンピューティングの最先端における機械学習の重要なステップである。

In this work, we present a Quantum Hopfield Associative Memory (QHAM) and demonstrate its capabilities in simulation and hardware using IBM Quantum Experience. The QHAM is based on a quantum neuron design which can be utilized for many different machine learning applications and can be implemented on real quantum hardware without requiring mid-circuit measurement or reset operations. We analyze the accuracy of the neuron and the full QHAM considering hardware errors via simulation with hardware noise models as well as with implementation on the 15-qubit ibmq_16_melbourne device. The quantum neuron and the QHAM are shown to be resilient to noise and require low qubit and time overhead. We benchmark the QHAM by testing its effective memory capacity against qubit- and circuit-level errors and demonstrate its capabilities in the NISQ-era of quantum hardware. This demonstration of the first functional QHAM to be implemented in NISQ-era quantum hardware is a significant step in machine learning at the leading edge of quantum computing.
翻訳日:2021-05-27 05:17:50 公開日:2021-05-25
# (参考訳) 説明可能な推薦のためのパーソナライズドトランスフォーマー [全文訳有]

Personalized Transformer for Explainable Recommendation ( http://arxiv.org/abs/2105.11601v1 )

ライセンス: CC BY 4.0
Lei Li, Yongfeng Zhang, Li Chen(参考訳) 自然言語生成のパーソナライゼーションは、説明可能なレコメンデーション、要約のレビュー、ダイアログシステムなど、幅広いタスクにおいて重要な役割を果たす。 これらのタスクでは、ユーザIDとアイテムIDはパーソナライズのための重要な識別子である。 しかし、強力な言語モデリング機能を備えたTransformerはパーソナライズされておらず、IDトークンが単語と同じ意味空間にないため、ユーザIDとアイテムIDを使用することができない。 この問題に対処するため,PETER (PErsonalized Transformer for Explainable Recommendation) を提案する。提案するPETERは,ターゲット説明中の単語を予測し,そのIDに言語的意味を持たせ,パーソナライズされたトランスフォーマを実現するための,シンプルで効果的な学習目標を設計する。 説明の生成に加えて、PETERはレコメンデーションを作成できるため、レコメンデーション-説明パイプライン全体の統一モデルになる。 大規模な実験により、我々の小さな未学習モデルは、効率と効率の両方の観点から、生成タスクにおいて細調整されたBERTよりも優れており、設計の重要性と有用性を強調している。

Personalization of natural language generation plays a vital role in a large spectrum of tasks, such as explainable recommendation, review summarization and dialog systems. In these tasks, user and item IDs are important identifiers for personalization. Transformer, which is demonstrated with strong language modeling capability, however, is not personalized and fails to make use of the user and item IDs since the ID tokens are not even in the same semantic space as the words. To address this problem, we present a PErsonalized Transformer for Explainable Recommendation (PETER), on which we design a simple and effective learning objective that utilizes the IDs to predict the words in the target explanation, so as to endow the IDs with linguistic meanings and to achieve personalized Transformer. Besides generating explanations, PETER can also make recommendations, which makes it a unified model for the whole recommendation-expla nation pipeline. Extensive experiments show that our small unpretrained model outperforms fine-tuned BERT on the generation task, in terms of both effectiveness and efficiency, which highlights the importance and the nice utility of our design.
翻訳日:2021-05-27 05:15:09 公開日:2021-05-25
# (参考訳) IGO-QNN: Inductive Grover Oracularizationのための量子ニューラルネットワークアーキテクチャ [全文訳有]

IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization ( http://arxiv.org/abs/2105.11603v1 )

ライセンス: CC BY 4.0
Areeq I. Hasan(参考訳) 本稿では,Groverのアルゴリズムを機械学習フレームワークに統合する新たなパラダイムとして,インダクティブGrover Oracular quantum Neural Network (IGO-QNN)を提案する。 このモデルは、パラメータ化された量子ニューロンの隠れた層をエンタングルシナプスを介して密結合し、データベースヒットのトレーニング例からトレーニング可能な動的グローバー探索オラクルを符号化する変分量子回路を定義する。 これにより、Groverの非構造化探索アルゴリズムの幅広い問題適用範囲を拡大し、解検証器の分析記述に欠ける問題の大部分を含むようにし、不構造化探索における2次的なスピードアップを可能にした。 グローバーのoracularizationのこの一般化は、深層強化学習、コンピュータビジョン、より一般的には、既存のモデルの上部にある特徴ベクトル分類器として特に有効であるかもしれない。

We propose a novel paradigm of integration of Grover's algorithm in a machine learning framework: the inductive Grover oracular quantum neural network (IGO-QNN). The model defines a variational quantum circuit with hidden layers of parameterized quantum neurons densely connected via entangle synapses to encode a dynamic Grover's search oracle that can be trained from a set of database-hit training examples. This widens the range of problem applications of Grover's unstructured search algorithm to include the vast majority of problems lacking analytic descriptions of solution verifiers, allowing for quadratic speed-up in unstructured search for the set of search problems with relationships between input and output spaces that are tractably underivable deductively. This generalization of Grover's oracularization may prove particularly effective in deep reinforcement learning, computer vision, and, more generally, as a feature vector classifier at the top of an existing model.
翻訳日:2021-05-27 04:53:13 公開日:2021-05-25
# (参考訳) 点をつなぐ:spatio-temporal cnnによるco$_2$ストレージのその場4次元地震モニタリング [全文訳有]

Connect the Dots: In Situ 4D Seismic Monitoring of CO$_2$ Storage with Spatio-temporal CNNs ( http://arxiv.org/abs/2105.11622v1 )

ライセンス: CC BY 4.0
Shihang Feng, Xitong Zhang, Brendt Wohlberg, Neill Symons and Youzuo Lin(参考訳) 4次元地震イメージングはCO$2$シークエンス計画において、井戸で採取されていない体積地下領域の流動をモニタリングするために広く利用されている。 理想的には、リアルタイムモニタリングと近い将来の予測は、地下貯水池のダイナミクスを理解し、潜在的なリスクを評価するための優れた洞察を提供するだろう。 しかし, 高い展開コスト, 取得装置の可用性, 表面構造を取り巻く排他領域などの障害のため, モニタリング中は, ごくわずかの地震画像データしか得られない。 これにより、時間とともに避けられない、そして成長を続ける知識のギャップが生まれる。 オペレータはプロジェクト期間中の流体の流れを理解する必要があり、地震データは限られた回数でのみ利用可能であり、貯水池の挙動を理解するには不十分である。 これらの課題を克服するために,高忠実度補間あるいは外挿画像の効率よく生成できる時空間ニューラルネットワークモデルを開発した。 特に,本モデルはオートエンコーダ上に構築され,光フローによる新たな損失関数を組み込んだlong short-term memory (lstm) 構造が組み込まれている。 Sleipner CO$_2$Sequestrationフィールドで得られた実際の4Dポストスタック地震画像データを用いて,本モデルの性能を検証した。 モデル評価には2つの戦略を採用しています。 数値解析では,従来のピクセルベースメトリクスを用いて,モデルと異なるベースラインアプローチを比較した。 また、盲目的調査を行い、ドメインの専門家から合計20の回答を収集し、モデルが生成するデータの品質を評価します。 数値的および専門的な評価から,我々のモデルでは,高画質な2次元・3次元地震画像データを妥当なコストで作成することができ,リアルタイムモニタリングやCO$2$貯水池の近未来予測を行うことが可能である。

4D seismic imaging has been widely used in CO$_2$ sequestration projects to monitor the fluid flow in the volumetric subsurface region that is not sampled by wells. Ideally, real-time monitoring and near-future forecasting would provide site operators with great insights to understand the dynamics of the subsurface reservoir and assess any potential risks. However, due to obstacles such as high deployment cost, availability of acquisition equipment, exclusion zones around surface structures, only very sparse seismic imaging data can be obtained during monitoring. That leads to an unavoidable and growing knowledge gap over time. The operator needs to understand the fluid flow throughout the project lifetime and the seismic data are only available at a limited number of times, this is insufficient for understanding the reservoir behavior. To overcome those challenges, we have developed spatio-temporal neural-network-based models that can produce high-fidelity interpolated or extrapolated images effectively and efficiently. Specifically, our models are built on an autoencoder, and incorporate the long short-term memory (LSTM) structure with a new loss function regularized by optical flow. We validate the performance of our models using real 4D post-stack seismic imaging data acquired at the Sleipner CO$_2$ sequestration field. We employ two different strategies in evaluating our models. Numerically, we compare our models with different baseline approaches using classic pixel-based metrics. We also conduct a blind survey and collect a total of 20 responses from domain experts to evaluate the quality of data generated by our models. Via both numerical and expert evaluation, we conclude that our models can produce high-quality 2D/3D seismic imaging data at a reasonable cost, offering the possibility of real-time monitoring or even near-future forecasting of the CO$_2$ storage reservoir.
翻訳日:2021-05-27 04:39:09 公開日:2021-05-25
# (参考訳) L1-Normに関連する新しいカーネルを用いたロバスト成分分析 [全文訳有]

Robust Principal Component Analysis Using a Novel Kernel Related with the L1-Norm ( http://arxiv.org/abs/2105.11634v1 )

ライセンス: CC BY 4.0
Hongyi Pan, Diaa Badawi, Erdem Koyuncu, A. Enis Cetin(参考訳) 我々は,手形変更や加算操作のみを用いて実装できるベクトルドット製品群について考察する。 ドット積は乗算操作を完全に避けるためエネルギー効率が良い。 さらに、ドット積は$\ell_1$-normを誘導し、インパルスノイズに対する堅牢性を提供する。 まず、各ドット積が対称な半定値な一般化共分散行列を生成することを解析的に証明し、主成分分析(PCA)を可能にする。 さらに、一般化された共分散行列は、基礎となるベクトル積の乗算自由性のためにエネルギー効率(EEF)的に構築することができる。 本稿では,EEF PCA法が通常の$\ell_2$-PCAと再帰的な$\ell_1$-PCAと比較してピーク信号対雑音比を最大化する画像再構成例を示す。

We consider a family of vector dot products that can be implemented using sign changes and addition operations only. The dot products are energy-efficient as they avoid the multiplication operation entirely. Moreover, the dot products induce the $\ell_1$-norm, thus providing robustness to impulsive noise. First, we analytically prove that the dot products yield symmetric, positive semi-definite generalized covariance matrices, thus enabling principal component analysis (PCA). Moreover, the generalized covariance matrices can be constructed in an Energy Efficient (EEF) manner due to the multiplication-free property of the underlying vector products. We present image reconstruction examples in which our EEF PCA method result in the highest peak signal-to-noise ratios compared to the ordinary $\ell_2$-PCA and the recursive $\ell_1$-PCA.
翻訳日:2021-05-27 04:08:21 公開日:2021-05-25
# (参考訳) FILTRA:フィルタ変換によるステアブルCNNの再検討 [全文訳有]

FILTRA: Rethinking Steerable CNN by Filter Transform ( http://arxiv.org/abs/2105.11636v1 )

ライセンス: CC BY 4.0
Bo Li, Qili Wang, Gim Hee Lee(参考訳) ステアブルcnnは、データの幾何変換におけるネットワークロバスト性を高め、過剰フィッティングを減らすために、ネットワークアーキテクチャにおける変換不変性や等分散の事前知識を課す。 この手法は,過去数十年間,フィルタに変換されたコピーを付加してステアブルフィルタを構築するための直感的かつ広く用いられている手法であり,フィルタ変換と呼ばれる。 近年, 操舵可能なカーネル関数の関数空間構造を明らかにするグループ表現論の側面から, 操舵可能なCNNの問題が研究されている。 しかし、この理論がフィルタ変換技術とどのように関係しているかは、まだ明らかではない。 本稿では,フィルタ変換によって構成されるカーネルが群表現理論でも解釈可能であることを示す。 この解釈は、ステアブルCNN理論のパズルを完成させ、ステアブル畳み込み演算子を実装するための新しく簡単なアプローチを提供する。 複数のデータセット上で実験を行い、提案手法の有効性を検証する。

Steerable CNN imposes the prior knowledge of transformation invariance or equivariance in the network architecture to enhance the the network robustness on geometry transformation of data and reduce overfitting. It has been an intuitive and widely used technique to construct a steerable filter by augmenting a filter with its transformed copies in the past decades, which is named as filter transform in this paper. Recently, the problem of steerable CNN has been studied from aspect of group representation theory, which reveals the function space structure of a steerable kernel function. However, it is not yet clear on how this theory is related to the filter transform technique. In this paper, we show that kernel constructed by filter transform can also be interpreted in the group representation theory. This interpretation help complete the puzzle of steerable CNN theory and provides a novel and simple approach to implement steerable convolution operators. Experiments are executed on multiple datasets to verify the feasibility of the proposed approach.
翻訳日:2021-05-27 03:55:03 公開日:2021-05-25
# (参考訳) スパースライダー点雲からの地表面検出の促進について [全文訳有]

On Enhancing Ground Surface Detection from Sparse Lidar Point Cloud ( http://arxiv.org/abs/2105.11649v1 )

ライセンス: CC BY 4.0
Bo Li(参考訳) 点雲における地表面検出は、自律運転システムのキーモジュールとして広く利用されている。 従来のアプローチとは異なり、主に高ビーム解像度のライダー向けに開発された。 Velodyne HDL-64では,低ビーム分解能ライダーによって捕捉された多くのスペーサー点雲に適用可能な地中検出手法を提案する。 VLP-16。 この手法はRANSACの平面フィッティング方式に基づいている。 平面仮説に対する不規則な検証は、ライダービームの密度に関係なく計算できる局所的な特徴である点接を利用して強化される。 平面的でない地表面は、複数の(具体例では4)非接合面領域に収まる。 これらの平面領域を直方体と仮定し, 積分像法を応用することにより, 実時間計算複雑性を持つransacスキームの下での最適領域分割と平面仮説を近似的に求める。

Ground surface detection in point cloud is widely used as a key module in autonomous driving systems. Different from previous approaches which are mostly developed for lidars with high beam resolution, e.g. Velodyne HDL-64, this paper proposes ground detection techniques applicable to much sparser point cloud captured by lidars with low beam resolution, e.g. Velodyne VLP-16. The approach is based on the RANSAC scheme of plane fitting. Inlier verification for plane hypotheses is enhanced by exploiting the point-wise tangent, which is a local feature available to compute regardless of the density of lidar beams. Ground surface which is not perfectly planar is fitted by multiple (specifically 4 in our implementation) disjoint plane regions. By assuming these plane regions to be rectanglar and exploiting the integral image technique, our approach approximately finds the optimal region partition and plane hypotheses under the RANSAC scheme with real-time computational complexity.
翻訳日:2021-05-27 03:50:20 公開日:2021-05-25
# (参考訳) 双方向アライメントネットワークによる高速かつ正確なシーン解析 [全文訳有]

Fast and Accurate Scene Parsing via Bi-direction Alignment Networks ( http://arxiv.org/abs/2105.11651v1 )

ライセンス: CC BY 4.0
Yanran Wu, Xiangtai Li, Chen Shi, Yunhai Tong, Yang Hua, Tao Song, Ruhui Ma, Haibing Guan(参考訳) 本論文では,双方向アライメントネットワーク(bialignnet)と呼ばれる,高速かつ高精度なシーン解析手法を提案する。 以前は、bisenet~\cite{bisenet}が2つの異なる経路(コンテキストパスと空間パス)を使用して、それぞれ意味と詳細のバランスのとれた学習を実現していた。 しかし、この2つの経路の関係はよく調べられていない。 両方のパスが相補的な方法で相互に利益をもたらすと我々は主張する。 そこで我々は,学習フロー場を通じて2経路情報を相互にアライメントすることで,新たなネットワークを提案する。 ノイズやセマンティクスのギャップを避けるために,両特徴を双方向にアライメントするゲート型フローアライメントモジュールを導入する。 さらに,空間経路がより詳細な情報を知るために,エッジガイド付きハードピクセルマイニング損失を提示し,アライメント学習プロセスを監督する。 本手法は,30FPSでフル解像度入力を行いながら,都市景観の検証とテストにおいて 80.1\% と 78.5\% mIoU を達成する。 コードとモデルは \url{https://github.com/j ojacola/BiAlignNet} で入手できる。

In this paper, we propose an effective method for fast and accurate scene parsing called Bidirectional Alignment Network (BiAlignNet). Previously, one representative work BiSeNet~\cite{bisenet} uses two different paths (Context Path and Spatial Path) to achieve balanced learning of semantics and details, respectively. However, the relationship between the two paths is not well explored. We argue that both paths can benefit each other in a complementary way. Motivated by this, we propose a novel network by aligning two-path information into each other through a learned flow field. To avoid the noise and semantic gaps, we introduce a Gated Flow Alignment Module to align both features in a bidirectional way. Moreover, to make the Spatial Path learn more detailed information, we present an edge-guided hard pixel mining loss to supervise the aligned learning process. Our method achieves 80.1\% and 78.5\% mIoU in validation and test set of Cityscapes while running at 30 FPS with full resolution inputs. Code and models will be available at \url{https://github.com/j ojacola/BiAlignNet}.
翻訳日:2021-05-27 03:37:45 公開日:2021-05-25
# (参考訳) 微粒化セマンティックセグメンテーションのための動的デュアルサンプリングモジュール [全文訳有]

Dynamic Dual Sampling Module for Fine-Grained Semantic Segmentation ( http://arxiv.org/abs/2105.11657v1 )

ライセンス: CC BY 4.0
Chen Shi, Xiangtai Li, Yanran Wu, Yunhai Tong, Yi Xu(参考訳) セマンティックセグメンテーションモデルを構築する上では、セマンティックコンテキストとローカル詳細の表現が不可欠である。 しかし、意味的文脈と局所的詳細との相互関係は、以前の作品ではよく研究されていない。 本稿では,動的親和性モデリングを行い,意味的コンテキストを局所的な詳細に伝達する動的デュアルサンプリングモジュール(DDSM)を提案する。 具体的には、動的サンプリング戦略を用いて、上位層の代表画素とチャネルを疎にサンプリングし、下位層の各画素とチャネルに対して適応コンパクトな支持を形成する。 高いセマンティクスを持つサンプル特徴は親和性に応じて集約され、その後、詳細な下層特徴に伝播し、保存された境界を持つきめ細かいセグメンテーション結果をもたらす。 CityscapesとCamvidのデータセットによる実験結果は,提案手法の有効性と有効性を検証する。 コードとモデルは \url{x3https://github.com /Fantasticarl/DDSM} で入手できる。

Representation of semantic context and local details is the essential issue for building modern semantic segmentation models. However, the interrelationship between semantic context and local details is not well explored in previous works. In this paper, we propose a Dynamic Dual Sampling Module (DDSM) to conduct dynamic affinity modeling and propagate semantic context to local details, which yields a more discriminative representation. Specifically, a dynamic sampling strategy is used to sparsely sample representative pixels and channels in the higher layer, forming adaptive compact support for each pixel and channel in the lower layer. The sampled features with high semantics are aggregated according to the affinities and then propagated to detailed lower-layer features, leading to a fine-grained segmentation result with well-preserved boundaries. Experiment results on both Cityscapes and Camvid datasets validate the effectiveness and efficiency of the proposed approach. Code and models will be available at \url{x3https://github.com /Fantasticarl/DDSM}.
翻訳日:2021-05-27 03:25:38 公開日:2021-05-25
# (参考訳) boundarysqueeze: 境界スクイージングとしてのイメージセグメンテーション [全文訳有]

BoundarySqueeze: Image Segmentation as Boundary Squeezing ( http://arxiv.org/abs/2105.11668v1 )

ライセンス: CC BY 4.0
Hao He, Xiangtai Li, Kuiyuan Yang, Guangliang Cheng, Jianping Shi, Yunhai Tong, Zhengjun Zha, Lubin Weng(参考訳) 本稿では,オブジェクトとシーンの精細な高品質画像分割手法を提案する。 形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。 この観点からは,内面と外面の両方からオブジェクト境界を絞り込み,精密なマスク表現につながる新規かつ効率的なモジュールである \textbf{boundary squeeze} モジュールを提案する。 そこで,このようなスクイーズド表現を生成するために,新しい双方向流れに基づくワーピングプロセスと,学習プロセスを監督する特定の損失信号の設計を提案する。 境界圧縮モジュールは、既存のモデルの上に構築することで、プラグイン・アンド・プレイモジュールとしてインスタンスおよびセマンティックセグメンテーションタスクの両方に容易に適用できる。 我々のシンプルで効果的な設計は、いくつかの異なるデータセットで高い質的結果をもたらすことを示し、また、以前の作業よりも有効性を証明するために境界に関するいくつかの異なる指標を提供する。 さらに,提案モジュールは軽量化されており,実用性が期待できる。 提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。 コードとモデルは利用可能だ。

We propose a novel method for fine-grained high-quality image segmentation of both objects and scenes. Inspired by dilation and erosion from morphological image processing techniques, we treat the pixel level segmentation problems as squeezing object boundary. From this perspective, we propose \textbf{Boundary Squeeze} module: a novel and efficient module that squeezes the object boundary from both inner and outer directions which leads to precise mask representation. To generate such squeezed representation, we propose a new bidirectionally flow-based warping process and design specific loss signals to supervise the learning process. Boundary Squeeze Module can be easily applied to both instance and semantic segmentation tasks as a plug-and-play module by building on top of existing models. We show that our simple yet effective design can lead to high qualitative results on several different datasets and we also provide several different metrics on boundary to prove the effectiveness over previous work. Moreover, the proposed module is light-weighted and thus has potential for practical usage. Our method yields large gains on COCO, Cityscapes, for both instance and semantic segmentation and outperforms previous state-of-the-art PointRend in both accuracy and speed under the same setting. Code and model will be available.
翻訳日:2021-05-27 03:12:00 公開日:2021-05-25
# (参考訳) 部分観測型強化学習のための不偏非対称アクター臨界 [全文訳有]

Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2105.11674v1 )

ライセンス: CC BY 4.0
Andrea Baisero and Christopher Amato(参考訳) 部分的に観察可能な強化学習では、オフライントレーニングは、システム状態などのオンライントレーニングや実行中に利用できない潜在情報へのアクセスを提供する。 非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することでそのような情報を利用する。 しかし、多くの非対称法は理論的基礎がなく、限られた領域でのみ評価される。 状態に基づく批判を用いた非対称的アクタ批判法の理論を検証し、共通型の有効性を損なう根本的な問題や、高い部分的可観測性に対処する能力を公開する。 本研究では, 理論的に健全なまま状態情報を活用でき, 方針勾配定理の妥当性を保ちながら, 学習過程にバイアスや相対的ばらつきをもたらさない非バイアス非対称アクタ-クリティック変種を提案する。 有意な部分的可観測性を示す領域で実施された経験的評価は、我々の分析を裏付けるものであり、不偏非対称的アクター批判は、対称的アクター批判および標準非対称的アクター批判ベースラインよりも優れたポリシーおよび/または高速に収束することを示す。

In partially observable reinforcement learning, offline training gives access to latent information which is not available during online training and/or execution, such as the system state. Asymmetric actor-critic methods exploit such information by training a history-based policy via a state-based critic. However, many asymmetric methods lack theoretical foundation, and are only evaluated on limited domains. We examine the theory of asymmetric actor-critic methods which use state-based critics, and expose fundamental issues which undermine the validity of a common variant, and its ability to address high partial observability. We propose an unbiased asymmetric actor-critic variant which is able to exploit state information while remaining theoretically sound, maintaining the validity of the policy gradient theorem, and introducing no bias and relatively low variance into the training process. An empirical evaluation performed on domains which exhibit significant partial observability confirms our analysis, and shows the unbiased asymmetric actor-critic converges to better policies and/or faster than symmetric actor-critic and standard asymmetric actor-critic baselines.
翻訳日:2021-05-27 02:48:05 公開日:2021-05-25
# (参考訳) コントラスト自己蒸留による超解像のコンパクト化に向けて [全文訳有]

Towards Compact Single Image Super-Resolution via Contrastive Self-distillation ( http://arxiv.org/abs/2105.11683v1 )

ライセンス: CC BY 4.0
Yanbo Wang, Shaohui Lin, Yanyun Qu, Haiyan Wu, Zhizhong Zhang, Yuan Xie, Angela Yao(参考訳) 畳み込みニューラルネットワーク(CNN)は超高解像度(SR)では高い成功を収めるが、しばしばメモリコストと計算オーバーヘッドの重い高度なアーキテクチャを必要とする。 本稿では,srモデルの圧縮と加速を同時に行うためのコントラスト型自己蒸留(csd)フレームワークを提案する。 特に、チャネル分割型超解像ネットワークは、まずターゲットの教師ネットワークからコンパクトな学生ネットワークとして構築することができる。 そこで我々は,SR画像とPSNR/SSIMの品質向上のために,明示的な知識伝達による新たなコントラスト損失を提案する。 大規模な実験により、提案方式はEDSR、RCAN、CARNなどの標準SRモデルを効果的に圧縮・加速することを示した。 コードはhttps://github.com/B ooooooooooo/CSDで入手できる。

Convolutional neural networks (CNNs) are highly successful for super-resolution (SR) but often require sophisticated architectures with heavy memory cost and computational overhead, significantly restricts their practical deployments on resource-limited devices. In this paper, we proposed a novel contrastive self-distillation (CSD) framework to simultaneously compress and accelerate various off-the-shelf SR models. In particular, a channel-splitting super-resolution network can first be constructed from a target teacher network as a compact student network. Then, we propose a novel contrastive loss to improve the quality of SR images and PSNR/SSIM via explicit knowledge transfer. Extensive experiments demonstrate that the proposed CSD scheme effectively compresses and accelerates several standard SR models such as EDSR, RCAN and CARN. Code is available at https://github.com/B ooooooooooo/CSD.
翻訳日:2021-05-27 02:10:02 公開日:2021-05-25
# (参考訳) 感情認識対話生成のための生成と分類のマルチタスク学習 [全文訳有]

Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Generation ( http://arxiv.org/abs/2105.11696v1 )

ライセンス: CC BY 4.0
Tatsuya Ide and Daisuke Kawahara(参考訳) コンピュータが人間と自然に相互作用するためには、人間らしくなければならない。 本稿では,感情に着目した,生成と分類のマルチタスク学習を用いたニューラルレスポンス生成モデルを提案する。 BART(Lewis et al., 2020)をモデルとして, 学習前のトランスフォーマーエンコーダ・デコーダモデルを構築し, 応答の生成と感情の認識を同時に行う。 さらに,タスクの損失を重み付けてパラメータの更新を制御する。 自動評価とクラウドソースによる手動評価は,提案モデルが生成した応答をより感情的に認識することを示す。

For a computer to naturally interact with a human, it needs to be human-like. In this paper, we propose a neural response generation model with multi-task learning of generation and classification, focusing on emotion. Our model based on BART (Lewis et al., 2020), a pre-trained transformer encoder-decoder model, is trained to generate responses and recognize emotions simultaneously. Furthermore, we weight the losses for the tasks to control the update of parameters. Automatic evaluations and crowdsourced manual evaluations show that the proposed model makes generated responses more emotionally aware.
翻訳日:2021-05-27 01:51:48 公開日:2021-05-25
# (参考訳) LENs: Logic Explained Networks用のPythonライブラリ [全文訳有]

LENs: a Python library for Logic Explained Networks ( http://arxiv.org/abs/2105.11697v1 )

ライセンス: CC BY 4.0
Pietro Barbiero, Gabriele Ciravegna, Dobrik Georgiev, Franscesco Giannini(参考訳) LENsは、ニューラルネットワークからロジック説明を提供するために、さまざまな最先端のアプローチを統合するPythonモジュールである。 このパッケージは、これらのメソッドを非専門家に提供することに焦点を当てている。 最小限の依存関係を持ち、アカデミックと商用の両方で使用可能なapache 2.0ライセンス下で配布されている。 ソースコードとドキュメントはgithubリポジトリからダウンロードできる。 https://github.com/p ietrobarbiero/logic_ explainer_networks。

LENs is a Python module integrating a variety of state-of-the-art approaches to provide logic explanations from neural networks. This package focuses on bringing these methods to non-specialists. It has minimal dependencies and it is distributed under the Apache 2.0 licence allowing both academic and commercial use. Source code and documentation can be downloaded from the github repository: https://github.com/p ietrobarbiero/logic_ explainer_networks.
翻訳日:2021-05-27 01:41:41 公開日:2021-05-25
# (参考訳) 宗光盤における転校学習とカリキュラム学習 [全文訳有]

Transfer Learning and Curriculum Learning in Sokoban ( http://arxiv.org/abs/2105.11702v1 )

ライセンス: CC BY 4.0
Zhao Yang, Mike Preuss, Aske Plaat(参考訳) 転送学習は機械学習のトレーニングを高速化し、分類タスクで定期的に使用される。 他のタスクからの事前知識を、新しいタスクのための事前トレーニングネットワークに再利用する。 強化学習では、新しい環境に適用可能な行動ポリシーの学習行動は依然として課題であり、特に多くの計画に関わるタスクでは難しい。 ソコバンは難解なパズルゲームです。 計画に基づく強化学習のベンチマークとして広く使われている。 本稿では,事前知識が学習をいかに改善するかを示す。 以前に学習した特徴表現の再利用は、新しいより複雑なインスタンスの学習を加速できる。 実際に,簡単なタスクから複雑なタスクまで,カリキュラム学習がソコバンでどのように機能するかを示す。 さらに、より単純なインスタンスで学習した特徴表現はより一般的であり、より複雑なタスクへ正の移動をもたらすが、その逆は起こらない。 我々はまた、知識のどの部分が成功への転向に最も重要であるかを研究し、どの層を事前学習に使用するべきかを特定した。

Transfer learning can speed up training in machine learning and is regularly used in classification tasks. It reuses prior knowledge from other tasks to pre-train networks for new tasks. In reinforcement learning, learning actions for a behavior policy that can be applied to new environments is still a challenge, especially for tasks that involve much planning. Sokoban is a challenging puzzle game. It has been used widely as a benchmark in planning-based reinforcement learning. In this paper, we show how prior knowledge improves learning in Sokoban tasks. We find that reusing feature representations learned previously can accelerate learning new, more complex, instances. In effect, we show how curriculum learning, from simple to complex tasks, works in Sokoban. Furthermore, feature representations learned in simpler instances are more general, and thus lead to positive transfers towards more complex tasks, but not vice versa. We have also studied which part of the knowledge is most important for transfer to succeed, and identify which layers should be used for pre-training.
翻訳日:2021-05-27 01:32:25 公開日:2021-05-25
# (参考訳) SBEVNet:Deep-to-End Stereo Layoutの推定 [全文訳有]

SBEVNet: End-to-End Deep Stereo Layout Estimation ( http://arxiv.org/abs/2105.11705v1 )

ライセンス: CC BY 4.0
Divam Gupta, Wei Pu, Trenton Tabor, Jeff Schneider(参考訳) 正確なレイアウト推定は、自動運転などのロボットアプリケーションにおける計画とナビゲーションに不可欠である。 本稿では,一対のステレオ画像から鳥の目視レイアウトを推定するための新しい教師付きエンドツーエンドフレームワークであるステレオバードズアイビューネットワーク(sbevnet)について紹介する。 我々のネットワークは,最先端のディープラーニングネットワークの構成要素のいくつかを再利用して異質な評価を行っているが,明示的な奥行き推定は十分でも必要でもないことを示す。 代わりに、良い内部バードのアイビュー特徴表現の学習はレイアウト推定に有効である。 具体的には,まずステレオ画像の特徴を用いて不均一な特徴量を生成し,鳥の視線座標に投影する。 これにより、シーン構造に関する粗い情報が得られる。 また、入力画像とその特徴を鳥の視線にマッピングするために、逆視点マッピング(IPM)を適用した。 これによりきめ細かいテクスチャ情報が得られる。 ipm機能を投影された機能ボリュームと結合することは、空間的推論に有用なリッチバードズアイビュー表現を生成する。 この表現を用いてBEVセマンティックマップを推定する。 さらに,IMM機能をステレオ特徴の監視信号として用いることで,性能の向上が期待できることを示す。 我々は、KITTIデータセットとCARLAシミュレータからの合成データセットの2つのデータセットに対するアプローチを実証した。 これら両方のデータセットに対して,ベースライン技術と比較して最先端のパフォーマンスを確立する。

Accurate layout estimation is crucial for planning and navigation in robotics applications, such as self-driving. In this paper, we introduce the Stereo Bird's Eye ViewNetwork (SBEVNet), a novel supervised end-to-end framework for estimation of bird's eye view layout from a pair of stereo images. Although our network reuses some of the building blocks from the state-of-the-art deep learning networks for disparity estimation, we show that explicit depth estimation is neither sufficient nor necessary. Instead, the learning of a good internal bird's eye view feature representation is effective for layout estimation. Specifically, we first generate a disparity feature volume using the features of the stereo images and then project it to the bird's eye view coordinates. This gives us coarse-grained information about the scene structure. We also apply inverse perspective mapping (IPM) to map the input images and their features to the bird's eye view. This gives us fine-grained texture information. Concatenating IPM features with the projected feature volume creates a rich bird's eye view representation which is useful for spatial reasoning. We use this representation to estimate the BEV semantic map. Additionally, we show that using the IPM features as a supervisory signal for stereo features can give an improvement in performance. We demonstrate our approach on two datasets:the KITTI dataset and a synthetically generated dataset from the CARLA simulator. For both of these datasets, we establish state-of-the-art performance compared to baseline techniques.
翻訳日:2021-05-27 01:18:05 公開日:2021-05-25
# (参考訳) トレーニング可能なゲーティングネットワークを用いたEMM専門家の混合 [全文訳有]

Mixture of ELM based experts with trainable gating network ( http://arxiv.org/abs/2105.11706v1 )

ライセンス: CC BY 4.0
Laleh Armi, Elham Abbasi, Jamal Zarepour-Ahmadabadi(参考訳) mixed of experts methodはニューラルネットワークベースのアンサンブル学習であり、全体的な分類精度を向上させる能力を持っている。 本手法は,ゲーティングネットワークの監督により問題空間を複数の専門家に分割した分割・克服原理に基づいている。 本稿では,elmに基づくエキスパートと学習可能なゲーティングネットワーク(meetg)を混在させた,専門家の混合に基づくアンサンブル学習手法を提案する。 meの構造は、ベースエキスパートとしてのマルチレイヤパーセプトロン(mlps)と、反復的かつ時間の消費プロセスであるmlpのトレーニングに勾配ベースの学習アルゴリズムを適用するゲーティングネットワークで構成される。 これらの問題を克服するために,我々は,MEの構造設計に極端な学習機械(ELM)の利点を用いる。 単一の隠れ層フィードフォワードニューラルネットワークの学習アルゴリズムとしてのEMMは、従来の学習アルゴリズムと比較して、より高速な学習プロセスとより良い一般化能力を提供する。 また,提案手法では, トレーニング可能なゲーティングネットワークを用いて, 入力サンプルに応じて専門家の出力を動的に集約する。 11のベンチマークデータセットに対する実験結果と統計的解析により,MEETGは分類問題において許容できる性能を示した。 さらに,提案手法は,予測安定性と分類精度において,従来のELMよりも優れていることを示す。

Mixture of experts method is a neural network based ensemble learning that has great ability to improve the overall classification accuracy. This method is based on the divide and conquer principle, in which the problem space is divided between several experts by supervisition of gating network. In this paper, we propose an ensemble learning method based on mixture of experts which is named mixture of ELM based experts with trainable gating network (MEETG) to improve the computing cost and to speed up the learning process of ME. The structure of ME consists of multi layer perceptrons (MLPs) as base experts and gating network, in which gradient-based learning algorithm is applied for training the MLPs which is an iterative and time consuming process. In order to overcome on these problems, we use the advantages of extreme learning machine (ELM) for designing the structure of ME. ELM as a learning algorithm for single hidden-layer feed forward neural networks provides much faster learning process and better generalization ability in comparision with some other traditional learning algorithms. Also, in the proposed method a trainable gating network is applied to aggregate the outputs of the experts dynamically according to the input sample. Our experimental results and statistical analysis on 11 benchmark datasets confirm that MEETG has an acceptable performance in classification problems. Furthermore, our experimental results show that the proposed approach outperforms the original ELM on prediction stability and classification accuracy.
翻訳日:2021-05-27 00:56:59 公開日:2021-05-25
# (参考訳) 高周波認識型知覚画像強調 [全文訳有]

High-Frequency aware Perceptual Image Enhancement ( http://arxiv.org/abs/2105.11711v1 )

ライセンス: CC BY 4.0
Hyungmin Roh and Myungjoo Kang(参考訳) 本稿では,マルチスケール解析に適した新しい深層ニューラルネットワークを提案するとともに,高頻度領域からの情報抽出を支援する効率的なモデル非依存手法を提案する。 本モデルは,デノイング,デブロアリング,単一画像超解像などのマルチスケール画像強調問題に適用できる。 SIDD,Flickr2K,DIV2K, REDSデータセットを用いた実験により,本手法が各タスクにおける最先端性能を実現することを示す。 さらに,既存のPSNR指向手法でよく見られる過度に平滑な問題を克服し,対戦型トレーニングを適用することで,より自然な高解像度画像を生成することができることを示す。

In this paper, we introduce a novel deep neural network suitable for multi-scale analysis and propose efficient model-agnostic methods that help the network extract information from high-frequency domains to reconstruct clearer images. Our model can be applied to multi-scale image enhancement problems including denoising, deblurring and single image super-resolution. Experiments on SIDD, Flickr2K, DIV2K, and REDS datasets show that our method achieves state-of-the-art performance on each task. Furthermore, we show that our model can overcome the over-smoothing problem commonly observed in existing PSNR-oriented methods and generate more natural high-resolution images by applying adversarial training.
翻訳日:2021-05-27 00:43:23 公開日:2021-05-25
# (参考訳) 弱教師付きオブジェクトローカライズによるマイズショット学習の改善 [全文訳有]

Improving Few-shot Learning with Weakly-supervised Object Localization ( http://arxiv.org/abs/2105.11715v1 )

ライセンス: CC BY 4.0
Inyong Koo, Minki Jeong, Changick Kim(参考訳) 少ないショット学習では、抽出した特徴ベクトルとクラス表現との距離を比較することで、画像ラベルを予測するメトリック学習ベースの分類器が用いられる。 しかし、機能抽出器のバックエンドにグローバルプーリングを適用することは、クラスオブジェクトに正しくフォーカスする埋め込みを生成しないかもしれない。 本研究では,画像のクラス関連領域から特徴を抽出し,クラス表現を生成する新しいフレームワークを提案する。 画像レベルのラベルを持つサンプル画像がいくつかある場合,我々はまず,画像とクラスプロトタイプの類似性を空間的に分解することにより,クラスオブジェクトをローカライズする。 そして、ローカライゼーション結果から強化されたクラス表現を達成する。 また,改良された特徴の区別を高めるための損失関数を提案する。 提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。

Few-shot learning often involves metric learning-based classifiers, which predict the image label by comparing the distance between the extracted feature vector and class representations. However, applying global pooling in the backend of the feature extractor may not produce an embedding that correctly focuses on the class object. In this work, we propose a novel framework that generates class representations by extracting features from class-relevant regions of the images. Given only a few exemplary images with image-level labels, our framework first localizes the class objects by spatially decomposing the similarity between the images and their class prototypes. Then, enhanced class representations are achieved from the localization results. We also propose a loss function to enhance distinctions of the refined features. Our method outperforms the baseline few-shot model in miniImageNet and tieredImageNet benchmarks.
翻訳日:2021-05-27 00:25:47 公開日:2021-05-25
# (参考訳) ConSERT: 自己監督型文表現変換のためのコントラストフレームワーク [全文訳有]

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer ( http://arxiv.org/abs/2105.11741v1 )

ライセンス: CC BY 4.0
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu and Weiran Xu(参考訳) 高品質な文表現の学習は、幅広い自然言語処理タスクの恩恵を受ける。 BERTベースの事前学習言語モデルは、多くの下流タスクにおいて高い性能を達成するが、ネイティブな派生文表現は崩壊することが証明され、セマンティックテキスト類似性(STS)タスクでは性能が劣る。 本稿では,教師なしかつ効果的にBERTを微調整するコントラスト学習を取り入れた,自己監督型文表現伝達のためのコントラストフレームワークであるConSERTを提案する。 ラベルのないテキストを使用することで、ConSERTはBERT由来の文表現の崩壊問題を解消し、下流タスクにもっと適用できるようにする。 STSデータセットの実験では、ConSERTが以前の最先端よりも8倍の相対的な改善を実現している。 また,さらにNLIの監督を取り入れることで,STSタスクにおける最先端の新たなパフォーマンスを実現する。 さらに、ConSERTは、データ不足のシナリオにおける堅牢性を示す1000のサンプルで、同等の結果を得る。

Learning high-quality sentence representations benefits a wide range of natural language processing tasks. Though BERT-based pre-trained language models achieve high performance on many downstream tasks, the native derived sentence representations are proved to be collapsed and thus produce a poor performance on the semantic textual similarity (STS) tasks. In this paper, we present ConSERT, a Contrastive Framework for Self-Supervised Sentence Representation Transfer, that adopts contrastive learning to fine-tune BERT in an unsupervised and effective way. By making use of unlabeled texts, ConSERT solves the collapse issue of BERT-derived sentence representations and make them more applicable for downstream tasks. Experiments on STS datasets demonstrate that ConSERT achieves an 8\% relative improvement over the previous state-of-the-art, even comparable to the supervised SBERT-NLI. And when further incorporating NLI supervision, we achieve new state-of-the-art performance on STS tasks. Moreover, ConSERT obtains comparable results with only 1000 samples available, showing its robustness in data scarcity scenarios.
翻訳日:2021-05-27 00:15:33 公開日:2021-05-25
# (参考訳) 新型コロナウイルス患者のCTスキャンにおける病変分割のための高密度回帰活性化マップ [全文訳有]

Dense Regression Activation Maps For Lesion Segmentation in CT scans of COVID-19 patients ( http://arxiv.org/abs/2105.11748v1 )

ライセンス: CC BY 4.0
Weiyi Xie, Colin Jacobs, Bram van Ginneken(参考訳) 胸部CTにおける自動病変分割は、COVID-19感染症における肺関与の迅速定量化を可能にする。 セグメンテーションネットワークを訓練するためのvoxelレベルのアノテーションを得るのは非常に高価である。 そこで,重回帰活性化マップ (dram) に基づく弱教師付きセグメント化手法を提案する。 最も進んだ教師付きセグメンテーションアプローチは、クラスアクティベーションマップ(CAM)を利用して、粗い解像度で高レベルのセマンティック特徴から生成されたオブジェクトをローカライズする。 その結果、CAMはオブジェクトのセグメンテーションと正確に一致しない粗いアウトラインを提供する。 代わりに、セグメンテーションネットワークからの高密度特徴を利用して、局所的な詳細を保存するために高密度回帰アクティベーションマップ(dRAM)を計算する。 トレーニング中、dRAMはローブ単位でプールされ、ローブあたりの病変の割合を抑える。 このようにして、ネットワークは、分類アプローチと比較して病変定量化に関する追加情報を得る。 さらに,主回帰課題と共に訓練された注意モジュールと密条件確率場に基づいてdramを精錬する。 洗練されたdRAMは、最終セグメンテーションネットワークをトレーニングするための擬似ラベルとして提供される。 69ctスキャンで評価すると,camベースの弱教師付き分節法における結合上の交点を0.335から0.495に大幅に改善した。

Automatic lesion segmentation on thoracic CT enables rapid quantitative analysis of lung involvement in COVID- 19 infections. Obtaining voxel-level annotations for training segmentation networks is prohibitively expensive. Therefore we propose a weakly-supervised segmentation method based on dense regression activation maps (dRAM). Most advanced weakly supervised segmentation approaches exploit class activation maps (CAMs) to localize objects generated from high-level semantic features at a coarse resolution. As a result, CAMs provide coarse outlines that do not align precisely with the object segmentations. Instead, we exploit dense features from a segmentation network to compute dense regression activation maps (dRAMs) for preserving local details. During training, dRAMs are pooled lobe-wise to regress the per-lobe lesion percentage. In such a way, the network achieves additional information regarding the lesion quantification in comparison with the classification approach. Furthermore, we refine dRAMs based on an attention module and dense conditional random field trained together with the main regression task. The refined dRAMs are served as the pseudo labels for training a final segmentation network. When evaluated on 69 CT scans, our method substantially improves the intersection over union from 0.335 in the CAM-based weakly supervised segmentation method to 0.495.
翻訳日:2021-05-26 23:55:30 公開日:2021-05-25
# (参考訳) 異議申し立て:弱小プリミセス攻撃による対論生成 [全文訳有]

Argument Undermining: Counter-Argument Generation by Attacking Weak Premises ( http://arxiv.org/abs/2105.11752v1 )

ライセンス: CC BY 4.0
Milad Alshomary, Shahbaz Syed, Martin Potthast and Henning Wachsmuth(参考訳) テキスト生成は、近年、計算論証研究において多くの注目を集めている。 特に難しい課題は、反論の生成である。 これまでのところ、アプローチは主に与えられた結論を反論することに集中しているが、議論に対抗する他の方法も存在する。 本研究は,従来の研究を超越し,議論の根底,すなわち,その前提のひとつを攻撃することによって議論に対抗するものである。 我々は、議論の弱い前提を特定することが効果的な対策の鍵であると仮定する。 そこで本稿では,まず前提の強度を評価し,弱体化をターゲットとした逆問題を生成するパイプライン手法を提案する。 一方,手作業による評価と自動評価は,反弁生成において弱い前提を特定することの重要性を証明している。 一方,正しさや内容の豊かさを考えるとき,人間の注釈家は,最先端の対物生成に対するアプローチを好んだ。

Text generation has received a lot of attention in computational argumentation research as of recent. A particularly challenging task is the generation of counter-arguments. So far, approaches primarily focus on rebutting a given conclusion, yet other ways to counter an argument exist. In this work, we go beyond previous research by exploring argument undermining, that is, countering an argument by attacking one of its premises. We hypothesize that identifying the argument's weak premises is key to effective countering. Accordingly, we propose a pipeline approach that first assesses the premises' strength and then generates a counter-argument targeting the weak ones. On the one hand, both manual and automatic evaluation proves the importance of identifying weak premises in counter-argument generation. On the other hand, when considering correctness and content richness, human annotators favored our approach over state-of-the-art counter-argument generation.
翻訳日:2021-05-26 23:28:43 公開日:2021-05-25
# (参考訳) 深層学習に基づく顕微鏡画像の研究室差克服のためのバイアス伝達 [全文訳有]

Deep learning-based bias transfer for overcoming laboratory differences of microscopic images ( http://arxiv.org/abs/2105.11765v1 )

ライセンス: CC BY 4.0
Ann-Katrin Thebille and Esther Dietrich and Martin Klaus and Lukas Gernhold and Maximilian Lennartz and Christoph Kuppe and Rafael Kramann and Tobias B. Huber and Guido Sauter and Victor G. Puelles and Marina Zimmermann and Stefan Bonn(参考訳) 医療画像の自動分析は現在、技術的および生物学的ノイズとバイアスによって制限されている。 画像取得または処理プロトコルが異なる場合、同じソース組織を非常に異なる画像で表現することができる。 画像解析パイプラインでは、誤解を避けるためにこのようなバイアスを補うことが不可欠である。 免疫蛍光(IF)およびヘマトキシリンおよびエオシン(H&E)染色顕微鏡画像の領域シフトを克服するために,既存の生成モデルアーキテクチャを評価し,比較し,改良する。 生成モデルの性能を決定するために、元の画像と変換された画像は、ターゲットバイアスの画像のみに基づいて訓練されたディープニューラルネットワークによって分割または分類された。 分析の範囲内では、追加のidとms-ssimベースの損失で訓練されたu-netサイクガンと追加の構造損失で訓練された固定点ganがそれぞれifとh&e染色試料の最良の結果をもたらした。 検体バイアスを順応させることで,ヒト腎糸球体およびポドサイトにおけるピクセルレベルセグメンテーションが大幅に改善され,ヒト前立腺生検の分類精度が最大14%向上した。

The automated analysis of medical images is currently limited by technical and biological noise and bias. The same source tissue can be represented by vastly different images if the image acquisition or processing protocols vary. For an image analysis pipeline, it is crucial to compensate such biases to avoid misinterpretations. Here, we evaluate, compare, and improve existing generative model architectures to overcome domain shifts for immunofluorescence (IF) and Hematoxylin and Eosin (H&E) stained microscopy images. To determine the performance of the generative models, the original and transformed images were segmented or classified by deep neural networks that were trained only on images of the target bias. In the scope of our analysis, U-Net cycleGANs trained with an additional identity and an MS-SSIM-based loss and Fixed-Point GANs trained with an additional structure loss led to the best results for the IF and H&E stained samples, respectively. Adapting the bias of the samples significantly improved the pixel-level segmentation for human kidney glomeruli and podocytes and improved the classification accuracy for human prostate biopsies by up to 14%.
翻訳日:2021-05-26 23:07:03 公開日:2021-05-25
# (参考訳) 説明可能なマルチホップ科学質問応答のための動的意味グラフ構築と推論 [全文訳有]

Dynamic Semantic Graph Construction and Reasoning for Explainable Multi-hop Science Question Answering ( http://arxiv.org/abs/2105.11776v1 )

ライセンス: CC BY 4.0
Weiwen Xu, Huihui Zhang, Deng Cai and Wai Lam(参考訳) 知識検索と推論は、Webスケールでのマルチホップ質問応答(QA)における2つの重要な段階である。 既存のアプローチは、知識ギャップを埋める証拠の事実を回収し、透明な推論プロセスの欠如に悩まされる。 本稿では,意味グラフを動的に構築し,その上に推論することで,マルチホップQAの説明可能性を得ながら,より有効な事実を活用できる新しいフレームワークを提案する。 意味グラフ表現には抽象的意味表現(AMR)を用いる。 a) {\tt AMR-SG}(AMRに基づくセマンティックグラフ)は、質問、回答、複数の事実間のホップ関係を明らかにするために、候補事実AMRによって構築される。 b) 経路に基づく新しい事実分析手法であるtt AMR-SG を用いて,大規模事実プールから活動的事実を抽出し,質問に答える。 (c)グラフ畳み込みネットワーク(GCN)を利用した事実レベルの関係モデリングによる推論プロセスの導出。 2つの科学的マルチホップQAデータセットの結果から,OpenBookQAの高説明性を維持しながら知識グラフを付加する手法や,ARC-Challengeにおける新たな最先端の成果を計算的に実現可能な環境で達成できることを示す。

Knowledge retrieval and reasoning are two key stages in multi-hop question answering (QA) at web scale. Existing approaches suffer from low confidence when retrieving evidence facts to fill the knowledge gap and lack transparent reasoning process. In this paper, we propose a new framework to exploit more valid facts while obtaining explainability for multi-hop QA by dynamically constructing a semantic graph and reasoning over it. We employ Abstract Meaning Representation (AMR) as semantic graph representation. Our framework contains three new ideas: (a) {\tt AMR-SG}, an AMR-based Semantic Graph, constructed by candidate fact AMRs to uncover any hop relations among question, answer and multiple facts. (b) A novel path-based fact analytics approach exploiting {\tt AMR-SG} to extract active facts from a large fact pool to answer questions. (c) A fact-level relation modeling leveraging graph convolution network (GCN) to guide the reasoning process. Results on two scientific multi-hop QA datasets show that we can surpass recent approaches including those using additional knowledge graphs while maintaining high explainability on OpenBookQA and achieve a new state-of-the-art result on ARC-Challenge in a computationally practicable setting.
翻訳日:2021-05-26 22:35:40 公開日:2021-05-25
# (参考訳) 多視点学習のためのグラフコンセンサス用語に基づく統一フレームワーク [全文訳有]

A unified framework based on graph consensus term for multi-view learning ( http://arxiv.org/abs/2105.11781v1 )

ライセンス: CC0 1.0
Xiangzhu Meng, Lin Feng, Chonghui Guo(参考訳) 近年,様々なアプリケーションを対象とした多視点学習技術が注目されている。 複数のビューからの互換性と相補的な情報により、既存のマルチビュー手法は従来の単一ビュー方式よりも多くの状況でより有望な性能を達成することができる。 しかし、既存のマルチビューワークにおける統一フレームワークに関する十分な研究はいまだに存在しない。 一方、マルチビュー情報を効率的に統合する方法はまだ課題に満ちている。 本稿では,グラフコンセンサス項を導入して,既存のグラフ埋め込み処理を統一式に活用することを目的とした,新しい多視点学習フレームワークを提案する。 特に,グラフ埋め込み手法の多様性を維持するため,各ビューのグラフ構造を独立に探索する。 一方,グラフコンセンサス用語を構成するために異種グラフを選択し,複数のビュー間の相関関係を検討する。 この目的のために、異なる視点間の多様性と補完的情報を同時に考慮することができる。 さらに,多視点線形埋め込み (mvlle) と呼ばれる局所性線形埋め込みの多視点拡張を実現するために, 代替最適化戦略を適用することで効率的に解くことができる。 6つのベンチマークデータセットで実施した実証検証は,提案手法の有効性を示す。

In recent years, multi-view learning technologies for various applications have attracted a surge of interest. Due to more compatible and complementary information from multiple views, existing multi-view methods could achieve more promising performance than conventional single-view methods in most situations. However, there are still no sufficient researches on the unified framework in existing multi-view works. Meanwhile, how to efficiently integrate multi-view information is still full of challenges. In this paper, we propose a novel multi-view learning framework, which aims to leverage most existing graph embedding works into a unified formula via introducing the graph consensus term. In particular, our method explores the graph structure in each view independently to preserve the diversity property of graph embedding methods. Meanwhile, we choose heterogeneous graphs to construct the graph consensus term to explore the correlations among multiple views jointly. To this end, the diversity and complementary information among different views could be simultaneously considered. Furthermore, the proposed framework is utilized to implement the multi-view extension of Locality Linear Embedding, named Multi-view Locality Linear Embedding (MvLLE), which could be efficiently solved by applying the alternating optimization strategy. Empirical validations conducted on six benchmark datasets can show the effectiveness of our proposed method.
翻訳日:2021-05-26 22:12:18 公開日:2021-05-25
# (参考訳) 簡単な学習と適応のブリッジ:サポートクエリシフトの新たな課題 [全文訳有]

Bridging Few-Shot Learning and Adaptation: New Challenges of Support-Query Shift ( http://arxiv.org/abs/2105.11804v1 )

ライセンス: CC BY-SA 4.0
Etienne Bennequin, Victor Bouvier, Myriam Tami, Antoine Toubhans, C\'eline Hudelot(参考訳) FSL(Few-Shot Learning)アルゴリズムは,少数のラベル付きデータを用いた新しい概念の学習に大きく進歩している。 テスト時に遭遇する新しいクラスからクエリインスタンスを分類するには、いくつかのラベル付きサンプルからなるサポートセットのみが必要である。 FSLベンチマークは通常、これらのクエリはサポートセットのインスタンスと同じディストリビューションから来ていると仮定する。 しかし、現実的な設定では、データ分布が変更される可能性があり、この状況は分散シフト(ds)と呼ばれる。 本研究は,サポート/クエリシフト(fsqs, support/query shift, サポートとクエリのインスタンスが関連するが,異なるディストリビューションからサンプル化されている場合)下での,マイショット学習の新たな挑戦的な問題に対処する。 私たちの貢献は以下のとおりです。 まず、データセット、関連するベースライン、厳密で再現可能な評価のためのプロトコルを含むFSQS用のテストベッドをリリースする。 第2に,確立されたfslアルゴリズムは,当然ながらfsqsと向き合うと精度が大幅に低下し,研究の意義を強調している。 最後に,トランスダクティブアルゴリズムはDSの不均衡効果を制限することができることを示す。 特に,fslと教師なし領域適応を橋渡しし,分布の整列化におけるバッチ正規化と最適輸送(ot)の役割について検討した。 これにより、OTと有名なプロトタイプネットワークを効率的に結合する新しい手法が実現される。 我々はこの方法の利点を示す説得力のある実験を行う。 私たちの研究は、テストベッドと強力なベースラインを提供することで、エキサイティングな研究のラインを開きます。 私たちのコードはhttps://github.com/e bennequin/meta-domai n-shiftで利用可能です。

Few-Shot Learning (FSL) algorithms have made substantial progress in learning novel concepts with just a handful of labelled data. To classify query instances from novel classes encountered at test-time, they only require a support set composed of a few labelled samples. FSL benchmarks commonly assume that those queries come from the same distribution as instances in the support set. However, in a realistic set-ting, data distribution is plausibly subject to change, a situation referred to as Distribution Shift (DS). The present work addresses the new and challenging problem of Few-Shot Learning under Support/Query Shift (FSQS) i.e., when support and query instances are sampled from related but different distributions. Our contributions are the following. First, we release a testbed for FSQS, including datasets, relevant baselines and a protocol for a rigorous and reproducible evaluation. Second, we observe that well-established FSL algorithms unsurprisingly suffer from a considerable drop in accuracy when facing FSQS, stressing the significance of our study. Finally, we show that transductive algorithms can limit the inopportune effect of DS. In particular, we study both the role of Batch-Normalization and Optimal Transport (OT) in aligning distributions, bridging Unsupervised Domain Adaptation with FSL. This results in a new method that efficiently combines OT with the celebrated Prototypical Networks. We bring compelling experiments demonstrating the advantage of our method. Our work opens an exciting line of research by providing a testbed and strong baselines. Our code is available at https://github.com/e bennequin/meta-domai n-shift.
翻訳日:2021-05-26 21:41:52 公開日:2021-05-25
# (参考訳) 最適次元のハッシュ埋め込みと線形最小二乗への応用

Hashing embeddings of optimal dimension, with applications to linear least squares ( http://arxiv.org/abs/2105.11815v1 )

ライセンス: CC BY 4.0
Coralia Cartis, Jan Fiala and Zhen Shao(参考訳) 第一に、$s$-hashing スケッチ行列に対する部分空間埋め込み特性を$s\geq 1$ で提示することであり、これはスケッチの投影次元 $m$ において最適であり、すなわち $m=\mathcal{o}(d)$ であり、ここで $d$ は部分空間の次元である。 A diverse set of results are presented that address the case when the input matrix has sufficiently low coherence (thus removing the $\log^2 d$ factor dependence in $m$, in the low-coherence result of Bourgain et al (2015) at the expense of a smaller coherence requirement); how this coherence changes with the number $s$ of column nonzeros (allowing a scaling of $\sqrt{s}$ of the coherence bound), or is reduced through suitable transformations (when considering hashed -- instead of subsampled -- coherence reducing transformations such as randomised Hadamard). 第二に、これらの一般的なハッシュスケッチ結果をLinear Least Squares(LLS)の特殊なケースに適用し、これらの問題に対する汎用ソフトウェアパッケージであるSki-LLSを開発した。 ハッシュスケッチの改善に加えて,Ski-LLSがランダムに生成した入力に対してスケッチベースルーチンを上回り,スパースフロリダ行列コレクションの特定の部分集合上のアートダイレクトソルバSPQRおよび反復コードHSLの状態,すなわち,過度に決定された,あるいは適度にスパースされた,あるいは難しい問題に対して適切な線形代数ツールを追加する。

The aim of this paper is two-fold: firstly, to present subspace embedding properties for $s$-hashing sketching matrices, with $s\geq 1$, that are optimal in the projection dimension $m$ of the sketch, namely, $m=\mathcal{O}(d)$, where $d$ is the dimension of the subspace. A diverse set of results are presented that address the case when the input matrix has sufficiently low coherence (thus removing the $\log^2 d$ factor dependence in $m$, in the low-coherence result of Bourgain et al (2015) at the expense of a smaller coherence requirement); how this coherence changes with the number $s$ of column nonzeros (allowing a scaling of $\sqrt{s}$ of the coherence bound), or is reduced through suitable transformations (when considering hashed -- instead of subsampled -- coherence reducing transformations such as randomised Hadamard). Secondly, we apply these general hashing sketching results to the special case of Linear Least Squares (LLS), and develop Ski-LLS, a generic software package for these problems, that builds upon and improves the Blendenpik solver on dense input and the (sequential) LSRN performance on sparse problems. In addition to the hashing sketching improvements, we add suitable linear algebra tools for rank-deficient and for sparse problems that lead Ski-LLS to outperform not only sketching-based routines on randomly generated input, but also state of the art direct solver SPQR and iterative code HSL on certain subsets of the sparse Florida matrix collection; namely, on least squares problems that are significantly overdetermined, or moderately sparse, or difficult.
翻訳日:2021-05-26 20:51:44 公開日:2021-05-25
# (参考訳) 臨床テキストにおける冗長性の推定 [全文訳有]

Estimating Redundancy in Clinical Text ( http://arxiv.org/abs/2105.11832v1 )

ライセンス: CC BY 4.0
Thomas Searle, Zina Ibrahim, James Teo, Richard JB Dobson(参考訳) 現在のElectronic Health Record (EHR)の使用モードは、テキストの冗長性を付与する。 臨床医は、既存のメモを複製して新しい文書を投入し、それに応じて更新する。 データ重複は、エラーの伝播、不整合、ケアの誤報につながる可能性がある。 したがって,情報冗長性の定量化は,臨床物語に係わる革新を評価する上で重要な役割を担っている。 本研究は, EHRノートにおける情報冗長性の定量的検討である。 冗長性を測定するための2つの戦略として,情報理論アプローチと語彙論的・意味論的モデルを提示し,評価する。 我々は,大容量のTransformer-based language modelを,公開可能なUS-based ICUデータセットと大規模マルチサイトUKベーストラストから臨床テキストを用いて訓練し,評価を行った。 訓練されたモデルの情報理論内容とオープンドメイン言語モデルを比較することで、臨床テキストを用いて訓練された言語モデルはオープンドメインコーパスよりも1.5倍から3倍の効率を示した。 手動による評価は, 平均43~65%のレキシコシンタクティックおよびセマンティック冗長性と高い相関性を示す。

The current mode of use of Electronic Health Record (EHR) elicits text redundancy. Clinicians often populate new documents by duplicating existing notes, then updating accordingly. Data duplication can lead to a propagation of errors, inconsistencies and misreporting of care. Therefore, quantifying information redundancy can play an essential role in evaluating innovations that operate on clinical narratives. This work is a quantitative examination of information redundancy in EHR notes. We present and evaluate two strategies to measure redundancy: an information-theoreti c approach and a lexicosyntactic and semantic model. We evaluate the measures by training large Transformer-based language models using clinical text from a large openly available US-based ICU dataset and a large multi-site UK based Trust. By comparing the information-theoreti c content of the trained models with open-domain language models, the language models trained using clinical text have shown ~1.5x to ~3x less efficient than open-domain corpora. Manual evaluation shows a high correlation with lexicosyntactic and semantic redundancy, with averages ~43 to ~65%.
翻訳日:2021-05-26 20:49:24 公開日:2021-05-25
# (参考訳) ニューラルネットワークによる資源制約環境の睡眠相分類 [全文訳有]

Neural Network Based Sleep Phases Classification for Resource Constraint Environments ( http://arxiv.org/abs/2105.11452v1 )

ライセンス: CC BY 4.0
Berkay K\"opr\"u, Murat Aslan, Alisher Kholmatov(参考訳) 睡眠は身体の回復過程である。 この修復プロセスの効率は、各睡眠フェーズで費やされる時間量と直接相関する。 したがって、ウェアラブルデバイスによる睡眠の自動トラッキングは、研究者と業界の両方を惹きつけている。 現在の最先端の睡眠トラッキングソリューションは、メモリと処理の欲求であり、クラウドや携帯電話との接続が必要である。 クラウドや携帯電話の接続を必要とせずに,組込み環境でも動作可能な,メモリ効率の良い睡眠トラッキングアーキテクチャを提案する。 本研究では,特徴抽出と人工ニューラルネットワークに基づく積層分類器からなる新しいアーキテクチャを提案する。 さらに,提案フレームワークを通じて,メモリ制約環境における睡眠ステージングの逐次的性質に取り組む方法について検討した。 このシステムを検証するために、3軸加速度計(acc)とフォトプレチモグラム(ppg)センサーを備えた手首装着装置を用いて、24種類の被験者から31夜のデータセットを収集する。 収集したデータセットを通じて、提案した分類アーキテクチャは、競合他社よりも20\%、14\%優れたF1スコアを達成する。 優れた性能の他に、提案されたアーキテクチャは4.2キロバイトのメモリ(RAM)を割り当てることで、リソース制約組み込みシステムのための有望なソリューションである。

Sleep is restoration process of the body. The efficiency of this restoration process is directly correlated to the amount of time spent at each sleep phase. Hence, automatic tracking of sleep via wearable devices has attracted both the researchers and industry. Current state-of-the-art sleep tracking solutions are memory and processing greedy and they require cloud or mobile phone connectivity. We propose a memory efficient sleep tracking architecture which can work in the embedded environment without needing any cloud or mobile phone connection. In this study, a novel architecture is proposed that consists of a feature extraction and Artificial Neural Networks based stacking classifier. Besides, we discussed how to tackle with sequential nature of the sleep staging for the memory constraint environments through the proposed framework. To verify the system, a dataset is collected from 24 different subjects for 31 nights with a wrist worn device having 3-axis accelerometer (ACC) and photoplethysmogram (PPG) sensors. Over the collected dataset, the proposed classification architecture achieves 20\% and 14\% better F1 scores than its competitors. Apart from the superior performance, proposed architecture is a promising solution for resource constraint embedded systems by allocating only 4.2 kilobytes of memory (RAM).
翻訳日:2021-05-26 20:26:28 公開日:2021-05-25
# (参考訳) GCNBoost:知識グラフによるラベル伝播によるアートワークの分類 [全文訳有]

GCNBoost: Artwork Classification by Label Propagation through a Knowledge Graph ( http://arxiv.org/abs/2105.11852v1 )

ライセンス: CC BY 4.0
Cheikh Brahim El Vaigh, Noa Garcia, Benjamin Renoust, Chenhui Chu, Yuta Nakashima and Hajime Nagahara(参考訳) 文化文書のデジタル化の台頭は、文化遺産を保存、検索、提供するために、AIシステムの開発のための道を開く大規模なコンテンツを提供する。 このような文化的コンテンツの整理は、それらを分類することも意味しており、現代のコンピュータ科学に非常に馴染みのあるタスクである。 文脈情報はしばしば、そのような現実世界のデータを構成する鍵であり、知識グラフの形で使用することを提案する。 このような知識グラフは、コンテンツ分析と組み合わせて、アートワーク間の近接性の概念を高め、分類タスクのパフォーマンスを向上させる。 本稿では,注釈付きデータと擬似ラベル付きデータに基づいて構築された知識グラフの新たな利用法を提案する。 ラベル伝搬では,知識グラフの実体間の関係に依存するグラフ畳み込みネットワークを用いてモデルを訓練することにより,アートワークの分類を促進する。 トランスダクティブ・ラーニング・フレームワークに従えば,ラベル付きデータとラベルなしデータの関係をモデル化した知識グラフを用いて,絵画のデータセットや仏像のデータセット上での複数の分類タスクについて,最先端の成果が得られることを示す。 さらに,不均衡データを扱う困難なケースに対して,知識グラフに極端に低次なクラスを無視することの制限を設け,最新結果を提示する。

The rise of digitization of cultural documents offers large-scale contents, opening the road for development of AI systems in order to preserve, search, and deliver cultural heritage. To organize such cultural content also means to classify them, a task that is very familiar to modern computer science. Contextual information is often the key to structure such real world data, and we propose to use it in form of a knowledge graph. Such a knowledge graph, combined with content analysis, enhances the notion of proximity between artworks so it improves the performances in classification tasks. In this paper, we propose a novel use of a knowledge graph, that is constructed on annotated data and pseudo-labeled data. With label propagation, we boost artwork classification by training a model using a graph convolutional network, relying on the relationships between entities of the knowledge graph. Following a transductive learning framework, our experiments show that relying on a knowledge graph modeling the relations between labeled data and unlabeled data allows to achieve state-of-the-art results on multiple classification tasks on a dataset of paintings, and on a dataset of Buddha statues. Additionally, we show state-of-the-art results for the difficult case of dealing with unbalanced data, with the limitation of disregarding classes with extremely low degrees in the knowledge graph.
翻訳日:2021-05-26 19:59:06 公開日:2021-05-25
# (参考訳) 量子機械学習のための量子埋め込み探索 [全文訳有]

Quantum Embedding Search for Quantum Machine Learning ( http://arxiv.org/abs/2105.11853v1 )

ライセンス: CC BY 4.0
Nam Nguyen and Kwang-Chen Chen(参考訳) 本稿では,量子埋め込み探索アルゴリズム(qes,quantum embedded search algorithm)を提案する。 まず、量子埋め込みの構造と有向多重グラフの表現との接続を確立し、よく定義された探索空間を実現する。 第2に,実際の実装において,探索空間の濃度を可能なサイズに抑えるために,絡み合いレベルを推し進める。 最後に、逐次モデルに基づく最適化により、サロゲートモデルを用いて真の損失関数を評価するコストを軽減する。 これは、QESによる量子埋め込みアーキテクチャが手動設計より優れているのに対して、古典的な機械学習モデルに匹敵する性能を実現することを実証的に示すものである。

This paper introduces a novel quantum embedding search algorithm (QES, pronounced as "quest"), enabling search for optimal quantum embedding design for a specific dataset of interest. First, we establish the connection between the structures of quantum embedding and the representations of directed multi-graphs, enabling a well-defined search space. Second, we instigate the entanglement level to reduce the cardinality of the search space to a feasible size for practical implementations. Finally, we mitigate the cost of evaluating the true loss function by using surrogate models via sequential model-based optimization. We demonstrate the feasibility of our proposed approach on synthesis and Iris datasets, which empirically shows that found quantum embedding architecture by QES outperforms manual designs whereas achieving comparable performance to classical machine learning models.
翻訳日:2021-05-26 19:37:48 公開日:2021-05-25
# (参考訳) 高速RCNN検出モデルを用いたUAV RGB画像からのトウモロコシ植物密度の推定:空間分解能の影響 [全文訳有]

Estimates of maize plant density from UAV RGB images using Faster-RCNN detection model: impact of the spatial resolution ( http://arxiv.org/abs/2105.11857v1 )

ライセンス: CC BY-SA 4.0
Kaaviya Velumani, Raul Lopez-Lozano, Simon Madec, Wei Guo, Joss Gillet, Alexis Comar, Frederic Baret(参考訳) 初期植物密度は、所定の環境条件と管理慣行の下で遺伝子型の運命を決定する必須形質である。 uavから撮影されたrgb画像の使用は、スループット、精度、植物局在性の向上により、従来の視野計数を置き換える可能性がある。 しかし、初期段階に存在する小さな植物を検出するには高分解能(HR)画像が必要である。 本研究では,イメージグラウンドサンプリング距離(GSD)が3-5葉のトウモロコシ植物検出性能に及ぼす影響について,Faster-RCNNを用いて検討した。 6地点以上のHR(GSD=0.3cm)で収集したデータを用いた。 高分解能と低分解能(gsd=0.6cm)の2つの画像がモデル評価に用いられた。 その結果,Faster-RCNNは,ネイティブHR画像がトレーニングと検証の両方に使用される場合,植物検出とカウント(rRMSE=0.08)性能に優れていた。 同様に、ネイティブトレーニングHR画像のダウンサンプリングにより得られた合成低解像度(LR)画像に対してモデルがトレーニングされ(rRMSE=0.11)、合成LR検証画像に適用された。 逆に、与えられた空間分解能でモデルが訓練され、他の空間分解能に適用されると、性能が低下する。 HRとLRの混合画像の訓練は、ネイティブのHR(rRMSE=0.06)と合成LR(rRMSE=0.10)で非常に優れたパフォーマンスが得られる。 しかしながら、ネイティブLR画像(rRMSE=0.48)上では非常に低い性能が観察されている。 最後に、ネイティブのHR画像から得られた追加のテクスチャ情報を導入するGAN(生成逆数ネットワーク)に基づく高度な超解像法を、ネイティブLR検証画像に適用した。 その結果, バイコビックアップサンプリング法と比較して有意な改善が認められた(rRMSE=0.22)。

Early-stage plant density is an essential trait that determines the fate of a genotype under given environmental conditions and management practices. The use of RGB images taken from UAVs may replace traditional visual counting in fields with improved throughput, accuracy and access to plant localization. However, high-resolution (HR) images are required to detect small plants present at early stages. This study explores the impact of image ground sampling distance (GSD) on the performances of maize plant detection at 3-5 leaves stage using Faster-RCNN. Data collected at HR (GSD=0.3cm) over 6 contrasted sites were used for model training. Two additional sites with images acquired both at high and low (GSD=0.6cm) resolution were used for model evaluation. Results show that Faster-RCNN achieved very good plant detection and counting (rRMSE=0.08) performances when native HR images are used both for training and validation. Similarly, good performances were observed (rRMSE=0.11) when the model is trained over synthetic low-resolution (LR) images obtained by down-sampling the native training HR images, and applied to the synthetic LR validation images. Conversely, poor performances are obtained when the model is trained on a given spatial resolution and applied to another spatial resolution. Training on a mix of HR and LR images allows to get very good performances on the native HR (rRMSE=0.06) and synthetic LR (rRMSE=0.10) images. However, very low performances are still observed over the native LR images (rRMSE=0.48), mainly due to the poor quality of the native LR images. Finally, an advanced super-resolution method based on GAN (generative adversarial network) that introduces additional textural information derived from the native HR images was applied to the native LR validation images. Results show some significant improvement (rRMSE=0.22) compared to bicubic up-sampling approach.
翻訳日:2021-05-26 19:17:55 公開日:2021-05-25
# (参考訳) マジックにおけるカード選択の予測:コンテクスト優先ランキングを用いた収集 [全文訳有]

Predicting Human Card Selection in Magic: The Gathering with Contextual Preference Ranking ( http://arxiv.org/abs/2105.11864v1 )

ライセンス: CC BY 4.0
Timo Bertram, Johannes F\"urnkranz, Martin M\"uller(参考訳) ドラフト、すなわち、より大きな候補集合からの項目のサブセットの選択は、多くのゲームや関連する問題の鍵となる要素である。 スポーツやeスポーツにおけるチーム形成や、現代の多くのカードゲームにおけるデッキ選択を含む。 起草の難しさは、通常、真空中で各項目を単純に評価し、最良の項目を選択するだけでは不十分である。 アイテムの評価は、すでに選択済みのアイテムの集合のコンテキストに依存する。集合の値は、メンバーの値の合計だけではない。 本稿では,カードゲームMagic: The Gatheringの文脈における起草について検討する。 そこで本研究では,任意のカードセットの2つの拡張を比較できるコンテクスト・プレファレンス・ネットワークの利用を提案する。 その結果,このゲームにおけるカードデッキの評価が,これまでの試みよりも優れていることを示す。

Drafting, i.e., the selection of a subset of items from a larger candidate set, is a key element of many games and related problems. It encompasses team formation in sports or e-sports, as well as deck selection in many modern card games. The key difficulty of drafting is that it is typically not sufficient to simply evaluate each item in a vacuum and to select the best items. The evaluation of an item depends on the context of the set of items that were already selected earlier, as the value of a set is not just the sum of the values of its members - it must include a notion of how well items go together. In this paper, we study drafting in the context of the card game Magic: The Gathering. We propose the use of a contextual preference network, which learns to compare two possible extensions of a given deck of cards. We demonstrate that the resulting network is better able to evaluate card decks in this game than previous attempts.
翻訳日:2021-05-26 18:52:11 公開日:2021-05-25
# (参考訳) TransNAS-Bench-101: クロスタスクニューラルネットワークの転送性と一般化性の改善 [全文訳有]

TransNAS-Bench-101: Improving Transferability and Generalizability of Cross-Task Neural Architecture Search ( http://arxiv.org/abs/2105.11871v1 )

ライセンス: CC BY 4.0
Yawen Duan, Xin Chen, Hang Xu, Zewei Chen, Xiaodan Liang, Tong Zhang, Zhenguo Li(参考訳) ニューラル・アーキテクチャ・サーチ(NAS)の最近の進歩は、広い範囲の視覚タスクとより多様化された検索空間に分野の研究範囲を広げている。 既存のNASメソッドは、主に単一のタスクでアーキテクチャを設計するが、シングルタスク検索を超えるアルゴリズムは、様々なタスクにまたがるより効率的で普遍的なソリューションを求めるために急増している。 それらの多くは転送学習を活用し、将来のタスクでより高い効率を達成するためにネットワーク設計の知識を保存、再利用、洗練しようと試みている。 しかし、クロスタスクNASの膨大な計算コストと実験複雑さは、この方向への貴重な研究の障壁を示唆している。 既存のNASベンチマークは、すべて1種類の視覚タスク、すなわち分類に焦点を当てている。 本研究では,分類,回帰,画素レベルの予測,自己監督タスクを含む7つのタスクにわたるネットワーク性能を含むベンチマークデータセットであるTransNAS-Bench-101を提案する。 この多様性は、nasメソッドをタスク間で転送する機会を提供し、より複雑な転送スキームを進化させる。 セルレベルの検索空間とマクロレベルの検索空間という,基本的に異なるタイプの検索空間を探索する。 7つのタスクで7,352のバックボーンが評価され、詳細なトレーニング情報を備えた51,464のトレーニングモデルが提供される。 TransNAS-Bench-101では、クロスタスク検索効率と次のレベルへの一般化性を高める、例外的なNASアルゴリズムの出現を奨励したい。 データセットファイルはVEGAのMindsporeで公開されます。

Recent breakthroughs of Neural Architecture Search (NAS) extend the field's research scope towards a broader range of vision tasks and more diversified search spaces. While existing NAS methods mostly design architectures on a single task, algorithms that look beyond single-task search are surging to pursue a more efficient and universal solution across various tasks. Many of them leverage transfer learning and seek to preserve, reuse, and refine network design knowledge to achieve higher efficiency in future tasks. However, the enormous computational cost and experiment complexity of cross-task NAS are imposing barriers for valuable research in this direction. Existing NAS benchmarks all focus on one type of vision task, i.e., classification. In this work, we propose TransNAS-Bench-101, a benchmark dataset containing network performance across seven tasks, covering classification, regression, pixel-level prediction, and self-supervised tasks. This diversity provides opportunities to transfer NAS methods among tasks and allows for more complex transfer schemes to evolve. We explore two fundamentally different types of search space: cell-level search space and macro-level search space. With 7,352 backbones evaluated on seven tasks, 51,464 trained models with detailed training information are provided. With TransNAS-Bench-101, we hope to encourage the advent of exceptional NAS algorithms that raise cross-task search efficiency and generalizability to the next level. Our dataset file will be available at Mindspore, VEGA.
翻訳日:2021-05-26 18:35:22 公開日:2021-05-25
# (参考訳) 無監督材料指紋に隠された結晶構造情報による不規則なペロブスカイト酸化物の発見 [全文訳有]

Analogical discovery of disordered perovskite oxides by crystal structure information hidden in unsupervised material fingerprints ( http://arxiv.org/abs/2105.11877v1 )

ライセンス: CC BY 4.0
Achintha Ihalage and Yang Hao(参考訳) 組成障害はペロブスカイトの無数の捕食現象を引き起こす。 ペロブスカイト固溶体の発見は障害によって引き起こされる分析の複雑さのために大きな課題となっている。 本稿では, (a1-xa'x)bo3 および a(b1-xb'x)o3 式で示される化学組成からのみ学習することにより, ペロブスカイト形成性や基礎となる結晶構造情報を埋め込んだ不規則な材料の指紋を教師なし深層学習戦略が発見できることを実証する。 この現象は実験組成の結晶対称性を予測し、教師付き機械学習(ML)アルゴリズムよりも優れている。 材料指紋の教育的な性質は、既知の物質との類似性の調査に基づいて、有望なペロブスカイトの逆探索を促進する類推材料発見の概念に繋がった。 研究されていないペロブスカイトの探索空間は、実験データを用いたMLモデルと自動化Webマイニングツールを用いて、約600,000個の実現可能な化合物から94%の成功率でスクリーニングされる。 この概念はさらに、複雑な合成の相転移と計算モデルに関する洞察を与える。 既存の資料文献と未発見の地形とのギャップを埋めるため,資料類推の定量的解析が期待されている。

Compositional disorder induces myriad captivating phenomena in perovskites. Target-driven discovery of perovskite solid solutions has been a great challenge due to the analytical complexity introduced by disorder. Here, we demonstrate that an unsupervised deep learning strategy can find fingerprints of disordered materials that embed perovskite formability and underlying crystal structure information by learning only from the chemical composition, manifested in (A1-xA'x)BO3 and A(B1-xB'x)O3 formulae. This phenomenon can be capitalized to predict the crystal symmetry of experimental compositions, outperforming several supervised machine learning (ML) algorithms. The educated nature of material fingerprints has led to the conception of analogical materials discovery that facilitates inverse exploration of promising perovskites based on similarity investigation with known materials. The search space of unstudied perovskites is screened from ~600,000 feasible compounds using experimental data powered ML models and automated web mining tools at a 94% success rate. This concept further provides insights on possible phase transitions and computational modelling of complex compositions. The proposed quantitative analysis of materials analogies is expected to bridge the gap between the existing materials literature and the undiscovered terrain.
翻訳日:2021-05-26 18:15:45 公開日:2021-05-25
# (参考訳) 欠測データを用いた時空間観測におけるコンフォメーション異常検出 [全文訳有]

Conformal Anomaly Detection on Spatio-temporal Observations with Missing Data ( http://arxiv.org/abs/2105.11886v1 )

ライセンス: CC BY 4.0
Chen Xu, Yao Xie(参考訳) 我々は,任意の回帰アルゴリズムをラップし,逐次異常を検知するECADという,分布のない教師なし異常検出手法を開発した。 ECADはデータ交換性を必要としないが、通常のデータではType-Iエラーをほぼ制御する。 データ分割を行わず、統計力を高めるために効率よくアンサンブル予測器を訓練する。 異常時空間交通流の検出におけるECADの優れた性能を示す。

We develop a distribution-free, unsupervised anomaly detection method called ECAD, which wraps around any regression algorithm and sequentially detects anomalies. Rooted conformal prediction, ECAD does not require data exchangeability but approximately controls the Type-I error when data are normal. Computationally, it involves no data-splitting and efficiently trains ensemble predictors to increase statistical power. We demonstrate the superior performance of ECAD on detecting anomalous spatio-temporal traffic flow.
翻訳日:2021-05-26 17:46:16 公開日:2021-05-25
# (参考訳) ログベースロバストPCAを用いたハイパースペクトル画像デノーミング [全文訳有]

Hyperspectral Image Denoising with Log-Based Robust PCA ( http://arxiv.org/abs/2105.11927v1 )

ライセンス: CC BY 4.0
Yang Liu, Qian Zhang, Yongyong Chen, Qiang Cheng and Chong Peng(参考訳) ハイパースペクトル画像(hsis)から重く混入したノイズを除去することは難しい課題である。 本稿では,hsi 除算のための rpca に対する新しい非凸的アプローチを提案する。これは対数決定ランク近似(log- determinant rank approximation)と新しい $\ell_{2,\log}$ norm を用いて,成分行列の低ランクあるいは列方向のスパース特性をそれぞれ制限する。 シミュレーションおよび実HSIの広汎な実験により,提案手法の有効性が示された。

It is a challenging task to remove heavy and mixed types of noise from Hyperspectral images (HSIs). In this paper, we propose a novel nonconvex approach to RPCA for HSI denoising, which adopts the log-determinant rank approximation and a novel $\ell_{2,\log}$ norm, to restrict the low-rank or column-wise sparse properties for the component matrices, respectively.For the $\ell_{2,\log}$-regularized shrinkage problem, we develop an efficient, closed-form solution, which is named $\ell_{2,\log}$-shrinkage operator, which can be generally used in other problems. Extensive experiments on both simulated and real HSIs demonstrate the effectiveness of the proposed method in denoising HSIs.
翻訳日:2021-05-26 17:34:07 公開日:2021-05-25
# (参考訳) 信念から行動へのコミュニケーションの合理的モデルの拡張 [全文訳有]

Extending rational models of communication from beliefs to actions ( http://arxiv.org/abs/2105.11950v1 )

ライセンス: CC BY 4.0
Theodore R. Sumers, Robert D. Hawkins, Mark K. Ho, Thomas L. Griffiths(参考訳) 話し手は相手の信念に影響を与え、行動を形成する。 信念と行動に基づく目標は、近年の計算モデルで独立に研究されてきたが、それらを明示的に比較または統合することは困難である。 実際、標準的な参照通信タスクで混在していることがわかった。 これらの説明を区別するために、シグナリングバンディットと呼ばれる新しいパラダイムを導入し、クラシックルイスシグナリングゲームを、コンテキスト内のすべてのターゲットがある程度の相対的価値を持つマルチアーム付きバンディット設定に一般化する。 3つの話者モデルを開発する: 純粋に有意な目的を持つ信念指向話者, 器用な目的を持つ行動指向話者, 一般に望ましい行動につながるリスナーの信念を誘導することによってこれら2つを統合する複合話者。 そこで我々は,将来のリスナー行動における生産選択が関連性効果と非リテラル言語の柔軟な利用をもたらすことを示す一連のシミュレーションを示す。 より広範に、よりリッチな意思決定問題に基づく言語ゲームは、合理的コミュニケーションに関する洞察を得るための有望な道であることを示す。

Speakers communicate to influence their partner's beliefs and shape their actions. Belief- and action-based objectives have been explored independently in recent computational models, but it has been challenging to explicitly compare or integrate them. Indeed, we find that they are conflated in standard referential communication tasks. To distinguish these accounts, we introduce a new paradigm called signaling bandits, generalizing classic Lewis signaling games to a multi-armed bandit setting where all targets in the context have some relative value. We develop three speaker models: a belief-oriented speaker with a purely informative objective; an action-oriented speaker with an instrumental objective; and a combined speaker which integrates the two by inducing listener beliefs that generally lead to desirable actions. We then present a series of simulations demonstrating that grounding production choices in future listener actions results in relevance effects and flexible uses of nonliteral language. More broadly, our findings suggest that language games based on richer decision problems are a promising avenue for insight into rational communication.
翻訳日:2021-05-26 17:20:49 公開日:2021-05-25
# (参考訳) 教育可能な自律エージェントを目指して

Towards Teachable Autonomous Agents ( http://arxiv.org/abs/2105.11977v1 )

ライセンス: CC BY 4.0
Olivier Sigaud and Hugo Caselles-Dupr\'e and C\'edric Colas and Ahmed Akakzia and Pierre-Yves Oudeyer and Mohamed Chetouani(参考訳) 自律的発見と直接指導は、子供における極端な学習の源であるが、教育科学は、発見支援や指導遊びのような中間的なアプローチが、より優れたスキルの獲得に繋がることを示した。 人工知能に目を向けると、上記の二分法は、孤立して学習する自律エージェントと、社会的パートナーによって教えられるが一般的に自律性を持たない対話型学習エージェントの区別に変換される。 内部と内部の両方から学習するエージェントは、発見を補助する高い効率の恩恵を受ける。 このようなエージェントは現実世界で自分自身で学習できるが、専門家でないユーザは期待に応えて学習行動を推進できる。 より根本的には、両方の能力を組み合わせることは、汎用インテリジェンスにとって重要なステップである。 本稿では,この研究線に沿った障害を解明する。 まず、Brunerの専門的な研究に基づいて、支援された発見プロセスの特徴を抽出する。 第2に, オートテコール剤の最近の研究について述べる。 自らの目標を表現し、自己生成し、追求することを可能にする、本質的な動機づけの形式を備えたエージェント。 我々は、自律的な能力が、教育可能で自律的なエージェントへの道を歩んでいると論じている。 最後に,学習者同士のインタラクションを学習する上での社会的学習の視点を取り入れ,自然教育を用いて一般人が教える前に,現在オートテリックエージェントに欠落しているいくつかの要素を強調し,この視点から生み出す特定の研究課題のリストを提供する。

Autonomous discovery and direct instruction are two extreme sources of learning in children, but educational sciences have shown that intermediate approaches such as assisted discovery or guided play resulted in better acquisition of skills. When turning to Artificial Intelligence, the above dichotomy is translated into the distinction between autonomous agents which learn in isolation and interactive learning agents which can be taught by social partners but generally lack autonomy. In between should stand teachable autonomous agents: agents learning from both internal and teaching signals to benefit from the higher efficiency of assisted discovery. Such agents could learn on their own in the real world, but non-expert users could drive their learning behavior towards their expectations. More fundamentally, combining both capabilities might also be a key step towards general intelligence. In this paper we elucidate obstacles along this research line. First, we build on a seminal work of Bruner to extract relevant features of the assisted discovery processes. Second, we describe current research on autotelic agents, i.e. agents equipped with forms of intrinsic motivations that enable them to represent, self-generate and pursue their own goals. We argue that autotelic capabilities are paving the way towards teachable and autonomous agents. Finally, we adopt a social learning perspective on tutoring interactions and we highlight some components that are currently missing to autotelic agents before they can be taught by ordinary people using natural pedagogy, and we provide a list of specific research questions that emerge from this perspective.
翻訳日:2021-05-26 17:06:33 公開日:2021-05-25
# (参考訳) 疎二次プログラムのための主成分階層 [全文訳有]

Principal Component Hierarchy for Sparse Quadratic Programs ( http://arxiv.org/abs/2105.12022v1 )

ライセンス: CC BY 4.0
Robbie Vreugdenhil, Viet Anh Nguyen, Armin Eftekhari, Peyman Mohajerin Esfahani(参考訳) 本稿では,二次行列の階数決定固有ベクトルを利用する濃度制約付き凸二次プログラムに対する新しい近似階層を提案する。 それぞれのレベルの近似は、連続変数の凸性を保ちながら、目的関数をバイナリ変数に対して解析的に最適化できる min-max 特性を持つ。 この特性をエクスプロイトし、「最良の応答」と「双対プログラム」という2つのスケーラブルな最適化アルゴリズムを提案し、元のプログラムのゼロでない要素の潜在的な指標を効率的にスクリーニングする。 提案手法は,現在の分散回帰文学における既存のスクリーニング手法と競合することを示し,合成データと実データの両方を用いた実験において,高い測定値を持つインスタンスでは特に高速であることを示した。

We propose a novel approximation hierarchy for cardinality-constrai ned, convex quadratic programs that exploits the rank-dominating eigenvectors of the quadratic matrix. Each level of approximation admits a min-max characterization whose objective function can be optimized over the binary variables analytically, while preserving convexity in the continuous variables. Exploiting this property, we propose two scalable optimization algorithms, coined as the "best response" and the "dual program", that can efficiently screen the potential indices of the nonzero elements of the original program. We show that the proposed methods are competitive with the existing screening methods in the current sparse regression literature, and it is particularly fast on instances with high number of measurements in experiments with both synthetic and real datasets.
翻訳日:2021-05-26 17:05:10 公開日:2021-05-25
# (参考訳) BASS: 統一セマンティックグラフによる抽象要約の強化 [全文訳有]

BASS: Boosting Abstractive Summarization with Unified Semantic Graph ( http://arxiv.org/abs/2105.12041v1 )

ライセンス: CC BY 4.0
Wenhao Wu, Wei Li, Xinyan Xiao, Jiachen Liu, Ziqiang Cao, Sujian Li, Hua Wu, Haifeng Wang(参考訳) Seq2Seqは、テキストの長距離関係を解析するのが得意ではないため、Seq2Seqアーキテクチャでは、長いドキュメントや複数ドキュメントの抽象的な要約は依然として難しい。 本稿では,多種多様な文脈に散在する共参照句を集約し,フレーズ間の豊富な関係を伝達する,統一セマンティックグラフに基づく抽象要約の促進のための新しいフレームワークであるBASSを提案する。 さらに,グラフ構造を利用して文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。 具体的には,テキスト中の暗黙的関係と暗黙的関係の両方をエンコードするグラフ拡張手法を,デコーダでグラフプロパゲーションアテンション機構を開発し,サマリに有意な内容を選択する。 実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。

Abstractive summarization for long-document or multi-document remains challenging for the Seq2Seq architecture, as Seq2Seq is not good at analyzing long-distance relations in text. In this paper, we present BASS, a novel framework for Boosting Abstractive Summarization based on a unified Semantic graph, which aggregates co-referent phrases distributing across a long range of context and conveys rich relations between phrases. Further, a graph-based encoder-decoder model is proposed to improve both the document representation and summary generation process by leveraging the graph structure. Specifically, several graph augmentation methods are designed to encode both the explicit and implicit relations in the text while the graph-propagation attention mechanism is developed in the decoder to select salient content into the summary. Empirical results show that the proposed architecture brings substantial improvements for both long-document and multi-document summarization tasks.
翻訳日:2021-05-26 16:40:31 公開日:2021-05-25
# (参考訳) 変圧器を用いた時間行動生成 [全文訳有]

Temporal Action Proposal Generation with Transformers ( http://arxiv.org/abs/2105.12043v1 )

ライセンス: CC BY 4.0
Lining Wang, Haosen Yang, Wenhao Wu, Hongxun Yao, Hujie Huang(参考訳) トランスフォーマーネットワークは、長距離文脈情報のモデリングに有効であり、最近自然言語処理領域における模範的性能を実証している。 伝統的に、時間的行動提案生成(TAPG)タスクは、フレームレベルの依存関係とプロポーザルレベルの関係に依存する境界予測とプロポーザル信頼予測の2つの主要なサブタスクに分けられる。 粒度の異なるレベルでの依存関係を捉えるため,本論文では,境界トランスと提案トランスからなるtapgトランスと呼ばれる,オリジナルトランスを用いた統合時相動作提案生成フレームワークを直感的に提示する。 具体的には、境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測し、提案変換器は、信頼できる信頼度評価のために、豊富な確率間関係を学習する。 ActivityNet-1.3 と THUMOS14 の2つの一般的なベンチマークで大規模な実験が行われ、TAPG Transformer が最先端の手法より優れていることを示した。 本手法は,既存の行動分類器を備え,時間的行動局所化タスクにおいて顕著な性能を実現する。 コードとモデルは利用可能だ。

Transformer networks are effective at modeling long-range contextual information and have recently demonstrated exemplary performance in the natural language processing domain. Conventionally, the temporal action proposal generation (TAPG) task is divided into two main sub-tasks: boundary prediction and proposal confidence prediction, which rely on the frame-level dependencies and proposal-level relationships separately. To capture the dependencies at different levels of granularity, this paper intuitively presents a unified temporal action proposal generation framework with original Transformers, called TAPG Transformer, which consists of a Boundary Transformer and a Proposal Transformer. Specifically, the Boundary Transformer captures long-term temporal dependencies to predict precise boundary information and the Proposal Transformer learns the rich inter-proposal relationships for reliable confidence evaluation. Extensive experiments are conducted on two popular benchmarks: ActivityNet-1.3 and THUMOS14, and the results demonstrate that TAPG Transformer outperforms state-of-the-art methods. Equipped with the existing action classifier, our method achieves remarkable performance on the temporal action localization task. Codes and models will be available.
翻訳日:2021-05-26 16:13:00 公開日:2021-05-25
# (参考訳) DSANet:ビデオレベル表現学習のための動的セグメント集約ネットワーク [全文訳有]

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning ( http://arxiv.org/abs/2105.12085v1 )

ライセンス: CC BY 4.0
Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi(参考訳) 長距離・短距離時間モデリングはビデオ認識の相補的かつ重要な2つの側面である。 最先端技術のほとんどは、短距離時空間モデリングに焦点を合わせ、次に複数のスニペットレベルの予測を平均して、最終的なビデオレベルの予測を生成する。 したがって、ビデオレベルの予測は、ビデオが時間次元に沿ってどのように進化するかの時空間的特徴を考慮しない。 本稿では,スニペット間の関係を捉える新しい動的セグメント集約(DSA)モジュールを提案する。 より具体的には、隣り合うスニペット間の長距離時間情報を適応的に集約する畳み込み演算のための動的カーネルを生成する。 DSAモジュールは効率的なプラグアンドプレイモジュールであり、市販のクリップベースモデル(TSM、I3D)と組み合わせて、最小限のオーバーヘッドで強力な長距離モデリングを行うことができる。 最後のビデオアーキテクチャはDSANetと命名された。 我々は,ビデオ認識ベンチマーク(Mini-Kinetics-200,K ineetics-400,Somethi ng V1,ActivityNet)において,その優位性を示す広範な実験を行った。 提案するDSAモジュールは,様々なビデオ認識モデルに有益であることを示す。 例えば、DSAモジュールを装備したI3D ResNet-50のTop-1精度は、Kinetics-400では74.9%から78.2%に改善された。 コードは利用可能だ。

Long-range and short-range temporal modeling are two complementary and crucial aspects of video recognition. Most of the state-of-the-arts focus on short-range spatio-temporal modeling and then average multiple snippet-level predictions to yield the final video-level prediction. Thus, their video-level prediction does not consider spatio-temporal features of how video evolves along the temporal dimension. In this paper, we introduce a novel Dynamic Segment Aggregation (DSA) module to capture relationship among snippets. To be more specific, we attempt to generate a dynamic kernel for a convolutional operation to aggregate long-range temporal information among adjacent snippets adaptively. The DSA module is an efficient plug-and-play module and can be combined with the off-the-shelf clip-based models (i.e., TSM, I3D) to perform powerful long-range modeling with minimal overhead. The final video architecture, coined as DSANet. We conduct extensive experiments on several video recognition benchmarks (i.e., Mini-Kinetics-200, Kinetics-400, Something-Something V1 and ActivityNet) to show its superiority. Our proposed DSA module is shown to benefit various video recognition models significantly. For example, equipped with DSA modules, the top-1 accuracy of I3D ResNet-50 is improved from 74.9% to 78.2% on Kinetics-400. Codes will be available.
翻訳日:2021-05-26 16:08:18 公開日:2021-05-25
# (参考訳) 次世代モバイル決済システムにおけるセキュリティ:包括的調査

Security in Next Generation Mobile Payment Systems: A Comprehensive Survey ( http://arxiv.org/abs/2105.12097v1 )

ライセンス: CC BY 4.0
Waqas Ahmed, Amir Rasool, Jamel Nebhen, Neeraj Kumar, Faisal Shahzad, Abdul RehmanJaved, Thippa Reddy Gadekallu, Zunera Jalil(参考訳) いくつかの市場ではまだ現金の支払いが支配的であり、開発途上国のほとんどで90%以上を支払っている。 今の時代には、携帯電話の利用はごく普通だ。 携帯電話は多くのユーザーにとって不可分な友達になり、単なるコミュニケーションツール以上のものを提供している。 その後のすべての人は、多面的使用と手頃さのために、それらに強く依存している。 誰もが自分の携帯電話を使って日々の取引や関連する問題を管理したい。 モバイル固有のセキュリティの高まりと進歩により、脅威も進化している。 本稿では,携帯電話の各種セキュリティモデルについて調査する。 我々は,モバイル決済システム(MPS)の複数のモデル,その技術と比較,支払い方法,MPSに関わる異なるセキュリティ機構について検討し,MPSにおける暗号化技術,認証方法,ファイアウォールの分析を行う。 携帯電話のセキュリティに関する現在の課題と今後の方向性を示す。

Cash payment is still king in several markets, accounting for more than 90\ of the payments in almost all the developing countries. The usage of mobile phones is pretty ordinary in this present era. Mobile phones have become an inseparable friend for many users, serving much more than just communication tools. Every subsequent person is heavily relying on them due to multifaceted usage and affordability. Every person wants to manage his/her daily transactions and related issues by using his/her mobile phone. With the rise and advancements of mobile-specific security, threats are evolving as well. In this paper, we provide a survey of various security models for mobile phones. We explore multiple proposed models of the mobile payment system (MPS), their technologies and comparisons, payment methods, different security mechanisms involved in MPS, and provide analysis of the encryption technologies, authentication methods, and firewall in MPS. We also present current challenges and future directions of mobile phone security.
翻訳日:2021-05-26 15:46:18 公開日:2021-05-25
# (参考訳) 高精度でロバストな医用画像分割のためのadversarial attack driven data augmentation [全文訳有]

Adversarial Attack Driven Data Augmentation for Accurate And Robust Medical Image Segmentation ( http://arxiv.org/abs/2105.12106v1 )

ライセンス: CC BY 4.0
Mst. Tasnim Pervin, Linmi Tao, Aminul Huq, Zuoxiang He, Li Huo(参考訳) セグメンテーションは医用画像解析において非常に重要な課題であると考えられている。 このタスクは、ディープラーニングモデルがハイパフォーマンスな振る舞いを引き継いで以来、容易になっている。 しかし,大規模なデータに依存する深層学習モデルは,不十分なデータサンプルのため,医用画像解析の障害となる。 この問題を解決するために、いくつかのデータ拡張技術が使われている。 本稿では,FGSM(Fast Gradient Sign Method)という逆学習攻撃手法を導入することで,新たな拡張手法を提案する。 さらに,データ拡張のための逆FGSM(InvFGSM)の概念も導入した。 この2つのアプローチは、セグメンテーションの精度を向上させるために協力し、モデルが敵の攻撃に対して堅牢性を得るのを助けた。 実験の全体的分析は、ロバスト性向上とともに、新しい対向機械学習の使用を示している。

Segmentation is considered to be a very crucial task in medical image analysis. This task has been easier since deep learning models have taken over with its high performing behavior. However, deep learning models dependency on large data proves it to be an obstacle in medical image analysis because of insufficient data samples. Several data augmentation techniques have been used to mitigate this problem. We propose a new augmentation method by introducing adversarial learning attack techniques, specifically Fast Gradient Sign Method (FGSM). Furthermore, We have also introduced the concept of Inverse FGSM (InvFGSM), which works in the opposite manner of FGSM for the data augmentation. This two approaches worked together to improve the segmentation accuracy, as well as helped the model to gain robustness against adversarial attacks. The overall analysis of experiments indicates a novel use of adversarial machine learning along with robustness enhancement.
翻訳日:2021-05-26 15:45:17 公開日:2021-05-25
# (参考訳) 機械学習と自然言語処理によるMBTIに基づくパーソナリティタイプの抽象化の拡張 [全文訳有]

Extending the Abstraction of Personality Types based on MBTI with Machine Learning and Natural Language Processing ( http://arxiv.org/abs/2105.11798v1 )

ライセンス: CC BY 4.0
Carlos Basto(参考訳) mbti(introspective self-assesment questionnaire, 内省的自己評価アンケート)に基づくパーソナリティタイプを予測するための自然言語処理(nlp)を用いたデータ中心アプローチは、感情的、文法的、側面の3つの分析に基づく特徴の生成に基づいて、領域のドメインに基づくテキスト表現を体系的に強化することで、パーソナリティタイプを予測する。 実験は、MBTIの4つの分類器(ディコトミー)のそれぞれに対して、グリッドサーチによるハイパーパラメータの早期最適化と段階的なフィードバックにより、積み重ねモデルの堅牢なベースラインを持っていた。 その結果,データ反復ループの注目点は,LSTMやBERTのような美術品の複雑なモデルよりも,評価指標を迅速かつ安価に向上させることができ,また,様々な観点から比較することで,これらの結果の重要性が示唆された。 さらに、この研究はタスクの進化と深化の幅広いスペクトルを示し、パーソナリティタイプの抽象化をさらに拡張するためのアプローチの可能性を示した。

A data-centric approach with Natural Language Processing (NLP) to predict personality types based on the MBTI (an introspective self-assessment questionnaire that indicates different psychological preferences about how people perceive the world and make decisions) through systematic enrichment of text representation, based on the domain of the area, under the generation of features based on three types of analysis: sentimental, grammatical and aspects. The experimentation had a robust baseline of stacked models, with premature optimization of hyperparameters through grid search, with gradual feedback, for each of the four classifiers (dichotomies) of MBTI. The results showed that attention to the data iteration loop focused on quality, explanatory power and representativeness for the abstraction of more relevant/important resources for the studied phenomenon made it possible to improve the evaluation metrics results more quickly and less costly than complex models such as the LSTM or state of the art ones as BERT, as well as the importance of these results by comparisons made from various perspectives. In addition, the study demonstrated a broad spectrum for the evolution and deepening of the task and possible approaches for a greater extension of the abstraction of personality types.
翻訳日:2021-05-26 15:11:06 公開日:2021-05-25
# テキスト生成のための事前学習言語モデル:調査

Pretrained Language Models for Text Generation: A Survey ( http://arxiv.org/abs/2105.10311v2 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) テキスト生成は自然言語処理(NLP)において最も重要かつ困難なタスクの1つとなっている。 ディープラーニングの復活は、ニューラルジェネレーションモデル、特に事前学習言語モデル(plm)のパラダイムによって、この分野を大きく前進させた。 本稿では,テキスト生成のためのPLMの話題において達成された主な進歩について概説する。 予備として、一般的なタスク定義を説明し、テキスト生成のためのplmのメインストリームアーキテクチャを簡潔に説明する。 コアコンテンツとして、既存のPLMを用いて異なる入力データをモデル化し、生成されたテキストの特別な特性を満たす方法について論じる。 さらに,テキスト生成のための重要な微調整戦略についても概説する。 最後に,今後の方向性を示し,本論文をまとめる。 本研究の目的は,テキスト生成研究者に関連研究の合成とポインタを提供することである。

Text generation has become one of the most important yet challenging tasks in natural language processing (NLP). The resurgence of deep learning has greatly advanced this field by neural generation models, especially the paradigm of pretrained language models (PLMs). In this paper, we present an overview of the major advances achieved in the topic of PLMs for text generation. As the preliminaries, we present the general task definition and briefly describe the mainstream architectures of PLMs for text generation. As the core content, we discuss how to adapt existing PLMs to model different input data and satisfy special properties in the generated text. We further summarize several important fine-tuning strategies for text generation. Finally, we present several future directions and conclude this paper. Our survey aims to provide text generation researchers a synthesis and pointer to related research.
翻訳日:2021-05-26 14:37:29 公開日:2021-05-25
# CiteWorth:Cite-Worth iness Detection for Improved Scientific Document Understanding

CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding ( http://arxiv.org/abs/2105.10912v2 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) データは極めてドメイン固有で多様であるため、科学的文書理解は困難である。 しかし、科学的なテキストを持つタスクのデータセットは、高価な手作業のアノテーションを必要とし、1つまたは少数のフィールドに限られる傾向がある。 同時に、科学文書には、大きなラベル付きデータセットを構築するために使用できる引用など、潜在的なトレーニング信号が多数含まれている。 そこで,本研究では,文が外部ソースを引用するか否かをラベル付けした,英語における引用適性検出に関する詳細な研究を行う。 これを実現するために,抽出された平文科学文書の膨大なコーパスから構築された引用価値検出のための,大きく,文脈化され,厳格に整理されたラベル付きデータセットであるciteworthを紹介する。 我々は、CiteWorthが高品質で、挑戦的で、ドメイン適応のような問題の研究に適していることを示す。 提案手法はLongformerに基づく段落レベルの文ラベル付けモデルであり,個々の文のみを考慮したSciBERTよりも5F1ポイント改善されている。 最後に,第2タスクとしての引用性を考慮した言語モデルの微調整が,下流の科学的文書理解タスクの性能向上につながることを示す。

Scientific document understanding is challenging as the data is highly domain specific and diverse. However, datasets for tasks with scientific text require expensive manual annotation and tend to be small and limited to only one or a few fields. At the same time, scientific documents contain many potential training signals, such as citations, which can be used to build large labelled datasets. Given this, we present an in-depth study of cite-worthiness detection in English, where a sentence is labelled for whether or not it cites an external source. To accomplish this, we introduce CiteWorth, a large, contextualized, rigorously cleaned labelled dataset for cite-worthiness detection built from a massive corpus of extracted plain-text scientific documents. We show that CiteWorth is high-quality, challenging, and suitable for studying problems such as domain adaptation. Our best performing cite-worthiness detection model is a paragraph-level contextualized sentence labelling model based on Longformer, exhibiting a 5 F1 point improvement over SciBERT which considers only individual sentences. Finally, we demonstrate that language model fine-tuning with cite-worthiness as a secondary task leads to improved performance on downstream scientific document understanding tasks.
翻訳日:2021-05-26 14:37:13 公開日:2021-05-25
# 人間中心関係セグメンテーション:データセットと解法

Human-centric Relation Segmentation: Dataset and Solution ( http://arxiv.org/abs/2105.11168v2 )

ライセンス: Link先を確認
Si Liu, Zitian Wang, Yulu Gao, Lejian Ren, Yue Liao, Guanghui Ren, Bo Li, Shuicheng Yan(参考訳) ビジョンと言語理解の技術は目覚ましい進歩を遂げていますが、現在、非常に細かい詳細に関わる問題をうまく処理することは困難です。 例えば、ロボットが「少女の左手に本を持ってこい」と言われたとき、少女が左右に1冊の本を持っていると、既存の方法のほとんどは失敗する。 本研究では,Human-centric relation segmentation (HRS) というタスクを,HOI-detのきめ細かいケースとして紹介する。 HRSは、人間と周囲の実体の関係を予測し、ピクセルレベルのマスクとして表される関係関連した人間の部分を特定することを目的としている。 上記の例の場合、当社のhrsタスクは、この本の3重項<girl [left hand], hold, book>と精密なセグメンテーションマスクという形式で結果を生成します。 このタスクには、17,122の高解像度画像と、141のオブジェクトカテゴリ、23の関連カテゴリ、25のセマンティックヒューマン部分を含む、密接な注釈付きエンティティセグメンテーションと関係を含む、新しいPerson In Context(PIC)データセットが収集されている。 また,HRSタスクの解決策として,同時マッチング・セグメンテーション(SMS)フレームワークを提案する。 I I Outputs of the three branches are fused to produce the final HRS results。 PICとV-COCOデータセットの大規模な実験により、提案手法はベースラインを36FPSの推論速度で上回ることを示した。

Vision and language understanding techniques have achieved remarkable progress, but currently it is still difficult to well handle problems involving very fine-grained details. For example, when the robot is told to "bring me the book in the girl's left hand", most existing methods would fail if the girl holds one book respectively in her left and right hand. In this work, we introduce a new task named human-centric relation segmentation (HRS), as a fine-grained case of HOI-det. HRS aims to predict the relations between the human and surrounding entities and identify the relation-correlated human parts, which are represented as pixel-level masks. For the above exemplar case, our HRS task produces results in the form of relation triplets <girl [left hand], hold, book> and exacts segmentation masks of the book, with which the robot can easily accomplish the grabbing task. Correspondingly, we collect a new Person In Context (PIC) dataset for this new task, which contains 17,122 high-resolution images and densely annotated entity segmentation and relations, including 141 object categories, 23 relation categories and 25 semantic human parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework as a solution to the HRS task. I Outputs of the three branches are fused to produce the final HRS results. Extensive experiments on PIC and V-COCO datasets show that the proposed SMS method outperforms baselines with the 36 FPS inference speed.
翻訳日:2021-05-26 14:36:41 公開日:2021-05-25
# 敵攻撃を誘発するロバストニューラルネットワークの誤分類探索

Exploring Misclassifications of Robust Neural Networks to Enhance Adversarial Attacks ( http://arxiv.org/abs/2105.10304v2 )

ライセンス: Link先を確認
Leo Schwinn, Ren\'e Raab, An Nguyen, Dario Zanca, Bjoern Eskofier(参考訳) ニューラルネットワークを敵の攻撃に対してより堅牢にする進歩は、研究コミュニティの大きな努力にもかかわらず、ほとんど限界である。 さらに、堅牢性の評価はしばしば不正確であり、有望なアプローチを特定することは困難である。 敵の攻撃に対して頑健であるように訓練された19種類の最先端ニューラルネットワークの分類決定を解析した。 以上より,現在の非ターゲティング攻撃は,限られた数の異なるクラスに対して誤分類を誘発することが示唆された。 さらに,モデル予測における過信と過信の両方がモデルロバスト性の不正確な評価をもたらすことを観察した。 そこで本研究では,19のモデルのうち19のモデルに対して,従来よりも攻撃成功率を常に向上させる新たな損失関数を提案する。

Progress in making neural networks more robust against adversarial attacks is mostly marginal, despite the great efforts of the research community. Moreover, the robustness evaluation is often imprecise, making it difficult to identify promising approaches. We analyze the classification decisions of 19 different state-of-the-art neural networks trained to be robust against adversarial attacks. Our findings suggest that current untargeted adversarial attacks induce misclassification towards only a limited amount of different classes. Additionally, we observe that both over- and under-confidence in model predictions result in an inaccurate assessment of model robustness. Based on these observations, we propose a novel loss function for adversarial attacks that consistently improves attack success rate compared to prior loss functions for 19 out of 19 analyzed models.
翻訳日:2021-05-26 14:35:57 公開日:2021-05-25
# Dorylus: 分散CPUサーバとサーバレススレッドによるGNNトレーニングの強化、スケーラブル化、高精度化

Dorylus: Affordable, Scalable, and Accurate GNN Training with Distributed CPU Servers and Serverless Threads ( http://arxiv.org/abs/2105.11118v2 )

ライセンス: Link先を確認
John Thorpe, Yifan Qiao, Jonathan Eyolfson, Shen Teng, Guanzhou Hu, Zhihao Jia, Jinliang Wei, Keval Vora, Ravi Netravali, Miryung Kim, Guoqing Harry Xu(参考訳) グラフニューラルネットワーク(GNN)は、構造化グラフデータの深層学習を可能にする。 主要なgnnトレーニングの障害は2つある: 1)多くのgpuを持つハイエンドサーバに依存しており、購入とメンテナンスに費用がかかる、2)gpu上のメモリ制限は今日の10億エッジグラフではスケールできない。 本稿では,GNNを学習するための分散システムDorylusについて述べる。 ユニークなことに、dorylusはサーバーレスコンピューティングを利用して、低コストでスケーラビリティを向上させることができる。 私たちの設計を導く重要な洞察は、計算の分離です。 計算分離により、グラフとテンソル並列タスクが完全に重複し、Lambdaが生み出すネットワーク遅延を効果的に隠蔽する、深い境界付き非同期パイプラインを構築することができる。 数千のLambdaスレッドの助けを借りて、DrylusはGNNトレーニングを10億のエッジグラフにスケールする。 現在、大規模なグラフでは、CPUサーバはGPUサーバーよりも最高のパフォーマンスを提供する。 CPUサーバ上でLambdaを使用すると、CPUサーバでのトレーニングよりも最大2.75倍パフォーマンスが向上する。 具体的には、dorylusは1.22倍高速で、大規模なスパースグラフ用のgpuサーバより4.83倍安くなる。 Dorylusは既存のサンプリングベースシステムに比べて最大3.8倍高速、10.7倍安価である。

A graph neural network (GNN) enables deep learning on structured graph data. There are two major GNN training obstacles: 1) it relies on high-end servers with many GPUs which are expensive to purchase and maintain, and 2) limited memory on GPUs cannot scale to today's billion-edge graphs. This paper presents Dorylus: a distributed system for training GNNs. Uniquely, Dorylus can take advantage of serverless computing to increase scalability at a low cost. The key insight guiding our design is computation separation. Computation separation makes it possible to construct a deep, bounded-asynchronous pipeline where graph and tensor parallel tasks can fully overlap, effectively hiding the network latency incurred by Lambdas. With the help of thousands of Lambda threads, Dorylus scales GNN training to billion-edge graphs. Currently, for large graphs, CPU servers offer the best performance-per-doll ar over GPU servers. Just using Lambdas on top of CPU servers offers up to 2.75x more performance-per-doll ar than training only with CPU servers. Concretely, Dorylus is 1.22x faster and 4.83x cheaper than GPU servers for massive sparse graphs. Dorylus is up to 3.8x faster and 10.7x cheaper compared to existing sampling-based systems.
翻訳日:2021-05-26 14:35:40 公開日:2021-05-25
# visitron: 対話的に訓練されたオブジェクトナビゲータ

VISITRON: Visual Semantics-Aligned Interactively Trained Object-Navigator ( http://arxiv.org/abs/2105.11589v1 )

ライセンス: Link先を確認
Ayush Shrivastava, Karthik Gopalakrishnan, Yang Liu, Robinson Piramuthu, Gokhan T\"ur, Devi Parikh, Dilek Hakkani-T\"ur(参考訳) フォトリアリスティックな環境をナビゲートするインタラクティブロボットは、視覚言語ナビゲーション(vln)の基盤となる課題に直面しているが、対話のダイナミックな性質を扱うように訓練する必要がある。 しかしながら、ナビゲータが目標を達成するために自然言語のガイドと対話するコラボレーティブビジョン・アンド・ダイアログナビゲーション(CVDN)の研究は、対話履歴をVLNスタイルの静的命令として扱う。 本稿では, cvdnに固有な対話型システムに適したナビゲータである visitron について, i) 環境と対話履歴間のオブジェクトレベルの概念と意味を識別・関連付けること, ii) バイナリ分類ヘッドの模倣学習による対話とナビゲータの対話のタイミングを識別すること, について述べる。 CVDNの性能向上と経験的洞察を得るため,VISITRONによる広範囲な改善を行った。 VISITRONは、静的CVDNリーダーボードのモデルと競合する。 また,VISITRONを微調整する汎用対話型システムを提案し,適応性向上のための事前学習ガイドを用いた将来のモデルについて検討する。

Interactive robots navigating photo-realistic environments face challenges underlying vision-and-language navigation (VLN), but in addition, they need to be trained to handle the dynamic nature of dialogue. However, research in Cooperative Vision-and-Dialog Navigation (CVDN), where a navigator interacts with a guide in natural language in order to reach a goal, treats the dialogue history as a VLN-style static instruction. In this paper, we present VISITRON, a navigator better suited to the interactive regime inherent to CVDN by being trained to: i) identify and associate object-level concepts and semantics between the environment and dialogue history, ii) identify when to interact vs. navigate via imitation learning of a binary classification head. We perform extensive ablations with VISITRON to gain empirical insights and improve performance on CVDN. VISITRON is competitive with models on the static CVDN leaderboard. We also propose a generalized interactive regime to fine-tune and evaluate VISITRON and future such models with pre-trained guides for adaptability.
翻訳日:2021-05-26 14:35:12 公開日:2021-05-25
# ViBERTgrid: ドキュメントからキー情報抽出のための共同学習型マルチモーダル2次元文書表現

ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents ( http://arxiv.org/abs/2105.11672v1 )

ライセンス: Link先を確認
Weihong Lin, Qifang Gao, Lei Sun, Zhuoyao Zhong, Kai Hu, Qin Ren, Qiang Huo(参考訳) BERTgridのような最近のグリッドベースの文書表現では、文書のテキスト情報とレイアウト情報を2次元特徴マップに同時符号化することで、最先端の画像セグメント化やオブジェクト検出モデルを簡単に活用して文書からキー情報を抽出することができる。 しかし、そのような方法は最先端のシーケンスやlayoutlmやpickのようなグラフベースのメソッドと同等の性能を達成していない。 本稿では,BERTgrid を CNN モデルの中間層に結合し,CNN の入力を文書画像とし,BERTgrid を単語埋め込みのグリッドとし,より強力なグリッドベースの文書表現である ViBERTgrid を生成する,新しいマルチモーダルバックボーンネットワークを提案する。 BERTgridと異なり、マルチモーダルバックボーンネットワークにおけるBERTとCNNのパラメータは共同で訓練される。 実験結果から,この共同学習戦略はViBERTgridの表現能力を大幅に向上させることが示された。 その結果、我々のViBERTgridベースのキー情報抽出アプローチは、実世界のデータセット上で最先端のパフォーマンスを達成した。

Recent grid-based document representations like BERTgrid allow the simultaneous encoding of the textual and layout information of a document in a 2D feature map so that state-of-the-art image segmentation and/or object detection models can be straightforwardly leveraged to extract key information from documents. However, such methods have not achieved comparable performance to state-of-the-art sequence- and graph-based methods such as LayoutLM and PICK yet. In this paper, we propose a new multi-modal backbone network by concatenating a BERTgrid to an intermediate layer of a CNN model, where the input of CNN is a document image and the BERTgrid is a grid of word embeddings, to generate a more powerful grid-based document representation, named ViBERTgrid. Unlike BERTgrid, the parameters of BERT and CNN in our multimodal backbone network are trained jointly. Our experimental results demonstrate that this joint training strategy improves significantly the representation ability of ViBERTgrid. Consequently, our ViBERTgrid-based key information extraction approach has achieved state-of-the-art performance on real-world datasets.
翻訳日:2021-05-26 14:34:21 公開日:2021-05-25
# 深部時空間予測における不確かさの定量化

Quantifying Uncertainty in Deep Spatiotemporal Forecasting ( http://arxiv.org/abs/2105.11982v1 )

ライセンス: Link先を確認
Dongxia Wu, Liyao Gao, Xinyue Xiong, Matteo Chinazzi, Alessandro Vespignani, Yi-An Ma, Rose Yu(参考訳) 時空間予測の深層学習の人気が高まっている。 しかし、先行研究は主に予測の不確かさを定量化せずに点推定に焦点を当ててきた。 ハイステークス領域では、信頼区間で確率的予測を生成できることはリスク評価と意思決定に不可欠である。 そのため、地域社会では時空間予測のための不確実性定量化(UQ)手法の体系的研究が欠落している。 本稿では,正規格子ベースとグラフベースの2種類の時空間予測問題について述べる。 次にベイズ的および頻繁な視点からUQ法を解析し,統計的決定理論を通じて統一的な枠組みにキャストする。 実世界の道路網のトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計的および計算的トレードオフを明らかにする。 計算上、質的回帰型手法は単一の信頼区間でより安価であるが、異なる間隔で再訓練する必要がある。 サンプリングに基づく手法は、より高い計算コストで複数の信頼区間を形成することができるサンプルを生成する。

Deep learning is gaining increasing popularity for spatiotemporal forecasting. However, prior works have mostly focused on point estimates without quantifying the uncertainty of the predictions. In high stakes domains, being able to generate probabilistic forecasts with confidence intervals is critical to risk assessment and decision making. Hence, a systematic study of uncertainty quantification (UQ) methods for spatiotemporal forecasting is missing in the community. In this paper, we describe two types of spatiotemporal forecasting problems: regular grid-based and graph-based. Then we analyze UQ methods from both the Bayesian and the frequentist point of view, casting in a unified framework via statistical decision theory. Through extensive experiments on real-world road network traffic, epidemics, and air quality forecasting tasks, we reveal the statistical and computational trade-offs for different UQ methods: Bayesian methods are typically more robust in mean prediction, while confidence levels obtained from frequentist methods provide more extensive coverage over data variations. Computationally, quantile regression type methods are cheaper for a single confidence interval but require re-training for different intervals. Sampling based methods generate samples that can form multiple confidence intervals, albeit at a higher computational cost.
翻訳日:2021-05-26 14:33:55 公開日:2021-05-25
# ランダムユーティリティ逆強化学習による軌道モデリング

Trajectory Modeling via Random Utility Inverse Reinforcement Learning ( http://arxiv.org/abs/2105.12092v1 )

ライセンス: Link先を確認
Anselmo R. Pitombeira-Neto, Helano P. Santos, Ticiana L. Coelho da Silva, Jos\'e Antonio F. de Macedo(参考訳) 道路ネットワークにおけるドライバの軌跡を逆強化学習の観点からモデル化することの問題点を考察する。 合理的なエージェントとして、ドライバーは軌道を構成するときに外部のオブザーバーに未知の報酬関数を最大化しようとしている。 マイクロ経済理論からランダム効用の概念を適用し、未知の報酬関数を観測可能な特徴の関数としてモデル化する。 我々は,ドライバ決定のランダムな効用マルコフ決定過程の定式化に基づいて,軌跡のパラメータ化生成モデルを開発した。 また, 最大エントロピー逆強化学習は, 非観測報酬誤差項に対してガムベル密度関数を仮定した場合, 提案手法の具体例であることを示す。 本研究では,街路網の分散点にセンサを配置した大規模都市における実軌道データを用いて,モデルパラメータのベイズ推定を行う。

We consider the problem of modeling trajectories of drivers in a road network from the perspective of inverse reinforcement learning. As rational agents, drivers are trying to maximize some reward function unknown to an external observer as they make up their trajectories. We apply the concept of random utility from microeconomic theory to model the unknown reward function as a function of observable features plus an error term which represents features known only to the driver. We develop a parameterized generative model for the trajectories based on a random utility Markov decision process formulation of drivers decisions. We show that maximum entropy inverse reinforcement learning is a particular case of our proposed formulation when we assume a Gumbel density function for the unobserved reward error terms. We illustrate Bayesian inference on model parameters through a case study with real trajectory data from a large city obtained from sensors placed on sparsely distributed points on the street network.
翻訳日:2021-05-26 14:33:27 公開日:2021-05-25
# ディープスパイクニューラルネットワークにおける高速かつ高精度なANN-SNN変換

Optimal ANN-SNN Conversion for Fast and Accurate Inference in Deep Spiking Neural Networks ( http://arxiv.org/abs/2105.11654v1 )

ライセンス: Link先を確認
Jianhao Ding, Zhaofei Yu, Yonghong Tian and Tiejun Huang(参考訳) バイオインスパイアされたエネルギー効率の高いニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、研究者や業界から大きな注目を集めている。 ディープSNNを訓練する最も効率的な方法は、ANN-SNN変換である。 しかし、変換は通常、精度の損失と長い推論時間に悩まされ、snnの実用的利用を妨げる。 本稿では,ANN-SNN変換を理論的に解析し,最適変換の十分な条件を導出する。 ANN-SNNの相関性を向上し、精度を高めるために、トレーニング済みのANNからSNNへの直接変換を可能にするソースANNトレーニングにおいて、ReLUアクティベーション関数を置き換えるためのレートノーム層を提案する。 さらに、ソースANNの活性化値とターゲットSNNの実際の発射速度との適合性を定量化する最適適合曲線を提案する。 修正ANNにおける適合曲線の上界を最適化し,高速な推論を行うことにより,推定時間を短縮できることを示す。 我々の理論は、高速推論に関する既存の研究を説明し、より良い結果を得ることができる。 実験結果から,提案手法はVGG-16, PreActResNet-18, 及びより深い構造を用いて, ほぼ損失の少ない変換を実現することがわかった。 さらに、従来の0.265倍のエネルギー消費で8.6倍高速な推論性能が得られる。 コードはhttps://github.com/D ingJianhao/OptSNNCon vertion-RNL-RILで公開されている。

Spiking Neural Networks (SNNs), as bio-inspired energy-efficient neural networks, have attracted great attentions from researchers and industry. The most efficient way to train deep SNNs is through ANN-SNN conversion. However, the conversion usually suffers from accuracy loss and long inference time, which impede the practical application of SNN. In this paper, we theoretically analyze ANN-SNN conversion and derive sufficient conditions of the optimal conversion. To better correlate ANN-SNN and get greater accuracy, we propose Rate Norm Layer to replace the ReLU activation function in source ANN training, enabling direct conversion from a trained ANN to an SNN. Moreover, we propose an optimal fit curve to quantify the fit between the activation value of source ANN and the actual firing rate of target SNN. We show that the inference time can be reduced by optimizing the upper bound of the fit curve in the revised ANN to achieve fast inference. Our theory can explain the existing work on fast reasoning and get better results. The experimental results show that the proposed method achieves near loss less conversion with VGG-16, PreActResNet-18, and deeper structures. Moreover, it can reach 8.6x faster reasoning performance under 0.265x energy consumption of the typical method. The code is available at https://github.com/D ingJianhao/OptSNNCon vertion-RNL-RIL.
翻訳日:2021-05-26 14:33:06 公開日:2021-05-25
# FNAS:不確実性を意識した高速ニューラルネットワーク検索

FNAS: Uncertainty-Aware Fast Neural Architecture Search ( http://arxiv.org/abs/2105.11694v1 )

ライセンス: Link先を確認
Jihao Liu and Ming Zhang and Yangting Sun and Boxiao Liu and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 強化学習(rl)ベースのニューラルネットワーク検索(nas)は一般的に、コンバージェンスの改善を保証するが、プロキシタスクのサンプル生成毎に徹底的なトレーニングを行うロールアウトボトルネックのため、勾配ベースのアプローチと比較して、巨大な計算リソースを必要とする。 本稿では,nasにおけるrlプロセスと同様にロールアウトプロセスの収束を加速する一般的なパイプラインを提案する。 アーキテクチャとパラメータの知識の両方が異なる実験と異なるタスクの間で移動可能であるという興味深い観察から動機づけられている。 まず,事前実験におけるアーキテクチャ知識を活用し,学習過程を安定化し,探索時間を4倍短縮するために,近方政策最適化(ppo)における不確実性認識批判(価値関数)を導入する。 さらに、パラメータ知識を利用するためにブロック類似度関数と共にアーキテクチャ知識プールを提案し、探索時間を2倍短縮する。 rlベースのnasでブロックレベルの重量共有を導入した最初の例である。 ブロック類似度関数は、厳密な公正度で100%ヒット比を保証する。 さらに,RL最適化における「リプレイバッファ」に使用される単純なオフポリティ補正係数により,検索時間の半減効果が得られた。 Mobile Neural Architecture Search (MNAS) サーチスペースの実験では、提案されたFast Neural Architecture Search (FNAS) が標準のRLベースのNASプロセスを約10倍加速することを示した。 256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS) は、様々なビジョンタスクのパフォーマンスを保証する。

Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.
翻訳日:2021-05-26 14:32:33 公開日:2021-05-25
# 高分解能直交画像を用いた深層学習に基づく小規模・大規模臨界インフラストラクチャ検出

Small and large scale critical infrastructures detection based on deep learning using high resolution orthogonal images ( http://arxiv.org/abs/2105.11844v1 )

ライセンス: Link先を確認
P\'erez-Hern\'andez Francisco, Rodr\'iguez-Ortega Jos\'e, Benhammou Yassir, Herrera Francisco, Tabik Siham(参考訳) 重要なインフラストラクチャの検出は、セキュリティ、異常検出、土地利用計画、土地利用変化検出など、いくつかの分野で非常に重要である。 しかし、航空画像と衛星画像における重要なインフラストラクチャ検出は、それぞれが完全に異なるサイズで、正確な識別のために異なる空間解像度を必要とするため、依然として課題である。 これまでは、重要なインフラストラクチャー検出を訓練するための特別なデータセットは存在しない。 本稿では,スマートデータセットと解像度に依存しないクリティカルインフラストラクチャ検出システムを提案する。 特に,検出モデルの性能に導かれ,小規模と大規模の2つの尺度からなるデータセットを構築し,異なるスケールクリティカルインフラストラクチャ(detdsci)手法による2段階のディープラーニング検出をオルソイメージで設計した。 DetDSCI法はまず分類モデルを用いて入力画像のズームレベルを決定し、次に適切なスケール検出モデルを用いて入力画像を分析する。 DetDSCI法はベースライン検出器に対して最大37,53%のF1改善を実現している。

The detection of critical infrastructures is of high importance in several fields such as security, anomaly detection, land use planning and land use change detection. However, critical infrastructures detection in aerial and satellite images is still a challenge as each one has completely different size and requires different spacial resolution to be identified correctly. Heretofore, there are no special datasets for training critical infrastructures detectors. This paper presents a smart dataset as well as a resolution-independe nt critical infrastructure detection system. In particular, guided by the performance of the detection model, we built a dataset organized into two scales, small and large scale, and designed a two-stage deep learning detection of different scale critical infrastructures (DetDSCI) methodology in ortho-images. DetDSCI methodology first determines the input image zoom level using a classification model, then analyses the input image with the appropriate scale detection model. Our experiments show that DetDSCI methodology achieves up to 37,53% F1 improvement with respect to the baseline detector.
翻訳日:2021-05-26 14:31:53 公開日:2021-05-25
# 成長を導く:ステップバイステップの書き直しによる難易度制御可能な質問生成

Guiding the Growth: Difficulty-Controlla ble Question Generation through Step-by-Step Rewriting ( http://arxiv.org/abs/2105.11698v1 )

ライセンス: Link先を確認
Yi Cheng, Siyao Li, Bang Liu, Ruihui Zhao, Sujian Li, Chenghua Lin and Yefeng Zheng(参考訳) 本稿では,難易度の高い質問生成を目的としたDCQG(Difficulty-Cont rollable Question Generation)の課題について検討する。 本研究は,質問回答システム(QA)で正解できるかどうかという質問の難しさを,解釈性や制御性に欠けるものとして,主に定義している。 本研究では,回答に必要な推論ステップの数として質問の難易度を再定義し,質問生成システム(QG)が生成した質問の論理をより強く制御するべきであると論じる。 そこで本研究では,抽出された推論連鎖の指導の下,段階的な書き換えを通じて質問難易度を段階的に向上させる新しい枠組みを提案する。 研究を容易にするためにデータセットが自動的に構築され,提案手法の性能をテストするために広範囲な実験が行われる。

This paper explores the task of Difficulty-Controlla ble Question Generation (DCQG), which aims at generating questions with required difficulty levels. Previous research on this task mainly defines the difficulty of a question as whether it can be correctly answered by a Question Answering (QA) system, lacking interpretability and controllability. In our work, we redefine question difficulty as the number of inference steps required to answer it and argue that Question Generation (QG) systems should have stronger control over the logic of generated questions. To this end, we propose a novel framework that progressively increases question difficulty through step-by-step rewriting under the guidance of an extracted reasoning chain. A dataset is automatically constructed to facilitate the research, on which extensive experiments are conducted to test the performance of our method.
翻訳日:2021-05-26 14:31:27 公開日:2021-05-25
# NEUer at SemEval-2021 Task 4: Complete Summary Representation by Filling Answers into Questioning Matching Reading Comprehension (英語)

NEUer at SemEval-2021 Task 4: Complete Summary Representation by Filling Answers into Question for Matching Reading Comprehension ( http://arxiv.org/abs/2105.12051v1 )

ライセンス: Link先を確認
Zhixiang Chen, Yikun Lei, Pai Liu, Guibing Guo(参考訳) SemEval Task 4は、機械読解の課題を解決するために、複数の候補から適切な選択肢を見つけることを目的としている。 既存のアプローチの多くは、質問と選択肢を結合してコンテキスト認識モデルを構築することを提案する。 しかし、直感的な結合は、質問に対する選択肢の特定の位置を無視して、MCCタスクに対して粗いコンテキストしか提供できないと論じる。 本稿では,選択肢を問合せに充足して,選択肢と問合せの関係をよりよく明らかにする,よりきめ細かいコンテキスト(要約として定義される)を生成する新しいMDCモデルを提案する。 与えられたデータセット上で一連の実験を行い、その結果、我々のアプローチは、他のデータセットよりもかなり優れています。

SemEval task 4 aims to find a proper option from multiple candidates to resolve the task of machine reading comprehension. Most existing approaches propose to concat question and option together to form a context-aware model. However, we argue that straightforward concatenation can only provide a coarse-grained context for the MRC task, ignoring the specific positions of the option relative to the question. In this paper, we propose a novel MRC model by filling options into the question to produce a fine-grained context (defined as summary) which can better reveal the relationship between option and question. We conduct a series of experiments on the given dataset, and the results show that our approach outperforms other counterparts to a large extent.
翻訳日:2021-05-26 14:31:04 公開日:2021-05-25
# 説明可能なAIと不確実な定量化のギャップを埋めて信頼性を高める

Bridging the Gap Between Explainable AI and Uncertainty Quantification to Enhance Trustability ( http://arxiv.org/abs/2105.11828v1 )

ライセンス: Link先を確認
Dominik Seu{\ss}(参考訳) ディープラーニングや他のai手法の飛躍的な進歩の後、解釈可能性や公平性など、現代のアプローチの他の特性にも注目が集まっている。 Responsible AIのようなフレームワークで組み合わせる。 説明可能なAIと不確かさの定量化という2つの研究方向がますます重要になっているが、これまで決して組み合わせられ、共同で研究されてきたことはない。 本稿では,この2つの研究領域が組み合わせの可能性をいかに与えるか,なぜより多くの研究をこの方向に行うべきか,そしてそれがaiシステムの信頼性向上にどのようにつながるかを示す。

After the tremendous advances of deep learning and other AI methods, more attention is flowing into other properties of modern approaches, such as interpretability, fairness, etc. combined in frameworks like Responsible AI. Two research directions, namely Explainable AI and Uncertainty Quantification are becoming more and more important, but have been so far never combined and jointly explored. In this paper, I show how both research areas provide potential for combination, why more research should be done in this direction and how this would lead to an increase in trustability in AI systems.
翻訳日:2021-05-26 14:30:42 公開日:2021-05-25
# 事前学習言語モデルにおけるスーパーチケット:モデル圧縮から一般化の改善へ

Super Tickets in Pre-Trained Language Models: From Model Compression to Improving Generalization ( http://arxiv.org/abs/2105.12002v1 )

ライセンス: Link先を確認
Chen Liang, Simiao Zuo, Minshuo Chen, Haoming Jiang, Xiaodong Liu, Pengcheng He, Tuo Zhao and Weizhu Chen(参考訳) 抽選券仮説は、過度にパラメータ化されたネットワークが「ラタリーチケット」で構成されており、それらの特定のコレクション(すなわちサブネットワーク)のトレーニングは、フルモデルのパフォーマンスと一致することを示唆する。 本稿では,事前学習型言語モデルなど,超過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝者チケット」と呼ぶ。 また, ある圧縮比において, 当選チケットの一般化性能は, 一致だけでなく, フルモデルよりも優れることを示した。 特に、圧縮比が増加するにつれて、当選チケットの一般化性能がまず向上し、一定のしきい値の後に劣化する相転移現象を観察する。 私たちはしきい値のチケットを「スーパーチケット」と呼んでいます。 さらに、フェーズ遷移がタスクであり、モデル依存であることを示す。モデルのサイズが大きくなると、トレーニングデータセットが小さくなり、遷移がより顕著になる。 GLUEベンチマーク実験の結果,BERTベースでは$0.9$,BERTベースでは$1.0$,タスク平均スコアでは$1.0$となっている。 また,タスク間でスーパーチケットを適応的に共有することがマルチタスク学習に有効であることを示す。

The Lottery Ticket Hypothesis suggests that an over-parametrized network consists of "lottery tickets", and training a certain collection of them (i.e., a subnetwork) can match the performance of the full model. In this paper, we study such a collection of tickets, which is referred to as "winning tickets", in extremely over-parametrized models, e.g., pre-trained language models. We observe that at certain compression ratios, generalization performance of the winning tickets can not only match, but also exceed that of the full model. In particular, we observe a phase transition phenomenon: As the compression ratio increases, generalization performance of the winning tickets first improves then deteriorates after a certain threshold. We refer to the tickets on the threshold as "super tickets". We further show that the phase transition is task and model dependent -- as model size becomes larger and training data set becomes smaller, the transition becomes more pronounced. Our experiments on the GLUE benchmark show that the super tickets improve single task fine-tuning by $0.9$ points on BERT-base and $1.0$ points on BERT-large, in terms of task-average score. We also demonstrate that adaptively sharing the super tickets across tasks benefits multi-task learning.
翻訳日:2021-05-26 14:30:27 公開日:2021-05-25
# 学術的盗作法の分類学

Taxonomy of academic plagiarism methods ( http://arxiv.org/abs/2105.12068v1 )

ライセンス: Link先を確認
Tedo Vrbanec and Ana Mestrovic(参考訳) この記事では、学術的盗作に焦点をあてた盗作の領域の概要を紹介する。 この論文は、盗作主義を定義し、この用語の起源と、盗作主義に関連する用語を説明する。 プラジャリズム領域の範囲を特定し、次に文書のプラジャリズムサブドメインに焦点を当て、現在の分類と分類を概観し、その起源と目的、技術的実装、結果、検出の複雑さ、および言語情報源の数に応じてより包括的な分類を提案する。 本論では, 学際的盗作学の新しい分類法として, 盗作学の分類, 類型と分類, 盗作学のアプローチと段階, 盗作学の方法とアルゴリズムの分類について述べる。 記事のタイトルは、明らかに学術コミュニティをターゲットにしているが、十分に一般的で学際的なものであり、ソフトウェア開発者、言語学者、司書といった多くの専門家にとって有用である。

The article gives an overview of the plagiarism domain, with focus on academic plagiarism. The article defines plagiarism, explains the origin of the term, as well as plagiarism related terms. It identifies the extent of the plagiarism domain and then focuses on the plagiarism subdomain of text documents, for which it gives an overview of current classifications and taxonomies and then proposes a more comprehensive classification according to several criteria: their origin and purpose, technical implementation, consequence, complexity of detection and according to the number of linguistic sources. The article suggests the new classification of academic plagiarism, describes sorts and methods of plagiarism, types and categories, approaches and phases of plagiarism detection, the classification of methods and algorithms for plagiarism detection. The title of the article explicitly targets the academic community, but it is sufficiently general and interdisciplinary, so it can be useful for many other professionals like software developers, linguists and librarians.
翻訳日:2021-05-26 14:29:55 公開日:2021-05-25
# データ自己提示による半導体デバイスの機械学習ベースモデリングの改善

Improving Machine Learning-Based Modeling of Semiconductor Devices by Data Self-Augmentation ( http://arxiv.org/abs/2105.11453v1 )

ライセンス: Link先を確認
Zeheng Wang, Liang Li, Ross C. C. Leon and Arne Laucht(参考訳) エレクトロニクス業界では、機械学習(ML)ベースの技術を導入することで、TCAD(Technology Computer-Aided Design)の手法を強化することができる。 しかし、MLモデルの性能はトレーニングデータセットに大きく依存している。 特に半導体産業では、半導体デバイスの製造プロセスが複雑で高価であることを考えると、十分なサイズと高品質のデータセットを得ることは非常に困難である。 本稿では,まずは少数の実験データポイントが必要であり,tcaツールが必須ではない変分オートエンコーダに基づく手法を用いて,データ自己提示によるmlベースデバイスモデリングを改善するための戦略を提案する。 例えば、ガリウム窒化物デバイスにおけるオーミック抵抗値の深いニューラルネットワークに基づく予測タスクを例に、提案手法を適用して、データポイントを増大させ、実験結果を最大70%まで予測する平均絶対誤差を低減させる。 提案手法は様々なタスクに対して容易に変更可能であり,半導体産業全般に高い関心を寄せている。

In the electronics industry, introducing Machine Learning (ML)-based techniques can enhance Technology Computer-Aided Design (TCAD) methods. However, the performance of ML models is highly dependent on their training datasets. Particularly in the semiconductor industry, given the fact that the fabrication process of semiconductor devices is complicated and expensive, it is of great difficulty to obtain datasets with sufficient size and good quality. In this paper, we propose a strategy for improving ML-based device modeling by data self-augmentation using variational autoencoder-based techniques, where initially only a few experimental data points are required and TCAD tools are not essential. Taking a deep neural network-based prediction task of the Ohmic resistance value in Gallium Nitride devices as an example, we apply our proposed strategy to augment data points and achieve a reduction in the mean absolute error of predicting the experimental results by up to 70%. The proposed method could be easily modified for different tasks, rendering it of high interest to the semiconductor industry in general.
翻訳日:2021-05-26 14:29:32 公開日:2021-05-25
# 初期学習における2層ニューラルネットワークの凝縮理解に向けて

Towards Understanding the Condensation of Two-layer Neural Networks at Initial Training ( http://arxiv.org/abs/2105.11686v1 )

ライセンス: Link先を確認
Zhi-Qin John Xu, Hanxu Zhou, Tao Luo, Yaoyu Zhang(参考訳) ニューラルネットワーク(NN)を実際のデータセット上で優れたパフォーマンスに導くトレーニング中に、損失関数に暗黙の正規化が課されるものを研究することが重要である。 既存の研究は、NNの重みが小さな初期化を伴う孤立配向に凝縮していることを実証的に示している。 この凝縮は、NNがトレーニングデータから特徴を学習し、事実上はるかに小さなネットワークであることを意味する。 本研究では,初期訓練段階での凝縮を理解する上で,原点における活性化関数の特異点が重要な要素であることを示す。 実験により, 凝縮配向の最大数は特異性の2倍であることが示唆された。 理論解析により, 1 つは一階特異性活性化関数, もう 1 つは一次元入力に対する実験が確認された。 この研究は、初期化がnnを暗黙的に凝縮させる方法を理解するための一歩を踏み出し、深層nnのトレーニングと学習を理解する上で不可欠である。

It is important to study what implicit regularization is imposed on the loss function during the training that leads over-parameterized neural networks (NNs) to good performance on real dataset. Empirically, existing works have shown that weights of NNs condense on isolated orientations with small initialization. The condensation implies that the NN learns features from the training data and is effectively a much smaller network. In this work, we show that the singularity of the activation function at original point is a key factor to understanding the condensation at initial training stage. Our experiments suggest that the maximal number of condensed orientations is twice of the singularity order. Our theoretical analysis confirms experiments for two cases, one is for the first-order singularity activation function and the other is for the one-dimensional input. This work takes a step towards understanding how small initialization implicitly leads NNs to condensation at initial training, which is crucial to understand the training and the learning of deep NNs.
翻訳日:2021-05-26 14:28:44 公開日:2021-05-25
# SHAFF: ランダム森林による高速で一貫したSHApley eFfectの推定

SHAFF: Fast and consistent SHApley eFfect estimates via random Forests ( http://arxiv.org/abs/2105.11724v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard (LPSM), G\'erard Biau (LPSM), S\'ebastien da Veiga, Erwan Scornet (CMAP)(参考訳) 学習アルゴリズムの解釈可能性は重要な決定を伴うアプリケーションにとって重要であり、変数の重要性は主要な解釈ツールの1つである。 シェープ効果は、他のほとんどの可変重要度尺度とは対照的に、データ内の依存や相互作用を効率的に処理できるため、ツリーアンサンブルとニューラルネットワークの両方を解釈するために広く使用されている。 しかし、シャプリー効果の推定は計算の複雑さと条件付き期待値の見積もりのために難しい課題である。 したがって、既存のshapleyアルゴリズムには、コストのかかる実行時間や入力変数に依存するバイアスという欠陥がある。 そこで,SHAFF,SHApley eFfects via random Forests, a fast and accurate Shapley effect estimates, if if input variables are dependent。 我々は,SHAFFの効率を,その整合性の理論的解析と,広範に実験を行った競合相手に対する実用的性能改善の両面から示す。 C++とRにおけるSHAFFの実装はオンラインで入手できる。

Interpretability of learning algorithms is crucial for applications involving critical decisions, and variable importance is one of the main interpretation tools. Shapley effects are now widely used to interpret both tree ensembles and neural networks, as they can efficiently handle dependence and interactions in the data, as opposed to most other variable importance measures. However, estimating Shapley effects is a challenging task, because of the computational complexity and the conditional expectation estimates. Accordingly, existing Shapley algorithms have flaws: a costly running time, or a bias when input variables are dependent. Therefore, we introduce SHAFF, SHApley eFfects via random Forests, a fast and accurate Shapley effect estimate, even when input variables are dependent. We show SHAFF efficiency through both a theoretical analysis of its consistency, and the practical performance improvements over competitors with extensive experiments. An implementation of SHAFF in C++ and R is available online.
翻訳日:2021-05-26 14:28:04 公開日:2021-05-25
# Duling Banditによるバイアス・ロバストベイズ最適化

Bias-Robust Bayesian Optimization via Dueling Bandit ( http://arxiv.org/abs/2105.11802v1 )

ライセンス: Link先を確認
Johannes Kirschner and Andreas Krause(参考訳) ベイジアン最適化は、例えば制御されていない隠された共同設立者によって観測が逆偏見されるような設定で検討する。 私たちの最初の貢献は、デュエルバンディットモデルに対する確立された設定の削減である。 次に,情報指向サンプリング(ids)に基づくデュエルバンディットに対する新しいアプローチを提案する。 これにより、累積後悔保証を伴うデュエルバンディットに対する最初の効率的なカーネル化アルゴリズムを得る。 本解析は,提案する半パラメトリック線形バンディットモデルを非線形報酬関数にさらに一般化し,二重ロバスト推定への興味深いリンクを明らかにする。

We consider Bayesian optimization in settings where observations can be adversarially biased, for example by an uncontrolled hidden confounder. Our first contribution is a reduction of the confounded setting to the dueling bandit model. Then we propose a novel approach for dueling bandits based on information-directed sampling (IDS). Thereby, we obtain the first efficient kernelized algorithm for dueling bandits that comes with cumulative regret guarantees. Our analysis further generalizes a previously proposed semi-parametric linear bandit model to non-linear reward functions, and uncovers interesting links to doubly-robust estimation.
翻訳日:2021-05-26 14:27:39 公開日:2021-05-25
# コーディネートサンプリングによるSGD:理論と実践

SGD with Coordinate Sampling: Theory and Practice ( http://arxiv.org/abs/2105.11818v1 )

ライセンス: Link先を確認
R\'emi Leluc and Fran\c{c}ois Portier(参考訳) 古典的な確率勾配降下アルゴリズムは、異なる座標を同じように扱うが、適応的な(一様でない)座標サンプリングが可能なフレームワークを開発し、データの構造を利用する。 非凸設定およびゼロ階勾配推定を含む場合、ほぼ確実に収束と非漸近境界が確立される。 提案手法では,雑音勾配に関する情報を収集した後,最も有望な座標(すべて1つ)を抽出し,目的(すべて)の重要な減少をもたらす一方向に沿って移動させるという,強化戦略に基づくアルゴリズム MUSKETEER を開発した。 合成データと実データの両方に関する数値実験により,大規模問題におけるMUSKETEERの有効性が確認された。

While classical forms of stochastic gradient descent algorithm treat the different coordinates in the same way, a framework allowing for adaptive (non uniform) coordinate sampling is developed to leverage structure in data. In a non-convex setting and including zeroth order gradient estimate, almost sure convergence as well as non-asymptotic bounds are established. Within the proposed framework, we develop an algorithm, MUSKETEER, based on a reinforcement strategy: after collecting information on the noisy gradients, it samples the most promising coordinate (all for one); then it moves along the one direction yielding an important decrease of the objective (one for all). Numerical experiments on both synthetic and real data examples confirm the effectiveness of MUSKETEER in large scale problems.
翻訳日:2021-05-26 14:27:26 公開日:2021-05-25
# DiBS:異なるベイズ構造学習

DiBS: Differentiable Bayesian Structure Learning ( http://arxiv.org/abs/2105.11839v1 )

ライセンス: Link先を確認
Lars Lorch, Jonas Rothfuss, Bernhard Sch\"olkopf, Andreas Krause(参考訳) ベイズ構造学習は、データからベイズネットワーク構造を推論し、疫学的な不確実性について推論することを可能にする。 本研究では,潜在確率グラフ表現の連続空間で動作するベイズ構造学習(dibs)のための汎用的かつ完全微分可能なフレームワークを提案する。 近年の変分推論の進歩を踏まえ,構造モデル上での後方近似法を考案するためにdibを用いた。 既存の研究とは対照的に、DiBSは局所的な条件分布の形式に非依存であり、グラフ構造と条件分布パラメータの両方の結合後部推論を可能にする。 これにより、ニューラルネットワークで符号化された非線形依存関係を持つ非標準ベイズネットワークモデルの後部推論に直接適用することができる。 シミュレーションおよび実世界のデータに対する評価において、DiBSは関節後部推論に対する関連するアプローチを著しく上回っている。

Bayesian structure learning allows inferring Bayesian network structure from data while reasoning about the epistemic uncertainty -- a key element towards enabling active causal discovery and designing interventions in real world systems. In this work, we propose a general, fully differentiable framework for Bayesian structure learning (DiBS) that operates in the continuous space of a latent probabilistic graph representation. Building on recent advances in variational inference, we use DiBS to devise an efficient method for approximating posteriors over structural models. Contrary to existing work, DiBS is agnostic to the form of the local conditional distributions and allows for joint posterior inference of both the graph structure and the conditional distribution parameters. This makes our method directly applicable to posterior inference of nonstandard Bayesian network models, e.g., with nonlinear dependencies encoded by neural networks. In evaluations on simulated and real-world data, DiBS significantly outperforms related approaches to joint posterior inference.
翻訳日:2021-05-26 14:27:08 公開日:2021-05-25
# 大規模データセットの分類精度向上を目的とした階層型部分空間学習

Hierarchical Subspace Learning for Dimensionality Reduction to Improve Classification Accuracy in Large Data Sets ( http://arxiv.org/abs/2105.12005v1 )

ライセンス: Link先を確認
Parisa Abdolrahim Poorheravi and Vincent Gaudet(参考訳) 多様体学習は次元の減少に使われ、射影部分空間を見つけ、クラス間およびクラス内分散を増大・減少させることが目的である。 しかし、サブスペース学習手法のボトルネックはデータセットの高次元性から生じることが多い。 本稿では,大規模データセットの分類を3%から10%の範囲で改善することを目的として,サブスペース学習をスケールするための階層的手法を提案する。 異なる組み合わせの方法が研究されている。 提案手法は,線形判別分析,主成分分析,一般化判別分析,再構成独立成分分析などの固有値に基づく部分空間学習手法を用いて,公開可能な5つの大規模データセット上で評価する。 さらに,提案手法が各種分類法に与える影響について検討するため,得られた結果を線形判別分析,二次線形解析,k-nearest近傍,ランダム森林分類器に与えた。 その結果,分類精度は階層的アプローチの有効性を示し,分類精度が平均5%向上したことを報告した。

Manifold learning is used for dimensionality reduction, with the goal of finding a projection subspace to increase and decrease the inter- and intraclass variances, respectively. However, a bottleneck for subspace learning methods often arises from the high dimensionality of datasets. In this paper, a hierarchical approach is proposed to scale subspace learning methods, with the goal of improving classification in large datasets by a range of 3% to 10%. Different combinations of methods are studied. We assess the proposed method on five publicly available large datasets, for different eigen-value based subspace learning methods such as linear discriminant analysis, principal component analysis, generalized discriminant analysis, and reconstruction independent component analysis. To further examine the effect of the proposed method on various classification methods, we fed the generated result to linear discriminant analysis, quadratic linear analysis, k-nearest neighbor, and random forest classifiers. The resulting classification accuracies are compared to show the effectiveness of the hierarchical approach, reporting results of an average of 5% increase in classification accuracy.
翻訳日:2021-05-26 14:26:46 公開日:2021-05-25
# AdaGCN:不均衡ノード分類に基づくグラフ畳み込みネットワークの適応ブースティングアルゴリズム

AdaGCN:Adaptive Boosting Algorithm for Graph Convolutional Networks on Imbalanced Node Classification ( http://arxiv.org/abs/2105.11625v1 )

ライセンス: Link先を確認
S. Shi, Kai Qiao, Shuai Yang, L. Wang, J. Chen and Bin Yan(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータ表現において顕著な成功を収めた。 しかし、以前の研究は理想的な均衡データセットのみを考慮し、実際的な不均衡データセットはめったに考慮されず、それとは対照的に、GNNの適用にはより重要である。 不均衡なデータセットを扱う再サンプリング、再重み付け、合成サンプルといった従来の手法は、もはやGNNには適用されない。 アンサンブルモデルは、単一の推定器よりも不均衡なデータセットを処理できる。 さらに、アンサンブル学習は推定精度が高く、単一推定器と比較して信頼性が高い。 本稿では,適応昇圧時のベース推定器としてグラフ畳み込みネットワーク(gcn)を用いるadagcnと呼ばれるアンサンブルモデルを提案する。 AdaGCNでは、以前の分類器で適切に分類されていないトレーニングサンプルに対してより高い重量が設定され、転送学習が計算コストの削減と適合性の向上に使用される。 実験の結果,提案したAdaGCNモデルの方がGCN, GraphSAGE, GAT, N-GCN, および合成不均衡データセット上での高度な再重み付けおよび再サンプリング手法よりも,平均4.3%向上した。 当社のモデルは,Cora,Citeseer,Pubme d,NELLといったノード分類タスクのすべてにおいて,最先端のベースラインを改善しています。

The Graph Neural Network (GNN) has achieved remarkable success in graph data representation. However, the previous work only considered the ideal balanced dataset, and the practical imbalanced dataset was rarely considered, which, on the contrary, is of more significance for the application of GNN. Traditional methods such as resampling, reweighting and synthetic samples that deal with imbalanced datasets are no longer applicable in GNN. Ensemble models can handle imbalanced datasets better compared with single estimator. Besides, ensemble learning can achieve higher estimation accuracy and has better reliability compared with the single estimator. In this paper, we propose an ensemble model called AdaGCN, which uses a Graph Convolutional Network (GCN) as the base estimator during adaptive boosting. In AdaGCN, a higher weight will be set for the training samples that are not properly classified by the previous classifier, and transfer learning is used to reduce computational cost and increase fitting capability. Experiments show that the AdaGCN model we proposed achieves better performance than GCN, GraphSAGE, GAT, N-GCN and the most of advanced reweighting and resampling methods on synthetic imbalanced datasets, with an average improvement of 4.3%. Our model also improves state-of-the-art baselines on all of the challenging node classification tasks we consider: Cora, Citeseer, Pubmed, and NELL.
翻訳日:2021-05-26 14:25:54 公開日:2021-05-25
# 遅延空間空間間隔制約による生成前の学習

Learning Generative Prior with Latent Space Sparsity Constraints ( http://arxiv.org/abs/2105.11956v1 )

ライセンス: Link先を確認
Vinayak Killedar, Praveen Kumar Pokala, Chandra Sekhar Seelamantula(参考訳) 本研究では, 深部生成前モデルを用いた圧縮センシングの問題に対処し, 非線形センシング機構と線形センシング機構の両方を検討し, 非線形センシングは完全連結ニューラルネットワークか畳み込みニューラルネットワークかを考える。 近年、自然画像の分布は単一の多様体に存在せず、むしろ複数の部分多様体の合併にあると論じられている。 我々は,sparsity-driven latent space sampling (sdlss) フレームワークを提案し,sparsityを潜在空間に強制する近位メタラーニング (pml) アルゴリズムを開発した。 SDLSSはジェネレータの射程空間をサブマニフォールドの和集合と見なすことができる。 また、線形計測モデルのためのsdlssフレームワーク内のサンプル複雑性境界も導出する。 その結果, SDLSS法は, 高次圧縮では最先端法よりも効率が高いことがわかった。 まず,ファッション・マンニストデータセットにおける線形と非線形のセンシング機構の比較を行い,学習した非線形バージョンが線形のものよりも優れていることを示す。 本論文で提案する深部圧縮センシング(DCS)フレームワークとの比較を報告する。 また, SDLSSフレームワークの検証における潜伏空間の次元と空間係数の影響についても検討した。 性能定量化は、ピーク信号対雑音比(PSNR)、構造類似度指標(SSIM)、再構成誤差(RE)の3つの客観的指標を用いて行われる。

We address the problem of compressed sensing using a deep generative prior model and consider both linear and learned nonlinear sensing mechanisms, where the nonlinear one involves either a fully connected neural network or a convolutional neural network. Recently, it has been argued that the distribution of natural images do not lie in a single manifold but rather lie in a union of several submanifolds. We propose a sparsity-driven latent space sampling (SDLSS) framework and develop a proximal meta-learning (PML) algorithm to enforce sparsity in the latent space. SDLSS allows the range-space of the generator to be considered as a union-of-submanifold s. We also derive the sample complexity bounds within the SDLSS framework for the linear measurement model. The results demonstrate that for a higher degree of compression, the SDLSS method is more efficient than the state-of-the-art method. We first consider a comparison between linear and nonlinear sensing mechanisms on Fashion-MNIST dataset and show that the learned nonlinear version is superior to the linear one. Subsequent comparisons with the deep compressive sensing (DCS) framework proposed in the literature are reported. We also consider the effect of the dimension of the latent space and the sparsity factor in validating the SDLSS framework. Performance quantification is carried out by employing three objective metrics: peak signal-to-noise ratio (PSNR), structural similarity index metric (SSIM), and reconstruction error (RE).
翻訳日:2021-05-26 14:25:23 公開日:2021-05-25
# ドメイン網間の再同定であるRADONによるドメイン間のマッチング

Matching Targets Across Domains with RADON, the Re-Identification Across Domain Network ( http://arxiv.org/abs/2105.12056v1 )

ライセンス: Link先を確認
Cassandra Burgess, Cordelia Neisinger, Rafael Dinner(参考訳) 本稿では、異なる視点から撮影した物体の画像と異なる光学センサーでマッチングする新しい畳み込みニューラルネットワークを提案する。 我々のRe-Identification Across Domain Network (RADON)は、類似性に基づいて異なるドメインから入力画像のペアをスコアする。 当社のアプローチは、siameseネットワークに関するこれまでの作業を拡張し、訓練対象のイメージがほとんどない、低ショット学習や無ショット学習など、より困難なユースケースに修正する。 RADONは、ノンショット学習環境において、クロスビュー車両マッチングとクロスドメイン人物識別に強い性能を示す。

We present a novel convolutional neural network that learns to match images of an object taken from different viewpoints or by different optical sensors. Our Re-Identification Across Domain Network (RADON) scores pairs of input images from different domains on similarity. Our approach extends previous work on Siamese networks and modifies them to more challenging use cases, including low- and no-shot learning, in which few images of a specific target are available for training. RADON shows strong performance on cross-view vehicle matching and cross-domain person identification in a no-shot learning environment.
翻訳日:2021-05-26 14:24:49 公開日:2021-05-25
# グラフニューラルネットワークによるVC投資成功予測

Graph Neural Network Based VC Investment Success Prediction ( http://arxiv.org/abs/2105.11537v1 )

ライセンス: Link先を確認
Shiwei Lyu, Shuai Ling, Kaihao Guo, Haipeng Zhang, Kunpeng Zhang, Suting Hong, Qing Ke, Jinjie Gu(参考訳) 最終的に成功するスタートアップの予測は、ベンチャーキャピタリストビジネスや世界の政策立案者にとって、特に報酬が指数関数的になるような初期段階において、本質的に重要である。 様々な実証研究やデータ駆動モデリングの作業が行われているが、ベンチャーキャピタル投資家、スタートアップ、スタートアップのマネージングメンバーを含むステークホルダーの複雑なネットワークの予測能力は、徹底的に検討されていない。 我々は,ノードの豊富な属性とともにネットワーク構造を利用して,漸進的な表現学習機構と逐次学習モデルを設計する。 概して,グローバルベンチャー投資の包括的データセット上での最先端の予測性能を達成し,人的投資を大きなマージンで上回っている。 具体的には、ヘルスケアやITといった業界におけるスタートアップの成果を予測するのに優れています。 一方、私たちは、ジェンダー、教育、ネットワークといった観察可能な要素によるスタートアップの成功に対する影響を、高い成長可能性のベンチャーをスクリーニングする場合に、実践者だけでなく政策立案者にとっても価値のあるものにしている。

Predicting the start-ups that will eventually succeed is essentially important for the venture capital business and worldwide policy makers, especially at an early stage such that rewards can possibly be exponential. Though various empirical studies and data-driven modeling work have been done, the predictive power of the complex networks of stakeholders including venture capital investors, start-ups, and start-ups' managing members has not been thoroughly explored. We design an incremental representation learning mechanism and a sequential learning model, utilizing the network structure together with the rich attributes of the nodes. In general, our method achieves the state-of-the-art prediction performance on a comprehensive dataset of global venture capital investments and surpasses human investors by large margins. Specifically, it excels at predicting the outcomes for start-ups in industries such as healthcare and IT. Meanwhile, we shed light on impacts on start-up success from observable factors including gender, education, and networking, which can be of value for practitioners as well as policy makers when they screen ventures of high growth potentials.
翻訳日:2021-05-26 14:24:35 公開日:2021-05-25
# KnowSR:マルチエージェント強化学習における均質エージェント間の知識共有

KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2105.11611v1 )

ライセンス: Link先を確認
Zijian Gao, Kele Xu, Bo Ding, Huaimin Wang, Yiying Li, Hongda Jia(参考訳) 近年, 深部強化学習(RL)アルゴリズムはマルチエージェント領域において大きな進歩を遂げている。 しかし、RLの特性のため、複雑なタスクのトレーニングはリソース集約的で時間を要する。 この課題に対処するためには,従来の手法ではエージェントモデルの知識の利用を考慮していないため,従来研究では未検討であった同質エージェント間の相互学習戦略が不可欠である。 本稿では,エージェント間の学習の差異を利用したマルチエージェント強化学習 (marl) アルゴリズムの大部分の適応法を提案する。 我々は,知識蒸留(kd)という概念を用いてエージェント間の知識共有を行い,学習段階を短縮する。 KnowSRの堅牢性と有効性を実証的に示すために,我々は,協調的・競合的なシナリオにおける最先端のMARLアルゴリズムの広範な実験を行った。 その結果,KnowSRが最近報告した方法論よりも優れており,MARLにおける知識共有の重要性を強調している。

Recently, deep reinforcement learning (RL) algorithms have made great progress in multi-agent domain. However, due to characteristics of RL, training for complex tasks would be resource-intensive and time-consuming. To meet this challenge, mutual learning strategy between homogeneous agents is essential, which is under-explored in previous studies, because most existing methods do not consider to use the knowledge of agent models. In this paper, we present an adaptation method of the majority of multi-agent reinforcement learning (MARL) algorithms called KnowSR which takes advantage of the differences in learning between agents. We employ the idea of knowledge distillation (KD) to share knowledge among agents to shorten the training phase. To empirically demonstrate the robustness and effectiveness of KnowSR, we performed extensive experiments on state-of-the-art MARL algorithms in collaborative and competitive scenarios. The results demonstrate that KnowSR outperforms recently reported methodologies, emphasizing the importance of the proposed knowledge sharing for MARL.
翻訳日:2021-05-26 14:24:05 公開日:2021-05-25
# カート位置問題に対するQ-Learningにおけるリワード関数の比較

A Comparison of Reward Functions in Q-Learning Applied to a Cart Position Problem ( http://arxiv.org/abs/2105.11617v1 )

ライセンス: Link先を確認
Amartya Mukherjee(参考訳) 強化学習の進歩は制御理論の進歩につながった。 強化学習は逆振り子問題を効果的に解決し,最近では二重反転振り子問題も解決した。 強化学習において,エージェントは報酬を最大化する目的で制御システムと対話することで学習する。 本稿では,カート位置問題における3つの報酬関数について検討する。 本稿では,与えられた位置から所定の距離以内にいる場合にのみ,エージェントに非ゼロ報酬を与える不連続報酬関数が最良の結果をもたらすことを結論する。

Growing advancements in reinforcement learning has led to advancements in control theory. Reinforcement learning has effectively solved the inverted pendulum problem and more recently the double inverted pendulum problem. In reinforcement learning, our agents learn by interacting with the control system with the goal of maximizing rewards. In this paper, we explore three such reward functions in the cart position problem. This paper concludes that a discontinuous reward function that gives non-zero rewards to agents only if they are within a given distance from the desired position gives the best results.
翻訳日:2021-05-26 14:23:41 公開日:2021-05-25
# 科学データのためのオートエンコーダベースエラーバウンド圧縮の検討

Exploring Autoencoder-Based Error-Bounded Compression for Scientific Data ( http://arxiv.org/abs/2105.11730v1 )

ライセンス: Link先を確認
Jinyang Liu, Sheng Di, Kai Zhao, Sian Jin, Dingwen Tao, Xin Liang, Zizhong Chen, Franck Cappello(参考訳) エラーバウンドのロッキー圧縮は、シミュレーションや機器データ取得で大量のデータを生成する今日の科学プロジェクトの成功に欠かせない技術になりつつある。 データサイズを大幅に削減できるだけでなく、ユーザ指定のエラー境界に基づいて圧縮エラーを制御することもできる。 オートエンコーダ (AE) モデルは画像圧縮に広く用いられているが、AEベースの圧縮アプローチはほとんどエラーバウンド機能をサポートしていない。 この問題に対処するために,convolutional autoencoderを使用して,科学的データに対するエラーバウンド損失圧縮を改善する。 1) 様々なオートエンコーダモデルの特徴を詳細に検討し, szモデルを用いて誤差境界付きオートエンコーダベースのフレームワークを開発した。 2) 設計したAEベースエラーバウンド圧縮フレームワークの主段圧縮品質を最適化し, ブロックサイズと潜時サイズを微調整し, 潜時ベクトルの圧縮効率を最適化する。 3) 5つの実世界科学データセットを用いて提案手法を評価し,他の6つの関連作品と比較した。 実験により, 実験中の圧縮機のうち, 圧縮性能が非常に高いことがわかった。 絶対的な言い方をすれば、圧縮比が高い場合、SZ2.1やZFPと比較して、圧縮品質(圧縮比が100%から800%向上している)がはるかに良い。

Error-bounded lossy compression is becoming an indispensable technique for the success of today's scientific projects with vast volumes of data produced during the simulations or instrument data acquisitions. Not only can it significantly reduce data size, but it also can control the compression errors based on user-specified error bounds. Autoencoder (AE) models have been widely used in image compression, but few AE-based compression approaches support error-bounding features, which are highly required by scientific applications. To address this issue, we explore using convolutional autoencoders to improve error-bounded lossy compression for scientific data, with the following three key contributions. (1) We provide an in-depth investigation of the characteristics of various autoencoder models and develop an error-bounded autoencoder-based framework in terms of the SZ model. (2) We optimize the compression quality for main stages in our designed AE-based error-bounded compression framework, fine-tuning the block sizes and latent sizes and also optimizing the compression efficiency of latent vectors. (3) We evaluate our proposed solution using five real-world scientific datasets and comparing them with six other related works. Experiments show that our solution exhibits a very competitive compression quality from among all the compressors in our tests. In absolute terms, it can obtain a much better compression quality (100% ~ 800% improvement in compression ratio with the same data distortion) compared with SZ2.1 and ZFP in cases with a high compression ratio.
翻訳日:2021-05-26 14:23:29 公開日:2021-05-25
# GraphFM:特徴相互作用モデリングのためのグラフファクトリゼーションマシン

GraphFM: Graph Factorization Machines for Feature Interaction Modeling ( http://arxiv.org/abs/2105.11866v1 )

ライセンス: Link先を確認
Zekun Li, Shu Wu, Zeyu Cui, Xiaoyu Zhang(参考訳) ファクトリゼーションマシン(FM)は、高次元スパースデータを扱う際に、ペアワイズ(第2次)特徴相互作用をモデル化するための一般的な手法である。 しかし、FMは組合せ展開に苦しむ高次特徴相互作用を捉えることができず、一方、各特徴間の相互作用を考慮に入れればノイズが発生し、予測精度が低下する可能性がある。 そこで本研究では,グラフ構造の特徴を自然に表現し,新しいアプローチグラフ因子化機械(graphfm)を提案する。 特に、新しいメカニズムは、有益な特徴相互作用を選択し、特徴間のエッジとして定式化するように設計されている。 次に,グラフニューラルネットワーク(GNN)の機能集約戦略にFMの相互作用関数を統合するモデルを提案する。 いくつかの実世界のデータセットに対する実験結果から,提案手法の合理性と有効性を示した。

Factorization machine (FM) is a prevalent approach to modeling pairwise (second-order) feature interactions when dealing with high-dimensional sparse data. However, on the one hand, FM fails to capture higher-order feature interactions suffering from combinatorial expansion, on the other hand, taking into account interaction between every pair of features may introduce noise and degrade prediction accuracy. To solve the problems, we propose a novel approach Graph Factorization Machine (GraphFM) by naturally representing features in the graph structure. In particular, a novel mechanism is designed to select the beneficial feature interactions and formulate them as edges between features. Then our proposed model which integrates the interaction function of FM into the feature aggregation strategy of Graph Neural Network (GNN), can model arbitrary-order feature interactions on the graph-structured features by stacking layers. Experimental results on several real-world datasets has demonstrated the rationality and effectiveness of our proposed approach.
翻訳日:2021-05-26 14:22:55 公開日:2021-05-25
# グラフに基づくヒトフェノタイプと遺伝子間のリンク予測

Graph Based Link Prediction between Human Phenotypes and Genes ( http://arxiv.org/abs/2105.11989v1 )

ライセンス: Link先を確認
Rushabh Patel, Yanhui Guo(参考訳) 背景 ヒト疾患の遺伝子型・表現型関連および病歴の詳細な解析による学習は, 深部表現型と定義できる。 この表現型と遺伝子型との相互作用を理解することは、精密医療を臨床に翻訳する際の基本的なステップである。 機械学習の分野での最近の進歩は、異常なヒトの表現型と遺伝子間の相互作用を予測するのに効果的である。 本研究では,ヒト表現型オントロジー(hpo)と遺伝子との関係を予測する枠組みを開発した。 異種知識資源、すなわちオルファントからのアノテーションデータは、ヒトの表現型-遺伝子関連を解析するために用いられる。 ノード(HPOと遺伝子)の埋め込みを生成するために node2vec と呼ばれるアルゴリズムが使われた。 ランダムウォークに基づいてこのグラフでノードサンプリングを実行し、これらのサンプルノード上の特徴を学習して埋め込みを生成する。 これらの埋め込みは、5つの異なる教師付き機械学習アルゴリズムを使用して、これらのノード間のリンクの存在を予測するために下流タスクを実行するために使用された。 結果: 下流リンク予測タスクでは, 勾配ブースティング決定木ベースモデル (lightgbm) が最適auroc 0.904 と aucpr 0.784 を達成した。 さらに、lightgbmは最適重み付きf1スコア 0.87 を達成した。 他の4つの方法と比較して、LightGBMはヒトの表現型と遺伝子ペア間のより正確な相互作用やリンクを見つけることができる。

Background The learning of genotype-phenotype associations and history of human disease by doing detailed and precise analysis of phenotypic abnormalities can be defined as deep phenotyping. To understand and detect this interaction between phenotype and genotype is a fundamental step when translating precision medicine to clinical practice. The recent advances in the field of machine learning is efficient to predict these interactions between abnormal human phenotypes and genes. Methods In this study, we developed a framework to predict links between human phenotype ontology (HPO) and genes. The annotation data from the heterogeneous knowledge resources i.e., orphanet, is used to parse human phenotype-gene associations. To generate the embeddings for the nodes (HPO & genes), an algorithm called node2vec was used. It performs node sampling on this graph based on random walks, then learns features over these sampled nodes to generate embeddings. These embeddings were used to perform the downstream task to predict the presence of the link between these nodes using 5 different supervised machine learning algorithms. Results: The downstream link prediction task shows that the Gradient Boosting Decision Tree based model (LightGBM) achieved an optimal AUROC 0.904 and AUCPR 0.784. In addition, LightGBM achieved an optimal weighted F1 score of 0.87. Compared to the other 4 methods LightGBM is able to find more accurate interaction/link between human phenotype & gene pairs.
翻訳日:2021-05-26 14:22:29 公開日:2021-05-25
# LMMSE推定におけるモデルミスマッチトレードオフ

Model Mismatch Trade-offs in LMMSE Estimation ( http://arxiv.org/abs/2105.11964v1 )

ライセンス: Link先を確認
Martin Hellkvist, Ay\c{c}a \"Oz\c{c}elikkale(参考訳) モデルミスマッチを用いた線形最小平均二乗誤差(LMMSE)推定フレームワークについて検討する。 システムの回帰器をランダム変数としてモデル化することにより,平均二乗誤差(MSE)の平均挙動を解析する。 本研究の結果は,MSEが標本数と基礎システムにおけるパラメータ数と推定モデルとの相互作用にどのように依存するかを定量化する。 特に、サンプル数が十分に大きくない場合、サンプル数の増加も、仮定されたモデルの複雑さも、パフォーマンス改善を保証するには十分ではない。

We consider a linear minimum mean squared error (LMMSE) estimation framework with model mismatch where the assumed model order is smaller than that of the underlying linear system which generates the data used in the estimation process. By modelling the regressors of the underlying system as random variables, we analyze the average behaviour of the mean squared error (MSE). Our results quantify how the MSE depends on the interplay between the number of samples and the number of parameters in the underlying system and in the assumed model. In particular, if the number of samples is not sufficiently large, neither increasing the number of samples nor the assumed model complexity is sufficient to guarantee a performance improvement.
翻訳日:2021-05-26 14:21:10 公開日:2021-05-25
# 逆問題に対するモデル制約付きディープラーニングアプローチ

Model-Constrained Deep Learning Approaches for Inverse Problems ( http://arxiv.org/abs/2105.12033v1 )

ライセンス: Link先を確認
Hai V. Nguyen, Tan Bui-Thanh(参考訳) ディープラーニング(DL)、特にディープニューラルネットワーク(DNN)の設計は純粋にデータ駆動であり、一般に物理学を必要としない。 これはDLの強度であるが、基礎となる物理的特性(安定性、保存性、肯定性など)と望ましい精度を達成する必要がある科学や工学の問題に適用する際の重要な制限の1つでもある。 元の形式でのDL法は、基礎となる数学的モデルを尊重したり、ビッグデータのレシエーションにおいても望ましい精度を達成できない。 一方、逆問題のような多くのデータ駆動科学や工学問題は、通常、実験データや観測データに制限があり、dlはこの場合データに過剰に適合する。 基礎となる数学的モデルに符号化された情報を活用することで、低データ構造における欠落した情報を補償するだけでなく、基礎となる物理にDLメソッドを組み込む機会を与え、より高い精度を得ることができる。 この短い通信では、訓練データに隠された情報だけでなく、逆問題を解決するための基礎となる数学的モデルでも学習できるモデル制約付きDLアプローチ(フィードフォワードDNNとオートエンコーダの両方を含む)がいくつか導入されている。 我々は,一般非線形問題に対する定式化に対して直観的である。 線形逆問題や線形ネットワークの場合、第一次最適条件は、我々のモデル制約DLアプローチが基礎となる数学的モデルに符号化された情報を学習できることを示し、従って、純粋にデータに基づく逆解を生成することは不可能である。

Deep Learning (DL), in particular deep neural networks (DNN), by design is purely data-driven and in general does not require physics. This is the strength of DL but also one of its key limitations when applied to science and engineering problems in which underlying physical properties (such as stability, conservation, and positivity) and desired accuracy need to be achieved. DL methods in their original forms are not capable of respecting the underlying mathematical models or achieving desired accuracy even in big-data regimes. On the other hand, many data-driven science and engineering problems, such as inverse problems, typically have limited experimental or observational data, and DL would overfit the data in this case. Leveraging information encoded in the underlying mathematical models, we argue, not only compensates missing information in low data regimes but also provides opportunities to equip DL methods with the underlying physics and hence obtaining higher accuracy. This short communication introduces several model-constrained DL approaches (including both feed-forward DNN and autoencoders) that are capable of learning not only information hidden in the training data but also in the underlying mathematical models to solve inverse problems. We present and provide intuitions for our formulations for general nonlinear problems. For linear inverse problems and linear networks, the first order optimality conditions show that our model-constrained DL approaches can learn information encoded in the underlying mathematical models, and thus can produce consistent or equivalent inverse solutions, while naive purely data-based counterparts cannot.
翻訳日:2021-05-26 14:20:53 公開日:2021-05-25
# 凸有限和の近定常点を求めるための実践的スキーム

Practical Schemes for Finding Near-Stationary Points of Convex Finite-Sums ( http://arxiv.org/abs/2105.12062v1 )

ライセンス: Link先を確認
Kaiwen Zhou, Lai Tian, Anthony Man-Cho So, James Cheng(参考訳) 凸最適化における定常点を見つける問題は、関数値の最小化のような他の最適尺度とは異なり、まだ十分に研究されていない。 決定論の場合においても、Kim と Fessler (2021) による最適手法 (OGM-G) が最近発見された。 本研究では,凸有限和の近定常点探索におけるアルゴリズム手法の体系的研究を行う。 Our main contributions are several algorithmic discoveries: (1) we discover a memory-saving variant of OGM-G based on the performance estimation problem approach (Drori and Teboulle, 2014); (2) we design a new accelerated SVRG variant that can simultaneously achieve fast rates for both minimizing gradient norm and function value; (3) we propose an adaptively regularized accelerated SVRG variant, which does not require the knowledge of some unknown initial constants and achieves near-optimal complexities. 我々は,今後の発展を促進する新しいスキームのシンプルさと実用性を強調した。

The problem of finding near-stationary points in convex optimization has not been adequately studied yet, unlike other optimality measures such as minimizing function value. Even in the deterministic case, the optimal method (OGM-G, due to Kim and Fessler (2021)) has just been discovered recently. In this work, we conduct a systematic study of the algorithmic techniques in finding near-stationary points of convex finite-sums. Our main contributions are several algorithmic discoveries: (1) we discover a memory-saving variant of OGM-G based on the performance estimation problem approach (Drori and Teboulle, 2014); (2) we design a new accelerated SVRG variant that can simultaneously achieve fast rates for both minimizing gradient norm and function value; (3) we propose an adaptively regularized accelerated SVRG variant, which does not require the knowledge of some unknown initial constants and achieves near-optimal complexities. We put an emphasis on the simplicity and practicality of the new schemes, which could facilitate future developments.
翻訳日:2021-05-26 14:20:06 公開日:2021-05-25
# LIBSアミノ酸スペクトルの非線形解析のためのマニフォールド近傍サイズの検討

Investigating Manifold Neighborhood size for Nonlinear Analysis of LIBS Amino Acid Spectra ( http://arxiv.org/abs/2105.12089v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Gary Holness, and Poopalasingam Sivakumar, Yuri Markushin, Noureddine Melikechi(参考訳) 生体高分子の研究において水溶液中のアミノ酸の分類と同定が重要である。 レーザー誘起破壊分光法(LIBS)は、放射スペクトルを捕捉して記録した化合物のアブレーションに高エネルギーレーザーパルスを用いる。 LIBSのスペクトルピークとノイズは実験的プロトコルによって影響を受ける。 LIBSスペクトル解析の現在の手法は線形手法であるPCAを用いて有望な結果が得られる。 LIBSの背後にある物理過程が非常に非線形であることはよく知られている。 本研究は, LIBSスペクトルがパターン現象を考慮すべき近傍サイズに与える影響, 非線形手法が有効性を高めたパターン現象を捉える場合, 化合物の分類と識別を改善する方法について考察した。 4種類のアミノ酸,多糖類,制御基水を分析した。 我々は,LIBSエネルギースペクトル測定のための情報理論手法を開発し,非線形次元減少のための多様体法を実装した。 さらに,LIBSスペクトルにおけるマイクロウェル(実験プロトコル)の寄与も明らかにした。 我々の知識を最大限に活用するために、本研究論文におけるマニフォールド法の最初のLIBSアミノ酸分析への応用について述べる。

Classification and identification of amino acids in aqueous solutions is important in the study of biomacromolecules. Laser Induced Breakdown Spectroscopy (LIBS) uses high energy laser-pulses for ablation of chemical compounds whose radiated spectra are captured and recorded to reveal molecular structure. Spectral peaks and noise from LIBS are impacted by experimental protocols. Current methods for LIBS spectral analysis achieves promising results using PCA, a linear method. It is well-known that the underlying physical processes behind LIBS are highly nonlinear. Our work set out to understand the impact of LIBS spectra on suitable neighborhood size over which to consider pattern phenomena, if nonlinear methods capture pattern phenomena with increased efficacy, and how they improve classification and identification of compounds. We analyzed four amino acids, polysaccharide, and a control group, water. We developed an information theoretic method for measurement of LIBS energy spectra, implemented manifold methods for nonlinear dimensionality reduction, and found while clustering results were not statistically significantly different, nonlinear methods lead to increased classification accuracy. Moreover, our approach uncovered the contribution of micro-wells (experimental protocol) in LIBS spectra. To the best of our knowledge, ours is the first application of Manifold methods to LIBS amino-acid analysis in the research literature.
翻訳日:2021-05-26 14:19:38 公開日:2021-05-25
# 超スパース3次元トモグラフィ画像再構成のための幾何学インフォームド深層学習フレームワーク

A Geometry-Informed Deep Learning Framework for Ultra-Sparse 3D Tomographic Image Reconstruction ( http://arxiv.org/abs/2105.11692v1 )

ライセンス: Link先を確認
Liyue Shen, Wei Zhao, Dante Capaldi, John Pauly, Lei Xing(参考訳) 深層学習は、バイオメディカルイメージングの薬局を増強する膨大な機会を与えるが、その設計と実装には潜在的な欠陥がある。 基本的に、ほとんどのディープラーニングモデルは、事前の知識を考慮せずにデータによって完全に駆動されるため、ニューラルネットワークの複雑性が劇的に増大し、アプリケーションスコープとモデルの一般化性が制限される。 そこで我々は,超疎3次元断層画像再構成のための幾何学インフォームドディープラーニングフレームワークを構築した。 画像システムの幾何的先行を統合化するための新しいメカニズムを提案する。 超スパースサンプリングによる3次元容積CT画像撮影の性能向上には,既知前処理のシームレスな包摂が不可欠であることを示す。 この研究は、データ駆動型バイオメディカルイメージングの新しい道を開き、様々な臨床画像および画像誘導介入に対して、大幅に改善されたイメージングツールを提供することを約束している。

Deep learning affords enormous opportunities to augment the armamentarium of biomedical imaging, albeit its design and implementation have potential flaws. Fundamentally, most deep learning models are driven entirely by data without consideration of any prior knowledge, which dramatically increases the complexity of neural networks and limits the application scope and model generalizability. Here we establish a geometry-informed deep learning framework for ultra-sparse 3D tomographic image reconstruction. We introduce a novel mechanism for integrating geometric priors of the imaging system. We demonstrate that the seamless inclusion of known priors is essential to enhance the performance of 3D volumetric computed tomography imaging with ultra-sparse sampling. The study opens new avenues for data-driven biomedical imaging and promises to provide substantially improved imaging tools for various clinical imaging and image-guided interventions.
翻訳日:2021-05-26 14:18:53 公開日:2021-05-25
# corsai:深層学習を用いたcovid-19患者のctスキャンのロバストな解釈システム

CoRSAI: A System for Robust Interpretation of CT Scans of COVID-19 Patients Using Deep Learning ( http://arxiv.org/abs/2105.11863v1 )

ライセンス: Link先を確認
Manvel Avetisian, Ilya Burenko, Konstantin Egorov, Vladimir Kokh, Aleksandr Nesterov, Aleksandr Nikolaev, Alexander Ponomarchuk, Elena Sokolova, Alex Tuzhilin, Dmitry Umerenkov(参考訳) 胸部CT検査は、新型コロナウイルスなどの感染症に罹患する肺の一部を検出するのに有用であり、疾患による肺の量の決定は、治療勧告を定式化し、患者の重症度によって患者を優先させるのに不可欠である。 本稿では,肺CTスキャンのスライス分割のための深部畳み込みニューラルネットワークのアンサンブルを用いたアプローチを採用した。 モデルを用いて,病変を分割し,患者の動態を評価し,病変の影響を受ける肺の相対容積を推定し,肺損傷段階を評価できる。 私たちのモデルは、異なる医療センターのデータに基づいて訓練されています。 我々は,6人の経験的放射線科医のモデルと比較し,大半をセグメンテーションモデルが上回った。 疾患の重症度を分類するタスクにおいて、wemodelはすべての放射線科医を上回っていた。

Analysis of chest CT scans can be used in detecting parts of lungs that are affected by infectious diseases such as COVID-19.Determining the volume of lungs affected by lesions is essential for formulating treatment recommendations and prioritizingpatients by severity of the disease. In this paper we adopted an approach based on using an ensemble of deep convolutionalneural networks for segmentation of slices of lung CT scans. Using our models we are able to segment the lesions, evaluatepatients dynamics, estimate relative volume of lungs affected by lesions and evaluate the lung damage stage. Our modelswere trained on data from different medical centers. We compared predictions of our models with those of six experiencedradiologi sts and our segmentation model outperformed most of them. On the task of classification of disease severity, ourmodel outperformed all the radiologists.
翻訳日:2021-05-26 14:18:33 公開日:2021-05-25
# 畳み込みニューラルネットワークを用いた馬の感情認識

Emotion Recognition in Horses with Convolutional Neural Networks ( http://arxiv.org/abs/2105.11953v1 )

ライセンス: Link先を確認
Luis A. Corujo, Peter A. Gloor, Emily Kieson(参考訳) 感情を認識できるインテリジェントなシステムを作ることは、特に動物の感情を見る場合、難しい作業である。 本稿では,馬の感情を認識する「概念の証明」システムを設計する過程について述べる。 このシステムは検出器とモデルという2つの要素によって構成される。 この検出器はより高速な領域ベースの畳み込みニューラルネットワークで、画像中の馬を検出する。 第2のモデルである畳み込みニューラルネットワークは,それらの馬の感情を予測するものだ。 これら2つのモデルは、高い精度を達成するまで複数の馬のイメージで訓練され、望ましいシステムを生み出した。 400頭の馬の画像が検出器とモデルの両方の訓練に使われ、80頭の馬がシステムの検証に使用された。 2つのコンポーネントが検証されると、それらは、頭、首、耳、銃口、目の位置による感情的な影響を示す、確立された行動エトグラムに基づいて、同等の感情を検出するテスト可能なシステムに結合された。 このシステムは検証セット上で69%から74%の精度を示し、自律知能システムを用いて動物の感情を予測することができることを示した。 これは、様々な方法で拡張できる最初の"概念の証明"アプローチである。 このようなシステムは、動物の感情の成長分野や獣医学分野におけるさらなる研究を含む複数の応用があり、馬や他の家畜の身体的福祉を決定する。

Creating intelligent systems capable of recognizing emotions is a difficult task, especially when looking at emotions in animals. This paper describes the process of designing a "proof of concept" system to recognize emotions in horses. This system is formed by two elements, a detector and a model. The detector is a faster region-based convolutional neural network that detects horses in an image. The second one, the model, is a convolutional neural network that predicts the emotion of those horses. These two models were trained with multiple images of horses until they achieved high accuracy in their tasks, creating therefore the desired system. 400 images of horses were used to train both the detector and the model while 80 were used to validate the system. Once the two components were validated they were combined into a testable system that would detect equine emotions based on established behavioral ethograms indicating emotional affect through head, neck, ear, muzzle, and eye position. The system showed an accuracy of between 69% and 74% on the validation set, demonstrating that it is possible to predict emotions in animals using autonomous intelligent systems. It is a first "proof of concept" approach that can be enhanced in many ways. Such a system has multiple applications including further studies in the growing field of animal emotions as well as in the veterinary field to determine the physical welfare of horses or other livestock.
翻訳日:2021-05-26 14:18:08 公開日:2021-05-25
# 物理応用のためのベイズ畳み込みニューラルネットワークの校正と不確かさの定量化

Calibration and Uncertainty Quantification of Bayesian Convolutional Neural Networks for Geophysical Applications ( http://arxiv.org/abs/2105.12115v1 )

ライセンス: Link先を確認
Lukas Mosser, Ehsan Zabihi Naeini(参考訳) 例えば、深層ニューラルネットワークは、地震データセットの断層を予測する最先端の手法であると主張することができる。 量的貯留層キャラクタリゼーションワークフローでは、予測の不確かさを取り入れることで、そのような地下モデルが校正された確率と関連する不確実性をもたらすことが一般的である。 一般的なディープラーニングベースのモデルは、しばしば誤解され、決定論的性質のため、その予測の不確かさを解釈する手段がないことが示されている。 ベイズ形式主義における畳み込みニューラルネットワークに基づく確率モデル(Deep Ensembles, concrete Dropout, Stochastic Weight Averaging-Gaussian (SWAG)) の3つのアプローチを比較した。 これらの手法は, 深いアンサンブルが独立に訓練されたモデルを用いて故障確率を提供する場合, コンクリートのドロップアウトはベイズ型ニューラルネットワークへの人気のあるドロップアウト手法の拡張であり, 最終的に, ミニバッチ確率勾配降下のベイズ推定等価性に基づく最近の手法であるswagを適用する。 モデルキャリブレーションと不確実性表現の観点で定量的な結果と,合成および実地震データセットの質的結果を提供する。 この結果から, 基礎となるDeep Ensemble手法と比較して, ベイズ近似法, コンクリート落下法, SWAG は, ともに計算コストが低く, 精度のよい予測および不確かさ特性を提供することがわかった。 結果として生じる不確実性は、モデルの性能をさらに改善し、モデルの解釈可能性を高める可能性も提供する。

Deep neural networks offer numerous potential applications across geoscience, for example, one could argue that they are the state-of-the-art method for predicting faults in seismic datasets. In quantitative reservoir characterization workflows, it is common to incorporate the uncertainty of predictions thus such subsurface models should provide calibrated probabilities and the associated uncertainties in their predictions. It has been shown that popular Deep Learning-based models are often miscalibrated, and due to their deterministic nature, provide no means to interpret the uncertainty of their predictions. We compare three different approaches to obtaining probabilistic models based on convolutional neural networks in a Bayesian formalism, namely Deep Ensembles, Concrete Dropout, and Stochastic Weight Averaging-Gaussian (SWAG). These methods are consistently applied to fault detection case studies where Deep Ensembles use independently trained models to provide fault probabilities, Concrete Dropout represents an extension to the popular Dropout technique to approximate Bayesian neural networks, and finally, we apply SWAG, a recent method that is based on the Bayesian inference equivalence of mini-batch Stochastic Gradient Descent. We provide quantitative results in terms of model calibration and uncertainty representation, as well as qualitative results on synthetic and real seismic datasets. Our results show that the approximate Bayesian methods, Concrete Dropout and SWAG, both provide well-calibrated predictions and uncertainty attributes at a lower computational cost when compared to the baseline Deep Ensemble approach. The resulting uncertainties also offer a possibility to further improve the model performance as well as enhancing the interpretability of the models.
翻訳日:2021-05-26 14:17:30 公開日:2021-05-25
# TR-BERT: BERT推論高速化のための動的トークン削減

TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference ( http://arxiv.org/abs/2105.11618v1 )

ライセンス: Link先を確認
Deming Ye, Yankai Lin, Yufei Huang, Maosong Sun(参考訳) 既存の訓練済み言語モデル(PLM)は推論において計算コストがかかり、様々なリソース制限された現実世界のアプリケーションでは実用的ではない。 この問題に対処するため,我々は,冗長な計算を避けるために,各トークンの層数を柔軟に適応できるtr-bertと呼ばれるplmsの推論を高速化する動的トークン削減手法を提案する。 特に、TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。 下流NLPタスクの実験結果から,TR-BERTはBERTを2~5倍高速化し,様々な性能要求を満たすことができた。 さらに、TR-BERTはトークンレベルの層数適応によってPLMの自己注意操作が大幅に高速化されるため、長いテキストタスクの組において、より少ない計算でより良いパフォーマンスを実現することができる。 本論文のソースコードと実験の詳細はhttps://github.com/t hunlp/TR-BERT.comから入手できる。

Existing pre-trained language models (PLMs) are often computationally expensive in inference, making them impractical in various resource-limited real-world applications. To address this issue, we propose a dynamic token reduction approach to accelerate PLMs' inference, named TR-BERT, which could flexibly adapt the layer number of each token in inference to avoid redundant calculation. Specially, TR-BERT formulates the token reduction process as a multi-step token selection problem and automatically learns the selection strategy via reinforcement learning. The experimental results on several downstream NLP tasks show that TR-BERT is able to speed up BERT by 2-5 times to satisfy various performance demands. Moreover, TR-BERT can also achieve better performance with less computation in a suite of long-text tasks since its token-level layer number adaption greatly accelerates the self-attention operation in PLMs. The source code and experiment details of this paper can be obtained from https://github.com/t hunlp/TR-BERT.
翻訳日:2021-05-26 14:16:40 公開日:2021-05-25
# 複雑な知識ベース質問応答に関する調査:方法,課題,解決策

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions ( http://arxiv.org/abs/2105.11644v1 )

ライセンス: Link先を確認
Yunshi Lan, Gaole He, Jinhao Jiang, Jing Jiang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。 近年,多くの研究が意味的あるいは構文的に複雑な質問に焦点をあてている。 本稿では、複雑なKBQAの典型的な課題と解決策を詳細に要約する。 KBQAタスクの背景を紹介することから始めます。 次に,複雑なKBQAの手法,すなわち意味解析法(SPベース)と情報検索法(IRベース)の2つの主流カテゴリを示す。 次に,2つのカテゴリの観点から,先進的な手法を総合的に検討する。 具体的には、彼らのソリューションを典型的な課題に説明します。 最後に,今後の研究の今後の方向性について述べる。

Knowledge base question answering (KBQA) aims to answer a question over a knowledge base (KB). Recently, a large number of studies focus on semantically or syntactically complicated questions. In this paper, we elaborately summarize the typical challenges and solutions for complex KBQA. We begin with introducing the background about the KBQA task. Next, we present the two mainstream categories of methods for complex KBQA, namely semantic parsing-based (SP-based) methods and information retrieval-based (IR-based) methods. We then review the advanced methods comprehensively from the perspective of the two categories. Specifically, we explicate their solutions to the typical challenges. Finally, we conclude and discuss some promising directions for future research.
翻訳日:2021-05-26 14:16:12 公開日:2021-05-25
# 経験的誤りモデリングはノイズニューラル列ラベルのロバスト性を改善する

Empirical Error Modeling Improves Robustness of Noisy Neural Sequence Labeling ( http://arxiv.org/abs/2105.11872v1 )

ライセンス: Link先を確認
Marcin Namysl, Sven Behnke, Joachim K\"ohler(参考訳) 近年の進歩にもかかわらず、標準シーケンスラベリングシステムは、ノイズの多いユーザ生成テキストを処理する場合や、光学文字認識(OCR)プロセスの出力を消費する場合にしばしば失敗する。 本稿では,誤りのないテキストから誤文への変換を行うために訓練されたシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。 OCRエンジンを用いて、トレーニング用の大規模並列テキストコーパスを生成し、評価のための実世界のノイズシークエンスラベリングベンチマークを作成した。 さらに,不完全なテキスト入力の場合,さらに悪化するデータ疎結合の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。 提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。 堅牢性に関する今後の研究を促進するために、コード、組み込み、データ変換スクリプトを公開しています。

Despite recent advances, standard sequence labeling systems often fail when processing noisy user-generated text or consuming the output of an Optical Character Recognition (OCR) process. In this paper, we improve the noise-aware training method by proposing an empirical error generation approach that employs a sequence-to-sequence model trained to perform translation from error-free to erroneous text. Using an OCR engine, we generated a large parallel text corpus for training and produced several real-world noisy sequence labeling benchmarks for evaluation. Moreover, to overcome the data sparsity problem that exacerbates in the case of imperfect textual input, we learned noisy language model-based embeddings. Our approach outperformed the baseline noise generation and error correction techniques on the erroneous sequence labeling data sets. To facilitate future research on robustness, we make our code, embeddings, and data conversion scripts publicly available.
翻訳日:2021-05-26 14:15:58 公開日:2021-05-25
# 注意:要約における信仰と多様性の促進

Focus Attention: Promoting Faithfulness and Diversity in Summarization ( http://arxiv.org/abs/2105.11921v1 )

ライセンス: Link先を確認
Rahul Aralikatte, Shashi Narayan, Joshua Maynez, Sascha Rothe, Ryan McDonald(参考訳) 専門的な要約は、文書のテーマなどの文書レベルの情報を念頭に置いて書かれる。 これは、多くのseq2seqデコーダと対照的で、各デコードステップで何を生成するかを決めながら、突出したコンテンツに同時に集中することを学ぶ。 このギャップを狭める動機から,デコーダが入力文書に類似したトークンを積極的に生成するように促す,シンプルかつ効果的な手法であるFocus Attention Mechanismを導入する。 さらに,現在要約に係わる領域である多種多様な要約を生成するためのフォーカスサンプリング手法を提案する。 bbcのextreme summarizationタスクで評価すると、フォーカスアテンションで強化された2つの最先端モデルが、ターゲットに近く、入力ドキュメントに忠実なサマリーを生成し、ルージュや複数の忠実度尺度でバニラのサマリーを上回った。 また,top-$k$やnucleus sample-basedデコード法よりも,フォーカスサンプリングが多様で忠実な要約を生成するのに有効であることを実証的に示す。

Professional summaries are written with document-level information, such as the theme of the document, in mind. This is in contrast with most seq2seq decoders which simultaneously learn to focus on salient content, while deciding what to generate, at each decoding step. With the motivation to narrow this gap, we introduce Focus Attention Mechanism, a simple yet effective method to encourage decoders to proactively generate tokens that are similar or topical to the input document. Further, we propose a Focus Sampling method to enable generation of diverse summaries, an area currently understudied in summarization. When evaluated on the BBC extreme summarization task, two state-of-the-art models augmented with Focus Attention generate summaries that are closer to the target and more faithful to their input documents, outperforming their vanilla counterparts on \rouge and multiple faithfulness measures. We also empirically demonstrate that Focus Sampling is more effective in generating diverse and faithful summaries than top-$k$ or nucleus sampling-based decoding methods.
翻訳日:2021-05-26 14:15:32 公開日:2021-05-25
# 一般可能性空間におけるギャンブルのコヒーレント集合の情報代数

Information algebras of coherent sets of gambles in general possibility spaces ( http://arxiv.org/abs/2105.12037v1 )

ライセンス: Link先を確認
Juerg Kohlas, Arianna Casanova, Marco Zaffalon(参考訳) 本稿では,情報代数学の代数構造にギャンブルのコヒーレントな集合を組み込むことができることを示す。 これは第一に、望ましくないという代数的および論理的構造に対する新たな見方につながり、第二に、望ましくない、従って不正確な確率を、同じ基盤構造を共有するコンピュータ科学における他の形式主義に結びつける。 一般可能性空間を考慮して、ギャンブルのコヒーレント集合の情報代数のドメインフリーとラベル付きビューの両方を提示する。

In this paper, we show that coherent sets of gambles can be embedded into the algebraic structure of information algebra. This leads firstly, to a new perspective of the algebraic and logical structure of desirability and secondly, it connects desirability, hence imprecise probabilities, to other formalism in computer science sharing the same underlying structure. Both the domain-free and the labeled view of the information algebra of coherent sets of gambles are presented, considering general possibility spaces.
翻訳日:2021-05-26 14:14:17 公開日:2021-05-25
# SiamMOT: Siamese Multi-Object Tracking

SiamMOT: Siamese Multi-Object Tracking ( http://arxiv.org/abs/2105.11595v1 )

ライセンス: Link先を確認
Bing Shuai, Andrew Berneshawi, Xinyu Li, Davide Modolo, Joseph Tighe(参考訳) 本稿では,オンラインマルチオブジェクトトラッキング(MOT)の改善に焦点を当てる。 特に,地域をベースとしたSiamMOTと呼ばれるSiamese Multi-Object Trackingネットワークを導入する。 SiamMOTには、検出されたインスタンスが関連付けられている2つのフレーム間のインスタンスの動きを推定するモーションモデルが含まれている。 動作モデルがトラッキング能力にどのように影響するかを調べるため,動作を暗黙的にモデル化するSiamese Trackerと,それを明示的にモデル化するSiamese Trackerの2つの変種を提示する。 我々は,MOT17,TAO-person,Ca ltech Roadside Pedestriansの3種類のMOTデータセットに対して,MOTにおけるモーションモデリングの重要性と,SiamMOTが最先端技術を上回る能力を示す大規模な定量的実験を行った。 最後に、SiamMOTはHiEveデータセットにおけるACM MM'20 HiEve Grand Challengeの勝者よりも優れています。 さらに、SiamMOTは効率が良く、単一のモダンGPU上で720Pビデオの17FPSで動作する。 コードは \url{https://github.com/a mazon-research/siam- mot} で入手できる。

In this paper, we focus on improving online multi-object tracking (MOT). In particular, we introduce a region-based Siamese Multi-Object Tracking network, which we name SiamMOT. SiamMOT includes a motion model that estimates the instance's movement between two frames such that detected instances are associated. To explore how the motion modelling affects its tracking capability, we present two variants of Siamese tracker, one that implicitly models motion and one that models it explicitly. We carry out extensive quantitative experiments on three different MOT datasets: MOT17, TAO-person and Caltech Roadside Pedestrians, showing the importance of motion modelling for MOT and the ability of SiamMOT to substantially outperform the state-of-the-art. Finally, SiamMOT also outperforms the winners of ACM MM'20 HiEve Grand Challenge on HiEve dataset. Moreover, SiamMOT is efficient, and it runs at 17 FPS for 720P videos on a single modern GPU. Codes are available in \url{https://github.com/a mazon-research/siam- mot}.
翻訳日:2021-05-26 14:11:40 公開日:2021-05-25
# TransLoc3D : 適応受容場を用いた点雲に基づく大規模位置認識

TransLoc3D : Point Cloud based Large-scale Place Recognition using Adaptive Receptive Fields ( http://arxiv.org/abs/2105.11605v1 )

ライセンス: Link先を確認
Tian-Xing Xu, Yuan-Chen Guo, Yu-Kun Lai, Song-Hai Zhang(参考訳) 位置認識は、自動運転とロボットナビゲーションの分野で重要な役割を担っている。 多くのポイントクラウドベースの手法が提案され、有望な結果を得たが、オブジェクトのサイズの違いを考慮しているものはほとんどない。 歩行者や車両のような小さな物体の場合、大きな受容野は無関係な情報を取り込み、小さな受容野は建物のような大きな物体の完全な幾何学的情報をエンコードすることができない。 固定受容場は位置認識には適さないと主張し,入力点クラウドに基づいて受容場のサイズを適応的に調整できる新しい適応受容場モジュール (ARFM) を提案する。 また、位置認識タスクのための点雲の識別的グローバル記述子を得るために、TransLoc3Dという新しいネットワークアーキテクチャを提案する。 TransLoc3Dは、3Dスパース畳み込みモジュール、ARFMモジュール、長距離依存性のキャプチャを目的とした外部トランスフォーマーネットワーク、NetVLADレイヤで構成されている。 実験の結果,オックスフォード・ロボカル・データセットの平均リコール@1では1.1 %,B.D.では0.8 %の改善が得られた。 データセット。

Place recognition plays an essential role in the field of autonomous driving and robot navigation. Although a number of point cloud based methods have been proposed and achieved promising results, few of them take the size difference of objects into consideration. For small objects like pedestrians and vehicles, large receptive fields will capture unrelated information, while small receptive fields would fail to encode complete geometric information for large objects such as buildings. We argue that fixed receptive fields are not well suited for place recognition, and propose a novel Adaptive Receptive Field Module (ARFM), which can adaptively adjust the size of the receptive field based on the input point cloud. We also present a novel network architecture, named TransLoc3D, to obtain discriminative global descriptors of point clouds for the place recognition task. TransLoc3D consists of a 3D sparse convolutional module, an ARFM module, an external transformer network which aims to capture long range dependency and a NetVLAD layer. Experiments show that our method outperforms prior state-of-the-art results, with an improvement of 1.1\% on average recall@1 on the Oxford RobotCar dataset, and 0.8\% on the B.D. dataset.
翻訳日:2021-05-26 14:11:13 公開日:2021-05-25
# ポラリメトリック時空間光輸送プローブ

Polarimetric Spatio-Temporal Light Transport Probing ( http://arxiv.org/abs/2105.11609v1 )

ライセンス: Link先を確認
Seung-Hwan Baek, Felix Heide(参考訳) 光は、検出器に反射される前に、異なる素材タイプの複数のシーン表面と複雑な相互作用を行うことができる。 この移動の間、全ての表面反射と伝播は、最終的に進行時間、方向、強度、波長、偏光を含む検出器に到達する光子の特性に符号化される。 従来の撮像システムは、光の他の全ての次元を単一の量に統合し、この豊かなシーン情報を蓄積された測定に隠して強度を捉える。 既存の手法はこれらを空間的・時間的次元に解き放つことができ、幾何学的シーンの理解を促進する。 しかし、ポーラリメトリックな物質特性と幾何学的性質を組み合わせることは、幾何学的理解を超えた前例のない能力を可能にする可能性があり、材料に依存したセマンティクスを取り入れることができる。 本研究では,シーンの空間的および時間的に解決された全ポラリメトリック応答をキャプチャする計算光輸送イメージング手法を提案する。 本手法は光輸送の7次元テンソル理論に基づく。 偏波テンソル次元における低ランク構造を発見し,偏波構造の冗長性を利用したデータ駆動型回転楕円法を提案する。 この理論をspatio-polarimetric imagingとcoaxial temporal-polarimetri c imagingという2つの画像プロトタイプでインスタンス化する。 これにより、シーン光輸送を時間的・空間的・完全な偏光次元に分解し、従来の手法に隠されたシーン特性を明らかにする。 提案手法の適用性は, 地中散乱による形状再構成, 散乱媒質による観察, マルチバウンス光輸送の回避, 分極によるメタメリズムの破壊, 結晶の時空間分解など多岐にわたる。

Light can undergo complex interactions with multiple scene surfaces of different material types before being reflected towards a detector. During this transport, every surface reflection and propagation is encoded in the properties of the photons that ultimately reach the detector, including travel time, direction, intensity, wavelength and polarization. Conventional imaging systems capture intensity by integrating over all other dimensions of the light into a single quantity, hiding this rich scene information in the accumulated measurements. Existing methods can untangle these into their spatial and temporal dimensions, fueling geometric scene understanding. However, examining polarimetric material properties jointly with geometric properties is an open challenge that could enable unprecedented capabilities beyond geometric understanding, allowing to incorporate material-dependent semantics. In this work, we propose a computational light-transport imaging method that captures the spatially- and temporally-resolved complete polarimetric response of a scene. Our method hinges on a novel 7D tensor theory of light transport. We discover low-rank structures in the polarimetric tensor dimension and propose a data-driven rotating ellipsometry method that learns to exploit redundancy of the polarimetric structures. We instantiate our theory in two imaging prototypes: spatio-polarimetric imaging and coaxial temporal-polarimetri c imaging. This allows us to decompose scene light transport into temporal, spatial, and complete polarimetric dimensions that unveil scene properties hidden to conventional methods. We validate the applicability of our method on diverse tasks, including shape reconstruction with subsurface scattering, seeing through scattering medium, untangling multi-bounce light transport, breaking metamerism with polarization, and spatio-polarimetric decomposition of crystals.
翻訳日:2021-05-26 14:10:38 公開日:2021-05-25
# ビデオからの教師なしスケール一貫性深度学習

Unsupervised Scale-consistent Depth Learning from Video ( http://arxiv.org/abs/2105.11610v1 )

ライセンス: Link先を確認
Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Zhichao Li, Le Zhang, Chunhua Shen, Ming-Ming Cheng, Ian Reid(参考訳) そこで本研究では,学習のための未ラベル映像のみを必要とする単眼深度推定器sc-depthを提案する。 i) 隣接ビュー間の予測深度の不整合を罰する幾何学的整合性損失,(ii) 静的シーンの前提に反する移動物体を自動的に局所化し,トレーニング中にノイズを生じさせる自己発見マスク,(iii) 詳細なアブレーション研究により各コンポーネントの有効性を実証し,KITTIとNYUv2データセットの両方で高品質な深度推定結果を示す。 さらに、スケール一貫性のある予測能力により、我々の単眼訓練されたディープネットワークが、より堅牢で正確な追跡のために、orb-slam2システムに容易に統合されることを示す。 提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。 最後に、定性評価のためのいくつかのデモを提供する。

We propose a monocular depth estimator SC-Depth, which requires only unlabelled videos for training and enables the scale-consistent prediction at inference time. Our contributions include: (i) we propose a geometry consistency loss, which penalizes the inconsistency of predicted depths between adjacent views; (ii) we propose a self-discovered mask to automatically localize moving objects that violate the underlying static scene assumption and cause noisy signals during training; (iii) we demonstrate the efficacy of each component with a detailed ablation study and show high-quality depth estimation results in both KITTI and NYUv2 datasets. Moreover, thanks to the capability of scale-consistent prediction, we show that our monocular-trained deep networks are readily integrated into the ORB-SLAM2 system for more robust and accurate tracking. The proposed hybrid Pseudo-RGBD SLAM shows compelling results in KITTI, and it generalizes well to the KAIST dataset without additional training. Finally, we provide several demos for qualitative evaluation.
翻訳日:2021-05-26 14:09:55 公開日:2021-05-25
# TIPCB:テキストベースの人物検索のためのシンプルだが効果的な部分ベースの畳み込みベースライン

TIPCB: A Simple but Effective Part-based Convolutional Baseline for Text-based Person Search ( http://arxiv.org/abs/2105.11628v1 )

ライセンス: Link先を確認
Yuhao Chen, Guoqing Zhang, Yujiang Lu, Zhenxing Wang, Yuhui Zheng, Ruili Wang(参考訳) テキストベースの人物検索は画像検索の分野におけるサブタスクであり、与えられたテキスト記述に従って対象人物画像を取得することを目的としている。 2つのモード間の重要な特徴ギャップは、このタスクを非常に困難にします。 多くの既存の手法では、局所的なアライメントを利用してこの問題をきめ細かいレベルで解決しようとする。 しかし、最も関連する手法は、現実的なシナリオでは利用が難しい追加モデルや複雑なトレーニング、評価戦略を導入している。 そこで本研究では,TIPCB(Text-Image Part-based Convolutional Baseline)というテキストベースの人物検索のための,シンプルで効果的なエンドツーエンド学習フレームワークを提案する。 まず,画像が水平に分割され,テキストが適応的にアライメントされる視覚およびテキストの局所表現を抽出するために,新しいデュアルパス局所アライメントネットワーク構造を提案する。 そこで我々は,低レベル,局所レベル,グローバルレベルを含む3つの特徴レベルからモダリティギャップを除去する多段階のクロスモーダルマッチング戦略を提案する。 広範に使用されているベンチマークデータセット(CUHK-PEDES)を用いて,本手法がTop-1,Top-5,Top-10の3.69%,2.95%,2.31%の精度で評価した。 私たちのコードはhttps://github.com/O rangeYHChen/TIPCB.co mで公開されています。

Text-based person search is a sub-task in the field of image retrieval, which aims to retrieve target person images according to a given textual description. The significant feature gap between two modalities makes this task very challenging. Many existing methods attempt to utilize local alignment to address this problem in the fine-grained level. However, most relevant methods introduce additional models or complicated training and evaluation strategies, which are hard to use in realistic scenarios. In order to facilitate the practical application, we propose a simple but effective end-to-end learning framework for text-based person search named TIPCB (i.e., Text-Image Part-based Convolutional Baseline). Firstly, a novel dual-path local alignment network structure is proposed to extract visual and textual local representations, in which images are segmented horizontally and texts are aligned adaptively. Then, we propose a multi-stage cross-modal matching strategy, which eliminates the modality gap from three feature levels, including low level, local level and global level. Extensive experiments are conducted on the widely-used benchmark dataset (CUHK-PEDES) and verify that our method outperforms the state-of-the-art methods by 3.69%, 2.95% and 2.31% in terms of Top-1, Top-5 and Top-10. Our code has been released in https://github.com/O rangeYHChen/TIPCB.
翻訳日:2021-05-26 14:09:21 公開日:2021-05-25
# 統計的アライメントによる特徴空間標的攻撃

Feature Space Targeted Attacks by Statistic Alignment ( http://arxiv.org/abs/2105.11645v1 )

ライセンス: Link先を確認
Lianli Gao, Yaya Cheng, Qilong Zhang, Xing Xu and Jingkuan Song(参考訳) 画像に人間の知覚できない摂動を加えることで、DNNを容易に騙すことができる。 主流の手法の1つとして、中間特徴マップを変調することで、特徴空間をターゲットとした摂動画像に対する攻撃が最小化されている。 しかし、現在の画素ワイドユークリッド距離の誤差を測るための選択は、ソースとターゲットの特徴に不当に空間整合性制約を課すため、疑わしい。 直感的には、画像の左または右にある猫であっても、画像は「キャット」に分類される。 この問題に対処するために,統計アライメントを用いてこの不一致を測定することを提案する。 具体的には,高次統計と変換不変性を用いて特徴写像間の類似性を測定するために,ペアワイズアライメント攻撃とグローバルワイズアライメント攻撃という2つの新しいアプローチを設計する。 さらに,信頼性の高い攻撃を得るのに様々な困難を伴う層間伝達特性を体系的に解析した。 提案手法の有効性を検証する広範な実験を行い,最先端アルゴリズムを大差で上回った。 私たちのコードはhttps://github.com/y aya-cheng/paa-gaaで公開されています。

By adding human-imperceptible perturbations to images, DNNs can be easily fooled. As one of the mainstream methods, feature space targeted attacks perturb images by modulating their intermediate feature maps, for the discrepancy between the intermediate source and target features is minimized. However, the current choice of pixel-wise Euclidean Distance to measure the discrepancy is questionable because it unreasonably imposes a spatial-consistency constraint on the source and target features. Intuitively, an image can be categorized as "cat" no matter the cat is on the left or right of the image. To address this issue, we propose to measure this discrepancy using statistic alignment. Specifically, we design two novel approaches called Pair-wise Alignment Attack and Global-wise Alignment Attack, which attempt to measure similarities between feature maps by high-order statistics with translation invariance. Furthermore, we systematically analyze the layer-wise transferability with varied difficulties to obtain highly reliable attacks. Extensive experiments verify the effectiveness of our proposed method, and it outperforms the state-of-the-art algorithms by a large margin. Our code is publicly available at https://github.com/y aya-cheng/PAA-GAA.
翻訳日:2021-05-26 14:08:38 公開日:2021-05-25
# クロスリゾリューション者再識別のためのディープ高解像度表現学習

Deep High-Resolution Representation Learning for Cross-Resolution Person Re-identification ( http://arxiv.org/abs/2105.11722v1 )

ライセンス: Link先を確認
Guoqing Zhang, Yu Ge, Zhicheng Dong, Hao Wang, Yuhui Zheng, Shengyong Chen(参考訳) 人物再識別(re-id)は、異なるカメラから同一の人物画像をマッチングする問題に取り組む。 実際の応用では、カメラ性能とカメラと興味のある人物の距離の違いにより、キャプチャされた人物画像は通常様々な解像度を持つ。 我々はこの問題をクロス・リゾリューション・パーソナリティ(Cross-Resolution Person Re-identification)と呼んでいる。 本稿では,PS-HRNet(Deep High-Resolution Pseudo-Siamese Framework)を提案する。 具体的には、低解像度画像の解像度を復元し、特徴マップの異なるチャネル情報を利用するために、VDSR-CAと呼ばれるチャネルアテンション(CA)機構を備えたVDSRモジュールを導入し、革新する。 そして、HRNet-ReIDと呼ばれる識別特徴を抽出するために、新しい表現ヘッドを設計することでHRNetを再構築する。 さらに,低解像度画像と高分解能画像間の特徴分布の違いを低減すべく疑似シアムフレームワークを構築した。 5つのクロスレゾリューションパーソンデータセットの実験結果は,提案手法の有効性を検証する。 提案手法と比較してPS-HRNetは, MLR-Market-1501, MLR-CUHK03, MLR-VIPeR, MLR-DukeMTMC-reID, CAVIARデータセットでそれぞれ3.4\%, 6.2\%, 2.5\%, 1.1\%, 4.2\%の改善を行った。 我々のコードは \url{https://github.com/z hguoqing} で入手できる。

Person re-identification (re-ID) tackles the problem of matching person images with the same identity from different cameras. In practical applications, due to the differences in camera performance and distance between cameras and persons of interest, captured person images usually have various resolutions. We name this problem as Cross-Resolution Person Re-identification which brings a great challenge for matching correctly. In this paper, we propose a Deep High-Resolution Pseudo-Siamese Framework (PS-HRNet) to solve the above problem. Specifically, in order to restore the resolution of low-resolution images and make reasonable use of different channel information of feature maps, we introduce and innovate VDSR module with channel attention (CA) mechanism, named as VDSR-CA. Then we reform the HRNet by designing a novel representation head to extract discriminating features, named as HRNet-ReID. In addition, a pseudo-siamese framework is constructed to reduce the difference of feature distributions between low-resolution images and high-resolution images. The experimental results on five cross-resolution person datasets verify the effectiveness of our proposed approach. Compared with the state-of-the-art methods, our proposed PS-HRNet improves 3.4\%, 6.2\%, 2.5\%,1.1\% and 4.2\% at Rank-1 on MLR-Market-1501, MLR-CUHK03, MLR-VIPeR, MLR-DukeMTMC-reID, and CAVIAR datasets, respectively. Our code is available at \url{https://github.com/z hguoqing}.
翻訳日:2021-05-26 14:08:06 公開日:2021-05-25
# ST-HOI:ビデオにおける人間と物体の相互作用検出のための時空間ベースライン

ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction Detection in Videos ( http://arxiv.org/abs/2105.11731v1 )

ライセンス: Link先を確認
Meng-Jiun Chiou, Chun-Yu Liao, Li-Wei Wang, Roger Zimmermann and Jiashi Feng(参考訳) ヒューマンオブジェクトインタラクション(HOI)の検出は、機械の包括的な視覚的理解に向けた重要なステップである。 静止画像から非時間的HOI(例えば椅子)を検出することは不可能であるが、隣接するフレームが重要な役割を果たす単一のビデオフレームから時間的関連HOI(例えばドアの開閉)を推測することは不可能である。 しかし、静的画像のみで動作する従来のHOI法は、時間的文脈を使わずに時間的関係を予測し、準最適性能をもたらす可能性がある。 本稿では,このギャップをビデオベースのHOIを明示的な時間情報で検出することで橋渡しする。 まず,共通動作検出ベースラインのナイーブな時間認識型は,機能的不整合の問題によりビデオベースのhoisでは動作しないことを示す。 次に、人や物体の軌跡、正確な局所化視覚特徴、空間的マスキングのポーズ特徴などの時間的情報を利用した、時空間HoI検出(ST-HOI)という、シンプルで効果的なアーキテクチャを提案する。 我々はVidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。

Detecting human-object interactions (HOI) is an important step toward a comprehensive visual understanding of machines. While detecting non-temporal HOIs (e.g., sitting on a chair) from static images is feasible, it is unlikely even for humans to guess temporal-related HOIs (e.g., opening/closing a door) from a single video frame, where the neighboring frames play an essential role. However, conventional HOI methods operating on only static images have been used to predict temporal-related interactions, which is essentially guessing without temporal contexts and may lead to sub-optimal performance. In this paper, we bridge this gap by detecting video-based HOIs with explicit temporal information. We first show that a naive temporal-aware variant of a common action detection baseline does not work on video-based HOIs due to a feature-inconsistenc y issue. We then propose a simple yet effective architecture named Spatial-Temporal HOI Detection (ST-HOI) utilizing temporal information such as human and object trajectories, correctly-localized visual features, and spatial-temporal masking pose features. We construct a new video HOI benchmark dubbed VidHOI where our proposed approach serves as a solid baseline.
翻訳日:2021-05-26 14:07:14 公開日:2021-05-25
# GAN for Vision, KG for Relation: A Two-stage Deep Network for Zero-shot Action Recognition

GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot Action Recognition ( http://arxiv.org/abs/2105.11789v1 )

ライセンス: Link先を確認
Bin Sun, Dehui Kong, Shaofan Wang, Jinghua Li, Baocai Yin, Xiaonan Luo(参考訳) ゼロショット動作認識は、サンプル内の一般的な潜在意味表現を探索することで、トレーニングで使用できない未発見のクラスのサンプルを認識することができる。 しかし、ほとんどの方法は、アクションクラス間の意味的関係と拡張的関係を無視し、ゼロショット学習の一般化能力が低かった。 さらに、学習した分類器は、見掛けたクラスのサンプルを予測するために傾斜し、分類性能が低下する。 上記の問題を解決するため,ゼロショット動作認識のための2段階のディープニューラルネットワークを提案し,サンプリング段階として機能生成サブネットワーク,分類段階としてグラフアテンションサブネットワークからなる。 サンプリング段階では,行動特徴と見掛けたクラスの単語ベクトルによって訓練された生成的敵ネットワーク(gan)を用いて,見掛けたクラスと見掛けられたクラスのサンプルデータのバランスをとるアンセエンクラスの動作特徴を合成する。 分類段階において,アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフ(kg)を構築し,注意機構に基づくグラフ畳み込みネットワーク(gcn)を提案し,アクションクラスとオブジェクトの関係を動的に更新し,ゼロショット学習の一般化能力を高める。 どちらの段階でも、私たちはみな、機能生成のブリッジとして単語ベクトルを使い、見知らぬクラスから見当たらないクラスへの分類器の一般化を行います。 UCF101およびHMDB51データセットの最先端手法との比較を行った。 実験の結果,提案手法は訓練された分類器の分類性能を向上し,精度が向上した。

Zero-shot action recognition can recognize samples of unseen classes that are unavailable in training by exploring common latent semantic representation in samples. However, most methods neglected the connotative relation and extensional relation between the action classes, which leads to the poor generalization ability of the zero-shot learning. Furthermore, the learned classifier incline to predict the samples of seen class, which leads to poor classification performance. To solve the above problems, we propose a two-stage deep neural network for zero-shot action recognition, which consists of a feature generation sub-network serving as the sampling stage and a graph attention sub-network serving as the classification stage. In the sampling stage, we utilize a generative adversarial networks (GAN) trained by action features and word vectors of seen classes to synthesize the action features of unseen classes, which can balance the training sample data of seen classes and unseen classes. In the classification stage, we construct a knowledge graph (KG) based on the relationship between word vectors of action classes and related objects, and propose a graph convolution network (GCN) based on attention mechanism, which dynamically updates the relationship between action classes and objects, and enhances the generalization ability of zero-shot learning. In both stages, we all use word vectors as bridges for feature generation and classifier generalization from seen classes to unseen classes. We compare our method with state-of-the-art methods on UCF101 and HMDB51 datasets. Experimental results show that our proposed method improves the classification performance of the trained classifier and achieves higher accuracy.
翻訳日:2021-05-26 14:06:36 公開日:2021-05-25
# PAS-MEF:主成分分析に基づくマルチ露光画像融合、適応的ウェルエクスプロイトネス、サリエンシマップ

PAS-MEF: Multi-exposure image fusion based on principal component analysis, adaptive well-exposedness and saliency map ( http://arxiv.org/abs/2105.11809v1 )

ライセンス: Link先を確認
Diclehan Karakaya, Oguzhan Ulucan, Mehmet Turkan(参考訳) 高ダイナミックレンジ(HDR)イメージングは、人間の観察者によって知覚されるように自然のシーンを不滅にすることができる。 通常の低ダイナミックレンジ(LDR)キャプチャ/表示装置では、大きなダイナミックレンジの自然シーンのため、画像に重要な詳細が保存されない場合がある。 本研究は,ldr画面における情報損失を最小限に抑え,高品質なhdrライクな画像を生成するため,主成分分析,適応的露出度,塩分マップに基づく簡易かつ効果的な重み抽出手法を提案する。 これらの重みマップは後に誘導フィルタによって洗練され、ピラミッド分解を用いて融合される。 既存の手法と実験的に比較した結果,提案手法は非常に強い統計的および視覚的結果が得られた。

High dynamic range (HDR) imaging enables to immortalize natural scenes similar to the way that they are perceived by human observers. With regular low dynamic range (LDR) capture/display devices, significant details may not be preserved in images due to the huge dynamic range of natural scenes. To minimize the information loss and produce high quality HDR-like images for LDR screens, this study proposes an efficient multi-exposure fusion (MEF) approach with a simple yet effective weight extraction method relying on principal component analysis, adaptive well-exposedness and saliency maps. These weight maps are later refined through a guided filter and the fusion is carried out by employing a pyramidal decomposition. Experimental comparisons with existing techniques demonstrate that the proposed method produces very strong statistical and visual results.
翻訳日:2021-05-26 14:05:49 公開日:2021-05-25
# ラベルなし画像による部分発見と補足によるマイナショット学習

Few-Shot Learning with Part Discovery and Augmentation from Unlabeled Images ( http://arxiv.org/abs/2105.11874v1 )

ライセンス: Link先を確認
Wentao Chen, Chenyang Si, Wei Wang, Liang Wang, Zilei Wang, Tieniu Tan(参考訳) 目に見えないクラスを認識できるインスタンスはごくわずかなので、少ないショット学習は難しいタスクです。 この問題を軽減する一つの方法は、同様のタスクでメタラーニングを通じて強い帰納的バイアスを得ることである。 本稿では、ラベルのない画像の平坦な集合からそのような帰納バイアスを学習し、見知らぬクラス間の移動可能な表現としてインスタンス化することを示す。 具体的には,画像と識別部との類似性を最大化することにより,転送可能な表現を学習するための,新しい部分的自己教師付き表現学習手法を提案する。 データ不足による少数の分類におけるオーバーフィッティングを軽減するため,ベースデータセットから余分な画像を取得することで部分拡張戦略を提案する。 ミニイメージネットとタイレッドイメージネットベンチマークについて系統的研究を行った。 その結果,従来の最良教師なし手法よりも7.74%,9.24%,5ウェイ1ショット,5ウェイ5ショット設定では9.24%,最先端教師付き手法に匹敵する結果が得られた。

Few-shot learning is a challenging task since only few instances are given for recognizing an unseen class. One way to alleviate this problem is to acquire a strong inductive bias via meta-learning on similar tasks. In this paper, we show that such inductive bias can be learned from a flat collection of unlabeled images, and instantiated as transferable representations among seen and unseen classes. Specifically, we propose a novel part-based self-supervised representation learning scheme to learn transferable representations by maximizing the similarity of an image to its discriminative part. To mitigate the overfitting in few-shot classification caused by data scarcity, we further propose a part augmentation strategy by retrieving extra images from a base dataset. We conduct systematic studies on miniImageNet and tieredImageNet benchmarks. Remarkably, our method yields impressive results, outperforming the previous best unsupervised methods by 7.74% and 9.24% under 5-way 1-shot and 5-way 5-shot settings, which are comparable with state-of-the-art supervised methods.
翻訳日:2021-05-26 14:05:22 公開日:2021-05-25
# Tab.IAIS:フレキシブルテーブル認識と意味解釈システム

Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System ( http://arxiv.org/abs/2105.11879v1 )

ライセンス: Link先を確認
Marcin Namysl, Alexander M. Esser, Sven Behnke, Joachim K\"ohler(参考訳) テーブル抽出は重要な問題だが、未解決の問題である。 本稿では,フレキシブルなエンドツーエンドテーブル抽出システムを提案する。 我々は,完全テーブル認識プロセスを実行し,科学文献に見られる最も頻繁な表形式をサポートする2つのルールベースアルゴリズムを開発した。 さらに,意味情報の抽出をテーブル認識プロセスに組み込むために,グラフに基づくテーブル解釈法を開発した。 ICDAR 2013 と ICDAR 2019 の挑戦的なテーブル認識ベンチマークについて広範な実験を行った。 テーブル認識アプローチは最先端のアプローチと競合する結果を達成する。 また,完全情報抽出システムでは0.7380という高いf1スコアが得られた。

Table extraction is an important but still unsolved problem. In this paper, we introduce a flexible end-to-end table extraction system. We develop two rule-based algorithms that perform the complete table recognition process and support the most frequent table formats found in the scientific literature. Moreover, to incorporate the extraction of semantic information into the table recognition process, we develop a graph-based table interpretation method. We conduct extensive experiments on the challenging table recognition benchmarks ICDAR 2013 and ICDAR 2019. Our table recognition approach achieves results competitive with state-of-the-art approaches. Moreover, our complete information extraction system exhibited a high F1 score of 0.7380 proving the utility of our approach.
翻訳日:2021-05-26 14:04:50 公開日:2021-05-25
# 深層畳み込みニューラルネットワークを用いた屋内rgb-d意味セグメンテーションの検討

Review on Indoor RGB-D Semantic Segmentation with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2105.11925v1 )

ライセンス: Link先を確認
Sami Barchid, Jos\'e Mennesson, Chaabane Dj\'eraba(参考訳) 多くの研究は、深層畳み込みニューラルネットワーク(特にセマンティクスセグメンテーション)による視覚タスクにおいて、屋内深度センサの補完的な幾何情報を活用することに重点を置いている。 これらの作業は「RGB-D屋内セマンティックセグメンテーション」と呼ばれる特定のビジョンタスクを扱う。 このタスクの課題と結果のソリューションは、標準のRGBと異なる。 その結果、新たな研究トピックが生まれました。 本稿では,rgb-d屋内意味セグメンテーションのための深層畳み込みニューラルネットワークの分野について述べる。 本稿では,最もポピュラーな公開データセットを提示し,最近のコントリビュートで採用されている戦略の分類を提案し,現在の最先端のパフォーマンスを評価し,今後の課題と今後の課題の方向性について考察する。

Many research works focus on leveraging the complementary geometric information of indoor depth sensors in vision tasks performed by deep convolutional neural networks, notably semantic segmentation. These works deal with a specific vision task known as "RGB-D Indoor Semantic Segmentation". The challenges and resulting solutions of this task differ from its standard RGB counterpart. This results in a new active research topic. The objective of this paper is to introduce the field of Deep Convolutional Neural Networks for RGB-D Indoor Semantic Segmentation. This review presents the most popular public datasets, proposes a categorization of the strategies employed by recent contributions, evaluates the performance of the current state-of-the-art, and discusses the remaining challenges and promising directions for future works.
翻訳日:2021-05-26 14:04:35 公開日:2021-05-25
# 野生における未熟深度向上と超溶解化を目指して

Towards Unpaired Depth Enhancement and Super-Resolution in the Wild ( http://arxiv.org/abs/2105.12038v1 )

ライセンス: Link先を確認
Aleksandr Safin, Maxim Kan, Nikita Drobyshev, Oleg Voynov, Alexey Artemov, Alexander Filippov, Denis Zorin, Evgeny Burnaev(参考訳) 商品センサで捉えた深度マップは、しばしば品質と解像度が低く、多くのアプリケーションで使用されるように拡張する必要がある。 深度マップの最先端のデータ駆動方式は、同じシーンの低解像度と高解像度の深度マップの登録ペアに依存している。 実世界のペアデータを取得するには、特別なセットアップが必要です。 もうひとつの方法として,低解像度マップをサブサンプリング,ノイズ付加,その他の人工劣化法により高解像度マップから生成することは,現実の低解像度画像の特徴をフルに捉えない。 その結果、このような人工的なペアデータで訓練された教師付き学習方法は、実世界の低解像度入力ではうまく機能しない可能性がある。 未経験データからの学習に基づく深度マップの強化手法を検討する。 画像対画像変換のための多くの技術が提案されているが、ほとんどは深度マップに直接適用できない。 より正確な深度マップを作成するための特徴として,学習可能な劣化モデルと表面正規推定に基づく,同時深度強調と超解像のための未ペア学習手法を提案する。 提案手法は,既存の未ペアリング手法よりも優れており,ペアリング手法と同等に動作することを示す。

Depth maps captured with commodity sensors are often of low quality and resolution; these maps need to be enhanced to be used in many applications. State-of-the-art data-driven methods of depth map super-resolution rely on registered pairs of low- and high-resolution depth maps of the same scenes. Acquisition of real-world paired data requires specialized setups. Another alternative, generating low-resolution maps from high-resolution maps by subsampling, adding noise and other artificial degradation methods, does not fully capture the characteristics of real-world low-resolution images. As a consequence, supervised learning methods trained on such artificial paired data may not perform well on real-world low-resolution inputs. We consider an approach to depth map enhancement based on learning from unpaired data. While many techniques for unpaired image-to-image translation have been proposed, most are not directly applicable to depth maps. We propose an unpaired learning method for simultaneous depth enhancement and super-resolution, which is based on a learnable degradation model and surface normal estimates as features to produce more accurate depth maps. We demonstrate that our method outperforms existing unpaired methods and performs on par with paired methods on a new benchmark for unpaired learning that we developed.
翻訳日:2021-05-26 14:04:15 公開日:2021-05-25
# モバイルにおけるスパース監督による実時間単眼深度推定

Real-time Monocular Depth Estimation with Sparse Supervision on Mobile ( http://arxiv.org/abs/2105.12053v1 )

ライセンス: Link先を確認
Mehmet Kerim Yucel, Valia Dimaridou, Anastasios Drosou, Albert Sa\`a-Garriga(参考訳) 単眼的(相対的または計量的)深さ推定は、自動運転車、拡張現実、画像編集など、様々なアプリケーションにとって重要なタスクである。 近年,モバイルデバイスの普及に伴い,精度とモバイルフレンドリーな奥行きモデルの重要性が高まっている。 精度の増すモデルは通常、より多くの計算資源を必要とし、モバイルデバイスでのそのようなモデルの使用を阻害する。 モバイルのユースケースは、おそらく最も制限のないもので、高精度でモバイルフレンドリーなアーキテクチャを必要とする。 したがって、私たちは以下の質問に答えようとしている: さらなる複雑さ(つまり)を追加することなく、どのようにモデルを改善することができるか。 パラメータ)? この目的に向けて,我々は,様々な次元から相対的深さ推定モデルの設計空間を体系的に探究し,重要な設計選択とアブレーションの研究により,既存のアーキテクチャでさえも,その複雑さのほんの一部で,最先端に高い競争力を発揮できることを示す。 本研究は, 詳細なバックボーンモデル選択プロセス, 知識蒸留, 中間予測, モデルプルーニング, 損失再バランスにまたがる。 我々は,DIWのみをスーパーバイザーデータセットとし,2.6Mパラメータを持つDIW上で0.1156WHDRを達成し,プルーニングやハードウェア固有の最適化を行なわずに,モバイルGPU上で37FPSに達することを示す。 1Mパラメータを持つDIWでは0.1208WHDRを実現し,モバイルGPUでは44FPSに達する。

Monocular (relative or metric) depth estimation is a critical task for various applications, such as autonomous vehicles, augmented reality and image editing. In recent years, with the increasing availability of mobile devices, accurate and mobile-friendly depth models have gained importance. Increasingly accurate models typically require more computational resources, which inhibits the use of such models on mobile devices. The mobile use case is arguably the most unrestricted one, which requires highly accurate yet mobile-friendly architectures. Therefore, we try to answer the following question: How can we improve a model without adding further complexity (i.e. parameters)? Towards this end, we systematically explore the design space of a relative depth estimation model from various dimensions and we show, with key design choices and ablation studies, even an existing architecture can reach highly competitive performance to the state of the art, with a fraction of the complexity. Our study spans an in-depth backbone model selection process, knowledge distillation, intermediate predictions, model pruning and loss rebalancing. We show that our model, using only DIW as the supervisory dataset, achieves 0.1156 WHDR on DIW with 2.6M parameters and reaches 37 FPS on a mobile GPU, without pruning or hardware-specific optimization. A pruned version of our model achieves 0.1208 WHDR on DIW with 1M parameters and reaches 44 FPS on a mobile GPU.
翻訳日:2021-05-26 14:03:42 公開日:2021-05-25
# the incel lexicon: the emergent cryptolect of a global misogynistic community

The incel lexicon: Deciphering the emergent cryptolect of a global misogynistic community ( http://arxiv.org/abs/2105.12006v1 )

ライセンス: Link先を確認
Kelly Gothard, David Rushing Dewhurst, Joshua R. Minot, Jane Lydia Adams, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) インセル(incels)という概念は、不随意的な性同一性の性中立的な枠組みから進化し、性的な関係を見つけ、維持することができないと認識されるため、自己、女性、社会に対して反感を持つ男性のオンラインコミュニティを指すようになった。 グローバルなオンラインメッセージボードであるRedditでインセル言語の使用を探索することで、インセルコミュニティが女性に対して犯した悪行や現実世界の暴力行為のオンライン表現をコンテキスト化します。 インセルをテーマにしたRedditチャンネルから300万件のコメントを集めた後、創発的なインセル・レキシコンに属するフレーズの用語集を並べたデータ駆動ランクの時間的ダイナミクスを分析した。 本研究は,集団の同一性に係わる広範囲な符号付き誤語語彙の生成と正規化を明らかにする。

Evolving out of a gender-neutral framing of an involuntary celibate identity, the concept of `incels' has come to refer to an online community of men who bear antipathy towards themselves, women, and society-at-large for their perceived inability to find and maintain sexual relationships. By exploring incel language use on Reddit, a global online message board, we contextualize the incel community's online expressions of misogyny and real-world acts of violence perpetrated against women. After assembling around three million comments from incel-themed Reddit channels, we analyze the temporal dynamics of a data driven rank ordering of the glossary of phrases belonging to an emergent incel lexicon. Our study reveals the generation and normalization of an extensive coded misogynist vocabulary in service of the group's identity.
翻訳日:2021-05-26 14:02:59 公開日:2021-05-25
# 飛行船スケジューリングのための構造化畳み込みカーネルネットワーク

Structured Convolutional Kernel Networks for Airline Crew Scheduling ( http://arxiv.org/abs/2105.11646v1 )

ライセンス: Link先を確認
Yassine Yaakoubi, Fran\c{c}ois Soumis, Simon Lacoste-Julien(参考訳) 航空機乗組員のスケジューリングアプリケーションのニーズに応え,MairalらによるCKNを組み合わせた構造化畳み込みカーネルネットワーク(Struct-CKN)を導入する。 (2014)は、出力の制約をサポートする構造化予測フレームワークである。 CKNは特定の種類の畳み込みニューラルネットワークであり、トレーニングデータ上でカーネルの特徴マップを近似し、ディープラーニングの特性とカーネルメソッドの非パラメトリックな柔軟性を組み合わせる。 cknを構造化出力に拡張することで、航空乗組員スケジューリングソルバによってさらに洗練されたフライト接続データセット上で有用な初期解を得ることができる。 より具体的には、学習プロセスに局所的な制約を組み込むことができる一般的な条件付き確率場としてモデル化された飛行ベースのネットワークを用いる。 実験により,本手法は標準的な手法よりも大規模乗組員ペアリング問題(月5万便)を大幅に改善し,ソリューションコストを17%削減し(数百万ドル),グローバル制約のコストを97%削減することを示した。

Motivated by the needs from an airline crew scheduling application, we introduce structured convolutional kernel networks (Struct-CKN), which combine CKNs from Mairal et al. (2014) in a structured prediction framework that supports constraints on the outputs. CKNs are a particular kind of convolutional neural networks that approximate a kernel feature map on training data, thus combining properties of deep learning with the non-parametric flexibility of kernel methods. Extending CKNs to structured outputs allows us to obtain useful initial solutions on a flight-connection dataset that can be further refined by an airline crew scheduling solver. More specifically, we use a flight-based network modeled as a general conditional random field capable of incorporating local constraints in the learning process. Our experiments demonstrate that this approach yields significant improvements for the large-scale crew pairing problem (50,000 flights per month) over standard approaches, reducing the solution cost by 17% (a gain of millions of dollars) and the cost of global constraints by 97%.
翻訳日:2021-05-26 14:02:32 公開日:2021-05-25
# 階層的な集約クラスタリングを数十億規模のデータセットにスケールアップする

Scaling Hierarchical Agglomerative Clustering to Billion-sized Datasets ( http://arxiv.org/abs/2105.11653v1 )

ライセンス: Link先を確認
Baris Sumengen (1), Anand Rajagopalan (1), Gui Citovsky (1), David Simcha (1), Olivier Bachem (1), Pradipta Mitra (1), Sam Blasiak (1), Mason Liang (2), Sanjiv Kumar (1) ((1) Google Research, (2) 0x Labs)(参考訳) Hierarchical Agglomerative Clustering (HAC)は、最も古く、最も広く使われているクラスタリング手法の1つである。 しかし、HACは、基礎となる複雑さが少なくともデータポイントの数で二次的であり、HACを解くアルゴリズムが本質的にシーケンシャルであるため、大規模なデータセットにスケールすることが難しいことが知られている。 本稿では,クラスタを効率的に並列にマージするための新しい戦略を用いて,hacのための分散アルゴリズムである<reciprocal agglomerative clustering (rac)"を提案する。 理論的には、RACはHACの正確な解を回復する。 さらに、クラスタビリティと均衡性仮定の下では、並列性による全実行時の証明可能なスピードアップを示す。 また、これらのスピードアップは特定の確率的データモデルに対して達成可能であることを示す。 大規模な実験では、この並列性は実世界のデータセット上で達成され、提案したRACアルゴリズムは1時間以内で数十億のエッジで接続された数十億のデータポイント上のHAC階層を復元できることを示す。

Hierarchical Agglomerative Clustering (HAC) is one of the oldest but still most widely used clustering methods. However, HAC is notoriously hard to scale to large data sets as the underlying complexity is at least quadratic in the number of data points and many algorithms to solve HAC are inherently sequential. In this paper, we propose {Reciprocal Agglomerative Clustering (RAC)}, a distributed algorithm for HAC, that uses a novel strategy to efficiently merge clusters in parallel. We prove theoretically that RAC recovers the exact solution of HAC. Furthermore, under clusterability and balancedness assumption we show provable speedups in total runtime due to the parallelism. We also show that these speedups are achievable for certain probabilistic data models. In extensive experiments, we show that this parallelism is achieved on real world data sets and that the proposed RAC algorithm can recover the HAC hierarchy on billions of data points connected by trillions of edges in less than an hour.
翻訳日:2021-05-26 14:02:00 公開日:2021-05-25
# 一般化した逆強化学習枠組み

A Generalised Inverse Reinforcement Learning Framework ( http://arxiv.org/abs/2105.11812v1 )

ライセンス: Link先を確認
Firas Jarboui, Vianney Perchet(参考訳) 逆強化学習(IRL)のグラビアの目的は、(近似)最適政策によって生成された観測軌道に基づいて、一部のMDPベースの未知のコスト関数を推定することである。 古典的なアプローチはこのコスト関数を調整することで、関連する最適軌道(累積ディスカウントコストを最小化する)を最適化する。 古典的なRL損失は観測値と'類似'である。 以前のコントリビューションは、縮退したソリューションのペナシエーションとアルゴリズムのスケーラビリティの改善に重点を置いていた。 それらに対して極めて直交的に、累積割引コストに関して最適性を特徴づける傾向が、より長い混合時間を持つ政策に対して暗黙の偏見をもたらすことを疑問視する。 アート値に基づくRLアルゴリズムの状態は、逆問題に対して十分に定義されていない強い基準であるベルマン最適性演算子の固定点を解くことでこの問題を回避する。 IRLにおけるこのバイアスを軽減するために、IRL問題(最大エントロピー)の修正をもたらす将来の状態により多くの重みを与える代替のトレーニング損失を導入する。 私たちが考案したアルゴリズムは、複数のopenai体育館環境において、既製のものよりも性能が向上(および類似性)している。

The gloabal objective of inverse Reinforcement Learning (IRL) is to estimate the unknown cost function of some MDP base on observed trajectories generated by (approximate) optimal policies. The classical approach consists in tuning this cost function so that associated optimal trajectories (that minimise the cumulative discounted cost, i.e. the classical RL loss) are 'similar' to the observed ones. Prior contributions focused on penalising degenerate solutions and improving algorithmic scalability. Quite orthogonally to them, we question the pertinence of characterising optimality with respect to the cumulative discounted cost as it induces an implicit bias against policies with longer mixing times. State of the art value based RL algorithms circumvent this issue by solving for the fixed point of the Bellman optimality operator, a stronger criterion that is not well defined for the inverse problem. To alleviate this bias in IRL, we introduce an alternative training loss that puts more weights on future states which yields a reformulation of the (maximum entropy) IRL problem. The algorithms we devised exhibit enhanced performances (and similar tractability) than off-the-shelf ones in multiple OpenAI gym environments.
翻訳日:2021-05-26 14:01:34 公開日:2021-05-25
# 公共交通需要分析 : 首都ラゴスを事例として

Public Transportation Demand Analysis: A Case Study of Metropolitan Lagos ( http://arxiv.org/abs/2105.11816v1 )

ライセンス: Link先を確認
Ozioma Paul and Patrick McSharry(参考訳) モデリング、シミュレーション、予測はより良い計画と意思決定を促進する手段を提供する。 これらの定量的アプローチは、データに依存しず、特に公共交通機関に関係のある従来の方法を超えて価値を付加することができる。 ラゴスは急速な都市化を経験しており、現在人口は1500万人弱である。 長い待ち時間と不確実な旅行時間の両方で、多くの人々が自分の車を購入したり、代替の輸送手段を使うようになった。 これにより、道路上の車両数が大幅に増加し、さらに交通量が増え、交通渋滞も増大した。 本稿では、ラゴスにおける都市交通需要を調査し、時間と空間における乗客の動態を考察する。 ラゴス州立バスラピッドトランジット(brt)から購入した乗車券の個々の通勤旅行データを用いて、一日の時間帯、週の日数、バス駅の需要パターンを分析した。 本研究の目的は,実際の乗車からの需要を定量化し,動的スケジューリングが待ち時間に与える影響を推定することである。 駅区分は、特定のバススケジュールを調整するために、需要特性によってクラスター駅に提供される。 ラゴスBRTの日内公共交通需要は分析され、予測が比較される。 固定バスおよび動的バススケジューリングを用いたシミュレーションにより、平均待ち時間を最大80%短縮できることを示した。 負荷曲線、洞察、開発アプローチは、急速な都市化の課題に直面しているラゴスや同様のアフリカの都市で政策立案に役立ちます。

Modelling, simulation, and forecasting offer a means of facilitating better planning and decision-making. These quantitative approaches can add value beyond traditional methods that do not rely on data and are particularly relevant for public transportation. Lagos is experiencing rapid urbanization and currently has a population of just under 15 million. Both long waiting times and uncertain travel times has driven many people to acquire their own vehicle or use alternative modes of transport. This has significantly increased the number of vehicles on the roads leading to even more traffic and greater traffic congestion. This paper investigates urban travel demand in Lagos and explores passenger dynamics in time and space. Using individual commuter trip data from tickets purchased from the Lagos State Bus Rapid Transit (BRT), the demand patterns through the hours of the day, days of the week and bus stations are analysed. This study aims to quantify demand from actual passenger trips and estimate the impact that dynamic scheduling could have on passenger waiting times. Station segmentation is provided to cluster stations by their demand characteristics in order to tailor specific bus schedules. Intra-day public transportation demand in Lagos BRT is analysed and predictions are compared. Simulations using fixed and dynamic bus scheduling demonstrate that the average waiting time could be reduced by as much as 80%. The load curves, insights and the approach developed will be useful for informing policymaking in Lagos and similar African cities facing the challenges of rapid urbanization.
翻訳日:2021-05-26 14:01:04 公開日:2021-05-25
# 非パラメトリック回帰のための最適サンプリング密度

Optimal Sampling Density for Nonparametric Regression ( http://arxiv.org/abs/2105.11990v1 )

ライセンス: Link先を確認
Danny Panknin and Shinichi Nakajima and Klaus Robert M\"uller(参考訳) 本稿では,モデルに依存しない,モデルミスマッチに対する頑健な回帰学習戦略を提案する。 局所多項式平滑化(LPS)の一般化誤差を局所的に調整した局所多項式平滑化(英語版)(英語版)の一般化誤差を最小化する最適トレーニング密度を仮定する: 平均積分二乗誤差(MISE)を一般化基準として採用し、MISEの漸近挙動と局所最適帯域幅(LOB)を漸近極限におけるMISEを最小化する帯域幅関数とする。 目的の漸近的表現は,MISEのトレーニング密度依存性を明らかにし,解析的最小化を可能にする。 その結果,クローズドフォームにおける最適トレーニング密度が得られる。 提案手法のほとんどモデルフリーな性質は、対象問題の生特性を符号化し、堅牢でモデルに依存しない能動的学習戦略を提供する。 さらに、得られたトレーニング密度は、透過的かつ解釈可能な方法で局所関数複雑性、雑音レベルおよびテスト密度の影響を分解する。 本理論を数値シミュレーションで検証し,提案手法が既存の最先端モデル非依存手法よりも優れていることを示す。

We propose a novel active learning strategy for regression, which is model-agnostic, robust against model mismatch, and interpretable. Assuming that a small number of initial samples are available, we derive the optimal training density that minimizes the generalization error of local polynomial smoothing (LPS) with its kernel bandwidth tuned locally: We adopt the mean integrated squared error (MISE) as a generalization criterion, and use the asymptotic behavior of the MISE as well as thelocally optimal bandwidths (LOB) -- the bandwidth function that minimizes MISE in the asymptotic limit. The asymptotic expression of our objective then reveals the dependence of the MISE on the training density, enabling analytic minimization. As a result, we obtain the optimal training density in a closed-form. The almost model-free nature of our approach should encode raw properties of the target problem, and thus provide a robust and model-agnostic active learning strategy. Furthermore, the obtained training density factorizes the influence of local function complexity, noise leveland test density in a transparent and interpretable way. We validate our theory in numerical simulations, and show that the proposed active learning method outperforms the existing state-of-the-art model-agnostic approaches.
翻訳日:2021-05-26 14:00:27 公開日:2021-05-25
# 模倣学習のためのハイパーパラメータ選択

Hyperparameter Selection for Imitation Learning ( http://arxiv.org/abs/2105.12034v1 )

ライセンス: Link先を確認
Leonard Hussenot, Marcin Andrychowicz, Damien Vincent, Robert Dadashi, Anton Raichuk, Lukasz Stafiniak, Sertan Girgin, Raphael Marinier, Nikola Momchev, Sabela Ramos, Manu Orsini, Olivier Bachem, Matthieu Geist, Olivier Pietquin(参考訳) 本稿では,実演者の報酬関数が常に観察できない場合,継続制御の文脈において,模倣学習アルゴリズムのチューニングハイパーパラメータ(hps)の問題に対処する。 模倣学習の膨大な文献は、この報酬関数をHPの選択に利用できると考えているが、現実的な設定ではない。 実際、この報酬関数が利用可能であれば、政策トレーニングに直接使用することができ、模倣は必要ないだろう。 このほとんど無視された問題に対処するため、我々は外部報酬に対する多くのプロキシを提案する。 9つの環境にまたがる10万以上のエージェントによる広範な実証研究で評価し,hps選択のための実践的な推奨を行った。 その結果,模倣学習アルゴリズムはHPの選択に敏感であるが,報酬関数のプロキシを通じて十分なHPを選択することが可能であることが示唆された。

We address the issue of tuning hyperparameters (HPs) for imitation learning algorithms in the context of continuous-control, when the underlying reward function of the demonstrating expert cannot be observed at any time. The vast literature in imitation learning mostly considers this reward function to be available for HP selection, but this is not a realistic setting. Indeed, would this reward function be available, it could then directly be used for policy training and imitation would not be necessary. To tackle this mostly ignored problem, we propose a number of possible proxies to the external reward. We evaluate them in an extensive empirical study (more than 10'000 agents across 9 environments) and make practical recommendations for selecting HPs. Our results show that while imitation learning algorithms are sensitive to HP choices, it is often possible to select good enough HPs through a proxy to the reward function.
翻訳日:2021-05-26 13:59:49 公開日:2021-05-25
# OFEI: DLaaSに対するAndroidの準ブラックボックスのサンプルアタックフレームワーク

OFEI: A Semi-black-box Android Adversarial Sample Attack Framework Against DLaaS ( http://arxiv.org/abs/2105.11593v1 )

ライセンス: Link先を確認
Guangquan Xu, GuoHua Xin, Litao Jiao, Jian Liu, Shaoying Liu, Meiqi Feng, and Xi Zheng(参考訳) Androidデバイスの人気が高まり、Androidのマルウェアはユーザーの安全を脅かしている。 このような脅威はディープラーニング・アズ・ア・サービス(dlaas)によって検出されるが、dlaasの最も弱い部分であるディープニューラルネットワークは、攻撃者によって詳細な敵のサンプルによってしばしば騙される。 本稿では,android の敵対的サンプルを作成するために,one-feature-each-it eration (ofei) と呼ばれる新しいセミブラックボックス攻撃フレームワークを提案する。 このフレームワークは可能な限り少数の機能を変更し、分類器を騙すために分類器情報が少ない。 我々は、JSMF、GenAttack、ポイントワイズアタックのベンチマーク手法と比較し、OFEIフレームワークを評価するための制御実験を行う。 実験の結果,OFEIの誤分類率は98.25%であった。 さらに、ofeiはfast gradient sign method(fgsm)やdeepfoolといった、従来のホワイトボックス攻撃手法を拡張して、android用の敵対的なサンプルを作成することもできる。 最後に、DLaaSの安全性を高めるために、ベイズニューラルネットワークの2つの不確実性を使用して、敵のサンプルを検出し、99.28%の高い検出率を達成する。

With the growing popularity of Android devices, Android malware is seriously threatening the safety of users. Although such threats can be detected by deep learning as a service (DLaaS), deep neural networks as the weakest part of DLaaS are often deceived by the adversarial samples elaborated by attackers. In this paper, we propose a new semi-black-box attack framework called one-feature-each-ite ration (OFEI) to craft Android adversarial samples. This framework modifies as few features as possible and requires less classifier information to fool the classifier. We conduct a controlled experiment to evaluate our OFEI framework by comparing it with the benchmark methods JSMF, GenAttack and pointwise attack. The experimental results show that our OFEI has a higher misclassification rate of 98.25%. Furthermore, OFEI can extend the traditional white-box attack methods in the image field, such as fast gradient sign method (FGSM) and DeepFool, to craft adversarial samples for Android. Finally, to enhance the security of DLaaS, we use two uncertainties of the Bayesian neural network to construct the combined uncertainty, which is used to detect adversarial samples and achieves a high detection rate of 99.28%.
翻訳日:2021-05-26 13:58:53 公開日:2021-05-25
# アンカーテキスト情報によるウィキペディアのリンク予測

Predicting Links on Wikipedia with Anchor Text Information ( http://arxiv.org/abs/2105.11734v1 )

ライセンス: Link先を確認
Robin Brochier, Fr\'ed\'eric B\'echet(参考訳) wikipediaは最大規模のオンライン百科事典であり、内部リンクで結ばれた文書のコーパスである。 これらのリンクは、この百科事典でカバーされている概念に関する重要な情報を含む大きなネットワークの構成要素を形成する。 対象ページを指しているソースページのアンカーテキストで具体化された2つの記事間のリンクの存在は、読者のトピックに対する理解を高めることができる。 しかし、リンクのプロセスは、アンダーリンクとオーバーリンクの両方を避けるための特定の編集規則に従う。 本稿では、英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的および帰納的タスクを調査し、アンカーテキスト情報に基づく自動リンクの背後にあるいくつかの重要な課題を明らかにする。 適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。 さらに,タスクの全体的な難易度を適切に推定するベースラインモデルを提案する。

Wikipedia, the largest open-collaborative online encyclopedia, is a corpus of documents bound together by internal hyperlinks. These links form the building blocks of a large network whose structure contains important information on the concepts covered in this encyclopedia. The presence of a link between two articles, materialised by an anchor text in the source page pointing to the target page, can increase readers' understanding of a topic. However, the process of linking follows specific editorial rules to avoid both under-linking and over-linking. In this paper, we study the transductive and the inductive tasks of link prediction on several subsets of the English Wikipedia and identify some key challenges behind automatic linking based on anchor text information. We propose an appropriate evaluation sampling methodology and compare several algorithms. Moreover, we propose baseline models that provide a good estimation of the overall difficulty of the tasks.
翻訳日:2021-05-26 13:58:17 公開日:2021-05-25
# FENXI: エッジでのディープラーニングトラフィック分析

FENXI: Deep-learning Traffic Analytics at the Edge ( http://arxiv.org/abs/2105.11738v1 )

ライセンス: Link先を確認
Massimo Gallo, Alessandro Finamore, Gwendal Simon, and Dario Rossi(参考訳) ISPネットワークの最初のアグリゲーションポイントにおけるライブトラフィック分析は、複雑なトラフィックエンジニアリングポリシーの実装を可能にするが、特にディープラーニング(DL)ベースの分析において、処理能力の不足によって制限される。 特別なハードウェアアクセラレーター、すなわちテンソル処理ユニット(tpu)の導入は、エッジにおけるネットワークデバイスの処理能力を向上させる機会を提供する。 しかし、これまでパケット処理パイプラインは、ネットワーク操作に干渉することなく、データプレーンにdlベースの分析機能を提供することができない。 本稿では,TPUを利用して複雑な解析を行うシステムであるFENXIを提案する。 FENXIの設計は、転送操作とトラフィック分析を分離し、パケットとフローのレベルで異なる粒度で動作する。 ネットワークデータと分析結果の交換に非同期に通信する2つの独立したモジュールを考案し、パケット単位の処理に影響を与えることなく、フローレベルの統計を抽出するデータ構造を設計する。 敵ネットワーク条件と現実ネットワーク条件の両方を考慮した汎用サーバ上でFENXIを試作・評価した。 解析の結果、FENXIは、限られたリソースのみを必要とする100Gbpsの回線レートトラフィック処理を維持でき、かつ、可変ネットワーク条件に動的に適応できることがわかった。

Live traffic analysis at the first aggregation point in the ISP network enables the implementation of complex traffic engineering policies but is limited by the scarce processing capabilities, especially for Deep Learning (DL) based analytics. The introduction of specialized hardware accelerators i.e., Tensor Processing Unit (TPU), offers the opportunity to enhance the processing capabilities of network devices at the edge. Yet, to date, no packet processing pipeline is capable of offering DL-based analysis capabilities in the data-plane, without interfering with network operations. In this paper, we present FENXI, a system to run complex analytics by leveraging TPU. The design of FENXI decouples forwarding operations and traffic analytics which operates at different granularities i.e., packet and flow levels. We conceive two independent modules that asynchronously communicate to exchange network data and analytics results, and design data structures to extract flow level statistics without impacting per-packet processing. We prototyped and evaluated FENXI on general-purpose servers considering both adversarial and realistic network conditions. Our analysis shows that FENXI can sustain 100 Gbps line rate traffic processing requiring only limited resources, while also dynamically adapting to variable network conditions.
翻訳日:2021-05-26 13:57:52 公開日:2021-05-25
# 非満足なサブセット最適化によるCSPの効率的な説明

Efficiently Explaining CSPs with Unsatisfiable Subset Optimization ( http://arxiv.org/abs/2105.11763v1 )

ライセンス: Link先を確認
Emilio Gamba, Bart Bogaerts and Tias Guns(参考訳) 我々は,制約満足度問題の解法を説明する手法を最近提案した。 ここでの説明は、単純な推論ステップのシーケンスであり、推論ステップの単純さは、使用される制約と事実の数と種類によって測定され、シーケンスは問題のすべての論理的結果を説明する。 私たちは、これらの正式な基盤の上に構築し、2つの新しい質問、すなわち、(与えられたコストメトリックに関して)確実に最適な説明を生成する方法と、それらを効率的に生成する方法に取り組む。 これらの疑問に答えるために,1) 最適な不満足なサブセットを見つけるための暗黙的なヒットセットアルゴリズム,2) サブセットの制約を考慮に入れた単一呼び出しに対する複数の(最適)不満足なサブセットの呼び出しを減らす方法,3) 関連情報を複数の呼び出しで再利用する手法を開発する。 この方法は、コスト最適化不能な部分集合を見つける必要がある他の問題にも適用できる。 具体的には、論理グリッドパズルのような制約満足度問題に対する最適説明手順のシーケンスを効果的に見つけるために、このアプローチが利用できることを示す。

We build on a recently proposed method for explaining solutions of constraint satisfaction problems. An explanation here is a sequence of simple inference steps, where the simplicity of an inference step is measured by the number and types of constraints and facts used, and where the sequence explains all logical consequences of the problem. We build on these formal foundations and tackle two emerging questions, namely how to generate explanations that are provably optimal (with respect to the given cost metric) and how to generate them efficiently. To answer these questions, we develop 1) an implicit hitting set algorithm for finding optimal unsatisfiable subsets; 2) a method to reduce multiple calls for (optimal) unsatisfiable subsets to a single call that takes constraints on the subset into account, and 3) a method for re-using relevant information over multiple calls to these algorithms. The method is also applicable to other problems that require finding cost-optimal unsatiable subsets. We specifically show that this approach can be used to effectively find sequences of optimal explanation steps for constraint satisfaction problems like logic grid puzzles.
翻訳日:2021-05-26 13:57:17 公開日:2021-05-25
# 双方向A*を用いた双方向探索

Bi-objective Search with Bi-directional A* ( http://arxiv.org/abs/2105.11888v1 )

ライセンス: Link先を確認
Saman Ahmadi, Guido Tack, Daniel Harabor, Philip Kilby(参考訳) 双目的探索は、2次元領域における最適解の集合を見つけることに関わるよく知られたアルゴリズム問題である。 この問題には、輸送システムの計画やエネルギーシステムの最適制御など、幅広い応用がある。 近年,二目的A*検索 (BOA*) は大規模ネットワークにおいて最先端の性能を示している。 本稿では,数種類のスピードアップヒューリスティックスに富んだBOA*の双方向変種を開発する。 実験結果から,二目的探索(boba*)のための双方向a*アルゴリズムは,全ベンチマークインスタンスに対して平均5倍の改善により,boa*,bi-objective dijkstraおよびbi-directional bi-objective dijkstraの状態を上回って,すべてのベンチマークケースをタイムリミット内で最適に解くことができることが示された。

Bi-objective search is a well-known algorithmic problem, concerned with finding a set of optimal solutions in a two-dimensional domain. This problem has a wide variety of applications such as planning in transport systems or optimal control in energy systems. Recently, bi-objective A*-based search (BOA*) has shown state-of-the-art performance in large networks. This paper develops a bi-directional variant of BOA*, enriched with several speed-up heuristics. Our experimental results on 1,000 benchmark cases show that our bi-directional A* algorithm for bi-objective search (BOBA*) can optimally solve all of the benchmark cases within the time limit, outperforming the state of the art BOA*, bi-objective Dijkstra and bi-directional bi-objective Dijkstra by an average runtime improvement of a factor of five over all of the benchmark instances.
翻訳日:2021-05-26 13:56:44 公開日:2021-05-25
# Examplar-based Clustering in Industry 4.0

Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 ( http://arxiv.org/abs/2105.12026v1 )

ライセンス: Link先を確認
Philipp-Jan Honysz and Alexander Schulze-Struchtrup and Sebastian Buschj\"ager and Katharina Morik(参考訳) データ要約は、巨大なデータストリームから知識を引き出すための貴重なツールであり、多くのアプリケーションでその有用性を証明しています。 要約は、サブモジュラー関数を最適化することで見つけることができる。 これらの関数はデータのサブセットを実際の値にマッピングし、それらの"表現性"を示し、基礎となるデータの多様な要約を見つけるために最大化する。 本稿では,Exemplarベースのクラスタリングをサブモジュール関数として検討し,その計算複雑性に対処するGPUアルゴリズムを提案する。 我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。 また、GPUアルゴリズムはワークステーショングレードのGPUだけでなく、最大35倍の高速化が可能な低消費電力の組み込み計算ユニットにも優れた実行時利益をもたらすことを示した。 さらに,本アルゴリズムを射出成形プロセスから得られた実世界のデータに適用し,この特定の工程をステアリングすることで,コスト削減と不良部品製造の削減を図っている。 純粋なスピードアップだけでなく、我々のアプローチはこのような産業的で現実世界のデータに対して妥当な時間枠で要約を提供できることを示している。

Data summarizations are a valuable tool to derive knowledge from large data streams and have proven their usefulness in a great number of applications. Summaries can be found by optimizing submodular functions. These functions map subsets of data to real values, which indicate their "representativeness&q uot; and which should be maximized to find a diverse summary of the underlying data. In this paper, we studied Exemplar-based clustering as a submodular function and provide a GPU algorithm to cope with its high computational complexity. We show, that our GPU implementation provides speedups of up to 72x using single-precision and up to 452x using half-precision computation compared to conventional CPU algorithms. We also show, that the GPU algorithm not only provides remarkable runtime benefits with workstation-grade GPUs but also with low-power embedded computation units for which speedups of up to 35x are possible. Furthermore, we apply our algorithm to real-world data from injection molding manufacturing processes and discuss how found summaries help with steering this specific process to cut costs and reduce the manufacturing of bad parts. Beyond pure speedup considerations, we show, that our approach can provide summaries within reasonable time frames for this kind of industrial, real-world data.
翻訳日:2021-05-26 13:56:19 公開日:2021-05-25
# 人間とロボットの混合チームにおける役割と計画タスクを割り当てる統合動的手法

An Integrated Dynamic Method for Allocating Roles and Planning Tasks for Mixed Human-Robot Teams ( http://arxiv.org/abs/2105.12031v1 )

ライセンス: Link先を確認
Fabio Fusaro (1 and 2), Edoardo Lamon (1), Elena De Momi (2), Arash Ajoudani (1) ((1) Human-Robot Interfaces and physical Interaction, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Department of Electronics, Information and Bioengineering, Politecnico di Milano Politecnico di Milano, Milan, Italy)(参考訳) 本稿では,生産環境に適した混合ロボットチームにおけるタスクの計画と割当のための行動木に基づく新しい統合動的手法を提案する。 ビヘイビアツリーの定式化により、1つのジョブを時間的および論理的な制約のある異なるタスクの複合としてエンコードすることができる。 このように、よく研究されているオフライン集中最適化問題の代わりに、複雑なタスク依存やクロススケジュールタスク依存を伴わずに、複数の簡易オンライン最適化サブプロブレムでロール割り当て問題を解く。 これらのサブプロブレムは混合整数線形プログラムとして定義され、ワーカー-アクションに関連するコストとワーカーの可用性に応じて、利用可能なワーカー間で実行中のタスクを割り当てる。 提案手法の動作を特徴付けるために,アクション・ワーカー割当の結果と計算複雑性を評価する異なるシミュレーション実験を行うことを選択した。 得られた結果は,アルゴリズムの性質とエージェントの動作をシミュレートする可能性から,実実験においてアルゴリズムがどのように機能するかをうまく記述する必要がある。

This paper proposes a novel integrated dynamic method based on Behavior Trees for planning and allocating tasks in mixed human robot teams, suitable for manufacturing environments. The Behavior Tree formulation allows encoding a single job as a compound of different tasks with temporal and logic constraints. In this way, instead of the well-studied offline centralized optimization problem, the role allocation problem is solved with multiple simplified online optimization sub-problem, without complex and cross-schedule task dependencies. These sub-problems are defined as Mixed-Integer Linear Programs, that, according to the worker-actions related costs and the workers' availability, allocate the yet-to-execute tasks among the available workers. To characterize the behavior of the developed method, we opted to perform different simulation experiments in which the results of the action-worker allocation and computational complexity are evaluated. The obtained results, due to the nature of the algorithm and to the possibility of simulating the agents' behavior, should describe well also how the algorithm performs in real experiments.
翻訳日:2021-05-26 13:55:43 公開日:2021-05-25
# 中を見て 企業内イントラネットネットワークの分析と単語共起ネットワークを用いた株価予測

Look inside. Predicting stock prices by analysing an enterprise intranet social network and using word co-occurrence networks ( http://arxiv.org/abs/2105.11780v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, G. Scettri(参考訳) 本研究は、企業の株価を予測するのに役立つ新しい指標を提供する従業員のコミュニケーションを考察する。 イタリアの大企業のイントラネットフォーラムを調査し、約8,000人の従業員の交流と言語使用について検討した。 一般談話に含まれる単語をリンクするネットワークを構築した。 このネットワークでは,企業ブランドを代表するノードの位置に注目した。 低い感情、企業ブランドの中間中心性、より密集した単語共起ネットワーク、より均等に分散した従業員の中央集中度スコア(中間中心性の低いグループ)は、いずれも株価上昇の重要な予測要因であることがわかった。 我々の発見は、学者、企業マネージャー、プロの投資家にとって役立つ新しい指標を提供し、既存の予測モデルに統合して精度を向上させることができる。 最後に,その応用範囲を広げることにより,単語共起ネットワークの研究に貢献する。

This study looks into employees' communication, offering novel metrics which can help to predict a company's stock price. We studied the intranet forum of a large Italian company, exploring the interactions and the use of language of about 8,000 employees. We built a network linking words included in the general discourse. In this network, we focused on the position of the node representing the company brand. We found that a lower sentiment, a higher betweenness centrality of the company brand, a denser word co-occurrence network and more equally distributed centrality scores of employees (lower group betweenness centrality) are all significant predictors of higher stock prices. Our findings offers new metrics that can be helpful for scholars, company managers and professional investors and could be integrated into existing forecasting models to improve their accuracy. Lastly, we contribute to the research on word co-occurrence networks by extending their field of application.
翻訳日:2021-05-26 13:54:40 公開日:2021-05-25
# ビッグデータとビッグデータ: 企業が自らを再考する必要があるとき

Big data and big values: When companies need to rethink themselves ( http://arxiv.org/abs/2105.12048v1 )

ライセンス: Link先を確認
M. A. Barchiesi, A. Fronzetti Colladon(参考訳) ビジネス環境の複雑さに直面するため,テキストマイニング,ソーシャルネットワーク,ビッグデータ分析を組み合わせた新たな手法を提案し,企業の中核的価値に対する利害関係者の態度を評価する。 このアプローチをケーススタディに適用し,イタリアにおけるコアバリューに関するTwitterの談話を検討した。 我々は、フォーチュン誌の世界で最も賞賛された企業ランキング(2013-2017年)にリストされた企業のコアバリューに関連する9万4000以上のツイートを収集した。 イタリアのシナリオでは、主要な3つの価値指向(顧客、従業員、卓越)、そして、定期的な注意を必要とする3つの潜在性(経済金融の成長、市民権、社会的責任)を見出した。 私たちの貢献は主に方法論的であり、テキストマイニングや複雑なビジネスコンテキストに適用されたオンラインビッグデータ分析の研究を拡張しています。

In order to face the complexity of business environments and detect priorities while triggering contingency strategies, we propose a new methodological approach that combines text mining, social network and big data analytics, with the assessment of stakeholders' attitudes towards company core values. This approach was applied in a case study where we considered the Twitter discourse about core values in Italy. We collected more than 94,000 tweets related to the core values of the firms listed in Fortune's ranking of the World's Most Admired Companies (2013-2017). For the Italian scenario, we found three predominant core values orientations (Customers, Employees and Excellence) - which should be at the basis of any business strategy - and three latent ones (Economic-Financial Growth, Citizenship and Social Responsibility), which need periodic attention. Our contribution is mostly methodological and extends the research on text mining and on online big data analytics applied in complex business contexts.
翻訳日:2021-05-26 13:54:10 公開日:2021-05-25
# 群選択と縮小とスパース半パラメトリックモデリングへの応用

Group selection and shrinkage with application to sparse semiparametric modeling ( http://arxiv.org/abs/2105.12081v1 )

ライセンス: Link先を確認
Ryan Thompson and Farshid Vahid(参考訳) グループ選択が可能なスパース回帰と分類推定器は、マルチタスク学習からスパース付加モデリング、階層選択まで、様々な統計問題に適用できる。 この研究は、グループ部分集合選択とグループラッソまたはリッジ収縮を組み合わせたグループスパース推定器のクラスを導入する。 本研究では,非凸正規化面と有限サンプル誤差境界を適合させて回帰関数を推定する最適化フレームワークを開発する。 我々の方法と解析は、群が重なり合う一般的な設定に適合する。 群選択の応用として、各予測器の効果をゼロ、リニア、非線形にすることを可能にする手続きであるスパース・セミパラメトリック・モデリング(sparse semiparametric modeling)について検討する。 このタスクのために、新しい推定器は、代替品と比較して、合成データに関するいくつかのメトリクスで改善される。 最後に,多くの予測器を用いたスーパーマーケットの足場交通と景気不況のモデル化の有効性を示す。 提案はすべて,スケーラブルな実装であるgrpselで利用可能です。

Sparse regression and classification estimators capable of group selection have application to an assortment of statistical problems, from multitask learning to sparse additive modeling to hierarchical selection. This work introduces a class of group-sparse estimators that combine group subset selection with group lasso or ridge shrinkage. We develop an optimization framework for fitting the nonconvex regularization surface and present finite-sample error bounds for estimation of the regression function. Our methods and analyses accommodate the general setting where groups overlap. As an application of group selection, we study sparse semiparametric modeling, a procedure that allows the effect of each predictor to be zero, linear, or nonlinear. For this task, the new estimators improve across several metrics on synthetic data compared to alternatives. Finally, we demonstrate their efficacy in modeling supermarket foot traffic and economic recessions using many predictors. All of our proposals are made available in the scalable implementation grpsel.
翻訳日:2021-05-26 13:53:42 公開日:2021-05-25
# 未知のジェネリックリフレクタンスのテクスチャレス平滑表面の多視点3次元再構成

Multi-view 3D Reconstruction of a Texture-less Smooth Surface of Unknown Generic Reflectance ( http://arxiv.org/abs/2105.11599v1 )

ライセンス: Link先を確認
Ziang Cheng, Hongdong Li, Yuta Asano, Yinqiang Zheng, Imari Sato(参考訳) 表面反射率が不明な純テクスチャレス物体の3次元形状の復元(例) 非ラトビア語)は多視点再構成において難しい課題と見なされている。 主な障害は、光度定数に違反するクロスビュー対応を確立することにある。 本稿では,同一位置のカメラ光スキャナ装置を用いて,この課題を克服するための簡易かつ実用的な解決法を提案する。 既存の解とは異なり、対応を明示的に解くことはできない。 代わりに、この問題は一般に多視点幾何学的および測光的制約によってうまく解決され、少数の入力ビューから解決できると主張する。 本研究では, 表面形状と反射率に関する共同エネルギー最小化として再構成タスクを定式化する。 このエネルギーは非常に非凸であるにもかかわらず、ランダム初期化からでもグローバルな最適形状と反射率を頑健に回復する最適化アルゴリズムを開発する。 シミュレーションデータと実データの両方について広範な実験を行い,今後の拡張の可能性について考察した。

Recovering the 3D geometry of a purely texture-less object with generally unknown surface reflectance (e.g. non-Lambertian) is regarded as a challenging task in multi-view reconstruction. The major obstacle revolves around establishing cross-view correspondences where photometric constancy is violated. This paper proposes a simple and practical solution to overcome this challenge based on a co-located camera-light scanner device. Unlike existing solutions, we do not explicitly solve for correspondence. Instead, we argue the problem is generally well-posed by multi-view geometrical and photometric constraints, and can be solved from a small number of input views. We formulate the reconstruction task as a joint energy minimization over the surface geometry and reflectance. Despite this energy is highly non-convex, we develop an optimization algorithm that robustly recovers globally optimal shape and reflectance even from a random initialization. Extensive experiments on both simulated and real data have validated our method, and possible future extensions are discussed.
翻訳日:2021-05-26 13:52:34 公開日:2021-05-25
# 遠距離波自由空間飛行時間イメージング

Centimeter-Wave Free-Space Time-of-Flight Imaging ( http://arxiv.org/abs/2105.11606v1 )

ライセンス: Link先を確認
Seung-Hwan Baek, Noah Walsh, Ilya Chugunov, Zheng Shi, Felix Heide(参考訳) 深度カメラは、パーソナルデバイス、ロボティクス、自動運転車など、測定された深度を直接的または間接的に頼りにするさまざまなアプリケーションで、基礎的なモダリティとして登場している。 飛行時間(ToF)法はこれらの応用に寄与しているが、ToF法の精度とロバスト性は光子の時間タグ付けや光変換後の変調によって制限される。 光学変調法は, 結合損失が大きい繊維結合変調やサブcm範囲の干渉変調に制限されており, 干渉計法とToF法との精度差は3桁以上である。 本研究では、このギャップを埋め、従来のシリコン強度センサによる表面反射率や周囲光への頑健さでミクロンスケールの深度分解が可能な光変換前の全光自由空間相関の計算画像化手法を提案する。 この目的のために、GHzレートの変調と計算フェーズの切り離しという2つの技術的課題を解決する。 共振偏光変調器を用いた撮像手法を提案し,10GHz以上の高変調コントラストを実現する光二重パス周波数共振器を提案する。 同時に、変調帯域幅の小さいセンチメートル波変調は、既存の位相アンラッピング法を非効率にする。 我々は、隣接するラップがしばしば高い相関関係にあることを悪用する神経相解離法でこの問題に取り組む。 提案手法をシミュレーションおよび実験で検証し,ミクロンスケールの深度精度を実現する。 表面のテクスチャや環境光とは無関係に精密な深度センシングを示し,既存のアナログ復調法と比較した。

Depth cameras are emerging as a cornerstone modality with diverse applications that directly or indirectly rely on measured depth, including personal devices, robotics, and self-driving vehicles. Although time-of-flight (ToF) methods have fueled these applications, the precision and robustness of ToF methods is limited by relying on photon time-tagging or modulation after photo-conversion. Successful optical modulation approaches have been restricted fiber-coupled modulation with large coupling losses or interferometric modulation with sub-cm range, and the precision gap between interferometric methods and ToF methods is more than three orders of magnitudes. In this work, we close this gap and propose a computational imaging method for all-optical free-space correlation before photo-conversion that achieves micron-scale depth resolution with robustness to surface reflectance and ambient light with conventional silicon intensity sensors. To this end, we solve two technical challenges: modulating at GHz rates and computational phase unwrapping. We propose an imaging approach with resonant polarization modulators and devise a novel optical dual-pass frequency-doubling which achieves high modulation contrast at more than 10GHz. At the same time, centimeter-wave modulation together with a small modulation bandwidth render existing phase unwrapping methods ineffective. We tackle this problem with a neural phase unwrapping method that exploits that adjacent wraps are often highly correlated. We validate the proposed method in simulation and experimentally, where it achieves micron-scale depth precision. We demonstrate precise depth sensing independently of surface texture and ambient light and compare against existing analog demodulation methods, which we outperform across all tested scenarios.
翻訳日:2021-05-26 13:52:09 公開日:2021-05-25
# DTNN:エッジビジョン応用のためのデンドライトツリー誘導ニューラルネットワークによるエネルギー効率推論

DTNN: Energy-efficient Inference with Dendrite Tree Inspired Neural Networks for Edge Vision Applications ( http://arxiv.org/abs/2105.11848v1 )

ライセンス: Link先を確認
Tao Luo, Wai Teng Tang, Matthew Kay Fei Lee, Chuping Qu, Weng-Fai Wong, Rick Goh(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョン(CV)において大きな成功を収めている。 しかし、DNNモデルのトレーニングと推論はメモリと計算に重きを置いており、エネルギー消費とシリコン面積の面でかなりのオーバーヘッドをもたらす。 特に推論は、強力なプラットフォームでオフラインでトレーニングできるため、トレーニングよりもコストに敏感である。一方、特にモバイルやエッジビジョンアプリケーションでは、制限されたフォームファクタを持つバッテリー駆動デバイスで推論を行う必要がある。 DNN推論を高速化するために,モデル量子化を提案する。 しかし、以前の研究は、操作の効率を考慮せずに量子化率にのみ焦点をあてている。 本稿では,活性化量子化によって実現されたテーブルルックアップ操作によるエネルギー効率の高い推論のためのDendrite-Tree based Neural Network (DTNN)を提案する。 DTNNでは、コストのかかるウェイトアクセスと算術演算の両方が推論のために排除される。 我々は、MNIST、Cifar10/Cifar100、SVHN、ImageNetなど、さまざまなデータセットを用いて、LeNet-5、MobileNet、VGG、ResNetなどのDNNモデルの実験を行った。 DTNNはResNet-18とVGG-11でそれぞれ19.4Xと64.9Xの大幅な省エネを実現した。 DTNNの有効性をさらに検証し,エッジビジョンのための最先端の低エネルギー実装と比較するために,既製のFPGAを用いてDTNNベースのMLP画像分類器を設計・実装する。 その結果、FPGA上でのDTNNは、ASICチップを用いた最新の低エネルギーアプローチと比較して、はるかに優れたエネルギー消費とレイテンシを実現することができた。

Deep neural networks (DNN) have achieved remarkable success in computer vision (CV). However, training and inference of DNN models are both memory and computation intensive, incurring significant overhead in terms of energy consumption and silicon area. In particular, inference is much more cost-sensitive than training because training can be done offline with powerful platforms, while inference may have to be done on battery powered devices with constrained form factors, especially for mobile or edge vision applications. In order to accelerate DNN inference, model quantization was proposed. However previous works only focus on the quantization rate without considering the efficiency of operations. In this paper, we propose Dendrite-Tree based Neural Network (DTNN) for energy-efficient inference with table lookup operations enabled by activation quantization. In DTNN both costly weight access and arithmetic computations are eliminated for inference. We conducted experiments on various kinds of DNN models such as LeNet-5, MobileNet, VGG, and ResNet with different datasets, including MNIST, Cifar10/Cifar100, SVHN, and ImageNet. DTNN achieved significant energy saving (19.4X and 64.9X improvement on ResNet-18 and VGG-11 with ImageNet, respectively) with negligible loss of accuracy. To further validate the effectiveness of DTNN and compare with state-of-the-art low energy implementation for edge vision, we design and implement DTNN based MLP image classifiers using off-the-shelf FPGAs. The results show that DTNN on the FPGA, with higher accuracy, could achieve orders of magnitude better energy consumption and latency compared with the state-of-the-art low energy approaches reported that use ASIC chips.
翻訳日:2021-05-26 13:51:23 公開日:2021-05-25
# 学習画像圧縮のための自己組織化変分オートエンコーダ(Self-VAE)

Self-Organized Variational Autoencoders (Self-VAE) for Learned Image Compression ( http://arxiv.org/abs/2105.12107v1 )

ライセンス: Link先を確認
M. Ak{\i}n Y{\i}lmaz, Onur Kele\c{s}, Hilal G\"uven, A. Murat Tekalp, Junaid Malik, Serkan K{\i}ranyaz(参考訳) エンドツーエンドに最適化された画像圧縮では、一般化された分割正規化(GDN)を備えた畳み込み変分オートエンコーダを用いて画像を潜時空間に変換するのが一般的である。 近年,一組の代替品から最良の非線形性を学ぶオペレーショナルニューラルネットワーク (ONNs) や,テイラー級数を介して任意の非線形性を近似する自己組織化変種Self-ONNsが,畳み込み層と固定された非線形活性化の限界に対処するために提案されている。 本稿では,変分オートエンコーダの畳み込み層とgdn層を自己組織型操作層に置き換え,より強固な非線形性を利用した新しい自己組織型変分オートエンコーダ(self-vae)アーキテクチャを提案する。 実験結果から,提案したSelf-VAEは,速度歪み性能と知覚画像品質の両方の改善をもたらすことが示された。

In end-to-end optimized learned image compression, it is standard practice to use a convolutional variational autoencoder with generalized divisive normalization (GDN) to transform images into a latent space. Recently, Operational Neural Networks (ONNs) that learn the best non-linearity from a set of alternatives, and their self-organized variants, Self-ONNs, that approximate any non-linearity via Taylor series have been proposed to address the limitations of convolutional layers and a fixed nonlinear activation. In this paper, we propose to replace the convolutional and GDN layers in the variational autoencoder with self-organized operational layers, and propose a novel self-organized variational autoencoder (Self-VAE) architecture that benefits from stronger non-linearity. The experimental results demonstrate that the proposed Self-VAE yields improvements in both rate-distortion performance and perceptual image quality.
翻訳日:2021-05-26 13:50:36 公開日:2021-05-25
# ベントニックAUV調査計画のための特徴空間探査

Feature Space Exploration For Planning Initial Benthic AUV Surveys ( http://arxiv.org/abs/2105.11598v1 )

ライセンス: Link先を確認
Jackson Shields, Oscar Pizarro, Stefan B. Williams(参考訳) 特別目的自律水中車両(AUV)は、海底付近の光学画像を収集するベントニック(海底)調査に使用される。 カメラの小さなセンサーの足跡と、調査対象地域が広いため、これらのauvは数万平方メートル以上のエリアをカバーすることはできない。 そのため, サンプルの少ないAUVパスを効果的に実施するには, 調査エリアが必要である。 広帯域の音響浴量測定データは広い範囲で利用可能であり、しばしば海底カバーに先立って有用である。 そのため、AUVデータ収集のガイドには、事前の浴量測定が使用できる。 本研究は,多種多様な水浴場から試料を採取するために,水浴計の特徴空間表現を効率的に探索する初期auvサーベイの計画手法を提案する。 これにより、AUVは独自の生息地を含む可能性があり、調査地域全体を代表する地域を訪問できる。 これらの手法のAUV調査計画への適合性は,特徴空間のカバレッジと,初期潜水時のベント性生息地の全クラスへの訪問能力に基づいて評価される。 これは、初期潜水の有用性を高めるため、AUV調査にとって貴重なツールである。 また、音響浴量測定と視覚由来の海底分類の関係を学習するための総合的なトレーニングセットも提供する。

Special-purpose Autonomous Underwater Vehicles (AUVs) are utilised for benthic (seafloor) surveys, where the vehicle collects optical imagery of near the seafloor. Due to the small-sensor footprint of the cameras and the vast areas to be surveyed, these AUVs can not feasibly full coverage of areas larger than a few tens of thousands of square meters. Therefore AUV paths which sample sparsely, yet effectively, the survey areas are necessary. Broad scale acoustic bathymetric data is ready available over large areas, and often is a useful prior of seafloor cover. As such, prior bathymetry can be used to guide AUV data collection. This research proposes methods for planning initial AUV surveys that efficiently explore a feature space representation of the bathymetry, in order to sample from a diverse set of bathymetric terrain. This will enable the AUV to visit areas that likely contain unique habitats and are representative of the entire survey site. The suitability of these methods to plan AUV surveys is evaluated based on the coverage of the feature space and also the ability to visit all classes of benthic habitat on the initial dive. This is a valuable tool for AUV surveys as it increases the utility of initial dives. It also delivers a comprehensive training set to learn a relationship between acoustic bathymetry and visually-derived seafloor classifications.
翻訳日:2021-05-26 13:49:00 公開日:2021-05-25
# より多くのデータのようなデータはありません -- リモートセンシングにおける機械学習データセットの現状

There is no data like more data -- current status of machine learning datasets in remote sensing ( http://arxiv.org/abs/2105.11726v1 )

ライセンス: Link先を確認
Michael Schmitt, Seyed Ali Ahmadi, Ronny H\"ansch(参考訳) アノテーション付きデータセットは、リモートセンシングデータの自動解釈のために設計された機械学習ベースの手法の開発と評価のための最も重要な前提条件の1つである。 本稿では,これらのデータセットの歴史的展開を概観し,いくつかの事例をもとにそれらの特徴を論じ,今後の発展に向けたオープンな課題に対処する。

Annotated datasets have become one of the most crucial preconditions for the development and evaluation of machine learning-based methods designed for the automated interpretation of remote sensing data. In this paper, we review the historic development of such datasets, discuss their features based on a few selected examples, and address open issues for future developments.
翻訳日:2021-05-26 13:48:23 公開日:2021-05-25
# 話者認識のための発話分割:GMM-SVMフレームワークによる新しい知見を用いた実験と分析

Utterance partitioning for speaker recognition: an experimental review and analysis with new findings under GMM-SVM framework ( http://arxiv.org/abs/2105.11728v1 )

ライセンス: Link先を確認
Nirmalya Sen, Md Sahidullah (MULTISPEECH), Hemant Patil (DA-IICT), Shyamal Kumar das Mandal (IIT Kharagpur), Sreenivasa Krothapalli Rao (IIT Kharagpur), Tapan Kumar Basu (IIT Kharagpur)(参考訳) 音声認識システムの性能は、登録やテストに使用する音声量に大きく依存する。 本稿では,gmm-svmを用いた話者認識システムの持続時間変動を考慮した詳細な評価と分析を行う。 本稿では,gmm-svm分類器と,その先行手法であるガウス混合モデル-ユニバーサル背景モデル(gmm-ubm)の性能を比較した。 本研究の目的は、持続時間変動を考慮した話者認識性能向上のための新しいアルゴリズムを提案することではない。 しかし、本研究の主な焦点は、持続時間の変動を補償する一般的な戦略である発話分割(up)である。 我々は,GMM-SVMフレームワークにおける話者認識性能における発話分割学習の効果を詳細に分析した。 さらに,発話分割が音声認識性能の向上に重要である理由について検討する。 また,発話分割が有用である場合とそうでない場合についても紹介した。 本研究により,従来のGMM-SVM分類器では,発話分割がデータ不均衡問題を軽減しないことが明らかになった。 これらとは別に、ガウス数、超ベクター長、音声持続時間の観点からの短時間および長時間の試験条件におけるより良い性能を得るために必要とされる分割量などのパラメータの影響についても論じる。 我々は,130人の話者からなるPOLYCOSTコーパスの音声による実験を行った。

The performance of speaker recognition system is highly dependent on the amount of speech used in enrollment and test. This work presents a detailed experimental review and analysis of the GMM-SVM based speaker recognition system in presence of duration variability. This article also reports a comparison of the performance of GMM-SVM classifier with its precursor technique Gaussian mixture model-universal background model (GMM-UBM) classifier in presence of duration variability. The goal of this research work is not to propose a new algorithm for improving speaker recognition performance in presence of duration variability. However, the main focus of this work is on utterance partitioning (UP), a commonly used strategy to compensate the duration variability issue. We have analysed in detailed the impact of training utterance partitioning in speaker recognition performance under GMM-SVM framework. We further investigate the reason why the utterance partitioning is important for boosting speaker recognition performance. We have also shown in which case the utterance partitioning could be useful and where not. Our study has revealed that utterance partitioning does not reduce the data imbalance problem of the GMM-SVM classifier as claimed in earlier study. Apart from these, we also discuss issues related to the impact of parameters such as number of Gaussians, supervector length, amount of splitting required for obtaining better performance in short and long duration test conditions from speech duration perspective. We have performed the experiments with telephone speech from POLYCOST corpus consisting of 130 speakers.
翻訳日:2021-05-26 13:48:12 公開日:2021-05-25
# emベース大規模学習のためのperturbed prox-preconditioned spiderアルゴリズム

The Perturbed Prox-Preconditioned SPIDER algorithm for EM-based large scale learning ( http://arxiv.org/abs/2105.11732v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP, XPOP)(参考訳) 増分期待最大化(EM)アルゴリズムを導入し,各イテレーションで処理すべき全データセットを回避し,大規模学習フレームワークのEM設計を行った。 しかしながら、これらのアルゴリズムはすべて、十分な統計量の条件付き期待が明確であると仮定する。 本稿では,確率パス積分微分エスチマトラーEM(SPIDER-EM)アルゴリズムをベースとした,Perturbed Prox-Preconditioned SPIDER (3P-SPIDER)という新しいアルゴリズムを提案する。 3p-spiderアルゴリズムはemのeステップの多くの難解性に対応し、非スムース正則化や凸制約集合も扱う。 数値実験により、3P-SPIDERは他のインクリメンタルEM法よりも優れており、いくつかの設計パラメータの役割について議論されている。

Incremental Expectation Maximization (EM) algorithms were introduced to design EM for the large scale learning framework by avoiding the full data set to be processed at each iteration. Nevertheless, these algorithms all assume that the conditional expectations of the sufficient statistics are explicit. In this paper, we propose a novel algorithm named Perturbed Prox-Preconditioned SPIDER (3P-SPIDER), which builds on the Stochastic Path Integral Differential EstimatoR EM (SPIDER-EM) algorithm. The 3P-SPIDER algorithm addresses many intractabilities of the E-step of EM; it also deals with non-smooth regularization and convex constraint set. Numerical experiments show that 3P-SPIDER outperforms other incremental EM methods and discuss the role of some design parameters.
翻訳日:2021-05-26 13:47:31 公開日:2021-05-25
# Sim-to-Real領域適応のためのアフィン輸送

Affine Transport for Sim-to-Real Domain Adaptation ( http://arxiv.org/abs/2105.11739v1 )

ライセンス: Link先を確認
Anton Mallasto, Karol Arndt, Markus Heinonen, Samuel Kaski, Ville Kyrki(参考訳) サンプル効率のドメイン適応はロボット工学においてオープンな問題である。 本稿では,アフィン変換により生成領域と対象領域間の状態遷移分布のマッピングをモデル化する,最適輸送の変種であるアフィン輸送について述べる。 まず、アフィントランスポートフレームワークを導出し、その後、任意のアフィン変換をモデル化するためにprocrustesアライメントで基本フレームワークを拡張します。 本手法は,シミュレーション環境を用いた多数のOpenAI Gym sim-to-sim実験や,ホッケーパックを打つロボットの模擬ドメイン適応タスクにおいて,目標位置にスライドして停止するように評価する。 各実験において、各2つの動的領域間での転送結果を評価する。 その結果,アフィン輸送は元の非適応力学モデルと比較してモデル適応誤差を著しく低減できることがわかった。

Sample-efficient domain adaptation is an open problem in robotics. In this paper, we present affine transport -- a variant of optimal transport, which models the mapping between state transition distributions between the source and target domains with an affine transformation. First, we derive the affine transport framework; then, we extend the basic framework with Procrustes alignment to model arbitrary affine transformations. We evaluate the method in a number of OpenAI Gym sim-to-sim experiments with simulation environments, as well as on a sim-to-real domain adaptation task of a robot hitting a hockeypuck such that it slides and stops at a target position. In each experiment, we evaluate the results when transferring between each pair of dynamics domains. The results show that affine transport can significantly reduce the model adaptation error in comparison to using the original, non-adapted dynamics model.
翻訳日:2021-05-26 13:47:05 公開日:2021-05-25
# 双方向LSTMと畳み込みニューラルネットワークハイブリッドモデルを用いたスマートホームネットワークの侵入検知システム

Intrusion Detection System in Smart Home Network Using Bidirectional LSTM and Convolutional Neural Networks Hybrid Model ( http://arxiv.org/abs/2105.12096v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zaghloul Saad Zaghloul, Sylvia Worlali Azumah, Chengcheng Li(参考訳) IoT(Internet of Things)によって、スマートホームは私たちの日常生活の質と快適さを向上することができた。 しかし、これらの利便性は、急速に増加するいくつかのセキュリティ上の懸念をもたらした。 IoTデバイス、スマートホームハブ、ゲートウェイはさまざまなセキュリティリスクを引き起こす。 スマートホームゲートウェイは、IoTデバイス間の通信の集中的なポイントとして機能し、ハッカーのためのネットワークデータへのバックドアを作ることができる。 このような攻撃を検出する一般的な方法の1つは、ネットワークトラフィックの侵入検出である。 本稿では,双方向のlong short-term memory(bilstm)とconvolutional neural network(cnn)ハイブリッドモデルを用いて,スマートホームネットワークの異常を検出するための侵入検出システム(ids)を提案する。 BiLSTM繰り返し動作は、学習した情報を時間を通して保存するための侵入検出モデルを提供し、CNNはデータ特徴を完全に抽出する。 提案モデルは、任意のスマートホームネットワークゲートウェイに適用することができる。

Internet of Things (IoT) allowed smart homes to improve the quality and the comfort of our daily lives. However, these conveniences introduced several security concerns that increase rapidly. IoT devices, smart home hubs, and gateway raise various security risks. The smart home gateways act as a centralized point of communication between the IoT devices, which can create a backdoor into network data for hackers. One of the common and effective ways to detect such attacks is intrusion detection in the network traffic. In this paper, we proposed an intrusion detection system (IDS) to detect anomalies in a smart home network using a bidirectional long short-term memory (BiLSTM) and convolutional neural network (CNN) hybrid model. The BiLSTM recurrent behavior provides the intrusion detection model to preserve the learned information through time, and the CNN extracts perfectly the data features. The proposed model can be applied to any smart home network gateway.
翻訳日:2021-05-26 13:46:40 公開日:2021-05-25
# モバイルGUIを理解する:Pixel-WordsからScreen-Sentencesへ

Understanding Mobile GUI: from Pixel-Words to Screen-Sentences ( http://arxiv.org/abs/2105.11941v1 )

ライセンス: Link先を確認
Jingwen Fu, Xiaoyi Zhang, Yuwang Wang, Wenjun Zeng, Sam Yang and Grayson Hilliard(参考訳) 携帯電話のユビキタス性は、モバイルguiの理解を重要なタスクにする。 このドメインの以前のほとんどの作品は、画面(例えば、画面)のメタデータを人間が生成する必要がある。 残念なことに、GUIを理解するのに十分な信頼性を持っていないことが多い。 NLPタスクにおけるトランスフォーマーの成功に触発され、純粋に視覚ベースのGUI理解を目指して、Words/Sentenceの概念をPixel-Words/Screen-S entenceに拡張し、モバイルGUI理解アーキテクチャであるPixel-Words to Screen-Sentence (PW2SS)を提案する。 個々の単語の例えとして、ピクセルワードをアトミックなビジュアルコンポーネント(テキストやグラフィックコンポーネント)として定義し、様々なデザインスタイルのスクリーンショットを通して視覚的に一貫性があり、意味的に明確である。 スクリーンショットから抽出されたPixel-Wordは、その関係をモデル化するために提案されたスクリーントランスフォーマーでScreen-Sentenceに集約される。 Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されているため、視覚的外観とセマンティクスのあいまいさは劇的に減少する。 トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。 Pixel-Wordsアノテーション付きのスクリーンショットのデータセットであるRICO-PWは、公開のRICOデータセットに基づいて構築されている。 このデータセットのスクリーンショットからPixel-Wordを抽出し,推論中にメタデータのないGUI理解を実現するために,検出器をトレーニングする。 我々は実験を行い、Pixel-WordsをRICO-PW上で適切に抽出し、新たなデータセットであるP2S-UIに適切に一般化できることを示す。 PW2SSの有効性は、関係予測、クリック可能性予測、画面検索、アプリタイプの分類を含むGUI理解タスクにおいてさらに検証される。

The ubiquity of mobile phones makes mobile GUI understanding an important task. Most previous works in this domain require human-created metadata of screens (e.g. View Hierarchy) during inference, which unfortunately is often not available or reliable enough for GUI understanding. Inspired by the impressive success of Transformers in NLP tasks, targeting for purely vision-based GUI understanding, we extend the concepts of Words/Sentence to Pixel-Words/Screen-S entence, and propose a mobile GUI understanding architecture: Pixel-Words to Screen-Sentence (PW2SS). In analogy to the individual Words, we define the Pixel-Words as atomic visual components (text and graphic components), which are visually consistent and semantically clear across screenshots of a large variety of design styles. The Pixel-Words extracted from a screenshot are aggregated into Screen-Sentence with a Screen Transformer proposed to model their relations. Since the Pixel-Words are defined as atomic visual components, the ambiguity between their visual appearance and semantics is dramatically reduced. We are able to make use of metadata available in training data to auto-generate high-quality annotations for Pixel-Words. A dataset, RICO-PW, of screenshots with Pixel-Words annotations is built based on the public RICO dataset, which will be released to help to address the lack of high-quality training data in this area. We train a detector to extract Pixel-Words from screenshots on this dataset and achieve metadata-free GUI understanding during inference. We conduct experiments and show that Pixel-Words can be well extracted on RICO-PW and well generalized to a new dataset, P2S-UI, collected by ourselves. The effectiveness of PW2SS is further verified in the GUI understanding tasks including relation prediction, clickability prediction, screen retrieval, and app type classification.
翻訳日:2021-05-26 13:46:14 公開日:2021-05-25
# HIN-RNN: 手作り特徴のないフラッドスター群検出のためのグラフ表現学習ニューラルネットワーク

HIN-RNN: A Graph Representation Learning Neural Network for Fraudster Group Detection With No Handcrafted Features ( http://arxiv.org/abs/2105.11602v1 )

ライセンス: Link先を確認
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) 社会レビューは現代の消費者の意思決定に欠かせないリソースである。 金融利益を得るためには、消費者はグループからの同様のレビューで誤解される傾向にあるため、企業はグループで商品やサービスをデモしたり宣伝したりするために詐欺師に支払うのが好ましい。 詐欺師グループ検出に対する最近のアプローチでは,グループ内のレビュー者からのレビューの意味関係を考慮せずに,グループ行動の手作り特徴を用いた。 本稿では,HIN-RNN(Herogeneous Information Network (HIN) Compatible RNN for fraudster group detection, no handcrafted features)を提案する。 HIN-RNNは、各レビュアーの表現学習のための統一されたアーキテクチャを提供し、初期ベクトルは、同じレビュアーによって書かれた全てのレビューテキストの単語埋め込みの和であり、負のレビューの比率によって構成される。 同じ評価とベクター表現で同じ項目をレビューしたレビュアーを表わすコリビューネットワークが与えられると、HIN-RNNトレーニングによって協調行列が取得される。 提案手法はYelp(リコールでは22%,F1値では12%)とAmazon(リコールでは4%,F1値では2%)の2つのデータセットに対して,最先端のアプローチを大幅に改善する上で有効であることが確認された。

Social reviews are indispensable resources for modern consumers' decision making. For financial gain, companies pay fraudsters preferably in groups to demote or promote products and services since consumers are more likely to be misled by a large number of similar reviews from groups. Recent approaches on fraudster group detection employed handcrafted features of group behaviors without considering the semantic relation between reviews from the reviewers in a group. In this paper, we propose the first neural approach, HIN-RNN, a Heterogeneous Information Network (HIN) Compatible RNN for fraudster group detection that requires no handcrafted features. HIN-RNN provides a unifying architecture for representation learning of each reviewer, with the initial vector as the sum of word embeddings of all review text written by the same reviewer, concatenated by the ratio of negative reviews. Given a co-review network representing reviewers who have reviewed the same items with the same ratings and the reviewers' vector representation, a collaboration matrix is acquired through HIN-RNN training. The proposed approach is confirmed to be effective with marked improvement over state-of-the-art approaches on both the Yelp (22% and 12% in terms of recall and F1-value, respectively) and Amazon (4% and 2% in terms of recall and F1-value, respectively) datasets.
翻訳日:2021-05-26 13:43:32 公開日:2021-05-25
# 非線形双曲保存法におけるLast-Squares ReLU Neural Network (LSNN)法

Least-Squares ReLU Neural Network (LSNN) Method For Scalar Nonlinear Hyperbolic Conservation Law ( http://arxiv.org/abs/2105.11627v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 本研究では,不連続解を用いた線形随伴反応問題の解法として,最小二乗型reluニューラルネットワーク(lsnn)法を導入し,自由度数の観点からメッシュに基づく数値解法よりも優れることを示した。 本稿では,スカラー非線形双曲保存法におけるLSNN法について検討する。 この方法は、ReLU活性化関数を持つニューラルネットワーク関数の集合における等価最小二乗(LS)定式化の離散化である。 LS関数の評価は数値積分と保守的有限体積スキームを用いて行う。 実験結果から,ReLUニューラルネットワークの自由破壊線を介し,基礎となる問題の不連続なインターフェースを自動的に近似できることが示唆された。 さらに、この方法は不連続な界面に沿って共通のギブス現象を示さない。

We introduced the least-squares ReLU neural network (LSNN) method for solving the linear advection-reaction problem with discontinuous solution and showed that the method outperforms mesh-based numerical methods in terms of the number of degrees of freedom. This paper studies the LSNN method for scalar nonlinear hyperbolic conservation law. The method is a discretization of an equivalent least-squares (LS) formulation in the set of neural network functions with the ReLU activation function. Evaluation of the LS functional is done by using numerical integration and conservative finite volume scheme. Numerical results of some test problems show that the method is capable of approximating the discontinuous interface of the underlying problem automatically through the free breaking lines of the ReLU neural network. Moreover, the method does not exhibit the common Gibbs phenomena along the discontinuous interface.
翻訳日:2021-05-26 13:42:49 公開日:2021-05-25
# 線形対流反応方程式に対するLast-Squares ReLU Neural Network (LSNN) 法

Least-Squares ReLU Neural Network (LSNN) Method For Linear Advection-Reaction Equation ( http://arxiv.org/abs/2105.11632v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 本稿では,不連続解を用いた線形対流-反応問題に対する最小二乗ReLUニューラルネットワーク法について検討する。 この方法は、ReLUアクティベーション関数を持つニューラルネットワーク関数の集合における等価最小二乗の定式化の離散化である。 この方法は、reluニューラルネットワークのフリーハイパープレーンを介して、基盤となる問題の不連続なインターフェースを自動的に近似することができ、自由度数の観点からメッシュベースの数値手法よりも優れる。 いくつかのベンチマークテスト問題の数値結果は、この方法は最小パラメータ数で解を近似できるだけでなく、不連続な界面に沿った一般的なギブス現象を回避できることを示している。 さらに、3層ReLUニューラルネットワークは、直線ではない$\mathbb{R}^2$のインターフェースで不連続解を適切に近似するために必要であり、十分である。

This paper studies least-squares ReLU neural network method for solving the linear advection-reaction problem with discontinuous solution. The method is a discretization of an equivalent least-squares formulation in the set of neural network functions with the ReLU activation function. The method is capable of approximating the discontinuous interface of the underlying problem automatically through the free hyper-planes of the ReLU neural network and, hence, outperforms mesh-based numerical methods in terms of the number of degrees of freedom. Numerical results of some benchmark test problems show that the method can not only approximate the solution with the least number of parameters, but also avoid the common Gibbs phenomena along the discontinuous interface. Moreover, a three-layer ReLU neural network is necessary and sufficient in order to well approximate a discontinuous solution with an interface in $\mathbb{R}^2$ that is not a straight line.
翻訳日:2021-05-26 13:42:28 公開日:2021-05-25
# ハイブリッド電気自動車におけるエコ運転のための安全モデルに基づくオフポリシー強化学習

Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles ( http://arxiv.org/abs/2105.11640v1 )

ライセンス: Link先を確認
Zhaoxuan Zhu, Nicola Pivaro, Shobhit Gupta, Abhishek Gupta and Marcello Canova(参考訳) コネクテッド・アンド・オートモーテッドハイブリッド電気自動車は、現実の運転条件下での燃料消費と走行時間を削減できる可能性がある。 エコ運転問題は、コネクティビティと高度なマッピング機能からの先見情報に基づいて、最適な速度と電力使用量プロファイルを設計することを目指している。 近年,Deep Reinforcement Learning (DRL) がエコドライブ問題に応用されている。 従来の研究では,シミュレータとモデルフリーDRLを合成してオンライン計算を減らし,エコドライブ問題に対するセーフオフポリスモデルベース強化学習アルゴリズムを提案する。 現存する文献の利点は3倍である。 まず,オフポリシー学習と物理モデルの利用の組み合わせにより,サンプル効率が向上する。 第二に、トレーニングは制約満足度に対する外部報酬メカニズムを必要としない。 第三に、深い生成モデルにより近似された安全な集合を用いて軌道の実現性を保証する。 提案手法の性能を,人間の運転者を表すベースラインコントローラ,設計済みのモデルフリーDRL戦略,待ち時間最適解に対してベンチマークする。 シミュレーションにおいて,提案手法は,モデルフリーエージェントよりも平均速度が高く,燃費が良い政策に導かれる。 ベースラインコントローラと比較すると、学習した戦略は平均速度を同等に保ちながら、燃料消費量を21\%以上削減する。

Connected and Automated Hybrid Electric Vehicles have the potential to reduce fuel consumption and travel time in real-world driving conditions. The eco-driving problem seeks to design optimal speed and power usage profiles based upon look-ahead information from connectivity and advanced mapping features. Recently, Deep Reinforcement Learning (DRL) has been applied to the eco-driving problem. While the previous studies synthesize simulators and model-free DRL to reduce online computation, this work proposes a Safe Off-policy Model-Based Reinforcement Learning algorithm for the eco-driving problem. The advantages over the existing literature are three-fold. First, the combination of off-policy learning and the use of a physics-based model improves the sample efficiency. Second, the training does not require any extrinsic rewarding mechanism for constraint satisfaction. Third, the feasibility of trajectory is guaranteed by using a safe set approximated by deep generative models. The performance of the proposed method is benchmarked against a baseline controller representing human drivers, a previously designed model-free DRL strategy, and the wait-and-see optimal solution. In simulation, the proposed algorithm leads to a policy with a higher average speed and a better fuel economy compared to the model-free agent. Compared to the baseline controller, the learned strategy reduces the fuel consumption by more than 21\% while keeping the average speed comparable.
翻訳日:2021-05-26 13:42:03 公開日:2021-05-25
# 深部ニューラルネットワークにおける周波数を考慮した減衰速度の上限

An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network ( http://arxiv.org/abs/2105.11675v1 )

ライセンス: Link先を確認
Tao Luo, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang(参考訳) ディープニューラルネットワーク(dnn)は通常、周波数原理またはスペクトルバイアスと呼ばれる低周波から高周波までターゲット関数を学習する。 この周波数原理は、DNNの高周波の呪いに光を当てます。 周波数原理にインスパイアされた一連の研究は、高周波の呪いを克服するアルゴリズムの開発に費やされている。 自然問題:崩壊率 w.r.t の上限は何か。 DNNを訓練する頻度? この研究で、数値実験によって確認された我々の理論は、臨界崩壊速度 w.r.t が存在することを示唆している。 DNNトレーニングの頻度。 減衰率の上限の下に、DNNは一定の規則性を持つ関数でトレーニングデータを補間する。 しかし、上限を超えると、DNNは訓練データを自明な関数で補間する、すなわち、ある関数は訓練データポイントにおいてゼロではない。 以上の結果から,高周波情報を低周波に移すための適切な事前条件手法を考案し,先行開発した高周波情報を高速に学習するためのアルゴリズムと合致することを示す。 さらに、この研究は、高周波の呪いがDNNの本質的な難しさであることを厳格に証明している。

Deep neural network (DNN) usually learns the target function from low to high frequency, which is called frequency principle or spectral bias. This frequency principle sheds light on a high-frequency curse of DNNs -- difficult to learn high-frequency information. Inspired by the frequency principle, a series of works are devoted to develop algorithms for overcoming the high-frequency curse. A natural question arises: what is the upper limit of the decaying rate w.r.t. frequency when one trains a DNN? In this work, our theory, confirmed by numerical experiments, suggests that there is a critical decaying rate w.r.t. frequency in DNN training. Below the upper limit of the decaying rate, the DNN interpolates the training data by a function with a certain regularity. However, above the upper limit, the DNN interpolates the training data by a trivial function, i.e., a function is only non-zero at training data points. Our results indicate a better way to overcome the high-frequency curse is to design a proper pre-condition approach to shift high-frequency information to low-frequency one, which coincides with several previous developed algorithms for fast learning high-frequency information. More importantly, this work rigorously proves that the high-frequency curse is an intrinsic difficulty of DNNs.
翻訳日:2021-05-26 13:41:28 公開日:2021-05-25
# 音声圧縮のためのディープニューラルネットワークとエンドツーエンド学習

Deep Neural Networks and End-to-End Learning for Audio Compression ( http://arxiv.org/abs/2105.11681v1 )

ライセンス: Link先を確認
Daniela N. Rim, Inseon Jang, Heeyoul Choi(参考訳) エンドツーエンドディープラーニングの最近の成果は、高度に構造化されたデータを統一されたディープネットワークモデルで扱うタスクの探索を奨励している。 音声信号を圧縮するためのそのようなモデルを持つことは、エンドツーエンドのバックプロパゲーションで簡単に訓練できない離散表現を必要とするため、難しい。 本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。 離散表現に対するベルヌーイ分布に対する再パラメータ化のトリックを適用し、滑らかなバックプロパゲーションを可能にした。 さらに,圧縮タスクに必要なエンコーダとデコーダの分離も可能とした。 我々の知る限り、これはRNNを用いた1つの音声圧縮モデルのための最初のエンドツーエンド学習であり、我々のモデルは20.54のSignal to Distortion Ratio(SDR)を達成する。

Recent achievements in end-to-end deep learning have encouraged the exploration of tasks dealing with highly structured data with unified deep network models. Having such models for compressing audio signals has been challenging since it requires discrete representations that are not easy to train with end-to-end backpropagation. In this paper, we present an end-to-end deep learning approach that combines recurrent neural networks (RNNs) within the training strategy of variational autoencoders (VAEs) with a binary representation of the latent space. We apply a reparametrization trick for the Bernoulli distribution for the discrete representations, which allows smooth backpropagation. In addition, our approach allows the separation of the encoder and decoder, which is necessary for compression tasks. To our best knowledge, this is the first end-to-end learning for a single audio compression model with RNNs, and our model achieves a Signal to Distortion Ratio (SDR) of 20.54.
翻訳日:2021-05-26 13:40:53 公開日:2021-05-25
# トポロジー変換による自己教師付きグラフ表現学習

Self-Supervised Graph Representation Learning via Topology Transformations ( http://arxiv.org/abs/2105.11689v1 )

ライセンス: Link先を確認
Xiang Gao, Wei Hu, Guo-Jun Qi(参考訳) 本稿では,グラフ畳み込みニューラルネットワーク(GCNN)の適用性を高めるために,グラフデータのノード表現のための自己教師型学習のパラダイムであるトポロジー変換同変表現学習を提案する。 本稿では, トポロジ変換とノード表現の相互情報の最大化により, 情報理論の観点から, 提案モデルを定式化する。 このような相互情報の最大化は、応用トポロジ変換とノード表現からの推定との交差エントロピーを最小化することで緩和することができる。 特に、ノード対のサブセットを元のグラフからサンプリングし、各ペア間のエッジ接続をひっくり返してグラフトポロジーを変換しようとする。 次に、元のグラフと変換されたグラフの特徴表現からトポロジ変換を再構成してノード表現を学習するために表現エンコーダを自己学習する。 実験では,提案手法を下流ノードとグラフの分類タスクに適用し,提案手法が最先端の教師なし手法よりも優れていることを示す。

We present the Topology Transformation Equivariant Representation learning, a general paradigm of self-supervised learning for node representations of graph data to enable the wide applicability of Graph Convolutional Neural Networks (GCNNs). We formalize the proposed model from an information-theoreti c perspective, by maximizing the mutual information between topology transformations and node representations before and after the transformations. We derive that maximizing such mutual information can be relaxed to minimizing the cross entropy between the applied topology transformation and its estimation from node representations. In particular, we seek to sample a subset of node pairs from the original graph and flip the edge connectivity between each pair to transform the graph topology. Then, we self-train a representation encoder to learn node representations by reconstructing the topology transformations from the feature representations of the original and transformed graphs. In experiments, we apply the proposed model to the downstream node and graph classification tasks, and results show that the proposed method outperforms the state-of-the-art unsupervised approaches.
翻訳日:2021-05-26 13:40:25 公開日:2021-05-25
# RNnoise-Ex:RNNとスペクトル特徴に基づくハイブリッド音声強調システム

RNNoise-Ex: Hybrid Speech Enhancement System based on RNN and Spectral Features ( http://arxiv.org/abs/2105.11813v1 )

ライセンス: Link先を確認
Constantine C. Doumanidis (1), Christina Anagnostou (1), Evangelia-Sofia Arvaniti (1), Anthi Papadopoulou (1) ((1) Aristotle University of Thessaloniki)(参考訳) 近年、ノイズ抑圧のためのディープラーニング技術の利用への関心が高まり、古典的な信号処理とディープラーニングを組み合わせたハイブリッドDenoising Systemsが誕生した。 本稿では,学習段階における補完的特徴を取り入れたRNノイズ認知システム(arXiv:1709.08243)の拡充に力を注ぐ。 本稿では,修正システムのセットアップ過程を包括的に説明し,RNNoiseの参照バージョンを制御として,性能評価分析から得られた比較結果を示す。

Recent interest in exploiting Deep Learning techniques for Noise Suppression, has led to the creation of Hybrid Denoising Systems that combine classic Signal Processing with Deep Learning. In this paper, we concentrated our efforts on extending the RNNoise denoising system (arXiv:1709.08243) with the inclusion of complementary features during the training phase. We present a comprehensive explanation of the set-up process of a modified system and present the comparative results derived from a performance evaluation analysis, using a reference version of RNNoise as control.
翻訳日:2021-05-26 13:39:54 公開日:2021-05-25
# Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trends Forecasting

Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trend Forecasting ( http://arxiv.org/abs/2105.11826v1 )

ライセンス: Link先を確認
Yunshan Ma, Yujuan Ding, Xun Yang, Lizi Liao, Wai Keung Wong, Tat-Seng Chua, Jinyoung Moon, Hong-Han Shuai(参考訳) 本稿では,ICMR 2020で紹介したKERN(Knowledge Enhanced Recurrent Network)手法を用いて,ファッショントレンド予測実験の再現を支援する。 我々は、pythonの実装を使って実験の複製を可能にするアーティファクトを提供する。 アーティファクトは、簡単なインストール、トレーニング、評価で簡単にデプロイできる。 本稿では,本論文で実施した実験を再現し,前報と同様の性能を得る。 実験のレプリケーション結果は、元の論文の主な主張を支持している。

This companion paper supports the replication of the fashion trend forecasting experiments with the KERN (Knowledge Enhanced Recurrent Network) method that we presented in the ICMR 2020. We provide an artifact that allows the replication of the experiments using a Python implementation. The artifact is easy to deploy with simple installation, training and evaluation. We reproduce the experiments conducted in the original paper and obtain similar performance as previously reported. The replication results of the experiments support the main claims in the original paper.
翻訳日:2021-05-26 13:39:39 公開日:2021-05-25
# 音楽音声タギングのための変調フロントエンド

A Modulation Front-End for Music Audio Tagging ( http://arxiv.org/abs/2105.11836v1 )

ライセンス: Link先を確認
Cyrus Vahidi, Charalampos Saitis, Gy\"orgy Fazekas(参考訳) 畳み込みニューラルネットワークは、自動音楽タグ付けのタスクで広く研究されてきた。 この問題は、エンジニアリングされた時間周波数特徴または生オーディオを入力として使用することで解決できる。 音色知覚の基礎として積極的に研究されている変調フィルタバンク表現は、知覚的に健全な特徴の抽出を容易にする可能性がある。 時間変調処理ブロックを組み込んだ音声表現学習のためのエンドツーエンド学習フロントエンドであるModNetとSincModNetについて検討する。 この構造は、FIRフィルタ中心周波数をデータ駆動方式で学習する変調フィルタバンクと効果的に類似している。 知覚的に動機づけられたフィルタバンクは、音楽の特徴を特定するのに有用な表現を提供する。 実験結果は,生音声の完全可視性と解釈可能なフロントエンド時間変調分解を提供する。 我々は,MagnaTagATuneデータセットを用いた最新の音楽タグ付けに対するモデルの性能評価を行った。 変調フィルタにより時間周波数帯域をサンプリングした場合の特定のタグの性能への影響を段階的に低減する。 このフロントエンドの設計において音楽領域の知識を多用することなく、変調フィルタリングが音楽タグ付けや特徴表現に有望な結果をもたらすことを示す。

Convolutional Neural Networks have been extensively explored in the task of automatic music tagging. The problem can be approached by using either engineered time-frequency features or raw audio as input. Modulation filter bank representations that have been actively researched as a basis for timbre perception have the potential to facilitate the extraction of perceptually salient features. We explore end-to-end learned front-ends for audio representation learning, ModNet and SincModNet, that incorporate a temporal modulation processing block. The structure is effectively analogous to a modulation filter bank, where the FIR filter center frequencies are learned in a data-driven manner. The expectation is that a perceptually motivated filter bank can provide a useful representation for identifying music features. Our experimental results provide a fully visualisable and interpretable front-end temporal modulation decomposition of raw audio. We evaluate the performance of our model against the state-of-the-art of music tagging on the MagnaTagATune dataset. We analyse the impact on performance for particular tags when time-frequency bands are subsampled by the modulation filters at a progressively reduced rate. We demonstrate that modulation filtering provides promising results for music tagging and feature representation, without using extensive musical domain knowledge in the design of this front-end.
翻訳日:2021-05-26 13:39:26 公開日:2021-05-25
# スペクトル補正:ミスマッチ記録装置を用いた音響シーン分類

Spectrum Correction: Acoustic Scene Classification with Mismatched Recording Devices ( http://arxiv.org/abs/2105.11856v1 )

ライセンス: Link先を確認
Micha{\l} Ko\'smider(参考訳) 機械学習アルゴリズムは、限られたセットのデバイスからオーディオ録音を訓練する場合、異なる周波数応答を持つ他のデバイスで記録されたサンプルにうまく一般化できない可能性がある。 本研究では,この問題に対処するための比較的簡単な手法を提案する。 アプローチには2つのバリエーションがある。 まず、複数のデバイスからの整列した例を必要とする。 この方法は、音声記録の時間領域と周波数領域の表現の両方で機能する。 さらに、標準化とセプストラム平均減算との関係を解析する。 提案手法は,ごく少数の例が提供されても有効である。 本手法は,2019年の音響シーンとイベントの検出と分類(dcase)中に開発され,75%の精度でミスマッチ記録装置を用いたシナリオで1位となった。 実験のソースコードはオンラインで見ることができる。

Machine learning algorithms, when trained on audio recordings from a limited set of devices, may not generalize well to samples recorded using other devices with different frequency responses. In this work, a relatively straightforward method is introduced to address this problem. Two variants of the approach are presented. First requires aligned examples from multiple devices, the second approach alleviates this requirement. This method works for both time and frequency domain representations of audio recordings. Further, a relation to standardization and Cepstral Mean Subtraction is analysed. The proposed approach becomes effective even when very few examples are provided. This method was developed during the Detection and Classification of Acoustic Scenes and Events (DCASE) 2019 challenge and won the 1st place in the scenario with mis-matched recording devices with the accuracy of 75%. Source code for the experiments can be found online.
翻訳日:2021-05-26 13:39:01 公開日:2021-05-25
# RL駆動システムのスケーラブルな検証に向けて

Towards Scalable Verification of RL-Driven Systems ( http://arxiv.org/abs/2105.11931v1 )

ライセンス: Link先を確認
Guy Amir, Michael Schapira and Guy Katz(参考訳) 近年、ディープニューラルネットワーク(DNN)は大きな人気を集め、さまざまな領域で最先端の最先端技術となっている。 特に,多種多様な現実世界システムの制御ポリシとして機能するDNNの訓練には,最近DRLが採用されている。 本稿では,DRLシステムの複雑な特性を検証するための新しい手法である whiRL 2.0 ツールを提案する。 DRLシステムの形式的検証の動機付けに最近用いられている通信ネットワーク領域のケーススタディにWhiRL 2.0の利点を応用し,拡張性のある検証が可能な特性を示す。 このようなシステム上でk-インダクションと自動不変推論を行う手法を提案し、これらの手法を用いて従来の手法のスケーラビリティ障壁により検証が不可能であった利害の安全性と生存性を証明する。 さらに,本提案手法がDRLシステムの内部動作と一般化可能性について考察する。 whiRL 2.0はオンラインで公開されている。

Deep neural networks (DNNs) have gained significant popularity in recent years, becoming the state of the art in a variety of domains. In particular, deep reinforcement learning (DRL) has recently been employed to train DNNs that act as control policies for various types of real-world systems. In this work, we present the whiRL 2.0 tool, which implements a new approach for verifying complex properties of interest for such DRL systems. To demonstrate the benefits of whiRL 2.0, we apply it to case studies from the communication networks domain that have recently been used to motivate formal verification of DRL systems, and which exhibit characteristics that are conducive for scalable verification. We propose techniques for performing k-induction and automated invariant inference on such systems, and use these techniques for proving safety and liveness properties of interest that were previously impossible to verify due to the scalability barriers of prior approaches. Furthermore, we show how our proposed techniques provide insights into the inner workings and the generalizability of DRL systems. whiRL 2.0 is publicly available online.
翻訳日:2021-05-26 13:38:43 公開日:2021-05-25
# lhcにおける深層学習による暗黒物質信号予測法に向けて

Towards a method to anticipate dark matter signals with deep learning at the LHC ( http://arxiv.org/abs/2105.12018v1 )

ライセンス: Link先を確認
Ernesto Arganda, Anibal D. Medina, Andres D. Perez, Alejandro Szynkman(参考訳) ニューラルネットワークを用いた簡易暗黒物質モデルとそのシグネチャをLHCで検討した。 通常のモノジェットと逆エネルギーチャネルの欠如に焦点を当てるが、アルゴリズムを訓練するためには、イベント・バイ・イベントアレイの代わりに2Dヒストグラムでデータを整理する。 これにより、標準モデル(SM)のみとSMと新しい物理信号とを区別する性能が大きく向上する。 入力データとしてkinematic monojet機能を使用し、単一のデータサンプルでモデルのファミリーを記述することができます。 ニューラルネットワークの性能は,それぞれ$s/\sqrt{b}$の関数として提示される場合,背景イベントのシミュレーション数に依存しないことがわかった。 これは、特定のモデルをテストするためには、新しい物理単ジェット断面を知る必要があるため、メソッドに柔軟性を提供する。 さらに,真のDM特性に関する誤った仮定の下で,ネットワーク性能についても論じる。 最後に,次のLHC実行において,より一般的な方法で新しい信号の探索と同定を行うマルチモデル分類器を提案する。

We study several simplified dark matter (DM) models and their signatures at the LHC using neural networks. We focus on the usual monojet plus missing transverse energy channel, but to train the algorithms we organize the data in 2D histograms instead of event-by-event arrays. This results in a large performance boost to distinguish between standard model (SM) only and SM plus new physics signals. We use the kinematic monojet features as input data which allow us to describe families of models with a single data sample. We found that the neural network performance does not depend on the simulated number of background events if they are presented as a function of $S/\sqrt{B}$, where $S$ and $B$ are the number of signal and background events per histogram, respectively. This provides flexibility to the method, since testing a particular model in that case only requires knowing the new physics monojet cross section. Furthermore, we also discuss the network performance under incorrect assumptions about the true DM nature. Finally, we propose multimodel classifiers to search and identify new signals in a more general way, for the next LHC run.
翻訳日:2021-05-26 13:38:14 公開日:2021-05-25
# Honest-but-Curious Nets: Sensitive Attributes of Private Inputs can be Secretly Coded into the Entropy of Classifiers' Outputs

Honest-but-Curious Nets: Sensitive Attributes of Private Inputs can be Secretly Coded into the Entropy of Classifiers' Outputs ( http://arxiv.org/abs/2105.12049v1 )

ライセンス: Link先を確認
Mohammad Malekzadeh and Anastasia Borovykh and Deniz G\"und\"uz(参考訳) 非感受性ターゲット属性の分類のために訓練されたディープニューラルネットワークは、分類器によって抽出された異なる粒度の特徴を通じて、入力データの感度特性を明らかにすることが知られている。 一歩進めて、深い分類器は、推論時にユーザの入力データの機密属性を、ターゲット属性に対する分類器の出力に秘密裏にエンコードするように訓練できることを示した。 ユーザが分類器のホワイトボックスビューを持っていたとしても動作し、分類器のターゲット属性の推定を除いてすべての内部表現を隠しておくことができる。 本稿では,このような敵の情報を理論的に定式化することを提案し,この定式化に基づいて,正直だが正確な(hbc)分類器を訓練するための効率的な経験的実装を提案する。 実世界のデータセットにおけるいくつかのタスクに対する評価は、半信頼のサーバが完全に正直なだけでなく、正確に好奇心をそそる分類器を構築できることを示している。 私たちの研究は、暗号化された推論、エッジでの計算、プライベート知識の蒸留など、悪意のある機械学習サービスプロバイダがユーザのプライバシを攻撃するために悪用する脆弱性を強調しています。 本研究は,標準分類器とHBC分類器を区別することの難しさと,この深層分類器の脆弱性に対する予防的防御の可能性について述べる。

It is known that deep neural networks, trained for the classification of a non-sensitive target attribute, can reveal sensitive attributes of their input data; through features of different granularity extracted by the classifier. We, taking a step forward, show that deep classifiers can be trained to secretly encode a sensitive attribute of users' input data, at inference time, into the classifier's outputs for the target attribute. An attack that works even if users have a white-box view of the classifier, and can keep all internal representations hidden except for the classifier's estimation of the target attribute. We introduce an information-theoreti cal formulation of such adversaries and present efficient empirical implementations for training honest-but-curious (HBC) classifiers based on this formulation: deep models that can be accurate in predicting the target attribute, but also can utilize their outputs to secretly encode a sensitive attribute. Our evaluations on several tasks in real-world datasets show that a semi-trusted server can build a classifier that is not only perfectly honest but also accurately curious. Our work highlights a vulnerability that can be exploited by malicious machine learning service providers to attack their user's privacy in several seemingly safe scenarios; such as encrypted inferences, computations at the edge, or private knowledge distillation. We conclude by showing the difficulties in distinguishing between standard and HBC classifiers and discussing potential proactive defenses against this vulnerability of deep classifiers.
翻訳日:2021-05-26 13:37:38 公開日:2021-05-25
# 量子化サンプルからのパラメトリック分布の学習について

On learning parametric distributions from quantized samples ( http://arxiv.org/abs/2105.12019v1 )

ライセンス: Link先を確認
Septimia Sarbu and Abdellatif Zaidi(参考訳) ネットワーク内の量子化サンプルからパラメトリック分布を学習する問題を考察する。 特に、$n$エージェントまたはセンサーは、未知のパラメトリック分布の独立したサンプルを観測し、それぞれが、そのサンプルを未知の分布を推定することを目的とした中央プロセッサに記述するために$k$ビットを使用する。 まず、よく知られたバンツリーの不等式を一般のl_p$-ノルムに一般化し、一般のフィッシャー情報を用いて $p > 1$ とする。 次に,2つの損失に対する推定誤差に対するminimaxlowboundsを開発する: general $l_p$-norms と関連するwaserstein loss from optimal transport である。

We consider the problem of learning parametric distributions from their quantized samples in a network. Specifically, $n$ agents or sensors observe independent samples of an unknown parametric distribution; and each of them uses $k$ bits to describe its observed sample to a central processor whose goal is to estimate the unknown distribution. First, we establish a generalization of the well-known van Trees inequality to general $L_p$-norms, with $p > 1$, in terms of Generalized Fisher information. Then, we develop minimax lower bounds on the estimation error for two losses: general $L_p$-norms and the related Wasserstein loss from optimal transport.
翻訳日:2021-05-26 13:36:49 公開日:2021-05-25