このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210521となっている論文です。

PDF登録状況(公開日: 20210521)

TitleAuthorsAbstract論文公表日・翻訳日
# Dynaboard: 完全な次世代ベンチマークのためのアセスメント・アズ・ア・サービスプラットフォーム

Dynaboard: An Evaluation-As-A-Serv ice Platform for Holistic Next-Generation Benchmarking ( http://arxiv.org/abs/2106.06052v1 )

ライセンス: Link先を確認
Zhiyi Ma, Kawin Ethayarajh, Tristan Thrush, Somya Jain, Ledell Wu, Robin Jia, Christopher Potts, Adina Williams, Douwe Kiela(参考訳) ベンチマークのホスティングと全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardをDynabenchプラットフォームに統合した。 我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。 このパラダイムの下で、モデルはクラウドで評価され、再現性、アクセシビリティ、後方互換性の問題を回避し、しばしばNLPのベンチマークを妨げる。 これにより、ユーザがアップロードされたモデルとリアルタイムで対話して品質を評価することができ、メモリ使用、スループット、堅牢性などの追加のメトリクスの収集が可能になる。 各タスクにおいて、モデルはdynascoreに従ってランク付けされる。dynascoreは、これらの統計の新規なユーティリティベースの集計で、ユーザが好みをよりよく反映するようにカスタマイズし、評価やデータセットの特定の軸に重みを置きます。 最先端のNLPモデルが従来のベンチマークの限界を推し進める中、Dynaboardはモデル品質をより多種多様な包括的な評価を行うための標準化されたソリューションを提供する。

We introduce Dynaboard, an evaluation-as-a-serv ice framework for hosting benchmarks and conducting holistic model comparison, integrated with the Dynabench platform. Our platform evaluates NLP models directly instead of relying on self-reported metrics or predictions on a single dataset. Under this paradigm, models are submitted to be evaluated in the cloud, circumventing the issues of reproducibility, accessibility, and backwards compatibility that often hinder benchmarking in NLP. This allows users to interact with uploaded models in real time to assess their quality, and permits the collection of additional metrics such as memory use, throughput, and robustness, which -- despite their importance to practitioners -- have traditionally been absent from leaderboards. On each task, models are ranked according to the Dynascore, a novel utility-based aggregation of these statistics, which users can customize to better reflect their preferences, placing more/less weight on a particular axis of evaluation or dataset. As state-of-the-art NLP models push the limits of traditional benchmarks, Dynaboard offers a standardized solution for a more diverse and comprehensive evaluation of model quality.
翻訳日:2021-06-20 16:02:01 公開日:2021-05-21
# 角膜内皮細胞分節のためのマルチブランチハイブリッドトランスフォーマネットワーク

A Multi-Branch Hybrid Transformer Networkfor Corneal Endothelial Cell Segmentation ( http://arxiv.org/abs/2106.07557v1 )

ライセンス: Link先を確認
Yinglin Zhang, Risa Higashita, Huazhu Fu, Yanwu Xu, Yang Zhang, Haofeng Liu, Jian Zhang, and Jiang Liu(参考訳) 角膜内皮細胞分節は、細胞密度、変異係数、ヘキサゴナリティなどの臨床指標を定量化する上で重要な役割を果たす。 しかし、角膜内皮の不均一な反射と被験者の震動と運動は、セグメンテーションが困難で、この問題を解き明かすにはより詳細な情報と文脈情報が必要である。 局所的な畳み込みと連続的なダウンサンプリングの限定的な受容領域のため、既存の深層学習セグメンテーション法は、グローバルコンテキストをフルに活用できず、多くの詳細を許容できない。 本稿では、トランスフォーマおよびボディエッジブランチに基づくマルチブランチハイブリッドトランスフォーマネットワーク(mbt-net)を提案する。 まず,畳み込みブロックを用いて局所的なtex-ture特徴抽出に着目し,トランスと残差接続による空間,チャネル,層への長距離依存性を確立する。 また,ボディエッジブランチを用いて局所的な一貫性を促進し,エッジ位置情報を提供する。 自己収集型データセットtm-em3000とパブリック・アリサリンデータセットについて,他の最先端(sota)手法と比較し,提案手法の改良を行った。

Corneal endothelial cell segmentation plays a vital role inquantifying clinical indicators such as cell density, coefficient of variation,and hexagonality. However, the corneal endothelium's uneven reflectionand the subject's tremor and movement cause blurred cell edges in theimage, which is difficult to segment, and need more details and contextinformation to release this problem. Due to the limited receptive field oflocal convolution and continuous downsampling, the existing deep learn-ing segmentation methods cannot make full use of global context andmiss many details. This paper proposes a Multi-Branch hybrid Trans-former Network (MBT-Net) based on the transformer and body-edgebranch. Firstly, We use the convolutional block to focus on local tex-ture feature extraction and establish long-range dependencies over space,channel, and layer by the transformer and residual connection. Besides,We use the body-edge branch to promote local consistency and to provideedge position information. On the self-collected dataset TM-EM3000 andpublic Alisarine dataset, compared with other State-Of-The-Art (SOTA)methods, the proposed method achieves an improvement.
翻訳日:2021-06-20 16:01:41 公開日:2021-05-21
# BOTD: アウトラインテキスト検出器

BOTD: Bold Outline Text Detector ( http://arxiv.org/abs/2011.14714v6 )

ライセンス: Link先を確認
Chuang Yang, Zhitong Xiong, Mulin Chen, Qi Wang, and Xuelong Li(参考訳) 近年,コンピュータビジョンと人工知能の分野において,テキスト検出が注目されている。 既存のアプローチでは、回帰ベースのモデルは任意の形状のテキストを扱うために制限され、セグメンテーションベースのアルゴリズムは高い計算コストを持ち、テキストの密着性の問題に苦しむ。 本稿では, 任意の形状のテキストを, モデル複雑度の低い処理で処理できる, bold outline text detector (botd) と呼ばれる新しい一段階テキスト検出器を提案する。 以前の作業とは異なり、BOTDはPolar Minimum Distance(PMD)を使用してテキストインスタンスの中心点と輪郭の間の最短距離を符号化し、テキストインスタンスごとにセンターマスク(CM)を生成する。 PMDヒートマップとCMマップを学習した後、単純なテキスト再構成モジュール(TRM)を用いて最終的な結果が得られる。 cmが正確にテキストボックス内に存在するため、テキスト接着問題は自然に回避される。 一方、テキスト輪郭上の全ての点は同じMDを共有しているため、BOTDの複雑さは既存のセグメンテーションベースの方法よりもはるかに低い。 3つの実世界のベンチマーク実験結果から,BOTDの最先端性能が示された。

Recently, text detection has attracted sufficient attention in the field of computer vision and artificial intelligence. Among the existing approaches, regression-based models are limited to handle the texts with arbitrary shapes, while segmentation-based algorithms have high computational costs and suffer from the text adhesion problem. In this paper, we propose a new one-stage text detector, termed as Bold Outline Text Detector (BOTD), which is able to process the arbitrary-shaped text with low model complexity. Different from previous works, BOTD utilizes the Polar Minimum Distance (PMD) to encode the shortest distance between the center point and the contour of the text instance, and generates a Center Mask (CM) for each text instance. After learning the PMD heat map and CM map, the final results can be obtained with a simple Text Reconstruction Module (TRM). Since the CM resides within the text box exactly, the text adhesion problem is avoided naturally. Meanwhile, all the points on the text contour share the same PMD, so the complexity of BOTD is much lower than existing segmentation-based methods. Experimental results on three real-world benchmarks show the state-of-the-art performance of BOTD.
翻訳日:2021-06-06 14:44:41 公開日:2021-05-21
# Gym-$\mu$RTS:Deep Reinforcement Learningを用いたフルゲームリアルタイム戦略ゲーム研究に向けて

Gym-$\mu$RTS: Toward Affordable Full Game Real-time Strategy Games Research with Deep Reinforcement Learning ( http://arxiv.org/abs/2105.13807v1 )

ライセンス: Link先を確認
Shengyi Huang, Santiago Onta\~n\'on, Chris Bamford, Lukasz Grela(参考訳) 近年、研究者はリアルタイム戦略(RTS)ゲームにDeep Reinforcement Learning (DRL)アルゴリズムを適用することに成功し、StarCraft〜IIのプロのプレイヤーを倒す強力な自律エージェントを生み出している。 しかし、フルゲームに取り組む既存のアプローチは計算コストが高く、通常、数週間に数千のGPUとCPUを使用する必要がある。 本稿では, フルゲームRTS研究のための高速実行RL環境として, 1) Gym-$\mu$RTS("gym-micro-RTS"と発音する)を導入し, 2) フルゲーム$\mu$RTSをプレイするためにDRLをスケールするためのテクニックのコレクションと, その経験的重要性を示すアブレーション研究を紹介する。 最高のトレーニングを受けたボットは、過去の$\mu$RTSコンペでテストしたすべての$\mu$RTSボットを倒すことができ、その結果、最先端のDRLエージェントとなり、1台のマシン(GPU1台、vCPU3台、RAM16GB)で60時間程度しかトレーニングできない。

In recent years, researchers have achieved great success in applying Deep Reinforcement Learning (DRL) algorithms to Real-time Strategy (RTS) games, creating strong autonomous agents that could defeat professional players in StarCraft~II. However, existing approaches to tackle full games have high computational costs, usually requiring the use of thousands of GPUs and CPUs for weeks. This paper has two main contributions to address this issue: 1) We introduce Gym-$\mu$RTS (pronounced "gym-micro-RTS") as a fast-to-run RL environment for full-game RTS research and 2) we present a collection of techniques to scale DRL to play full-game $\mu$RTS as well as ablation studies to demonstrate their empirical importance. Our best-trained bot can defeat every $\mu$RTS bot we tested from the past $\mu$RTS competitions when working in a single-map setting, resulting in a state-of-the-art DRL agent while only taking about 60 hours of training using a single machine (one GPU, three vCPU, 16GB RAM).
翻訳日:2021-06-06 08:52:43 公開日:2021-05-21
# (参考訳) ヒンディー語と英語の混合テキストデータの感情検出 [全文訳有]

Detection of Emotions in Hindi-English Code Mixed Text Data ( http://arxiv.org/abs/2105.09226v2 )

ライセンス: CC BY 4.0
Divyansh Singh(参考訳) 近年,ソーシャルネットワークやスマートフォン上でのコミュニケーションにテキストチャットの利用が増加している。 これは特に、英語の語彙で認識されていない単語を含むヒンディー語と英語の混成テキストを使用する。 私たちはこれらの混合データから感情を検出し、怒り、恐怖、幸福、悲しみの感情で文章を分類しました。 我々は, 自然言語処理モデルの現状を利用して, この混合データ中の文からなるデータセットの性能を比較した。 データセットはソースから収集され、アノテートされ、モデルのトレーニングに使用される。

In recent times, we have seen an increased use of text chat for communication on social networks and smartphones. This particularly involves the use of Hindi-English code-mixed text which contains words which are not recognized in English vocabulary. We have worked on detecting emotions in these mixed data and classify the sentences in human emotions which are angry, fear, happy or sad. We have used state of the art natural language processing models and compared their performance on the dataset comprising sentences in this mixed data. The dataset was collected and annotated from sources and then used to train the models.
翻訳日:2021-05-29 20:24:35 公開日:2021-05-21
# (参考訳) パセルから大陸規模へ -Sentinel-1とLUCAS Copernicusのその場観測に基づくヨーロッパ初の作物型地図-

From parcel to continental scale -- A first European crop type map based on Sentinel-1 and LUCAS Copernicus in-situ observations ( http://arxiv.org/abs/2105.09261v2 )

ライセンス: CC BY 4.0
Rapha\"el d'Andrimont and Astrid Verhegghen and Guido Lemoine and Pieter Kempeneers and Michele Meroni and Marijn van der Velde(参考訳) 欧州連合(eu)の農業政策の評価には、詳細なパーセルレベルの作物タイプマッピングが必要である。 コペルニクス計画、特にセンチネル-1(s1)は、大陸規模の農地をタイムリーに監視する機会を提供する。 しかし、これまでのところ、S1のポテンシャルはそのような規模では研究されていない。 LUCAS 2018 Copernicus in-situサーベイにより、2018年のS1AとS1Bの合成開口レーダー観測に基づいて、EUの空間分解度10mで最初の大陸型作物マップを提示する。 ランダム森林分類アルゴリズムは19種類の作物を検知するために調整される。 このEUの作物マップの精度を3つのアプローチで評価する。 まず、大陸上空のルーカスコアの独立観測によって精度を評価する。 第2に、EU加盟国6か国または合計3Mパーセル8.21Mhaの地域からの農作物の主作物種別について、精度評価を行う。 最後に、分類によって引き起こされる作物の面積を、ユーロスタットが報告した亜国(NUTS2)地域統計と比較する。 この地図の全体的な精度は、主作物種別で80.3%、19作物種別別で76%と報告されている。 利用者によるレイプやカブレイプには高い精度が得られ、96%以上のアキュラシーが生成される。 リモートセンシングされた推定値とユーロスタットの相関は0.93(ポテト)から0.99(レイプとカブレイプ)まで様々である。 最後に,本論文で提示したフレームワークが,シーズン内高分解能作物マッピングの運用の基盤となる方法について論じる。

Detailed parcel-level crop type mapping for the whole European Union (EU) is necessary for the evaluation of agricultural policies. The Copernicus program, and Sentinel-1 (S1) in particular, offers the opportunity to monitor agricultural land at a continental scale and in a timely manner. However, so far the potential of S1 has not been explored at such a scale. Capitalizing on the unique LUCAS 2018 Copernicus in-situ survey, we present the first continental crop type map at 10-m spatial resolution for the EU based on S1A and S1B Synthetic Aperture Radar observations for the year 2018. Random forest classification algorithms are tuned to detect 19 different crop types. We assess the accuracy of this EU crop map with three approaches. First, the accuracy is assessed with independent LUCAS core in-situ observations over the continent. Second, an accuracy assessment is done specifically for main crop types from farmers declarations from 6 EU member countries or regions totaling >3M parcels and 8.21 Mha. Finally, the crop areas derived by classification are compared to the subnational (NUTS 2) area statistics reported by Eurostat. The overall accuracy for the map is reported as 80.3% when grouping main crop classes and 76% when considering all 19 crop type classes separately. Highest accuracies are obtained for rape and turnip rape with user and produced accuracies higher than 96%. The correlation between the remotely sensed estimated and Eurostat reported crop area ranges from 0.93 (potatoes) to 0.99 (rape and turnip rape). Finally, we discuss how the framework presented here can underpin the operational delivery of in-season high-resolution based crop mapping.
翻訳日:2021-05-29 20:19:35 公開日:2021-05-21
# (参考訳) 粗いパターンの識別によるテキスト行分割の教師なし学習 [全文訳有]

Unsupervised learning of text line segmentation by differentiating coarse patterns ( http://arxiv.org/abs/2105.09405v2 )

ライセンス: CC BY 4.0
Berat Kurar Barakat, Ahmad Droby, Raid Saabni, and Jihad El-Sana(参考訳) 近年,テキスト行セグメンテーションにおける教師なし深層学習の分野が進歩しているにもかかわらず,教師なし深層学習ソリューションが人気を集め始めている。 本稿では,距離が粗いテキスト行パターンの類似性に対応するコンパクトなユークリッド空間に,文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。 この空間が生成されると、テキスト行のセグメンテーションは埋め込み特徴ベクトルを使って標準技術で容易に実装できる。 モデルのトレーニングには,テキスト行の粗い傾向を隣接パッチが含んでいると仮定したランダムな文書画像パッチを抽出するが,一方が回転している場合には,テキスト行の粗い傾向が異なる。 このタスクをうまくこなすには、モデルがテキスト行とその突出部を認識することを学ぶ必要がある。 このアプローチの利点は、手動ラベリングの労力をゼロにすることです。 本手法は,テキストラインセグメンテーションデータセットのいくつかの変種について定性的かつ定量的に評価し,その効果を示す。

Despite recent advances in the field of supervised deep learning for text line segmentation, unsupervised deep learning solutions are beginning to gain popularity. In this paper, we present an unsupervised deep learning method that embeds document image patches to a compact Euclidean space where distances correspond to a coarse text line pattern similarity. Once this space has been produced, text line segmentation can be easily implemented using standard techniques with the embedded feature vectors. To train the model, we extract random pairs of document image patches with the assumption that neighbour patches contain a similar coarse trend of text lines, whereas if one of them is rotated, they contain different coarse trends of text lines. Doing well on this task requires the model to learn to recognize the text lines and their salient parts. The benefit of our approach is zero manual labelling effort. We evaluate the method qualitatively and quantitatively on several variants of text line segmentation datasets to demonstrate its effectivity.
翻訳日:2021-05-29 20:17:33 公開日:2021-05-21
# (参考訳) klue: 韓国語理解の評価

KLUE: Korean Language Understanding Evaluation ( http://arxiv.org/abs/2105.09680v2 )

ライセンス: CC BY-SA 4.0
Sungjoon Park, Jihyung Moon, Sungdong Kim, Won Ik Cho, Jiyoon Han, Jangwon Park, Chisung Song, Junseong Kim, Yongsook Song, Taehwan Oh, Joohong Lee, Juhyun Oh, Sungwon Lyu, Younghoon Jeong, Inkwon Lee, Sangwoo Seo, Dongjun Lee, Hyunwoo Kim, Myeonghwa Lee, Seongbo Jang, Seungwon Do, Sunkyoung Kim, Kyungtae Lim, Jongwon Lee, Kyumin Park, Jamin Shin, Seonghyun Kim, Lucy Park, Alice Oh, Jung-Woo Ha, Kyunghyun Cho(参考訳) 韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、トピック分類、セマンティックテキスト類似性、自然言語推論、名前付きエンティティ認識、関係抽出、依存関係解析、機械読解、対話状態追跡を含む、韓国の8つの自然言語理解(NLU)タスクのコレクションである。 私たちは、著作権を尊重しながら、さまざまなソースコーパスからすべてのタスクをスクラッチから構築します。 倫理的考察を念頭に、アノテーションプロトコルを慎重に設計する。 ベンチマークタスクとデータに加えて,各タスクの事前学習した言語モデルに対して,適切な評価指標と微調整レシピを提供する。 さらに, プレトレーニング言語モデル (PLM), KLUE-BERT, KLUE-RoBERTa もリリースし, KLUE のベースラインモデルを再現し, 今後の研究を促進する。 我々は,提案したKLUEベンチマークスイートを用いた予備実験から,このベンチマークスイートの有用性をすでに実証している。 まず、KLUE-RoBERTa-largeは、多言語PLMや既存のオープンソースの韓国PLMなど、他のベースラインよりも優れています。 第2に、事前学習したコーパスから個人識別可能な情報を置き換えても、パフォーマンスの低下は最小限に抑えられ、プライバシとNLUの能力は互いに相反するものではないことを示唆する。 最後に,BPEトークン化とモーフィムレベルの事前トークン化を併用することで,モーフィムレベルのタグ付けや検出,生成といったタスクに有効であることが判明した。 韓国のNLP研究の加速に加えて、KLUEの作成に関する包括的なドキュメントは、将来他の言語にも同様のリソースを作成できるようにします。 KLUEは<a class="link-external link-https"href="https://klue-benchma rk.com/"> this URL</a>で利用できる。

We introduce Korean Language Understanding Evaluation (KLUE) benchmark. KLUE is a collection of 8 Korean natural language understanding (NLU) tasks, including Topic Classification, SemanticTextual Similarity, Natural Language Inference, Named Entity Recognition, Relation Extraction, Dependency Parsing, Machine Reading Comprehension, and Dialogue State Tracking. We build all of the tasks from scratch from diverse source corpora while respecting copyrights, to ensure accessibility for anyone without any restrictions. With ethical considerations in mind, we carefully design annotation protocols. Along with the benchmark tasks and data, we provide suitable evaluation metrics and fine-tuning recipes for pretrained language models for each task. We furthermore release the pretrained language models (PLM), KLUE-BERT and KLUE-RoBERTa, to help reproducing baseline models on KLUE and thereby facilitate future research. We make a few interesting observations from the preliminary experiments using the proposed KLUE benchmark suite, already demonstrating the usefulness of this new benchmark suite. First, we find KLUE-RoBERTa-large outperforms other baselines, including multilingual PLMs and existing open-source Korean PLMs. Second, we see minimal degradation in performance even when we replace personally identifiable information from the pretraining corpus, suggesting that privacy and NLU capability are not at odds with each other. Lastly, we find that using BPE tokenization in combination with morpheme-level pre-tokenization is effective in tasks involving morpheme-level tagging, detection and generation. In addition to accelerating Korean NLP research, our comprehensive documentation on creating KLUE will facilitate creating similar resources for other languages in the future. KLUE is available at <a class="link-external link-https" href="https://klue-benchma rk.com/">this URL</a>.
翻訳日:2021-05-29 19:57:45 公開日:2021-05-21
# (参考訳) グラフ畳み込みニューラルネットワークを用いた胸部X線および患者メタデータからのCovid-19の検出 [全文訳有]

Covid-19 Detection from Chest X-ray and Patient Metadata using Graph Convolutional Neural Networks ( http://arxiv.org/abs/2105.09720v2 )

ライセンス: CC BY 4.0
Thosini Bamunu Mudiyanselage, Nipuna Senanayake, Chunyan Ji, Yi Pan and Yanqing Zhang(参考訳) 新しいコロナウイルス(covid-19)は、呼吸伝達によって急速に広がる性質のため、重大な課題を提起している。 その結果,PCR (Polymerase Chain Reaction) などの高需要試験の代替として,AIをベースとした迅速な疾患診断法が求められている。 胸部X線(CXR)画像解析は,資源利用率と高速スクリーニングにより,コスト効率の高い放射線撮影技術である。 しかし、複雑な深層傾き(DL)モデルで必要とされる十分かつ体系的なデータ収集はより困難であり、この問題に対処するためにトランスファーラーニングを利用した最近の取り組みがある。 それでも、これらのトランスファー学習モデルは、一般化の欠如とトレーニングデータセットへのバイアスの増加によって、見えないデータのパフォーマンスが低下する。 事前訓練されたモデルからX線のような特定の医用画像領域に移行した特徴の限定的な相関と、少ないデータへの過度な適合は、この状況の原因となる。 そこで本研究では,CXR画像からCovid-19肺炎のバイオマーカーを同定し,患者のメタ情報を検出する新しいグラフ畳み込みニューラルネットワーク(GCN)を提案する。 提案手法は,グラフ表現を用いたデータインスタンスとその特徴間の重要な関係知識を活用し,従来のユークリッド領域の畳み込みでは不可能であるグラフデータ学習に畳み込みを適用する。 2次モデル(コビッド対ノーマル)と3種類の分類問題(コビッド、ノーマル、その他の肺炎)の広範な実験の結果は、異なるベンチマーク移行学習モデルよりも優れており、上記の欠点を克服している。

The novel corona virus (Covid-19) has introduced significant challenges due to its rapid spreading nature through respiratory transmission. As a result, there is a huge demand for Artificial Intelligence (AI) based quick disease diagnosis methods as an alternative to high demand tests such as Polymerase Chain Reaction (PCR). Chest X-ray (CXR) Image analysis is such cost-effective radiography technique due to resource availability and quick screening. But, a sufficient and systematic data collection that is required by complex deep leaning (DL) models is more difficult and hence there are recent efforts that utilize transfer learning to address this issue. Still these transfer learnt models suffer from lack of generalization and increased bias to the training dataset resulting poor performance for unseen data. Limited correlation of the transferred features from the pre-trained model to a specific medical imaging domain like X-ray and overfitting on fewer data can be reasons for this circumstance. In this work, we propose a novel Graph Convolution Neural Network (GCN) that is capable of identifying bio-markers of Covid-19 pneumonia from CXR images and meta information about patients. The proposed method exploits important relational knowledge between data instances and their features using graph representation and applies convolution to learn the graph data which is not possible with conventional convolution on Euclidean domain. The results of extensive experiments of proposed model on binary (Covid vs normal) and three class (Covid, normal, other pneumonia) classification problems outperform different benchmark transfer learnt models, hence overcoming the aforementioned drawbacks.
翻訳日:2021-05-29 19:47:43 公開日:2021-05-21
# (参考訳) GapPredict: ドラフトゲノム集合におけるギャップ解消のための言語モデル [全文訳有]

GapPredict: A Language Model for Resolving Gaps in Draft Genome Assemblies ( http://arxiv.org/abs/2105.10552v1 )

ライセンス: CC BY 4.0
Eric Chen, Justin Chu, Jessica Zhang, Rene L. Warren, Inanc Birol(参考訳) 短読dnaシークエンシング装置は1ランにつき1012塩基以上を生成でき、通常は150塩基以上からなる。 この高いスループットにもかかわらず、de novoアセンブリーアルゴリズムは、これらのゲノムの繰り返し領域と難易度領域の両方により、短い読み込みを用いて連続したゲノム配列の再構築が困難である。 短い読み取りアセンブリの課題のいくつかは、ペアエンド読み込みを使用して組み立てられたシーケンスを足場にすることで軽減される。 しかし、これらの足場の未解決配列は「ギャップ」として現れる。 本稿では,キャラクタレベル言語モデルを用いて足場ギャップ内の未解決ヌクレオチドを予測するツールであるgappredictを紹介する。 我々は,最先端のギャップ充填ツールシールに対するgap予測をベンチマークし,後者が未充填で残したサンプルギャップの65.6%を前者が満たせることを観察し,ゲノム配列集合におけるギャップ充填問題に対するディープラーニングアプローチの実用性を示した。

Short-read DNA sequencing instruments can yield over 1012 bases per run, typically composed of reads 150 bases long. Despite this high throughput, de novo assembly algorithms have difficulty reconstructing contiguous genome sequences using short reads due to both repetitive and difficult-to-sequenc e regions in these genomes. Some of the short read assembly challenges are mitigated by scaffolding assembled sequences using paired-end reads. However, unresolved sequences in these scaffolds appear as "gaps". Here, we introduce GapPredict, a tool that uses a character-level language model to predict unresolved nucleotides in scaffold gaps. We benchmarked GapPredict against the state-of-the-art gap-filling tool Sealer, and observed that the former can fill 65.6% of the sampled gaps that were left unfilled by the latter, demonstrating the practical utility of deep learning approaches to the gap-filling problem in genome sequence assembly.
翻訳日:2021-05-27 13:05:40 公開日:2021-05-21
# (参考訳) 生体画像分割のためのハイパーコンボリューションネットワーク [全文訳有]

Hyper-Convolution Networks for Biomedical Image Segmentation ( http://arxiv.org/abs/2105.10559v1 )

ライセンス: CC BY 4.0
Tianyu Ma, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 畳み込み操作は、コンピュータビジョンで広く使われているニューラルネットワークアーキテクチャの中心的な構成要素である。 畳み込みカーネルのサイズは、畳み込みニューラルネットワーク(CNN)の表現力と学習可能なパラメータの数の両方を決定する。 リッチなピクセル関係を捉えるためにネットワーク容量を増やすには、学習可能なパラメータの数を増やす必要がある。 本稿では,畳み込み核をカーネル座標関数として暗黙的に表現する,強力な新規ビルディングブロックであるハイパー畳み込みを提案する。 ハイパーコンボリューションは、学習可能なパラメータの数からカーネルサイズ、すなわち受容領域を分離することができる。 生物医学的な画像分割課題に挑戦することに焦点を当てた実験では、通常の畳み込みをハイパー畳み込みに置き換えることで、精度を向上させるより効率的なアーキテクチャが実現できることを実証する。 また,学習したハイパーコンボリューションは自然に正規化され,一般化性能が向上することを示した。 我々は、ハイパー畳み込みが未来のニューラルネットワークアーキテクチャにおける強力なビルディングブロックになり得ると考えている。

The convolution operation is a central building block of neural network architectures widely used in computer vision. The size of the convolution kernels determines both the expressiveness of convolutional neural networks (CNN), as well as the number of learnable parameters. Increasing the network capacity to capture rich pixel relationships requires increasing the number of learnable parameters, often leading to overfitting and/or lack of robustness. In this paper, we propose a powerful novel building block, the hyper-convolution, which implicitly represents the convolution kernel as a function of kernel coordinates. Hyper-convolutions enable decoupling the kernel size, and hence its receptive field, from the number of learnable parameters. In our experiments, focused on challenging biomedical image segmentation tasks, we demonstrate that replacing regular convolutions with hyper-convolutions leads to more efficient architectures that achieve improved accuracy. Our analysis also shows that learned hyper-convolutions are naturally regularized, which can offer better generalization performance. We believe that hyper-convolutions can be a powerful building block in future neural network architectures solving computer vision tasks.
翻訳日:2021-05-27 12:45:48 公開日:2021-05-21
# (参考訳) 放送ホッケービデオにおけるパックローカライゼーションとマルチタスクイベント認識 [全文訳有]

Puck localization and multi-task event recognition in broadcast hockey videos ( http://arxiv.org/abs/2105.10563v1 )

ライセンス: CC BY 4.0
Kanav Vats, Mehrnaz Fani, David A. Clausi, John Zelek(参考訳) パックのローカライズは、アイスホッケービデオ分析において重要な問題であり、ゲームの解析、プレイ位置の決定、パックの所有度の評価に有用である。 問題はパックが小さいこと、パックの速度が高いことによる過度な動きのぼやけ、プレイヤーやボードによる閉塞のためである。 本稿では,放送ホッケービデオにおけるパックローカライズのためのネットワークについて紹介し,実装する。 このネットワークは専門家のNHLプレイバイプレイアノテーションを活用し、時間的コンテキストを使ってパックを見つける。 プレイヤー位置をガウス系空間熱マップで符号化することにより、アテンション機構を介してプレイヤー位置をネットワークに組み込む。 リンクやパック位置でのイベント発生は関連しているため、イベント認識ヘッドでパックの局所化ネットワークを強化し、マルチタスク学習を通じてネットワークをトレーニングすることで、イベント認識を行う。 実験の結果、ネットワークはテストセット上で73.1セントのaucでパックをローカライズできることが示されている。 puckのロケーションは、720pのブロードキャストビデオで毎秒5ドルのフレームで推測できる。 また,puckロケーションを用いたマルチタスク学習により,イベント認識精度が向上することを示す。

Puck localization is an important problem in ice hockey video analytics useful for analyzing the game, determining play location, and assessing puck possession. The problem is challenging due to the small size of the puck, excessive motion blur due to high puck velocity and occlusions due to players and boards. In this paper, we introduce and implement a network for puck localization in broadcast hockey video. The network leverages expert NHL play-by-play annotations and uses temporal context to locate the puck. Player locations are incorporated into the network through an attention mechanism by encoding player positions with a Gaussian-based spatial heatmap drawn at player positions. Since event occurrence on the rink and puck location are related, we also perform event recognition by augmenting the puck localization network with an event recognition head and training the network through multi-task learning. Experimental results demonstrate that the network is able to localize the puck with an AUC of $73.1 \%$ on the test set. The puck location can be inferred in 720p broadcast videos at $5$ frames per second. It is also demonstrated that multi-task learning with puck location improves event recognition accuracy.
翻訳日:2021-05-27 12:28:21 公開日:2021-05-21
# (参考訳) メモリ拡張ニューラルネットワークによるカウントの開発モデル化 [全文訳有]

Modelling the development of counting with memory-augmented neural networks ( http://arxiv.org/abs/2105.10577v1 )

ライセンス: CC BY 4.0
Zack Dulberg, Taylor Webb, Jonathan Cohen(参考訳) 数えることの学習は、体系的な一般化のためのより広い人間の能力の重要な例であり、数えることの発達は、子供がこの能力をサポートする手順で急速に習熟する点によって特徴づけられることが多い。 我々は、強化学習エージェントを訓練して、2進ベクトルからN項目を選択することによって、このプロセスをモデル化することを目的とした。 最近提案されたEmergent Symbol Binding Network (ESBN) に基づくメモリ拡張型モジュールネットワークアーキテクチャが,人間の開発に類似した学習中にインフレクションを示した。 このモデルはトレーニングセットの範囲外の体系的な外挿も可能で、例えば1から10の項目のみを選択するように訓練された場合、少なくともその長さの任意の数列を利用できる限り、11から15の項目を選択することに成功した。 子どもの発達と外挿能力の類似は、我々のモデルが人間の体系性の出現に光を当てる可能性を示唆している。

Learning to count is an important example of the broader human capacity for systematic generalization, and the development of counting is often characterized by an inflection point when children rapidly acquire proficiency with the procedures that support this ability. We aimed to model this process by training a reinforcement learning agent to select N items from a binary vector when instructed (known as the give-$N$ task). We found that a memory-augmented modular network architecture based on the recently proposed Emergent Symbol Binding Network (ESBN) exhibited an inflection during learning that resembled human development. This model was also capable of systematic extrapolation outside the range of its training set - for example, trained only to select between 1 and 10 items, it could succeed at selecting 11 to 15 items as long as it could make use of an arbitrary count sequence of at least that length. The close parallels to child development and the capacity for extrapolation suggest that our model could shed light on the emergence of systematicity in humans.
翻訳日:2021-05-27 12:14:24 公開日:2021-05-21
# (参考訳) afterカーネルの特性 [全文訳有]

Properties of the After Kernel ( http://arxiv.org/abs/2105.10585v1 )

ライセンス: CC BY 4.0
Philip M. Long(参考訳) ニューラル・タンジェント・カーネル(英: Neural Tangent Kernel、NTK)は、ニューラルネットワークを初期化時に定義したカーネルの広帯域限界であり、その埋め込みはそのパラメータに対するネットワークの出力の勾配である。 我々は,MNIST と CIFAR-10 から抽出した二項分類問題に対して,トレーニング後を除き,同じ埋め込みを用いて定義する「アフターカーネル」について,標準的な方法でSGD を用いて訓練した。 LyuとLiは、ニューラルネットワークが特定の条件下で、後続のカーネルを持つSVMと等価であるという感覚を説明した。 我々の実験は自然条件下でのこの提案と一致している。 VGGに類似したアーカイトキュアを持つネットワークでは、後続のカーネルはより「グローバル」であり、局所的な統計を残しながら画像のグローバルな構造を乱す入力画像の変換に不変ではない。 完全接続ネットワークの場合、afterカーネルはこの意味ではグローバルではない。 後続のカーネルは、小さなシフト、回転、ズームに対してより不変であり、データの増大はこれらの不変性を改善しない。 隠れノードの最後の層を用いて得られる(有限近似)共役カーネルは、NTKと後続カーネルに良い近似を与えることがあるが、常にではない。

The Neural Tangent Kernel (NTK) is the wide-network limit of a kernel defined using neural networks at initialization, whose embedding is the gradient of the output of the network with respect to its parameters. We study the "after kernel", which is defined using the same embedding, except after training, for neural networks with standard architectures, on binary classification problems extracted from MNIST and CIFAR-10, trained using SGD in a standard way. Lyu and Li described a sense in which neural networks, under certain conditions, are equivalent to SVM with the after kernel. Our experiments are consistent with this proposition under natural conditions. For networks with an architecure similar to VGG, the after kernel is more "global", in the sense that it is less invariant to transformations of input images that disrupt the global structure of the image while leaving the local statistics largely intact. For fully connected networks, the after kernel is less global in this sense. The after kernel tends to be more invariant to small shifts, rotations and zooms; data augmentation does not improve these invariances. The (finite approximation to the) conjugate kernel, obtained using the last layer of hidden nodes, sometimes, but not always, provides a good approximation to the NTK and the after kernel.
翻訳日:2021-05-27 11:57:04 公開日:2021-05-21
# (参考訳) コンテキスト線形帯域の並列化

Parallelizing Contextual Linear Bandits ( http://arxiv.org/abs/2105.10590v1 )

ライセンス: CC BY 4.0
Jeffrey Chan, Aldo Pacchiano, Nilesh Tripuraneni, Yun S. Song, Peter Bartlett, Michael I. Jordan(参考訳) 不確実性の下での意思決定に対する標準的なアプローチは、意思決定空間のシーケンシャルな探索に焦点を当てている。 しかし、並列実験のために利用可能なリソースを活用する一連の決定を提案する \textit{simultanely} は、探索を迅速に加速する可能性がある。 我々は、(並列)コンテキスト線形バンディットアルゴリズムの族を示し、その後悔は、完全にシーケンシャルなものとほぼ同一であり、同じオラクルクエリの総数にアクセスすると、文脈集合の幾何に依存する下位の「バーンイン」項を与える。 並列後悔性能のマッチング情報理論下限を提供し,時間軸においてアルゴリズムが漸近的に最適であることを示す。 最後に,これらの並列アルゴリズムを材料発見や生物シーケンス設計問題を含むいくつかの領域で実証的に評価し,実用環境での並列化バンディットの有用性を実証する。

Standard approaches to decision-making under uncertainty focus on sequential exploration of the space of decisions. However, \textit{simultaneously} proposing a batch of decisions, which leverages available resources for parallel experimentation, has the potential to rapidly accelerate exploration. We present a family of (parallel) contextual linear bandit algorithms, whose regret is nearly identical to their perfectly sequential counterparts -- given access to the same total number of oracle queries -- up to a lower-order "burn-in" term that is dependent on the context-set geometry. We provide matching information-theoreti c lower bounds on parallel regret performance to establish our algorithms are asymptotically optimal in the time horizon. Finally, we also present an empirical evaluation of these parallel algorithms in several domains, including materials discovery and biological sequence design problems, to demonstrate the utility of parallelized bandits in practical settings.
翻訳日:2021-05-27 11:32:57 公開日:2021-05-21
# (参考訳) bernoulliサンプリングによるプライバシー増幅 [全文訳有]

Privacy Amplification Via Bernoulli Sampling ( http://arxiv.org/abs/2105.10594v1 )

ライセンス: CC BY 4.0
Jacob Imola, Kamalika Chaudhuri(参考訳) プライバシーと正確さのバランスは、異なるプライベートな機械学習アルゴリズムを設計する上で大きな課題である。 このトレードオフを改善するために、前回の作業では、反復やデータのサブサンプリングといった一般的なトレーニング操作が、より高いプライバシにつながる可能性を分析する、プライバシ増幅手法が検討されている。 本稿では,ベイズ推定に使用される新しい操作である後方からサンプリングしたプライバシ増幅特性について解析する。 特に、差動プライベートパラメータによって記述される後方からのベルヌーイサンプリングについて考察する。 この設定で増幅係数を計算し、この係数の上限と下限を設定するアルゴリズムを提供する。 最後に、我々は1つではなくk個の後部サンプルを描くときに何が起こるかを見る。

Balancing privacy and accuracy is a major challenge in designing differentially private machine learning algorithms. To improve this tradeoff, prior work has looked at privacy amplification methods which analyze how common training operations such as iteration and subsampling the data can lead to higher privacy. In this paper, we analyze privacy amplification properties of a new operation, sampling from the posterior, that is used in Bayesian inference. In particular, we look at Bernoulli sampling from a posterior that is described by a differentially private parameter. We provide an algorithm to compute the amplification factor in this setting, and establish upper and lower bounds on this factor. Finally, we look at what happens when we draw k posterior samples instead of one.
翻訳日:2021-05-27 11:27:26 公開日:2021-05-21
# (参考訳) CEREC: メール会話におけるエンティティ解決のためのコーパス [全文訳有]

CEREC: A Corpus for Entity Resolution in Email Conversations ( http://arxiv.org/abs/2105.10606v1 )

ライセンス: CC BY 4.0
Parag Pravin Dakle and Dan I. Moldovan(参考訳) メール会話(CEREC)におけるエンティティ解決のための最初の大規模コーパスを提示する。 コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。 アノテーションは、最小限の手動作業で、2段階のプロセスとして実行される。 作成したコーパス上の4つのベースラインの特徴と性能を評価する実験を行った。 参照識別とコア参照解決のタスクについては、60.08 F1の最高のパフォーマンスを報告し、改善の余地を強調している。 考察したベースラインの限界を理解するために,詳細な質的量的誤り分析を行った。

We present the first large scale corpus for entity resolution in email conversations (CEREC). The corpus consists of 6001 email threads from the Enron Email Corpus containing 36,448 email messages and 60,383 entity coreference chains. The annotation is carried out as a two-step process with minimal manual effort. Experiments are carried out for evaluating different features and performance of four baselines on the created corpus. For the task of mention identification and coreference resolution, a best performance of 60.08 F1 is reported, highlighting the room for improvement. An in-depth qualitative and quantitative error analysis is presented to understand the limitations of the baselines considered.
翻訳日:2021-05-27 10:58:38 公開日:2021-05-21
# 画像記憶力推定のための深層学習における新しい手法の導入

Embracing New Techniques in Deep Learning for Estimating Image Memorability ( http://arxiv.org/abs/2105.10598v1 )

ライセンス: Link先を確認
Coen D. Needell and Wilma A. Bainbridge(参考訳) 様々な研究により、画像の記憶力は人間間で一貫性があり、画像の固有の性質として扱われることが示唆されている。 コンピュータビジョンモデルを使用することで、人々が何を覚えるか、忘れるかを予測できます。 古い研究では、現在時代遅れのディープラーニングアーキテクチャを使用して画像記憶可能性を予測するが、この分野のイノベーションは、この問題に適用するための新しい技術を与えてくれた。 本稿では,過去5年間の分野の発展を生かした5つの新たなディープラーニングモデルを提案し,評価する。 これらの新しいモデルは、カテゴリ内とカテゴリ間の両方の予測を最適化する組み合わせデータセットを使用して、以前の技術に対してテストされた。 以上の結果から,キーとなる記憶能力ネットワークは,その一般化性を過大評価し,トレーニングセットに過度に適合していたことが示唆された。 我々の新しいモデルは、この前のモデルより優れており、記憶可能性の回帰において、Residual Networksはより単純な畳み込みニューラルネットワークよりも優れていると結論づける。 我々は、新しい最先端モデルを簡単に研究コミュニティに提供し、メモリ研究者がより広い範囲の画像で記憶可能性について予測できるようにする。

Various work has suggested that the memorability of an image is consistent across people, and thus can be treated as an intrinsic property of an image. Using computer vision models, we can make specific predictions about what people will remember or forget. While older work has used now-outdated deep learning architectures to predict image memorability, innovations in the field have given us new techniques to apply to this problem. Here, we propose and evaluate five alternative deep learning models which exploit developments in the field from the last five years, largely the introduction of residual neural networks, which are intended to allow the model to use semantic information in the memorability estimation process. These new models were tested against the prior state of the art with a combined dataset built to optimize both within-category and across-category predictions. Our findings suggest that the key prior memorability network had overstated its generalizability and was overfit on its training set. Our new models outperform this prior model, leading us to conclude that Residual Networks outperform simpler convolutional neural networks in memorability regression. We make our new state-of-the-art model readily available to the research community, allowing memory researchers to make predictions about memorability on a wider range of images.
翻訳日:2021-05-25 15:33:02 公開日:2021-05-21
# 強化学習を用いたRTB広告キャンペーンの視認性最適化手法

Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using Reinforcement Learning ( http://arxiv.org/abs/2105.10587v1 )

ライセンス: Link先を確認
Michael Tashman, John Hoffman, Jiayi Xie, Fengdan Ye, Atefeh Morsali, Lee Winikor, Rouzbeh Gerami(参考訳) 強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。 ディープラーニングの出現は、goの最高位の人間プレイヤーを破るなど、連続的な意思決定問題で非常に注目すべき成功と関係している。 デジタル広告では、リアルタイム入札(rtb)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。 入札戦略は、事前に割り当てられたキャンペーン目標を達成するためにパラメータを動的に調整するためのロジックを組み込む必要がある。 本稿では、入札エージェントの訓練にRLを用いる方法について論じる。 キャンペーン指標としては,特に可視性 – エンドユーザが目にするインベントリの割合 – に注目しました。 本稿は,本研究の過程で開発した技術と実験のサーベイとして紹介する。 シミュレーションインタラクションのトレーニングによるエッジケースを含むトレーニングデータの拡張について検討する。 本稿では,いくつかの有望なRLアルゴリズムの性能を比較する実験結果と,ベイズ最適化によるアクタ/クリティックトレーニングパイプラインのハイパーパラメータ最適化へのアプローチについて論じる。 最後に,ルールに基づくフィードバック制御アプローチに対するrlエージェントのライブトラフィックテストを行い,本手法の可能性を実証し,さらなる改善の可能性を示す。 そこで本稿では,この急速に発展する分野における知見の整理を行い,rtbユースケースに適用する方法を提案する。

Reinforcement learning (RL) is an effective technique for training decision-making agents through interactions with their environment. The advent of deep learning has been associated with highly notable successes with sequential decision making problems - such as defeating some of the highest-ranked human players at Go. In digital advertising, real-time bidding (RTB) is a common method of allocating advertising inventory through real-time auctions. Bidding strategies need to incorporate logic for dynamically adjusting parameters in order to deliver pre-assigned campaign goals. Here we discuss techniques toward using RL to train bidding agents. As a campaign metric we particularly focused on viewability: the percentage of inventory which goes on to be viewed by an end user. This paper is presented as a survey of techniques and experiments which we developed through the course of this research. We discuss expanding our training data to include edge cases by training on simulated interactions. We discuss the experimental results comparing the performance of several promising RL algorithms, and an approach to hyperparameter optimization of an actor/critic training pipeline through Bayesian optimization. Finally, we present live-traffic tests of some of our RL agents against a rule-based feedback-control approach, demonstrating the potential for this method as well as areas for further improvement. This paper therefore presents an arrangement of our findings in this quickly developing field, and ways that it can be applied to an RTB use case.
翻訳日:2021-05-25 15:25:57 公開日:2021-05-21
# smartpatch:patch discriminatorによる手書き単語模倣の改善

SmartPatch: Improving Handwritten Word Imitation with Patch Discriminators ( http://arxiv.org/abs/2105.10528v1 )

ライセンス: Link先を確認
Alexander Mattick, Martin Mayr, Mathias Seuret, Andreas Maier, Vincent Christlein(参考訳) 近年のジェネレーティブ・逆境ネットワークは様々な領域で生成された画像のリアリズムを大きく飛躍させてきたが、その多くが手書きのテキスト生成ではない。 現実的な手書き文字の生成は、手書き文字認識(HTR)システムや人間とコンピュータの相互作用において、データ拡張に使用できるため重要である。 ペンレベルのアーティファクトを軽減するために、トレーニングフィードバックをカスタマイズしたソリューションで強化することにより、現在の最先端のメソッドのパフォーマンスを向上させる新しい技術であるsmartpatchを提案する。 我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報と、単語の別文字とを組み合わせる。 これにより、局所的な判別器がより強化され、よりリアルで高品質な手書き語が生成される。

As of recent generative adversarial networks have allowed for big leaps in the realism of generated images in diverse domains, not the least of which being handwritten text generation. The generation of realistic-looking hand-written text is important because it can be used for data augmentation in handwritten text recognition (HTR) systems or human-computer interaction. We propose SmartPatch, a new technique increasing the performance of current state-of-the-art methods by augmenting the training feedback with a tailored solution to mitigate pen-level artifacts. We combine the well-known patch loss with information gathered from the parallel trained handwritten text recognition system and the separate characters of the word. This leads to a more enhanced local discriminator and results in more realistic and higher-quality generated handwritten words.
翻訳日:2021-05-25 15:18:35 公開日:2021-05-21
# BCNet: 双方向結合ネットワークによるネットワーク幅の検索

BCNet: Searching for Network Width with Bilaterally Coupled Network ( http://arxiv.org/abs/2105.10533v1 )

ライセンス: Link先を確認
Xiu Su, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu(参考訳) 近年、よりコンパクトなネットワーク幅の探索は、ハードウェア制約下で畳み込みニューラルネットワーク(cnns)を展開するためのチャネルプルーニングの効果的な方法となっている。 探索を実現するために、通常、ワンショットスーパーネットを利用して、ネットワーク幅の異なる性能を効率的に評価する。 しかし、現在の手法は主に、各幅の評価のための \textit{unilaterally augmented} (UA) の原則に従っており、スーパーネットにおけるチャネルのトレーニングの不公平性を誘導する。 本稿では,この問題を解決するために,バイラテラル結合ネットワーク (BCNet) と呼ばれる新しいスーパーネットを提案する。 bcnetでは、各チャネルは十分に訓練され、同じネットワーク幅に責任があるため、各ネットワーク幅をより正確に評価することができる。 さらに,bcnetを訓練するための確率的補完戦略を活用し,進化的探索の性能を高めるために先行的な初期個体群サンプリング手法を提案する。 CIFAR-10とImageNetデータセットのベンチマーク実験により,我々の手法は,他のベースライン手法よりも最先端あるいは競合的な性能を達成できることが示唆された。 さらに,ネットワーク幅を改良することでNASモデルの性能をさらに向上することが判明した。 例えば、同じフロップス予算で得られた efficientnet-b0 は imagenet データセット上で 77.36\% top-1 精度を達成し、オリジナル設定のパフォーマンスを 0.48\% 上回った。

Searching for a more compact network width recently serves as an effective way of channel pruning for the deployment of convolutional neural networks (CNNs) under hardware constraints. To fulfill the searching, a one-shot supernet is usually leveraged to efficiently evaluate the performance \wrt~different network widths. However, current methods mainly follow a \textit{unilaterally augmented} (UA) principle for the evaluation of each width, which induces the training unfairness of channels in supernet. In this paper, we introduce a new supernet called Bilaterally Coupled Network (BCNet) to address this issue. In BCNet, each channel is fairly trained and responsible for the same amount of network widths, thus each network width can be evaluated more accurately. Besides, we leverage a stochastic complementary strategy for training the BCNet, and propose a prior initial population sampling method to boost the performance of the evolutionary search. Extensive experiments on benchmark CIFAR-10 and ImageNet datasets indicate that our method can achieve state-of-the-art or competing performance over other baseline methods. Moreover, our method turns out to further boost the performance of NAS models by refining their network widths. For example, with the same FLOPs budget, our obtained EfficientNet-B0 achieves 77.36\% Top-1 accuracy on ImageNet dataset, surpassing the performance of original setting by 0.48\%.
翻訳日:2021-05-25 15:18:21 公開日:2021-05-21
# WSSOD: 弱さと半監督オブジェクト検出のための新しいパイプライン

WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection ( http://arxiv.org/abs/2105.11293v1 )

ライセンス: Link先を確認
Shijie Fang, Yuhang Cao, Xinjiang Wang, Kai Chen, Dahua Lin, Wayne Zhang(参考訳) オブジェクト検出のパフォーマンスは、大きな注釈付きデータセットの可用性に大きく依存します。 アノテーションのコストを軽減するため、研究コミュニティはラベルなしまたは弱いラベル付きデータを活用する方法を数多く検討してきた。 しかし、このような努力は今のところ限られた成功を収めている。 本研究では,完全かつ弱く注釈付きデータを共同利用することにより,検出性能とアノテーションコストの新たなバランスを探究し,実用的視点で問題を再検討する。 具体的には,2段階の学習手順を含む弱機能かつ半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。 エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。 電流と一般的な半教師付きパイプラインの仮定は、統一EM定式化の下で慎重に検討される。 このフレームワーク上には、弱教師付き損失(WSL)、ラベルアテンション、ランダム擬似ラベルサンプリング(RPS)戦略を導入し、これらの仮定を緩和し、検出パイプラインの有効性をさらに改善する。 提案フレームワークはPASCAL-VOCとMSCOCOのベンチマークで顕著な性能を示し,アノテーションの3分の1に過ぎなかった。

The performance of object detection, to a great extent, depends on the availability of large annotated datasets. To alleviate the annotation cost, the research community has explored a number of ways to exploit unlabeled or weakly labeled data. However, such efforts have met with limited success so far. In this work, we revisit the problem with a pragmatic standpoint, trying to explore a new balance between detection performance and annotation cost by jointly exploiting fully and weakly annotated data. Specifically, we propose a weakly- and semi-supervised object detection framework (WSSOD), which involves a two-stage learning procedure. An agent detector is first trained on a joint dataset and then used to predict pseudo bounding boxes on weakly-annotated images. The underlying assumptions in the current as well as common semi-supervised pipelines are also carefully examined under a unified EM formulation. On top of this framework, weakly-supervised loss (WSL), label attention and random pseudo-label sampling (RPS) strategies are introduced to relax these assumptions, bringing additional improvement on the efficacy of the detection pipeline. The proposed framework demonstrates remarkable performance on PASCAL-VOC and MSCOCO benchmark, achieving a high performance comparable to those obtained in fully-supervised settings, with only one third of the annotations.
翻訳日:2021-05-25 15:10:11 公開日:2021-05-21
# ニッチ進化アルゴリズムによる光学レンズ設計における解の多重性への取り組み

Addressing the Multiplicity of Solutions in Optical Lens Design as a Niching Evolutionary Algorithms Computational Challenge ( http://arxiv.org/abs/2105.10541v1 )

ライセンス: Link先を確認
Anna V. Kononova, Ofer M. Shir, Teus Tukker, Pierluigi Frisco, Shutong Zeng, Thomas B\"ack(参考訳) 最適なレンズデザインは、現実世界の最適化の基本的な課題である。 潜在的に多数のオプティマ、多種多様な臨界点、および単純な問題インスタンスに対する特定の最適設計のしっかりとした理解は、それをニッチな挑戦として扱うモチベーションを与えてくれる。 本研究では,ニチングcma-esヒューリスティックを用いて,この設計問題 (6次元クックトリプレット) をシミュレーションベースで解決する。 Niching-CMA-ES 'out-of-the-box' を適用した結果は成功したが、検索を正確にオプティマに駆動するローカルサーチによって支援された場合、最もうまく動作する。 得られた探索ポイントは, この問題の具体的知識に基づいて, 勾配計算とヘッセン計算を伴って相関する。 我々はこの計算キャンペーンについて広範囲に報告し、その結果、(i)21の既知のミニマのうち19の場所、(ii)540の新しいオプティマの発見が得られた。 これらは21の理論的解に類似した新しいミニマであるが、それらのいくつかはより優れたメリット関数値(ここでは知られてはいない)を持ち、(三)ドメイン全体にわたって多くの不可能ポケットを識別する。 ニッチ機構はこの問題領域に対処するのに適しており、達成された新しい解によって形成される見かけの多次元構造を仮定する。

Optimal Lens Design constitutes a fundamental, long-standing real-world optimization challenge. Potentially large number of optima, rich variety of critical points, as well as solid understanding of certain optimal designs per simple problem instances, provide altogether the motivation to address it as a niching challenge. This study applies established Niching-CMA-ES heuristic to tackle this design problem (6-dimensional Cooke triplet) in a simulation-based fashion. The outcome of employing Niching-CMA-ES `out-of-the-box' proves successful, and yet it performs best when assisted by a local searcher which accurately drives the search into optima. The obtained search-points are corroborated based upon concrete knowledge of this problem-instance, accompanied by gradient and Hessian calculations for validation. We extensively report on this computational campaign, which overall resulted in (i) the location of 19 out of 21 known minima within a single run, (ii) the discovery of 540 new optima. These are new minima similar in shape to 21 theoretical solutions, but some of them have better merit function value (unknown heretofore), (iii) the identification of numerous infeasibility pockets throughout the domain (also unknown heretofore). We conclude that niching mechanism is well-suited to address this problem domain, and hypothesize on the apparent multidimensional structures formed by the attained new solutions.
翻訳日:2021-05-25 15:04:41 公開日:2021-05-21
# 残差およびマルチレゾリューションu-netによる組織像の前立腺分画

Prostate Gland Segmentation in Histology Images via Residual and Multi-Resolution U-Net ( http://arxiv.org/abs/2105.10556v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Elena Pay\'a-Bosch, Gabriel Garc\'ia, Adri\'an Colomer and Valery Naranjo(参考訳) 前立腺癌は世界でも有数のがんである。 死亡率を下げる重要な要因の1つは、早期発見に基づいている。 本課題に対するコンピュータ支援診断システムは,組織像の腺構造解析に基づいている。 したがって、正確な腺の検出と分画は予測の成功に不可欠である。 本研究の方法論的基盤は,U-Net畳み込みニューラルネットワークアーキテクチャに基づく前立腺分節であり,データ拡張技術を用いて訓練された残差ブロックと多分解能ブロックで修飾された。 残差構成は、画像レベルの比較において、テストサブセットで以前の最先端アプローチよりも優れており、平均Dice Index は 0.77 に達する。

Prostate cancer is one of the most prevalent cancers worldwide. One of the key factors in reducing its mortality is based on early detection. The computer-aided diagnosis systems for this task are based on the glandular structural analysis in histology images. Hence, accurate gland detection and segmentation is crucial for a successful prediction. The methodological basis of this work is a prostate gland segmentation based on U-Net convolutional neural network architectures modified with residual and multi-resolution blocks, trained using data augmentation techniques. The residual configuration outperforms in the test subset the previous state-of-the-art approaches in an image-level comparison, reaching an average Dice Index of 0.77.
翻訳日:2021-05-25 15:01:37 公開日:2021-05-21
# フィールド内ロボットデータ収集とマシンビジョンに基づくデータ解析を用いた高スループットダイズポッドカウント

High Throughput Soybean Pod-Counting with In-Field Robotic Data Collection and Machine-Vision Based Data Analysis ( http://arxiv.org/abs/2105.10568v1 )

ライセンス: Link先を確認
Michael McGuire, Chinmay Soman, Brian Diers, and Girish Chowdhary(参考訳) 小型移動ロボットと機械ビジョンアルゴリズムを用いた高スループット大豆ポッド数に対する有望な結果を報告する。 以上の結果から,機械ビジョンに基づく大豆ポッド数と大豆収量との相関が強く示唆された。 ポッドカウントはダイズ収量と強く相関するが,ポッドカウントは非常に労働集約的であり,自動化が困難である。 その結果,視覚センサを搭載した自律ロボットは,成熟時に大豆のデータを自律的に収集できることがわかった。 マシンビジョンアルゴリズムは、実験単位(eusまたはプロット)にまたがって配置された大きな多様性パネルのポッド数を、高スループットで自動化された方法で見積もることができる。 我々は自動化ポッド数と大豆収量との相関関係を報告した。 このデータは、イリノイ大学ダイズ育種プログラムが2020年の生育シーズンに維持した1463の単葉プロットによる実験で収集された。 また16プロットの小さなデータセットに対して,自動ポッド数と手動ポッド数との相関を0.88と報告した。

We report promising results for high-throughput on-field soybean pod count with small mobile robots and machine-vision algorithms. Our results show that the machine-vision based soybean pod counts are strongly correlated with soybean yield. While pod counts has a strong correlation with soybean yield, pod counting is extremely labor intensive, and has been difficult to automate. Our results establish that an autonomous robot equipped with vision sensors can autonomously collect soybean data at maturity. Machine-vision algorithms can be used to estimate pod-counts across a large diversity panel planted across experimental units (EUs, or plots) in a high-throughput, automated manner. We report a correlation of 0.67 between our automated pod counts and soybean yield. The data was collected in an experiment consisting of 1463 single-row plots maintained by the University of Illinois soybean breeding program during the 2020 growing season. We also report a correlation of 0.88 between automated pod counts and manual pod counts over a smaller data set of 16 plots.
翻訳日:2021-05-25 15:01:26 公開日:2021-05-21
# 非視線再構成による飛行時間の自動校正

Automatic calibration of time of flight based non-line-of-sight reconstruction ( http://arxiv.org/abs/2105.10603v1 )

ライセンス: Link先を確認
Subhash Chandra Sadhu, Abhishek Singh, Tomohiro Maeda, Tristan Swedish, Ryan Kim, Lagnojita Sinha, and Ramesh Raskar(参考訳) time of flight based non-line-of-sight (nlos) imagingアプローチでは、可視シーンの照明と検出器位置の正確な校正が必要である。 このキャリブレーションエラーが十分に高い場合は、ユーザへの指示なしに完全にリコンストラクションが失敗する可能性がある。 本研究では, 誤校正に対処するため, 自己校正をNLOS再構成に組み込むことの必要性を強調した。 そこで我々は,NLOS計測の前方モデルとして,隠れたシーンアルベド,仮想照明と検出器位置の両面を区別できるモデルを提案する。 平均二乗誤差損失と正規化を伴わないモデルでは, 勾配降下による測定残差を最小化し, 同時再構成とキャリブレーションパラメータの回復を可能にする。 そこで,本手法では,キャリブレーション誤差により他の状態のアルゴリズムが故障するシミュレーションデータと実データを用いて,ロバストな再構成を行うことができることを示す。

Time of flight based Non-line-of-sight (NLOS) imaging approaches require precise calibration of illumination and detector positions on the visible scene to produce reasonable results. If this calibration error is sufficiently high, reconstruction can fail entirely without any indication to the user. In this work, we highlight the necessity of building autocalibration into NLOS reconstruction in order to handle mis-calibration. We propose a forward model of NLOS measurements that is differentiable with respect to both, the hidden scene albedo, and virtual illumination and detector positions. With only a mean squared error loss and no regularization, our model enables joint reconstruction and recovery of calibration parameters by minimizing the measurement residual using gradient descent. We demonstrate our method is able to produce robust reconstructions using simulated and real data where the calibration error applied causes other state of the art algorithms to fail.
翻訳日:2021-05-25 15:01:08 公開日:2021-05-21
# HyFed: プライバシ保護機械学習のためのハイブリッドフェデレーションフレームワーク

HyFed: A Hybrid Federated Framework for Privacy-preserving Machine Learning ( http://arxiv.org/abs/2105.10545v1 )

ライセンス: Link先を確認
Reza Nasirigerdeh, Reihaneh Torkzadehmahani, Julian Matschinske, Jan Baumbach, Daniel Rueckert, Georgios Kaissis(参考訳) フェデレートラーニング(FL)は、複数のクライアントが中央サーバの調整の下でグローバルモデルを共同でトレーニングすることを可能にする。 FLは、生のデータ共有が不要なプライバシーを意識したパラダイムであるが、最近の研究では、FLは、サーバや他のクライアントと共有されるモデルパラメータを通して、クライアントのプライベートデータを漏洩する可能性がある。 本稿では,グローバルモデルの有用性を維持しつつ,FLのプライバシを高めるHyFedフレームワークを提案する。 HyFedは、フェデレーション付きプライバシ保護アルゴリズムを開発するためのジェネリックAPIを提供する。 HyFedはシミュレーションとフェデレーション操作モードの両方をサポートし、ソースコードはhttps://github.com/t um-aimed/hyfedで公開されている。

Federated learning (FL) enables multiple clients to jointly train a global model under the coordination of a central server. Although FL is a privacy-aware paradigm, where raw data sharing is not required, recent studies have shown that FL might leak the private data of a client through the model parameters shared with the server or the other clients. In this paper, we present the HyFed framework, which enhances the privacy of FL while preserving the utility of the global model. HyFed provides developers with a generic API to develop federated, privacy-preserving algorithms. HyFed supports both simulation and federated operation modes and its source code is publicly available at https://github.com/t um-aimed/hyfed.
翻訳日:2021-05-25 14:57:20 公開日:2021-05-21
# GNNIE: ロードバランシングとグラフ特化キャッシングを備えたGNN推論エンジン

GNNIE: GNN Inference Engine with Load-balancing and Graph-Specific Caching ( http://arxiv.org/abs/2105.10554v1 )

ライセンス: Link先を確認
Sudipta Mondal, Susmita Dey Manasi, Kishor Kunal, and Sachin S. Sapatnekar(参考訳) グラフニューラルネットワーク(GNN)に基づく解析エンジンは,大規模グラフを用いて関係をモデル化する実世界の多くの問題において不可欠である。 GNNハードウェアプラットフォームの課題は、(a)さまざまなGNNをホストし、(b)入力ノード特徴ベクトルとグラフ隣接行列と付随するランダムメモリアクセスパターンの高間隔を処理し、(c)実際のデータセットにおける高間隔およびパワーロー頂点度分布によって引き起こされる不均一なワークロードに直面してロードバランスな計算を維持することである。 GNNIEは幅広いGNNを実行するために設計されたアクセラレータである。 i)ノード機能のオペランドをブロックに分割すること、(ii)計算の再順序付けと再分配、(iii)処理要素間の通信オーバーヘッドの少ない柔軟なmacアーキテクチャを使用することにより、ワークロードの不均衡に取り組む。 さらに、実際のグラフの特徴によく適合するオフチップメモリ帯域幅を効率的に利用するグラフ分割方式とグラフ固有のキャッシュポリシーを採用している。 ランダムメモリアクセス効果は分割と次数認識キャッシュによって軽減され、高次頂点の再利用を可能にする。 GNNIEは、CPU上で8890x以上、GPU上で295x以上、グラフアテンションネットワーク(GAT)、グラフ畳み込みネットワーク(GCN)、グラフSAGE、GINConv、DiffPool上での平均スピードアップを達成する。 GNNIEは、AWB-GCN(GCNのみで動作する)よりも平均2.28倍のスピードアップを実現している。

Analysis engines based on Graph Neural Networks (GNNs) are vital for many real-world problems that model relationships using large graphs. Challenges for a GNN hardware platform include the ability to (a) host a variety of GNNs, (b) handle high sparsity in input node feature vectors and the graph adjacency matrix and the accompanying random memory access patterns, and (c) maintain load-balanced computation in the face of uneven workloads induced by high sparsity and power-law vertex degree distributions in real datasets. The proposes GNNIE, an accelerator designed to run a broad range of GNNs. It tackles workload imbalance by (i) splitting node feature operands into blocks, (ii) reordering and redistributing computations, and (iii) using a flexible MAC architecture with low communication overheads among the processing elements. In addition, it adopts a graph partitioning scheme and a graph-specific caching policy that efficiently uses off-chip memory bandwidth that is well suited to the characteristics of real-world graphs. Random memory access effects are mitigated by partitioning and degree-aware caching to enable the reuse of high-degree vertices. GNNIE achieves average speedups of over 8890x over a CPU and 295x over a GPU over multiple datasets on graph attention networks (GATs), graph convolutional networks (GCNs), GraphSAGE, GINConv, and DiffPool, Compared to prior approaches, GNNIE achieves an average speedup of 9.74x over HyGCN for GCN, GraphSAGE, and GINConv; HyGCN cannot implement GATs. GNNIE achieves an average speedup of 2.28x over AWB-GCN (which runs only GCNs), despite using 3.4x fewer processing units.
翻訳日:2021-05-25 14:57:06 公開日:2021-05-21
# 交通速度推定のための低ランクハンケルテンソル補完

Low-Rank Hankel Tensor Completion for Traffic Speed Estimation ( http://arxiv.org/abs/2105.11335v1 )

ライセンス: Link先を確認
Xudong Wang, Yuankai Wu, Dingyi Zhuang, Lijun Sun(参考訳) 本稿では,移動センサからのスパース観測による交通状態推定(TSE)問題について検討する。 TSEは、トラフィック変数(例えば、速度/密度)の進化がトラフィックフローダイナミクス(例えば、偏微分方程式)によって制御される時空間補間問題と考えることができる。 既存のtse手法の多くは、明確に定義された物理トラフィックフローモデルに依存するか、機械学習モデルをトレーニングするために大量のシミュレーションデータを必要とする。 本稿では,これまでの研究と異なり,純粋にデータ駆動型でモデルフリーなソリューションを提案する。 我々は、TSEを時空間行列補完補間問題とみなし、時空間ハンケル遅延埋め込みを適用して元の不完全行列を4階テンソルに変換する。 このテンソル構造に低ランクの仮定を付与することにより、大域的パターンと未知かつ複雑な局所時空間力学をデータ駆動方式で近似し、特徴付けることができる。 時空間展開法(すなわち正方ノルム)のトルーカットされた核ノルムを用いて、テンソルランクを近似し、乗算器の交互方向法(ADMM)に基づく効率的な解アルゴリズムを開発する。 提案されたフレームワークは、2つのハイパーパラメーター(空間的および時間的ウィンドウの長さ)のみを含み、データのスパーシティの度合いを考慮すれば設定が容易である。 本研究では,合成シミュレーションデータと実世界の高分解能軌道データの両方について数値実験を行い,提案手法の有効性と優位性を示す。

This paper studies the traffic state estimation (TSE) problem using sparse observations from mobile sensors. TSE can be considered a spatiotemporal interpolation problem in which the evolution of traffic variables (e.g., speed/density) is governed by traffic flow dynamics (e.g., partial differential equations). Most existing TSE methods either rely on well-defined physical traffic flow models or require large amounts of simulation data as input to train machine learning models. Different from previous studies, in this paper we propose a purely data-driven and model-free solution. We consider TSE as a spatiotemporal matrix completion/interpola tion problem, and apply spatiotemporal Hankel delay embedding to transforms the original incomplete matrix to a fourth-order tensor. By imposing a low-rank assumption on this tensor structure, we can approximate and characterize both global patterns and the unknown and complex local spatiotemporal dynamics in a data-driven manner. We use the truncated nuclear norm of the spatiotemporal unfolding (i.e., square norm) to approximate the tensor rank and develop an efficient solution algorithm based on the Alternating Direction Method of Multipliers (ADMM). The proposed framework only involves two hyperparameters -- spatial and temporal window lengths, which are easy to set given the degree of data sparsity. We conduct numerical experiments on both synthetic simulation data and real-world high-resolution trajectory data, and our results demonstrate the effectiveness and superiority of the proposed model in some challenging scenarios.
翻訳日:2021-05-25 14:52:22 公開日:2021-05-21
# 半教師付き音声表現学習によるミツバチ強度のモデル化

Semi-Supervised Audio Representation Learning for Modeling Beehive Strengths ( http://arxiv.org/abs/2105.10536v1 )

ライセンス: Link先を確認
Tony Zhang, Szymon Zmyslony, Sergei Nozdrenkov, Matthew Smith, Brandon Hopkins(参考訳) ミツバチは我々の生態系や食料安全保障に汚染され、世界の農業生産の35%を占めています。 その重要性にも拘わらず、養蜂は人間の労働力と経験に基づくヒューリスティックにのみ依存し、コロニーが健全であることを保証するために頻繁に人間のチェックアップを必要とする。 気候変動や害虫、環境毒性の脅威により、受粉者の人口は減少し、世界の食料安全保障を維持するために、これまで以上に管理が重要になっている。 そこで我々は,この課題に対処すべく,音響・環境計測による養蜂モニタリングのための統合ハードウェアセンシングシステムと,音響モデリングモジュールと予測器からなる階層型半教師付き深層学習モデルを開発し,養蜂の強度をモデル化した。 低レベル音声特徴と概日時力学の両方をモデル化するために、人間の検査に基づく音声再構成と予測損失を共同で訓練する。 このモデルは限定ラベルにもかかわらずよく機能しており、ミツバチの様々な音響プロファイルを特徴付けるのに有用な音声埋め込みを学習できる。 これは、多数のhivにまたがる観察環境でミツバチと個体数をモデル化するために、オーディオベースのディープラーニングを適用するという私たちの知識の最初の例です。

Honey bees are critical to our ecosystem and food security as a pollinator, contributing 35% of our global agriculture yield. In spite of their importance, beekeeping is exclusively dependent on human labor and experience-derived heuristics, while requiring frequent human checkups to ensure the colony is healthy, which can disrupt the colony. Increasingly, pollinator populations are declining due to threats from climate change, pests, environmental toxicity, making their management even more critical than ever before in order to ensure sustained global food security. To start addressing this pressing challenge, we developed an integrated hardware sensing system for beehive monitoring through audio and environment measurements, and a hierarchical semi-supervised deep learning model, composed of an audio modeling module and a predictor, to model the strength of beehives. The model is trained jointly on audio reconstruction and prediction losses based on human inspections, in order to model both low-level audio features and circadian temporal dynamics. We show that this model performs well despite limited labels, and can learn an audio embedding that is useful for characterizing different sound profiles of beehives. This is the first instance to our knowledge of applying audio-based deep learning to model beehives and population size in an observational setting across a large number of hives.
翻訳日:2021-05-25 14:49:59 公開日:2021-05-21
# (参考訳) 物理に基づく模倣学習と対話的文字制御のためのGANライクなアプローチ [全文訳有]

A GAN-Like Approach for Physics-Based Imitation Learning and Interactive Character Control ( http://arxiv.org/abs/2105.10066v1 )

ライセンス: CC BY 4.0
Pei Xu and Ioannis Karamouzas(参考訳) 物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。 本研究は,GAN(Generative Adversarial Network)と強化学習を基盤として,事前処理した参照クリップに対して,分類器の集合と模倣ポリシーを訓練する模倣学習フレームワークを導入する。 分類器は、模擬ポリシーによって生成された動作から基準運動を識別するように訓練され、判別器を騙して報酬が与えられる。 GANに基づくアプローチでは、異なる動作を模倣するために、複数のモーター制御ポリシーを個別に訓練することができる。 実行時に,ユーザが提供する外部制御信号に応答し,異なるポリシを対話的に切り替えることができる。 従来の手法と比較して,提案手法は,1)報酬関数を手動で設計・微調整することなく,最先端の模倣性能を達成し,2)対象の参照ポーズを段階的に明示的にあるいは暗黙的に追跡することなく文字を直接制御し,3)動作生成や動作マッチング機構を必要とせずに対話的なポリシー切替をサポートする。 我々は、様々な模倣と対話的な制御タスクにおいて、我々のアプローチの適用性を強調しながら、外部の摂動に耐え、バランスを回復する能力を示した。 全体として、我々のアプローチは高忠実度動作を生成し、ランタイムコストが低く、インタラクティブなアプリケーションやゲームに簡単に統合できます。

We present a simple and intuitive approach for interactive control of physically simulated characters. Our work builds upon generative adversarial networks (GAN) and reinforcement learning, and introduces an imitation learning framework where an ensemble of classifiers and an imitation policy are trained in tandem given pre-processed reference clips. The classifiers are trained to discriminate the reference motion from the motion generated by the imitation policy, while the policy is rewarded for fooling the discriminators. Using our GAN-based approach, multiple motor control policies can be trained separately to imitate different behaviors. In runtime, our system can respond to external control signal provided by the user and interactively switch between different policies. Compared to existing methods, our proposed approach has the following attractive properties: 1) achieves state-of-the-art imitation performance without manually designing and fine tuning a reward function; 2) directly controls the character without having to track any target reference pose explicitly or implicitly through a phase state; and 3) supports interactive policy switching without requiring any motion generation or motion matching mechanism. We highlight the applicability of our approach in a range of imitation and interactive control tasks, while also demonstrating its ability to withstand external perturbations as well as to recover balance. Overall, our approach generates high-fidelity motion, has low runtime cost, and can be easily integrated into interactive applications and games.
翻訳日:2021-05-25 13:23:13 公開日:2021-05-21
# (参考訳) スパンベース継手エンティティの強化とスクエンスタグ付け機構による関係抽出 [全文訳有]

Boosting Span-based Joint Entity and Relation Extraction via Squence Tagging Mechanism ( http://arxiv.org/abs/2105.10080v1 )

ライセンス: CC BY 4.0
Bin Ji, Shasha Li, Jie Yu, Jun Ma, Huijun Liu(参考訳) Spanベースの関節抽出は、テキストスパン形式で名前付きエンティティ認識(NER)と関係抽出(RE)を同時に行う。 最近の研究では、トークンラベルが重要なタスク固有の情報を伝達し、トークンセマンティクスを豊かにできることが示されている。 しかしながら、私たちが知る限りでは、シーケンスタグ機構を完全に廃止しているため、以前のスパンベースの作業はすべてトークンラベルのインフォームを使用しません。 そこで本研究では,シーケンスタグ付きner由来のトークン・バイオラベル情報により強化された,スパン型ジョイント・エクストラクテーション・ネットワークであるstsnを提案する。 複数のアテンション層を深く積み重ねることで、stsnを構築するための深いニューラルアーキテクチャを設計し、各アテンション層は3つの基本的なアテンションユニットからなる。 ディープニューラルアーキテクチャは、まずトークンラベルとスパンベースジョイント抽出のセマンティック表現を学び、それからそれらの間のインフォームインタラクションを構築し、スパンベースNERとRE間の双方向情報相互接続を実現する。 さらに, BIOタグ方式を拡張して, STSNが重なり合うエンティリティを抽出できるようにする。 3つのベンチマークデータセットの実験により、我々のモデルは従来よりずっと優れたモデルよりも大きなマージンで、新しい最先端の結果を生み出していることが示された。

Span-based joint extraction simultaneously conducts named entity recognition (NER) and relation extraction (RE) in text span form. Recent studies have shown that token labels can convey crucial task-specific information and enrich token semantics. However, as far as we know, due to completely abstain from sequence tagging mechanism, all prior span-based work fails to use token label in-formation. To solve this problem, we pro-pose Sequence Tagging enhanced Span-based Network (STSN), a span-based joint extrac-tion network that is enhanced by token BIO label information derived from sequence tag-ging based NER. By stacking multiple atten-tion layers in depth, we design a deep neu-ral architecture to build STSN, and each atten-tion layer consists of three basic attention units. The deep neural architecture first learns seman-tic representations for token labels and span-based joint extraction, and then constructs in-formation interactions between them, which also realizes bidirectional information interac-tions between span-based NER and RE. Fur-thermore, we extend the BIO tagging scheme to make STSN can extract overlapping en-tity. Experiments on three benchmark datasets show that our model consistently outperforms previous optimal models by a large margin, creating new state-of-the-art results.
翻訳日:2021-05-25 13:00:10 公開日:2021-05-21
# (参考訳) 直接同時マルチイメージ登録 [全文訳有]

Direct Simultaneous Multi-Image Registration ( http://arxiv.org/abs/2105.10087v1 )

ライセンス: CC BY 4.0
Zhehua Mao, Liang Zhao, Shoudong Huang, Yiting Fan, and Alex Pui-Wai Lee(参考訳) 本稿では,DSR(Direct Simultaneous Registration)という,モノモーダルな3D画像のコレクションを同時登録するアルゴリズムを提案する。 アルゴリズムは(画像から特徴を抽出することなく)画像の強度に基づいて、ローカルフレームのグローバルポーズを直接最適化する。 最適な結果を得るために、局所フレームのポーズパラメータとパノラマ画像の強度を協調的に最適化する直接バンドル調整(DBA)問題を定式化することから始める。 反復過程におけるパノラマ画像からのポーズの独立性を証明することにより、DSRはパノラマ画像の強度を最適化することなく、DBAと同じ最適なポーズを生成することができることを示した。 提案するdsr法は,単調登録や,経食道心エコー図 (tee) 画像などの異なる特徴が得られないシナリオに特に適している。 提案手法はシミュレーションおよびin-vivo 3d tee画像を用いて検証する。 提案手法は,従来の逐次登録法よりも精度が高く,得られた結果から画像中のアライメントが良好であることを示す。

This paper presents a novel algorithm that registers a collection of mono-modal 3D images in a simultaneous fashion, named as Direct Simultaneous Registration (DSR). The algorithm optimizes global poses of local frames directly based on the intensities of images (without extracting features from the images). To obtain the optimal result, we start with formulating a Direct Bundle Adjustment (DBA) problem which jointly optimizes pose parameters of local frames and intensities of panoramic image. By proving the independence of the pose from panoramic image in the iterative process, DSR is proposed and proved to be able to generate the same optimal poses as DBA, but without optimizing the intensities of the panoramic image. The proposed DSR method is particularly suitable in mono-modal registration and in the scenarios where distinct features are not available, such as Transesophageal Echocardiography (TEE) images. The proposed method is validated via simulated and in-vivo 3D TEE images. It is shown that the proposed method outperforms conventional sequential registration method in terms of accuracy and the obtained results can produce good alignment in in-vivo images.
翻訳日:2021-05-25 12:43:10 公開日:2021-05-21
# (参考訳) 圧縮SGDによるサドル点のエスケープ

Escaping Saddle Points with Compressed SGD ( http://arxiv.org/abs/2105.10090v1 )

ライセンス: CC BY 4.0
Dmitrii Avdiukhin, Grigory Yaroslavtsev(参考訳) 確率勾配勾配(SGD)は大規模分散機械学習の最適化手法である。 SGD計算は複数のマシンに効率的に分割できるが、通信は通常分散環境でボトルネックとなる。 この問題を緩和するためにグラディエント圧縮法が利用可能であり、最近の研究は、勾配圧縮によるSGD拡張が$\varepsilon$-first- orderの定常点に収束することを示している。 本稿では,これらの結果から2次定常点である\varepsilon$-sosp (\varepsilon$-sosp) への収束まで拡張する。 さらに、確率勾配がリプシッツでない場合、RandomK圧縮機で圧縮されたSGDは、圧縮されていないSGD [Jin et al.,2021] (JACM)と同数の反復数を持つ$\varepsilon$-SOSPに収束する一方で、$\tilde \Theta(\sqrt{d} \varepsilon^{-3/4})$.d$は最適化問題の次元である。 コンプレッサーが任意の場合と確率勾配がリプシッツである場合について追加の結果を示す。

Stochastic gradient descent (SGD) is a prevalent optimization technique for large-scale distributed machine learning. While SGD computation can be efficiently divided between multiple machines, communication typically becomes a bottleneck in the distributed setting. Gradient compression methods can be used to alleviate this problem, and a recent line of work shows that SGD augmented with gradient compression converges to an $\varepsilon$-first- order stationary point. In this paper we extend these results to convergence to an $\varepsilon$-second -order stationary point ($\varepsilon$-SOSP) , which is to the best of our knowledge the first result of this type. In addition, we show that, when the stochastic gradient is not Lipschitz, compressed SGD with RandomK compressor converges to an $\varepsilon$-SOSP with the same number of iterations as uncompressed SGD [Jin et al.,2021] (JACM), while improving the total communication by a factor of $\tilde \Theta(\sqrt{d} \varepsilon^{-3/4})$, where $d$ is the dimension of the optimization problem. We present additional results for the cases when the compressor is arbitrary and when the stochastic gradient is Lipschitz.
翻訳日:2021-05-25 12:33:57 公開日:2021-05-21
# (参考訳) emface: 受容野pyramindsの探索による硬い顔の検出 [全文訳有]

EMface: Detecting Hard Faces by Exploring Receptive Field Pyraminds ( http://arxiv.org/abs/2105.10104v1 )

ライセンス: CC BY 4.0
Leilei Cao, Yao Xiao, and Lin Xu(参考訳) スケールの変動は、顔検出において最も難しい問題の1つである。 現代の顔検出装置は、スケールの変化を扱うために特徴ピラミッドを用いる。 しかし、異なる規模の顔にまたがる機能の一貫性を損なう可能性がある。 本稿では,特徴ピラミッドの表現能力を向上させるためのrfp法(receptive field pyramids)という簡易かつ効果的な手法を提案する。 検出された顔の様々なスケールに基づいて、各特徴マップの異なる受容野を適応的に学習することができる。 WIDER FACE と UFDD の2つの顔検出ベンチマークデータセットによる実験結果から,提案手法は最先端性能を達成しつつ,推論速度を著しく向上させることができることを示した。 我々のメソッドのソースコードは \url{https://github.com/e mdata-ailab/EMface} で入手できる。

Scale variation is one of the most challenging problems in face detection. Modern face detectors employ feature pyramids to deal with scale variation. However, it might break the feature consistency across different scales of faces. In this paper, we propose a simple yet effective method named the receptive field pyramids (RFP) method to enhance the representation ability of feature pyramids. It can learn different receptive fields in each feature map adaptively based on the varying scales of detected faces. Empirical results on two face detection benchmark datasets, i.e., WIDER FACE and UFDD, demonstrate that our proposed method can accelerate the inference rate significantly while achieving state-of-the-art performance. The source code of our method is available at \url{https://github.com/e mdata-ailab/EMface}.
翻訳日:2021-05-25 12:32:37 公開日:2021-05-21
# (参考訳) 映像有能物体検出のための指導・指導ネットワーク [全文訳有]

Guidance and Teaching Network for Video Salient Object Detection ( http://arxiv.org/abs/2105.10110v1 )

ライセンス: CC BY 4.0
Ge-Peng Ji, Xiao Wang, Yu-Cheng Chou, Yuming Fang, Shouyuan Yang, Rong Zhu, Ge Gao(参考訳) 空間-時間的手がかりの採掘が困難であるため、vsod(video salient object detection)の既存のアプローチは、複雑でノイズの多いシナリオの理解に制限があり、しばしば顕著な物体の推測に失敗する。 そこで,このような欠点を解消するために,gtnet(gtnet)と呼ばれる簡易かつ効率的なアーキテクチャを提案する。 具体的には、(a)動きから外観ブランチに特徴を暗黙的に橋渡しするための時間変調器を導入し、クロスモーダルな特徴を協調的に利用し、(b)動き誘導マスクを用いて特徴集約中に明示的な手がかりを伝搬する。 この新しい学習戦略は、複雑な空間的時間的手がかりを分離し、異なるモードで情報的手がかりをマッピングすることで満足な結果を得る。 3つの挑戦的ベンチマークに関する広範囲な実験により、提案手法は1つのtitan xp gpu上で28fpsで動作し、14の最先端ベースラインと競合して動作できることが示されている。

Owing to the difficulties of mining spatial-temporal cues, the existing approaches for video salient object detection (VSOD) are limited in understanding complex and noisy scenarios, and often fail in inferring prominent objects. To alleviate such shortcomings, we propose a simple yet efficient architecture, termed Guidance and Teaching Network (GTNet), to independently distil effective spatial and temporal cues with implicit guidance and explicit teaching at feature- and decision-level, respectively. To be specific, we (a) introduce a temporal modulator to implicitly bridge features from motion into the appearance branch, which is capable of fusing cross-modal features collaboratively, and (b) utilise motion-guided mask to propagate the explicit cues during the feature aggregation. This novel learning strategy achieves satisfactory results via decoupling the complex spatial-temporal cues and mapping informative cues across different modalities. Extensive experiments on three challenging benchmarks show that the proposed method can run at ~28 fps on a single TITAN Xp GPU and perform competitively against 14 cutting-edge baselines.
翻訳日:2021-05-25 12:23:58 公開日:2021-05-21
# (参考訳) IDEAL: 独立したドメイン埋め込み学習 [全文訳有]

IDEAL: Independent Domain Embedding Augmentation Learning ( http://arxiv.org/abs/2105.10112v1 )

ライセンス: CC BY 4.0
Zhiyuan Chen, Guang Yao, Wennan Ma, Lin Xu(参考訳) 高レベルのDeep Metric Learning(DML)損失目標におけるサンプリング、マイニング、重み付け戦略の設計に多くの努力が注がれている。 しかし、低レベルのデータ変換にはほとんど注意が払われていない。 本稿では,独立領域埋め込み拡張学習({ideal})法という新しいメカニズムを考案する。 事前定義されたデータ変換によって生成される複数のドメインに対して、複数の独立した埋め込み空間を同時に学習することができる。 我々のIDEALは既存のDML技術と直交しており、性能向上のために従来のDMLアプローチとシームレスに組み合わせることができる。 視覚検索タスクにおける実験結果から,提案手法の優位性を示す。 例えば、IDEALは、CUB-200で84.5\%$\rightarrow$ 87.1\%、65.8\%$\rightarrow$ 69.5\%をRecall$@1$で、MS損失のパフォーマンスを大きく改善している。 また, 画像検索ベンチマークである \ie, \emph{Cars-196} , \emph{CUB-200} , \emph{SOP} の3つの画像検索ベンチマークにおいて, 新たな最先端性能を実現する。 これは、Circle LosやXBMなど、最新のDMLアプローチよりも大幅に優れています。 このメソッドのソースコードと事前トレーニングされたモデルは、github.com/emdata-ai lab/ideal}}で入手できる。

Many efforts have been devoted to designing sampling, mining, and weighting strategies in high-level deep metric learning (DML) loss objectives. However, little attention has been paid to low-level but essential data transformation. In this paper, we develop a novel mechanism, the independent domain embedding augmentation learning ({IDEAL}) method. It can simultaneously learn multiple independent embedding spaces for multiple domains generated by predefined data transformations. Our IDEAL is orthogonal to existing DML techniques and can be seamlessly combined with prior DML approaches for enhanced performance. Empirical results on visual retrieval tasks demonstrate the superiority of the proposed method. For example, the IDEAL improves the performance of MS loss by a large margin, 84.5\% $\rightarrow$ 87.1\% on Cars-196, and 65.8\% $\rightarrow$ 69.5\% on CUB-200 at Recall$@1$. Our IDEAL with MS loss also achieves the new state-of-the-art performance on three image retrieval benchmarks, \ie, \emph{Cars-196}, \emph{CUB-200}, and \emph{SOP}. It outperforms the most recent DML approaches, such as Circle loss and XBM, significantly. The source code and pre-trained models of our method will be available at\emph{\url{https://github.com/e mdata-ailab/IDEAL}}.
翻訳日:2021-05-25 12:11:54 公開日:2021-05-21
# (参考訳) 自己教師付き学習におけるバックドア攻撃 [全文訳有]

Backdoor Attacks on Self-Supervised Learning ( http://arxiv.org/abs/2105.10123v1 )

ライセンス: CC BY 4.0
Aniruddha Saha, Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Hamed Pirsiavash(参考訳) 大規模未ラベルデータにより、リッチな視覚表現を学習する自己教師付き学習手法が近年進歩している。 画像(MoCoとBYOL)から表現を学習するための最先端の自己教師手法は、異なる拡張(例えば、)の帰納バイアスを使用する。 画像のランダムな作物)も同様の埋め込みを生成するべきである。 このような手法は、画像に小さなトリガー(アタッカーとして知られる)を加えることで、攻撃者がラベルのないデータの一部に毒を盛るバックドア攻撃に対して脆弱であることを示す。 モデルパフォーマンスはクリーンなテストイメージでは良好だが、攻撃者はテスト時にトリガーを表示することでモデルの判断を操作できる。 バックドア攻撃は教師付き学習において広く研究されており、我々の知識を最大限に活用するために、自己監督型学習のためにそれらを最初に研究している。 非ラベルデータが大きいため、自己教師あり学習ではバックドア攻撃の方が実用的であり、その結果、有毒データの存在を避けるためのデータの検査は禁止される。 対象とする攻撃では、テスト時にトリガーを使用することで、攻撃者がターゲットのカテゴリに対して多数の偽陽性を発生できることを示します。 また,攻撃の中立化に成功する知識蒸留ベースの防御アルゴリズムを提案する。 私たちのコードは、https://github.com/U MBCvision/SSL-Backdo or.comで利用可能です。

Large-scale unlabeled data has allowed recent progress in self-supervised learning methods that learn rich visual representations. State-of-the-art self-supervised methods for learning representations from images (MoCo and BYOL) use an inductive bias that different augmentations (e.g. random crops) of an image should produce similar embeddings. We show that such methods are vulnerable to backdoor attacks where an attacker poisons a part of the unlabeled data by adding a small trigger (known to the attacker) to the images. The model performance is good on clean test images but the attacker can manipulate the decision of the model by showing the trigger at test time. Backdoor attacks have been studied extensively in supervised learning and to the best of our knowledge, we are the first to study them for self-supervised learning. Backdoor attacks are more practical in self-supervised learning since the unlabeled data is large and as a result, an inspection of the data to avoid the presence of poisoned data is prohibitive. We show that in our targeted attack, the attacker can produce many false positives for the target category by using the trigger at test time. We also propose a knowledge distillation based defense algorithm that succeeds in neutralizing the attack. Our code is available here: https://github.com/U MBCvision/SSL-Backdo or .
翻訳日:2021-05-25 11:59:07 公開日:2021-05-21
# (参考訳) 衝突現象学のための深層学習イベント変数 [全文訳有]

Deep-Learned Event Variables for Collider Phenomenology ( http://arxiv.org/abs/2105.10126v1 )

ライセンス: CC BY 4.0
Doojin Kim, Kyoungchul Kong, Konstantin T. Matchev, Myeonghun Park, Prasanth Shyamsundar(参考訳) 最適事象変数の選択は実験解析の最大感度を達成するのに不可欠である。 時間とともに、物理学者は衝突型物理学における多くの典型的な事象トポロジーに適した運動変数を導出してきた。 ここでは,未知のモデルパラメータに対して幅広い値に敏感な,優れたイベント変数を設計するための深層学習手法を提案する。 単純なイベントトポロジ上で訓練されたニューラルネットワークは、不変質量、横質量、横質量といった標準的なイベント変数を再現できることを実証する。 このメソッドは自動化可能で、完全に汎用的であり、他のより複雑なイベントトポロジーに対する感度の高い、以前は未知のイベント変数の導出に使用できる。

The choice of optimal event variables is crucial for achieving the maximal sensitivity of experimental analyses. Over time, physicists have derived suitable kinematic variables for many typical event topologies in collider physics. Here we introduce a deep learning technique to design good event variables, which are sensitive over a wide range of values for the unknown model parameters. We demonstrate that the neural networks trained with our technique on some simple event topologies are able to reproduce standard event variables like invariant mass, transverse mass, and stransverse mass. The method is automatable, completely general, and can be used to derive sensitive, previously unknown, event variables for other, more complex event topologies.
翻訳日:2021-05-25 11:46:14 公開日:2021-05-21
# (参考訳) 否定の視覚表現:コミックイメージデザインにおける実世界データ分析 [全文訳有]

Visual representation of negation: Real world data analysis on comic image design ( http://arxiv.org/abs/2105.10131v1 )

ライセンス: CC BY 4.0
Yuri Sato, Koji Mineshima, Kazuhiro Ueda(参考訳) 視覚表現(写真やイラストなど)は否定を描写しないという見解が広く支持されており、例えば「列車は来ない」という文で表現できる。 この見解は、マンガイラストの現実世界の視覚的表現を分析することで実証的に挑戦される。 画像キャプションタスクを用いた実験では,漫画イラストを配り,そこから何を読むことができるのか説明を依頼した。 収集されたデータによると、いくつかの漫画のイラストは、複数のパネルや一般的な装置(特別な記号)の助けなしに否定を表現できる。 この種の漫画のイラストはさらなる実験の対象となり、画像は否定を含むものと否定を含むものとに分類された。 この画像分類は人間にとって容易であったが、データ駆動型マシン、すなわちディープラーニングモデル(CNN)では、同じ高い性能を達成することは困難であった。 この結果から,背景知識を喚起し,純粋に視覚的な要素による否定を表現できる漫画イラストもある。

There has been a widely held view that visual representations (e.g., photographs and illustrations) do not depict negation, for example, one that can be expressed by a sentence "the train is not coming". This view is empirically challenged by analyzing the real-world visual representations of comic (manga) illustrations. In the experiment using image captioning tasks, we gave people comic illustrations and asked them to explain what they could read from them. The collected data showed that some comic illustrations could depict negation without any aid of sequences (multiple panels) or conventional devices (special symbols). This type of comic illustrations was subjected to further experiments, classifying images into those containing negation and those not containing negation. While this image classification was easy for humans, it was difficult for data-driven machines, i.e., deep learning models (CNN), to achieve the same high performance. Given the findings, we argue that some comic illustrations evoke background knowledge and thus can depict negation with purely visual elements.
翻訳日:2021-05-25 11:36:08 公開日:2021-05-21
# (参考訳) ベイズニューラルネットワークにおける反復予測の証明 [全文訳有]

Certification of Iterative Predictions in Bayesian Neural Networks ( http://arxiv.org/abs/2105.10134v1 )

ライセンス: CC BY 4.0
Matthew Wicker, Luca Laurenti, Andrea Patane, Nicola Paoletti, Alessandro Abate, Marta Kwiatkowska(参考訳) ベイズニューラルネットワーク(bnn)モデルを用いた反復予測のための到達回避確率の計算の問題を考える。 具体的には,BNNモデルの軌道が与えられた状態に到達する確率の低い境界を計算するために,境界伝播法と後方再帰法を利用する。 我々は,制御と強化学習の文脈において下限を利用して,所定の制御方針に対する安全性認定を提供し,また,認定限界を改善するための制御政策を合成する。 一組のベンチマークにおいて、我々のフレームワークは、10ドル以上の問題に対するBNNの予測に対するポリシーの認証に利用でき、満足度確率の低下を著しく増大させるポリシーを効果的に合成できることを示した。

We consider the problem of computing reach-avoid probabilities for iterative predictions made with Bayesian neural network (BNN) models. Specifically, we leverage bound propagation techniques and backward recursion to compute lower bounds for the probability that trajectories of the BNN model reach a given set of states while avoiding a set of unsafe states. We use the lower bounds in the context of control and reinforcement learning to provide safety certification for given control policies, as well as to synthesize control policies that improve the certification bounds. On a set of benchmarks, we demonstrate that our framework can be employed to certify policies over BNNs predictions for problems of more than $10$ dimensions, and to effectively synthesize policies that significantly increase the lower bound on the satisfaction probability.
翻訳日:2021-05-25 11:05:45 公開日:2021-05-21
# (参考訳) 深部オフライン政策評価のためのインストゥルメンタル変数回帰について

On Instrumental Variable Regression for Deep Offline Policy Evaluation ( http://arxiv.org/abs/2105.10148v1 )

ライセンス: CC BY 4.0
Yutian Chen, Liyuan Xu, Caglar Gulcehre, Tom Le Paine, Arthur Gretton, Nando de Freitas, Arnaud Doucet(参考訳) 平均2乗ベルマン誤差を最小化することで状態-作用値(Q-関数)を推定する一般的な強化学習(RL)戦略が,共起や入力,出力ノイズの相関による回帰問題につながることを示す。 したがって、ベルマン誤差の直接最小化はQ-関数の推定を著しくバイアスする。 我々は、Deep Q-Networks と Fitted Q Evaluation のターゲット Q-network の修正が、この欠点を克服する方法を提供する理由を説明している。 結合に対処する別のアプローチは因果関係文学、特にインストゥルメンタル変数(iv)で開発された技術を活用することである。 ここでは、IV と RL に関する文献をまとめ、IV のアプローチがQ-関数推定の改善につながるかどうかを考察する。 本稿では、ログデータのみを用いてポリシーの価値を推定することを目的として、オフラインポリシー評価(OPE)の文脈において、最近のIV手法を幅広く分析、比較する。 異なるIV手法をOPEに適用することにより,従来提案されていたモデルベース手法などのOPE手法を復元できるだけでなく,競争力のある新しい手法も得られる。 我々は,最新のOPE手法が,OPE向けに開発されていないAGMMなどのIV手法と密に一致していることを実証的に見出した。 私たちは、すべてのコードとデータセットをhttps://github.com/l iyuan9988/IVOPEwithA CMEでオープンソースにしています。

We show that the popular reinforcement learning (RL) strategy of estimating the state-action value (Q-function) by minimizing the mean squared Bellman error leads to a regression problem with confounding, the inputs and output noise being correlated. Hence, direct minimization of the Bellman error can result in significantly biased Q-function estimates. We explain why fixing the target Q-network in Deep Q-Networks and Fitted Q Evaluation provides a way of overcoming this confounding, thus shedding new light on this popular but not well understood trick in the deep RL literature. An alternative approach to address confounding is to leverage techniques developed in the causality literature, notably instrumental variables (IV). We bring together here the literature on IV and RL by investigating whether IV approaches can lead to improved Q-function estimates. This paper analyzes and compares a wide range of recent IV methods in the context of offline policy evaluation (OPE), where the goal is to estimate the value of a policy using logged data only. By applying different IV techniques to OPE, we are not only able to recover previously proposed OPE methods such as model-based techniques but also to obtain competitive new techniques. We find empirically that state-of-the-art OPE methods are closely matched in performance by some IV methods such as AGMM, which were not developed for OPE. We open-source all our code and datasets at https://github.com/l iyuan9988/IVOPEwithA CME.
翻訳日:2021-05-25 10:40:43 公開日:2021-05-21
# (参考訳) 不確実性を考慮した抽象要約 [全文訳有]

Uncertainty-Aware Abstractive Summarization ( http://arxiv.org/abs/2105.10155v1 )

ライセンス: CC BY 4.0
Alexios Gidiotis and Grigorios Tsoumakas(参考訳) 本稿では,ベイズ深層学習に基づく要約手法を提案する。 まずモンテカルロドロップアウトを用いた最先端の要約モデルを拡張してベイズ要約生成を近似し,それを用いて複数の確率的フォワードパスを行う。 この手法により,複数の確率的要約の中央値を用いるだけで要約性能を向上させることができる。 BARTとPEGASUSの変動等価性は、複数のベンチマークデータセットで決定論的に比較した場合よりも優れていることを示す。 さらに、要約を生成する際のモデルの不確実性を測定するためにベイズ推定に依存する。 信頼性の高い不確実性尺度を持つことで、高い不確実性の生成された要約をフィルタリングすることで、エンドユーザのエクスペリエンスを向上させることができる。 さらに,提案手法をアノテーションのサンプル選択の基準として用いることができ,アクティブラーニングやヒューマン・イン・ザ・ループアプローチとうまく組み合わせることができる。

We propose a novel approach to summarization based on Bayesian deep learning. We approximate Bayesian summary generation by first extending state-of-the-art summarization models with Monte Carlo dropout and then using them to perform multiple stochastic forward passes. This method allows us to improve summarization performance by simply using the median of multiple stochastic summaries. We show that our variational equivalents of BART and PEGASUS can outperform their deterministic counterparts on multiple benchmark datasets. In addition, we rely on Bayesian inference to measure the uncertainty of the model when generating summaries. Having a reliable uncertainty measure, we can improve the experience of the end user by filtering out generated summaries of high uncertainty. Furthermore, our proposed metric could be used as a criterion for selecting samples for annotation, and can be paired nicely with active learning and human-in-the-loop approaches.
翻訳日:2021-05-25 10:39:32 公開日:2021-05-21
# (参考訳) ヘシアンレンズによる変分量子分類器 [全文訳有]

Variational Quantum Classifiers Through the Lens of the Hessian ( http://arxiv.org/abs/2105.10162v1 )

ライセンス: CC BY 4.0
Pinaki Sen and Amandeep Singh Bhatia(参考訳) 量子コンピューティングにおいて、変分量子アルゴリズム(VQA)は化学からファイナンスに至るまで、特定の応用において最適な組み合わせを見つけるのに適している。 勾配勾配勾配最適化アルゴリズムによるVQAの訓練は、よい収束性を示した。 初期の段階では、ノイズの多い中間スケール量子(nisq)デバイス上の変分量子回路のシミュレーションはノイズの出力に苦しむ。 古典的なディープラーニングと同じように、勾配の問題も消える。 損失景観のトポロジーを研究することは現実的な目標であり、消失勾配の存在下でこれらの回路の曲率情報とトレーサビリティを可視化する。 本稿では,パラメータ空間の異なる点における変分量子分類器のロスランドスケープを計算し,その可視化を行った。 変分量子分類器(VQC)の曲率情報を解釈し、損失関数の収束を示す。 これは、変動量子回路の挙動をよりよく理解し、最適化問題に効率的に取り組むのに役立つ。 量子コンピュータ上でhessianを介して変分量子分類器を調査し,単純な4ビットパリティ問題からhessianの実用的挙動を把握し,糖尿病データセットの変分量子分類器のトレーニングにおけるhessianの固有値の挙動を徹底的に解析した。

In quantum computing, the variational quantum algorithms (VQAs) are well suited for finding optimal combinations of things in specific applications ranging from chemistry all the way to finance. The training of VQAs with gradient descent optimization algorithm has shown a good convergence. At an early stage, the simulation of variational quantum circuits on noisy intermediate-scale quantum (NISQ) devices suffers from noisy outputs. Just like classical deep learning, it also suffers from vanishing gradient problems. It is a realistic goal to study the topology of loss landscape, to visualize the curvature information and trainability of these circuits in the existence of vanishing gradients. In this paper, we calculated the Hessian and visualized the loss landscape of variational quantum classifiers at different points in parameter space. The curvature information of variational quantum classifiers (VQC) is interpreted and the loss function's convergence is shown. It helps us better understand the behavior of variational quantum circuits to tackle optimization problems efficiently. We investigated the variational quantum classifiers via Hessian on quantum computers, started with a simple 4-bit parity problem to gain insight into the practical behavior of Hessian, then thoroughly analyzed the behavior of Hessian's eigenvalues on training the variational quantum classifier for the Diabetes dataset.
翻訳日:2021-05-25 10:28:02 公開日:2021-05-21
# (参考訳) 対話モデリングのための意味表現 [全文訳有]

Semantic Representation for Dialogue Modeling ( http://arxiv.org/abs/2105.10188v1 )

ライセンス: CC BY 4.0
Xuefeng Bai, Yulong Chen, Linfeng Song, Yue Zhang(参考訳) ニューラルモデルは対話システムにおいて競合的な結果を得たが、重要な実体を無視するなど、コアセマンティクスを表現する能力は限られている。 この目的のために,抽象的意味表現(AMR)を用いて対話モデリングを行う。 テキスト入力と比較して、AMRは、コアセマンティックな知識を明示的に提供し、データの分散を減少させる。 文レベルのAMRから対話レベルのAMRグラフを構築するアルゴリズムを開発し,AMRを対話システムに組み込む2つの方法を探る。 対話理解と応答生成の両タスクの実験結果から,本モデルの優位性を示した。 私たちの知る限り、神経対話モデリングに形式的意味表現を利用するのは初めてです。

Although neural models have achieved competitive results in dialogue systems, they have shown limited ability in representing core semantics, such as ignoring important entities. To this end, we exploit Abstract Meaning Representation (AMR) to help dialogue modeling. Compared with the textual input, AMR explicitly provides core semantic knowledge and reduces data sparsity. We develop an algorithm to construct dialogue-level AMR graphs from sentence-level AMRs and explore two ways to incorporate AMRs into dialogue systems. Experimental results on both dialogue understanding and response generation tasks show the superiority of our model. To our knowledge, we are the first to leverage a formal semantic representation into neural dialogue modeling.
翻訳日:2021-05-25 10:14:41 公開日:2021-05-21
# (参考訳) 変圧器発電機と畳み込みディスクリミネータの組み合わせ [全文訳有]

Combining Transformer Generators with Convolutional Discriminators ( http://arxiv.org/abs/2105.10189v1 )

ライセンス: CC BY 4.0
Ricard Durall, Stanislav Frolov, Andreas Dengel, Janis Keuper(参考訳) トランスフォーマーモデルは最近、コンピュータビジョン研究者から多くの関心を集め、従来畳み込みニューラルネットワークで取り組まれてきたいくつかの問題に成功している。 同時に、この数年間で、gans(generative adversarial network)を用いた画像合成が大幅に改善されている。 最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANであり、畳み込みGANと比較して競合する結果が得られる。 しかし、トランスフォーマーはデータハングリーアーキテクチャであるため、TransGANはデータ拡張、トレーニング中の補助的な超解像タスク、自己保持メカニズムを導くためのマスクを必要とする。 本稿では,変圧器を用いた発電機と畳み込み識別器の組み合わせについて検討し,上記の設計選択の必要性を解消する。 我々は,有名なcnn判別器のベンチマークを行い,トランスフォーマティブ・ジェネレータのサイズを省略し,両方のアーキテクチャ要素をハイブリッドモデルに組み合わせることでよりよい結果が得られることを示す。 さらに,生成された画像の周波数スペクトル特性を調査し,本モデルが注意に基づく生成装置の利点を保っていることを確認する。

Transformer models have recently attracted much interest from computer vision researchers and have since been successfully employed for several problems traditionally addressed with convolutional neural networks. At the same time, image synthesis using generative adversarial networks (GANs) has drastically improved over the last few years. The recently proposed TransGAN is the first GAN using only transformer-based architectures and achieves competitive results when compared to convolutional GANs. However, since transformers are data-hungry architectures, TransGAN requires data augmentation, an auxiliary super-resolution task during training, and a masking prior to guide the self-attention mechanism. In this paper, we study the combination of a transformer-based generator and convolutional discriminator and successfully remove the need of the aforementioned required design choices. We evaluate our approach by conducting a benchmark of well-known CNN discriminators, ablate the size of the transformer-based generator, and show that combining both architectural elements into a hybrid model leads to better results. Furthermore, we investigate the frequency spectrum properties of generated images and observe that our model retains the benefits of an attention based generator.
翻訳日:2021-05-25 09:53:08 公開日:2021-05-21
# (参考訳) 単一画像デハジングに先行するピラミッド融合ダークチャネル [全文訳有]

Pyramid Fusion Dark Channel Prior for Single Image Dehazing ( http://arxiv.org/abs/2105.10192v1 )

ライセンス: CC BY 4.0
Qiyuan Liang, Bin Zhu, Chong-Wah Ngo(参考訳) 本稿では, ピラミッド融合ダークチャネル (PF-DCP) を単一画像デハージング用として提案する。 既知のダークチャネルプリエント(dcp)に基づいて,マルチスケール画像のピラミッドにおけるdcpアルゴリズムを用いてパッチサイズ選択の問題を軽減し,簡易かつ効果的なpf-dcp手法を提案する。 この場合、各レベルで送信マップを融合して高品質なhazeフリー画像の復元を行い、最終送信マップを得る。 RESIDE SOTSの実験では、PF-DCPは従来の手法よりも大きなマージンを持つだけでなく、最先端のディープラーニングアプローチの同等ないしさらに優れた結果が得られることが示されている。 さらに、色歪やhaloアーティファクトを少なくすることで、視覚品質も大幅に向上している。

In this paper, we propose the pyramid fusion dark channel prior (PF-DCP) for single image dehazing. Based on the well-known Dark Channel Prior (DCP), we introduce an easy yet effective approach PF-DCP by employing the DCP algorithm at a pyramid of multi-scale images to alleviate the problem of patch size selection. In this case, we obtain the final transmission map by fusing transmission maps at each level to recover a high-quality haze-free image. Experiments on RESIDE SOTS show that PF-DCP not only outperforms the traditional prior-based methods with a large margin but also achieves comparable or even better results of state-of-art deep learning approaches. Furthermore, the visual quality is also greatly improved with much fewer color distortions and halo artifacts.
翻訳日:2021-05-25 09:42:15 公開日:2021-05-21
# (参考訳) Endmember-Guided Unmixing Network (EGU-Net): 自己監督型ハイパースペクトルアンミックスのための一般ディープラーニングフレームワーク [全文訳有]

Endmember-Guided Unmixing Network (EGU-Net): A General Deep Learning Framework for Self-Supervised Hyperspectral Unmixing ( http://arxiv.org/abs/2105.10194v1 )

ライセンス: CC BY 4.0
Danfeng Hong and Lianru Gao and Jing Yao and Naoto Yokoya and Jocelyn Chanussot and Uta Heiden and Bing Zhang(参考訳) 過去数十年間、高スペクトルアンミックスのための線形または非線形混合モデルの性能向上に多大な努力が続けられてきたが、様々なスペクトル変動を同時に一般化し、物理的に意味のある終端部材を抽出する能力は、データフィッティングと再構成の能力の不足と様々なスペクトル変動に対する感度のために、依然として制限されている。 深層学習の強力な学習能力に着想を得て,超スペクトルアンミックスネットワーク(EGU-Net)と呼ばれるハイパースペクトル画像から抽出したエンドメンバーの特性を十分に考慮し,汎用的な深層学習手法の開発を試みた。 EGU-Netは、単独のオートエンコーダのようなアーキテクチャの他に、2ストリームのシームズディープネットワークであり、純粋またはほぼ純粋なエンドメンバーから追加のネットワークを学習し、ネットワークパラメータを共有し、スペクトル的に有意な制約(例えば、非負性および和対1)をより正確で解釈可能な未混合ソリューションに付加することで、他の未混合ネットワークの重みを補正する。 さらに、結果として得られる一般的なフレームワークは、画素単位のスペクトルアンミックスに限らず、空間スペクトルアンミックスのための畳み込み演算子を用いた空間情報モデリングにも適用できる。 各材料に対応するアブリダンスマップの基底構造を持つ3つの異なるデータセットで行った実験結果は、最先端の未混合アルゴリズムに対するEGU-Netの有効性と優位性を示している。 https://github.com/d anfenghong/ieee_tnnl s_egu-net。

Over the past decades, enormous efforts have been made to improve the performance of linear or nonlinear mixing models for hyperspectral unmixing, yet their ability to simultaneously generalize various spectral variabilities and extract physically meaningful endmembers still remains limited due to the poor ability in data fitting and reconstruction and the sensitivity to various spectral variabilities. Inspired by the powerful learning ability of deep learning, we attempt to develop a general deep learning approach for hyperspectral unmixing, by fully considering the properties of endmembers extracted from the hyperspectral imagery, called endmember-guided unmixing network (EGU-Net). Beyond the alone autoencoder-like architecture, EGU-Net is a two-stream Siamese deep network, which learns an additional network from the pure or nearly-pure endmembers to correct the weights of another unmixing network by sharing network parameters and adding spectrally meaningful constraints (e.g., non-negativity and sum-to-one) towards a more accurate and interpretable unmixing solution. Furthermore, the resulting general framework is not only limited to pixel-wise spectral unmixing but also applicable to spatial information modeling with convolutional operators for spatial-spectral unmixing. Experimental results conducted on three different datasets with the ground-truth of abundance maps corresponding to each material demonstrate the effectiveness and superiority of the EGU-Net over state-of-the-art unmixing algorithms. The codes will be available from the website: https://github.com/d anfenghong/IEEE_TNNL S_EGU-Net.
翻訳日:2021-05-25 09:33:39 公開日:2021-05-21
# (参考訳) 共有・特定特徴学習モデルを用いた土地被覆分類のためのマルチモーダルリモートセンシングベンチマークデータセット

Multimodal Remote Sensing Benchmark Datasets for Land Cover Classification with A Shared and Specific Feature Learning Model ( http://arxiv.org/abs/2105.10196v1 )

ライセンス: CC BY 4.0
Danfeng Hong and Jingliang Hu and Jing Yao and Jocelyn Chanussot and Xiao Xiang Zhu(参考訳) 異なるセンサから得られたリモートセンシング(rs)データが広くオープンに利用可能になるにつれて、マルチモーダルデータ処理と分析技術がrsとジオサイエンスコミュニティの関心を集めている。 しかし、撮像センサ、解像度、コンテンツの異なるモード間のギャップのため、それらの補完情報を一貫性があり、コンパクトで、正確で、差別的な表現に埋め込むことは、依然として困難である。 そこで本研究では,共有型特徴学習(S2FL)モデルを提案する。 S2FLは、マルチモーダルRSデータをモダリティ共有およびモダリティ固有のコンポーネントに分解することができ、特に異種データソースにおいて、より効果的にマルチモーダルの情報をブレンディングすることができる。 さらに、マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちヒューストン2013 - ハイパースペクトルとマルチスペクトルデータ、ベルリン - ハイパースペクトルと合成開口レーダ(SAR)データ、アウクスブルク - ハイパースペクトル、SAR、デジタル表面モデル(DSM)データをリリースし、土地被覆分類に使用する。 3つのデータセットで実施した広範囲な実験により,S2FLモデルの土地被覆分類における優位性と高度化が実証された。 さらに、本論文で使用するベースラインコードとデータセットは、https://github.com/d anfenghong/isprs_s2f lで無料で利用できる。

As remote sensing (RS) data obtained from different sensors become available largely and openly, multimodal data processing and analysis techniques have been garnering increasing interest in the RS and geoscience community. However, due to the gap between different modalities in terms of imaging sensors, resolutions, and contents, embedding their complementary information into a consistent, compact, accurate, and discriminative representation, to a great extent, remains challenging. To this end, we propose a shared and specific feature learning (S2FL) model. S2FL is capable of decomposing multimodal RS data into modality-shared and modality-specific components, enabling the information blending of multi-modalities more effectively, particularly for heterogeneous data sources. Moreover, to better assess multimodal baselines and the newly-proposed S2FL model, three multimodal RS benchmark datasets, i.e., Houston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, and digital surface model (DSM) data, are released and used for land cover classification. Extensive experiments conducted on the three datasets demonstrate the superiority and advancement of our S2FL model in the task of land cover classification in comparison with previously-proposed state-of-the-art baselines. Furthermore, the baseline codes and datasets used in this paper will be made available freely at https://github.com/d anfenghong/ISPRS_S2F L.
翻訳日:2021-05-25 09:06:04 公開日:2021-05-21
# (参考訳) リアルタイム戦略ゲームのための注意グラフニューラルネットワークを用いたマルチエージェント深層強化学習 [全文訳有]

Multi-Agent Deep Reinforcement Learning using Attentive Graph Neural Architectures for Real-Time Strategy Games ( http://arxiv.org/abs/2105.10211v1 )

ライセンス: CC BY 4.0
Won Joon Yun, Sungwon Yi, and Joongheon Kim(参考訳) 近年,リアルタイム戦略(RTS)ゲーム人工知能研究において,マルチエージェント深部強化学習(MADRL)アルゴリズムが広く利用されている。 研究の大部分はスタークラフトiiの環境に基づいているが、これは世界でもっともよく知られたrtsゲームである。 提案するMADRLアルゴリズムでは,分散MADRLをQMIXと呼ぶ。 QMIXに基づく分散計算に加えて、計算複雑性を大幅に低減できる状態分類も検討する。 さらに、グラフの形でエージェント間の関係を識別するために、セルフアテンション機構が用いられる。 これらのアプローチに基づき,分類された国家グラフ注目政策(csga-policy)を提案する。 提案手法は,最もよく知られたStarCraft IIシミュレーション環境を用いたCSGA政策の性能評価において,期待通り,様々な環境でうまく機能する。

In real-time strategy (RTS) game artificial intelligence research, various multi-agent deep reinforcement learning (MADRL) algorithms are widely and actively used nowadays. Most of the research is based on StarCraft II environment because it is the most well-known RTS games in world-wide. In our proposed MADRL-based algorithm, distributed MADRL is fundamentally used that is called QMIX. In addition to QMIX-based distributed computation, we consider state categorization which can reduce computational complexity significantly. Furthermore, self-attention mechanisms are used for identifying the relationship among agents in the form of graphs. Based on these approaches, we propose a categorized state graph attention policy (CSGA-policy). As observed in the performance evaluation of our proposed CSGA-policy with the most well-known StarCraft II simulation environment, our proposed algorithm works well in various settings, as expected.
翻訳日:2021-05-25 09:04:55 公開日:2021-05-21
# (参考訳) Vector Permutation とShift-order Process を用いた指紋テンプレートのランダムハッシュコード生成 [全文訳有]

Random Hash Code Generation for Cancelable Fingerprint Templates using Vector Permutation and Shift-order Process ( http://arxiv.org/abs/2105.10227v1 )

ライセンス: CC BY 4.0
Sani M. Abdullahi and Sun Shuifa(参考訳) Cancelable Biometric Techniqueは、ユーザ認証のためのキャンセル可能なテンプレートの生成と使用によって、生体データの妥協を防止するために使用されている。 しかし、様々なスキームで用いられる非可逆距離保存変換法は、変換された領域でマッチングが行われるため、情報漏洩に対して脆弱であることが多い。 本稿では,ベクトル置換とシフト順序過程に基づく非可逆距離保存方式を提案する。 まず、抽出したベクトル特徴をランダムに置換する前に、カーネル化原理成分分析(KPCA)を用いて特徴ベクトルの次元を縮小する。 そして、生成した特徴にシフト次プロセスを適用し、非可逆性を実現し、類似性に基づく攻撃と戦う。 生成されたハッシュコードは、主要な無効性と非リンク性要件を満たす一方で、異なるセキュリティおよびプライバシ攻撃に対して耐性がある。 FVC2002とFVC2004の6つのデータセットで行った実験の結果、提案手法の精度は既存の最先端方式よりも優れていることがわかった。

Cancelable biometric techniques have been used to prevent the compromise of biometric data by generating and using their corresponding cancelable templates for user authentication. However, the non-invertible distance preserving transformation methods employed in various schemes are often vulnerable to information leakage since matching is performed in the transformed domain. In this paper, we propose a non-invertible distance preserving scheme based on vector permutation and shift-order process. First, the dimension of feature vectors is reduced using kernelized principle component analysis (KPCA) prior to randomly permuting the extracted vector features. A shift-order process is then applied to the generated features in order to achieve non-invertibility and combat similarity-based attacks. The generated hash codes are resilient to different security and privacy attacks whilst fulfilling the major revocability and unlinkability requirements. Experimental evaluation conducted on 6 datasets of FVC2002 and FVC2004 reveals a high-performance accuracy of the proposed scheme better than other existing state-of-the-art schemes.
翻訳日:2021-05-25 08:48:08 公開日:2021-05-21
# (参考訳) Helsinki Deblur Challenge 2021: details of photoic data [全文訳有]

Helsinki Deblur Challenge 2021: description of photographic data ( http://arxiv.org/abs/2105.10233v1 )

ライセンス: CC BY 4.0
Markus Juvonen, Samuli Siltanen, Fernando Silva de Moura(参考訳) helsinki deblur challenge 2021 (hdc2021) で収集された写真データセットは、同一ターゲットの2つの同一のカメラで撮影された画像のペアを、異なる条件で含む。 1台のカメラは常に焦点を合わせており、シャープで低ノイズの画像を生成し、もう1台のカメラは徐々に焦点が合わなくなっていき、ISO設定も高くなっているため、ぼやけたノイズの多い画像を生成する。 データセットはHDC2021を念頭に設計され、キャプチャされたものの、画像劣化アルゴリズムのテストやベンチマークに使用することができる。 データはここにある。 https://doi.org/10.5 281/zenodo.477228

The photographic dataset collected for the Helsinki Deblur Challenge 2021 (HDC2021) contains pairs of images taken by two identical cameras of the same target but with different conditions. One camera is always in focus and produces sharp and low-noise images the other camera produces blurred and noisy images as it is gradually more and more out of focus and has a higher ISO setting. Even though the dataset was designed and captured with the HDC2021 in mind it can be used for any testing and benchmarking of image deblurring algorithms. The data is available here: https://doi.org/10.5 281/zenodo.477228
翻訳日:2021-05-25 08:34:24 公開日:2021-05-21
# (参考訳) 対話システムとシミュレータのためのユニバーサルNLGの実現に向けて [全文訳有]

Towards a Universal NLG for Dialogue Systems and Simulators with Future Bridging ( http://arxiv.org/abs/2105.10267v1 )

ライセンス: CC BY 4.0
Philipp Ennen, Yen-Ting Lin, Ali Girayhan Ozbay, Ferdinando Insalata, Ye Tian, Sepehr Jalali, Da-shan Shiu(参考訳) 対話システムパイプラインにおいて、自然言語生成部(NLG)は、対話方向と内容とを対応する自然言語実現に変換する。 対話システムにおける最近のトレンドは、まず大きなデータセットを事前学習し、次にアプリケーション固有の特徴にアノテートされたデータセットを使用して教師付きで微調整することである。 新しい振る舞いはカスタムアノテーションから学ぶことができるが、必要な努力はトレーニングセットの量を大幅に制限し、アプリケーション固有の性質は再利用を制限する。 データ駆動型アプローチの最近の成功を踏まえ、対話システムとシミュレーターのための新しいブリッジングNLG(FBNLG)の概念を提案する。 重要なステップは、FBNLGが将来のユーザまたはシステム発話を受け入れて、現在のコンテキストをブリッジすることです。 future bridgingはアノテーションのないデータセット上での自己教師付きトレーニングを可能にし、システムの他の部分からnlgのトレーニングを分離する。 大量のデータセットで事前訓練されたFBNLGは、最小適応力で古典的または新しい対話シナリオに適用される。 FBNLG のプロトタイプを評価したところ,今後のブリッジングはタスク指向およびチャット対話のための汎用的な数ショット NLG への有効なアプローチであることがわかった。

In a dialogue system pipeline, a natural language generation (NLG) unit converts the dialogue direction and content to a corresponding natural language realization. A recent trend for dialogue systems is to first pre-train on large datasets and then fine-tune in a supervised manner using datasets annotated with application-specific features. Though novel behaviours can be learned from custom annotation, the required effort severely bounds the quantity of the training set, and the application-specific nature limits the reuse. In light of the recent success of data-driven approaches, we propose the novel future bridging NLG (FBNLG) concept for dialogue systems and simulators. The critical step is for an FBNLG to accept a future user or system utterance to bridge the present context towards. Future bridging enables self supervised training over annotation-free datasets, decoupled the training of NLG from the rest of the system. An FBNLG, pre-trained with massive datasets, is expected to apply in classical or new dialogue scenarios with minimal adaptation effort. We evaluate a prototype FBNLG to show that future bridging can be a viable approach to a universal few-shot NLG for task-oriented and chit-chat dialogues.
翻訳日:2021-05-25 08:30:48 公開日:2021-05-21
# (参考訳) ソーシャルメディア上の情報の信頼性解析のためのBERT埋め込みによるスタンス検出 [全文訳有]

Stance Detection with BERT Embeddings for Credibility Analysis of Information on Social Media ( http://arxiv.org/abs/2105.10272v1 )

ライセンス: CC BY 4.0
Hema Karande, Rahee Walambe, Victor Benjamin, Ketan Kotecha and T. S. Raghu(参考訳) 電子媒体の進化は、混合の祝福である。 簡単にアクセスでき、低コストで、情報のリーチが速くなるため、人々はオンラインのソーシャルネットワークからニュースを検索し、掘り下げる。 対照的に、ソーシャルメディアの報道が受け入れられるにつれて、偽ニュースが広まる。 これは紛争を引き起こし、社会の安定と調和を脅かす奇跡的な問題である。 フェイクニュースは、その悪質さから研究者から注目を集めている。 インターネットからケーブルニュース、有料広告、ローカルニュースメディアに至るまで、あらゆるメディアで誤報の拡散が、人々が偽情報を識別し、事実を整理することが不可欠になっている。 研究者は、情報の信頼性を分析し、そのようなプラットフォーム上での虚偽情報を絞り込もうとしている。 信頼性は、手元にある情報の信頼性である。 偽ニュースの信頼性を分析することは、その創造の意図とニュースの多彩な性質のために難しい。 本研究では,偽ニュースを検出するモデルを提案する。 本手法は,ニュースの初期段階における内容について検討する。 ニュースが公表されても まだソーシャルメディアで 拡散されてはいません 本研究は,自動特徴抽出による内容の解釈とテキストの関連性について述べる。 要約すると、本稿では、記事の内容とともにスタンスを特徴として紹介し、事前学習した文脈化単語埋め込み BERT を用いて、偽ニュース検出の最先端結果を得る。 実世界のデータセットで行った実験は、我々のモデルが以前の研究より優れており、95.32%の精度で偽ニュースの検出を可能にすることを示している。

The evolution of electronic media is a mixed blessing. Due to the easy access, low cost, and faster reach of the information, people search out and devour news from online social networks. In contrast, the increasing acceptance of social media reporting leads to the spread of fake news. This is a minacious problem that causes disputes and endangers societal stability and harmony. Fake news spread has gained attention from researchers due to its vicious nature. proliferation of misinformation in all media, from the internet to cable news, paid advertising and local news outlets, has made it essential for people to identify the misinformation and sort through the facts. Researchers are trying to analyze the credibility of information and curtail false information on such platforms. Credibility is the believability of the piece of information at hand. Analyzing the credibility of fake news is challenging due to the intent of its creation and the polychromatic nature of the news. In this work, we propose a model for detecting fake news. Our method investigates the content of the news at the early stage i.e. when the news is published but is yet to be disseminated through social media. Our work interprets the content with automatic feature extraction and the relevance of the text pieces. In summary, we introduce stance as one of the features along with the content of the article and employ the pre-trained contextualized word embeddings BERT to obtain the state-of-art results for fake news detection. The experiment conducted on the real-world dataset indicates that our model outperforms the previous work and enables fake news detection with an accuracy of 95.32%.
翻訳日:2021-05-25 08:16:35 公開日:2021-05-21
# (参考訳) SATを用いたランダム林の解説 [全文訳有]

On Explaining Random Forests with SAT ( http://arxiv.org/abs/2105.10278v1 )

ライセンス: CC BY 4.0
Yacine Izza and Joao Marques-Silva(参考訳) ランダムフォレスト(RF)は最も広く使われている機械学習(ML)分類器の一つである。 RFは解釈できないが、RFの説明を計算するための専門的な非ヒューリスティックなアプローチは存在しない。 さらに,直交ベイズ分類器を含むMLモデルを記述するための多項式アルゴリズムの研究も最近行われている。 したがって、RFの説明が多項式時間で解けるかどうかが問題となる。 本稿では、RFの1つのPI展開がD^P完全であることを証明して、この疑問に否定的に答える。 さらに,RFの計算説明のための命題符号化を提案し,SATソルバによるPI説明の発見を可能にした。 これは、STT/MILPに基づくエンコーディングを必要とする強化木(BT)とニューラルネットワーク(NN)を説明する以前の研究とは対照的である。 広く公開されているデータセットから得られた実験結果は、SATベースのアプローチが実用的な応用に共通するサイズのRFにスケールすることを実証している。 さらに重要なのは,本論文で提案するsatベースのアプローチが,既存のヒューリスティックアプローチを大きく上回っていることを示す実験結果である。

Random Forest (RFs) are among the most widely used Machine Learning (ML) classifiers. Even though RFs are not interpretable, there are no dedicated non-heuristic approaches for computing explanations of RFs. Moreover, there is recent work on polynomial algorithms for explaining ML models, including naive Bayes classifiers. Hence, one question is whether finding explanations of RFs can be solved in polynomial time. This paper answers this question negatively, by proving that computing one PI-explanation of an RF is D^P-complete. Furthermore, the paper proposes a propositional encoding for computing explanations of RFs, thus enabling finding PI-explanations with a SAT solver. This contrasts with earlier work on explaining boosted trees (BTs) and neural networks (NNs), which requires encodings based on SMT/MILP. Experimental results, obtained on a wide range of publicly available datasets, demontrate that the proposed SAT-based approach scales to RFs of sizes common in practical applications. Perhaps more importantly, the experimental results demonstrate that, for the vast majority of examples considered, the SAT-based approach proposed in this paper significantly outperforms existing heuristic approaches.
翻訳日:2021-05-25 07:59:19 公開日:2021-05-21
# (参考訳) モバイルデバイス用超軽量量子化ロバストリアルタイム単一画像超解像 [全文訳有]

Extremely Lightweight Quantization Robust Real-Time Single-Image Super Resolution for Mobile Devices ( http://arxiv.org/abs/2105.10288v1 )

ライセンス: CC BY 4.0
Mustafa Ayazoglu(参考訳) シングルイメージ・スーパーレゾリューション(sisr)は古典的なコンピュータビジョンの問題であり、何十年も研究されてきた。 近年のディープラーニング手法の成功により、SISRにおける最近の研究は、ディープラーニング手法によるソリューションに焦点を当て、最先端の結果を得る。 しかし、最先端のSISRメソッドのほとんどは、数百万のパラメータとレイヤーを含んでいるため、実用的応用は制限されている。 本稿では,ハードウェア(Synaptics Dolphin NPU)の制限を意識した,超軽量な量子化頑健なリアルタイム超解像ネットワーク(XLSR)を提案する。 提案するモデルのビルディングブロックは、画像分類のためのルートモジュールから着想を得ている。 我々は、SISR問題にルートモジュールをうまく適用し、さらに、ネットワークの最後の層でClipped ReLUを使用したモデルuint8量子化を堅牢にし、再構築品質と実行時の大きなバランスを達成しました。 さらに,提案ネットワークはVDSRよりもパラメータが30倍少ないが,Div2K検証セットでは性能が上回っている。 このネットワークは、Mobile AI 2021 Real-Time Single Image Super Resolution Challengeで勝利した。

Single-Image Super Resolution (SISR) is a classical computer vision problem and it has been studied for over decades. With the recent success of deep learning methods, recent work on SISR focuses solutions with deep learning methodologies and achieves state-of-the-art results. However most of the state-of-the-art SISR methods contain millions of parameters and layers, which limits their practical applications. In this paper, we propose a hardware (Synaptics Dolphin NPU) limitation aware, extremely lightweight quantization robust real-time super resolution network (XLSR). The proposed model's building block is inspired from root modules for Image classification. We successfully applied root modules to SISR problem, further more to make the model uint8 quantization robust we used Clipped ReLU at the last layer of the network and achieved great balance between reconstruction quality and runtime. Furthermore, although the proposed network contains 30x fewer parameters than VDSR its performance surpasses it on Div2K validation set. The network proved itself by winning Mobile AI 2021 Real-Time Single Image Super Resolution Challenge.
翻訳日:2021-05-25 07:41:29 公開日:2021-05-21
# (参考訳) リアルタイム組込みシステムにおけるvoxelに基づく3次元物体検出手法の効率解析 [全文訳有]

Analysis of voxel-based 3D object detection methods efficiency for real-time embedded systems ( http://arxiv.org/abs/2105.10316v1 )

ライセンス: CC BY 4.0
Illia Oleksiienko and Alexandros Iosifidis(参考訳) 3dシーンにおけるオブジェクトのリアルタイム検出は、自律エージェントが周囲を理解するために行うべきタスクの1つだ。 最近のディープラーニングベースのソリューションは、十分なパフォーマンスを実現しているが、高い計算コストは、組み込みプラットフォームで計算を行う必要がある実際の環境でアプリケーションをレンダリングする。 本稿では,2つの性能と速度の両面から高い精度を両立させ,エージェントから離れた位置にある物体を検出できることと,高性能GPUを搭載した組込みプラットフォーム上でリアルタイムに動作できることの両面から,一般的な3Dオブジェクト検出手法の効率を解析する。 実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことがわかった。 さらに、nearオブジェクトでトレーニングされたモデルは、シーン内のすべてのオブジェクトでトレーニングされたモデルと同等または優れたパフォーマンスを達成します。 これは、モデルがオブジェクトの外観表現を主に近くのオブジェクトから学習することを意味する。 この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。 これは、性能を犠牲にすることなく、近くのオブジェクトへの操作を制限することで、40$-60\%のスピードアップを達成できることを意味している。

Real-time detection of objects in the 3D scene is one of the tasks an autonomous agent needs to perform for understanding its surroundings. While recent Deep Learning-based solutions achieve satisfactory performance, their high computational cost renders their application in real-life settings in which computations need to be performed on embedded platforms intractable. In this paper, we analyze the efficiency of two popular voxel-based 3D object detection methods providing a good compromise between high performance and speed based on two aspects, their ability to detect objects located at large distances from the agent and their ability to operate in real time on embedded platforms equipped with high-performance GPUs. Our experiments show that these methods mostly fail to detect distant small objects due to the sparsity of the input point clouds at large distances. Moreover, models trained on near objects achieve similar or better performance compared to those trained on all objects in the scene. This means that the models learn object appearance representations mostly from near objects. Our findings suggest that a considerable part of the computations of existing methods is focused on locations of the scene that do not contribute with successful detection. This means that the methods can achieve a speed-up of $40$-$60\%$ by restricting operation to near objects while not sacrificing much in performance.
翻訳日:2021-05-25 07:31:30 公開日:2021-05-21
# (参考訳) 私の友人から学ぶ:ソーシャルネットワークによる対人会話システム [全文訳有]

Learning from My Friends: Few-Shot Personalized Conversation Systems via Social Networks ( http://arxiv.org/abs/2105.10323v1 )

ライセンス: CC BY 4.0
Zhiliang Tian, Wei Bi, Zihan Zhang, Dongkyu Lee, Yiping Song, Nevin L. Zhang(参考訳) パーソナライズされた会話モデル(PCM)は、話者の好みに応じて応答を生成する。 既存のパーソナライズされた会話タスクは、通常、ユーザ記述や会話履歴から話者の好みを抽出するモデルを必要とする。 本稿では,補助的なソーシャルネットワークを用いた対話タスクを提案する。 このタスクは、話者とソーシャルネットワークからの会話が数回ある場合、話者に対してパーソナライズされた応答を生成するモデルを必要とする。 既存の手法は主に説明や会話の履歴を組み込むように設計されている。 これらの手法は、話者間の会話や接続がほとんどないスピーカーをモデル化することができない。 資源が少ない新参者のために,新たな話者に適応し,資源豊富な話者から新たな話者を学べるパーソナライズされた会話モデル(PCM)を提案する。 特にメタラーニングに基づくPCMに基づいて,他の話者の情報をソーシャルネットワークから収集するタスクアグリゲータ(TA)を提案する。 TAはメタラーニングにおける新しい話者の事前知識を提供する。 実験の結果,提案手法は話者との適合性,多様性,整合性において,すべての基準線より優れていた。

Personalized conversation models (PCMs) generate responses according to speaker preferences. Existing personalized conversation tasks typically require models to extract speaker preferences from user descriptions or their conversation histories, which are scarce for newcomers and inactive users. In this paper, we propose a few-shot personalized conversation task with an auxiliary social network. The task requires models to generate personalized responses for a speaker given a few conversations from the speaker and a social network. Existing methods are mainly designed to incorporate descriptions or conversation histories. Those methods can hardly model speakers with so few conversations or connections between speakers. To better cater for newcomers with few resources, we propose a personalized conversation model (PCM) that learns to adapt to new speakers as well as enabling new speakers to learn from resource-rich speakers. Particularly, based on a meta-learning based PCM, we propose a task aggregator (TA) to collect other speakers' information from the social network. The TA provides prior knowledge of the new speaker in its meta-learning. Experimental results show our methods outperform all baselines in appropriateness, diversity, and consistency with speakers.
翻訳日:2021-05-25 07:18:30 公開日:2021-05-21
# (参考訳) 葉の裏面-条件付き対向ネットワークを用いたオオクローズドブドウ果実の推定

Behind the leaves -- Estimation of occluded grapevine berries with conditional generative adversarial networks ( http://arxiv.org/abs/2105.10325v1 )

ライセンス: CC BY 4.0
Jana Kierdorf, Immanuel Weber, Anna Kicherer, Laura Zabawa, Lukas Drees, Ribana Roscher(参考訳) ワイン市場における競争の激化により、ブドウ栽培の正確な収量推定の必要性が高まっている。 収穫量を推定する最も有望な方法の1つはベリー計数であり、それは非破壊的にアプローチでき、そのプロセスは自動化できる。 本稿では,果実の収穫量をより正確に見積もるために,葉付きオクルードベリーの課題に対処する手法を提案する。 生成的敵ネットワーク(generative adversarial network)は深層学習に基づくアプローチであり、非閉塞ベリーの画像から学習パターンを活用できる。 提案手法を適用した後のベリー数の推定値が手動で数えた基準値に近いことを示す。 ベリー数に因子を適用するのとは対照的に,このアプローチは,可視性ベリーの出現を直接巻き込むことにより,局所的な条件に適応する。 さらに,本手法では,隠れた領域に関する情報を明示的に必要とせず,新たなベリーを追加することで,画像内のどの領域を変更するべきかを特定できることを示す。

The need for accurate yield estimates for viticulture is becoming more important due to increasing competition in the wine market worldwide. One of the most promising methods to estimate the harvest is berry counting, as it can be approached non-destructively, and its process can be automated. In this article, we present a method that addresses the challenge of occluded berries with leaves to obtain a more accurate estimate of the number of berries that will enable a better estimate of the harvest. We use generative adversarial networks, a deep learning-based approach that generates a likely scenario behind the leaves exploiting learned patterns from images with non-occluded berries. Our experiments show that the estimate of the number of berries after applying our method is closer to the manually counted reference. In contrast to applying a factor to the berry count, our approach better adapts to local conditions by directly involving the appearance of the visible berries. Furthermore, we show that our approach can identify which areas in the image should be changed by adding new berries without explicitly requiring information about hidden areas.
翻訳日:2021-05-25 07:02:54 公開日:2021-05-21
# (参考訳) サポートベクトル回帰の高精度性能解析

A Precise Performance Analysis of Support Vector Regression ( http://arxiv.org/abs/2105.10373v1 )

ライセンス: CC BY 4.0
Houssem Sifaou, Abla kammoun, Mohamed-Slim Alouini(参考訳) 本稿では,y_i=\boldsymbol{\beta}_\star^{t}{\bf x}_i +n_i$ where $\boldsymbol{\beta}_\star$ is an unknown vector, $\left\{{\bf x}_i\right\}_{i=1}^n$ is the feature vectors and $\left\{n}_i\right\}_{i=1}^n$ model the noise and $\left\{n}_i\right\}_{i=1}^n$。 特に、データの統計分布に関するいくつかの妥当な仮定の下では、高次元の状況下でのハードサポートベクター回帰の実現可能性条件を特徴付けるとともに、そのリスクに対する漸近近似を導出する。 同様に, ソフトサポートベクトル回帰に対するテストリスクをパラメータの関数として検討した。 提案手法は,ハードおよびソフトサポートベクトル回帰アルゴリズムの設計におけるパラメータを最適に調整するために用いられる。 解析結果から,パラメータを最適に選択した場合は常に有益であるが,より多くのサンプルを追加することはサポートベクタ回帰テスト性能に有害である可能性が示唆された。 このような結果は、最適に調整されたアーキテクチャがサンプル数に対してテスト性能曲線を減少させる現代の学習アーキテクチャで見られる同様の現象を思い出させる。

In this paper, we study the hard and soft support vector regression techniques applied to a set of $n$ linear measurements of the form $y_i=\boldsymbol{\beta}_\star^{T}{\bf x}_i +n_i$ where $\boldsymbol{\beta}_\star$ is an unknown vector, $\left\{{\bf x}_i\right\}_{i=1}^n$ are the feature vectors and $\left\{{n}_i\right\}_{i=1}^n$ model the noise. Particularly, under some plausible assumptions on the statistical distribution of the data, we characterize the feasibility condition for the hard support vector regression in the regime of high dimensions and, when feasible, derive an asymptotic approximation for its risk. Similarly, we study the test risk for the soft support vector regression as a function of its parameters. Our results are then used to optimally tune the parameters intervening in the design of hard and soft support vector regression algorithms. Based on our analysis, we illustrate that adding more samples may be harmful to the test performance of support vector regression, while it is always beneficial when the parameters are optimally selected. Such a result reminds a similar phenomenon observed in modern learning architectures according to which optimally tuned architectures present a decreasing test performance curve with respect to the number of samples.
翻訳日:2021-05-25 07:01:10 公開日:2021-05-21
# (参考訳) 点雲登録のための汎用および特異な3次元局所深部記述子 [全文訳有]

Generalisable and distinctive 3D local deep descriptors for point cloud registration ( http://arxiv.org/abs/2105.10382v1 )

ライセンス: CC BY 4.0
Fabio Poiesi and Davide Boscaini(参考訳) 有効3Dディスクリプタは、スケールや回転などの異なる幾何学変換に不変であり、オクルージョンやクラッタの場合は繰り返し可能であり、異なるセンサーでデータがキャプチャされた場合、異なるコンテキストで一般化可能である。 本稿では,異なるセンサを用いて異なるコンテキストでキャプチャされた点雲を登録するために使用できる,汎用的で識別可能な3dローカルディスクリプタを学習するための単純かつ効果的な手法を提案する。 点雲パッチを抽出し、局所参照フレームに対して正準化し、点置換不変深層ニューラルネットワークによりスケールおよび回転不変コンパクトディスクリプタに符号化する。 我々の記述子は、局所的およびランダムにサンプリングされた点からのセンサモダリティを効率的に一般化することができる。 rgbdセンサーとレーザースキャナを用いて再構成したいくつかの屋内および屋外データセット上で,手作りおよび深層学習に基づく記述子の評価と比較を行った。 当社のディスクリプタは、最も最近のディスクリプタを一般化の観点から大きく上回っており、同じシナリオでトレーニングとテストが実行されるベンチマークでも最先端になっています。

An effective 3D descriptor should be invariant to different geometric transformations, such as scale and rotation, repeatable in the case of occlusions and clutter, and generalisable in different contexts when data is captured with different sensors. We present a simple but yet effective method to learn generalisable and distinctive 3D local descriptors that can be used to register point clouds captured in different contexts with different sensors. Point cloud patches are extracted, canonicalised with respect to their local reference frame, and encoded into scale and rotation-invariant compact descriptors by a point permutation-invarian t deep neural network. Our descriptors can effectively generalise across sensor modalities from locally and randomly sampled points. We evaluate and compare our descriptors with alternative handcrafted and deep learning-based descriptors on several indoor and outdoor datasets reconstructed using both RGBD sensors and laser scanners. Our descriptors outperform most recent descriptors by a large margin in terms of generalisation, and become the state of the art also in benchmarks where training and testing are performed in the same scenarios.
翻訳日:2021-05-25 06:59:47 公開日:2021-05-21
# (参考訳) 高忠実度指紋生成:品質、独特性、プライバシー [全文訳有]

High Fidelity Fingerprint Generation: Quality, Uniqueness, and Privacy ( http://arxiv.org/abs/2105.10403v1 )

ライセンス: CC BY 4.0
Keivan Bahmani, Richard Plesh, Peter Johnson, Stephanie Schuckers, Timothy Swyka(参考訳) 本研究では,進歩的成長型ジェネレーショナル・リバーサリー・ネットワーク(gans)を用いて,clarkson fingerprint generator(cfg)を開発した。 CFGは、リアルで高い忠実さ、512\times512$ピクセル、フル、プレインプレッション指紋を生成できることを実証しています。 その結果,cfgが生成する指紋は独特で多様であり,トレーニングデータの基盤となるアイデンティティを明かすことなく,minutiae構成と品質の点でトレーニングデータセットに類似していることが示唆された。 トレーニング済みCFGモデルと合成生成されたデータセットをhttps://github.com/k eivanB/Clarkson_Fing er_Genで公開しています。

In this work, we utilize progressive growth-based Generative Adversarial Networks (GANs) to develop the Clarkson Fingerprint Generator (CFG). We demonstrate that the CFG is capable of generating realistic, high fidelity, $512\times512$ pixels, full, plain impression fingerprints. Our results suggest that the fingerprints generated by the CFG are unique, diverse, and resemble the training dataset in terms of minutiae configuration and quality, while not revealing the underlying identities of the training data. We make the pre-trained CFG model and the synthetically generated dataset publicly available at https://github.com/k eivanB/Clarkson_Fing er_Gen
翻訳日:2021-05-25 06:35:32 公開日:2021-05-21
# (参考訳) 基底表現とスペクトル微細調整を用いた深部CNN圧縮 [全文訳有]

Compressing Deep CNNs using Basis Representation and Spectral Fine-tuning ( http://arxiv.org/abs/2105.10436v1 )

ライセンス: CC BY 4.0
Muhammad Tayyab, Fahad Ahmad Khan, Abhijit Mahalanobis(参考訳) 本稿では,基底フィルタを用いて畳み込み層を表現する深層畳み込みニューラルネットワーク(cnns)の効率良く簡単な圧縮手法を提案する。 具体的には、cnnの任意の空間畳み込み層は、2つの連続した畳み込み層に置き換えることができる。 我々は、基底とフィルタ表現の両方を共同で微調整し、乱れによるパフォーマンス損失を直接軽減する。 提案手法の一般性は、画像分類とオブジェクト検出のためのいくつかのよく知られた深層CNNアーキテクチャとデータセットに適用することによって実証される。 また、Xavier Jetson AGXプロセッサ上で異なる圧縮レベルでの実行時間と電力使用量を示す。

We propose an efficient and straightforward method for compressing deep convolutional neural networks (CNNs) that uses basis filters to represent the convolutional layers, and optimizes the performance of the compressed network directly in the basis space. Specifically, any spatial convolution layer of the CNN can be replaced by two successive convolution layers: the first is a set of three-dimensional orthonormal basis filters, followed by a layer of one-dimensional filters that represents the original spatial filters in the basis space. We jointly fine-tune both the basis and the filter representation to directly mitigate any performance loss due to the truncation. Generality of the proposed approach is demonstrated by applying it to several well known deep CNN architectures and data sets for image classification and object detection. We also present the execution time and power usage at different compression levels on the Xavier Jetson AGX processor.
翻訳日:2021-05-25 06:27:00 公開日:2021-05-21
# (参考訳) 共分散自由スパースベイズ学習 [全文訳有]

Covariance-Free Sparse Bayesian Learning ( http://arxiv.org/abs/2105.10439v1 )

ライセンス: CC BY 4.0
Alexander Lin, Andrew H. Song, Berkin Bilgic, and Demba Ba(参考訳) スパースベイズ学習(sparse bayesian learning、sbl)は、スパースコーディング問題に取り組むための強力なフレームワークであり、不確実性定量化も提供する。 しかし、SBLの最も一般的な推論アルゴリズムは、大きな共分散行列を維持する必要があるため、高次元問題には高すぎる。 この問題を解決するために,共分散行列の明示的な計算を回避し,時間と空間を節約する新しいSBL推論アルゴリズムを提案する。 コストのかかる行列反転を行う代わりに,複数の線形系を解き,sblが必要とする後方統計量の偏りのない推定値を得る。 これらのシステムは並列に解くことができ、グラフィックス処理ユニットによるアルゴリズムのさらなる加速を可能にする。 実際、我々の手法は既存のベースラインよりも数千倍高速であり、計算時間を数秒に短縮することができる。 我々は,SBLがカルシウム画像データのデコンボリューションや磁気共鳴画像のマルチコントラスト再構成といった高次元信号回復問題に,どのように対処できるかを示す。 最後に、SBLにおける将来の研究を推進するために、すべての実装を含むツールボックスをオープンソースにします。

Sparse Bayesian learning (SBL) is a powerful framework for tackling the sparse coding problem while also providing uncertainty quantification. However, the most popular inference algorithms for SBL become too expensive for high-dimensional problems due to the need to maintain a large covariance matrix. To resolve this issue, we introduce a new SBL inference algorithm that avoids explicit computation of the covariance matrix, thereby saving significant time and space. Instead of performing costly matrix inversions, our covariance-free method solves multiple linear systems to obtain provably unbiased estimates of the posterior statistics needed by SBL. These systems can be solved in parallel, enabling further acceleration of the algorithm via graphics processing units. In practice, our method can be up to thousands of times faster than existing baselines, reducing hours of computation time to seconds. We showcase how our new algorithm enables SBL to tractably tackle high-dimensional signal recovery problems, such as deconvolution of calcium imaging data and multi-contrast reconstruction of magnetic resonance images. Finally, we open-source a toolbox containing all of our implementations to drive future research in SBL.
翻訳日:2021-05-25 06:17:22 公開日:2021-05-21
# (参考訳) 運転信号対応フルボディアバター [全文訳有]

Driving-Signal Aware Full-Body Avatars ( http://arxiv.org/abs/2105.10441v1 )

ライセンス: CC BY 4.0
Timur Bagautdinov, Chenglei Wu, Tomas Simon, Fabian Prada, Takaaki Shiratori, Shih-En Wei, Weipeng Xu, Yaser Sheikh, Jason Saragih(参考訳) 本稿では,運転信号を認識できる全身アバターを構築するための学習ベース手法を提案する。 我々のモデルは、人間のポーズや顔のキーポイントのような不完全な駆動信号でアニメーションできる条件付き変分オートエンコーダであり、人間の幾何学とビュー依存の外観の高品質な表現を生成する。 提案手法の背景には,アニメーション中に利用できない駆動信号と生成因子を分離することにより,より乾燥性や一般化が達成できる点がある。 この目的のために, 残余情報のみを捕捉する潜在空間を導入することで, 駆動信号に忠実なまま, 全身アニメーション中に必要となる欠落要因の注入を可能にすることにより, 駆動信号における情報不足を明示的に考慮する。 また,実データによく見られる大域的チャンス相関の影響を最小限に抑えるために,より優れた一般化を促進する駆動信号の学習可能な局所圧縮を提案する。 与えられた駆動信号に対して、結果として生じる変動モデルは、特定の応用に最も適した計算戦略を可能にする欠落要因に対する不確実性のコンパクトな空間を生成する。 本研究では,vrヘッドセットに装着した最小センサから取得した駆動信号を用いた仮想テレプレゼンスにおける実物体アニメーションの課題に対して,本手法の有効性を実証する。

We present a learning-based method for building driving-signal aware full-body avatars. Our model is a conditional variational autoencoder that can be animated with incomplete driving signals, such as human pose and facial keypoints, and produces a high-quality representation of human geometry and view-dependent appearance. The core intuition behind our method is that better drivability and generalization can be achieved by disentangling the driving signals and remaining generative factors, which are not available during animation. To this end, we explicitly account for information deficiency in the driving signal by introducing a latent space that exclusively captures the remaining information, thus enabling the imputation of the missing factors required during full-body animation, while remaining faithful to the driving signal. We also propose a learnable localized compression for the driving signal which promotes better generalization, and helps minimize the influence of global chance-correlations often found in real datasets. For a given driving signal, the resulting variational model produces a compact space of uncertainty for missing factors that allows for an imputation strategy best suited to a particular application. We demonstrate the efficacy of our approach on the challenging problem of full-body animation for virtual telepresence with driving signals acquired from minimal sensors placed in the environment and mounted on a VR-headset.
翻訳日:2021-05-25 05:46:05 公開日:2021-05-21
# (参考訳) 幾何学的変分推論

Geometric variational inference ( http://arxiv.org/abs/2105.10470v1 )

ライセンス: CC BY 4.0
Philipp Frank, Reimar Leike, and Torsten A. En{\ss}lin(参考訳) 非線形および高次元確率分布に含まれる情報を効率的にアクセスすることは、現代の統計学において重要な課題である。 伝統的に、点推定を超える推定子は変分推論 (VI) またはマルコフ・チェインモンテカルロ (MCMC) の手法に分類される。 連続確率分布の幾何学的特性を利用して効率を上げるMCMC法が提案されているが、VI法はほとんど使われていない。 本研究は,このギャップを埋めることを目的として,リーマン幾何学とフィッシャー情報計量に基づく幾何学的変分推論(geoVI)を提案する。 これは計量に付随するリーマン多様体をユークリッド空間に関連付ける座標変換を構築するために用いられる。 変換によって誘導される座標系で表される分布は、正規分布による正確な変分近似を可能にする、特に単純な形式を取る。 さらに、アルゴリズム構造は、低次元のイラストレーターから数千次元の非線型で階層的なベイズ的逆問題まで、複数の例で示されるGeoVIの効率的な実装を可能にする。

Efficiently accessing the information contained in non-linear and high dimensional probability distributions remains a core challenge in modern statistics. Traditionally, estimators that go beyond point estimates are either categorized as Variational Inference (VI) or Markov-Chain Monte-Carlo (MCMC) techniques. While MCMC methods that utilize the geometric properties of continuous probability distributions to increase their efficiency have been proposed, VI methods rarely use the geometry. This work aims to fill this gap and proposes geometric Variational Inference (geoVI), a method based on Riemannian geometry and the Fisher information metric. It is used to construct a coordinate transformation that relates the Riemannian manifold associated with the metric to Euclidean space. The distribution, expressed in the coordinate system induced by the transformation, takes a particularly simple form that allows for an accurate variational approximation by a normal distribution. Furthermore, the algorithmic structure allows for an efficient implementation of geoVI which is demonstrated on multiple examples, ranging from low-dimensional illustrative ones to non-linear, hierarchical Bayesian inverse problems in thousands of dimensions.
翻訳日:2021-05-25 05:15:11 公開日:2021-05-21
# (参考訳) 楕円型正規埋め込み [全文訳有]

Elliptical Ordinal Embedding ( http://arxiv.org/abs/2105.10457v1 )

ライセンス: CC BY 4.0
A\"issatou Diallo and Johannes F\"urnkranz(参考訳) 通常の埋め込みは、"item $j$ is close to item $i$ than item $k$"という形式の制約の集合からオブジェクトの低次元表現を見つけることを目的としている。 典型的には、各対象は低次元距離空間内の点ベクトルに写像される。 我々は、点ベクトルではなく密度への写像は、表現そのものとその空間における相対的な位置に関する不確かさを本質的に反映するなど、興味深い利点をもたらすと主張している。 実際、本論文では、各対象をガウス分布として埋め込むことを提案する。 本研究では,これらの埋め込みが制約を満たすことなくデータの基盤構造を捕捉し,表現の性質を探求する能力について検討する。 合成および実世界のデータセットの実験は、我々のアプローチの利点を示している。 さらに、空間内のマッピング対象の視覚的知覚を豊かにする不確実性をモデル化する利点について述べる。

Ordinal embedding aims at finding a low dimensional representation of objects from a set of constraints of the form "item $j$ is closer to item $i$ than item $k$". Typically, each object is mapped onto a point vector in a low dimensional metric space. We argue that mapping to a density instead of a point vector provides some interesting advantages, including an inherent reflection of the uncertainty about the representation itself and its relative location in the space. Indeed, in this paper, we propose to embed each object as a Gaussian distribution. We investigate the ability of these embeddings to capture the underlying structure of the data while satisfying the constraints, and explore properties of the representation. Experiments on synthetic and real-world datasets showcase the advantages of our approach. In addition, we illustrate the merit of modelling uncertainty, which enriches the visual perception of the mapped objects in the space.
翻訳日:2021-05-25 04:54:01 公開日:2021-05-21
# 潜在ガウスモデルブースティング

Latent Gaussian Model Boosting ( http://arxiv.org/abs/2105.08966v2 )

ライセンス: Link先を確認
Fabio Sigrist(参考訳) 潜在ガウスモデルとブースティングは統計学や機械学習で広く使われている。 ツリーブースティングは多くのデータセットにおいて優れた予測精度を示すが、潜在的な欠点は、サンプルの条件付き独立性を仮定し、例えば空間データに対する不連続な予測を生成し、高心性カテゴリー変数では困難であることである。 ガウス過程や群ランダム効果モデルのような潜在ガウスモデルは、確率的予測を可能にする柔軟な事前モデルである。 しかし、既存の潜在ガウスモデルは通常、非現実的な仮定となるようなゼロあるいは線形事前平均関数を仮定する。 本稿では,上記の欠点を解消し,両手法の利点を活かすため,ガウスモデルの強化と潜在性を組み合わせた新しい手法を提案する。 シミュレーションおよび実世界のデータ実験における既存手法と比較して予測精度が向上した。

Latent Gaussian models and boosting are widely used techniques in statistics and machine learning. Tree-boosting shows excellent predictive accuracy on many data sets, but potential drawbacks are that it assumes conditional independence of samples, produces discontinuous predictions for, e.g., spatial data, and it can have difficulty with high-cardinality categorical variables. Latent Gaussian models, such as Gaussian process and grouped random effects models, are flexible prior models that allow for making probabilistic predictions. However, existing latent Gaussian models usually assume either a zero or a linear prior mean function which can be an unrealistic assumption. This article introduces a novel approach that combines boosting and latent Gaussian models in order to remedy the above-mentioned drawbacks and to leverage the advantages of both techniques. We obtain increased predictive accuracy compared to existing approaches in both simulated and real-world data experiments.
翻訳日:2021-05-25 03:39:26 公開日:2021-05-21
# パートナー! 検索型チャットボットにおけるパーソナライズされた応答選択のためのペルソナの活用に関する実証的研究

Partner Matters! An Empirical Study on Fusing Personas for Personalized Response Selection in Retrieval-Based Chatbots ( http://arxiv.org/abs/2105.09050v2 )

ライセンス: Link先を確認
Jia-Chen Gu, Hui Liu, Zhen-Hua Ling, Quan Liu, Zhigang Chen, Xiaodan Zhu(参考訳) ペルソナは対話システムの一貫性を維持するための事前知識として機能する。 過去の研究の多くは、ある候補から選択されるか直接生成されるであろう対話において自己ペルソナを採用したが、対話におけるパートナーの役割に気付いていない。 本稿では,検索型チャットボットにおける自己とパートナーの話者を記述したペルソナの利用が応答選択課題に与える影響を徹底的に検討する。 4つのペルソナ融合戦略が設計されており、ペルソナが異なる方法でコンテキストや応答と相互作用することを想定している。 これらの戦略は,HRE(Hierarchical Recurrent Encoder),IMN(Interac tive Matching Network),BERT(Bidire ctional Encoder Representations from Transformer)の3つの代表的なモデルに実装されている。 Persona-Chatデータセットに関する実証研究は、過去の研究で無視されたパートナーペルソナがIMNモデルとBERTモデルにおける応答選択の精度を向上させることを示した。 さらに,従来の手法よりも2.7%以上のマージン,4.6%のパーソナをヒストル@1(トップ-1精度)で改善し,ペルソナ-チャットデータセット上での新たな最先端性能を実現した。

Persona can function as the prior knowledge for maintaining the consistency of dialogue systems. Most of previous studies adopted the self persona in dialogue whose response was about to be selected from a set of candidates or directly generated, but few have noticed the role of partner in dialogue. This paper makes an attempt to thoroughly explore the impact of utilizing personas that describe either self or partner speakers on the task of response selection in retrieval-based chatbots. Four persona fusion strategies are designed, which assume personas interact with contexts or responses in different ways. These strategies are implemented into three representative models for response selection, which are based on the Hierarchical Recurrent Encoder (HRE), Interactive Matching Network (IMN) and Bidirectional Encoder Representations from Transformers (BERT) respectively. Empirical studies on the Persona-Chat dataset show that the partner personas neglected in previous studies can improve the accuracy of response selection in the IMN- and BERT-based models. Besides, our BERT-based model implemented with the context-response-awa re persona fusion strategy outperforms previous methods by margins larger than 2.7% on original personas and 4.6% on revised personas in terms of hits@1 (top-1 accuracy), achieving a new state-of-the-art performance on the Persona-Chat dataset.
翻訳日:2021-05-25 03:39:12 公開日:2021-05-21
# M4Depth:ビデオシーケンス上の単眼深度推定のためのモーションベースアプローチ

M4Depth: A motion-based approach for monocular depth estimation on video sequences ( http://arxiv.org/abs/2105.09847v2 )

ライセンス: Link先を確認
Micha\"el Fonder and Damien Ernst and Marc Van Droogenbroeck(参考訳) 物体に近づくことは自動運転車にとって不可欠だ。 深度センサーが使用できない場合、rgbカメラからこの距離を推定する必要がある。 車とは対照的に、搭載されたカメラから深度を推定する作業は、飛行中の動きに制約がないため、ドローンでは複雑になる。 本稿では,そのrgbビデオストリームとドローンの動き情報を用いて,搭載カメラで見る物体の距離を推定する手法を提案する。 本手法はピラミッド型畳み込みニューラルネットワークアーキテクチャ上に構築され,動きによる幾何的制約と組み合わせて時間繰り返しを用いて画素幅の深度マップを生成する。 我々の建築では、ピラミッドの各レベルは、ピラミッドの前のレベルが提供する過去の観測と情報に基づいて、独自の深さ推定を行うように設計されています。 空間的再投影層を導入し,各レベル間のデータの時空間的一貫性を維持する。 我々は,多種多様な非構造屋外環境において記録された合成ドローン軌跡を特徴とするドローンデータセットであるmid-airの性能解析を行った。 実験の結果,我々のネットワークは最先端の深度推定法よりも優れており,運動情報の利用が本改良の主な要因であることがわかった。 私たちのメソッドのコードはGitHubで公開されている。

Getting the distance to objects is crucial for autonomous vehicles. In instances where depth sensors cannot be used, this distance has to be estimated from RGB cameras. As opposed to cars, the task of estimating depth from on-board mounted cameras is made complex on drones because of the lack of constrains on motion during flights. In this paper, we present a method to estimate the distance of objects seen by an on-board mounted camera by using its RGB video stream and drone motion information. Our method is built upon a pyramidal convolutional neural network architecture and uses time recurrence in pair with geometric constraints imposed by motion to produce pixel-wise depth maps. In our architecture, each level of the pyramid is designed to produce its own depth estimate based on past observations and information provided by the previous level in the pyramid. We introduce a spatial reprojection layer to maintain the spatio-temporal consistency of the data between the levels. We analyse the performance of our approach on Mid-Air, a public drone dataset featuring synthetic drone trajectories recorded in a wide variety of unstructured outdoor environments. Our experiments show that our network outperforms state-of-the-art depth estimation methods and that the use of motion information is the main contributing factor for this improvement. The code of our method is publicly available on GitHub; see https://github.com/m ichael-fonder/M4Dept h
翻訳日:2021-05-25 03:38:45 公開日:2021-05-21
# 人工物の識別:畳み込みニューラルネットワークの飽和点の評価

Distinguishing artefacts: evaluating the saturation point of convolutional neural networks ( http://arxiv.org/abs/2105.10448v1 )

ライセンス: Link先を確認
Ric Real, James Gopsill, David Jones, Chris Snider, Ben Hicks(参考訳) 以前の研究では、surrogate computer aided design(cad)モデルで訓練された畳み込みニューラルネットワーク(cnns)が、写真から現実世界のアーティファクトを検出し、分類できることを示した。 設計におけるデジタルおよび物理資産のツインニングを支援するアプリケーションには、モデルリポジトリからのパーツジオメトリの迅速な抽出、情報検索 \&検索、メンテナンス、修復、記録のためのフィールド内のコンポーネントの識別などが含まれる。 分類タスクにおけるCNNの性能は、トレーニングデータセットのサイズとクラス数に依存することが示されている。 以前の作業では比較的小さなサロゲートモデルデータセット(<100ドルモデル)を使用していたが、CNNが大規模モデルリポジトリでモデルを区別できるかどうかについては疑問が残る。 本稿では,オンラインCADモデルリポジトリから合成画像データセットを生成する手法を提案する。 1000のCADモデルをキュレートして処理し、大規模なサロゲートデータセットを生成し、10$^{\circ}$、30$^{\circ}$、60$^{\circ}$、120$^{\circ}$のステップでモデルカバレッジを特徴付ける。 この結果から,最大200点までのモデルリポジトリにおけるアーティファクトを分類するコンピュータビジョンアルゴリズムの能力が示され,さらにcnnの性能は著しく低下し,物理的なアーティファクトからデジタルアーティファクトへの自動ツイン化能力が制限された。 しかし、top-5の結果では、サーロゲートモデルの大規模リポジトリにおける情報検索と検索の可能性を示すマッチがより多く見られる。

Prior work has shown Convolutional Neural Networks (CNNs) trained on surrogate Computer Aided Design (CAD) models are able to detect and classify real-world artefacts from photographs. The applications of which support twinning of digital and physical assets in design, including rapid extraction of part geometry from model repositories, information search \& retrieval and identifying components in the field for maintenance, repair, and recording. The performance of CNNs in classification tasks have been shown dependent on training data set size and number of classes. Where prior works have used relatively small surrogate model data sets ($<100$ models), the question remains as to the ability of a CNN to differentiate between models in increasingly large model repositories. This paper presents a method for generating synthetic image data sets from online CAD model repositories, and further investigates the capacity of an off-the-shelf CNN architecture trained on synthetic data to classify models as class size increases. 1,000 CAD models were curated and processed to generate large scale surrogate data sets, featuring model coverage at steps of 10$^{\circ}$, 30$^{\circ}$, 60$^{\circ}$, and 120$^{\circ}$ degrees. The findings demonstrate the capability of computer vision algorithms to classify artefacts in model repositories of up to 200, beyond this point the CNN's performance is observed to deteriorate significantly, limiting its present ability for automated twinning of physical to digital artefacts. Although, a match is more often found in the top-5 results showing potential for information search and retrieval on large repositories of surrogate models.
翻訳日:2021-05-25 03:37:43 公開日:2021-05-21
# 視覚トランスフォーマの興味深い特性

Intriguing Properties of Vision Transformers ( http://arxiv.org/abs/2105.10497v1 )

ライセンス: Link先を確認
Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang(参考訳) 視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって優れた性能を示している。 これらのモデルは、コンテキストキューをエンコードする画像パッチのシーケンスに柔軟に出席できるマルチヘッド自己認識機構に基づいている。 重要な質問は、特定のパッチで条件づけされたイメージワイドコンテキストに参加する際のこのような柔軟性が、重度のオクルージョン、ドメインシフト、空間的置換、敵対的および自然な摂動など、自然画像の迷惑処理をいかに容易にするかである。 3つのvitファミリーを包含する広範囲な実験と,高性能畳み込みニューラルネットワーク(cnn)との比較により,この問題を体系的に研究した。 a) トランスフォーマーは、画像コンテンツの80%をランダムにオクルードした後でも、画像ネット上で最大60%のtop-1精度を維持するなど、重度の咬合、摂動、ドメインシフトに対して非常に頑健である。 b) 閉塞に対するロバストな性能は局所的なテクスチャに対するバイアスに起因するものではなく、VTはCNNに比べてテクスチャに対するバイアスが著しく少ない。 形状に基づく特徴を適切にエンコードするように訓練された場合、vitsは人間の視覚システムと同等の形状認識能力を示す。 (c) 形状表現のエンコードにViTを用いると, 画素レベルの監督を伴わない正確なセマンティックセグメンテーションが生じる。 (d) 単一のViTモデルのオフザシェルフ機能を組み合わせて機能アンサンブルを作成することで、従来の学習パラダイムと少数ショットの学習パラダイムの両方において、さまざまな分類データセットの精度が高くなります。 ViTsの効果的な特徴は、自己認識機構によって可能となる柔軟でダイナミックな受容場によるものである。

Vision transformers (ViT) have demonstrated impressive performance across various machine vision problems. These models are based on multi-head self-attention mechanisms that can flexibly attend to a sequence of image patches to encode contextual cues. An important question is how such flexibility in attending image-wide context conditioned on a given patch can facilitate handling nuisances in natural images e.g., severe occlusions, domain shifts, spatial permutations, adversarial and natural perturbations. We systematically study this question via an extensive set of experiments encompassing three ViT families and comparisons with a high-performing convolutional neural network (CNN). We show and analyze the following intriguing properties of ViT: (a) Transformers are highly robust to severe occlusions, perturbations and domain shifts, e.g., retain as high as 60% top-1 accuracy on ImageNet even after randomly occluding 80% of the image content. (b) The robust performance to occlusions is not due to a bias towards local textures, and ViTs are significantly less biased towards textures compared to CNNs. When properly trained to encode shape-based features, ViTs demonstrate shape recognition capability comparable to that of human visual system, previously unmatched in the literature. (c) Using ViTs to encode shape representation leads to an interesting consequence of accurate semantic segmentation without pixel-level supervision. (d) Off-the-shelf features from a single ViT model can be combined to create a feature ensemble, leading to high accuracy rates across a range of classification datasets in both traditional and few-shot learning paradigms. We show effective features of ViTs are due to flexible and dynamic receptive fields possible via the self-attention mechanism.
翻訳日:2021-05-25 03:37:14 公開日:2021-05-21
# ReduNet: レート削減の最大化原理に基づくホワイトボックスディープネットワーク

ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction ( http://arxiv.org/abs/2105.10446v1 )

ライセンス: Link先を確認
Kwan Ho Ryan Chan, Yaodong Yu, Chong You, Haozhi Qi, John Wright, Yi Ma(参考訳) この研究は、データ圧縮と識別表現の原理から、現代の深層(畳み込み)ネットワークを解釈することを目的とした、妥当な理論フレームワークの提供を試みる。 高次元マルチクラスデータに対して、最適な線形判別表現はデータセット全体と全てのサブセットの平均との符号化速度差を最大化することを示す。 速度低減目標を最適化する基本的な反復勾配上昇法が,現代の深層ネットワークの共通特性を共有する多層深層ネットワークであるredunetを自然に生み出すことを示した。 ディープ層アーキテクチャ、線形および非線形演算子、さらにはネットワークのパラメータでさえも、バックプロパゲーションによって学習されるのではなく、フォワードプロパゲーションを通じて層ごとに明示的に構築されている。 いわゆる「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。 さらに、ソ派生ネットワークのすべての線型作用素は、厳密にシフト不変であるように分類を強制すると、自然にマルチチャネル畳み込みとなる。 導出はまた、そのような深層畳み込みネットワークがスペクトル領域の構築と学習において著しく効率的であることを示している。 予備シミュレーションと実験により,レート低減目標と関連するReduNetの有効性が明らかとなった。 すべてのコードとデータはhttps://github.com/m a-lab-berkeleyで入手できる。

This work attempts to provide a plausible theoretical framework that aims to interpret modern deep (convolutional) networks from the principles of data compression and discriminative representation. We show that for high-dimensional multi-class data, the optimal linear discriminative representation maximizes the coding rate difference between the whole dataset and the average of all the subsets. We show that the basic iterative gradient ascent scheme for optimizing the rate reduction objective naturally leads to a multi-layer deep network, named ReduNet, that shares common characteristics of modern deep networks. The deep layered architectures, linear and nonlinear operators, and even parameters of the network are all explicitly constructed layer-by-layer via forward propagation, instead of learned via back propagation. All components of so-obtained "white-box" network have precise optimization, statistical, and geometric interpretation. Moreover, all linear operators of the so-derived network naturally become multi-channel convolutions when we enforce classification to be rigorously shift-invariant. The derivation also indicates that such a deep convolution network is significantly more efficient to construct and learn in the spectral domain. Our preliminary simulations and experiments clearly verify the effectiveness of both the rate reduction objective and the associated ReduNet. All code and data are available at https://github.com/M a-Lab-Berkeley.
翻訳日:2021-05-25 03:36:23 公開日:2021-05-21
# 遠隔教師付き関係抽出における負データの再検討

Revisiting the Negative Data of Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2105.10158v1 )

ライセンス: Link先を確認
Chenhao Xie, Jiaqing Liang, Jingping Liu, Chengsong Huang, Wenhao Huang, Yanghua Xiao(参考訳) 遠隔監視は、関係抽出のための多くのトレーニングサンプルを自動的に生成する。 しかし、ノイズラベルと不均衡なトレーニングデータという2つの大きな問題も生じている。 以前の研究では、誤ったラベル付き関係(偽陽性)を減らすことに注力しているが、知識ベース(偽陰性)の不完全性によって引き起こされる欠落関係を探究する者は少ない。 さらに、負ラベルの量は、以前の問題定式化の正ラベルを圧倒的に上回る。 本稿では、まず、負のデータによる上記の課題を徹底的に分析する。 次に,関係抽出の問題を正の無ラベル学習タスクとして定式化し,偽陰性問題を緩和する。 第3に, 文レベルの関係検出を行い, 対象/対象抽出を行い, サンプル効率の訓練を行うパイプライン手法を提案する。 実験の結果,提案手法は既存の手法より一貫して優れており,多くの偽陽性サンプルを学習しても優れた性能を保っていることがわかった。

Distantly supervision automatically generates plenty of training samples for relation extraction. However, it also incurs two major problems: noisy labels and imbalanced training data. Previous works focus more on reducing wrongly labeled relations (false positives) while few explore the missing relations that are caused by incompleteness of knowledge base (false negatives). Furthermore, the quantity of negative labels overwhelmingly surpasses the positive ones in previous problem formulations. In this paper, we first provide a thorough analysis of the above challenges caused by negative data. Next, we formulate the problem of relation extraction into as a positive unlabeled learning task to alleviate false negative problem. Thirdly, we propose a pipeline approach, dubbed \textsc{ReRe}, that performs sentence-level relation detection then subject/object extraction to achieve sample-efficient training. Experimental results show that the proposed method consistently outperforms existing approaches and remains excellent performance even learned with a large quantity of false positive samples.
翻訳日:2021-05-25 03:36:00 公開日:2021-05-21
# テキスト生成のための事前学習言語モデル:調査

Pretrained Language Models for Text Generation: A Survey ( http://arxiv.org/abs/2105.10311v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) テキスト生成は自然言語処理(NLP)において最も重要かつ困難なタスクの1つとなっている。 ディープラーニングの復活は、ニューラルジェネレーションモデル、特に事前学習言語モデル(plm)のパラダイムによって、この分野を大きく前進させた。 本稿では,テキスト生成のためのPLMの話題において達成された主な進歩について概説する。 予備として、一般的なタスク定義を説明し、テキスト生成のためのplmのメインストリームアーキテクチャを簡潔に説明する。 コアコンテンツとして、既存のPLMを用いて異なる入力データをモデル化し、生成されたテキストの特別な特性を満たす方法について論じる。 さらに,テキスト生成のための重要な微調整戦略についても概説する。 最後に,今後の方向性を示し,本論文をまとめる。 本研究の目的は,テキスト生成研究者に関連研究の合成とポインタを提供することである。

Text generation has become one of the most important yet challenging tasks in natural language processing (NLP). The resurgence of deep learning has greatly advanced this field by neural generation models, especially the paradigm of pretrained language models (PLMs). In this paper, we present an overview of the major advances achieved in the topic of PLMs for text generation. As the preliminaries, we present the general task definition and briefly describe the mainstream architectures of PLMs for text generation. As the core content, we discuss how to adapt existing PLMs to model different input data and satisfy special properties in the generated text. We further summarize several important fine-tuning strategies for text generation. Finally, we present several future directions and conclude this paper. Our survey aims to provide text generation researchers a synthesis and pointer to related research.
翻訳日:2021-05-25 03:35:44 公開日:2021-05-21
# Fact-driven Logical Reasoning

Fact-driven Logical Reasoning ( http://arxiv.org/abs/2105.10334v1 )

ライセンス: Link先を確認
Siru Ouyang, Zhuosheng Zhang and Hai Zhao(参考訳) 論理的推論は、人間の認識と密接に関連しており、人間のテキスト理解において極めて重要である。 近年、機械の論理的推論能力に注目が集まっている。 しかし、従来の研究では、完全な事実や出来事をローカルに認識することなく、コモンセンスに関連するグローバル知識コンポーネントのみを考慮した名前付きエンティティのリンクなど、事前に定義された関係パターンをモデル化するためのアドホックな手法が一般的であった。 このような手法は明らかに複雑な論理構造を扱うには不十分である。 したがって、自然論理単位は、主観的動詞オブジェクトが生成した「事実」のような文のバックボーン成分群であり、論理的推論の基盤として必要とされるグローバルな知識とローカルな知識の両方をカバーする。 アドホックグラフの構築以外にも,新たに定義されたファクトユニット上にスーパーグラフを構築するための,より汎用的で便利なファクト駆動型アプローチを提案し,局所的な質問やオプションの相互作用に関するより明確なガイダンスでスーパーグラフを強化する。 ReClor と LogiQA の2つの挑戦的論理推論ベンチマークデータセットの実験により,提案したモデルである \textsc{Focal Reasoner} がベースラインモデルより劇的に優れていることが示された。 また、対話推論データセットであるMuTualのような他の下流タスクにもスムーズに適用でき、競合的な結果が得られる。

Logical reasoning, which is closely related to human cognition, is of vital importance in human's understanding of texts. Recent years have witnessed increasing attentions on machine's logical reasoning abilities. However, previous studies commonly apply ad-hoc methods to model pre-defined relation patterns, such as linking named entities, which only considers global knowledge components that are related to commonsense, without local perception of complete facts or events. Such methodology is obviously insufficient to deal with complicated logical structures. Therefore, we argue that the natural logic units would be the group of backbone constituents of the sentence such as the subject-verb-object formed "facts", covering both global and local knowledge pieces that are necessary as the basis for logical reasoning. Beyond building the ad-hoc graphs, we propose a more general and convenient fact-driven approach to construct a supergraph on top of our newly defined fact units, and enhance the supergraph with further explicit guidance of local question and option interactions. Experiments on two challenging logical reasoning benchmark datasets, ReClor and LogiQA, show that our proposed model, \textsc{Focal Reasoner}, outperforms the baseline models dramatically. It can also be smoothly applied to other downstream tasks such as MuTual, a dialogue reasoning dataset, achieving competitive results.
翻訳日:2021-05-25 03:35:34 公開日:2021-05-21
# 非線形構造プローブ

A Non-Linear Structural Probe ( http://arxiv.org/abs/2105.10185v1 )

ライセンス: Link先を確認
Jennifer C. White, Tiago Pimentel, Naomi Saphra, Ryan Cotterell(参考訳) プローブは知識のエンコーディングを調べるために考案されたモデルである。 構文構造 -- 文脈表現における。 プローブは単純さのために設計されることが多く、符号化された情報の構造を十分に活用できないようなプローブ設計に制限が加えられている。 線形変換のみを学習することで文脈表現における構文構造を符号化することを目的とした構造プローブ(hewitt and manning, 2019)の事例を検討する。 構造プローブがメトリックを学習することを観察して、それをカーネル化し、同じ数のパラメータを持つ新しい非線形変種を開発することができる。 我々は6つの言語でテストを行い、ラジアル基底関数(RBF)カーネルが正規化とともに、すべての言語のベースラインに対して統計的に有意な改善を達成していることを確認した。 RBFカーネルがBERTの自己アテンション層にどのように似ているのかを議論し、この類似性がRBFベースのプローブの性能向上につながると推測する。

Probes are models devised to investigate the encoding of knowledge -- e.g. syntactic structure -- in contextual representations. Probes are often designed for simplicity, which has led to restrictions on probe design that may not allow for the full exploitation of the structure of encoded information; one such restriction is linearity. We examine the case of a structural probe (Hewitt and Manning, 2019), which aims to investigate the encoding of syntactic structure in contextual representations through learning only linear transformations. By observing that the structural probe learns a metric, we are able to kernelize it and develop a novel non-linear variant with an identical number of parameters. We test on 6 languages and find that the radial-basis function (RBF) kernel, in conjunction with regularization, achieves a statistically significant improvement over the baseline in all languages -- implying that at least part of the syntactic knowledge is encoded non-linearly. We conclude by discussing how the RBF kernel resembles BERT's self-attention layers and speculate that this resemblance leads to the RBF-based probe's stronger performance.
翻訳日:2021-05-25 03:34:44 公開日:2021-05-21
# 規制強化型無監督選挙区パーシング

Rule Augmented Unsupervised Constituency Parsing ( http://arxiv.org/abs/2105.10193v1 )

ライセンス: Link先を確認
Atul Sahay, Anshul Nasery, Ayush Maheshwari, Ganesh Ramakrishnan and Rishabh Iyer(参考訳) 近年,構文樹の教師なし解析が注目されている。 このような教師なし構文解析の原型的アプローチは強化学習と自動エンコーダを用いる。 しかし、学習モデルが十分に理解された言語文法を活用することを保証するメカニズムはない。 本稿では,構文規則の形で存在する言語に関する非常に一般的な言語知識を活用する手法を提案する。 本稿では,構文文法規則を活用し,ベースシステムとは独立な新しい定式化手法を提案する。 我々は、mnliとwsjという2つのベンチマークデータセットで最新の結果を得る。 論文のソースコードはhttps://github.com/a nshuln/diora_with_ru les.com/で入手できる。

Recently, unsupervised parsing of syntactic trees has gained considerable attention. A prototypical approach to such unsupervised parsing employs reinforcement learning and auto-encoders. However, no mechanism ensures that the learnt model leverages the well-understood language grammar. We propose an approach that utilizes very generic linguistic knowledge of the language present in the form of syntactic rules, thus inducing better syntactic structures. We introduce a novel formulation that takes advantage of the syntactic grammar rules and is independent of the base system. We achieve new state-of-the-art results on two benchmarks datasets, MNLI and WSJ. The source code of the paper is available at https://github.com/a nshuln/Diora_with_ru les.
翻訳日:2021-05-25 03:34:25 公開日:2021-05-21
# 確率的十分説明

Probabilistic Sufficient Explanations ( http://arxiv.org/abs/2105.10118v1 )

ライセンス: Link先を確認
Eric Wang, Pasha Khosravi, Guy Van den Broeck(参考訳) 学習した分類器の動作を理解することは重要な課題であり、様々なブラックボックスの説明、論理的推論手法、モデル固有の手法が提案されている。 本稿では,これらの特徴を観察するだけで分類を説明するのに十分であるような特徴の「最も単純な」部分集合を選択するものとして,分類の事例を説明する確率論的十分説明を紹介する。 つまり、データ分散の下で全ての機能が観測されたときにモデルが同じように振る舞うという強い確率的保証を与えるのに十分である。 さらに,確率回路や予測予測などのトラクタブルな確率的推論ツールを活用し,保証をそのまま維持しつつ,所望の説明を求めるスケーラブルなアルゴリズムを設計する。 実験では,十分な説明を求めるアルゴリズムの有効性を実証し,アンカーや論理説明と比較してその利点を示す。

Understanding the behavior of learned classifiers is an important task, and various black-box explanations, logical reasoning approaches, and model-specific methods have been proposed. In this paper, we introduce probabilistic sufficient explanations, which formulate explaining an instance of classification as choosing the "simplest" subset of features such that only observing those features is "sufficient" to explain the classification. That is, sufficient to give us strong probabilistic guarantees that the model will behave similarly when all features are observed under the data distribution. In addition, we leverage tractable probabilistic reasoning tools such as probabilistic circuits and expected predictions to design a scalable algorithm for finding the desired explanations while keeping the guarantees intact. Our experiments demonstrate the effectiveness of our algorithm in finding sufficient explanations, and showcase its advantages compared to Anchors and logical explanations.
翻訳日:2021-05-25 03:34:17 公開日:2021-05-21
# はい 気を付けます! --care labelフレームワークによる機械学習手法の認定

Yes We Care! -- Certification for Machine Learning Methods through the Care Label Framework ( http://arxiv.org/abs/2105.10197v1 )

ライセンス: Link先を確認
Katharina Morik and Helena Kotthaus and Lukas Heppe and Danny Heinrich and Raphael Fischer and Sascha M\"ucke and Andreas Pauly and Matthias Jakobs and Nico Piatkowski(参考訳) 機械学習アプリケーションはユビキタスになった。 彼らの応用は、様々な分野(トラフィック、金融、科学など)におけるプロセス最適化よりも生産におけるマシン組み込み制御から、広告やレコメンデーションのようなユーザーインタラクションを誘導する。 これにより、機械学習を信頼できるものにする努力が増えた。 説明可能な公正なAIはすでに成熟しています。 彼らは知識のあるユーザとアプリケーションエンジニアに対処する。 しかし、学習したモデルを洗濯機と同じような方法でデプロイしたいユーザはいる。 これらのステークホルダーはモデルを理解するのに時間を費やしたくない。 代わりに、保証されたプロパティに依存したい。 関連する特性は何ですか? 機械学習の知識を前提にせずに、どのようにステークホルダーに表現できるのか? モデルの特定の実装に対してどうやって保証できるのか? これらの質問は現在の最先端を超えており、ここで対処したい。 本稿では,ケアラベルによる学習方法の認定を行う統一フレームワークを提案する。 彼らは、テキスタイルラベルや電子機器のプロパティカードといった有名な証明書を理解し、インスピレーションを引き出すのが簡単です。 我々のフレームワークは、機械学習理論と所定の実装の両方を考慮する。 理論的特性と境界に対する実装のコンプライアンスをテストする。 本稿では,確率的グラフィカルモデルの選択のための認証スイートのプロトタイプ実装によるケアラベルについて述べる。

Machine learning applications have become ubiquitous. Their applications from machine embedded control in production over process optimization in diverse areas (e.g., traffic, finance, sciences) to direct user interactions like advertising and recommendations. This has led to an increased effort of making machine learning trustworthy. Explainable and fair AI have already matured. They address knowledgeable users and application engineers. However, there are users that want to deploy a learned model in a similar way as their washing machine. These stakeholders do not want to spend time understanding the model. Instead, they want to rely on guaranteed properties. What are the relevant properties? How can they be expressed to stakeholders without presupposing machine learning knowledge? How can they be guaranteed for a certain implementation of a model? These questions move far beyond the current state-of-the-art and we want to address them here. We propose a unified framework that certifies learning methods via care labels. They are easy to understand and draw inspiration from well-known certificates like textile labels or property cards of electronic devices. Our framework considers both, the machine learning theory and a given implementation. We test the implementation's compliance with theoretical properties and bounds. In this paper, we illustrate care labels by a prototype implementation of a certification suite for a selection of probabilistic graphical models.
翻訳日:2021-05-25 03:34:03 公開日:2021-05-21
# 慢性腎臓病患者の説明可能な分類モデル

An Explainable Classification Model for Chronic Kidney Disease Patients ( http://arxiv.org/abs/2105.10368v1 )

ライセンス: Link先を確認
Pedro A. Moreno-Sanchez(参考訳) 現在、慢性腎臓病(CKD)は世界的に増加し、医療システムに高いコストがかかる。 遅延認識は、腎臓機能の進行的な喪失による早期死亡につながる。 ckd指標の微妙なパターンを発見するためのデータマイニングの雇用は、早期診断に寄与する。 この研究は、ckd患者の早期診断において医療従事者を支援する分類器モデルを開発した。 データパイプラインを通じて、データ不足や特徴選択など、データ準備のサブステージのパラメータが異なる最適なデータマイニング分類器を見つけるために、徹底的な検索が行われる。 したがって、木を100%と99%の精度で、それぞれクロスバリデーション技術と新しい未知のデータで最高の分類器として選択する。 さらに、選択された8つの特徴は、モデルの出力にどの特徴がより関連しているかを示すモデルの結果の説明可能性を評価するために使用される。

Currently, Chronic Kidney Disease (CKD) is experiencing a globally increasing incidence and high cost to health systems. A delayed recognition leads to premature mortality due to progressive loss of kidney function. The employment of data mining to discover subtle patterns in CKD indicators would contribute to an early diagnosis. This work develops a classifier model that would support healthcare professionals in the early diagnosis of CKD patients. Through a data pipeline, an exhaustive search is performed to find the best data mining classifier with different parameters of the data preparation's sub-stages like data missing or feature selection. Therefore, Extra Trees is selected as the best classifier with a 100% and 99% of accuracy with, respectively, cross-validation technique and with new unseen data. Moreover, the 8 features selected are employed to assess the explainability of the model's results denoting which features are more relevant in the model's output.
翻訳日:2021-05-25 03:33:47 公開日:2021-05-21
# グラフ畳み込みニューラルネットワークにおける動的フィルタ

Dynamic Filters in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2105.10377v1 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete(参考訳) 過去数年間で、通常複雑な関係を持つグラフとして表現される非ユークリッド領域から生成されるデータが増えており、グラフニューラルネットワーク(gnn)は、グラフ構造データを処理する可能性から高い関心を集めている。 特に、GNNアーキテクチャの拡張(一般的にはGCNN(Graph Convolutional Neural Networks)と呼ばれる)を使用してグラフ上で畳み込みを行う可能性を探ることに強い関心がある。 グラフ上の畳み込みは主にスペクトル畳み込みと空間畳み込みの2つの形式で達成されている。 データのグラフ構造を探索・活用する際の柔軟性の高さから,近年,空間的アプローチがもたらす可能性の調査への関心が高まっている。 ネットワークの動作を処理した入力に適応させて全体のパフォーマンスを最大化する方法を見つけるというアイデアは、長年にわたってニューラルネットワークの文献に多くの関心を寄せてきた。 本稿では,動的に生成する入力ベースフィルタを用いて,グラフ上の空間畳み込みを行う2つの方法を提案する入力に対して,gcnnの挙動を適応させる新しい手法を提案する。 また,ノード間の関係の発見と精錬の問題も検討した。 実験により,フィルタ数が少ない単純なアーキテクチャを用いて,提案手法の有効性を確認した。

Over the last few years, we have seen increasing data generated from non-Euclidean domains, which are usually represented as graphs with complex relationships, and Graph Neural Networks (GNN) have gained a high interest because of their potential in processing graph-structured data. In particular, there is a strong interest in exploring the possibilities in performing convolution on graphs using an extension of the GNN architecture, generally referred to as Graph Convolutional Neural Networks (GCNN). Convolution on graphs has been achieved mainly in two forms: spectral and spatial convolutions. Due to the higher flexibility in exploring and exploiting the graph structure of data, recently, there is an increasing interest in investigating the possibilities that the spatial approach can offer. The idea of finding a way to adapt the network behaviour to the inputs they process to maximize the total performances has aroused much interest in the neural networks literature over the years. This paper presents a novel method to adapt the behaviour of a GCNN to the input proposing two ways to perform spatial convolution on graphs using input-based filters which are dynamically generated. Our model also investigates the problem of discovering and refining relations among nodes. The experimental assessment confirms the capabilities of the proposed approach, which achieves satisfying results using simple architectures with a low number of filters.
翻訳日:2021-05-25 03:33:33 公開日:2021-05-21
# エントロピーに基づく時系列における概要因果グラフの発見

Entropy-based Discovery of Summary Causal Graphs in Time Series ( http://arxiv.org/abs/2105.10381v1 )

ライセンス: Link先を確認
Karim Assaad, Emilie Devijver, Eric Gaussier, Ali Ait-Bachir(参考訳) 本研究では,サンプリング率の異なる時系列の要約因果グラフを学習する問題に対処する。 そこで我々はまず,時系列のウィンドウベース表現に定義された時間的相互情報尺度を提案する。 次に, この測度がエントロピー減少原理とどのように関係しているかを, 確率的上昇原理の特別な場合と見なすことができる。 最終的にこれら2つの成分をPCライクなアルゴリズムで組み合わせて要約因果グラフを構築する。 このアルゴリズムは、その有効性と効率の両方を示す複数のデータセットで評価される。

We address in this study the problem of learning a summary causal graph on time series with potentially different sampling rates. To do so, we first propose a new temporal mutual information measure defined on a window-based representation of time series. We then show how this measure relates to an entropy reduction principle that can be seen as a special case of the Probabilistic Raising Principle. We finally combine these two ingredients in a PC-like algorithm to construct the summary causal graph. This algorithm is evaluated on several datasets that shows both its efficacy and efficiency.
翻訳日:2021-05-25 03:33:14 公開日:2021-05-21
# 線形品質制約付きパラメータ推定のためのオンライン統計量推定

Online Statistical Inference for Parameters Estimation with Linear-Equality Constraints ( http://arxiv.org/abs/2105.10315v1 )

ライセンス: Link先を確認
Ruiqi Liu, Mingao Yuan, Zuofeng Shang(参考訳) 確率勾配勾配(SGD)と射影確率勾配勾配(PSGD)は、制約のない最適化問題のモデルパラメータを計算するスケーラブルアルゴリズムである。 確率勾配降下(SGD)と比較して、PSGDはその反復値を射影を通して制約パラメータ空間に強制する。 PSGD型の推定値の収束速度は徹底的に研究されているが、漸近分布のような統計的性質はいまだ研究されていない。 純粋に統計的観点から、線形等式制約を満たす真のパラメータが満たされるとき、PSGDに基づく推定の制限分布を研究する。 理論的にはPSGD推定の不確実性における投射の役割が明らかとなった。 副産物として,線形等式制約をテストするオンライン仮説テスト手法を提案する。 合成データに関するシミュレーション研究と実世界のデータセットへの応用により,この理論が裏付けられる。

Stochastic gradient descent (SGD) and projected stochastic gradient descent (PSGD) are scalable algorithms to compute model parameters in unconstrained and constrained optimization problems. In comparison with stochastic gradient descent (SGD), PSGD forces its iterative values into the constrained parameter space via projection. The convergence rate of PSGD-type estimates has been exhaustedly studied, while statistical properties such as asymptotic distribution remain less explored. From a purely statistical point of view, this paper studies the limiting distribution of PSGD-based estimate when the true parameters satisfying some linear-equality constraints. Our theoretical findings reveal the role of projection played in the uncertainty of the PSGD estimate. As a byproduct, we propose an online hypothesis testing procedure to test the linear-equality constraints. Simulation studies on synthetic data and an application to a real-world dataset confirm our theory.
翻訳日:2021-05-25 03:33:06 公開日:2021-05-21
# Adaptive Langevin dynamics を用いたベイズ推論におけるミニバッチ誤差の除去

Removing the mini-batching error in Bayesian inference using Adaptive Langevin dynamics ( http://arxiv.org/abs/2105.10347v1 )

ライセンス: Link先を確認
Inass Sekkat, Gabriel Stoltz(参考訳) ベイズ推論における後方法則をサンプリングするための通常のモンテカルロ法の計算コストは、データ点の数に線形にスケールする。 このコストのごく一部に抑える選択肢の1つは、ランゲヴィン力学の非調整離散化(英語版)と組み合わせてミニバッチを行うことであり、この場合、データのランダムな分数だけを使って勾配を推定する。 しかし、これは力学のさらなるノイズをもたらし、従ってマルコフ連鎖によってサンプリングされる不変測度へのバイアスとなる。 適応ランゲヴィン力学(Adaptive Langevin dynamics)は,ミニバッチによる雑音の増大を自動的に補正する動的摩擦による標準慣性ランゲヴィン力学の修正である。 ベイズ推論の典型的なモデルでは満たされない適応的ランゲヴィン(勾配推定の定数共分散)を導く仮定の実践的関連性について検討し、より一般的な状況にアプローチを拡張する方法を示す。

The computational cost of usual Monte Carlo methods for sampling a posteriori laws in Bayesian inference scales linearly with the number of data points. One option to reduce it to a fraction of this cost is to resort to mini-batching in conjunction with unadjusted discretizations of Langevin dynamics, in which case only a random fraction of the data is used to estimate the gradient. However, this leads to an additional noise in the dynamics and hence a bias on the invariant measure which is sampled by the Markov chain. We advocate using the so-called Adaptive Langevin dynamics, which is a modification of standard inertial Langevin dynamics with a dynamical friction which automatically corrects for the increased noise arising from mini-batching. We investigate the practical relevance of the assumptions underpinning Adaptive Langevin (constant covariance for the estimation of the gradient), which are not satisfied in typical models of Bayesian inference; and show how to extend the approach to more general situations.
翻訳日:2021-05-25 03:32:53 公開日:2021-05-21
# 自動運転におけるセマンティックセグメンテーションの安全基準

Safety Metrics for Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2105.10142v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Alois Knoll, Hsuan-Cheng Liao(参考訳) 自律運転の文脈において、ディープニューラルネットワークの安全性関連メトリクスは画像分類と物体検出のために広く研究されている。 本稿では,セマンティックセグメンテーションに特化した安全性とロバスト性指標について検討する。 n個の画素がクラスflippedである2つのイメージが与えられた場合、設計されたメトリクスは、クラスflippedであるピクセルのクラスタリングや発生場所によって、異なるレベルの安全性クリティカル性を反映しているはずです。 自律運転データセットを用いて評価した結果,提案手法の有効性と実用性を示した。

Within the context of autonomous driving, safety-related metrics for deep neural networks have been widely studied for image classification and object detection. In this paper, we further consider safety-aware correctness and robustness metrics specialized for semantic segmentation. The novelty of our proposal is to move beyond pixel-level metrics: Given two images with each having N pixels being class-flipped, the designed metrics should, depending on the clustering of pixels being class-flipped or the location of occurrence, reflect a different level of safety criticality. The result evaluated on an autonomous driving dataset demonstrates the validity and practicality of our proposed methodology.
翻訳日:2021-05-25 03:32:18 公開日:2021-05-21
# 半教師付き左房分割のための階層的一貫性正規化平均教師

Hierarchical Consistency Regularized Mean Teacher for Semi-supervised 3D Left Atrium Segmentation ( http://arxiv.org/abs/2105.10369v1 )

ライセンス: Link先を確認
Shumeng Li, Ziyuan Zhao, Kaixin Xu, Zeng Zeng, Cuntai Guan(参考訳) ディープラーニングは3D左心房MR画像において有望なセグメンテーション性能を達成した。 しかし、セグメンテーションタスクのアノテーションは高価でコストがかかり、入手が難しい。 本稿では,3次元左房セグメンテーションのための階層的整合性規則化平均教師フレームワークを提案する。 各イテレーションにおいて、学生モデルは、マルチスケールの深い監督と階層的な整合性正規化によって同時に最適化される。 大規模な実験により,本手法は全アノテーションと比較して競争性能が向上し,最先端の半教師付きセグメンテーション法よりも優れていた。

Deep learning has achieved promising segmentation performance on 3D left atrium MR images. However, annotations for segmentation tasks are expensive, costly and difficult to obtain. In this paper, we introduce a novel hierarchical consistency regularized mean teacher framework for 3D left atrium segmentation. In each iteration, the student model is optimized by multi-scale deep supervision and hierarchical consistency regularization, concurrently. Extensive experiments have shown that our method achieves competitive performance as compared with full annotation, outperforming other stateof-the-art semi-supervised segmentation methods.
翻訳日:2021-05-25 03:32:09 公開日:2021-05-21
# ニューラルトピックモデルを試したことがありますか? 神経および非神経話題モデルの比較分析とcovid-19twitterデータへの応用

Have you tried Neural Topic Models? Comparative Analysis of Neural and Non-Neural Topic Models with Application to COVID-19 Twitter Data ( http://arxiv.org/abs/2105.10165v1 )

ライセンス: Link先を確認
Andrew Bennett, Dipendra Misra, and Nga Than(参考訳) 話題モデルは社会現象の研究に広く使われている。 我々は、最先端のニューラルモデルと非ニューラルモデルを比較し、新型コロナウイルスのパンデミックに関するツイートのデータセットに対して厳密な量的および質的な評価を行う。 以上の結果から,神経話題モデルが従来の標準評価指標よりも優れているだけでなく,複雑な社会問題を研究する上で非常に有益である,より一貫性のあるトピックも生み出すことが示された。 また,モード崩壊問題に対処し,その有効性を実証するために,ニューラルトピックモデルの新しい正規化項を提案する。

Topic models are widely used in studying social phenomena. We conduct a comparative study examining state-of-the-art neural versus non-neural topic models, performing a rigorous quantitative and qualitative assessment on a dataset of tweets about the COVID-19 pandemic. Our results show that not only do neural topic models outperform their classical counterparts on standard evaluation metrics, but they also produce more coherent topics, which are of great benefit when studying complex social problems. We also propose a novel regularization term for neural topic models, which is designed to address the well-documented problem of mode collapse, and demonstrate its effectiveness.
翻訳日:2021-05-25 03:32:00 公開日:2021-05-21
# Ensemble Quantile Networks: 自律運転への応用による不確実性認識強化学習

Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning with Applications in Autonomous Driving ( http://arxiv.org/abs/2105.10266v1 )

ライセンス: Link先を確認
Carl-Johan Hoel, Krister Wolff, Leo Laine(参考訳) 強化学習(RL)は、自律運転のための意思決定エージェントを作成するために用いられる。 しかし、従来のアプローチはブラックボックスソリューションのみを提供しており、エージェントがその決定に対する自信について情報を提供していない。 エージェントの判断の不確実性と認識的不確実性の両方の推定は、現実の自動運転の応用において基本的なものである。 そこで本研究では,分布RLとアンサンブルアプローチを組み合わせたEnsemble Quantile Networks (EQN) 手法を導入し,完全不確実性推定を行う。 帰納上の分布は、その分位関数を暗黙的に学習することで推定され、これはアレエータ的不確かさを与え、一方、エージェントのアンサンブルはブートストラップされたデータで訓練され、認識的不確かさのベイズ的推定を提供する。 許容できない不確実性を持つ決定を分類する基準も導入された。 その結果,EQN法は,推定アレタリック不確実性を考慮し,異なる閉塞交差点シナリオにおけるリスクと時間効率のバランスをとることができることがわかった。 さらに、トレーニングされたエージェントは、この認識の不確実性情報を用いて、エージェントがトレーニングされていない状況を特定し、トレーニング分布外の未確立で潜在的に危険な決定をすることを避けることができる。

Reinforcement learning (RL) can be used to create a decision-making agent for autonomous driving. However, previous approaches provide only black-box solutions, which do not offer information on how confident the agent is about its decisions. An estimate of both the aleatoric and epistemic uncertainty of the agent's decisions is fundamental for real-world applications of autonomous driving. Therefore, this paper introduces the Ensemble Quantile Networks (EQN) method, which combines distributional RL with an ensemble approach, to obtain a complete uncertainty estimate. The distribution over returns is estimated by learning its quantile function implicitly, which gives the aleatoric uncertainty, whereas an ensemble of agents is trained on bootstrapped data to provide a Bayesian estimation of the epistemic uncertainty. A criterion for classifying which decisions that have an unacceptable uncertainty is also introduced. The results show that the EQN method can balance risk and time efficiency in different occluded intersection scenarios, by considering the estimated aleatoric uncertainty. Furthermore, it is shown that the trained agent can use the epistemic uncertainty information to identify situations that the agent has not been trained for and thereby avoid making unfounded, potentially dangerous, decisions outside of the training distribution.
翻訳日:2021-05-25 03:31:49 公開日:2021-05-21
# AngularGrad: 畳み込みニューラルネットワークのAngular収束のための新しい最適化手法

AngularGrad: A New Optimization Technique for Angular Convergence of Convolutional Neural Networks ( http://arxiv.org/abs/2105.10190v1 )

ライセンス: Link先を確認
S.K. Roy, M.E. Paoletti, J.M. Haut, S.R. Dubey, P. Kar, A. Plaza, B.B. Chaudhuri(参考訳) 畳み込みニューラルネットワーク(CNN)は確率勾配降下(SGD)に基づくオプティマイザを用いて訓練される。 近年,アダプティブモーメント推定(Adam)オプティマイザは,SGDの減衰勾配問題に対処する適応運動量によって非常に人気がある。 それでも既存のオプティマイザでは,最適化曲率情報を効率的に活用することはできない。 本稿では,連続勾配の方向/角度の挙動を考慮した新しいAngularGradオプティマイザを提案する。 これは、その大きさとは別に勾配角情報を利用する最初の文献の試みである。 提案するangulargradは、前のイテレーションの勾配角情報に基づいてステップサイズを制御するスコアを生成する。 これにより、直近の勾配のより正確なステップサイズを角情報から捉えることにより、最適化ステップはよりスムーズになる。 angulargradの2つの変種は、勾配角情報を計算するために接関数またはコサイン関数を用いて開発されている。 理論的には、AngularGradは収束の目的でAdamと同じ後悔を表す。 それでも、最先端のメソッドに対するベンチマークデータセットでの広範な実験は、angulargradの優れたパフォーマンスを示している。 ソースコードは、https://github.com/m haut/AngularGrad.com で公開される。

Convolutional neural networks (CNNs) are trained using stochastic gradient descent (SGD)-based optimizers. Recently, the adaptive moment estimation (Adam) optimizer has become very popular due to its adaptive momentum, which tackles the dying gradient problem of SGD. Nevertheless, existing optimizers are still unable to exploit the optimization curvature information efficiently. This paper proposes a new AngularGrad optimizer that considers the behavior of the direction/angle of consecutive gradients. This is the first attempt in the literature to exploit the gradient angular information apart from its magnitude. The proposed AngularGrad generates a score to control the step size based on the gradient angular information of previous iterations. Thus, the optimization steps become smoother as a more accurate step size of immediate past gradients is captured through the angular information. Two variants of AngularGrad are developed based on the use of Tangent or Cosine functions for computing the gradient angular information. Theoretically, AngularGrad exhibits the same regret bound as Adam for convergence purposes. Nevertheless, extensive experiments conducted on benchmark data sets against state-of-the-art methods reveal a superior performance of AngularGrad. The source code will be made publicly available at: https://github.com/m haut/AngularGrad.
翻訳日:2021-05-25 03:31:28 公開日:2021-05-21
# 骨盤外傷の重症度自動評価に対する解釈的アプローチ

An Interpretable Approach to Automated Severity Scoring in Pelvic Trauma ( http://arxiv.org/abs/2105.10238v1 )

ライセンス: Link先を確認
Anna Zapaishchykova, David Dreizin, Zhaoshuo Li, Jie Ying Wu, Shahrooz Faghih Roohi, Mathias Unberath(参考訳) 骨盤輪の破壊は鈍的外傷機構によって引き起こされ、多系統外傷患者にしばしば見られる。 全身CTによる骨盤骨折の重症度評価にはTile AO/OTA分類が多用されている。 重度の外傷センターで発生する全身外傷CTの量が多いため、タイル分類への自動的アプローチは、例えば、出席する外傷放射線医の読み出しキューを優先順位付けするために、かなりの価値を提供する。 このようなシナリオでは、自動化された方法は、透明なプロセスに基づいてグレーディングを行い、解釈可能な特徴に基づいて、最初の自動読み出しから洞察を提供することで、人間の読者とのインタラクションを可能にし、ワークロードを削減すべきである。 そこで本研究では, 骨盤外傷自動診断支援システムについて紹介する。 この方法は、ctスキャンの人間の解釈と同様に動作し、まず、より高速なrcnnモデルを用いて、高度に特異なctの骨盤骨折を検知し、臨床的ベストプラクティスに基づいた構造的因果モデルを用いて初期タイルグレードを推定する。 ベイズ因果モデルおよび最後に、物体検出器は、検出器の高度に特定された操作点によって最初に拒絶された可能性のある共起骨折に対して照会され、その結果、検出された骨折のリストと対応する最終タイルグレードが更新される。 提案手法は, 物体検出器を用いて位置と型を見つけるとともに, システム推奨を無効にし, 翻訳・回転不安定に対して83.3%/85.1%のAUCを実現する重要な対策情報を提供する。 ヒューマンマシン・チーム化のために設計されたにもかかわらず、我々のアプローチは従来のブラックボックス・アプローチと比べてパフォーマンスを損なわない。

Pelvic ring disruptions result from blunt injury mechanisms and are often found in patients with multi-system trauma. To grade pelvic fracture severity in trauma victims based on whole-body CT, the Tile AO/OTA classification is frequently used. Due to the high volume of whole-body trauma CTs generated in busy trauma centers, an automated approach to Tile classification would provide substantial value, e.,g., to prioritize the reading queue of the attending trauma radiologist. In such scenario, an automated method should perform grading based on a transparent process and based on interpretable features to enable interaction with human readers and lower their workload by offering insights from a first automated read of the scan. This paper introduces an automated yet interpretable pelvic trauma decision support system to assist radiologists in fracture detection and Tile grade classification. The method operates similarly to human interpretation of CT scans and first detects distinct pelvic fractures on CT with high specificity using a Faster-RCNN model that are then interpreted using a structural causal model based on clinical best practices to infer an initial Tile grade. The Bayesian causal model and finally, the object detector are then queried for likely co-occurring fractures that may have been rejected initially due to the highly specific operating point of the detector, resulting in an updated list of detected fractures and corresponding final Tile grade. Our method is transparent in that it provides finding location and type using the object detector, as well as information on important counterfactuals that would invalidate the system's recommendation and achieves an AUC of 83.3%/85.1% for translational/rotati onal instability. Despite being designed for human-machine teaming, our approach does not compromise on performance compared to previous black-box approaches.
翻訳日:2021-05-25 03:31:11 公開日:2021-05-21
# AC-CovidNet:胸部X線画像におけるCovid-19の認識のための注意ガイド付きコントラストCNN

AC-CovidNet: Attention Guided Contrastive CNN for Recognition of Covid-19 in Chest X-Ray Images ( http://arxiv.org/abs/2105.10239v1 )

ライセンス: Link先を確認
Anirudh Ambati, Shiv Ram Dubey(参考訳) 新型コロナウイルスの世界的なパンデミックは、世界中の医療システムを破壊し続けている。 多くの国では、第2波は非常に厳しい。 パンデミックのコントロールには、経済的かつ迅速な検査と診断が緊急に必要である。 現在、Covid-19テストはコストと時間を要する。 胸部x線検査(cxr)は、最速でスケーラブルで非侵襲的な方法である。 既存の手法は、Covid-19から入手可能な限られたCXRサンプルのために苦しむ。 そこで本研究では,CXR画像におけるCovid-19検出のためのコントラスト型CNNアーキテクチャ (AC-CovidNet) に注目した。 提案手法はコントラスト損失の助けを借りてロバストで判別的な特徴を学習する。 さらに,本手法は注意機構によって誘導される感染地域をより重要視する。 提案手法の感度を一般公開されたCovid-19データセット上で計算する。 提案したAC-CovidNetは,訓練データに制限がある場合でも,既存の手法と比較して非常に有望な性能を示した。 研究者が直面しているCXR Covid-19データセットのボトルネックに取り組むことができる。 この論文で使われているコードは \url{https://github.com/s hivram 1987/ac-covidnet/} で公開されている。

Covid-19 global pandemic continues to devastate health care systems across the world. In many countries, the 2nd wave is very severe. Economical and rapid testing, as well as diagnosis, is urgently needed to control the pandemic. At present, the Covid-19 testing is costly and time-consuming. Chest X-Ray (CXR) testing can be the fastest, scalable, and non-invasive method. The existing methods suffer due to the limited CXR samples available from Covid-19. Thus, inspired by the limitations of the open-source work in this field, we propose attention guided contrastive CNN architecture (AC-CovidNet) for Covid-19 detection in CXR images. The proposed method learns the robust and discriminative features with the help of contrastive loss. Moreover, the proposed method gives more importance to the infected regions as guided by the attention mechanism. We compute the sensitivity of the proposed method over the publicly available Covid-19 dataset. It is observed that the proposed AC-CovidNet exhibits very promising performance as compared to the existing methods even with limited training data. It can tackle the bottleneck of CXR Covid-19 datasets being faced by the researchers. The code used in this paper is released publicly at \url{https://github.com/s hivram1987/AC-CovidN et/}.
翻訳日:2021-05-25 03:30:40 公開日:2021-05-21
# モデルフィットの理解と解釈のためのフレームワークとしてのSheaves

Sheaves as a Framework for Understanding and Interpreting Model Fit ( http://arxiv.org/abs/2105.10414v1 )

ライセンス: Link先を確認
Henry Kvinge, Brett Jefferson, Cliff Joslyn, Emilie Purvine(参考訳) データがサイズと複雑さを増すにつれて、解釈と分析を助けるフレームワークを見つけることが重要になっている。 これは、データが広範な構造を持つ複雑なシステムから来る場合に特に当てはまるが、周辺ソースから引き出す必要がある。 本稿では,このような状況下では,統計モデルが局所レベル(つまり,関連するデータポイントのサブセット)とグローバルレベル(すべてのデータ)にどの程度適合するかを解析するための自然な枠組みを提供することができる,と論じる。 私たちが提案する層ベースのアプローチは、センサネットワークの解析からディープラーニングモデルの特徴空間の理解まで、さまざまなアプリケーションで有用であるのに十分なほど汎用的です。

As data grows in size and complexity, finding frameworks which aid in interpretation and analysis has become critical. This is particularly true when data comes from complex systems where extensive structure is available, but must be drawn from peripheral sources. In this paper we argue that in such situations, sheaves can provide a natural framework to analyze how well a statistical model fits at the local level (that is, on subsets of related datapoints) vs the global level (on all the data). The sheaf-based approach that we propose is suitably general enough to be useful in a range of applications, from analyzing sensor networks to understanding the feature space of a deep learning model.
翻訳日:2021-05-25 03:30:25 公開日:2021-05-21
# BELT: 埋め込み学習トランスフォーマーのブロックワイズ

BELT: Blockwise Missing Embedding Learning Transfomer ( http://arxiv.org/abs/2105.10360v1 )

ライセンス: Link先を確認
Doudou Zhou, and Tianxi Cai, and Junwei Lu(参考訳) マトリックスの完成は統計学、応用数学、電気工学など多くの分野で注目を集めている。 ほとんどの作品は、個々の観察されたエントリが独立にサンプリングされる独立したサンプリングモデルに焦点を当てている。 複数(ポイントワイドな相互情報)PMI行列の統合への応用により、行ワイド/カラムワイドの欠如を扱うためのモデル {\bf B}lockwise missing {\bf E}mbedding {\bf L}earning {\bf T}ransformer (BELT)を提案する。 具体的には,複数の音源から各行列が重なり合う場合の行列回復を効率的に行う手法を提案する。 提案手法の理論的正当性について述べる。 シミュレーション研究によれば、この手法は有限サンプルでも様々な構成でうまく機能する。 EHRデータと中国の医療用テキストデータによって構築された複数のPMI行列を統合するために本手法を適用し,CUIと中国語の総合的な埋め込みセットを高品質に構築する。

Matrix completion has attracted a lot of attention in many fields including statistics, applied mathematics and electrical engineering. Most of works focus on the independent sampling models under which the individual observed entries are sampled independently. Motivated by applications in the integration of multiple (point-wise mutual information) PMI matrices, we propose the model {\bf B}lockwise missing {\bf E}mbedding {\bf L}earning {\bf T}ransformer (BELT) to treat row-wise/column-wise missingness. Specifically, our proposed method aims at efficient matrix recovery when every pair of matrices from multiple sources has an overlap. We provide theoretical justification for the proposed BELT method. Simulation studies show that the method performs well in finite sample under a variety of configurations. The method is applied to integrate several PMI matrices built by EHR data and Chinese medical text data, which enables us to construct a comprehensive embedding set for CUI and Chinese with high quality.
翻訳日:2021-05-25 03:30:11 公開日:2021-05-21
# 単語センスの曖昧化のためのバイエンコーダの訓練

Training Bi-Encoders for Word Sense Disambiguation ( http://arxiv.org/abs/2105.10146v1 )

ライセンス: Link先を確認
Harsh Kohli(参考訳) 現代のトランスフォーマーベースのニューラルアーキテクチャは、ほぼ全てのnlpタスクと単語感覚の曖昧さの解消に印象的な結果をもたらすが、与えられた文脈で単語の正しい意味を識別する問題は例外ではない。 現在、WSDの最先端のアプローチは、標準評価ベンチマークにおける人間間のアノテータ合意に匹敵する結果を得るために、これらのモデルからの事前訓練された埋め込みと共に語彙情報を活用する。 同時に,このタスクに対してbi-encoderを最適化するためのいくつかの戦略を実験し,語彙情報をモデルに提示する代替手法を提案する。 多段階の事前学習と微調整のパイプラインを通じて、Word Sense Disambiguationにおけるアートの状態をさらに深めています。

Modern transformer-based neural architectures yield impressive results in nearly every NLP task and Word Sense Disambiguation, the problem of discerning the correct sense of a word in a given context, is no exception. State-of-the-art approaches in WSD today leverage lexical information along with pre-trained embeddings from these models to achieve results comparable to human inter-annotator agreement on standard evaluation benchmarks. In the same vein, we experiment with several strategies to optimize bi-encoders for this specific task and propose alternative methods of presenting lexical information to our model. Through our multi-stage pre-training and fine-tuning pipeline we further the state of the art in Word Sense Disambiguation.
翻訳日:2021-05-25 03:29:27 公開日:2021-05-21
# 並列コーパスマイニングのための教師なし多言語文埋め込み

Unsupervised Multilingual Sentence Embeddings for Parallel Corpus Mining ( http://arxiv.org/abs/2105.10419v1 )

ライセンス: Link先を確認
Ivana Kvapil{\i}kova, Mikel Artetxe, Gorka Labaka, Eneko Agirre, Ond\v{r}ej Bojar(参考訳) 既存の多言語文埋め込みモデルは、低リソース言語では利用できない大規模な並列データリソースを必要とする。 単言語データのみに依存する多言語文埋め込みを導出する新しい教師なし手法を提案する。 まず,教師なし機械翻訳を用いた合成並列コーパスを作成し,事前学習されたクロスリンガルマスク言語モデル(xlm)を用いて多言語文表現を導出する。 表現の質は2つの並列コーパスマイニングタスクで評価され、バニラxlmより最大22f1ポイント向上した。 また,1つの合成バイリンガルコーパスが他の言語ペアの結果を改善することができることを観察した。

Existing models of multilingual sentence embeddings require large parallel data resources which are not available for low-resource languages. We propose a novel unsupervised method to derive multilingual sentence embeddings relying only on monolingual data. We first produce a synthetic parallel corpus using unsupervised machine translation, and use it to fine-tune a pretrained cross-lingual masked language model (XLM) to derive the multilingual sentence representations. The quality of the representations is evaluated on two parallel corpus mining tasks with improvements of up to 22 F1 points over vanilla XLM. In addition, we observe that a single synthetic bilingual corpus is able to improve results for other language pairs.
翻訳日:2021-05-25 03:29:15 公開日:2021-05-21
# 可逆神経投射を伴う変分ガウス話題モデル

Variational Gaussian Topic Model with Invertible Neural Projections ( http://arxiv.org/abs/2105.10095v1 )

ライセンス: Link先を確認
Rui Wang, Deyu Zhou, Yuxuan Xiong, Haiping Huang(参考訳) ニューラルネットワークのトピックモデルは、従来のトピックモデルの洗練された導出を避けるため、テキストからトピックを自動的に抽出することへの関心が高まっている。 しかし、希少なニューラルネットワークの話題モデルは、モデリングプロセスに単語埋め込みでキャプチャされた単語関連情報を取り込んでいる。 この問題に対処するために,変分ガウス的トピックモデル (VaGTM) と呼ばれる新しいトピックモデリング手法を提案する。 変分オートエンコーダに基づき、提案するvagtmは、単語関連性を取り込むために、デコーダ内の多変量ガウシアンを用いて各トピックをモデル化する。 さらに、話題関連語の事前学習語埋め込みが多変量ガウス語に従わないという制限に対処するため、VaGTMから変分ガウス言語トピックモデル(VaGTM-IP)を拡張する。 3つのベンチマークテキストコーパスを用いて,VagTMとVagTM-IPの有効性を検証する。 実験結果から, VaGTM と VaGTM-IP はいくつかの競争基準よりも優れ,より一貫性のあるトピックが得られた。

Neural topic models have triggered a surge of interest in extracting topics from text automatically since they avoid the sophisticated derivations in conventional topic models. However, scarce neural topic models incorporate the word relatedness information captured in word embedding into the modeling process. To address this issue, we propose a novel topic modeling approach, called Variational Gaussian Topic Model (VaGTM). Based on the variational auto-encoder, the proposed VaGTM models each topic with a multivariate Gaussian in decoder to incorporate word relatedness. Furthermore, to address the limitation that pre-trained word embeddings of topic-associated words do not follow a multivariate Gaussian, Variational Gaussian Topic Model with Invertible neural Projections (VaGTM-IP) is extended from VaGTM. Three benchmark text corpora are used in experiments to verify the effectiveness of VaGTM and VaGTM-IP. The experimental results show that VaGTM and VaGTM-IP outperform several competitive baselines and obtain more coherent topics.
翻訳日:2021-05-25 03:28:41 公開日:2021-05-21
# Lazy Consistency Checking を用いた時間的最適線形数値計画法

Efficient Temporal Piecewise-Linear Numeric Planning with Lazy Consistency Checking ( http://arxiv.org/abs/2105.10176v1 )

ライセンス: Link先を確認
Josef Bajada, Maria Fox and Derek Long(参考訳) 連続的な数値効果をサポートする最先端の時間プランナーは通常、時間的一貫性を確保するために、探索とスケジューリングを織り交ぜる。 このような効果が線形である場合、このプロセスは時間的制約と時間的依存的な影響を受ける数値流束の条件との関係をモデル化するためにリニアプログラミング(LP)を利用することが多い。 ベンチマークドメインでは非常に効果的だが、長い計画を必要とする現実世界の問題を解決する場合、このアプローチはうまくスケールしない。 我々は,プランナーがlp一貫性チェックを可能な限り遅延的に計算できる手法を提案し,必要な計算時間を著しく削減し,プランナーが許容可能な時間枠内でより大きな問題インスタンスを解決できるようにする。 また,時間依存ゴールチェックをより選択的に行うアルゴリズムを提案する。 さらに,数値流動性が持続時間に依存しないプランのセグメント内で適用される離散的効果に対する線形性制限を取り除く,フットプリントが小さいlp定式化を提案する。 これらの手法の有効性は、現実の計画問題に典型的な離散的および連続的な効果を混合した領域で実証される。 その結果、プランナーはより効率的であるだけでなく、カバレッジとスケーラビリティの両方の観点から、最先端の時間数値とハイブリッドプランナーよりも優れています。

State-of-the-art temporal planners that support continuous numeric effects typically interweave search with scheduling to ensure temporal consistency. If such effects are linear, this process often makes use of Linear Programming (LP) to model the relationship between temporal constraints and conditions on numeric fluents that are subject to duration-dependent effects. While very effective on benchmark domains, this approach does not scale well when solving real-world problems that require long plans. We propose a set of techniques that allow the planner to compute LP consistency checks lazily where possible, significantly reducing the computation time required, thus allowing the planner to solve larger problem instances within an acceptable time-frame. We also propose an algorithm to perform duration-dependent goal checking more selectively. Furthermore, we propose an LP formulation with a smaller footprint that removes linearity restrictions on discrete effects applied within segments of the plan where a numeric fluent is not duration dependent. The effectiveness of these techniques is demonstrated on domains that use a mix of discrete and continuous effects, which is typical of real-world planning problems. The resultant planner is not only more efficient, but outperforms most state-of-the-art temporal-numeric and hybrid planners, in terms of both coverage and scalability.
翻訳日:2021-05-25 03:28:18 公開日:2021-05-21
# 光学物理による固有画像分解のためのCNNアプローチ

An Optical physics inspired CNN approach for intrinsic image decomposition ( http://arxiv.org/abs/2105.10076v1 )

ライセンス: Link先を確認
Harshana Weligampola, Gihan Jayatilaka, Suren Sritharan, Parakrama Ekanayake, Roshan Ragel, Vijitha Herath, Roshan Godaliyadda(参考訳) 内在画像分解は、画像の構成成分を生成するオープンな問題である。 一つの画像から反射と陰影を生成することは、特に根拠のない場合に難しい課題である。 イメージをリフレクタンスに分解し、単一のイメージでシェーディングするための教師なしの学習アプローチが欠如している。 画像から導出した物理パラメータを用いてこの分解が可能なニューラルネットワークアーキテクチャを提案する。 実験結果から,提案手法が既存のディープラーニング IID 技術より優れていること,および (b) 導出パラメータが有効性を大幅に向上すること,などが示された。 結果(数値画像,実例画像)のより詳細な分析により,改善の道筋が示されている。

Intrinsic Image Decomposition is an open problem of generating the constituents of an image. Generating reflectance and shading from a single image is a challenging task specifically when there is no ground truth. There is a lack of unsupervised learning approaches for decomposing an image into reflectance and shading using a single image. We propose a neural network architecture capable of this decomposition using physics-based parameters derived from the image. Through experimental results, we show that (a) the proposed methodology outperforms the existing deep learning-based IID techniques and (b) the derived parameters improve the efficacy significantly. We conclude with a closer analysis of the results (numerical and example images) showing several avenues for improvement.
翻訳日:2021-05-25 03:27:56 公開日:2021-05-21
# 超音波画像を用いた新生児肺疾患診断のための解釈可能な物体検出モデル

An interpretable object detection based model for the diagnosis of neonatal lung diseases using Ultrasound images ( http://arxiv.org/abs/2105.10081v1 )

ライセンス: Link先を確認
Rodina Bassiouny (1), Adel Mohamed (2), Karthi Umapathy (1) and Naimul Khan (1) ((1) Ryerson University, Toronto, Canada, (2) Mount Sinai Hospital, University of Toronto, Toronto, Canada)(参考訳) 過去数十年間、Lung Ultrasound(LUS)は新生児のさまざまな肺疾患の診断とモニタリングに利用されてきた。 新生児を最小限に扱いながら、速いベッドサイド検査を可能にする非侵襲的な道具である。 LUSスキャンの取得は簡単だが、各呼吸器疾患に関連するアーティファクトを理解するのは難しい。 異なる呼吸器疾患で見られる混合アーティファクトパターンは、オペレーターによるLUS可読性を制限する可能性がある。 機械学習(ML)、特にディープラーニングは自動分析を支援するが、診断のために超音波画像をMLモデルに供給するだけでは、医療専門家の信頼を得るには不十分である。 アルゴリズムはオペレータになじみのあるlus機能を出力すべきである。 そこで本研究では, 正常胸膜, 不規則胸膜, 肥厚胸膜, Alines, Coalescent B-lines, 分別B-lines, コンソリデーションという, 特定の病的肺疾患と容易に関連付けることのできる, 有意義なLUS特徴を抽出するためのユニークなアプローチを提案する。 これらの人工物は、後発の呼吸困難症状を発症する幼児の早期予測につながる可能性がある。 単一マルチクラス領域提案型オブジェクト検出モデルであるFRCNN(Fast-RCNN)を,低位肺後部超音波画像を用いて訓練し,これらLUSの特徴を同定した。 以上の結果から,fRCNNはRetinaNetなどの単一ステージモデルを超え,平均86.4%の精度で上記のLUS特徴を検出することができた。 解釈不可能な画像からの完全な自動診断の代わりに、そのようなLUS特徴の検出は、診断の最終的な制御を臨床医に任せる。

Over the last few decades, Lung Ultrasound (LUS) has been increasingly used to diagnose and monitor different lung diseases in neonates. It is a non invasive tool that allows a fast bedside examination while minimally handling the neonate. Acquiring a LUS scan is easy, but understanding the artifacts concerned with each respiratory disease is challenging. Mixed artifact patterns found in different respiratory diseases may limit LUS readability by the operator. While machine learning (ML), especially deep learning can assist in automated analysis, simply feeding the ultrasound images to an ML model for diagnosis is not enough to earn the trust of medical professionals. The algorithm should output LUS features that are familiar to the operator instead. Therefore, in this paper we present a unique approach for extracting seven meaningful LUS features that can be easily associated with a specific pathological lung condition: Normal pleura, irregular pleura, thick pleura, Alines, Coalescent B-lines, Separate B-lines and Consolidations. These artifacts can lead to early prediction of infants developing later respiratory distress symptoms. A single multi-class region proposal-based object detection model faster-RCNN (fRCNN) was trained on lower posterior lung ultrasound videos to detect these LUS features which are further linked to four common neonatal diseases. Our results show that fRCNN surpasses single stage models such as RetinaNet and can successfully detect the aforementioned LUS features with a mean average precision of 86.4%. Instead of a fully automatic diagnosis from images without any interpretability, detection of such LUS features leave the ultimate control of diagnosis to the clinician, which can result in a more trustworthy intelligent system.
翻訳日:2021-05-25 03:27:44 公開日:2021-05-21
# エッジ一貫性単一画像深度推定のための高次元バイラテラルグリッドに基づく新しい3D-UNetディープラーニングフレームワーク

A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional Bilateral Grid for Edge Consistent Single Image Depth Estimation ( http://arxiv.org/abs/2105.10129v1 )

ライセンス: Link先を確認
Mansi Sharma, Abheesht Sharma, Kadvekar Rohit Tushar, Avinash Panneer(参考訳) 画像深度推定では,スムーズかつエッジ一貫性のある深度マップの予測が難しいことが知られている。 本稿では,3dbg-unetと呼ばれる,コンパクトな3次元並列グリッドをunetsで符号化し,シーンのシャープな幾何学的レイアウトを推定し,高次元特徴空間をパラメータ化する,新たなバイラテラルグリッド型3次元畳み込みニューラルネットワークを提案する。 さらに、3DBGES-UNetモデルを導入し、3DBG-UNetを統合して、1つの色ビューの正確な深度マップを推定する。 3DBGES-UNetは、3DBG-UNetジオメトリマップと、開始ネットワークエッジアクセントマップと、セマンティックセグメンテーションを活用して得られた空間オブジェクトの境界マップを結合し、ResNetバックボーンでUNetモデルを訓練する。 どちらのモデルも、エッジや細部を明示的に考慮して設計されている。 奥行きエッジにおけるシャープな不連続性を保つことは,arビデオにおける仮想オブジェクトの現実的統合や3次元表示のためのオクルージョン・アウェア・ビュー合成など,多くのアプリケーションにとって重要である。 コードとそれに対応するトレーニング済み重量は、一般公開される予定だ。

The task of predicting smooth and edge-consistent depth maps is notoriously difficult for single image depth estimation. This paper proposes a novel Bilateral Grid based 3D convolutional neural network, dubbed as 3DBG-UNet, that parameterizes high dimensional feature space by encoding compact 3D bilateral grids with UNets and infers sharp geometric layout of the scene. Further, another novel 3DBGES-UNet model is introduced that integrate 3DBG-UNet for inferring an accurate depth map given a single color view. The 3DBGES-UNet concatenates 3DBG-UNet geometry map with the inception network edge accentuation map and a spatial object's boundary map obtained by leveraging semantic segmentation and train the UNet model with ResNet backbone. Both models are designed with a particular attention to explicitly account for edges or minute details. Preserving sharp discontinuities at depth edges is critical for many applications such as realistic integration of virtual objects in AR video or occlusion-aware view synthesis for 3D display applications.The proposed depth prediction network achieves state-of-the-art performance in both qualitative and quantitative evaluations on the challenging NYUv2-Depth data. The code and corresponding pre-trained weights will be made publicly available.
翻訳日:2021-05-25 03:27:14 公開日:2021-05-21
# vipnas:ニューラルネットワークによる効率的な映像ポーズ推定

ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search ( http://arxiv.org/abs/2105.10154v1 )

ライセンス: Link先を確認
Lumin Xu, Yingda Guan, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang(参考訳) 人間のポーズ推定は近年大きな進歩を遂げている。 しかし,最近の手法のほとんどは,複雑なモデルを用いた精度向上とリアルタイム効率の無視に重点を置いている。 精度と効率のトレードオフを改善するために、高速なオンラインビデオポーズ推定のための空間的および時間的レベルのネットワークに対して、ViPNASと呼ばれる新しいニューラルアーキテクチャサーチ(NAS)手法を提案する。 空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。 時間レベルでは、複数のビデオフレームにわたる総精度と速度を最適化するために、一連の時間的特徴融合から探索する。 私たちの知る限りでは、ビデオにおける時間的特徴の融合と自動計算の割り当てを初めて検索する。 大規模な実験は、挑戦的なCOCO2017とPoseTrack2018データセットに対する我々のアプローチの有効性を実証している。 得られたモデルファミリーであるS-ViPNASとT-ViPNASは,従来の最先端手法と比較して精度を犠牲にすることなく,推論速度(CPUリアルタイム)を大幅に向上する。

Human pose estimation has achieved significant progress in recent years. However, most of the recent methods focus on improving accuracy using complicated models and ignoring real-time efficiency. To achieve a better trade-off between accuracy and efficiency, we propose a novel neural architecture search (NAS) method, termed ViPNAS, to search networks in both spatial and temporal levels for fast online video pose estimation. In the spatial level, we carefully design the search space with five different dimensions including network depth, width, kernel size, group number, and attentions. In the temporal level, we search from a series of temporal feature fusions to optimize the total accuracy and speed across multiple video frames. To the best of our knowledge, we are the first to search for the temporal feature fusion and automatic computation allocation in videos. Extensive experiments demonstrate the effectiveness of our approach on the challenging COCO2017 and PoseTrack2018 datasets. Our discovered model family, S-ViPNAS and T-ViPNAS, achieve significantly higher inference speed (CPU real-time) without sacrificing the accuracy compared to the previous state-of-the-art methods.
翻訳日:2021-05-25 03:26:47 公開日:2021-05-21
# オンライン手書き数式認識改善のためのグローバルコンテキスト

Global Context for improving recognition of Online Handwritten Mathematical Expressions ( http://arxiv.org/abs/2105.10156v1 )

ライセンス: Link先を確認
Cuong Tuan Nguyen, Thanh-Nghia Truong, Hung Tuan Nguyen and Masaki Nakagawa(参考訳) 本稿では,オンライン手書き数式(HME)における記号分割,記号認識,関係分類の3つのサブタスクの時間的分類法を提案する。 分類モデルは、HMEのシンボル関係木(SRT)表現から導かれる記号と空間関係の複数の経路によって訓練される。 この手法は双方向長短期記憶ネットワークのグローバルなコンテキストから恩恵を受け、コネクショニストの時間的分類損失によるオンライン手書きから時間的分類を直接学習する。 オンラインHMEを認識するために、時間的分類結果から記号と空間関係を求める文脈自由文法を用いた記号レベル構文木を構築する。 提案手法の2つの最新のCROHMEデータセットに対する有効性を示す。

This paper presents a temporal classification method for all three subtasks of symbol segmentation, symbol recognition and relation classification in online handwritten mathematical expressions (HMEs). The classification model is trained by multiple paths of symbols and spatial relations derived from the Symbol Relation Tree (SRT) representation of HMEs. The method benefits from global context of a deep bidirectional Long Short-term Memory network, which learns the temporal classification directly from online handwriting by the Connectionist Temporal Classification loss. To recognize an online HME, a symbol-level parse tree with Context-Free Grammar is constructed, where symbols and spatial relations are obtained from the temporal classification results. We show the effectiveness of the proposed method on the two latest CROHME datasets.
翻訳日:2021-05-25 03:26:27 公開日:2021-05-21
# GSSF:オンライン手書き数解のクラスタリングのためのSeq2Seqモデルに基づく生成系列類似関数

GSSF: A Generative Sequence Similarity Function based on a Seq2Seq model for clustering online handwritten mathematical answers ( http://arxiv.org/abs/2105.10159v1 )

ライセンス: Link先を確認
Huy Quang Ung, Cuong Tuan Nguyen, Hung Tuan Nguyen and Masaki Nakagawa(参考訳) 本稿では, オンライン手書き数式 (onhmes) のクラスタリングにより, 人間のマーカーが効率的に, 確実にマーキングできるように, コンピュータ支援マーキングを提案する。 そこで本研究では、2つのonhmeの類似度スコアを計算するための生成シーケンス類似度関数を提案する。 各OnHMEは類似性に基づく表現(SbR)ベクトルで表される。 SbR行列は、OnHMEをクラスタリングするk平均アルゴリズムに入力される。 実パターンを混合した200のonhmeの解答データセット(dset_mix)と、15の質問(nier_cbt)の最大122のオンライン手書き数学解答データセット(real online hand written mathematical answer dataset)について実験を行った。 Dset_Mix と NIER_CBT のマーキングコストは 0.556 と 0.702 でそれぞれ 0.916 と 0.915 を純度で達成した。 本手法は,HMEをクラスタリングする従来の手法よりも優れている。

Toward a computer-assisted marking for descriptive math questions,this paper presents clustering of online handwritten mathematical expressions (OnHMEs) to help human markers to mark them efficiently and reliably. We propose a generative sequence similarity function for computing a similarity score of two OnHMEs based on a sequence-to-sequence OnHME recognizer. Each OnHME is represented by a similarity-based representation (SbR) vector. The SbR matrix is inputted to the k-means algorithm for clustering OnHMEs. Experiments are conducted on an answer dataset (Dset_Mix) of 200 OnHMEs mixed of real patterns and synthesized patterns for each of 10 questions and a real online handwritten mathematical answer dataset of 122 student answers at most for each of 15 questions (NIER_CBT). The best clustering results achieved around 0.916 and 0.915 for purity, and around 0.556 and 0.702 for the marking cost on Dset_Mix and NIER_CBT, respectively. Our method currently outperforms the previous methods for clustering HMEs.
翻訳日:2021-05-25 03:26:16 公開日:2021-05-21
# 放射線科医としての行為 : マンモグラムマス検出のための信頼性の高い多視点対応推論を目指して

Act Like a Radiologist: Towards Reliable Multi-view Correspondence Reasoning for Mammogram Mass Detection ( http://arxiv.org/abs/2105.10160v1 )

ライセンス: Link先を確認
Yuhang Liu, Fandong Zhang, Chaoqi Chen, Siwen Wang, Yizhou Wang, Yizhou Yu(参考訳) マンモグラムの質量検出は乳癌の診断と予防に不可欠である。 多視点マンモグラフィ画像の補完効果は,乳腺解剖学的先行構造に関する貴重な情報を提供し,デジタルマンモグラフィの解釈において非常に重要である。 しかし、複数のマンモグラフィビューに基づいて質量を識別する自然推論能力を利用する放射線科医とは異なり、マルチビュー推論の能力を持つ既存の物体検出モデルをどのように付与するかは、臨床診断における意思決定には不可欠であるが、探索すべき境界である。 本稿では,マンモグラム質量検出用に調整された解剖学的アウェアグラフ畳み込みネットワーク (agn) を提案する。 提案されたAGNは3つのステップから構成される。 まず,両部グラフ畳み込みネットワーク(BGN)を導入し,内在的な幾何学的・意味的関係をモデル化する。 次に, 乳腺病変の診断補助として, 両側視の非対称性が臨床で広く採用されていることを考慮し, 両側視の構造的類似性をモデル化するインセプショングラフ畳み込みネットワーク (ign) を提案する。 最後に、構築したグラフに基づいて、マルチビュー情報をノードを通して手法的に伝播し、検査結果から得られた特徴をマルチビュー推論能力に装備する。 2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。 AGNは臨床診断に解釈可能な視覚的手がかりを提供する。

Mammogram mass detection is crucial for diagnosing and preventing the breast cancers in clinical practice. The complementary effect of multi-view mammogram images provides valuable information about the breast anatomical prior structure and is of great significance in digital mammography interpretation. However, unlike radiologists who can utilize the natural reasoning ability to identify masses based on multiple mammographic views, how to endow the existing object detection models with the capability of multi-view reasoning is vital for decision-making in clinical diagnosis but remains the boundary to explore. In this paper, we propose an Anatomy-aware Graph convolutional Network (AGN), which is tailored for mammogram mass detection and endows existing detection methods with multi-view reasoning ability. The proposed AGN consists of three steps. Firstly, we introduce a Bipartite Graph convolutional Network (BGN) to model the intrinsic geometric and semantic relations of ipsilateral views. Secondly, considering that the visual asymmetry of bilateral views is widely adopted in clinical practice to assist the diagnosis of breast lesions, we propose an Inception Graph convolutional Network (IGN) to model the structural similarities of bilateral views. Finally, based on the constructed graphs, the multi-view information is propagated through nodes methodically, which equips the features learned from the examined view with multi-view reasoning ability. Experiments on two standard benchmarks reveal that AGN significantly exceeds the state-of-the-art performance. Visualization results show that AGN provides interpretable visual cues for clinical diagnosis.
翻訳日:2021-05-25 03:25:55 公開日:2021-05-21
# 少数ショット学習のための bert embeddeds によるビジュアルプロトタイプのアライメント

Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning ( http://arxiv.org/abs/2105.10195v1 )

ライセンス: Link先を確認
Kun Yan, Zied Bouraoui, Ping Wang, Shoaib Jameel, Steven Schockaert(参考訳) FSL(Few-shot Learning)は、未確認画像のカテゴリを少数のトレーニング例から認識するタスクである。 利用可能な例は、どの視覚的特徴が考慮されたカテゴリの最も特徴的なものであるかを明確に判断するのに十分なものではない。 この問題を軽減するために,画像クラスの名前も考慮した手法を提案する。 クラス名の使用は以前の研究で既に検討されているが、我々のアプローチは2つの重要な側面で異なる。 まず,従来の研究は単語埋め込みから視覚プロトタイプを直接予測することを目的としていたが,視覚とテキストベースのプロトタイプを別々に扱うことで,より良い結果が得られることがわかった。 第2に,BERT言語モデルを用いてクラス名埋め込みを学習するための簡単な手法を提案する。 さらに、これらのベクトルの高次元性を扱うための戦略を提案し、言語間単語埋め込みの整列モデルに着想を得た。 我々はminiImageNet, CUB, tieredImageNetの実験を行い, メカニカルベースFSLの最先端性を一貫して改善していることを示す。

Few-shot learning (FSL) is the task of learning to recognize previously unseen categories of images from a small number of training examples. This is a challenging task, as the available examples may not be enough to unambiguously determine which visual features are most characteristic of the considered categories. To alleviate this issue, we propose a method that additionally takes into account the names of the image classes. While the use of class names has already been explored in previous work, our approach differs in two key aspects. First, while previous work has aimed to directly predict visual prototypes from word embeddings, we found that better results can be obtained by treating visual and text-based prototypes separately. Second, we propose a simple strategy for learning class name embeddings using the BERT language model, which we found to substantially outperform the GloVe vectors that were used in previous work. We furthermore propose a strategy for dealing with the high dimensionality of these vectors, inspired by models for aligning cross-lingual word embeddings. We provide experiments on miniImageNet, CUB and tieredImageNet, showing that our approach consistently improves the state-of-the-art in metric-based FSL.
翻訳日:2021-05-25 03:25:28 公開日:2021-05-21
# DAVOS: Adversarial Domain Adaptationによる半スーパービジョンビデオオブジェクトセグメンテーション

DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain Adaptation ( http://arxiv.org/abs/2105.10201v1 )

ライセンス: Link先を確認
Jinshuo Zhang, Zhicheng Wang, Songyan Zhang, Gang Wei(参考訳) ドメインシフトは常にビデオオブジェクトセグメンテーション(VOS)の主要な問題のひとつであり、不慣れなデータセットでテストした場合、モデルは変性に悩まされる。 近年,通常不足しているテストデータのアノテーションを微調整することで,トレーニングデータ(ソースドメイン)とテストデータ(ターゲットドメイン)のパフォーマンスギャップを狭めるために,多くのオンライン手法が出現している。 本稿では,まず,vosタスクに逆ドメイン適応を導入することで,ソースドメインの教師付きトレーニングと対象ドメインの教師なしトレーニングを行うことにより,ドメインシフトに取り組む新しい手法を提案する。 コンボリューション層で外観と動作特性を融合させ,動作分岐に監督を加えることで,DAVIS2016における最先端性能を82.6%,教師付きトレーニング後のIoUスコアを82.6%で達成する。 一方,FBMS59 や Youtube-Object に適用した場合,追加アノテーションを使わずに,ドメイン適応戦略によりトレーニングモデルの性能が著しく向上する。

Domain shift has always been one of the primary issues in video object segmentation (VOS), for which models suffer from degeneration when tested on unfamiliar datasets. Recently, many online methods have emerged to narrow the performance gap between training data (source domain) and test data (target domain) by fine-tuning on annotations of test data which are usually in shortage. In this paper, we propose a novel method to tackle domain shift by first introducing adversarial domain adaptation to the VOS task, with supervised training on the source domain and unsupervised training on the target domain. By fusing appearance and motion features with a convolution layer, and by adding supervision onto the motion branch, our model achieves state-of-the-art performance on DAVIS2016 with 82.6% mean IoU score after supervised training. Meanwhile, our adversarial domain adaptation strategy significantly raises the performance of the trained model when applied on FBMS59 and Youtube-Object, without exploiting extra annotations.
翻訳日:2021-05-25 03:25:07 公開日:2021-05-21
# 直交場成分推論によるオムニ制御点雲分割

Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning ( http://arxiv.org/abs/2105.10203v1 )

ライセンス: Link先を確認
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma(参考訳) ニューラルネットワークの隠れた特徴は通常、3Dセグメンテーションの情報表現を学習するのに失敗する。 本稿では,提案する段階的受容的場成分推論(rfcr)を通じて,クラウドセグメンテーションをポイント化する最初の全規模監視手法を提案する。 次に、ターゲットRFCCがデコーダを監督し、粗いカテゴリの推論方法で徐々にRFCCを推論し、最終的に意味ラベルを取得する。 隠れた特徴の多くは小さな大きさで活動せず、RFCCの予測に小さな貢献をするので、より曖昧な特徴を得るための遠心電位を持つ特徴密度化を提案し、実質的には特徴のエントロピー正則化と等価である。 よりアクティブな機能は、omni-supervisionメソッドの可能性をさらに解き放つことができます。 従来の4つのバックボーンにメソッドを組み込んで,3つの難しいベンチマークでテストします。 提案手法は3つのデータセットのバックボーンを大幅に改善することができる。 具体的には,S3DIS と Semantic3D に最先端性能を導入し,ScanNet ベンチマークの1位にランクインする。 コードはhttps://github.com/a zuki-miho/RFCR.comで公開される。

Hidden features in neural network usually fail to learn informative representation for 3D segmentation as supervisions are only given on output prediction, while this can be solved by omni-scale supervision on intermediate layers. In this paper, we bring the first omni-scale supervision method to point cloud segmentation via the proposed gradual Receptive Field Component Reasoning (RFCR), where target Receptive Field Component Codes (RFCCs) are designed to record categories within receptive fields for hidden units in the encoder. Then, target RFCCs will supervise the decoder to gradually infer the RFCCs in a coarse-to-fine categories reasoning manner, and finally obtain the semantic labels. Because many hidden features are inactive with tiny magnitude and make minor contributions to RFCC prediction, we propose a Feature Densification with a centrifugal potential to obtain more unambiguous features, and it is in effect equivalent to entropy regularization over features. More active features can further unleash the potential of our omni-supervision method. We embed our method into four prevailing backbones and test on three challenging benchmarks. Our method can significantly improve the backbones in all three datasets. Specifically, our method brings new state-of-the-art performances for S3DIS as well as Semantic3D and ranks the 1st in the ScanNet benchmark among all the point-based methods. Code will be publicly available at https://github.com/a zuki-miho/RFCR.
翻訳日:2021-05-25 03:24:47 公開日:2021-05-21
# カラーコンステンシーのための多色バランス

Multi-color balance for color constancy ( http://arxiv.org/abs/2105.10228v1 )

ライセンス: Link先を確認
Teruaki Akazawa, Yuma Kinoshita and Hitoshi Kiya(参考訳) 本稿では,色安定度に対する新しい多色バランス調整法を提案する。 提案手法は「n色バランス」と呼ばれ, 対象のn色を完全に補正するだけでなく, n色以外の色を補正できる。 対照的に、ホワイトバランシングは完全なホワイト調整が可能であるが、ホワイトバランシングの枠組みではホワイト以外の色は考慮されない。 実験で提案した多色バランスは,ブラッドフォードモデルを含む従来の白と多色バランス調整よりも優れていた。

In this paper, we propose a novel multi-color balance adjustment for color constancy. The proposed method, called "n-color balancing," allows us not only to perfectly correct n target colors on the basis of corresponding ground truth colors but also to correct colors other than the n colors. In contrast, although white-balancing can perfectly adjust white, colors other than white are not considered in the framework of white-balancing in general. In an experiment, the proposed multi-color balancing is demonstrated to outperform both conventional white and multi-color balance adjustments including Bradford's model.
翻訳日:2021-05-25 03:24:21 公開日:2021-05-21
# 病理組織学的大腸癌核検索のための共同トリプルトオートエンコーダ

Joint Triplet Autoencoder for Histopathological Colon Cancer Nuclei Retrieval ( http://arxiv.org/abs/2105.10262v1 )

ライセンス: Link先を確認
Satya Rajendra Singh, Shiv Ram Dubey, Shruthi MS, Sairathan Ventrapragada, Saivamshi Salla Dasharatha(参考訳) ディープラーニングは視覚的なタスクのパフォーマンスを大幅に改善した。 画像検索は、クエリ画像のためのデータベースから視覚的に類似した画像を抽出するタスクである。 画像のランク付けのために特徴マッチングを行う。 画像を表現するために、過去に様々な手作りの特徴が導出されている。 近年,バイオメディカル画像解析の分野におけるデータからの自動特徴学習に深層学習の力が活用されている。 autoencoderとsiamese networksは、潜在空間(すなわち特徴や埋め込み)を学ぶための2つのディープラーニングモデルである。 Autoencoderは、潜在空間からのイメージの再構成に基づいて動作する。 siamese networkは三重項を用いてクラス内類似性とクラス間類似性を学ぶ。 さらに、Autoencoderは教師なし、Siameseネットワークは教師なしである。 本稿では、自動エンコーダフレームワークにおける三重項学習を容易にすることで、JTANet(Joint Triplet Autoencoder Network)を提案する。 シャムネットワークの教師付き学習とオートエンコーダの教師なし学習とを共同で行う。 さらに、オートエンコーダのエンコーダネットワークは、シャムネットワークと共有され、シャムコーダネットワークと呼ばれる。 これらの特徴は、訓練されたSiamcoderネットワークを用いて抽出される。 病理組織学的常在性大腸癌データを用いて実験を行った。 病理組織像から大腸癌核検索のためのオートエンコーダとシームズモデルに対して提案したJTANetモデルを用いて有望な性能を観察した。

Deep learning has shown a great improvement in the performance of visual tasks. Image retrieval is the task of extracting the visually similar images from a database for a query image. The feature matching is performed to rank the images. Various hand-designed features have been derived in past to represent the images. Nowadays, the power of deep learning is being utilized for automatic feature learning from data in the field of biomedical image analysis. Autoencoder and Siamese networks are two deep learning models to learn the latent space (i.e., features or embedding). Autoencoder works based on the reconstruction of the image from latent space. Siamese network utilizes the triplets to learn the intra-class similarity and inter-class dissimilarity. Moreover, Autoencoder is unsupervised, whereas Siamese network is supervised. We propose a Joint Triplet Autoencoder Network (JTANet) by facilitating the triplet learning in autoencoder framework. A joint supervised learning for Siamese network and unsupervised learning for Autoencoder is performed. Moreover, the Encoder network of Autoencoder is shared with Siamese network and referred as the Siamcoder network. The features are extracted by using the trained Siamcoder network for retrieval purpose. The experiments are performed over Histopathological Routine Colon Cancer dataset. We have observed the promising performance using the proposed JTANet model against the Autoencoder and Siamese models for colon cancer nuclei retrieval in histopathological images.
翻訳日:2021-05-25 03:24:07 公開日:2021-05-21
# スパース小児データセットの共有表現とコントラスト規則化によるマルチタスク・マルチドメインディープセグメンテーション

Multi-Task, Multi-Domain Deep Segmentation with Shared Representations and Contrastive Regularization for Sparse Pediatric Datasets ( http://arxiv.org/abs/2105.10310v1 )

ライセンス: Link先を確認
Arnaud Boutillon, Pierre-Henri Conze, Christelle Pons, Val\'erie Burdin, Bhushan Borotikar(参考訳) mri画像の自動分割は臨床における小児筋骨格系の形態学的評価に不可欠である。 しかし, 個別セグメンテーションモデルの精度と一般化性能は, アノテートされた小児データ量によって制限されている。 そこで我々は,マルチタスクおよびマルチドメイン学習フレームワークを用いて,解剖学の異なる部分から生じるセグメンテーションモデルを訓練することを提案する。 このアプローチは、より堅牢な共有表現の恩恵を受けながら、小児データの固有の不足を克服することができる。 提案するセグメンテーションネットワークは、共有畳み込みフィルタと、各データセット統計を計算するドメイン固有バッチ正規化パラメータと、ドメイン固有セグメンテーション層とを含む。 さらに、ドメイン内類似性を促進し、組込み空間にドメイン間マージンを課すことにより、教師付きコントラスト正規化を統合して一般化能力をさらに向上する。 骨分節に対する足関節および肩関節の2つの小児画像データセットについて検討した。 その結果,提案手法は最先端手法よりも優れていることがわかった。

Automatic segmentation of magnetic resonance (MR) images is crucial for morphological evaluation of the pediatric musculoskeletal system in clinical practice. However, the accuracy and generalization performance of individual segmentation models are limited due to the restricted amount of annotated pediatric data. Hence, we propose to train a segmentation model on multiple datasets, arising from different parts of the anatomy, in a multi-task and multi-domain learning framework. This approach allows to overcome the inherent scarcity of pediatric data while benefiting from a more robust shared representation. The proposed segmentation network comprises shared convolutional filters, domain-specific batch normalization parameters that compute the respective dataset statistics and a domain-specific segmentation layer. Furthermore, a supervised contrastive regularization is integrated to further improve generalization capabilities, by promoting intra-domain similarity and impose inter-domain margins in embedded space. We evaluate our contributions on two pediatric imaging datasets of the ankle and shoulder joints for bone segmentation. Results demonstrate that the proposed model outperforms state-of-the-art approaches.
翻訳日:2021-05-25 03:23:47 公開日:2021-05-21
# 痛みの共有:馬の痛みの疎表現認識のための痛みタイプ間のドメイン転送

Sharing Pain: Using Domain Transfer Between Pain Types for Recognition of Sparse Pain Expressions in Horses ( http://arxiv.org/abs/2105.10313v1 )

ライセンス: Link先を確認
Sofia Broom\'e, Katrina Ask, Maheen Rashid, Pia Haubro Andersen, Hedvig Kjellstr\"om(参考訳) 整形障害は馬の安楽死の一般的な原因であり、早期発見で避けられることが多かった。 これらの条件はしばしば、微妙だが長期的な痛みを生じる。 このような痛みを映し出す映像データを用いて視覚的な痛み認識方法を訓練することは困難であり、結果として生じる痛み行動も微妙で、まばらに出現し、変化するため、熟練した人間ラベラーでさえ、そのデータに正確な地対面を提供することが困難である。 急性の侵害受容性痛(ラベリングが曖昧でない)を持つ馬のデータセットから特徴を移すことは、より複雑な整形外科的痛みを認識する学習に役立つ。 さらに,この問題に対する人間エキスパートベースラインと,様々なドメイン転送法,および整形外科データセットの急性痛を訓練した痛み認識法によって何が検出されるかに関する広範な実証研究を行った。 最後に、実世界の動物行動データセットが抱える課題と、同様のきめ細かい行動認識タスクに対してベストプラクティスをどのように確立できるかに関する議論がある。 私たちのコードはhttps://github.com/s ofiabroome/painface- recognitionで利用可能です。

Orthopedic disorders are a common cause for euthanasia among horses, which often could have been avoided with earlier detection. These conditions often create varying degrees of subtle but long-term pain. It is challenging to train a visual pain recognition method with video data depicting such pain, since the resulting pain behavior also is subtle, sparsely appearing, and varying, making it challenging for even an expert human labeler to provide accurate ground-truth for the data. We show that transferring features from a dataset of horses with acute nociceptive pain (where labeling is less ambiguous) can aid the learning to recognize more complex orthopedic pain. Moreover, we present a human expert baseline for the problem, as well as an extensive empirical study of various domain transfer methods and of what is detected by the pain recognition method trained on acute pain in the orthopedic dataset. Finally, this is accompanied with a discussion around the challenges posed by real-world animal behavior datasets and how best practices can be established for similar fine-grained action recognition tasks. Our code is available at https://github.com/s ofiabroome/painface- recognition.
翻訳日:2021-05-25 03:23:31 公開日:2021-05-21
# 大規模顔認識のための効率的な学習手法

An Efficient Training Approach for Very Large Scale Face Recognition ( http://arxiv.org/abs/2105.10375v1 )

ライセンス: Link先を確認
Kai Wang, Shuo Wang, Zhipeng Zhou, Xiaobo Wang, Xiaojiang Peng, Baigui Sun, Hao Li, Yang You(参考訳) 顔認識は、超大規模で十分にラベル付けされたデータセットにより、ディープラーニング時代において大きな進歩を遂げた。 しかし、超大規模データセットでのトレーニングは時間がかかり、多くのハードウェアリソースを消費する。 したがって、適切なトレーニングアプローチを設計する方法は非常に重要で不可欠です。 超大規模データセットをトレーニングする計算コストとハードウェアコストは、畳み込み層ではなく完全接続(fc)層に重点を置いている。 そこで本稿では,Faster Face Classification (F$^2$C) と呼ばれる,超大規模顔データセットの新たなトレーニング手法を提案する。 F$^2$C では、まず、認識のための顔の特徴を抽出し、アイデンティティのセンターを生成するために使用されるギャラリーネットとプローブネットを定義する。 Gallery NetはProbe Netと同じ構造を持ち、Probe Netのパラメータを移動平均パラダイムで継承する。 その後、fc層のトレーニング時間とハードウェアリソースの占有を減らすために、gallery netから機能を格納し、各ミニバッチで正のサンプル(動的クラスプールに現れるアイデンティティ)を持つ内積(ログ)を計算する動的クラスプールを提案する。 動的クラスプールはfc層の代替物と見なすことができ、そのサイズはfcよりはるかに小さいため、動的クラスプールは時間とリソースコストを大幅に削減することができる。 負のサンプル(そのアイデンティティはDynamic Class Poolには現れない)については、負のサンプルとDynamic Class Poolのコサイン類似性を最小化する。 次に、動的クラスプールのパラメータの更新効率と速度を改善するため、idベースとインスタンスベースのローダを含むデュアルローダを設計します。 デュアルローダは、与えられたデータセットからインスタンスとidでイメージをロードして、トレーニング用のバッチを生成する。

Face recognition has achieved significant progress in deep-learning era due to the ultra-large-scale and well-labeled datasets. However, training on ultra-large-scale datasets is time-consuming and takes up a lot of hardware resource. Therefore, how to design an appropriate training approach is very crucial and indispensable. The computational and hardware cost of training ultra-large-scale datasets mainly focuses on the Fully-Connected (FC) layer rather than convolutional layers. To this end, we propose a novel training approach for ultra-large-scale face datasets, termed Faster Face Classification (F$^2$C). In F$^2$C, we first define a Gallery Net and a Probe Net that are used to generate identities' centers and extract faces' features for face recognition, respectively. Gallery Net has the same structure as Probe Net and inherits the parameters from Probe Net with a moving average paradigm. After that, to reduce the training time and hardware resource occupancy of the FC layer, we propose the Dynamic Class Pool that stores the features from Gallery Net and calculates the inner product (logits) with positive samples (its identities appear in Dynamic Class Pool) in each mini-batch. Dynamic Class Pool can be regarded as a substitute for the FC layer and its size is much smaller than FC, which is the reason why Dynamic Class Pool can largely reduce the time and resource cost. For negative samples (its identities are not appear in the Dynamic Class Pool), we minimize the cosine similarities between negative samples and Dynamic Class Pool. Then, to improve the update efficiency and speed of Dynamic Class Pool's parameters, we design the Dual Loaders including Identity-based and Instance-based Loaders. Dual Loaders load images from given dataset by instances and identities to generate batches for training.
翻訳日:2021-05-25 03:23:10 公開日:2021-05-21
# グラフ畳み込みネットワークを用いた3次元姿勢回帰

3D Human Pose Regression using Graph Convolutional Network ( http://arxiv.org/abs/2105.10379v1 )

ライセンス: Link先を確認
Soubarna Banik, Alejandro Mendoza Gracia, Alois Knoll(参考訳) 3次元の人間のポーズ推定は、隠された身体の部分やあいまいなポーズなどの課題のために難しい作業である。 グラフ畳み込みネットワークは、人間の骨格の構造情報を隣接行列の形で符号化する。 本稿では,2次元のポーズから3次元のポーズ回帰を行うために,PoseGraphNetというグラフ畳み込みネットワークを提案する。 ネットワークは適応隣接行列と隣接群に特有のカーネルを用いる。 我々は,3次元ポーズ推定のための標準データセットであるHuman3.6Mデータセットを用いてモデルを評価する。 我々のモデルの性能は最先端に近いが、パラメータははるかに少ない。 このモデルは、物理的な接続を持たないが行動的に類似した関節間の興味深い隣接関係を学習する。

3D human pose estimation is a difficult task, due to challenges such as occluded body parts and ambiguous poses. Graph convolutional networks encode the structural information of the human skeleton in the form of an adjacency matrix, which is beneficial for better pose prediction. We propose one such graph convolutional network named PoseGraphNet for 3D human pose regression from 2D poses. Our network uses an adaptive adjacency matrix and kernels specific to neighbor groups. We evaluate our model on the Human3.6M dataset which is a standard dataset for 3D pose estimation. Our model's performance is close to the state-of-the-art, but with much fewer parameters. The model learns interesting adjacency relations between joints that have no physical connections, but are behaviorally similar.
翻訳日:2021-05-25 03:22:44 公開日:2021-05-21
# lapar:単一画像の超解像とそれ以上の画素適応回帰ネットワーク

LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single Image Super-Resolution and Beyond ( http://arxiv.org/abs/2105.10422v1 )

ライセンス: Link先を確認
Wenbo Li, Kun Zhou, Lu Qi, Nianjuan Jiang, Jiangbo Lu, Jiaya Jia(参考訳) 単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。 ここ数年、ディープラーニングの手法によって、目覚ましい進歩が見られた。 しかし、既存の手法が直面する重要な課題の1つは、深層モデルの複雑さとSISRの品質のスイートスポットを打つことである。 本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案することにより, 直交LRからHRへのマッピング学習を, 複数の予め定義されたフィルタ基底の辞書上の線形係数回帰タスクにキャストする。 このようなパラメトリック表現は、SISRベンチマークの最先端結果を達成しながら、我々のモデルを非常に軽量で、最適化しやすくする。 さらに、同じアイデアに基づいて、LAPARは画像のデノイングやJPEG画像のデブロッキングといった他の復元タスクに対処するように拡張され、パフォーマンスが向上する。 コードはhttps://github.com/d vlab-research/simple -srで入手できる。

Single image super-resolution (SISR) deals with a fundamental problem of upsampling a low-resolution (LR) image to its high-resolution (HR) version. Last few years have witnessed impressive progress propelled by deep learning methods. However, one critical challenge faced by existing methods is to strike a sweet spot of deep model complexity and resulting SISR quality. This paper addresses this pain point by proposing a linearly-assembled pixel-adaptive regression network (LAPAR), which casts the direct LR to HR mapping learning into a linear coefficient regression task over a dictionary of multiple predefined filter bases. Such a parametric representation renders our model highly lightweight and easy to optimize while achieving state-of-the-art results on SISR benchmarks. Moreover, based on the same idea, LAPAR is extended to tackle other restoration tasks, e.g., image denoising and JPEG image deblocking, and again, yields strong performance. The code is available at https://github.com/d vlab-research/Simple -SR.
翻訳日:2021-05-25 03:22:35 公開日:2021-05-21
# 合成細粒度低ショット学習

Compositional Fine-Grained Low-Shot Learning ( http://arxiv.org/abs/2105.10438v1 )

ライセンス: Link先を確認
Dat Huynh and Ehsan Elhamifar(参考訳) 我々は,ゼロショットおよびマイショット学習のための新しい合成生成モデルを開発し,訓練サンプルを数個または全く持たない細粒度クラスを認識する。 きめ細かいクラスに対する総括的特徴の生成は、クラス間の小さな属性の違いを捉えることに失敗します。 そこで本研究では, 学習サンプルから属性特徴を抽出し, それらを組み合わせて, 稀で不明瞭なクラスのためのきめ細かい特徴を構築できる特徴合成フレームワークを提案する。 特徴合成により、関係するトレーニングサンプルのみから、各クラスの特徴を選択的に構成できるだけでなく、構成に使用するサンプルを変更することで、構成特徴の多様性を得ることができる。 さらに、クラスに対する全体的な機能を構築する代わりに、属性機能を使用して、クラスのきめ細かい属性の詳細をキャプチャできる密度の高い表現を作成します。 識別モデルを用いて,そのモデル自体を訓練するために使用される特徴を構築できるトレーニングスキームを提案する。 そこで我々は,合成特徴の判別モデルを個別生成モデルを学ぶことなく直接訓練する。 我々は,DeepFashion,AWA2,CU B,SUNの4つの一般的なデータセットを用いて実験を行い,本手法の有効性を示した。

We develop a novel compositional generative model for zero- and few-shot learning to recognize fine-grained classes with a few or no training samples. Our key observation is that generating holistic features for fine-grained classes fails to capture small attribute differences between classes. Therefore, we propose a feature composition framework that learns to extract attribute features from training samples and combines them to construct fine-grained features for rare and unseen classes. Feature composition allows us to not only selectively compose features of every class from only relevant training samples, but also obtain diversity among composed features via changing samples used for the composition. In addition, instead of building holistic features for classes, we use our attribute features to form dense representations capable of capturing fine-grained attribute details of classes. We propose a training scheme that uses a discriminative model to construct features that are subsequently used to train the model itself. Therefore, we directly train the discriminative model on the composed features without learning a separate generative model. We conduct experiments on four popular datasets of DeepFashion, AWA2, CUB, and SUN, showing the effectiveness of our method.
翻訳日:2021-05-25 03:22:15 公開日:2021-05-21
# 画像分解と超解像のための特徴空間におけるグラフ畳み込みネットワーク

Graph Convolutional Networks in Feature Space for Image Deblurring and Super-resolution ( http://arxiv.org/abs/2105.10465v1 )

ライセンス: Link先を確認
Boyan Xu and Hujun Yin(参考訳) グラフ畳み込みネットワーク(GCN)は、非ユークリッド構造のデータを扱う上で大きな成功を収めた。 彼らの成功は、ソーシャルメディアやナレッジデータベースなどのデータにグラフ構造を効果的に適合させることに直接起因している。 画像処理アプリケーションでは、グラフ構造とGCNの使用が十分に検討されていない。 本稿では,前生成グラフの頂点に特徴マップを変換してグラフ構造データを合成的に構築することで,グラフ畳み込みを加えた新しいエンコーダデコーダネットワークを提案する。 これを行うことで、グラフラプラシアン正則化をフィーチャーマップに適用し、より構造化されます。 実験の結果,分解処理や超解像処理など,画像復元作業のパフォーマンスが著しく向上することがわかった。 より多くのアプリケーションにおいて、GCNベースのアプローチの機会が開けると信じています。

Graph convolutional networks (GCNs) have achieved great success in dealing with data of non-Euclidean structures. Their success directly attributes to fitting graph structures effectively to data such as in social media and knowledge databases. For image processing applications, the use of graph structures and GCNs have not been fully explored. In this paper, we propose a novel encoder-decoder network with added graph convolutions by converting feature maps to vertexes of a pre-generated graph to synthetically construct graph-structured data. By doing this, we inexplicitly apply graph Laplacian regularization to the feature maps, making them more structured. The experiments show that it significantly boosts performance for image restoration tasks, including deblurring and super-resolution. We believe it opens up opportunities for GCN-based approaches in more applications.
翻訳日:2021-05-25 03:21:55 公開日:2021-05-21
# データプライバシ文書の自動比較に向けて:GDPRライクな法則に関する予備実験

Towards Automatic Comparison of Data Privacy Documents: A Preliminary Experiment on GDPR-like Laws ( http://arxiv.org/abs/2105.10117v1 )

ライセンス: Link先を確認
Kornraphop Kawintiranon and Yaguang Liu(参考訳) 一般データ保護規則(GDPR)は多くの国でデータ保護の標準法となっている。 現在、12カ国がこの規制を採用し、GDPRライクな規制を定めている。 しかし、これらのGDPRライクな規制の違いと類似性を評価するには、時間がかかり、法の専門家による多くの手作業が必要である。 さらに、各国のGDPRライクな規制はそれぞれの言語で書かれており、両国の言語を知る法律の専門家が不可欠であるため、より困難な課題となっている。 本稿では,この問題に対処するための自然言語処理(NLP)アプローチについて検討する。 まずGDPRのような文書から大量の情報を抽出し、自然言語から構造化データを生成する。 次に、文書の比較にnlp法を用いて類似度を測定した。 最後に、我々のアプローチを評価するために、手動で小さなデータセットをラベル付けします。 実験結果から,コサイン類似性を持つBERTモデルは,他のベースラインよりも優れていることが示された。 私たちのデータとコードは公開されています。

General Data Protection Regulation (GDPR) becomes a standard law for data protection in many countries. Currently, twelve countries adopt the regulation and establish their GDPR-like regulation. However, to evaluate the differences and similarities of these GDPR-like regulations is time-consuming and needs a lot of manual effort from legal experts. Moreover, GDPR-like regulations from different countries are written in their languages leading to a more difficult task since legal experts who know both languages are essential. In this paper, we investigate a simple natural language processing (NLP) approach to tackle the problem. We first extract chunks of information from GDPR-like documents and form structured data from natural language. Next, we use NLP methods to compare documents to measure their similarity. Finally, we manually label a small set of data to evaluate our approach. The empirical result shows that the BERT model with cosine similarity outperforms other baselines. Our data and code are publicly available.
翻訳日:2021-05-25 03:21:43 公開日:2021-05-21
# クラウドにおける機能 - サーバレスクラウドネイティブアプリの抽象アーキテクチャ

Functionals in the Clouds: An abstract architecture of serverless Cloud-Native Apps ( http://arxiv.org/abs/2105.10362v1 )

ライセンス: Link先を確認
Stanislaw Ambroszkiewicz, Waldemar Bartyna and Stanislaw Bylka(参考訳) クラウドネイティブアプリケーション CNApp(分散システム)は、通信プロトコルを介して対話する独立したコンポーネント(マイクロサービス)の集合体である。 これはcnappの抽象アーキテクチャを動的に再設定可能な非循環有向多元グラフとして提示し、頂点がマイクロサービスであり、エッジがプロトコルとなる。 このような再構成のジェネリックメカニズムは明らかに高次関数(関数)に対応する。 これはまた、イベント依存のデータフローグラフに動的に構成されるイベントトリガーのサーバレス関数(プロトコルを実装する機能を含む)のコレクションとして、マイクロサービスの内部抽象アーキテクチャも意味している。 繰り返しになるが、そのような構成の一般的なメカニズムは関数と関係の計算に対応する。

Cloud Native Application CNApp (as a distributed system) is a collection of independent components (micro-services) interacting via communication protocols. This gives rise to present an abstract architecture of CNApp as dynamically re-configurable acyclic directed multi graph where vertices are microservices, and edges are the protocols. Generic mechanisms for such reconfigurations evidently correspond to higher-level functions (functionals). This implies also internal abstract architecture of microservice as a collection of event-triggered serverless functions (including functions implementing the protocols) that are dynamically composed into event-dependent data-flow graphs. Again, generic mechanisms for such compositions correspond to calculus of functionals and relations.
翻訳日:2021-05-25 03:21:32 公開日:2021-05-21
# 事前未知環境における現場・サービスロボットのための言語理解

Language Understanding for Field and Service Robots in a Priori Unknown Environments ( http://arxiv.org/abs/2105.10396v1 )

ライセンス: Link先を確認
Matthew R. Walter, Siddharth Patki, Andrea F. Daniele, Ethan Fahnestock, Felix Duvallet, Sachithra Hemachandra, Jean Oh, Anthony Stentz, Nicholas Roy, and Thomas M. Howard(参考訳) 認識、計画、推定、制御に対する現代のアプローチにより、ロボットは不確実で非構造的な環境において、我々のリモートサロゲートとして堅牢に動作することができた。 現在、ロボットは孤立した環境だけでなく、複雑な環境の中で人間と一緒に活動する機会があります。 自然言語は、人間が協調ロボットとコミュニケーションできる効率的で柔軟な媒体を提供する。 自然言語理解のための統計的手法の大幅な進歩により、ロボットは様々な自由形式のナビゲーション、操作、移動操作コマンドを解釈できるようになった。 しかし、現代のほとんどのアプローチでは、発話の可能な参照者の空間をモデル化するロボット環境の詳細な空間意味マップが必要である。 その結果、ロボットが新しい、以前は知られていなかった、あるいは部分的に観察された環境に展開された場合、特に環境のメンタルモデルが人間とロボットの間で異なる場合、これらの方法は失敗する。 本稿では,フィールドロボットとサービスロボットが,未知の非構造環境下で自然言語命令を解釈し,正しく実行できるようにする,新しい学習フレームワークの包括的記述を提供する。 自然言語の発話で暗黙的に空間的、位相的、意味的な情報を推測し、この情報を利用して潜伏環境モデル上の分布を学習する。 本研究では,この分布を確率論的言語基底モデルに組み込んで,ロボットの行動空間のシンボル表現上の分布を推定する。 我々は,環境や行動分布の理由となる信念空間政策を模倣学習を用いて同定する。 我々は,様々なナビゲーションおよびモバイル操作実験を通じて,我々のフレームワークを評価する。

Contemporary approaches to perception, planning, estimation, and control have allowed robots to operate robustly as our remote surrogates in uncertain, unstructured environments. There is now an opportunity for robots to operate not only in isolation, but also with and alongside humans in our complex environments. Natural language provides an efficient and flexible medium through which humans can communicate with collaborative robots. Through significant progress in statistical methods for natural language understanding, robots are now able to interpret a diverse array of free-form navigation, manipulation, and mobile manipulation commands. However, most contemporary approaches require a detailed prior spatial-semantic map of the robot's environment that models the space of possible referents of the utterance. Consequently, these methods fail when robots are deployed in new, previously unknown, or partially observed environments, particularly when mental models of the environment differ between the human operator and the robot. This paper provides a comprehensive description of a novel learning framework that allows field and service robots to interpret and correctly execute natural language instructions in a priori unknown, unstructured environments. Integral to our approach is its use of language as a "sensor" -- inferring spatial, topological, and semantic information implicit in natural language utterances and then exploiting this information to learn a distribution over a latent environment model. We incorporate this distribution in a probabilistic language grounding model and infer a distribution over a symbolic representation of the robot's action space. We use imitation learning to identify a belief space policy that reasons over the environment and behavior distributions. We evaluate our framework through a variety of different navigation and mobile manipulation experiments.
翻訳日:2021-05-25 03:21:20 公開日:2021-05-21
# 点群に基づく変分オートエンコーダを用いたPPEの自動サイズ化

Towards Automatic Sizing for PPE with a Point Cloud Based Variational Autoencoder ( http://arxiv.org/abs/2105.10067v1 )

ライセンス: Link先を確認
Jacob A. Searcy and Susan L. Sokolowski(参考訳) PPE(Personal Protective Equipment)のサイズと適合性は、製品作成プロセスにおいて重要な要素であるが、この種の作業を行う従来の方法は、労働集約的であり、限定的または非表現的人為的データに基づいている。 PPEの場合、弱いフィットは個人の健康と安全性を損なう可能性がある。 本稿では,設計者によって理想化されたサイズモデルとして活用できる代表的個人集合を識別できる教師なし機械学習アルゴリズムを提案する。 このアルゴリズムは変分オートエンコーダ(vae)に基づいており、ceasarデータセットから得られた人間のポイントクラウドデータに基づいて訓練されたポイントネットインスパイアエンコーダとデコーダアーキテクチャを備えている。 学習された潜在空間は、特定のサイズ群を特定するためにクラスタ化される。 この手法を人間の顔のスキャンで実演し、マスクや顔のカバーのデザイナーに、既存のマスクスタイルをテストするための参照セットを提供する。

Sizing and fitting of Personal Protective Equipment (PPE) is a critical part of the product creation process; however, traditional methods to do this type of work can be labor intensive and based on limited or non-representative anthropomorphic data. In the case of PPE, a poor fit can jeopardize an individual's health and safety. In this paper we present an unsupervised machine learning algorithm that can identify a representative set of exemplars, individuals that can be utilized by designers as idealized sizing models. The algorithm is based around a Variational Autoencoder (VAE) with a Point-Net inspired encoder and decoder architecture trained on Human point-cloud data obtained from the CEASAR dataset. The learned latent space is then clustered to identify a specified number of sizing groups. We demonstrate this technique on scans of human faces to provide designers of masks and facial coverings a reference set of individuals to test existing mask styles.
翻訳日:2021-05-25 03:19:38 公開日:2021-05-21
# TestRank: ディープラーニングタスクのためのラベルのないテストインスタンスに順序を付ける

TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks ( http://arxiv.org/abs/2105.10113v1 )

ライセンス: Link先を確認
Yu Li, Min Li, Qiuxia Lai, Yannan Liu, and Qiang Xu(参考訳) ディープラーニング(DL)は様々なタスクで前例のない成功を収めた。 しかし、dlモデルの説明可能性の欠如とカバーすべき巨大なテスト入力空間のため、dlシステムはテストとデバッグが難しいことで悪名高い。 一般に、大量のテストデータを集めることは比較的容易であるが、ラベル付けコストは非常に高い。 したがって、テストコスト削減のために選択した「高品質」バグ修正テストインプットのみをテスト選択とラベル付けすることが不可欠である。 本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。 既存のソリューションとは異なり、TestRankはテストインスタンスの固有の属性とコンテキスト属性の両方を活用している。 具体的には、まずテストインスタンスとトレーニングサンプルに類似性グラフを構築し、グラフに基づく半教師付き学習を行い、文脈的特徴を抽出する。 そして、特定のテストインスタンスに対して、グラフニューラルネットワーク(GNN)から抽出されたコンテキスト特徴と、DLモデル自体で得られた固有特徴を組み合わせて、そのバグ発見確率を予測する。 最後に、TestRankは上記の確率値の順にラベルのないテストインスタンスを優先順位付けする。 様々な画像分類データセットを用いてTestRankの性能を評価する。 実験結果から,本手法のデバッグ効率は既存のテスト優先手法よりも有意に優れていた。

Deep learning (DL) has achieved unprecedented success in a variety of tasks. However, DL systems are notoriously difficult to test and debug due to the lack of explainability of DL models and the huge test input space to cover. Generally speaking, it is relatively easy to collect a massive amount of test data, but the labeling cost can be quite high. Consequently, it is essential to conduct test selection and label only those selected "high quality" bug-revealing test inputs for test cost reduction. In this paper, we propose a novel test prioritization technique that brings order into the unlabeled test instances according to their bug-revealing capabilities, namely TestRank. Different from existing solutions, TestRank leverages both intrinsic attributes and contextual attributes of test instances when prioritizing them. To be specific, we first build a similarity graph on test instances and training samples, and we conduct graph-based semi-supervised learning to extract contextual features. Then, for a particular test instance, the contextual features extracted from the graph neural network (GNN) and the intrinsic features obtained with the DL model itself are combined to predict its bug-revealing probability. Finally, TestRank prioritizes unlabeled test instances in descending order of the above probability value. We evaluate the performance of TestRank on a variety of image classification datasets. Experimental results show that the debugging efficiency of our method significantly outperforms existing test prioritization techniques.
翻訳日:2021-05-25 03:19:22 公開日:2021-05-21
# 事前知識を用いた説明可能な機械学習:概要

Explainable Machine Learning with Prior Knowledge: An Overview ( http://arxiv.org/abs/2105.10172v1 )

ライセンス: Link先を確認
Katharina Beckh, Sebastian M\"uller, Matthias Jakobs, Vanessa Toborek, Hanxiao Tan, Raphael Fischer, Pascal Welke, Sebastian Houben, Laura von Rueden(参考訳) 本稿では,機械学習システムへの事前知識の統合について概説する。 機械学習モデルの複雑さは、より説明しやすいように研究を促している。 しかし、ほとんどの説明可能性法は、与えられたデータ以上の洞察を与えず、コンテキストに関する追加情報を必要とする。 機械学習モデルの説明能力を改善するために,事前知識を活用することを提案する。 本稿では、機械学習パイプラインに知識を統合する3つの主要なカテゴリに関する現在の研究の分類を、説明可能性法や説明から知識を引き出す方法に分類する。 論文を分類するために,情報機械学習の既存の分類基盤を構築し,説明可能性の観点から拡張する。 私たちはオープンチャレンジと研究の指示で締めくくります。

This survey presents an overview of integrating prior knowledge into machine learning systems in order to improve explainability. The complexity of machine learning models has elicited research to make them more explainable. However, most explainability methods cannot provide insight beyond the given data, requiring additional information about the context. We propose to harness prior knowledge to improve upon the explanation capabilities of machine learning models. In this paper, we present a categorization of current research into three main categories which either integrate knowledge into the machine learning pipeline, into the explainability method or derive knowledge from explanations. To classify the papers, we build upon the existing taxonomy of informed machine learning and extend it from the perspective of explainability. We conclude with open challenges and research directions.
翻訳日:2021-05-25 03:19:00 公開日:2021-05-21
# 深層畳み込みオートエンコーダのganプリトレーニング : ソフトウェアに基づく指紋提示攻撃検出への応用

GAN pretraining for deep convolutional autoencoders applied to Software-based Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2105.10213v1 )

ライセンス: Link先を確認
Tobias Rohrer, Jascha Kolberg(参考訳) 指紋提示攻撃を判定する信頼性の高いシステムの必要性は、認証に指紋を使用することによって増大する。 本稿では,ソフトウェアベースの指紋提示アタッチメント検出のための単一クラス分類手法を提案する。 この手法は、ワッサーシュタイン GAN を用いて、深層畳み込みオートエンコーダに転写学習を適用する。 これにより、オートエンコーダは、LivDet2021 Dermalogセンサーデータセット上で、わずか1122ボナフィドのトレーニングサンプルで事前訓練および微調整が可能になった。 プレゼンテーションアタックのサンプルを使用せずに、平均的な分類エラー率16.79%をアーカイブすることができる。 Wasserstein GANは、オートエンコーダの重量を事前訓練するために実装され、リアルに見える人工指紋パッチを生成するためにさらに使用できる。 異なるオートエンコーダアーキテクチャとハイパーパラメータの広範なテストは、アーキテクチャガイドラインの粗い部分と、将来の作業に使用できる複数の実装に繋がった。

The need for reliable systems to determine fingerprint presentation attacks grows with the rising use of the fingerprint for authentication. This work presents a new approach to single-class classification for software-based fingerprint presentation attach detection. The described method utilizes a Wasserstein GAN to apply transfer learning to a deep convolutional autoencoder. By doing so, the autoencoder could be pretrained and finetuned on the LivDet2021 Dermalog sensor dataset with only 1122 bona fide training samples. Without making use of any presentation attack samples, the model could archive an average classification error rate of 16.79%. The Wasserstein GAN implemented to pretrain the autoencoders weights can further be used to generate realistic-looking artificial fingerprint patches. Extensive testing of different autoencoder architectures and hyperparameters led to coarse architectural guidelines as well as multiple implementations which can be utilized for future work.
翻訳日:2021-05-25 03:18:49 公開日:2021-05-21
# 最大及び漏洩最大伝播

Maximum and Leaky Maximum Propagation ( http://arxiv.org/abs/2105.10277v1 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 本稿では,maxout netsに触発された従来型残差接続の代替案を提案する。 これは、残余接続を追加する代わりに、我々のアプローチは最大値のみを伝播する、または漏れやすい定式化において、両方の比率を伝搬することを意味する。 本評価では,提案手法が残差接続に匹敵するもので,一定のバッチ正規化による一般化の改善,学習の高速化,追加のアクティベーション機能なしで一般化する可能性など,興味深い特性を持つことを示す。 さらに,残差ネットワークと組み合わさったアンサンブルが形成されると,提案手法はうまく機能する。

In this work, we present an alternative to conventional residual connections, which is inspired by maxout nets. This means that instead of the addition in residual connections, our approach only propagates the maximum value or, in the leaky formulation, propagates a percentage of both. In our evaluation, we show on different public data sets that the presented approaches are comparable to the residual connections and have other interesting properties, such as better generalization with a constant batch normalization, faster learning, and also the possibility to generalize without additional activation functions. In addition, the proposed approaches work very well if ensembles together with residual networks are formed.
翻訳日:2021-05-25 03:18:37 公開日:2021-05-21
# MCUに基づくエッジNILMのトリミング特徴抽出と推論:システム的アプローチ

Trimming Feature Extraction and Inference for MCU-based Edge NILM: a Systematic Approach ( http://arxiv.org/abs/2105.10302v1 )

ライセンス: Link先を確認
Enrico Tabanelli, Davide Brunelli, Andrea Acquaviva, Luca Benini(参考訳) 非侵入負荷モニタリング(NILM)は、複数の負荷のグローバルな電力消費を、単一のスマート電気メーターから、アプライアンスレベルの詳細に分解することを可能にする。 最先端のアプローチは機械学習手法に基づいており、電流と電圧センサーから時間領域と周波数領域の機能を統合する。 残念ながら、これらのメソッドは計算要求とメモリ集約です。 したがって、低遅延NILMを低コストで資源制約のMCUベースで実行することは、現在オープンな課題である。 本稿では,メモリおよび計算制限付きmcu上での最先端(soa)nilmアルゴリズムの実行に必要な計算コストとストレージコストの削減に加えて,特徴空間の最適化について述べる。 異なる分類シナリオにおける4つの教師あり学習手法を比較し,MCUベースのスマート計測ノード上でのNILMパイプラインの実装を特徴付ける。 実験の結果、特徴空間の最適化により、エッジMCUベースのNILMを95.15%の精度で実現し、最大5.45倍のスピードアップと80.56%のストレージ削減を実現しながら、最も正確な特徴ベクトル展開(96.19%)に比べて小さな低下をもたらすことが示された。 さらに,電流測定のみに依存する低遅延nilmはほぼ80%の精度に到達し,ハードウェア設計から電圧センサを取り外すことで大幅なコスト削減が可能となることを示した。

Non-Intrusive Load Monitoring (NILM) enables the disaggregation of the global power consumption of multiple loads, taken from a single smart electrical meter, into appliance-level details. State-of-the-Art approaches are based on Machine Learning methods and exploit the fusion of time- and frequency-domain features from current and voltage sensors. Unfortunately, these methods are compute-demanding and memory-intensive. Therefore, running low-latency NILM on low-cost, resource-constrained MCU-based meters is currently an open challenge. This paper addresses the optimization of the feature spaces as well as the computational and storage cost reduction needed for executing State-of-the-Art (SoA) NILM algorithms on memory- and compute-limited MCUs. We compare four supervised learning techniques on different classification scenarios and characterize the overall NILM pipeline's implementation on a MCU-based Smart Measurement Node. Experimental results demonstrate that optimizing the feature space enables edge MCU-based NILM with 95.15% accuracy, resulting in a small drop compared to the most-accurate feature vector deployment (96.19%) while achieving up to 5.45x speed-up and 80.56% storage reduction. Furthermore, we show that low-latency NILM relying only on current measurements reaches almost 80% accuracy, allowing a major cost reduction by removing voltage sensors from the hardware design.
翻訳日:2021-05-25 03:18:24 公開日:2021-05-21
# 敵攻撃を誘発するニューラルネットワークのロバストな誤分類探索

Exploring Robust Misclassifications of Neural Networks to Enhance Adversarial Attacks ( http://arxiv.org/abs/2105.10304v1 )

ライセンス: Link先を確認
Leo Schwinn, Ren\'e Raab, An Nguyen, Dario Zanca, Bjoern Eskofier(参考訳) ニューラルネットワークを敵の攻撃に対してより堅牢にする進歩は、研究コミュニティの大きな努力にもかかわらず、ほとんど限界である。 さらに、堅牢性の評価はしばしば不正確であり、有望なアプローチを特定することは困難である。 敵の攻撃に対して頑健であるように訓練された19種類の最先端ニューラルネットワークの分類決定を解析した。 以上より,現在の非ターゲティング攻撃は,限られた数の異なるクラスに対して誤分類を誘発することが示唆された。 さらに,モデル予測における過信と過信の両方がモデルロバスト性の不正確な評価をもたらすことを観察した。 そこで本研究では,19のモデルのうち19のモデルに対して,従来よりも攻撃成功率を常に向上させる新たな損失関数を提案する。

Progress in making neural networks more robust against adversarial attacks is mostly marginal, despite the great efforts of the research community. Moreover, the robustness evaluation is often imprecise, making it difficult to identify promising approaches. We analyze the classification decisions of 19 different state-of-the-art neural networks trained to be robust against adversarial attacks. Our findings suggest that current untargeted adversarial attacks induce misclassification towards only a limited amount of different classes. Additionally, we observe that both over- and under-confidence in model predictions result in an inaccurate assessment of model robustness. Based on these observations, we propose a novel loss function for adversarial attacks that consistently improves attack success rate compared to prior loss functions for 19 out of 19 analyzed models.
翻訳日:2021-05-25 03:18:02 公開日:2021-05-21
# 遠隔医療用医用テキストの単語レベルハイライト

Word-level Text Highlighting of Medical Texts forTelehealth Services ( http://arxiv.org/abs/2105.10400v1 )

ライセンス: Link先を確認
Ozan Ozyegen, Devika Kabe and Mucahit Cevik(参考訳) 医療領域は、しばしば情報過負荷にさらされる。 医療のデジタル化、オンラインの医療リポジトリへの定期的な更新、バイオメディカルデータセットの可用性の向上は、データを効果的に分析することが困難である。 これは、研究を完了し、患者に相談するために医療データに大きく依存する医療専門家のための追加の仕事を生み出す。 本稿では,異なるテキストハイライト技術が関連する医療状況をどのように捉えることができるかを示す。 これにより、医師の認知負荷と患者に対する反応時間を短縮し、より迅速な意思決定をし、オンライン医療サービスの全体的な品質を向上させることができる。 3つの異なる単語レベルのテキストハイライト手法を実装し評価する。 最初の方法はtf-idfスコアを使ってテキストの重要な部分をハイライトする。 第2の方法は、TF-IDFスコアと局所解釈可能なモデル非依存記述の分類モデルへの応用の組み合わせである。 第3の方法は、単語をハイライトすべきかどうかの予測にニューラルネットワークを直接使用する。 実験の結果, ニューラルネットワークアプローチは, 医学的用語の強調に成功し, 入力セグメントの大きさが大きくなるにつれてその性能が向上することが示された。

The medical domain is often subject to information overload. The digitization of healthcare, constant updates to online medical repositories, and increasing availability of biomedical datasets make it challenging to effectively analyze the data. This creates additional work for medical professionals who are heavily dependent on medical data to complete their research and consult their patients. This paper aims to show how different text highlighting techniques can capture relevant medical context. This would reduce the doctors' cognitive load and response time to patients by facilitating them in making faster decisions, thus improving the overall quality of online medical services. Three different word-level text highlighting methodologies are implemented and evaluated. The first method uses TF-IDF scores directly to highlight important parts of the text. The second method is a combination of TF-IDF scores and the application of Local Interpretable Model-Agnostic Explanations to classification models. The third method uses neural networks directly to make predictions on whether or not a word should be highlighted. The results of our experiments show that the neural network approach is successful in highlighting medically-relevant terms and its performance is improved as the size of the input segment increases.
翻訳日:2021-05-25 03:17:51 公開日:2021-05-21
# インクリメンタル学習を用いた広範学習システムのためのリッジ解の低メモリ化

Low-Memory Implementations of Ridge Solutions for Broad Learning System with Incremental Learning ( http://arxiv.org/abs/2105.10424v1 )

ライセンス: Link先を確認
Hufei Zhu(参考訳) 既存の低メモリのBLS実装では、記憶の効率的な利用を実現するために、大きな行列を保存・反転する必要がない。 しかし、既存の低メモリのBLS実装では、インクリメンタルラーニング中に出力重みの一般化された逆あるいはリッジ解を得ることができなくなり、元のBLSで使用される非常に小さなリッジパラメータの下では動作できないため、メモリの効率的な使用のための価格としてテスト精度を犠牲にしている。 したがって、低メモリのBLS実装は、非常に小さなリッジパラメータの下で動作し、インクリメンタル学習の過程で出力重みに対する一般化された逆あるいはリッジ解を計算する必要がある。 本稿では、まず、最近提案された再帰的および平方根BLSアルゴリズムと、最近提案された追加ノード上の平方根BLSアルゴリズムの低メモリ実装について、各再帰における入力やノードのバッチを単純に処理することで、提案する。 Since the recursive BLS implementation includes the recursive updates of the inverse matrix that may introduce numerical instabilities after a large number of iterations, and needs the extra computational load to decompose the inverse matrix into the Cholesky factor when cooperating with the proposed low-memory implementation of the square-root BLS algorithm on added nodes, we only improve the low-memory implementations of the square-root BLS algorithms on added inputs and nodes, to propose the full lowmemory implementation of the square-root BLS algorithm. 提案した低メモリのBLS実装はすべて、インクリメンタルラーニングの過程で出力重み付けのリッジ解を計算し、そのほとんどは非常に小さなリッジパラメータの下で動作することができる。

The existing low-memory BLS implementation proposed recently avoids the need for storing and inverting large matrices, to achieve efficient usage of memories. However, the existing low-memory BLS implementation sacrifices the testing accuracy as a price for efficient usage of memories, since it can no longer obtain the generalized inverse or ridge solution for the output weights during incremental learning, and it cannot work under the very small ridge parameter that is utilized in the original BLS. Accordingly, it is required to develop the low-memory BLS implementations, which can work under very small ridge parameters and compute the generalized inverse or ridge solution for the output weights in the process of incremental learning. In this paper, firstly we propose the low-memory implementations for the recently proposed recursive and square-root BLS algorithms on added inputs and the recently proposed squareroot BLS algorithm on added nodes, by simply processing a batch of inputs or nodes in each recursion. Since the recursive BLS implementation includes the recursive updates of the inverse matrix that may introduce numerical instabilities after a large number of iterations, and needs the extra computational load to decompose the inverse matrix into the Cholesky factor when cooperating with the proposed low-memory implementation of the square-root BLS algorithm on added nodes, we only improve the low-memory implementations of the square-root BLS algorithms on added inputs and nodes, to propose the full lowmemory implementation of the square-root BLS algorithm. All the proposed low-memory BLS implementations compute the ridge solution for the output weights in the process of incremental learning, and most of them can work under very small ridge parameters.
翻訳日:2021-05-25 03:17:34 公開日:2021-05-21
# 双曲順序埋め込みの一般化誤差

Generalization Error Bound for Hyperbolic Ordinal Embedding ( http://arxiv.org/abs/2105.10475v1 )

ライセンス: Link先を確認
Atsushi Suzuki, Atsushi Nitanda, Jing Wang, Linchuan Xu, Marc Cavazza, Kenji Yamanishi(参考訳) 双曲的順序埋め込み(英語版)(HOE)は、双曲的空間の点として実体を表現し、実体 i が実体 k よりも実体 j に類似した形で与えられた制約と可能な限り一致するように表現し、双曲的空間の指数的成長特性により、知識ベースや引用ネットワークのような階層的なデータの表現を効果的に得ることが実験的に示されている。 しかし、理論解析は理想的なノイズレス設定に限定されており、双曲空間の指数表現能力に対する補償における一般化誤差は保証されていない。 その難しさは、グラミアン行列に基づく順序埋め込みの既存の一般化誤差境界は、双曲空間が内積空間ではないため、hoe では機能しないことである。 本稿では,分解したローレンツ・グラミアン行列を用いたHOEの新たな特徴付けを通じて,埋め込み空間の半径に対して最も指数関数的なHOEの一般化誤差境界を初めて提供する。 HOEとユークリッド順序埋め込みの境界の比較は、HOEの一般化誤差がその指数表現能力のコストとして妥当であることを示している。

Hyperbolic ordinal embedding (HOE) represents entities as points in hyperbolic space so that they agree as well as possible with given constraints in the form of entity i is more similar to entity j than to entity k. It has been experimentally shown that HOE can obtain representations of hierarchical data such as a knowledge base and a citation network effectively, owing to hyperbolic space's exponential growth property. However, its theoretical analysis has been limited to ideal noiseless settings, and its generalization error in compensation for hyperbolic space's exponential representation ability has not been guaranteed. The difficulty is that existing generalization error bound derivations for ordinal embedding based on the Gramian matrix do not work in HOE, since hyperbolic space is not inner-product space. In this paper, through our novel characterization of HOE with decomposed Lorentz Gramian matrices, we provide a generalization error bound of HOE for the first time, which is at most exponential with respect to the embedding space's radius. Our comparison between the bounds of HOE and Euclidean ordinal embedding shows that HOE's generalization error is reasonable as a cost for its exponential representation ability.
翻訳日:2021-05-25 03:17:06 公開日:2021-05-21
# スパマーが電子メールとTwitterネットワークに与える影響の測定

Measuring the impact of spammers on e-mail and Twitter networks ( http://arxiv.org/abs/2105.10256v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon and P. A. Gloor(参考訳) 本稿では,大量の無関係情報や非孤立情報(一般に「スパマー」と呼ばれる)の送信者が,ソーシャルネットワークのネットワーク構造を歪めているかどうかについて検討する。 大手通信企業に関するTwitterの談話から最初に抽出された2つの大きなソーシャルネットワークと、大規模多国籍企業で働く200人のマネージャによる3年間の電子メールコミュニケーションから得られた2つが分析されている。 この研究は、スパマーと最も接続の少ないノードを除去した後、ネットワークの堅牢性と中央値と相互作用メトリクスの安定性、および言語の使用を比較する。 その結果,スパマーは社会指標の大部分に対して,情報搬送ネットワークの構造を著しく変えていないことがわかった。 筆者らはさらに,プライバシの理由でメール本体の収集が許可されていない場合に対処し,言語感情や感情,複雑さを追跡することで,電子メールの主題ラインとコンテンツの相関性についても検討した。 この結果は、グラフ単純化戦略の適用後、ソーシャルネットワークメトリクスの堅牢性と安定性に関する研究を拡張した。 結果は、ネットワークアナリストや、ネットワーク分析(企業メールやソーシャルメディアデータに適用される)に頼って意思決定プロセスをサポートする企業マネージャにとって、現実的な意味を持つ。

This paper investigates the research question if senders of large amounts of irrelevant or unsolicited information - commonly called "spammers" - distort the network structure of social networks. Two large social networks are analyzed, the first extracted from the Twitter discourse about a big telecommunication company, and the second obtained from three years of email communication of 200 managers working for a large multinational company. This work compares network robustness and the stability of centrality and interaction metrics, as well as the use of language, after removing spammers and the most and least connected nodes. The results show that spammers do not significantly alter the structure of the information-carrying network, for most of the social indicators. The authors additionally investigate the correlation between e-mail subject line and content by tracking language sentiment, emotionality, and complexity, addressing the cases where collecting email bodies is not permitted for privacy reasons. The findings extend the research about robustness and stability of social networks metrics, after the application of graph simplification strategies. The results have practical implication for network analysts and for those company managers who rely on network analytics (applied to company emails and social media data) to support their decision-making processes.
翻訳日:2021-05-25 03:15:41 公開日:2021-05-21
# ビッグデータ設定における一致確率の効率的な近似

Computational Efficient Approximations of the Concordance Probability in a Big Data Setting ( http://arxiv.org/abs/2105.10392v1 )

ライセンス: Link先を確認
Robin Van Oirbeek and Jolien Ponnet and Tim Verdonck(参考訳) 統計モデルを作成すると、性能測定は必須の課題となる。 受信動作特性下のエリア(AUC)は、バイナリ分類器の品質を評価するための最も一般的な尺度である。 この場合、AUCは、モデルの識別力を評価するために頻繁に使用される基準である一致確率に等しい。 aucとは対照的に、連続応答変数で一致確率を状況に拡張することもできる。 現在、データセットが停滞しているため、この判別尺度を決定するには膨大な量のコストを要するため、連続的な応答変数の場合、非常に時間がかかります。 そこで本研究では,コンコーダンス確率を高速かつ高精度に計算し,離散設定と連続設定の両方に適用可能な2つの推定法を提案する。 広範なシミュレーション研究により、両推定器の優れた性能と高速な計算時間を示す。 最後に, 2つの実生活データを用いた実験により, 人工シミュレーションの結論が確認された。

Performance measurement is an essential task once a statistical model is created. The Area Under the receiving operating characteristics Curve (AUC) is the most popular measure for evaluating the quality of a binary classifier. In this case, AUC is equal to the concordance probability, a frequently used measure to evaluate the discriminatory power of the model. Contrary to AUC, the concordance probability can also be extended to the situation with a continuous response variable. Due to the staggering size of data sets nowadays, determining this discriminatory measure requires a tremendous amount of costly computations and is hence immensely time consuming, certainly in case of a continuous response variable. Therefore, we propose two estimation methods that calculate the concordance probability in a fast and accurate way and that can be applied to both the discrete and continuous setting. Extensive simulation studies show the excellent performance and fast computing times of both estimators. Finally, experiments on two real-life data sets confirm the conclusions of the artificial simulations.
翻訳日:2021-05-25 03:15:18 公開日:2021-05-21
# 品質多様性のメタ進化のための特徴マップとパラメータ制御の利用について

On the use of feature-maps and parameter control for improved quality-diversity meta-evolution ( http://arxiv.org/abs/2105.10317v1 )

ライセンス: Link先を確認
David M. Bossens and Danesh Tarapore(参考訳) qd(quality-diversity )アルゴリズムでは、ハイパフォーマンスなソリューションの振る舞いに多様なアーカイブを進化させるが、振る舞い空間はターゲットのアプリケーションに合わせた設計上の選択が難しい。 QDメタ進化では、QDアルゴリズムの集団を進化させ、アーカイブレベルの目的であるメタ適合性に基づいて行動空間を最適化する。 本稿では,新しいアーカイブを迅速に投入するためのデータベースを再構成し,品質の多様性の喪失を防止するメタ進化システムを提案する。(ii)ベース機能の線形変換を特徴マップに一般化し,メタ遺伝型に準じたベース機能の関数を,(iii)qdアルゴリズムの変異率とメタジェネレーション当たりの世代数を動的に制御する。 8関節の平面ロボットアームの実験は、機能マップ(線形、非線形、特徴選択)、パラメータ制御戦略(静的、内在性、強化学習、アニーリング)、および従来のMAP-エリート変種を合計49の実験条件で比較した。 その結果、非線形特徴マップと特徴選択特徴マップは、線形特徴マップよりもそれぞれ15倍と3倍のメタ適合性が向上することが明らかとなった。 トップパラメータ制御手法の強化学習ランク 最後に,このアプローチにより,ロボットアームは,ほとんどの損傷に対して80%以上,重大な損傷に対して少なくとも60%のリーチを回復することができる。

In Quality-Diversity (QD) algorithms, which evolve a behaviourally diverse archive of high-performing solutions, the behaviour space is a difficult design choice that should be tailored to the target application. In QD meta-evolution, one evolves a population of QD algorithms to optimise the behaviour space based on an archive-level objective, the meta-fitness. This paper proposes an improved meta-evolution system such that (i) the database used to rapidly populate new archives is reformulated to prevent loss of quality-diversity; (ii) the linear transformation of base-features is generalised to a feature-map, a function of the base-features parametrised by the meta-genotype; and (iii) the mutation rate of the QD algorithm and the number of generations per meta-generation are controlled dynamically. Experiments on an 8-joint planar robot arm compare feature-maps (linear, non-linear, and feature-selection), parameter control strategies (static, endogenous, reinforcement learning, and annealing), and traditional MAP-Elites variants, for a total of 49 experimental conditions. Results reveal that non-linear and feature-selection feature-maps yield a 15-fold and 3-fold improvement in meta-fitness, respectively, over linear feature-maps. Reinforcement learning ranks among top parameter control methods. Finally, our approach allows the robot arm to recover a reach of over 80% for most damages and at least 60% for severe damages.
翻訳日:2021-05-25 03:15:07 公開日:2021-05-21
# 散乱変換を用いた回転不変CNNによる画像分類

Rotation invariant CNN using scattering transform for image classification ( http://arxiv.org/abs/2105.10175v1 )

ライセンス: Link先を確認
Rosemberg Rodriguez Salas (LIGM), Eva Dokladalova (LIGM), Petr Dokl\'adal (CMM)(参考訳) 深い畳み込みニューラルネットワークの精度は、入力データの回転によって大きく影響を受ける。 本稿では,入力中の回転に不変な畳み込み予測器を提案する。 このアーキテクチャは、アングルアノテートデータなしで角方向を予測することができる。 さらに、予測器は、入力のランダムな回転を予測の円形空間に連続的にマッピングする。 この目的のために,Scattering Transform Networks に存在する Roto-translation 特性を,一連の3次元畳み込みで利用する。 直立およびランダムに回転したサンプルを用いて実験を行った。 これにより、ランダム指向データセットの自動再向き付けのようなフィールドで、この作業のさらなる応用が可能になる。

Deep convolutional neural networks accuracy is heavily impacted by rotations of the input data. In this paper, we propose a convolutional predictor that is invariant to rotations in the input. This architecture is capable of predicting the angular orientation without angle-annotated data. Furthermore, the predictor maps continuously the random rotation of the input to a circular space of the prediction. For this purpose, we use the roto-translation properties existing in the Scattering Transform Networks with a series of 3D Convolutions. We validate the results by training with upright and randomly rotated samples. This allows further applications of this work on fields like automatic re-orientation of randomly oriented datasets.
翻訳日:2021-05-25 03:14:19 公開日:2021-05-21
# 重み付き周波数領域損失に基づくオートエンコーダによる異常検出

Anomaly Detection By Autoencoder Based On Weighted Frequency Domain Loss ( http://arxiv.org/abs/2105.10214v1 )

ライセンス: Link先を確認
Masaki Nakanishi, Kazuki Sato, Hideo Terada(参考訳) 画像異常検出において、オートエンコーダは、異常を含む可能性のある入力イメージを再構築し、異常のないクリーンイメージを出力する一般的な方法である。 これらのオートエンコーダに基づく手法は、通常、再構成誤差、入力画像と再構成画像の差から異常スコアを計算する。 一方,これらの手法の多くは復元精度が不十分であり,異常検出の精度が低下する。 再建の精度を向上させるため,周波数領域における損失関数の定義を検討する。 一般に、自然画像には多くの低周波成分と少ない高周波成分が含まれている。 したがって、高周波部品の復元精度を向上させるために、重み付き周波数領域損失(WFDL)と呼ばれる新しい損失関数を導入する。 WFDLはよりシャープな再構成画像を提供し、異常検出の精度の向上に寄与する。 本稿では,MVTec ADデータセット上でのAUROCとの比較により,従来のオートエンコーダ法よりも優れていることを示す。

In image anomaly detection, Autoencoders are the popular methods that reconstruct the input image that might contain anomalies and output a clean image with no abnormalities. These Autoencoder-based methods usually calculate the anomaly score from the reconstruction error, the difference between the input image and the reconstructed image. On the other hand, the accuracy of the reconstruction is insufficient in many of these methods, so it leads to degraded accuracy of anomaly detection. To improve the accuracy of the reconstruction, we consider defining loss function in the frequency domain. In general, we know that natural images contain many low-frequency components and few high-frequency components. Hence, to improve the accuracy of the reconstruction of high-frequency components, we introduce a new loss function named weighted frequency domain loss(WFDL). WFDL provides a sharper reconstructed image, which contributes to improving the accuracy of anomaly detection. In this paper, we show our method's superiority over the conventional Autoencoder methods by comparing it with AUROC on the MVTec AD dataset.
翻訳日:2021-05-25 03:14:12 公開日:2021-05-21
# 局所パターンの弱教師付きグリーソングレーディングのための自己学習

Self-learning for weakly supervised Gleason grading of local patterns ( http://arxiv.org/abs/2105.10420v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Adri\'an Colomer, Jose Dolz and Valery Naranjo(参考訳) 前立腺がんは男性に影響を及ぼす主な疾患の1つである。 診断と予後のための金の標準は、Gleason grading systemである。 このプロセスでは、病理学者は顕微鏡下の前立腺組織学のスライドを、高い時間と主観的なタスクで手動で分析する。 近年,コンピュータ支援診断システム(CAD)は,臨床実践において病理医を支援できる有望なツールとして出現している。 それでも、これらのシステムは通常、組織内のグリーソングレードの面倒で誤りやすいピクセルレベルのアノテーションを使って訓練される。 手動のピクセルワイドラベリングの必要性を軽減するため、文献ではごく少数の作品が提示されている。 そこで本研究では,自己学習CNNに基づいて,学習中にギガピクセル全体画像のグローバルグリーソンスコアのみを利用して,パッチレベルのパターンと生検レベルのスコアを正確に評価する,弱い教師付き深層学習モデルを提案する。 提案手法の性能を評価するために,パッチレベルのGleasonグレーディングのための3つの異なる外部データセットと,グローバルグレードグループ予測のための2つの異なるテストセットについて広範な実験を行った。 提案手法は, パッチレベルのGleasonグレーティングや, バイオプシーレベルのスコアリングの最先端手法よりも優れていることを実証的に実証した。 特に、提案モデルでは、パッチレベルのGleasonグレーディングタスクのフルスーパービジョンに比べて、コーエンの2次カッパ(k)スコアが18%近く改善されている。

Prostate cancer is one of the main diseases affecting men worldwide. The gold standard for diagnosis and prognosis is the Gleason grading system. In this process, pathologists manually analyze prostate histology slides under microscope, in a high time-consuming and subjective task. In the last years, computer-aided-diagn osis (CAD) systems have emerged as a promising tool that could support pathologists in the daily clinical practice. Nevertheless, these systems are usually trained using tedious and prone-to-error pixel-level annotations of Gleason grades in the tissue. To alleviate the need of manual pixel-wise labeling, just a handful of works have been presented in the literature. Motivated by this, we propose a novel weakly-supervised deep-learning model, based on self-learning CNNs, that leverages only the global Gleason score of gigapixel whole slide images during training to accurately perform both, grading of patch-level patterns and biopsy-level scoring. To evaluate the performance of the proposed method, we perform extensive experiments on three different external datasets for the patch-level Gleason grading, and on two different test sets for global Grade Group prediction. We empirically demonstrate that our approach outperforms its supervised counterpart on patch-level Gleason grading by a large margin, as well as state-of-the-art methods on global biopsy-level scoring. Particularly, the proposed model brings an average improvement on the Cohen's quadratic kappa (k) score of nearly 18% compared to full-supervision for the patch-level Gleason grading task.
翻訳日:2021-05-25 03:13:55 公開日:2021-05-21
# WeGleNet: 前立腺組織像におけるグリーソングレードのセマンティックセグメンテーションのための弱スーパービジョン畳み込みニューラルネットワーク

WeGleNet: A Weakly-Supervised Convolutional Neural Network for the Semantic Segmentation of Gleason Grades in Prostate Histology Images ( http://arxiv.org/abs/2105.10445v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Adri\'an Colomer, Valery Naranjo(参考訳) 前立腺がんは男性に影響を及ぼす主な疾患の1つである。 gleason score systemは前立腺がんの一次診断ツールである。 これは、専門の病理学者による前立腺生検における癌パターンの視覚的解析と、Gleasonの成績を総合スコアで集計することで得られる。 コンピュータ支援診断システムにより、病理医の作業量を減らし、客観性を高めることができる。 近年,グローバルなGleasonスコアをバイオプシー/コアレベルで直接推定するアルゴリズムをグローバルなラベルで開発するための研究が進められている。 しかし、これらのアルゴリズムはグリソンパターンの組織への正確な局在をカバーしていない。 本研究では,訓練中のGleasonスコアのみを用いて前立腺組織における局所的ながんパターンを検出する深層学習システムを提案する。 本研究の方法論的コアは,特徴抽出モジュールの後,多クラスセグメンテーション層,グローバルアグリゲーション,トレーニング中のモデル損失推定のためのバックグラウンドクラスのスライシングに基づく,弱教師付き学習型畳み込みニューラルネットワークWeGleNetである。 検証コホートにおける癌パターンの画素レベル予測のために, cohen の二次 kappa (k) を 0.67 で求めた。 テストコホートにおけるgleasonグレードのセマンティクスセグメンテーションと教師付き最先端アーキテクチャの比較を行った。 画素レベルkは 0.61 であり,マクロ平均 f1 スコアは 0.58 である。 コアレベルGleasonスコアの推定では, モデルと2つの病理学者の間に0.76と0.67の値が得られた。 WeGleNetは、ピクセルレベルのアノテーションを必要とすることなく、完全に教師されたメソッドと同様に、Gleasonグレードのセマンティックセグメンテーションを実行することができる。

Prostate cancer is one of the main diseases affecting men worldwide. The Gleason scoring system is the primary diagnostic tool for prostate cancer. This is obtained via the visual analysis of cancerous patterns in prostate biopsies performed by expert pathologists, and the aggregation of the main Gleason grades in a combined score. Computer-aided diagnosis systems allow to reduce the workload of pathologists and increase the objectivity. Recently, efforts have been made in the literature to develop algorithms aiming the direct estimation of the global Gleason score at biopsy/core level with global labels. However, these algorithms do not cover the accurate localization of the Gleason patterns into the tissue. In this work, we propose a deep-learning-based system able to detect local cancerous patterns in the prostate tissue using only the global-level Gleason score during training. The methodological core of this work is the proposed weakly-supervised-tr ained convolutional neural network, WeGleNet, based on a multi-class segmentation layer after the feature extraction module, a global-aggregation, and the slicing of the background class for the model loss estimation during training. We obtained a Cohen's quadratic kappa (k) of 0.67 for the pixel-level prediction of cancerous patterns in the validation cohort. We compared the model performance for semantic segmentation of Gleason grades with supervised state-of-the-art architectures in the test cohort. We obtained a pixel-level k of 0.61 and a macro-averaged f1-score of 0.58, at the same level as fully-supervised methods. Regarding the estimation of the core-level Gleason score, we obtained a k of 0.76 and 0.67 between the model and two different pathologists. WeGleNet is capable of performing the semantic segmentation of Gleason grades similarly to fully-supervised methods without requiring pixel-level annotations.
翻訳日:2021-05-25 03:13:29 公開日:2021-05-21
# グリアソンスコアリング尺度のより深く : 前立腺生検とクリブリフォルムパターン検出のためのエンド・ツー・エンド自動システム

Going Deeper through the Gleason Scoring Scale: An Automatic end-to-end System for Histology Prostate Grading and Cribriform Pattern Detection ( http://arxiv.org/abs/2105.10490v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Adri\'an Colomer, Mar\'ia A. Sales, Rafael Molina and Valery Naranjo(参考訳) gleason score systemは、前立腺がんの診断および予後診断のためのツールである。 近年,デジタル化装置の開発に伴い,生検解析におけるコンピュータビジョン技術の利用が増加している。 しかし、著者の知る限りでは、グリアソングレード4に属する個々のクリブリックパターンを自動的に検出するアルゴリズムの開発は、文献ではまだ研究されていない。 本研究の目的は,前立腺生検の日常的分析において病理医を支援できる深層学習システムを開発することである。 この研究の方法論的コアは、がんパターンの存在を決定できる畳み込みニューラルネットワークに基づくパッチワイズ予測モデルである。 特に、単純な自己設計アーキテクチャをゼロからトレーニングします。 ネットワークの最後の畳み込み層のフィルタセットを再訓練することにより、クリュリフォームパターンを検出する。 組織内のGleasonグレードの比率を算出し,バイオプシーレベルスコアを提供する多層パーセプトロンを供給した。 私たちのSICAPv2データベースでは,182個の注釈付き全スライド画像からなり, パッチレベルのGleasonグレーディングをスクラッチからトレーニングしたアーキテクチャを用いて, コーエンの2次カッパが0.77であることを確認した。 我々の結果は、文献で報告された過去の結果を上回った。 さらに、このモデルは、患者をベースとした4つのグループ横断検証において、微調整された最先端アーキテクチャのレベルに達する。 cribriformパターン検出タスクでは,roc曲線下の領域が0.82であった。 生検Gleasonスコアでは、テストサブセットでCohen's Kappaの0.81を達成しました。 ゼロから訓練された浅層CNNアーキテクチャは、Gleasonグレード分類のための最先端の手法である。

The Gleason scoring system is the primary diagnostic and prognostic tool for prostate cancer. In recent years, with the development of digitisation devices, the use of computer vision techniques for the analysis of biopsies has increased. However, to the best of the authors' knowledge, the development of algorithms to automatically detect individual cribriform patterns belonging to Gleason grade 4 has not yet been studied in the literature. The objective of the work presented in this paper is to develop a deep-learning-based system able to support pathologists in the daily analysis of prostate biopsies. The methodological core of this work is a patch-wise predictive model based on convolutional neural networks able to determine the presence of cancerous patterns. In particular, we train from scratch a simple self-design architecture. The cribriform pattern is detected by retraining the set of filters of the last convolutional layer in the network. From the reconstructed prediction map, we compute the percentage of each Gleason grade in the tissue to feed a multi-layer perceptron which provides a biopsy-level score.mIn our SICAPv2 database, composed of 182 annotated whole slide images, we obtained a Cohen's quadratic kappa of 0.77 in the test set for the patch-level Gleason grading with the proposed architecture trained from scratch. Our results outperform previous ones reported in the literature. Furthermore, this model reaches the level of fine-tuned state-of-the-art architectures in a patient-based four groups cross validation. In the cribriform pattern detection task, we obtained an area under ROC curve of 0.82. Regarding the biopsy Gleason scoring, we achieved a quadratic Cohen's Kappa of 0.81 in the test subset. Shallow CNN architectures trained from scratch outperform current state-of-the-art methods for Gleason grades classification.
翻訳日:2021-05-25 03:12:58 公開日:2021-05-21
# 異常採掘-過去・現在・未来

Anomaly Mining -- Past, Present and Future ( http://arxiv.org/abs/2105.10077v1 )

ライセンス: Link先を確認
Leman Akoglu(参考訳) 異常マイニングは、環境監視、サイバーセキュリティ、金融、医療、医療など、現実世界のさまざまな領域で多くの応用例を見つける重要な問題である。 本稿では,(1)ポイントクラウドと(2)グラフに基づく異常マイニングの2分野に焦点を当てる。 私は,各分野の広い視点を示し,主な研究課題,最近の動向,今後の方向性について論じる。 私は重要な教訓とオープンな問題をまとめて結論付けます。

Anomaly mining is an important problem that finds numerous applications in various real world domains such as environmental monitoring, cybersecurity, finance, healthcare and medicine, to name a few. In this article, I focus on two areas, (1) point-cloud and (2) graph-based anomaly mining. I aim to present a broad view of each area, and discuss classes of main research problems, recent trends and future directions. I conclude with key take-aways and overarching open problems.
翻訳日:2021-05-25 03:11:26 公開日:2021-05-21
# クラス条件生成逆ネットワークを用いたテスト時間侵入攻撃の異常検出

Anomaly Detection of Test-Time Evasion Attacks using Class-conditional Generative Adversarial Networks ( http://arxiv.org/abs/2105.10101v1 )

ライセンス: Link先を確認
Hang Wang, David J. Miller, George Kesidis(参考訳) ディープニューラルネットワーク(DNN)は、入力に小さな変更を加えることでDNNの決定を変化させる敵(TTE)攻撃に対して脆弱であることが示されている。 本稿では,クラス条件付きジェネレーティブ・アドバイサル・ネットワーク(GAN)に基づく攻撃検出手法を提案する。 本稿では,Auxiliary Classifier GAN (ACGAN) を用いて,予測クラスラベルに条件付きクリーンデータの分布をモデル化する。 テストサンプルとその予測クラスが与えられた場合,ACGANジェネレータとディスクリミネータを用いて3つの検出統計値を算出する。 異なるTTE攻撃手法による画像分類データセットの実験により,本手法が最先端検出法より優れていることが示された。 また,異なるDNN層を用いた異常検出の有効性について検討し,DNNの出力層に近い特徴を用いた異常検出が困難であることを示す。

Deep Neural Networks (DNNs) have been shown vulnerable to adversarial (Test-Time Evasion (TTE)) attacks which, by making small changes to the input, alter the DNN's decision. We propose an attack detector based on class-conditional Generative Adversarial Networks (GANs). We model the distribution of clean data conditioned on the predicted class label by an Auxiliary Classifier GAN (ACGAN). Given a test sample and its predicted class, three detection statistics are calculated using the ACGAN Generator and Discriminator. Experiments on image classification datasets under different TTE attack methods show that our method outperforms state-of-the-art detection methods. We also investigate the effectiveness of anomaly detection using different DNN layers (input features or internal-layer features) and demonstrate that anomalies are harder to detect using features closer to the DNN's output layer.
翻訳日:2021-05-25 03:11:17 公開日:2021-05-21
# コンパクトかつ効率的なCNNモデルを用いたてんかんにおける異常脳波の自動検出

Automated Detection of Abnormal EEGs in Epilepsy With a Compact and Efficient CNN Model ( http://arxiv.org/abs/2105.10358v1 )

ライセンス: Link先を確認
Taku Shoji, Noboru Yoshida, Toshihisa Tanaka(参考訳) てんかんの診断には脳波検査(EEG)が不可欠であるが、異常の診断には専門知識と経験が必要である。 したがって、てんかんに関連する異常脳波を検出するための自動モデルを開発することが重要である。 本稿では,脳波における異常な時間間隔や電極を検出するための,コンパクトで効率的な畳み込みニューラルネットワーク(cnns)の開発について述べる。 設計モデルは、マルチチャネルEEGNet(mEEGNet)と呼ばれる脳-コンピュータインタフェース用に開発されたCNNにインスパイアされている。 EEGNetとは異なり、提案モデルであるmEEGNetは同じ数の電極入力と出力を持ち、異常を検出する。 mEEGNetは若年者および小児不在てんかん29例を専門医にラベル付けした臨床データセットで評価した。 それらのラベルは、ictal (seizure) と interictal (nonseizure) の両方で視覚的に観察された発作性放電に与えられた。 その結果、mEEGNetは、曲線下における異常脳波、F1値、および既存のCNNと同等以上の感度を検出できた。 さらに、パラメータの数は、他のcnnモデルよりもはるかに小さい。 私たちの知る限り、この研究を通じて機械学習によって検証された欠席てんかんのデータセットは、文献の中で最大である。

Electroencephalograp hy (EEG) is essential for the diagnosis of epilepsy, but it requires expertise and experience to identify abnormalities. It is thus crucial to develop automated models for the detection of abnormal EEGs related to epilepsy. This paper describes the development of a novel class of compact and efficient convolutional neural networks (CNNs) for detecting abnormal time intervals and electrodes in EEGs for epilepsy. The designed model is inspired by a CNN developed for brain-computer interfacing called multichannel EEGNet (mEEGNet). Unlike the EEGNet, the proposed model, mEEGNet, has the same number of electrode inputs and outputs to detect abnormalities. The mEEGNet was evaluated with a clinical dataset consisting of 29 cases of juvenile and childhood absence epilepsy labeled by a clinical expert. The labels were given to paroxysmal discharges visually observed in both ictal (seizure) and interictal (nonseizure) intervals. Results showed that the mEEGNet detected abnormal EEGs with the area under the curve, F1-values, and sensitivity equivalent to or higher than those of existing CNNs. Moreover, the number of parameters is much smaller than other CNN models. To our knowledge, the dataset of absence epilepsy validated with machine learning through this research is the largest in the literature.
翻訳日:2021-05-25 03:10:48 公開日:2021-05-21
# 布の平滑化のための可視接続ダイナミクスの学習

Learning Visible Connectivity Dynamics for Cloth Smoothing ( http://arxiv.org/abs/2105.10389v1 )

ライセンス: Link先を確認
Xingyu Lin, Yufei Wang, David Held(参考訳) 布のロボット操作は、布の複雑なダイナミクス、低次元の状態表現の欠如、そして自己排他性のため、ロボット工学にとって依然として困難である。 画素ベースダイナミクスモデルや圧縮潜在ベクトルダイナミクスを学習する従来のモデルベースアプローチとは対照的に,粒子ベースのダイナミクスモデルを部分点雲観測から学ぶことを提案する。 部分観測可能性の課題を克服するため,布メッシュ上にどの可視点が接続されているのかを推定する。 次に、この可視接続グラフ上で動的モデルを学びます。 従来の学習に基づくアプローチと比較して,本モデルは基礎となる布の物理を学習するための粒子ベースの表現と強い帰納バイアスを呈し,視覚的特徴に不変であり,予測をより容易に可視化することができる。 提案手法は,従来のモデルベースおよびモデルフリー強化学習法をシミュレーションで大幅に上回ることを示す。 さらに,シミュレーションで訓練されたモデルをフランカアームに展開するゼロショットsim-to-realトランスファーを実演し,クランプされた構成から異なる種類の布を滑らかにできることを示す。 ビデオはプロジェクトのWebサイトにある。

Robotic manipulation of cloth remains challenging for robotics due to the complex dynamics of the cloth, lack of a low-dimensional state representation, and self-occlusions. In contrast to previous model-based approaches that learn a pixel-based dynamics model or a compressed latent vector dynamics, we propose to learn a particle-based dynamics model from a partial point cloud observation. To overcome the challenges of partial observability, we infer which visible points are connected on the underlying cloth mesh. We then learn a dynamics model over this visible connectivity graph. Compared to previous learning-based approaches, our model poses strong inductive bias with its particle based representation for learning the underlying cloth physics; it is invariant to visual features; and the predictions can be more easily visualized. We show that our method greatly outperforms previous state-of-the-art model-based and model-free reinforcement learning methods in simulation. Furthermore, we demonstrate zero-shot sim-to-real transfer where we deploy the model trained in simulation on a Franka arm and show that the model can successfully smooth different types of cloth from crumpled configurations. Videos can be found on our project website.
翻訳日:2021-05-25 03:10:28 公開日:2021-05-21
# 交通流予測のための事故エンコーディングを用いた時空間凸系列学習

Spatial-Temporal Conv-sequence Learning with Accident Encoding for Traffic Flow Prediction ( http://arxiv.org/abs/2105.10478v1 )

ライセンス: Link先を確認
Zichuan Liu, Rui Zhang, Chen Wang, Hongbo Jiang(参考訳) インテリジェント交通システムにおいて、交通予測の重要な問題は、周期的時間的依存関係と複雑な空間的相関を抽出する方法である。 交通流予測の最先端手法は,グラフアーキテクチャやシーケンス学習モデルに基づくが,交通システムにおける空間時間的動的情報を完全に活用するものではない。 具体的には、短距離の時間的依存は繰り返しニューラルネットワークによって希釈され、畳み込み操作はグローバル平均プーリングを使用するため、既存のシーケンスモデルは局所的な空間情報を無視する。 さらに、現実世界の混雑を引き起こした物体の遷移中に、予測の偏差を増加させる交通事故が発生する。 これらの課題を克服するために、集中時間ブロックが一方向の畳み込みを用いて短期的時間的依存を効果的に捉え、空間的時間的融合モジュールが両方の相互作用の依存関係を抽出し、特徴次元を減少させることができる空間的時間的畳み込み学習(STCL)を提案する。 また,複雑な交通状況における異常を検出するために,局所的な交通渋滞や位置符号化の影響を特徴とする。 大規模実世界の課題を広範囲に実験し,提案手法の有効性を検証する。

In intelligent transportation system, the key problem of traffic forecasting is how to extract the periodic temporal dependencies and complex spatial correlation. Current state-of-the-art methods for traffic flow prediction are based on graph architectures and sequence learning models, but they do not fully exploit spatial-temporal dynamic information in traffic system. Specifically, the temporal dependence of short-range is diluted by recurrent neural networks, and existing sequence model ignores local spatial information because the convolution operation uses global average pooling. Besides, there will be some traffic accidents during the transitions of objects causing congestion in the real world that trigger increased prediction deviation. To overcome these challenges, we propose the Spatial-Temporal Conv-sequence Learning (STCL), in which a focused temporal block uses unidirectional convolution to effectively capture short-term periodic temporal dependence, and a spatial-temporal fusion module is able to extract the dependencies of both interactions and decrease the feature dimensions. Moreover, the accidents features impact on local traffic congestion and position encoding is employed to detect anomalies in complex traffic situations. We conduct extensive experiments on large-scale real-world tasks and verify the effectiveness of our proposed method.
翻訳日:2021-05-25 03:10:07 公開日:2021-05-21
# 皮膚科における拡張現実の実現に向けて : 進歩と今後の方向

Towards Realization of Augmented Intelligence in Dermatology: Advances and Future Directions ( http://arxiv.org/abs/2105.10477v1 )

ライセンス: Link先を確認
Roxana Daneshjou, Carrie Kovarik, and Justin M Ko(参考訳) 深層学習を用いた人工知能(ai)アルゴリズムは皮膚疾患の画像の分類を進歩させたが、これらのアルゴリズムは主に「シリコ」で適用され、臨床的に検証されていない。 ほとんどの皮膚科AIアルゴリズムはバイナリ分類タスク(例)を実行する。 悪性と良性病変) しかし、この課題は皮膚科医の診断範囲を表すものではない。 American Academy of Dermatology Task Force on Augmented Intelligence は、人工知能(AuI)と呼ばれる人間とコンピュータのシナジーを作るための臨床的検証の重要性を強調する立場声明を発表した。 Liu et al の最近の論文 "A Deep Learning system for differential diagnosis of skin disease" は、皮膚科におけるAIの著しい進歩を示し、臨床効果に近づいた。 しかし、このアルゴリズムが臨床ワークフローに統合される前に、大きな問題に対処する必要がある。 これらの問題には、正確かつ公平なモデル開発、適切な臨床成果の定義と評価、現実世界の統合が含まれる。

Artificial intelligence (AI) algorithms using deep learning have advanced the classification of skin disease images; however these algorithms have been mostly applied "in silico" and not validated clinically. Most dermatology AI algorithms perform binary classification tasks (e.g. malignancy versus benign lesions), but this task is not representative of dermatologists' diagnostic range. The American Academy of Dermatology Task Force on Augmented Intelligence published a position statement emphasizing the importance of clinical validation to create human-computer synergy, termed augmented intelligence (AuI). Liu et al's recent paper, "A deep learning system for differential diagnosis of skin diseases" represents a significant advancement of AI in dermatology, bringing it closer to clinical impact. However, significant issues must be addressed before this algorithm can be integrated into clinical workflow. These issues include accurate and equitable model development, defining and assessing appropriate clinical outcomes, and real-world integration.
翻訳日:2021-05-25 03:09:46 公開日:2021-05-21
# 大規模MIMOにおける深層学習に基づく入出力CSIフィードバック

Deep Learning-based Implicit CSI Feedback in Massive MIMO ( http://arxiv.org/abs/2105.10100v1 )

ライセンス: Link先を確認
Muhan Chen, Jiajia Guo, Chao-Kai Wen, Shi Jin, Geoffrey Ye Li, Ang Yang(参考訳) 基地局(BS)のダウンリンクチャネル状態情報(CSI)を利用して、大規模マルチインプットマルチアウトプットにより、より多くの性能向上を得ることができる。 そのため、周波数分割二重化システムにおける通信資源の制限によるCSIフィードバックの研究が重要である。 近年,ディープラーニング(DL)に基づくCSIフィードバックは大きな可能性を秘めている。 しかし、現在の第5世代モバイル通信プロトコルやシステムは暗黙のフィードバック機構に基づいて設計されているため、既存のDLベースの明示的なフィードバックスキームの展開は困難である。 本稿では、ニューラルネットワーク(nns)を用いてプリコーディングマトリックスインジケータ(pmi)の符号化とデコードモジュールを置き換える低オーバヘッド特性を継承するためのdlベースの暗黙的フィードバックアーキテクチャを提案する。 環境情報を利用することで、NNはプリコーディング行列とPMIの間のより洗練されたマッピングを実現することができる。 サブバンド間の相関はフィードバック性能をさらに改善するためにも用いられる。 シミュレーションの結果,1つのリソースブロック (RB) に対して,提案アーキテクチャは2つのアンテナ構成下のタイプIコードブックと比較して25.0%と40.0%のオーバーヘッドを節約できることがわかった。 52 RBの広帯域システムでは、サブバンド相関を無視および検討する場合、タイプIIのコードブックと比較してオーバーヘッドを30.7%、48.0%削減できる。

Massive multiple-input multiple-output can obtain more performance gain by exploiting the downlink channel state information (CSI) at the base station (BS). Therefore, studying CSI feedback with limited communication resources in frequency-division duplexing systems is of great importance. Recently, deep learning (DL)-based CSI feedback has shown considerable potential. However, the existing DL-based explicit feedback schemes are difficult to deploy because current fifth-generation mobile communication protocols and systems are designed based on an implicit feedback mechanism. In this paper, we propose a DL-based implicit feedback architecture to inherit the low-overhead characteristic, which uses neural networks (NNs) to replace the precoding matrix indicator (PMI) encoding and decoding modules. By using environment information, the NNs can achieve a more refined mapping between the precoding matrix and the PMI compared with codebooks. The correlation between subbands is also used to further improve the feedback performance. Simulation results show that, for a single resource block (RB), the proposed architecture can save 25.0% and 40.0% of overhead compared with Type I codebook under two antenna configurations, respectively. For a wideband system with 52 RBs, overhead can be saved by 30.7% and 48.0% compared with Type II codebook when ignoring and considering extracting subband correlation, respectively.
翻訳日:2021-05-25 03:09:30 公開日:2021-05-21
# エルゴード型 it\^o 拡散の機械学習における不変統計量の誤差境界

Error Bounds of the Invariant Statistics in Machine Learning of Ergodic It\^o Diffusions ( http://arxiv.org/abs/2105.10102v1 )

ライセンス: Link先を確認
He Zhang, John Harlim, Xiantao Li(参考訳) 本稿では,エルゴディックIt\^o拡散の機械学習の理論的基盤について考察する。 その目的は、確率微分方程式(SDE)の基礎系が教師付き回帰フレームワークを用いて経験的に推定されるとき、不変統計量の収束特性を理解することである。 エルゴード型マルコフ鎖の摂動理論と線形応答理論を用いて、ドリフト係数と拡散係数の学習における誤差に関する1点および2点不変統計量の誤差の線形依存を導出する。 さらに,この線形依存結果を達成するには,学習一般化誤差の通常の$l^2$-normのキャラクタリゼーションが不十分であることを示す。 このような線形依存結果の十分な条件は、基礎となるSDEの解の存在を保証する通常の線形成長条件のような、ドリフト係数の特定の特性を保持する仮説空間における一様リプシッツと一貫した推定器を生成する学習アルゴリズムによって得られる。 本稿では、カーネルベーススペクトル回帰法とReLUアクティベーション関数を持つ浅層ランダムニューラルネットワークの2つのよく理解された学習アルゴリズムについて検討する。

This paper studies the theoretical underpinnings of machine learning of ergodic It\^o diffusions. The objective is to understand the convergence properties of the invariant statistics when the underlying system of stochastic differential equations (SDEs) is empirically estimated with a supervised regression framework. Using the perturbation theory of ergodic Markov chains and the linear response theory, we deduce a linear dependence of the errors of one-point and two-point invariant statistics on the error in the learning of the drift and diffusion coefficients. More importantly, our study shows that the usual $L^2$-norm characterization of the learning generalization error is insufficient for achieving this linear dependence result. We find that sufficient conditions for such a linear dependence result are through learning algorithms that produce a uniformly Lipschitz and consistent estimator in the hypothesis space that retains certain characteristics of the drift coefficients, such as the usual linear growth condition that guarantees the existence of solutions of the underlying SDEs. We examine these conditions on two well-understood learning algorithms: the kernel-based spectral regression method and the shallow random neural networks with the ReLU activation function.
翻訳日:2021-05-25 03:09:08 公開日:2021-05-21
# loopnet:直感的な音楽パラメータに基づく音楽ループ合成

LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical Parameters ( http://arxiv.org/abs/2105.10371v1 )

ライセンス: Link先を確認
Pritish Chandna, Ant\'onio Ramires, Xavier Serra, Emilia G\'omez(参考訳) ループはシームレスに繰り返し可能な音楽セグメントであり、現代の音楽制作の基盤となっている。 現代のアーティストは、リズム、ハーモニー、ティンブラルのテクスチャなどの音楽的基準に基づいて、様々なサンプルや録音済みのループを混ぜ合わせて作曲することが多い。 このような基準を考慮に入れ、直観的パラメータに条件付きループを生成するフィードフォワード生成モデルであるLoopNetを提案する。 我々は、音楽情報検索(MIR)モデルと、研究における多数の公開ループサンプルを活用し、Wave-U-Netアーキテクチャを用いて制御パラメータをオーディオにマッピングする。 また、生成した音声の品質を評価し、作曲家が思考中のアイデアを音声ループにマッピングするための直感的な制御を提案する。

Loops, seamlessly repeatable musical segments, are a cornerstone of modern music production. Contemporary artists often mix and match various sampled or pre-recorded loops based on musical criteria such as rhythm, harmony and timbral texture to create compositions. Taking such criteria into account, we present LoopNet, a feed-forward generative model for creating loops conditioned on intuitive parameters. We leverage Music Information Retrieval (MIR) models as well as a large collection of public loop samples in our study and use the Wave-U-Net architecture to map control parameters to audio. We also evaluate the quality of the generated audio and propose intuitive controls for composers to map the ideas in their minds to an audio loop.
翻訳日:2021-05-25 03:08:47 公開日:2021-05-21
# リミットオーダーブックのマルチホライゾン予測--インテリジェント処理ユニットを用いた新しいディープラーニングアプローチとハードウェアアクセラレーション

Multi-Horizon Forecasting for Limit Order Books: Novel Deep Learning Approaches and Hardware Acceleration using Intelligent Processing Units ( http://arxiv.org/abs/2105.10430v1 )

ライセンス: Link先を確認
Zihao Zhang, Stefan Zohren(参考訳) 我々は、深層学習技術を用いて、リミットオーダーブック(LOB)データのためのマルチ水平予測モデルを設計する。 単一の予測を行う標準的な構造とは異なり、シーケンス列とアテンション機構を備えたエンコーダ-デコーダモデルを採用し、予測パスを生成する。 提案手法は,最先端アルゴリズムに匹敵する性能を短時間予測で達成する。 重要なのは、マルチホライズンセットアップを利用することで、長い地平線上で予測を生成する場合よりも優れています。 エンコーダ-デコーダモデルがリカレントニューラルネットワーク層に依存していることを考えると、一般的にはトレーニングプロセスが遅い。 そこで我々は,Graphcore が開発した新しいハードウェア,いわゆる Intelligent Processing Units (IPUs) の活用実験を行った。 IPUは特に、計算処理の高速化を目的とした、マシンインテリジェンスワークロード用に設計されている。 セットアップでは、GPUを使用したトレーニングモデルと比較して、トレーニング時間が大幅に短縮されることを示している。

We design multi-horizon forecasting models for limit order book (LOB) data by using deep learning techniques. Unlike standard structures where a single prediction is made, we adopt encoder-decoder models with sequence-to-sequence and Attention mechanisms, to generate a forecasting path. Our methods achieve comparable performance to state-of-art algorithms at short prediction horizons. Importantly, they outperform when generating predictions over long horizons by leveraging the multi-horizon setup. Given that encoder-decoder models rely on recurrent neural layers, they generally suffer from a slow training process. To remedy this, we experiment with utilising novel hardware, so-called Intelligent Processing Units (IPUs) produced by Graphcore. IPUs are specifically designed for machine intelligence workload with the aim to speed up the computation process. We show that in our setup this leads to significantly faster training times when compared to training models with GPUs.
翻訳日:2021-05-25 03:08:33 公開日:2021-05-21