このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210520となっている論文です。

PDF登録状況(公開日: 20210520)

TitleAuthorsAbstract論文公表日・翻訳日
# デジタル双極子拡張のためのドローンAIと3次元再構成

Drone-based AI and 3D Reconstruction for Digital Twin Augmentation ( http://arxiv.org/abs/2106.03797v1 )

ライセンス: Link先を確認
Alex To, Maican Liu, Muhammad Hazeeq Bin Muhammad Hairul, Joseph G. Davis, Jeannie S.A. Lee, Henrik Hesse and Hoang D. Nguyen(参考訳) デジタルツイン(Digital Twin)は、産業用4.0の最前線にある新興技術であり、物理空間と仮想空間を組み合わせた究極的な目標である。 これまで、Digital Twinの概念は多くのエンジニアリング分野に適用され、エンジニアリング設計、製造、自動化、建設産業の分野で有用な洞察を提供してきた。 さまざまな技術のnexusがデジタル双子の新たな機会を開く一方で、このテクノロジーは建築や建設業界で使われるビルディング情報モデルなど、さまざまなテクノロジーを統合するためのフレームワークを必要としている。 本研究では,Digital Twinフレームワークにおける異種成分を多種多様な技術からシームレスに融合するインフォメーションフュージョンフレームワークを提案する。 本研究は,無人航空機によるAIと3次元再構築を利用して,建物内のデジタルツインを強化することを目的とする。 再利用可能なカスタマイズ可能なコンポーネントを備えた,ドローンベースのデジタルツイン拡張フレームワークを提案する。 概念実証も開発され、欠陥検出のためのAIの3次元再構成と応用について広範囲な評価が行われた。

Digital Twin is an emerging technology at the forefront of Industry 4.0, with the ultimate goal of combining the physical space and the virtual space. To date, the Digital Twin concept has been applied in many engineering fields, providing useful insights in the areas of engineering design, manufacturing, automation, and construction industry. While the nexus of various technologies opens up new opportunities with Digital Twin, the technology requires a framework to integrate the different technologies, such as the Building Information Model used in the Building and Construction industry. In this work, an Information Fusion framework is proposed to seamlessly fuse heterogeneous components in a Digital Twin framework from the variety of technologies involved. This study aims to augment Digital Twin in buildings with the use of AI and 3D reconstruction empowered by unmanned aviation vehicles. We proposed a drone-based Digital Twin augmentation framework with reusable and customisable components. A proof of concept is also developed, and extensive evaluation is conducted for 3D reconstruction and applications of AI for defect detection.
翻訳日:2021-06-13 13:57:07 公開日:2021-05-20
# (参考訳) パワーレーザーによる蚊中和用RaspberryPI [全文訳有]

RaspberryPI for mosquito neutralization by power laser ( http://arxiv.org/abs/2105.14190v1 )

ライセンス: CC BY 4.0
R. Ildar(参考訳) 本稿では,マシンビジョンと1wパワーレーザーを用いた蚊の中立化に関する包括的研究を初めて検討する。 レーザーの向きをガルバノメーターで変化させるRaspberry Piによるレーザーインストレーションを開発した。 我々は蚊追跡プログラムを実際に開発した。 深層ニューラルネットワーク,haarカスケード,機械学習を用いた蚊認識の可能性を検討した。 画像中の蚊の分類問題を詳細に検討した。 マイクロコントローラに基づく装置の実装については、その後の無人航空機の一部としての使用を推奨する。 フィールド内の有害な昆虫は、制御対象として使用できる。

In this article for the first time, comprehensive studies of mosquito neutralization using machine vision and a 1 W power laser are considered. Developed laser installation with Raspberry Pi that changing the direction of the laser with a galvanometer. We developed a program for mosquito tracking in real. The possibility of using deep neural networks, Haar cascades, machine learning for mosquito recognition was considered. We considered in detail the classification problems of mosquitoes in images. A recommendation is given for the implementation of this device based on a microcontroller for subsequent use as part of an unmanned aerial vehicle. Any harmful insects in the fields can be used as objects for control.
翻訳日:2021-06-06 09:58:29 公開日:2021-05-20
# (参考訳) ディープラーニング文書レイアウト抽出のための文書領域ランダム化

Document Domain Randomization for Deep Learning Document Layout Extraction ( http://arxiv.org/abs/2105.14931v1 )

ライセンス: CC BY 4.0
Meng Ling and Jian Chen and Torsten M\"oller and Petra Isenberg and Tobias Isenberg and Michael Sedlmair and Robert S. Laramee and Han-Wei Shen and Jian Wu and C. Lee Giles(参考訳) 文書領域のランダム化(DDR)は,仮想的に描画された擬似紙ページにのみ訓練された畳み込みニューラルネットワーク(CNN)の最初の成功例である。 DDRは、ユーザが定義したレイアウトとフォントスタイルを用いて、ランダム化されたテキストコンテンツと非テキストコンテンツとをモデル化し、擬似文書ページをレンダリングする。 ベンチマークcs-150から9つのドキュメントクラスを抽出し,2つの領域で発表する論文,すなわち,計算言語学会 (acl) とieeeビジュアライゼーション (vis) の年次会合から,ddrによる比較結果を示す。 我々はDDRとスタイルミスマッチの条件を比較し、実世界でより容易に得られるノイズの多いサンプルを減らした。 意味クラスをラベル付けるには高忠実度意味情報を必要としないが,トレインとテストのスタイルミスマッチはモデルの精度を低下させる可能性がある。 より小さなトレーニングサンプルを使用すると、わずかに有害な効果があった。 最後に、正しいラベルが混乱するラベルに向かって希釈される場合、ネットワークモデルはまだ高いテスト精度を達成している。

We present document domain randomization (DDR), the first successful transfer of convolutional neural networks (CNNs) trained only on graphically rendered pseudo-paper pages to real-world document segmentation. DDR renders pseudo-document pages by modeling randomized textual and non-textual contents of interest, with user-defined layout and font styles to support joint learning of fine-grained classes. We demonstrate competitive results using our DDR approach to extract nine document classes from the benchmark CS-150 and papers published in two domains, namely annual meetings of Association for Computational Linguistics (ACL) and IEEE Visualization (VIS). We compare DDR to conditions of style mismatch, fewer or more noisy samples that are more easily obtained in the real world. We show that high-fidelity semantic information is not necessary to label semantic classes but style mismatch between train and test can lower model accuracy. Using smaller training samples had a slightly detrimental effect. Finally, network models still achieved high test accuracy when correct labels are diluted towards confusing labels; this behavior hold across several classes.
翻訳日:2021-06-06 09:53:07 公開日:2021-05-20
# MBIC -- アノテーション特性を含むメディアバイアスアノテーションデータセット

MBIC -- A Media Bias Annotation Dataset Including Annotator Characteristics ( http://arxiv.org/abs/2105.11910v1 )

ライセンス: Link先を確認
T. Spinde, L. Rudnitckaia, K. Sinha, F. Hamborg, B. Gipp, K. Donnay(参考訳) 多くの人は、ニュース記事は現在の出来事に関する情報の信頼できる情報源だと考えている。 しかし、報道機関に影響を及ぼす要因が多岐にわたるため、そのような報道は必ずしも公平ではない。 メディアの偏見、あるいはスライスされたニュース報道は、出来事に対する大衆の認識に重大な影響を与え、それゆえ、大衆の信念や見解を変える可能性がある。 メディアバイアス検出に関する現在の研究の主なデータギャップは、バイアス付き単語と文のアノテーションを含む頑健で代表的で多様なデータセットである。 特に、既存のデータセットはアノテータの個々の背景を制御せず、アノテータの評価に影響を与える可能性があるため、アノテーションを文脈化するための重要な情報を表す。 本稿では,自己開発したアノテーションプラットフォームを用いて,データをクラウドソースするためのマトリックスベース手法を提案する。 MBIC(Media Bias Inclusion Characteristics)も紹介する。メディアバイアスインスタンスを表す1,700のステートメントの最初のサンプルである。 文章は10の注釈者によってレビューされ、単語レベルと文レベルの両方でメディアバイアス識別のためのラベルが含まれている。 MBICは、アノテータの特徴とその個々の背景に関する詳細な情報を報告しているメディアバイアスに関する最初のデータセットである。 現在のデータセットは、この領域の既存のデータをかなり拡張しており、バイアスの知覚に関するユニークで信頼性の高い洞察を提供する。 将来的には、記事数と記事あたりのアノテータ数に関して、さらに拡張します。

Many people consider news articles to be a reliable source of information on current events. However, due to the range of factors influencing news agencies, such coverage may not always be impartial. Media bias, or slanted news coverage, can have a substantial impact on public perception of events, and, accordingly, can potentially alter the beliefs and views of the public. The main data gap in current research on media bias detection is a robust, representative, and diverse dataset containing annotations of biased words and sentences. In particular, existing datasets do not control for the individual background of annotators, which may affect their assessment and, thus, represents critical information for contextualizing their annotations. In this poster, we present a matrix-based methodology to crowdsource such data using a self-developed annotation platform. We also present MBIC (Media Bias Including Characteristics) - the first sample of 1,700 statements representing various media bias instances. The statements were reviewed by ten annotators each and contain labels for media bias identification both on the word and sentence level. MBIC is the first available dataset about media bias reporting detailed information on annotator characteristics and their individual background. The current dataset already significantly extends existing data in this domain providing unique and more reliable insights into the perception of bias. In future, we will further extend it both with respect to the number of articles and annotators per article.
翻訳日:2021-06-06 08:53:01 公開日:2021-05-20
# (参考訳) 世代交叉ネットワークを用いた新型コロナウイルス胸部CT画像の生成 [全文訳有]

Generation of COVID-19 Chest CT Scan Images using Generative Adversarial Networks ( http://arxiv.org/abs/2105.11241v1 )

ライセンス: CC BY 4.0
Prerak Mann, Sahaj Jain, Saurabh Mittal, Aruna Bhat(参考訳) SARS-CoV-2(英語:SARS-CoV-2)は、新型コロナウイルス(COVID-19)またはコロナウイルス(Coronavirus)とも呼ばれる、新型コロナウイルスに感染するウイルス感染症である。 拡散を減らすために人々をテストし、分離することが非常に重要であり、ここからは、これを迅速かつ効率的に行う必要がある。 いくつかの研究によると、Chest-CTは新型コロナウイルス患者の診断において、現在の標準であるRT-PCR検査を上回っている。 このため、コンピュータビジョンの研究者たちは、Chest-CTスキャンを使って新型コロナウイルスを予測する様々なディープラーニングシステムを開発した。 cnn(convolutional neural network)のようなディープラーニングニューラルネットワークは、高品質な結果を生み出すためにトレーニングのためにかなりの量のデータを必要とするため、これらのシステムの精度は限られている。 比較的最近の疾患であり、CXR(Chest XRay)画像に焦点が当てられているため、利用可能な胸部CTスキャン画像データセットははるかに少ない。 そこで本研究では,gansを用いて陽性例と陰性例の胸部ct画像を生成する方法を提案する。 事前に構築した予測モデルを用いて、生成された画像の約40%が新型コロナウイルス陽性と正しく予測されていると結論づけた。 このように生成されたデータセットは、CNNベースの分類器のトレーニングに使用することができる。

SARS-CoV-2, also known as COVID-19 or Coronavirus, is a viral contagious disease that is infected by a novel coronavirus, and has been rapidly spreading across the globe. It is very important to test and isolate people to reduce spread, and from here comes the need to do this quickly and efficiently. According to some studies, Chest-CT outperforms RT-PCR lab testing, which is the current standard, when diagnosing COVID-19 patients. Due to this, computer vision researchers have developed various deep learning systems that can predict COVID-19 using a Chest-CT scan correctly to a certain degree. The accuracy of these systems is limited since deep learning neural networks such as CNNs (Convolutional Neural Networks) need a significantly large quantity of data for training in order to produce good quality results. Since the disease is relatively recent and more focus has been on CXR (Chest XRay) images, the available chest CT Scan image dataset is much less. We propose a method, by utilizing GANs, to generate synthetic chest CT images of both positive and negative COVID-19 patients. Using a pre-built predictive model, we concluded that around 40% of the generated images are correctly predicted as COVID-19 positive. The dataset thus generated can be used to train a CNN-based classifier which can help determine COVID-19 in a patient with greater accuracy.
翻訳日:2021-05-29 19:56:05 公開日:2021-05-20
# (参考訳) イベントBにおける生物学のスケーラブルなモデリングに向けて [全文訳有]

Towards Scalable Modeling of Biology in Event-B ( http://arxiv.org/abs/2105.10344v1 )

ライセンス: CC BY 4.0
Usman Sanwal, Thai Son Hoang, Luigia Petre and Ion Petre(参考訳) 生物学は、大規模で複雑な並列システムの多くの例を提供している: 多くのプロセスは並列に行われ、リソースを競い合い、互いの振る舞いに影響を与える。 生物学的システムのスケーラブルなモデリングは非常に活発な研究分野である。 本稿では,改良を主成分とするステートベースの形式的手法であるEvent-Bに基づく新しい手法を提案する。 関数に基づくアプローチは,エレガントで簡潔なモデリング手法をもたらす。 本稿では,ErbBシグナル伝達経路を記述した,これまでに構築された最大のEvent-Bモデルを構築することで,このアプローチを実証する。 ErbB経路のEvent-Bモデルは242のイベントを通して1320の分子反応を記述する。

Biology offers many examples of large-scale, complex, concurrent systems: many processes take place in parallel, compete on resources and influence each other's behavior. The scalable modeling of biological systems continues to be a very active field of research. In this paper we introduce a new approach based on Event-B, a state-based formal method with refinement as its central ingredient, allowing us to check for model consistency step-by-step in an automated way. Our approach based on functions leads to an elegant and concise modeling method. We demonstrate this approach by constructing what is, to our knowledge, the largest ever built Event-B model, describing the ErbB signaling pathway, a key evolutionary pathway with a significant role in development and in many types of cancer. The Event-B model for the ErbB pathway describes 1320 molecular reactions through 242 events.
翻訳日:2021-05-29 19:25:23 公開日:2021-05-20
# (参考訳) テンソル因子化と知識グラフ埋め込みを用いた薬物標的予測 [全文訳有]

Predicting Potential Drug Targets Using Tensor Factorisation and Knowledge Graph Embeddings ( http://arxiv.org/abs/2105.10578v1 )

ライセンス: CC BY 4.0
Cheng Ye, Rowan Swiers, Stephen Bonner, Ian Barrett(参考訳) 薬の発見と開発プロセスは長く高価なプロセスであり、1薬当たり平均で10億米ドル以上かかり、10~15年かかる。 近年,創薬過程の様々な段階に機械学習手法を適用することへの関心が高まっており,その最初期の段階である創薬性疾患遺伝子の同定などが行われている。 本稿では,疾患に対する薬物標的(遺伝子やタンパク質)を予測するための新しいテンソル因子化モデルを開発した。 我々は,オープンターゲットと薬局データベースから抽出したデータを用いて,1,048 のターゲット 860 の疾患と 230,011 のエビデンス属性と臨床結果からなる三次元テンソルを作成した。 薬物発見指向の知識グラフから得られた遺伝子表現を用いてデータを豊かにし,提案手法を適用し,未確認ターゲットと解離ペアの臨床結果を予測する。 予測性能を評価するための3つの評価戦略を設計し、一般的な機械学習分類器を行列およびテンソル分解法とともにベンチマークした。 その結果,知識グラフ埋め込みを組み込むことで予測精度が大幅に向上し,密集したニューラルネットワークとともにテンソル分解のトレーニングが他の手法を上回ることがわかった。 まとめると、このフレームワークは病気ターゲット識別のための機械学習アプローチであるテンソル分解とナレッジグラフ表現学習の2つを積極的に研究している。

The drug discovery and development process is a long and expensive one, costing over 1 billion USD on average per drug and taking 10-15 years. To reduce the high levels of attrition throughout the process, there has been a growing interest in applying machine learning methodologies to various stages of drug discovery process in the recent decade, including at the earliest stage - identification of druggable disease genes. In this paper, we have developed a new tensor factorisation model to predict potential drug targets (i.e.,genes or proteins) for diseases. We created a three dimensional tensor which consists of 1,048 targets, 860 diseases and 230,011 evidence attributes and clinical outcomes connecting them, using data extracted from the Open Targets and PharmaProjects databases. We enriched the data with gene representations learned from a drug discovery-oriented knowledge graph and applied our proposed method to predict the clinical outcomes for unseen target and dis-ease pairs. We designed three evaluation strategies to measure the prediction performance and benchmarked several commonly used machine learning classifiers together with matrix and tensor factorisation methods. The result shows that incorporating knowledge graph embeddings significantly improves the prediction accuracy and that training tensor factorisation alongside a dense neural network outperforms other methods. In summary, our framework combines two actively studied machine learning approaches to disease target identification, tensor factorisation and knowledge graph representation learning, which could be a promising avenue for further exploration in data-driven drug discovery.
翻訳日:2021-05-29 18:57:32 公開日:2021-05-20
# (参考訳) 低ランクテンソル補完による誤り回復型協調知能 [全文訳有]

Error Resilient Collaborative Intelligence via Low-Rank Tensor Completion ( http://arxiv.org/abs/2105.10341v1 )

ライセンス: CC BY 4.0
Lior Bragilevsky and Ivan V. Baji\'c(参考訳) 人工知能(AI)をエッジに持ち込むレースにおいて、ディープニューラルネットワーク(DNN)に基づいたアプリケーションを実行するエッジデバイス上での計算負荷を軽くする方法として、コラボレーティブインテリジェンスが登場した。 通常、深いモデルは特定の層でエッジとクラウドのサブモデルに分割される。 エッジサブモデルによって生成された深い特徴テンソルはクラウドに送信され、残りの計算集約的なワークロードはクラウドサブモデルによって実行される。 エッジとクラウド間の通信チャネルは不完全であり、クラウド側で受信される深い特徴テンソルのデータが失われることになります。 本研究では, 4つの低ランクテンソル補完法が, 深層特徴テンソルにおける欠落データの復元に有効であることを示す。 我々は、VGG16モデルで生成されたようなスパーステンソルと、ResNet34モデルで生成されたようなスパーステンソルの両方を考慮する。 コンプレキシティ制約と非拘束シナリオの両方におけるテンソル補完の有効性について検討した。

In the race to bring Artificial Intelligence (AI) to the edge, collaborative intelligence has emerged as a promising way to lighten the computation load on edge devices that run applications based on Deep Neural Networks (DNNs). Typically, a deep model is split at a certain layer into edge and cloud sub-models. The deep feature tensor produced by the edge sub-model is transmitted to the cloud, where the remaining computationally intensive workload is performed by the cloud sub-model. The communication channel between the edge and cloud is imperfect, which will result in missing data in the deep feature tensor received at the cloud side. In this study, we examine the effectiveness of four low-rank tensor completion methods in recovering missing data in the deep feature tensor. We consider both sparse tensors, such as those produced by the VGG16 model, as well as non-sparse tensors, such as those produced by ResNet34 model. We study tensor completion effectiveness in both conplexity-constrain ed and unconstrained scenario.
翻訳日:2021-05-29 18:39:23 公開日:2021-05-20
# (参考訳) 境界資源としての注意を伴うてんかん計画 [全文訳有]

Epistemic Planning with Attention as a Bounded Resource ( http://arxiv.org/abs/2105.09976v1 )

ライセンス: CC BY 4.0
Gaia Belardinelli and Rasmus K. Rendsvig(参考訳) 情報が豊富に増えていくと、注目は乏しい資源となる。 結果として、エージェントは認識効率を達成するためにどのように注意を向けるかを賢明に計画しなければならない。 本稿では,DEL(Dynamic Epistemic Logic)に基づくマルチエージェント・エピステミック・プランニングの枠組みについて述べる。 我々は,このフレームワークを標準DELの断片として認識し,その計画の存在問題を考察する。 一般的な場合では決定不可能であるが、学習に注意が必要な場合、問題のすべての事例が決定可能であることを示す。

Where information grows abundant, attention becomes a scarce resource. As a result, agents must plan wisely how to allocate their attention in order to achieve epistemic efficiency. Here, we present a framework for multi-agent epistemic planning with attention, based on Dynamic Epistemic Logic (DEL, a powerful formalism for epistemic planning). We identify the framework as a fragment of standard DEL, and consider its plan existence problem. While in the general case undecidable, we show that when attention is required for learning, all instances of the problem are decidable.
翻訳日:2021-05-29 18:34:10 公開日:2021-05-20
# (参考訳) 不確実性伝播を伴うディープラーニング教材法則の解釈型因果関係の探索

Data-driven discovery of interpretable causal relations for deep learning material laws with uncertainty propagation ( http://arxiv.org/abs/2105.09980v1 )

ライセンス: CC BY 4.0
Xiao Sun, Bahador Bahmani, Nikolaos N. Vlassis, WaiChing Sun, Yanxun Xu(参考訳) 本稿では,不確実量化(UQ)を伴うアンサンブル予測力学モデルを生成する計算フレームワークを提案する。 まず,各代表体積要素(RVE)シミュレーションで測定された時系列データ間の因果関係を,有向非巡回グラフ(DAG)を用いて推定する因果関係探索アルゴリズムを開発した。 複数のRVEシミュレーションから推定される複数の因果関係を推定し,不確実性の定量化のためのベイズ近似としてドロップアウト層を備えたディープニューラルネットワークを用いて,導出した因果グラフに予測を伝搬する。 土木工学応用における共通材料法予測のための因果発見手法の精度と堅牢性を検討するために, 代表的な2つの数値例(摩擦界面のトラクション分離法, 粒状アセンブルのエラスト塑性モデル)を選択した。

This paper presents a computational framework that generates ensemble predictive mechanics models with uncertainty quantification (UQ). We first develop a causal discovery algorithm to infer causal relations among time-history data measured during each representative volume element (RVE) simulation through a directed acyclic graph (DAG). With multiple plausible sets of causal relationships estimated from multiple RVE simulations, the predictions are propagated in the derived causal graph while using a deep neural network equipped with dropout layers as a Bayesian approximation for uncertainty quantification. We select two representative numerical examples (traction-separation laws for frictional interfaces, elastoplasticity models for granular assembles) to examine the accuracy and robustness of the proposed causal discovery method for the common material law predictions in civil engineering applications.
翻訳日:2021-05-29 17:55:36 公開日:2021-05-20
# (参考訳) 自然刺激型アルゴリズムを用いたニューラルネットワーク重みの最適化 [全文訳有]

Optimizing Neural Network Weights using Nature-Inspired Algorithms ( http://arxiv.org/abs/2105.09983v1 )

ライセンス: CC BY 4.0
Wael Korani, Malek Mouhoub and Samira Sadaoui(参考訳) 本研究の目的は、PSO、MTO、およびその変種であるMTOCLのような自然に着想を得た最適化アルゴリズムを用いて、DFNN(Deep Feedforward Neural Networks)トレーニングを最適化することである。 データから学習する際のDFNNの重みを効率的に更新する方法を示す。 ウィスコンシン州における3つの乳がんデータセット(オリジナル,診断,予後)を用いた最適化アルゴリズムによるDFNNの性能評価を行った。 経験的分析は、MTOCLが3つのデータセットのほとんどのシナリオで最もパフォーマンスが高いことを示している。 また、MTOCLは元のデータセットの過去の重み付け最適化アルゴリズムに匹敵するものであり、他のデータセットよりも優れている。

This study aims to optimize Deep Feedforward Neural Networks (DFNNs) training using nature-inspired optimization algorithms, such as PSO, MTO, and its variant called MTOCL. We show how these algorithms efficiently update the weights of DFNNs when learning from data. We evaluate the performance of DFNN fused with optimization algorithms using three Wisconsin breast cancer datasets, Original, Diagnostic, and Prognosis, under different experimental scenarios. The empirical analysis demonstrates that MTOCL is the most performing in most scenarios across the three datasets. Also, MTOCL is comparable to past weight optimization algorithms for the original dataset, and superior for the other datasets, especially for the challenging Prognostic dataset.
翻訳日:2021-05-29 17:54:30 公開日:2021-05-20
# (参考訳) 雑音条件下でのモデルフェアネスの測定:理論的展望 [全文訳有]

Measuring Model Fairness under Noisy Covariates: A Theoretical Perspective ( http://arxiv.org/abs/2105.09985v1 )

ライセンス: CC BY 4.0
Flavien Prost, Pranjal Awasthi, Nick Blumm, Aditee Kumthekar, Trevor Potter, Li Wei, Xuezhi Wang, Ed H. Chi, Jilin Chen, Alex Beutel(参考訳) 本研究は,雑音情報に基づく機械学習モデルの公平性の測定問題について考察する。 グループフェアネスの指標に着目し、評価が共変量変数の共起効果の制御を必要とする場合、特に、一般的な状況について検討する。 現実的な環境では、共変量とグループ情報を共同で観測することはできないかもしれないし、標準的な回避策は、これらの変数の1つ以上のプロキシを使用することである。 先行研究は、敏感な属性に対してプロキシを使用する際の課題を実証し、ノイズの多い見積もりの正確性を保証するために強い独立性仮定が必要である。 これとは対照的に,共変量変数のプロキシを用いて検討し,精度の高いフェアネス評価が可能な弱い条件を特徴付ける理論解析を行った。 さらに、我々の理論は潜在的な誤差の原因を特定し、2つの解釈可能な部分 $\gamma$ と $\epsilon$ に分解する。 第1部$\gamma$は、精度やリコールのようなプロキシのパフォーマンスにのみ依存するが、第2部$\epsilon$は、関心のあるすべての変数間の相関をキャプチャする。 多くのシナリオにおいて、推定における誤差は線形依存を介して$\gamma$で支配されるが、相関への依存は$\epsilon$は下位項のみを構成する。 その結果、プロキシによるモデルフェアネスの測定が効果的なアプローチとなるシナリオの理解を深めることができた。 最後に,理論上の上限とシミュレーションによる推定誤差の分布を比較し,データ上の何らかの構造が弱いと仮定することが,理論的な保証と経験的結果の両方を著しく改善する鍵であることを示す。

In this work we study the problem of measuring the fairness of a machine learning model under noisy information. Focusing on group fairness metrics, we investigate the particular but common situation when the evaluation requires controlling for the confounding effect of covariate variables. In a practical setting, we might not be able to jointly observe the covariate and group information, and a standard workaround is to then use proxies for one or more of these variables. Prior works have demonstrated the challenges with using a proxy for sensitive attributes, and strong independence assumptions are needed to provide guarantees on the accuracy of the noisy estimates. In contrast, in this work we study using a proxy for the covariate variable and present a theoretical analysis that aims to characterize weaker conditions under which accurate fairness evaluation is possible. Furthermore, our theory identifies potential sources of errors and decouples them into two interpretable parts $\gamma$ and $\epsilon$. The first part $\gamma$ depends solely on the performance of the proxy such as precision and recall, whereas the second part $\epsilon$ captures correlations between all the variables of interest. We show that in many scenarios the error in the estimates is dominated by $\gamma$ via a linear dependence, whereas the dependence on the correlations $\epsilon$ only constitutes a lower order term. As a result we expand the understanding of scenarios where measuring model fairness via proxies can be an effective approach. Finally, we compare, via simulations, the theoretical upper-bounds to the distribution of simulated estimation errors and show that assuming some structure on the data, even weak, is key to significantly improve both theoretical guarantees and empirical results.
翻訳日:2021-05-29 17:33:11 公開日:2021-05-20
# (参考訳) 低、中、高強度運動時のウェアラブルセンサからの酸素摂取動態の時間的予測 [全文訳有]

Temporal prediction of oxygen uptake dynamics from wearable sensors during low-, moderate-, and heavy-intensity exercise ( http://arxiv.org/abs/2105.09987v1 )

ライセンス: CC BY 4.0
Robert Amelard, Eric T Hedge, Richard L Hughson(参考訳) 酸素消費量(VO$_2$)は、心呼吸機能と運動能力の確立した臨床および生理学的指標を提供する。 しかし、VO$_2$モニタリングは特定の実験室の設定に限られており、広範囲にわたる監視が可能である。 本稿では,時間的畳み込みネットワーク(TCN)を用いた周期エルゴメータ運動時のVO$_2$の時間的予測について検討する。 心臓呼吸信号は,21歳の健常成人のメタボリック・システムから,接地トラスVO$2$と共に繊維センサーを内蔵したスマートシャツから取得した。 参加者はVO$_2$ダイナミックスの範囲を評価するために、1つのランプインクリメンタルと3つの擬似ランダムバイナリシーケンスエクササイズプロトコルを実行した。 TCNモデルは, VO$_2$の時間依存性の性質をモデル化するために, 有効履歴長の因果畳み込みを用いて開発された。 最適な履歴長は、ハイパーパラメータ値の最小検証損失によって決定される。 最高の性能モデルでは、218 s の履歴長 (TCN-VO$_2$A) を符号化し、187 s, 97 s, 76 s は最適な検証損失から 3% 未満のずれを生じる。 tcn-vo$_2$ a は、すべての運動強度 (-22 ml.min$^{-1}$, [-262, 218]) において強い予測精度 (平均, 95% ci) を示し、低モード (-23 ml.min$^{-1}$, [-250, 204]) 、低重 (14 ml.min$^{-1}$, [-252, 280]) 、換気しきい値 (-49 ml.min$^{-1}$, [-274, 176]) 、極大 (-32 ml.min$^{-1}$, [-261, 197]) の運動から遷移した。 16090sの予測VO$_2$の物理活性を秒単位に分類すると、活力、適度、光の活性を高い精度で識別できる(94.1%)。 本システムは,エクササイズ適応と個人適合性を監視するウェアラブルセンサを用いて,非作業環境における定量的なエアロビクスモニタリングを可能にする。

Oxygen consumption (VO$_2$) provides established clinical and physiological indicators of cardiorespiratory function and exercise capacity. However, VO$_2$ monitoring is largely limited to specialized laboratory settings, making its widespread monitoring elusive. Here, we investigate temporal prediction of VO$_2$ from wearable sensors during cycle ergometer exercise using a temporal convolutional network (TCN). Cardiorespiratory signals were acquired from a smart shirt with integrated textile sensors alongside ground-truth VO$_2$ from a metabolic system on twenty-two young healthy adults. Participants performed one ramp-incremental and three pseudorandom binary sequence exercise protocols to assess a range of VO$_2$ dynamics. A TCN model was developed using causal convolutions across an effective history length to model the time-dependent nature of VO$_2$. Optimal history length was determined through minimum validation loss across hyperparameter values. The best performing model encoded 218 s history length (TCN-VO$_2$ A), with 187 s, 97 s, and 76 s yielding less than 3% deviation from the optimal validation loss. TCN-VO$_2$ A showed strong prediction accuracy (mean, 95% CI) across all exercise intensities (-22 ml.min$^{-1}$, [-262, 218]), spanning transitions from low-moderate (-23 ml.min$^{-1}$, [-250, 204]), low-heavy (14 ml.min$^{-1}$, [-252, 280]), ventilatory threshold-heavy (-49 ml.min$^{-1}$, [-274, 176]), and maximal (-32 ml.min$^{-1}$, [-261, 197]) exercise. Second-by-second classification of physical activity across 16090 s of predicted VO$_2$ was able to discern between vigorous, moderate, and light activity with high accuracy (94.1%). This system enables quantitative aerobic activity monitoring in non-laboratory settings across a range of exercise intensities using wearable sensors for monitoring exercise prescription adherence and personal fitness.
翻訳日:2021-05-29 17:04:49 公開日:2021-05-20
# (参考訳) マルチシステムデータHVACに基づくXGBoostエネルギー消費予測 [全文訳有]

XGBoost energy consumption prediction based on multi-system data HVAC ( http://arxiv.org/abs/2105.09945v1 )

ライセンス: CC BY 4.0
Yunlong Li, Yiming Peng, Dengzheng Zhang, Yingan Mai, Zhengrong Ruan(参考訳) HVACシステムのエネルギー消費は、公共建築システムのエネルギー消費のかなりの部分を占めており、効率的なエネルギー消費予測モデルを用いることで、効率的な省エネ変換を実現するのに役立てることができる。 従来のエネルギー消費予測モデルとは異なり,本論文では,XGBoostを用いて大規模データセットから特徴を抽出し,複数のモデルを得るように個別に訓練し,また,MAEを用いて LightGBM の独立予測結果と融合し,エネルギー消費関連変数を推定し,このモデルを自己開発型 Internet of Things プラットフォームに適用することに成功した。

The energy consumption of the HVAC system accounts for a significant portion of the energy consumption of the public building system, and using an efficient energy consumption prediction model can assist it in carrying out effective energy-saving transformation. Unlike the traditional energy consumption prediction model, this paper extracts features from large data sets using XGBoost, trains them separately to obtain multiple models, then fuses them with LightGBM's independent prediction results using MAE, infers energy consumption related variables, and successfully applies this model to the self-developed Internet of Things platform.
翻訳日:2021-05-29 16:36:34 公開日:2021-05-20
# (参考訳) マルチグループAgnostic PAC学習性 [全文訳有]

Multi-group Agnostic PAC Learnability ( http://arxiv.org/abs/2105.09989v1 )

ライセンス: CC BY 4.0
Guy N Rothblum, Gal Yona(参考訳) Agnostic PAC学習アルゴリズムは、与えられた損失関数に対して競合性を測定するベンチマーク仮説クラスにおいて、最良の予測子と競合する予測子を求める。 しかし、その予測は保護された集団のような個人の構造化されたサブグループにとって非常に最適であるかもしれない。 損失の尺度、ベンチマーククラス$\H$、および(潜在的に)豊富なサブグループのコレクションを固定すること。 目的は、すべてのグループ$g \in \G$が経験した損失が、$\H$内でこのグループにとって可能な限りの損失よりもそれほど大きくないように、単一の予測子を学習することである。 自然条件下では,そのような予測器が存在することを保証した損失関数のキャラクタリゼーションを提供する。 そのような損失関数に対して、サンプルの複雑さがコレクションサイズ$$G$の対数性を持つ学習アルゴリズムを構築する。 本結果は, 特定の損失関数に適用した多群フェアネス文献から, 先行の正および負の結果を統一し, 拡張するものである。

An agnostic PAC learning algorithm finds a predictor that is competitive with the best predictor in a benchmark hypothesis class, where competitiveness is measured with respect to a given loss function. However, its predictions might be quite sub-optimal for structured subgroups of individuals, such as protected demographic groups. Motivated by such fairness concerns, we study "multi-group agnostic PAC learnability": fixing a measure of loss, a benchmark class $\H$ and a (potentially) rich collection of subgroups $\G$, the objective is to learn a single predictor such that the loss experienced by every group $g \in \G$ is not much larger than the best possible loss for this group within $\H$. Under natural conditions, we provide a characterization of the loss functions for which such a predictor is guaranteed to exist. For any such loss function we construct a learning algorithm whose sample complexity is logarithmic in the size of the collection $\G$. Our results unify and extend previous positive and negative results from the multi-group fairness literature, which applied for specific loss functions.
翻訳日:2021-05-29 16:30:47 公開日:2021-05-20
# (参考訳) カーネルステインの異性度低下 [全文訳有]

Kernel Stein Discrepancy Descent ( http://arxiv.org/abs/2105.09994v1 )

ライセンス: CC BY 4.0
Anna Korba, Pierre-Cyril Aubin-Frankowski, Szymon Majewski, Pierre Ablin(参考訳) 確率分布の相違の中で、KSD (Kernel Stein Discrepancy) は近年大きな関心を集めている。 正規化定数まで知られている$\mathbb{r}^d$ 上の目標確率分布 $\pi$ を近似するために,wasserstein勾配流の特性を調べる。 これにより、簡単に実装可能で決定論的なスコアベースの手法が、約$\pi$の粒子を用いた ksd 降下と呼ばれる$\pi$ からサンプルされる。 注目すべきは、トラクタブルロス関数のため、KSD DescentはL-BFGSのようなロバストなパラメータフリー最適化スキームを利用することができ、これはスタイン変分勾配Descentアルゴリズムのような他の一般的な粒子ベースのスキームとは対照的である。 KSD Descent の収束特性について検討し,その実用的妥当性を実証する。 しかし,局所的ミニマムにアルゴリズムが立ち往生する可能性を示すことで,障害事例も強調する。

Among dissimilarities between probability distributions, the Kernel Stein Discrepancy (KSD) has received much interest recently. We investigate the properties of its Wasserstein gradient flow to approximate a target probability distribution $\pi$ on $\mathbb{R}^d$, known up to a normalization constant. This leads to a straightforwardly implementable, deterministic score-based method to sample from $\pi$, named KSD Descent, which uses a set of particles to approximate $\pi$. Remarkably, owing to a tractable loss function, KSD Descent can leverage robust parameter-free optimization schemes such as L-BFGS; this contrasts with other popular particle-based schemes such as the Stein Variational Gradient Descent algorithm. We study the convergence properties of KSD Descent and demonstrate its practical relevance. However, we also highlight failure cases by showing that the algorithm can get stuck in spurious local minima.
翻訳日:2021-05-28 15:25:20 公開日:2021-05-20
# (参考訳) VLM:ビデオ理解のためのタスク非依存ビデオ言語モデル事前学習 [全文訳有]

VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding ( http://arxiv.org/abs/2105.09996v1 )

ライセンス: CC BY 4.0
Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer(参考訳) 本稿では,ビデオ入力とテキスト入力のどちらでも受理可能な,タスクに依存しないマルチモーダル事前学習手法を提案する。 既存の事前訓練は、両方のモダリティを必要とする単一のクロスモーダルエンコーダを採用し、検索スタイルのエンドタスクの使用を制限するか、2つの非モーダルエンコーダによるより複雑なマルチタスク学習を制限し、初期のクロスモーダル融合を制限することでタスク固有のものである。 代わりに、モダリティ(例えば、モダリティ)をよりうまく混合する、新しい事前訓練マスキングスキームを導入する。 テキストに最も近いビデオ埋め込みを予測するためにマスクを強制すると同時に、分離性(例)を維持している。 すべての入力を使わずに、一助予測が時々必要となる。 実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。

We present a simplified, task-agnostic multi-modal pre-training approach that can accept either video or text input, or both for a variety of end tasks. Existing pre-training are task-specific by adopting either a single cross-modal encoder that requires both modalities, limiting their use for retrieval-style end tasks or more complex multitask learning with two unimodal encoders, limiting early cross-modal fusion. We instead introduce new pretraining masking schemes that better mix across modalities (e.g. by forcing masks for text to predict the closest video embeddings) while also maintaining separability (e.g. unimodal predictions are sometimes required, without using all the input). Experimental results show strong performance across a wider range of tasks than any previous methods, often outperforming task-specific pre-training.
翻訳日:2021-05-28 13:57:07 公開日:2021-05-20
# (参考訳) 雑音環境におけるロバスト非教師なしマルチオブジェクトトラッキング [全文訳有]

Robust Unsupervised Multi-Object Tracking in Noisy Environments ( http://arxiv.org/abs/2105.10005v1 )

ライセンス: CC BY 4.0
C.-H. Huck Yang, Mohit Chhabra, Y.-C. Liu, Quan Kong, Tomoaki Yoshinaga, Tomokazu Murakam(参考訳) カメラの動きや、防塵や風などの予測不能な環境は、ビデオフィードにノイズを生じさせる。 一般的な教師なしMOT法はノイズフリー条件に依存している。 本研究では,少数の人工的ランダムノイズが加わったことにより,ベンチマーク指標のモデル性能が著しく低下することを示す。 本稿では,頑健なマルチオブジェクト追跡モデルである AttU-Net を導入することで,この問題を解決する。 提案するシングルヘッドアテンションモデルは,異なるセグメントスケールで視覚的表現を学習することにより,ノイズの負の影響を制限できる。 AttU-Netは、変分推論に基づく最先端のベースラインよりも教師なしMOT追跡性能が向上している。 本手法をMNISTとAtariゲームビデオベンチマークで評価する。 提案手法の有効性を検証するために,クズシジ文字とファッション画像を含む複雑な視覚パターンからなる2つの拡張ビデオデータセットも提供する。

Camera movement and unpredictable environmental conditions like dust and wind induce noise into video feeds. We observe that popular unsupervised MOT methods are dependent on noise-free conditions. We show that the addition of a small amount of artificial random noise causes a sharp degradation in model performance on benchmark metrics. We resolve this problem by introducing a robust unsupervised multi-object tracking (MOT) model: AttU-Net. The proposed single-head attention model helps limit the negative impact of noise by learning visual representations at different segment scales. AttU-Net shows better unsupervised MOT tracking performance over variational inference-based state-of-the-art baselines. We evaluate our method in the MNIST and the Atari game video benchmark. We also provide two extended video datasets consisting of complex visual patterns that include Kuzushiji characters and fashion images to validate the effectiveness of the proposed method.
翻訳日:2021-05-28 13:31:23 公開日:2021-05-20
# (参考訳) 変圧器アーキテクチャによる階層化によるクロスセクション通貨戦略の強化 [全文訳有]

Enhancing Cross-Sectional Currency Strategies by Ranking Refinement with Transformer-based Architectures ( http://arxiv.org/abs/2105.10019v1 )

ライセンス: CC BY 4.0
Daniel Poh, Bryan Lim, Stefan Zohren and Stephen Roberts(参考訳) 横断的な通貨戦略のパフォーマンスは、ポートフォリオ構築前の正確な指標のランク付けに大きく依存する。 このランク付けのステップは伝統的にヒューリスティックや、ポイントワイズ回帰や分類モデルによって生成された出力のソートによって行われるが、最近、ランク付けアルゴリズムの学習は競争的で実行可能な代替手段として自らを提示している。 しかし、これらの手法は、平均的なランキング精度の改善にもかかわらず、ランクリストの極端に位置する資産 -- 最終的にロング/ショートポートフォリオの構築に使用される -- が入力空間の異なる分布を仮定し、その結果、準最適戦略性能をもたらす可能性を考慮していない。 トップランクの文書に埋め込まれた文脈情報を活用してクエリの特徴を学習してランキングを改善するインフォメーション検索の研究から、アウト・アンド・アン・パフォーマンスの両機器の特徴を活用して、元のランクリストを改良するモデルを学ぶという類似のアプローチを提案する。 再ランキングの枠組みでは,初期検索で得られた長短楽器の選択を洗練するために,トランスフォーマティブ・アーキテクチャを極端資産の特徴をエンコードする。 提案手法は,31通貨のセットをバックテストし,シャープ比を従来のLTRアルゴリズムの約20%,従来のベースラインの約2倍に向上させる。

The performance of a cross-sectional currency strategy depends crucially on accurately ranking instruments prior to portfolio construction. While this ranking step is traditionally performed using heuristics, or by sorting outputs produced by pointwise regression or classification models, Learning to Rank algorithms have recently presented themselves as competitive and viable alternatives. Despite improving ranking accuracy on average however, these techniques do not account for the possibility that assets positioned at the extreme ends of the ranked list -- which are ultimately used to construct the long/short portfolios -- can assume different distributions in the input space, and thus lead to sub-optimal strategy performance. Drawing from research in Information Retrieval that demonstrates the utility of contextual information embedded within top-ranked documents to learn the query's characteristics to improve ranking, we propose an analogous approach: exploiting the features of both out- and under-performing instruments to learn a model for refining the original ranked list. Under a re-ranking framework, we adapt the Transformer architecture to encode the features of extreme assets for refining our selection of long/short instruments obtained with an initial retrieval. Backtesting on a set of 31 currencies, our proposed methodology significantly boosts Sharpe ratios -- by approximately 20% over the original LTR algorithms and double that of traditional baselines.
翻訳日:2021-05-28 13:16:08 公開日:2021-05-20
# (参考訳) ASQ:AMRを用いた質問応答ペアの自動生成 [全文訳有]

ASQ: Automatically Generating Question-Answer Pairs using AMRs ( http://arxiv.org/abs/2105.10023v1 )

ライセンス: CC BY 4.0
Geetanjali Rakshit and Jeffrey Flanigan(参考訳) 本稿では,AMR(Abstract Meaning Representation)を用いて,文から質問や回答を自動的に抽出するツールであるASQを紹介する。 従来の研究は、言語的な専門知識や訓練を必要とせず、自然言語を用いて文の述語・述語構造を規定するために、質問応答ペアを使うことを事例にしている。 この結果、QA-SRLやQAMRといったデータセットが作成され、問合せペアアノテーションがクラウドソースされた。 提案手法は同じエンドゴールを持つが,自動であり,得られた質問応答対の品質と妥当性を損なうことなく,高速かつ費用対効果が得られる。 AMR 2.0データからASQが生成した出力の質的評価は、問合せ対が自然で有効であることを示し、その内容の良好なカバレッジを示す。 我々は、QAMRデータセットの文上でASQを実行し、QAMRのセマンティックロールもASQによって捕捉されていることを観察する。

In this work, we introduce ASQ, a tool to automatically mine questions and answers from a sentence, using its Abstract Meaning Representation (AMR). Previous work has made a case for using question-answer pairs to specify predicate-argument structure of a sentence using natural language, which does not require linguistic expertise or training. This has resulted in the creation of datasets such as QA-SRL and QAMR, for both of which, the question-answer pair annotations were crowdsourced. Our approach has the same end-goal, but is automatic, making it faster and cost-effective, without compromising on the quality and validity of the question-answer pairs thus obtained. A qualitative evaluation of the output generated by ASQ from the AMR 2.0 data shows that the question-answer pairs are natural and valid, and demonstrate good coverage of the content. We run ASQ on the sentences from the QAMR dataset, to observe that the semantic roles in QAMR are also captured by ASQ.We intend to make this tool and the results publicly available for others to use and build upon.
翻訳日:2021-05-28 11:29:16 公開日:2021-05-20
# (参考訳) 観測からのクロスドメイン模倣 [全文訳有]

Cross-domain Imitation from Observations ( http://arxiv.org/abs/2105.10037v1 )

ライセンス: CC BY 4.0
Dripta S. Raychaudhuri, Sujoy Paul, Jeroen van Baar, Amit K. Roy-Chowdhury(参考訳) 模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。 Markov Decision Processes (MDP) としてモデル化された環境では、既存の模倣アルゴリズムのほとんどは、新しい模倣ポリシーを学習するのと同じMDPで専門家によるデモンストレーションが利用可能になっている。 本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。 これらのドメイン間の相違は、ダイナミクス、視点、形態の異なるものを含む可能性があり、これらのドメイン間の対応を学ぶための新しい枠組みを提案する。 重要なことは、先行研究とは対照的に、専門家ドメイン内の状態のみを含む未ペアかつ非整合軌跡を用いて、この対応を学習することである。 我々は、状態空間とドメインに依存しない潜在空間の両方にサイクル整合性制約を適用する。 さらに,正規化された位置推定関数を用いて状態の時間的位置の一貫性を強制し,二つの領域をまたいだ軌道を整列する。 この対応が見つかると、あるドメインのデモを直接他のドメインに転送し、模倣に使用することができる。 様々な挑戦領域にわたる実験は、我々のアプローチの有効性を実証している。

Imitation learning seeks to circumvent the difficulty in designing proper reward functions for training agents by utilizing expert behavior. With environments modeled as Markov Decision Processes (MDP), most of the existing imitation algorithms are contingent on the availability of expert demonstrations in the same MDP as the one in which a new imitation policy is to be learned. In this paper, we study the problem of how to imitate tasks when there exist discrepancies between the expert and agent MDP. These discrepancies across domains could include differing dynamics, viewpoint, or morphology; we present a novel framework to learn correspondences across such domains. Importantly, in contrast to prior works, we use unpaired and unaligned trajectories containing only states in the expert domain, to learn this correspondence. We utilize a cycle-consistency constraint on both the state space and a domain agnostic latent space to do this. In addition, we enforce consistency on the temporal position of states via a normalized position estimator function, to align the trajectories across the two domains. Once this correspondence is found, we can directly transfer the demonstrations on one domain to the other and use it for imitation. Experiments across a wide variety of challenging domains demonstrate the efficacy of our approach.
翻訳日:2021-05-28 11:15:40 公開日:2021-05-20
# (参考訳) モジュール型ロボット制御の学習 [全文訳有]

Learning Modular Robot Control Policies ( http://arxiv.org/abs/2105.10049v1 )

ライセンス: CC BY 4.0
Julian Whitman, Matthew Travers, and Howie Choset(参考訳) モジュラーロボットシステムを能力と拡張性を兼ね備えるためには、コントローラーは機構と同じくらいモジュール性を持たなければならない。 少数のモジュールからでも生成できる多数の設計を考えると、設計ごとに新しいシステムワイドコントローラを作成するのは現実的ではない。 代わりに、幅広い種類の設計を扱うモジュラー制御ポリシーを構築します。 モジュールは形式と関数の両方である、という見方を取る。 機構とコントローラの両方。 モジュールが物理的に再設定されているため、ポリシーはキネマティック構造に合わせて自動的に再設定される。 この新方針は、モデル学習と軌道最適化をインターリーブし、複数の設計に対するポリシー学習を同時に指導するモデルベース強化学習アルゴリズムを用いて訓練される。 さまざまなデザインセットでポリシーをトレーニングすることは、その振る舞いを設計に適応させる方法を教える。 このポリシーは、トレーニング中に見えない大きなデザインの集合に一般化できることが示される。 シミュレーションと実際のロボットの両方で、脚と車輪の異なる組み合わせで多くのデザインを制御する政策を実証する。

To make a modular robotic system both capable and scalable, the controller must be equally as modular as the mechanism. Given the large number of designs that can be generated from even a small set of modules, it becomes impractical to create a new system-wide controller for each design. Instead, we construct a modular control policy that handles a broad class of designs. We take the view that a module is both form and function, i.e. both mechanism and controller. As the modules are physically re-configured, the policy automatically re-configures to match the kinematic structure. This novel policy is trained with a new model-based reinforcement learning algorithm, which interleaves model learning and trajectory optimization to guide policy learning for multiple designs simultaneously. Training the policy on a varied set of designs teaches it how to adapt its behavior to the design. We show that the policy can then generalize to a larger set of designs not seen during training. We demonstrate one policy controlling many designs with different combinations of legs and wheels to locomote both in simulation and on real robots.
翻訳日:2021-05-28 10:49:12 公開日:2021-05-20
# (参考訳) 不均一連関学習のための無データ知識蒸留 [全文訳有]

Data-Free Knowledge Distillation for Heterogeneous Federated Learning ( http://arxiv.org/abs/2105.10056v1 )

ライセンス: CC0 1.0
Zhuangdi Zhu, Junyuan Hong, Jiayu Zhou(参考訳) Federated Learning(FL)は、グローバルサーバがデータにアクセスせずにローカルユーザのモデルパラメータを反復的に平均する分散機械学習パラダイムである。 ユーザの不均一性はFLに重大な課題を課し、収束が遅いドリフトされたグローバルモデルを生み出します。 知識蒸留(Knowledge Distillation)は、異種ユーザからの集約された知識を使用してサーバモデルを精錬することで、この問題に対処する。 しかしこのアプローチはプロキシデータセットに依存するため、そのような前提条件を満たさない限り現実的ではない。 さらに、アンサンブル知識は、局所的なモデル学習を導くために十分に活用されていないため、結果として集約されたモデルの品質に影響を及ぼす可能性がある。 そこで、サーバは、データのない方法でユーザ情報をアンサンブルする軽量ジェネレータを学習し、それをユーザにブロードキャストし、学習した知識を帰納的バイアスとしてローカルトレーニングを規制する。 理論的含意を生かした実証研究により、我々の手法はFLをより少ない通信ラウンドによる一般化性能で促進することを示した。

Federated Learning (FL) is a decentralized machine-learning paradigm, in which a global server iteratively averages the model parameters of local users without accessing their data. User heterogeneity has imposed significant challenges to FL, which can incur drifted global models that are slow to converge. Knowledge Distillation has recently emerged to tackle this issue, by refining the server model using aggregated knowledge from heterogeneous users, other than directly averaging their model parameters. This approach, however, depends on a proxy dataset, making it impractical unless such a prerequisite is satisfied. Moreover, the ensemble knowledge is not fully utilized to guide local model learning, which may in turn affect the quality of the aggregated model. Inspired by the prior art, we propose a data-free knowledge distillation} approach to address heterogeneous FL, where the server learns a lightweight generator to ensemble user information in a data-free manner, which is then broadcasted to users, regulating local training using the learned knowledge as an inductive bias. Empirical studies powered by theoretical implications show that, our approach facilitates FL with better generalization performance using fewer communication rounds, compared with the state-of-the-art.
翻訳日:2021-05-28 10:05:42 公開日:2021-05-20
# (参考訳) モデル圧縮 [全文訳有]

Model Compression ( http://arxiv.org/abs/2105.10059v1 )

ライセンス: CC BY 4.0
Arhum Ishtiaq, Sara Mahmood, Maheen Anees, Neha Mumtaz(参考訳) 時間とともに、機械学習モデルはスコープ、機能、サイズが大きくなる。 そのため、そのようなモデルの機能性とサイズが大きくなると、トレーニングと推論の両方を行うためのハイエンドハードウェアが必要になる。 本稿では,モデル圧縮の領域内の可能性を検討し,モデルサイズと性能をプリ圧縮とポスト圧縮とで比較しながら,各手法の効率性について考察する。

With time, machine learning models have increased in their scope, functionality and size. Consequently, the increased functionality and size of such models requires high-end hardware to both train and provide inference after the fact. This paper aims to explore the possibilities within the domain of model compression and discuss the efficiency of each of the possible approaches while comparing model size and performance with respect to pre- and post-compression.
翻訳日:2021-05-28 09:39:42 公開日:2021-05-20
# (参考訳) Uma implementa\c{c}\~ao do jogo Pedra, Papel e Tesoura utilizando Visao Computacional [全文訳有]

Uma implementa\c{c}\~ao do jogo Pedra, Papel e Tesoura utilizando Visao Computacional ( http://arxiv.org/abs/2105.10063v1 )

ライセンス: CC BY-SA 4.0
Ezequiel Fran\c{c}a dos Santos, Gabriel Fontenelle(参考訳) 本稿では,ハンドジェスチャ(ハンドトラッキング)の識別において,コンピュータビジョンによって制御されるゲームを提案する。 提案手法は,jarvisアルゴリズムを用いた凸包のイメージセグメンテーションと構成と,凸包内の領域特性の抽出に基づくパターンの決定に基づいている。

This paper presents a game, controlled by computer vision, in identification of hand gestures (hand-tracking). The proposed work is based on image segmentation and construction of a convex hull with Jarvis Algorithm , and determination of the pattern based on the extraction of area characteristics in the convex hull.
翻訳日:2021-05-25 14:46:39 公開日:2021-05-20
# (参考訳) ニューラルネットワーク・プルーニングの確率論的アプローチ [全文訳有]

A Probabilistic Approach to Neural Network Pruning ( http://arxiv.org/abs/2105.10065v1 )

ライセンス: CC BY 4.0
Xin Qian, Diego Klabjan(参考訳) ニューラルネットワークのプルーニング技術は、ネットワークの予測能力を損なうことなくパラメータの数を減らす。 fcns(over-parameteri zed full-connected network)とcnns(convolutional neural networks)の両方をプルーニングするために多くのアルゴリズムが開発されているが、そのようなプルーニングされたサブネットワークの能力と圧縮比の分析研究は不足している。 FCNとCNNの2つのプルーニング技術(ランダムおよび等級ベース)の性能について理論的に検討する。 対象ネットワーク {その重みが適切な分布から独立にサンプリングされることを前提とし、確率論的意味においてプルーンドと対象ネットワークの間のギャップを限定する普遍的なアプローチを提供する。 その結果,対象ネットワークからの特定境界内には,表現力のあるプルーンネットワークが存在することがわかった。

Neural network pruning techniques reduce the number of parameters without compromising predicting ability of a network. Many algorithms have been developed for pruning both over-parameterized fully-connected networks (FCNs) and convolutional neural networks (CNNs), but analytical studies of capabilities and compression ratios of such pruned sub-networks are lacking. We theoretically study the performance of two pruning techniques (random and magnitude-based) on FCNs and CNNs. Given a target network {whose weights are independently sampled from appropriate distributions}, we provide a universal approach to bound the gap between a pruned and the target network in a probabilistic sense. The results establish that there exist pruned networks with expressive power within any specified bound from the target network.
翻訳日:2021-05-25 14:19:24 公開日:2021-05-20
# 太陽エネルギー予測のための時間整合画像に基づく太陽追跡アルゴリズム

A Temporally Consistent Image-based Sun Tracking Algorithm for Solar Energy Forecasting Applications ( http://arxiv.org/abs/2012.01059v2 )

ライセンス: Link先を確認
Quentin Paletta and Joan Lasenby(参考訳) 照射予測の改善は、エネルギー混合における太陽のシェアをさらに増やすために重要である。 短時間のスケールでは、地上の魚眼カメラを使って雲の変位を捉え、電力生産の局所的な変動を引き起こす。 太陽放射のほとんどが太陽から直接来るため、現在の予測手法では、雲のカバーダイナミクスを解釈するために画像中のその位置を使用する。 しかし、既存の太陽追跡方法は外部データとカメラのキャリブレーションに依存しており、デバイスにアクセスする必要がある。 これらの制約に対処するために、過去の観測から日射の軌跡を解釈し、画像中の太陽をローカライズする画像ベースの太陽追跡アルゴリズムを導入する。 本研究では,SIRTA実験室で1年以上にわたって収集された天空画像の集合について検証を行った。 実験結果から,提案手法は画像サイズ1%以下で平均絶対誤差のロバストな平滑な日射路を提供することがわかった。

Improving irradiance forecasting is critical to further increase the share of solar in the energy mix. On a short time scale, fish-eye cameras on the ground are used to capture cloud displacements causing the local variability of the electricity production. As most of the solar radiation comes directly from the Sun, current forecasting approaches use its position in the image as a reference to interpret the cloud cover dynamics. However, existing Sun tracking methods rely on external data and a calibration of the camera, which requires access to the device. To address these limitations, this study introduces an image-based Sun tracking algorithm to localise the Sun in the image when it is visible and interpolate its daily trajectory from past observations. We validate the method on a set of sky images collected over a year at SIRTA's lab. Experimental results show that the proposed method provides robust smooth Sun trajectories with a mean absolute error below 1% of the image size.
翻訳日:2021-05-25 04:09:58 公開日:2021-05-20
# 言語モデルが知っていることをどうやって知るのか? 質問応答のための言語モデルの校正について

How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering ( http://arxiv.org/abs/2012.00955v2 )

ライセンス: Link先を確認
Zhengbao Jiang, Jun Araki, Haibo Ding, Graham Neubig(参考訳) 近年の研究では、言語モデル(LM)が事実や常識に関する様々な種類の知識を捉えていることが示されている。 しかしながら、モデルが完璧ではないため、多くの場合、適切な回答を提供しない。 本稿では,「言語モデルが,特定のクエリに対する答えを自信を持って知っていれば,どうやって知ることができるのか? この質問を校正の観点から検討し,確率モデルの予測確率の性質と正の確率との関係について検討した。 我々は、t5、bart、gpt-2という3つの強力な生成モデルを調べ、qaタスクにおけるそれらの確率が十分に調整されているかどうかを調べ、その答えが比較的強調されるnoであることを確認した。 次に,これらのモデルの校正手法について検討し,信頼度スコアと精度の相関を,微調整,ポストホックな確率修正,予測出力や入力の調整などを通じて評価する。 多様なデータセットの実験により,本手法の有効性が示された。 また, これらの手法の強度と限界について解析を行い, LMの校正法におけるさらなる改良点に光を当てる。 私たちはコードをhttps://github.com/j zbjyb/lm-calibration でリリースした。

Recent works have shown that language models (LM) capture different types of knowledge regarding facts or common sense. However, because no model is perfect, they still fail to provide appropriate answers in many cases. In this paper, we ask the question "how can we know when language models know, with confidence, the answer to a particular query?" We examine this question from the point of view of calibration, the property of a probabilistic model's predicted probabilities actually being well correlated with the probabilities of correctness. We examine three strong generative models -- T5, BART, and GPT-2 -- and study whether their probabilities on QA tasks are well calibrated, finding the answer is a relatively emphatic no. We then examine methods to calibrate such models to make their confidence scores correlate better with the likelihood of correctness through fine-tuning, post-hoc probability modification, or adjustment of the predicted outputs or inputs. Experiments on a diverse range of datasets demonstrate the effectiveness of our methods. We also perform analysis to study the strengths and limitations of these methods, shedding light on further improvements that may be made in methods for calibrating LMs. We have released the code at https://github.com/j zbjyb/lm-calibration .
翻訳日:2021-05-25 04:04:51 公開日:2021-05-20
# セマンティック一貫性によるビジュアルストーリーの生成と評価の改善

Improving Generation and Evaluation of Visual Stories via Semantic Consistency ( http://arxiv.org/abs/2105.10026v1 )

ライセンス: Link先を確認
Adyasha Maharana, Darryl Hannan, Mohit Bansal(参考訳) ストーリーの視覚化は、コンピュータビジョンと自然言語処理の両方において、多くの重要な研究方向の交差点にある未開発のタスクです。 このタスクでは、ストーリーを構成する一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。 先行研究では、このタスクでテキストから画像への合成モデルを上回る再帰生成モデルを導入した。 しかし、視覚的品質、コヒーレンス、関連性の観点からは、生成画像を改善する余地がある。 本稿では,(1)映像キャプションを用いてストーリーと生成画像間の意味的アライメントを強化するデュアルラーニングフレームワークの追加,(2)逐次一貫性のあるストーリー視覚化のためのコピー変換機構,(3)フレーム間の複雑なインタラクションをモデル化するmartベースのトランスフォーマーなど,先行モデルアプローチの改善について述べる。 本稿では,これらの手法が,個々の画像と物語全体に対するモデルの生成力に与える影響を示すため,アブレーション研究を行った。 さらに、タスクの複雑さと生成性のため、標準的な評価基準は正確には性能を反映しない。 そこで本研究では,生成した文字の存在/品質,キャプションとの関連,生成した画像の多様性といった,生成したフレームの側面に着目したモデル評価指標の探索を行う。 また,提案する自動測定と人間評価との相関実験も行った。 https://github.com/a dymaharana/StoryViz

Story visualization is an under-explored task that falls at the intersection of many important research directions in both computer vision and natural language processing. In this task, given a series of natural language captions which compose a story, an agent must generate a sequence of images that correspond to the captions. Prior work has introduced recurrent generative models which outperform text-to-image synthesis models on this task. However, there is room for improvement of generated images in terms of visual quality, coherence and relevance. We present a number of improvements to prior modeling approaches, including (1) the addition of a dual learning framework that utilizes video captioning to reinforce the semantic alignment between the story and generated images, (2) a copy-transform mechanism for sequentially-consist ent story visualization, and (3) MART-based transformers to model complex interactions between frames. We present ablation studies to demonstrate the effect of each of these techniques on the generative power of the model for both individual images as well as the entire narrative. Furthermore, due to the complexity and generative nature of the task, standard evaluation metrics do not accurately reflect performance. Therefore, we also provide an exploration of evaluation metrics for the model, focused on aspects of the generated frames such as the presence/quality of generated characters, the relevance to captions, and the diversity of the generated images. We also present correlation experiments of our proposed automated metrics with human evaluations. Code and data available at: https://github.com/a dymaharana/StoryViz
翻訳日:2021-05-25 03:38:24 公開日:2021-05-20
# ハッピーダンス、スロークラップ:リアクションGIFを使ってTwitterへの影響を予測する

Happy Dance, Slow Clap: Using Reaction GIFs to Predict Induced Affect on Twitter ( http://arxiv.org/abs/2105.09967v1 )

ライセンス: Link先を確認
Boaz Shmueli, Soumya Ray, Lun-Wei Ku(参考訳) 誘発された感情ラベルを持つデータセットは少ないが、多くのNLPタスクにおいて最も重要である。 本稿では,テキストと反応ラベルを併用した新しい自動抽出手法を提案する。 この方法は、複雑な情緒状態をキャプチャするリアクションGIFのオンライン利用を利用する。 我々は、感情の誘発と感情のラベルによるデータ強化方法を示す。 我々は,30万ツイートの感情的データセットであるReactionGIFを作成し,公開する。 感情予測と感情のマルチラベル分類を含む3つの新しいタスクのベースラインを提供する。 提案手法とデータセットは,感情検出と感情コンピューティングにおける新たな研究機会を開く。

Datasets with induced emotion labels are scarce but of utmost importance for many NLP tasks. We present a new, automated method for collecting texts along with their induced reaction labels. The method exploits the online use of reaction GIFs, which capture complex affective states. We show how to augment the data with induced emotion and induced sentiment labels. We use our method to create and publish ReactionGIF, a first-of-its-kind affective dataset of 30K tweets. We provide baselines for three new tasks, including induced sentiment prediction and multilabel classification of induced emotions. Our method and dataset open new research opportunities in emotion detection and affective computing.
翻訳日:2021-05-25 03:37:59 公開日:2021-05-20
# 高レベル運転指導におけるロバスト性の評価

Evaluating Robustness over High Level Driving Instruction for Autonomous Driving ( http://arxiv.org/abs/2105.10014v1 )

ライセンス: Link先を確認
Florence Carton, David Filliat, Jaonary Rabarisoa and Quoc Cuong Pham(参考訳) 近年、自動運転のエンド・ツー・エンド運転の分野での高性能化が進んでいる。 特に、都市環境における運転に関する研究がますます増えており、走行には高レベルな指示に従う必要がある。 しかし、これらのエージェントが予期せぬ状況で反応する能力についてはほとんど評価されていない。 特に、悪いハイレベルコマンドが発生した場合の駆動エージェントのロバスト性についての評価は行われない。 本稿では,エージェントのロバスト性を評価するためのベンチマークと,その指示によらず安全な動作を維持する能力を通じて環境に対する理解度を評価する手法を提案する。

In recent years, we have witnessed increasingly high performance in the field of autonomous end-to-end driving. In particular, more and more research is being done on driving in urban environments, where the car has to follow high level commands to navigate. However, few evaluations are made on the ability of these agents to react in an unexpected situation. Specifically, no evaluations are conducted on the robustness of driving agents in the event of a bad high-level command. We propose here an evaluation method, namely a benchmark that allows to assess the robustness of an agent, and to appreciate its understanding of the environment through its ability to keep a safe behavior, regardless of the instruction.
翻訳日:2021-05-25 03:37:52 公開日:2021-05-20
# 進化するコンテンツを持つ画像に対する擬似画素レベルラベリング

Pseudo Pixel-level Labeling for Images with Evolving Content ( http://arxiv.org/abs/2105.09975v1 )

ライセンス: Link先を確認
Sara Mousavi, Zhenning Yang, Kelley Cross, Dawnie Steadman, Audris Mockus(参考訳) セマンティックセグメンテーションのための画像の注釈は、強い手作業を必要とし、特に法医学人類学のような専門家の少ない領域では、時間と費用がかかる作業である。 我々は,人間の分解データにおける崩壊過程を表現した画像の進化的性質を活かし,簡易かつ効果的な擬似ピクセルレベルラベル生成手法を考案し,画像の手動アノテーションの労力を削減する。 まず、教師なしのアプローチで、同一または類似のアノテーションを共有するのに最も適した最小のバリエーションを持つ画像のシーケンスを識別する。 各シーケンスに1つのユーザ・アノテートされた画像が与えられた場合、最新のCAMベースの擬似ラベル生成技術によって生成されたアノテーションと組み合わせることで、残りの画像にアノテーションを伝達する。 擬似画素レベルのラベルの品質を評価するため,VGGとResNetのバックボーンを用いた2つのセマンティックセグメンテーションモデルを擬似ラベリング法と最先端手法を用いて学習した。 その結果,VGGとResNetに基づくセマンティックセグメンテーションモデルの平均IoUと周波数重み付きIoUをそれぞれ3.36%,2.58%,10.39%,1 2.91%改善した。

Annotating images for semantic segmentation requires intense manual labor and is a time-consuming and expensive task especially for domains with a scarcity of experts, such as Forensic Anthropology. We leverage the evolving nature of images depicting the decay process in human decomposition data to design a simple yet effective pseudo-pixel-level label generation technique to reduce the amount of effort for manual annotation of such images. We first identify sequences of images with a minimum variation that are most suitable to share the same or similar annotation using an unsupervised approach. Given one user-annotated image in each sequence, we propagate the annotation to the remaining images in the sequence by merging it with annotations produced by a state-of-the-art CAM-based pseudo label generation technique. To evaluate the quality of our pseudo-pixel-level labels, we train two semantic segmentation models with VGG and ResNet backbones on images labeled using our pseudo labeling method and those of a state-of-the-art method. The results indicate that using our pseudo-labels instead of those generated using the state-of-the-art method in the training process improves the mean-IoU and the frequency-weighted-I oU of the VGG and ResNet-based semantic segmentation models by 3.36%, 2.58%, 10.39%, and 12.91% respectively.
翻訳日:2021-05-25 03:35:11 公開日:2021-05-20
# 生成モデルを用いたディープニューラルネットワークの開放

Opening Deep Neural Networks with Generative Models ( http://arxiv.org/abs/2105.10013v1 )

ライセンス: Link先を確認
Marcos Vendramini and Hugo Oliveira and Alexei Machado and Jefersson A. dos Santos(参考訳) 画像分類法は通常、予め定義された既知のクラスのグループを考慮して予測を行うように訓練される。 しかし、現実世界の問題では入力空間とラベル空間の完全な知識が得られず、認識の失敗は深い視覚学習にとって危険である。 オープンセット認識法は、既知のクラスと未知クラスの入力を正しく識別する能力によって特徴付けられる。 そこで,本稿では,事前学習したDeep Neural Networksに付加して視覚認識を行うことのできる,シンプルでプラグアンドプレイなオープンセット認識モジュールであるGeMOSを提案する。 GeMOSフレームワークは、事前訓練された畳み込みニューラルネットワークと、オープンセット認識のための生成モデルを組み合わせて、各サンプルのオープンセットスコアを抽出し、オブジェクト認識タスクにおける障害認識を可能にする。 提案手法を最先端のオープンセットアルゴリズムと比較して徹底的に評価し,gemosがより複雑でコストのかかるモデルと統計的に区別できないことを発見した。

Image classification methods are usually trained to perform predictions taking into account a predefined group of known classes. Real-world problems, however, may not allow for a full knowledge of the input and label spaces, making failures in recognition a hazard to deep visual learning. Open set recognition methods are characterized by the ability to correctly identifying inputs of known and unknown classes. In this context, we propose GeMOS: simple and plug-and-play open set recognition modules that can be attached to pretrained Deep Neural Networks for visual recognition. The GeMOS framework pairs pre-trained Convolutional Neural Networks with generative models for open set recognition to extract open set scores for each sample, allowing for failure recognition in object recognition tasks. We conduct a thorough evaluation of the proposed method in comparison with state-of-the-art open set algorithms, finding that GeMOS either outperforms or is statistically indistinguishable from more complex and costly models.
翻訳日:2021-05-25 03:32:36 公開日:2021-05-20
# コード混合会話におけるマルチモーダルサーカズム検出とユーモア分類

Multi-modal Sarcasm Detection and Humor Classification in Code-mixed Conversations ( http://arxiv.org/abs/2105.09984v1 )

ライセンス: Link先を確認
Manjot Bedi, Shivani Kumar, Md Shad Akhtar, and Tanmoy Chakraborty(参考訳) 皮肉の検出とユーモアの分類は本質的に微妙な問題であり、主に文脈情報と非言語情報に依存する。 さらに、これらの2つのトピックにおける既存の研究は通常、定性的な注釈付きデータセットが利用できないため、ヒンディー語のような英語以外の言語で制限されている。 本研究は,(1)ヒンズー・イングリッシュなコード混合データセットであるmasocを開発し,対話対話におけるマルチモーダルサーカズム検出とユーモア分類を行い,その知識がこの種の最初のデータセットとなること,(2)発話分類のための新しい注意力豊かなニューラルアーキテクチャであるmsh-comicsを提案すること,の2つの大きな課題を考察する。 入力文のごく一部に一度に出席する階層的注意機構を用いて,効率的な発話表現を学習する。 さらに,マルチモーダル分類にダイアログ履歴を活用するために,ダイアログレベルのコンテキストアテンション機構を導入する。 我々はMSH-COMICSの様々なサブモジュールとマルチモーダル入力によってタスクの双方を広範囲に実験する。 既存のアプローチとの比較分析も行います。 我々は,MSH-COMICSが既存のモデルよりも1F1スコア点,10F1スコア点のユーモア分類において優れた性能を発揮することを観察した。 モデルを診断し,結果の徹底的な分析を行い,優越性と落とし穴を理解する。

Sarcasm detection and humor classification are inherently subtle problems, primarily due to their dependence on the contextual and non-verbal information. Furthermore, existing studies in these two topics are usually constrained in non-English languages such as Hindi, due to the unavailability of qualitative annotated datasets. In this work, we make two major contributions considering the above limitations: (1) we develop a Hindi-English code-mixed dataset, MaSaC, for the multi-modal sarcasm detection and humor classification in conversational dialog, which to our knowledge is the first dataset of its kind; (2) we propose MSH-COMICS, a novel attention-rich neural architecture for the utterance classification. We learn efficient utterance representation utilizing a hierarchical attention mechanism that attends to a small portion of the input sentence at a time. Further, we incorporate dialog-level contextual attention mechanism to leverage the dialog history for the multi-modal classification. We perform extensive experiments for both the tasks by varying multi-modal inputs and various submodules of MSH-COMICS. We also conduct comparative analysis against existing approaches. We observe that MSH-COMICS attains superior performance over the existing models by > 1 F1-score point for the sarcasm detection and 10 F1-score points in humor classification. We diagnose our model and perform thorough analysis of the results to understand the superiority and pitfalls.
翻訳日:2021-05-25 03:29:53 公開日:2021-05-20
# やるべきかどうか:スマートホームで因果関係を見つけること

To do or not to do: finding causal relations in smart homes ( http://arxiv.org/abs/2105.10058v1 )

ライセンス: Link先を確認
Kanvaly Fadiga, Etienne Houz\'e, Ada Diaconescu and Jean-Louis Dessalles(参考訳) 認知科学の研究は、人間は因果関係を通じて世界の知識を理解し、表現することを示唆している。 観察に加えて、実験や反事実推論にも頼ることができる。 因果関係を特定し、非定型的な状況を説明するために、イベントの別のコースを参照すること。 スマートホームのようなコントロールシステムの異なるインスタンスは、ユーザがシステムのロジックを理解し、必要に応じて反応するのに役立つため、同様の因果モデルを持つことで恩恵を受けるでしょう。 しかし、データ駆動法は高いレベルの相関検出を実現する一方で、主に因果関係を見出すことができず、特に観測のみに限定されている。 特に、2つの変数間の相関を検出する際に、影響から原因を特定するのに苦労している。 本稿では,環境と観測データの混合実験から因果モデルを学ぶための新しい手法を提案する。 我々の手法の中核は、選択された介入の使用であり、特に他のアプローチとは異なり、介入が不可能な変数を考慮した学習である。 得られた因果モデルは因果ベイズネットワークを生成するために使用され、後に診断および予測推論を実行するために使用される。 本手法をスマートホームシミュレーション,すなわち因果関係を知ることが説明可能なシステムへの道を開くユースケースに応用する。 本アルゴリズムはシミュレーションの基底的真理因果相互作用に近い因果ベイズネットワークを生成することに成功し,実生活システムにおける応用の可能性を示す。

Research in Cognitive Science suggests that humans understand and represent knowledge of the world through causal relationships. In addition to observations, they can rely on experimenting and counterfactual reasoning -- i.e. referring to an alternative course of events -- to identify causal relations and explain atypical situations. Different instances of control systems, such as smart homes, would benefit from having a similar causal model, as it would help the user understand the logic of the system and better react when needed. However, while data-driven methods achieve high levels of correlation detection, they mainly fall short of finding causal relations, notably being limited to observations only. Notably, they struggle to identify the cause from the effect when detecting a correlation between two variables. This paper introduces a new way to learn causal models from a mixture of experiments on the environment and observational data. The core of our method is the use of selected interventions, especially our learning takes into account the variables where it is impossible to intervene, unlike other approaches. The causal model we obtain is then used to generate Causal Bayesian Networks, which can be later used to perform diagnostic and predictive inference. We use our method on a smart home simulation, a use case where knowing causal relations pave the way towards explainable systems. Our algorithm succeeds in generating a Causal Bayesian Network close to the simulation's ground truth causal interactions, showing encouraging prospects for application in real-life systems.
翻訳日:2021-05-25 03:29:03 公開日:2021-05-20
# CNNを用いた前立腺癌検出システムにおけるパッチアグリゲーションのためのワイド・アンド・ディープニューラルネットワークモデル

Wide & Deep neural network model for patch aggregation in CNN-based prostate cancer detection systems ( http://arxiv.org/abs/2105.09974v1 )

ライセンス: Link先を確認
Lourdes Duran-Lopez, Juan P. Dominguez-Morales, Daniel Gutierrez-Galan, Antonio Rios-Navarro, Angel Jimenez-Fernandez, Saturnino Vicente-Diaz, Alejandro Linares-Barranco(参考訳) 前立腺癌(PCa)は最も一般的に診断されるがんの1つで、2020年に約141万件の新規感染者と約37万5000人の死者を出した男性の死因の1つである。 人工知能アルゴリズムは、デジタル病理学を含む医療画像解析に大きな影響を与えており、畳み込みニューラルネットワーク(CNN)が高速かつ正確な診断を提供するために使われ、このタスクの専門家を支援している。 自動診断を行うには、まず前立腺組織サンプルをギガピクセル分解能全スライド画像にデジタル化する。 これらの画像のサイズのため、ニューラルネットワークは入力として使用できないため、パッチと呼ばれる小さなサブイメージを抽出して予測し、パッチレベルの分類を得る。 本研究では,カスタムワイド・アンド・ディープニューラルネットワークモデルに基づく新しいパッチアグリゲーション手法を提案し,CNNから得られたパッチレベルクラスを用いて,スライドレベルの分類を行う。 提案モデルでは、悪性組織比、10ビン悪性確率ヒストグラム、ヒストグラムの最小二乗回帰線、および悪性結合成分の数を用いて分類を行う。 94.24%の精度と98.87%の感度が達成され、提案されたシステムはスクリーニングプロセスのスピードアップによって病理学者を助けることが証明された。

Prostate cancer (PCa) is one of the most commonly diagnosed cancer and one of the leading causes of death among men, with almost 1.41 million new cases and around 375,000 deaths in 2020. Artificial Intelligence algorithms have had a huge impact in medical image analysis, including digital histopathology, where Convolutional Neural Networks (CNNs) are used to provide a fast and accurate diagnosis, supporting experts in this task. To perform an automatic diagnosis, prostate tissue samples are first digitized into gigapixel-resolution whole-slide images. Due to the size of these images, neural networks cannot use them as input and, therefore, small subimages called patches are extracted and predicted, obtaining a patch-level classification. In this work, a novel patch aggregation method based on a custom Wide & Deep neural network model is presented, which performs a slide-level classification using the patch-level classes obtained from a CNN. The malignant tissue ratio, a 10-bin malignant probability histogram, the least squares regression line of the histogram, and the number of malignant connected components are used by the proposed model to perform the classification. An accuracy of 94.24% and a sensitivity of 98.87% were achieved, proving that the proposed system could aid pathologists by speeding up the screening process and, thus, contribute to the fight against PCa.
翻訳日:2021-05-25 03:20:54 公開日:2021-05-20
# 意味のないことをするな - 行動の有用性を伴う本質的動機付け

Don't Do What Doesn't Matter: Intrinsic Motivation with Action Usefulness ( http://arxiv.org/abs/2105.09992v1 )

ライセンス: Link先を確認
Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin(参考訳) スパース報酬(Sparse reward)とは、強化学習における二重エッジのトレーニング信号である。 したがって,本質的なモチベーションガイダンスは,結果の探索問題を緩和するために開発された。 彼らは通常、新奇な信号を通して新しい状態を探すためにエージェントにインセンティブを与える。 しかし、このような手法は環境の健全な相互作用機会に焦点をあてるのではなく、州空間の徹底的な探索を促進する。 本研究では,国家の新規性から関連する行動を伴う状態へと重点を移す,DoWhaM (Don't Do What Don't Matter) と呼ばれる新たな探索手法を提案する。 ほとんどのアクションは使用時に常に状態を変更するが、 \textit{e.g.} エージェントを動かすと、いくつかのアクションは特定の状態にのみ有効である。 emph{opening} はドア、 \emph{grabbing} はオブジェクトです。 DoWhaMは環境にほとんど影響しないアクションを検出し、報奨する。 手続き生成環境であるMiniGridにおけるDoWhaMの評価を行い,サンプルの複雑さを大幅に低減させることを示す。

Sparse rewards are double-edged training signals in reinforcement learning: easy to design but hard to optimize. Intrinsic motivation guidances have thus been developed toward alleviating the resulting exploration problem. They usually incentivize agents to look for new states through novelty signals. Yet, such methods encourage exhaustive exploration of the state space rather than focusing on the environment's salient interaction opportunities. We propose a new exploration method, called Don't Do What Doesn't Matter (DoWhaM), shifting the emphasis from state novelty to state with relevant actions. While most actions consistently change the state when used, \textit{e.g.} moving the agent, some actions are only effective in specific states, \textit{e.g.}, \emph{opening} a door, \emph{grabbing} an object. DoWhaM detects and rewards actions that seldom affect the environment. We evaluate DoWhaM on the procedurally-generat ed environment MiniGrid, against state-of-the-art methods and show that DoWhaM greatly reduces sample complexity.
翻訳日:2021-05-25 03:20:30 公開日:2021-05-20
# 確率的polyakステップサイズに関するコメント:ali-gの性能

Comment on Stochastic Polyak Step-Size: Performance of ALI-G ( http://arxiv.org/abs/2105.10011v1 )

ライセンス: Link先を確認
Leonard Berrada, Andrew Zisserman, M. Pawan Kumar(参考訳) これは (Loizou et al., 2021) で報告されている ALI-G アルゴリズム (Berrada et al., 2020) の性能に関する短いメモである。 ALI-G (Berrada et al., 2020) と SPS (Loizou et al., 2021) はどちらも、トレーニングデータを補間可能な機械学習モデルを最適化するためのPolyakのステップサイズ適応である。 アルゴリズムの主な違いは、(1)SPSは学習率の分母に乗算定数、(2)ALI-Gは加法定数、(2)SPSは反復依存の最大学習率、(2)ALI-Gは定数である。 2つの研究から得られた分析にも違いがあり、(Loizou et al., 2021)ではより制約的な仮定が提案されている。 彼らの実験では (Loizou et al., 2021) は ALI-G (アルゴリズムの標準部分) や標準のハイパーパラメータチューニング (例) には運動量を使用しなかった。 学習率と正規化)。 したがって、ALI-Gが高調波ハイパーパラメータで得られる性能改善の基準となる。 特に,CIFAR-10 と CIFAR-100 で ResNet-34 のトレーニングを行う場合,ALI-G は 93.5% (+6%) と 76% (+8%) に非常に少ないチューニングで到達可能であることを示す。 このように、ALI-Gはニューラルネットワークを補間する非常に競争力のある方法である。

This is a short note on the performance of the ALI-G algorithm (Berrada et al., 2020) as reported in (Loizou et al., 2021). ALI-G (Berrada et al., 2020) and SPS (Loizou et al., 2021) are both adaptations of the Polyak step-size to optimize machine learning models that can interpolate the training data. The main algorithmic differences are that (1) SPS employs a multiplicative constant in the denominator of the learning-rate while ALI-G uses an additive constant, and (2) SPS uses an iteration-dependent maximal learning-rate while ALI-G uses a constant one. There are also differences in the analysis provided by the two works, with less restrictive assumptions proposed in (Loizou et al., 2021). In their experiments, (Loizou et al., 2021) did not use momentum for ALI-G (which is a standard part of the algorithm) or standard hyper-parameter tuning (for e.g. learning-rate and regularization). Hence this note as a reference for the improved performance that ALI-G can obtain with well-chosen hyper-parameters. In particular, we show that when training a ResNet-34 on CIFAR-10 and CIFAR-100, the performance of ALI-G can reach respectively 93.5% (+6%) and 76% (+8%) with a very small amount of tuning. Thus ALI-G remains a very competitive method for training interpolating neural networks.
翻訳日:2021-05-25 03:20:14 公開日:2021-05-20
# 機械学習によるサイバー侵入検出のためのデータキュレーションと品質保証

Data Curation and Quality Assurance for Machine Learning-based Cyber Intrusion Detection ( http://arxiv.org/abs/2105.10041v1 )

ライセンス: Link先を確認
Haihua Chen, Ngan Tran, Anand Sagar Thumati, Jay Bhuyan, Junhua Ding(参考訳) 侵入検知はサイバー脅威環境において重要な課題である。 侵入検知には機械学習とディープラーニング技術が応用されている。 しかし、既存の研究のほとんどはモデルの開発に焦点を当てているが、データ品質の低さが機械学習システムのパフォーマンスに直接影響を与えるという事実は無視している。 機械学習ベースの侵入検知システムを構築する際に、データワークにもっと注意を払う必要がある。 本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。 次に、侵入検知のためのデータ準備ワークフローと品質要件について論じる。 データとモデルが機械学習のパフォーマンスに与える影響を明らかにするために,機械学習モデル7とディープラーニングモデル3を用いて,11のHIDSデータセットの実験を行った。 実験の結果,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであった。 しかし、異なるデータセットのパフォーマンスは異なり、これらのデータセットのデータ品質の違いを示している。 次に,本論文で提案する品質寸法に基づいて,11個のデータセットのデータ品質を評価することにより,最適な結果を得るために,hidsデータセットが持つべき最良特性を決定する。 本研究は,機械学習による侵入検知の性能向上を図るため,研究者や実践者のデータ品質の観点を創出する。

Intrusion detection is an essential task in the cyber threat environment. Machine learning and deep learning techniques have been applied for intrusion detection. However, most of the existing research focuses on the model work but ignores the fact that poor data quality has a direct impact on the performance of a machine learning system. More attention should be paid to the data work when building a machine learning-based intrusion detection system. This article first summarizes existing machine learning-based intrusion detection systems and the datasets used for building these systems. Then the data preparation workflow and quality requirements for intrusion detection are discussed. To figure out how data and models affect machine learning performance, we conducted experiments on 11 HIDS datasets using seven machine learning models and three deep learning models. The experimental results show that BERT and GPT were the best algorithms for HIDS on all of the datasets. However, the performance on different datasets varies, indicating the differences between the data quality of these datasets. We then evaluate the data quality of the 11 datasets based on quality dimensions proposed in this paper to determine the best characteristics that a HIDS dataset should possess in order to yield the best possible result. This research initiates a data quality perspective for researchers and practitioners to improve the performance of machine learning-based intrusion detection.
翻訳日:2021-05-25 03:16:44 公開日:2021-05-20
# ルールマイニングに基づく高度持続的脅威検出システム

A Rule Mining-Based Advanced Persistent Threats Detection System ( http://arxiv.org/abs/2105.10053v1 )

ライセンス: Link先を確認
Sidahmed Benabderrahmane, Ghita Berrada, James Cheney, and Petko Valtchev(参考訳) advanced persistent threats(apt)は、ターゲット組織から貴重な情報を盗むことを目的とした、ステルスなサイバー攻撃である。 すべてのAPTをブロックすることは不可能であり、セキュリティの専門家は早期発見と損傷の制限に関する研究の重要性に注意する。 システム全体のプロヴァンス追跡とプロヴァンストレースマイニングは、アクティビティ間の因果関係を見つけ、不審なイベントシーケンスの発生をフラグするのに役立つため、有望であると考えられている。 プロセスアクティビティを反映するOSに依存しない特徴を利用した教師なし手法を導入する。 異常なプロセスは、トレースから学んだ頻繁な出来事と稀な出来事の関連の両方を用いてランク付けされる。 結果は、解釈可能なので、検出された異常を説明するのに因果関係を利用する。 DARPA(Transparent Computing Program datasets)を用いて評価すると,提案手法は競合する手法よりも優れていた。

Advanced persistent threats (APT) are stealthy cyber-attacks that are aimed at stealing valuable information from target organizations and tend to extend in time. Blocking all APTs is impossible, security experts caution, hence the importance of research on early detection and damage limitation. Whole-system provenance-tracking and provenance trace mining are considered promising as they can help find causal relationships between activities and flag suspicious event sequences as they occur. We introduce an unsupervised method that exploits OS-independent features reflecting process activity to detect realistic APT-like attacks from provenance traces. Anomalous processes are ranked using both frequent and rare event associations learned from traces. Results are then presented as implications which, since interpretable, help leverage causality in explaining the detected anomalies. When evaluated on Transparent Computing program datasets (DARPA), our method outperformed competing approaches.
翻訳日:2021-05-25 03:16:24 公開日:2021-05-20
# 部分情報を用いた公平かつ効率的な資源配分

Fair and Efficient Resource Allocation with Partial Information ( http://arxiv.org/abs/2105.10064v1 )

ライセンス: Link先を確認
Daniel Halpern and Nisarg Shah(参考訳) 我々は, 不可分品を添加剤に分配する基本的な問題について検討した。 我々は、それぞれのエージェントから、彼女の最高評価ではなく、最も好まれる商品のランキングのみを引用することを検討する。 1つの善で近似的な最大シェア保証、そして2つの広く研究された公正の概念を達成するのに必要な$k$の値を特徴づける。 また,公平性要件の欠如によって生じる社会福祉の乗算的損失についても分析した。

We study the fundamental problem of allocating indivisible goods to agents with additive preferences. We consider eliciting from each agent only a ranking of her $k$ most preferred goods instead of her full cardinal valuations. We characterize the value of $k$ needed to achieve envy-freeness up to one good and approximate maximin share guarantee, two widely studied fairness notions. We also analyze the multiplicative loss in social welfare incurred due to the lack of full information with and without the fairness requirements.
翻訳日:2021-05-25 03:16:08 公開日:2021-05-20
# 音声言語理解のためのストリームエンドツーエンドフレームワーク

A Streaming End-to-End Framework For Spoken Language Understanding ( http://arxiv.org/abs/2105.10042v1 )

ライセンス: Link先を確認
Nihal Potdar, Anderson R. Avila, Chao Xing, Dong Wang, Yiran Cao, Xiao Chen(参考訳) エンドツーエンドの音声言語理解(SLU)が最近注目を集めている。 音声認識と言語理解を別々のモジュールとして組み合わせた従来のタンデムベースのアプローチと比較して,新しいアプローチでは,音声信号から直接ユーザの意図を抽出し,共同最適化と低レイテンシを実現する。 しかし、このようなアプローチは通常、1つの意図を一度に処理するように設計されており、ユーザーは対話システムと対話しながら要求を満たすために複数のラウンドを実施できる。 本稿では,複数の意図をオンラインおよびインクリメンタルに処理できるストリーミングエンドツーエンドフレームワークを提案する。 我々のフレームワークのバックボーンは、コネクショニスト時間分類(CTC)基準で訓練された一方向RNNである。 この設計により、十分な証拠が蓄積された場合に意図を識別でき、複数の意図を順次特定することができる。 提案手法はFSC(Fluent Speech Commands)データセット上で評価し,意図検出精度は全マルチインテント設定で約97 %である。 この結果は最先端の非ストリーミングモデルのパフォーマンスに匹敵するが、オンラインおよびインクリメンタルな方法で達成される。 Google Speech Commandsデータセットを用いたキーワードスポッティングタスクにも,私たちのモデルを採用しています。

End-to-end spoken language understanding (SLU) has recently attracted increasing interest. Compared to the conventional tandem-based approach that combines speech recognition and language understanding as separate modules, the new approach extracts users' intentions directly from the speech signals, resulting in joint optimization and low latency. Such an approach, however, is typically designed to process one intention at a time, which leads users to take multiple rounds to fulfill their requirements while interacting with a dialogue system. In this paper, we propose a streaming end-to-end framework that can process multiple intentions in an online and incremental way. The backbone of our framework is a unidirectional RNN trained with the connectionist temporal classification (CTC) criterion. By this design, an intention can be identified when sufficient evidence has been accumulated, and multiple intentions can be identified sequentially. We evaluate our solution on the Fluent Speech Commands (FSC) dataset and the intent detection accuracy is about 97 % on all multi-intent settings. This result is comparable to the performance of the state-of-the-art non-streaming models, but is achieved in an online and incremental way. We also employ our model to a keyword spotting task using the Google Speech Commands dataset and the results are also highly promising.
翻訳日:2021-05-25 03:16:02 公開日:2021-05-20
# 屈折による入射光路の変化による透明物体の高密度再構成

Dense Reconstruction of Transparent Objects by Altering Incident Light Paths Through Refraction ( http://arxiv.org/abs/2105.09993v1 )

ライセンス: Link先を確認
Kai Han and Kwan-Yee K. Wong and Miaomiao Liu(参考訳) 本稿では,透明物体の表面形状を再構成する問題に対処する。 この問題の難しさは、透明な物体の視点依存的な外観に起因し、拡散面に適した再現方法が不明瞭に失敗する。 本稿では,光の屈折に基づく透明物体の高密度表面再構成のための固定視点アプローチを提案する。 我々は,物体を部分的に液体に浸漬することにより,光が入射する前に入射光路を変更できる簡単なセットアップを提案し,そのような入射光路の再構成と三角測量により物体表面を復元する手法を開発した。 提案手法では,物体内を移動する光の複雑な相互作用をモデル化する必要はなく,物体形状のパラメトリック形状や光の経路に沿って起こる屈折や反射の正確な数も想定していない。 したがって、比較的複雑な形状と構造を持つ透明な物体を扱い、未知で不均質な屈折率を持つ。 また, 薄い透明物体に対しては, 単一の屈折近似を用いることで, 提案手法をさらに単純化できることを示す。 合成データと実データの両方の実験結果から,提案手法の有効性と精度が示された。

This paper addresses the problem of reconstructing the surface shape of transparent objects. The difficulty of this problem originates from the viewpoint dependent appearance of a transparent object, which quickly makes reconstruction methods tailored for diffuse surfaces fail disgracefully. In this paper, we introduce a fixed viewpoint approach to dense surface reconstruction of transparent objects based on refraction of light. We present a simple setup that allows us to alter the incident light paths before light rays enter the object by immersing the object partially in a liquid, and develop a method for recovering the object surface through reconstructing and triangulating such incident light paths. Our proposed approach does not need to model the complex interactions of light as it travels through the object, neither does it assume any parametric form for the object shape nor the exact number of refractions and reflections taken place along the light paths. It can therefore handle transparent objects with a relatively complex shape and structure, with unknown and inhomogeneous refractive index. We also show that for thin transparent objects, our proposed acquisition setup can be further simplified by adopting a single refraction approximation. Experimental results on both synthetic and real data demonstrate the feasibility and accuracy of our proposed approach.
翻訳日:2021-05-25 03:14:38 公開日:2021-05-20
# 多次元変化点上の高次元平均のセグメンテーションと回帰木への接続

Segmentation of high dimensional means over multi-dimensional change points and connections to regression trees ( http://arxiv.org/abs/2105.10017v1 )

ライセンス: Link先を確認
Abhishek Kaul(参考訳) 本稿の目的は,多変量(潜在的に高次元)応答を許容しつつ,回帰木の特徴付けと実装を行うための,新たな解析的抽出可能な,完全に頻繁なフレームワークを提供することにある。 回帰木への接続は多次元変化軸上の動的平均ベクトルを持つ高次元モデルによって構成される。 理論的解析は1つの2次元変化点設定の下で行う。 提案した推定器の最適収束率を求め, 制限分布の存在を許容する。 変化点推定の分布挙動を2つの異なる状態に分割し、各状態下での制限分布を特徴付けることにより、漸近的に有効な信頼区間を2d$-placeで構築することができる。 すべての結果は高次元スケーリング$s\log^2 p=o(T_wT_h)$,$p$が応答次元,$s$がスパーシパラメータ,$T_w,T_h$が変化軸に沿ったサンプリング周期で得られる。 多次元変化点モデルを定義することにより、全回帰木を特徴づける。 単一2d$-changeポイント推定手法の自然な拡張が提供される。 まず, 赤外線天文学衛星(iras)データのセグメンテーションと, デジタル画像のセグメンテーションに関する2つの応用について述べる。 方法論と理論的結果はモンテカルロシミュレーションで支持される。

This article is motivated by the objective of providing a new analytically tractable and fully frequentist framework to characterize and implement regression trees while also allowing a multivariate (potentially high dimensional) response. The connection to regression trees is made by a high dimensional model with dynamic mean vectors over multi-dimensional change axes. Our theoretical analysis is carried out under a single two dimensional change point setting. An optimal rate of convergence of the proposed estimator is obtained, which in turn allows existence of limiting distributions. Distributional behavior of change point estimates are split into two distinct regimes, the limiting distributions under each regime is then characterized, in turn allowing construction of asymptotically valid confidence intervals for $2d$-location of change. All results are obtained under a high dimensional scaling $s\log^2 p=o(T_wT_h),$ where $p$ is the response dimension, $s$ is a sparsity parameter, and $T_w,T_h$ are sampling periods along change axes. We characterize full regression trees by defining a multiple multi-dimensional change point model. Natural extensions of the single $2d$-change point estimation methodology are provided. Two applications, first on segmentation of {\it Infra-red astronomy satellite (IRAS)} data and second to segmentation of digital images are provided. Methodology and theoretical results are supported with monte-carlo simulations.
翻訳日:2021-05-25 03:12:28 公開日:2021-05-20
# 順序列としての惑星系について

On planetary systems as ordered sequences ( http://arxiv.org/abs/2105.09966v1 )

ライセンス: Link先を確認
Emily Sandford, David Kipping, Michael Collins(参考訳) 惑星系はホスト星と1つ以上の惑星から構成され、特定の構成に配列されている。 ここでは、3277の惑星系における4286個のケプラー惑星の構成や順序に関する情報について考察する。 まず、ホスト星の性質と隣接する恒星の半径と周期に基づいて、惑星の半径と周期を予測するニューラルネットワークモデルを訓練する。 トレーニングされたモデルの予測の平均絶対誤差は、動的に許容可能な周期とラジイからランダムに引き出すネーブモデルの予測のMAEよりも2.1良い係数である。 第二に、計算言語学において教師なしの音声タグ付けに使用されるモデルを適用し、惑星や惑星系が物理的に解釈可能な「文法規則」を持つ自然カテゴリーに該当するかどうかを調べる。 モデルは、(1)コンパクトな多惑星系と(2)巨大星を取り巻く系(\log{g} \lesssim 4.0$)の2つの頑健な群を識別するが、後者の群はトランジット法の選択バイアスによって強く彫刻されている。 これらの結果は、惑星系はランダムな配列ではないという考えを強化し、その代わりに、惑星系の形成と進化に関する洞察を与える予測可能なパターンを含んでいる。

A planetary system consists of a host star and one or more planets, arranged into a particular configuration. Here, we consider what information belongs to the configuration, or ordering, of 4286 Kepler planets in their 3277 planetary systems. First, we train a neural network model to predict the radius and period of a planet based on the properties of its host star and the radii and period of its neighbors. The mean absolute error of the predictions of the trained model is a factor of 2.1 better than the MAE of the predictions of a naive model which draws randomly from dynamically allowable periods and radii. Second, we adapt a model used for unsupervised part-of-speech tagging in computational linguistics to investigate whether planets or planetary systems fall into natural categories with physically interpretable "grammatical rules." The model identifies two robust groups of planetary systems: (1) compact multi-planet systems and (2) systems around giant stars ($\log{g} \lesssim 4.0$), although the latter group is strongly sculpted by the selection bias of the transit method. These results reinforce the idea that planetary systems are not random sequences -- instead, as a population, they contain predictable patterns that can provide insight into the formation and evolution of planetary systems.
翻訳日:2021-05-25 03:12:05 公開日:2021-05-20
# 非明視的空間サンプリングのためのスケーラブルなマルチロボットシステム

Scalable Multi-Robot System for Non-myopic Spatial Sampling ( http://arxiv.org/abs/2105.10018v1 )

ライセンス: Link先を確認
Sandeep Manjanna and Ani Hsieh and Gregory Dudek(参考訳) 本稿では,半静的空間場の非一様サンプリングのための分散スケーラブルマルチロボット計画アルゴリズムを提案する。 複数の自動運転車を用いた効率的なデータ収集の問題に対処する。 本稿では,複数のロボット間のコミュニケーションがチーム全体のサンプリング性能に与える影響を,独立して分析することに関心がある。 我々の焦点は、ロボットがチームメイトから独立して動作している分散サンプリング問題であるが、通信範囲に制約を設けて、他の隣人と状態を通信できる能力である。 空間場から効率的に計測を行うために,複数のロボットプラットフォームに情報提供された非筋経路計画手法を設計・適用する。 提案手法は,実世界のシナリオにおいて重要な機能である,課題の多い環境に高度に適応し,チームサイズを増加させ,リアルタイムに実行する。 その結果,ロボット間の通信を最小にすることで,効率的なサンプリングを実現することができた。 フィールドトライアルで収集した実世界データと自然界で発生する複数の分布のシミュレーションにおける本手法の評価を行った。

This paper presents a distributed scalable multi-robot planning algorithm for non-uniform sampling of quasi-static spatial fields. We address the problem of efficient data collection using multiple autonomous vehicles. In this paper, we are interested in analyzing the effect of communication between multiple robots, acting independently, on the overall sampling performance of the team. Our focus is on distributed sampling problem where the robots are operating independent of their teammates, but have the ability to communicate their states to other neighbors with a constraint on the communication range. We design and apply an informed non-myopic path planning technique on multiple robotic platforms to efficiently collect measurements from a spatial field. Our proposed approach is highly adaptive to challenging environments, growing team size, and runs in real-time, which are the key features for any real-world scenario. The results show that our distributed sampling approach is able to achieve efficient sampling with minimal communication between the robots. We evaluate our approach in simulation over multiple distributions commonly occurring in nature and on the real-world data collected during a field trial.
翻訳日:2021-05-25 03:11:43 公開日:2021-05-20
# 絶対非基底関係と構造学習

Definite Non-Ancestral Relations and Structure Learning ( http://arxiv.org/abs/2105.10350v1 )

ライセンス: Link先を確認
Wenyu Chen, Mathias Drton and Ali Shojaie(参考訳) 有向非巡回グラフ(DAG)に基づく因果グラフモデルでは、有向経路は対応する変数間の因果経路を表す。 そのようなパスの先頭にある変数は、パスの終端にある変数の祖先と呼ばれる。 変数間の基底関係は因果モデリングにおいて重要な役割を果たす。 構造学習に関する既存の文献では、これらの関係は通常、学習された構造から導出され、エッジの向き付けやDAGの空間の定式化に使用される。 しかし、通常は推論の即時的ターゲットとして設定されない。 本研究では,CPDAGとd-セパレーション関係による祖先関係のグラフィカルな特徴について検討する。 まず,骨格を学習することなく,明確な非祖先関係を学習できる枠組みを提案する。 このフレームワークは、スコアベースと制約ベースのアルゴリズムの両方で使用可能な構造情報を取得し、因果DAGをより効率的に学習する。

In causal graphical models based on directed acyclic graphs (DAGs), directed paths represent causal pathways between the corresponding variables. The variable at the beginning of such a path is referred to as an ancestor of the variable at the end of the path. Ancestral relations between variables play an important role in causal modeling. In existing literature on structure learning, these relations are usually deduced from learned structures and used for orienting edges or formulating constraints of the space of possible DAGs. However, they are usually not posed as immediate target of inference. In this work we investigate the graphical characterization of ancestral relations via CPDAGs and d-separation relations. We propose a framework that can learn definite non-ancestral relations without first learning the skeleton. This frame-work yields structural information that can be used in both score- and constraint-based algorithms to learn causal DAGs more efficiently.
翻訳日:2021-05-25 03:11:03 公開日:2021-05-20
# (参考訳) BayLIME: Bayesian Local Interpretable Model-Agnostic Explanations [全文訳有]

BayLIME: Bayesian Local Interpretable Model-Agnostic Explanations ( http://arxiv.org/abs/2012.03058v4 )

ライセンス: CC BY 4.0
Xingyu Zhao, Wei Huang, Xiaowei Huang, Valentin Robu, David Flynn(参考訳) アルゴリズムの透明性を確保する必要性が高まる中、説明可能なAI(XAI)がAI研究の重要な領域の1つとして登場した。 本稿では,XAI において最も広く利用されているアプローチのひとつである LIME フレームワークに対するベイズ的拡張を開発し,これを BayLIME と呼ぶ。 LIMEと比較して、BayLIMEは1つの予測の繰り返しの説明における一貫性とカーネル設定に対する堅牢性の両方を改善するために、事前の知識とベイズ推論を利用する。 BayLIMEは最先端技術(LIME、SHAP、GradCAM)よりも、例えば、様々なXAI技術から事前の知識を統合する能力や、検証と検証(V&V)の手法により、説明の忠実さが向上している。 理論解析と広範な実験により,ベイライムの望ましい特性を示す。

Given the pressing need for assuring algorithmic transparency, Explainable AI (XAI) has emerged as one of the key areas of AI research. In this paper, we develop a novel Bayesian extension to the LIME framework, one of the most widely used approaches in XAI -- which we call BayLIME. Compared to LIME, BayLIME exploits prior knowledge and Bayesian reasoning to improve both the consistency in repeated explanations of a single prediction and the robustness to kernel settings. BayLIME also exhibits better explanation fidelity than the state-of-the-art (LIME, SHAP and GradCAM) by its ability to integrate prior knowledge from, e.g., a variety of other XAI techniques, as well as verification and validation (V&V) methods. We demonstrate the desirable properties of BayLIME through both theoretical analysis and extensive experiments.
翻訳日:2021-05-22 16:09:09 公開日:2021-05-20
# (参考訳) 緊急障害物回避マニキュアへの自律走行車統合アプローチの展望

A Review of Autonomous Road Vehicle Integrated Approaches to an Emergency Obstacle Avoidance Maneuver ( http://arxiv.org/abs/2105.09446v1 )

ライセンス: CC BY-SA 4.0
Evan Lowe, Levent Guven\c{c}(参考訳) 旅客車両の技術が進歩するにつれて、特にタイヤ、サスペンション、ステアリング、ABS、ESC、最近ではADASシステムといった安全技術の開発において、障害物を避ける能力を持つようになった。 しかし、乗用車を取り巻く環境はより複雑で危険なものになっている。 以前は、乗用車の運転中に障害物を避けようとするドライバーの傾向と性能を概説する研究があった。 現在、自動運転車は障害物回避機能を備えた開発が進んでいるため、人間のドライバーを満足または超越した性能を目標にすることが重要である。 本本書は,緊急障害物回避操作(eoam)に不可欠なシステムを強調し,高速道路走行時のニュアンスを考慮しながら,関連するシステム毎の最先端を特定する。 このレビューで議論されているeoam関連システム/領域は、一般的な経路計画法、システム階層、意思決定、軌道生成、軌道追跡制御法である。 コメントを締めくくった後、理想的なEOAM開発に繋がる将来の仕事の提案について論じる。

As passenger vehicle technologies have advanced, so have their capabilities to avoid obstacles, especially with developments in tires, suspensions, steering, as well as safety technologies like ABS, ESC, and more recently, ADAS systems. However, environments around passenger vehicles have also become more complex, and dangerous. There have previously been studies that outline driver tendencies and performance capabilities when attempting to avoid obstacles while driving passenger vehicles. Now that autonomous vehicles are being developed with obstacle avoidance capabilities, it is important to target performance that meets or exceeds that of human drivers. This manuscript highlights systems that are crucial for an emergency obstacle avoidance maneuver (EOAM) and identifies the state-of-the-art for each of the related systems, while considering the nuances of traveling at highway speeds. Some of the primary EOAM-related systems/areas that are discussed in this review are: general path planning methods, system hierarchies, decision-making, trajectory generation, and trajectory-tracking control methods. After concluding remarks, suggestions for future work which could lead to an ideal EOAM development, are discussed.
翻訳日:2021-05-21 21:48:09 公開日:2021-05-20
# (参考訳) VTNet:オブジェクトゴールナビゲーションのためのビジュアルトランスフォーマーネットワーク [全文訳有]

VTNet: Visual Transformer Network for Object Goal Navigation ( http://arxiv.org/abs/2105.09447v1 )

ライセンス: CC BY 4.0
Heming Du, Xin Yu, Liang Zheng(参考訳) オブジェクトゴールナビゲーションは、エージェントの観察に基づいてターゲットオブジェクトに向かってエージェントを操縦することを目的としている。 ナビゲーション動作を決定する上で、観察されたシーンの効果的な視覚表現を設計することが重要である。 本稿では,ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を提案する。 VTNetは視覚的表現の2つの重要な特性を具現化する非常に効果的な構造である: まず、シーン内のすべてのオブジェクトインスタンス間の関係が悪用される; 次に、オブジェクトと画像領域の空間的位置が強調され、指向性ナビゲーション信号が学習できる。 さらに,視覚表現とナビゲーション信号とを関連付けるための事前学習手法を開発し,ナビゲーションポリシーの学習を容易にする。 一言で言えば、vtnetはオブジェクトと領域の特徴を空間認識ディスクリプタとして埋め込み、エンコードされたディスクリプタをすべてアテンション操作を通じて組み込んでナビゲーションのための情報表現を実現している。 このような視覚的表現を与えられたエージェントは、視覚的観察とナビゲーション行動の相関関係を探索することができる。 例えば、アクティベーションマップの右側に視覚的表現が強調される場合、エージェントは「右に曲がる」ことを「左に曲がる」よりも優先する。 人工環境におけるAI2-Thorの実験では、VTNetは目に見えないテスト環境で最先端の手法を大幅に上回っている。

Object goal navigation aims to steer an agent towards a target object based on observations of the agent. It is of pivotal importance to design effective visual representations of the observed scene in determining navigation actions. In this paper, we introduce a Visual Transformer Network (VTNet) for learning informative visual representation in navigation. VTNet is a highly effective structure that embodies two key properties for visual representations: First, the relationships among all the object instances in a scene are exploited; Second, the spatial locations of objects and image regions are emphasized so that directional navigation signals can be learned. Furthermore, we also develop a pre-training scheme to associate the visual representations with navigation signals, and thus facilitate navigation policy learning. In a nutshell, VTNet embeds object and region features with their location cues as spatial-aware descriptors and then incorporates all the encoded descriptors through attention operations to achieve informative representation for navigation. Given such visual representations, agents are able to explore the correlations between visual observations and navigation actions. For example, an agent would prioritize "turning right" over "turning left" when the visual representation emphasizes on the right side of activation map. Experiments in the artificial environment AI2-Thor demonstrate that VTNet significantly outperforms state-of-the-art methods in unseen testing environments.
翻訳日:2021-05-21 21:47:02 公開日:2021-05-20
# (参考訳) カモフラージュオブジェクトセグメンテーションのためのアナブランチネットワーク [全文訳有]

Anabranch Network for Camouflaged Object Segmentation ( http://arxiv.org/abs/2105.09451v1 )

ライセンス: CC BY 4.0
Trung-Nghia Le, Tam V. Nguyen, Zhongliang Nie, Minh-Triet Tran, Akihiro Sugimoto(参考訳) カモフラージュされた物体は、テクスチャを背景に隠そうとしており、背景から識別することは人間にとっても難しい。 本研究の目的は, カモフラージュされた対象分割問題, すなわち, カモフラーグされた対象を与えられた画像に対してセグメント化することである。 この問題は、野生動物の保存や新種の発見、監視システム、地震、洪水、ハリケーンなどの自然災害が発生した場合の捜索救助任務など、幅広い可能性があるにもかかわらず、十分に研究されていない。 本稿では,キャモフラージュされたオブジェクトセグメンテーションの課題に対処する。 この問題に対処するため,我々は,ベンチマーク目的のカモフラーグオブジェクトの画像データセットを新たに提供した。 さらに,分類タスクとセグメント化タスクの両方を活用する,Anabranch Networkと呼ばれる汎用エンドツーエンドネットワークを提案する。 既存のセグメンテーションネットワークとは違って,提案ネットワークは,画像中にカモフラージュされたオブジェクトを含む確率を予測するために,分類のための第2のブランチを持ち,セグメンテーションのためにメインブランチに融合し,セグメンテーション精度を高める。 新たに構築したデータセットで行った大規模な実験は、様々な完全畳み込みネットワークを用いたネットワークの有効性を示す。 https://sites.google .com/view/ltnghia/re search/camo}

Camouflaged objects attempt to conceal their texture into the background and discriminating them from the background is hard even for human beings. The main objective of this paper is to explore the camouflaged object segmentation problem, namely, segmenting the camouflaged object(s) for a given image. This problem has not been well studied in spite of a wide range of potential applications including the preservation of wild animals and the discovery of new species, surveillance systems, search-and-rescue missions in the event of natural disasters such as earthquakes, floods or hurricanes. This paper addresses a new challenging problem of camouflaged object segmentation. To address this problem, we provide a new image dataset of camouflaged objects for benchmarking purposes. In addition, we propose a general end-to-end network, called the Anabranch Network, that leverages both classification and segmentation tasks. Different from existing networks for segmentation, our proposed network possesses the second branch for classification to predict the probability of containing camouflaged object(s) in an image, which is then fused into the main branch for segmentation to boost up the segmentation accuracy. Extensive experiments conducted on the newly built dataset demonstrate the effectiveness of our network using various fully convolutional networks. \url{https://sites.google .com/view/ltnghia/re search/camo}
翻訳日:2021-05-21 21:30:24 公開日:2021-05-20
# (参考訳) 光リニア変換器を用いたコンテンツ強化型ピラミッドネットワーク [全文訳有]

Content-Augmented Feature Pyramid Network with Light Linear Transformers ( http://arxiv.org/abs/2105.09464v1 )

ライセンス: CC BY 4.0
Yongxiang Gu, Xiaolin Qin, Yuncong Peng, Lu Li(参考訳) 近年,コンピュータビジョンタスクにトランスフォーマーを導入しようと試み,良好な結果が得られた。 局所受容領域内の特徴を抽出する古典的畳み込みネットワークとは異なり、トランスフォーマーは自己認識機構を用いてグローバルビューから同様の特徴を適応的に集約することができる。 オブジェクト検出のために、Feature Pyramid Network (FPN) は層間の機能相互作用を提案し、その重要性を証明している。 しかし、その相互作用はまだローカルな方法であり、改善の余地は多く残されている。 変換器はもともとNLPタスク用に設計されていたため、テキストから画像へ直接処理対象を適応させると、計算や空間オーバーヘッドが発生する。 本稿では,上記の問題を克服する線形化注意関数を用いて,光線形変換器を用いてFPNと深く結合したグローバルコンテンツ抽出モジュールを提案する,CA-FPN(Content-Augm ented Feature Pyramid Network)という新しいアーキテクチャを構築する。 さらに、ライトトランスフォーマーはマルチヘッドアテンション機構の応用をさらに簡単にしてくれます。 最も重要なことは、我々のCA-FPNは既存のFPNベースのモデルに簡単に接続できることです。 挑戦的なCOCOオブジェクト検出データセットに関する大規模な実験により、我々のCA-FPNはベルやホイッスルなしで競争ベースラインを著しく上回っていることが示された。 コードは公開される予定だ。

Recently, plenty of work has tried to introduce transformers into computer vision tasks, with good results. Unlike classic convolution networks, which extract features within a local receptive field, transformers can adaptively aggregate similar features from a global view using self-attention mechanism. For object detection, Feature Pyramid Network (FPN) proposes feature interaction across layers and proves its extremely importance. However, its interaction is still in a local manner, which leaves a lot of room for improvement. Since transformer was originally designed for NLP tasks, adapting processing subject directly from text to image will cause unaffordable computation and space overhead. In this paper, we utilize a linearized attention function to overcome above problems and build a novel architecture, named Content-Augmented Feature Pyramid Network (CA-FPN), which proposes a global content extraction module and deeply combines with FPN through light linear transformers. What's more, light transformers can further make the application of multi-head attention mechanism easier. Most importantly, our CA-FPN can be readily plugged into existing FPN-based models. Extensive experiments on the challenging COCO object detection dataset demonstrated that our CA-FPN significantly outperforms competitive baselines without bells and whistles. Code will be made publicly available.
翻訳日:2021-05-21 21:10:57 公開日:2021-05-20
# (参考訳) 複雑ネットワークにおける相互影響ノードによるリンク予測のための選好ランダムウォークアルゴリズム [全文訳有]

A Preference Random Walk Algorithm for Link Prediction through Mutual Influence Nodes in Complex Networks ( http://arxiv.org/abs/2105.09494v1 )

ライセンス: CC BY 4.0
Kamal Berahmand, Elahe Nasiri, Saman Forouzandeh, Yuefeng Li(参考訳) 複雑なネットワークにおけるリンクの予測は、過去数年間のデータマイニングと科学発見の領域における重要なトピックの1つだ。 この問題は、グラフ内の既存のリンクを使用して、将来、削除、冗長なリンクを特定する試みである。 局所ランダムウォークは準局所メソッドのカテゴリで最も有名なアルゴリズムの1つであると考えられている。 従来のランダムウォークを限られた数のステップでトラバースし、同じ重要性を持つノード間で各ステップで1つの隣接ノードをランダムに選択する。 次に,ノード間の遷移確率を用いて類似度を算出する。 しかし、ほとんどのデータセットでは、この手法は驚くほど類似したノードを正確に評価することができない。 本稿では,各ステップにおいて,より強い影響を持つノードに向かって,ランダムウォーキングを奨励することで,局所的ランダムウォーキングを改善する効率的な方法を提案する。 これにより、ソースノードの影響に応じて次のノードが選択される。 そのため、相互情報を用いて、ノードの非対称相互影響の概念が提示される。 提案手法と他の類似性に基づく手法(局所的,準局所的,グローバル的)との比較を行い,11の実ネットワークで結果が報告されている。 他のリンク予測手法と比較して高い予測精度を示した。

Predicting links in complex networks has been one of the essential topics within the realm of data mining and science discovery over the past few years. This problem remains an attempt to identify future, deleted, and redundant links using the existing links in a graph. Local random walk is considered to be one of the most well-known algorithms in the category of quasi-local methods. It traverses the network using the traditional random walk with a limited number of steps, randomly selecting one adjacent node in each step among the nodes which have equal importance. Then this method uses the transition probability between node pairs to calculate the similarity between them. However, in most datasets, this method is not able to perform accurately in scoring remarkably similar nodes. In the present article, an efficient method is proposed for improving local random walk by encouraging random walk to move, in every step, towards the node which has a stronger influence. Therefore, the next node is selected according to the influence of the source node. To do so, using mutual information, the concept of the asymmetric mutual influence of nodes is presented. A comparison between the proposed method and other similarity-based methods (local, quasi-local, and global) has been performed, and results have been reported for 11 real-world networks. It had a higher prediction accuracy compared with other link prediction approaches.
翻訳日:2021-05-21 20:53:09 公開日:2021-05-20
# (参考訳) deep kroneckerニューラルネットワーク:適応活性化機能を持つニューラルネットワークのための汎用フレームワーク [全文訳有]

Deep Kronecker neural networks: A general framework for neural networks with adaptive activation functions ( http://arxiv.org/abs/2105.09513v1 )

ライセンス: CC BY 4.0
Ameya D. Jagtap, Yeonjong Shin, Kenji Kawaguchi, George Em Karniadakis(参考訳) 本稿では,適応型アクティベーション機能を持つニューラルネットワークの汎用フレームワークを形成する,新しいタイプのニューラルネットワークであるkronecker neural networks (knns)を提案する。 KNNは、パラメータ数を低く保ちながら、非常に広いネットワークを構築する効率的な方法を提供するKronecker製品を使用している。 理論的解析により, 適切な条件下では, KNNはフィードフォワードネットワークよりも損失の減少を早く引き起こすことが明らかとなった。 これはまた、一連の計算例を通して実証的に検証される。 さらに,特定の技術的仮定の下で,knの勾配降下のグローバル収束を確立する。 具体的には,訓練可能なパラメータを含む正弦波変動を注入することで飽和領域を取り除くように設計されたロウディ活性化関数を提案する。 提案する行活性化関数は、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワークなど、任意のニューラルネットワークアーキテクチャで使用することができる。 その効果は, フィードフォワードニューラルネットワークを用いた関数近似, 物理形ニューラルネットワークを用いた偏微分方程式の解推定, 畳み込みおよび完全連結ニューラルネットワークを用いた標準ディープラーニングベンチマーク問題など, 様々な計算実験により実証された。

We propose a new type of neural networks, Kronecker neural networks (KNNs), that form a general framework for neural networks with adaptive activation functions. KNNs employ the Kronecker product, which provides an efficient way of constructing a very wide network while keeping the number of parameters low. Our theoretical analysis reveals that under suitable conditions, KNNs induce a faster decay of the loss than that by the feed-forward networks. This is also empirically verified through a set of computational examples. Furthermore, under certain technical assumptions, we establish global convergence of gradient descent for KNNs. As a specific case, we propose the Rowdy activation function that is designed to get rid of any saturation region by injecting sinusoidal fluctuations, which include trainable parameters. The proposed Rowdy activation function can be employed in any neural network architecture like feed-forward neural networks, Recurrent neural networks, Convolutional neural networks etc. The effectiveness of KNNs with Rowdy activation is demonstrated through various computational experiments including function approximation using feed-forward neural networks, solution inference of partial differential equations using the physics-informed neural networks, and standard deep learning benchmark problems using convolutional and fully-connected neural networks.
翻訳日:2021-05-21 20:38:34 公開日:2021-05-20
# (参考訳) 解釈可能なクレーム検証のための統合デュアルビュー認知モデル [全文訳有]

Unified Dual-view Cognitive Model for Interpretable Claim Verification ( http://arxiv.org/abs/2105.09567v1 )

ライセンス: CC BY 4.0
Lianwei Wu, Yuan Rao, Yuqian Lan, Ling Sun and Zhaoyin Qi(参考訳) 近年,クレームと個々のユーザ応答(コメントや関連記事)の直接的なインタラクションを構築して証拠を収集する研究が,解釈可能なクレーム検証において顕著な成功を収めている。 異なる単一応答は個々のユーザーの異なる認知(つまり、聴衆)を伝達するため、捕獲された証拠は個々の認知の観点に属する。 しかし、社会的物事に対する個人の認識は、必ずしもその目的を真に反映できるとは限らない。 主張に対する意見には一方的あるいは偏見的な意味論があるかもしれない。 捕獲された証拠には、いくつかの客観的で偏見のある証拠の断片が含まれており、タスクのパフォーマンスが低下している。 本稿では,解釈可能なクレーム検証のための集合認識と個人認識(CICD)の視点に基づくデュアルビューモデルを提案する。 集団認知の観点からは、個々のユーザに基づく単語レベルのセマンティクスをキャプチャするだけでなく、全ユーザ間の文レベルのセマンティクス(つまり、全体の反応)に焦点を当て、それらの比率を調整してグローバルな証拠を生成する。 個々の認知の観点からは、高い差度を持つ上位$k$の論文を選択し、その主張と相互作用して、局所的な重要証拠の断片を探索する。 個々の認知的視点証拠の偏りを弱めるために,我々は不整合損失を考案し,グローバル証拠とローカル証拠の相違を抑制し,両者の一貫した共有証拠を強化する。 3つのベンチマークデータセットの実験により、CICDが最先端のパフォーマンスを達成することを確認した。

Recent studies constructing direct interactions between the claim and each single user response (a comment or a relevant article) to capture evidence have shown remarkable success in interpretable claim verification. Owing to different single responses convey different cognition of individual users (i.e., audiences), the captured evidence belongs to the perspective of individual cognition. However, individuals' cognition of social things is not always able to truly reflect the objective. There may be one-sided or biased semantics in their opinions on a claim. The captured evidence correspondingly contains some unobjective and biased evidence fragments, deteriorating task performance. In this paper, we propose a Dual-view model based on the views of Collective and Individual Cognition (CICD) for interpretable claim verification. From the view of the collective cognition, we not only capture the word-level semantics based on individual users, but also focus on sentence-level semantics (i.e., the overall responses) among all users and adjust the proportion between them to generate global evidence. From the view of individual cognition, we select the top-$k$ articles with high degree of difference and interact with the claim to explore the local key evidence fragments. To weaken the bias of individual cognition-view evidence, we devise inconsistent loss to suppress the divergence between global and local evidence for strengthening the consistent shared evidence between the both. Experiments on three benchmark datasets confirm that CICD achieves state-of-the-art performance.
翻訳日:2021-05-21 20:04:43 公開日:2021-05-20
# (参考訳) 混合周波数データの集約学習 [全文訳有]

Aggregate Learning for Mixed Frequency Data ( http://arxiv.org/abs/2105.09579v1 )

ライセンス: CC BY 4.0
Takamichi Toda, Daisuke Moriwaki, Kazuhiro Ota(参考訳) 2007-2009年の金融危機や現在の新型コロナウイルス感染など、大規模で急性の経済ショックは、経済環境を急速に変化させる。 このような状況下では、代替データを用いたリアルタイム経済分析の重要性が高まっている。 検索クエリや位置情報などの代替データは、一般に1ヶ月に1回、集計形式でリリースされる公式統計よりもリアルタイムに近い。 本稿では,代替データの時空間的粒度を生かした混合周波数集約学習(mf-agl)モデルを提案する。 実世界の問題,失業率と密接な関係を持つ求職者の数を予測するために,本モデルを適用した。 提案モデルは,労働市場条件の地域的不均一性を予測し,(ii)急速に変化する経済状況を予測する。 このモデルは様々なタスク、特に経済分析に適用できる

Large and acute economic shocks such as the 2007-2009 financial crisis and the current COVID-19 infections rapidly change the economic environment. In such a situation, the importance of real-time economic analysis using alternative datais emerging. Alternative data such as search query and location data are closer to real-time and richer than official statistics that are typically released once a month in an aggregated form. We take advantage of spatio-temporal granularity of alternative data and propose a mixed-FrequencyAggre gate Learning (MF-AGL)model that predicts economic indicators for the smaller areas in real-time. We apply the model for the real-world problem; prediction of the number of job applicants which is closely related to the unemployment rates. We find that the proposed model predicts (i) the regional heterogeneity of the labor market condition and (ii) the rapidly changing economic status. The model can be applied to various tasks, especially economic analysis
翻訳日:2021-05-21 19:30:22 公開日:2021-05-20
# (参考訳) 二項パターン分類のための量子ニューラルネットワークの否定対称性 [全文訳有]

Negational Symmetry of Quantum Neural Networks for Binary Pattern Classification ( http://arxiv.org/abs/2105.09580v1 )

ライセンス: CC BY 4.0
Nanqing Dong, Michael Kampffmeyer, Irina Voiculescu, Eric Xing(参考訳) 絡み合いは物理現象であり、近年の量子アルゴリズムの成功に拍車をかけた。 量子ニューラルネットワーク(QNN)は、最近、単純な機械学習タスクを解くための有望な結果を示しているが、今のところ、QNNにおける絡み合いの影響と、バイナリパターン分類におけるQNNの挙動は、まだ未定である。 本稿では,量子二分法と量子表現学習の両面において,QNNに埋め込まれた新しい不変形式を提示し,解析することにより,QNNの特性に関する理論的知見を提供する。 量子二乗信号とその否定的信号が与えられたとき、ビットワイズNOT演算が二乗信号の各量子ビットに適用され、QNNは同じロジットを出力する。 つまり、QNNは二項分類タスクにおいて量子二項信号とその否定的信号とを区別することはできない。 さらに,googleの量子コンピューティングフレームワークを用いて,バイナリパターン分類タスクにおけるqnnの否定対称性を実験的に評価する。 理論的および実験的結果は、否定対称性が古典的モデルでは共有されないQNNの基本的性質であることを示唆している。 また, 実用量子応用において, 否定対称性は二重刃剣であることも示唆した。

Entanglement is a physical phenomenon, which has fueled recent successes of quantum algorithms. Although quantum neural networks (QNNs) have shown promising results in solving simple machine learning tasks recently, for the time being, the effect of entanglement in QNNs and the behavior of QNNs in binary pattern classification are still underexplored. In this work, we provide some theoretical insight into the properties of QNNs by presenting and analyzing a new form of invariance embedded in QNNs for both quantum binary classification and quantum representation learning, which we term negational symmetry. Given a quantum binary signal and its negational counterpart where a bitwise NOT operation is applied to each quantum bit of the binary signal, a QNN outputs the same logits. That is to say, QNNs cannot differentiate a quantum binary signal and its negational counterpart in a binary classification task. We further empirically evaluate the negational symmetry of QNNs in binary pattern classification tasks using Google's quantum computing framework. The theoretical and experimental results suggest that negational symmetry is a fundamental property of QNNs, which is not shared by classical models. Our findings also imply that negational symmetry is a double-edged sword in practical quantum applications.
翻訳日:2021-05-21 19:15:13 公開日:2021-05-20
# (参考訳) See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization (英語)

See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization ( http://arxiv.org/abs/2105.09601v1 )

ライセンス: CC BY 4.0
Yash Kumar Atri, Shraman Pramanick, Vikram Goyal, Tanmoy Chakraborty(参考訳) 近年,複数モーダル入力による抽象的なテキスト要約が注目されている。 しかし、既存の手法では、短い映像を視覚モダリティとして、短い要約を地対面として使用するため、長いビデオや長い地対面要約では性能が劣る。 さらに、このタスクを様々な長さのビデオで一般化するベンチマークデータセットは存在しない。 本稿では,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間の動画による抽象テキスト要約のための最初の大規模データセットであるAVIATEを紹介する。 我々は,対応する研究論文の要約を参照要約として使用し,基盤の質と均一性を確保する。 そこで本論文では,マルチモーダルトランスフォーマーをベースとしたデコーダのみの言語モデルである {\name}を提案する。 {\name} はマルチモーダリティをキャプチャする自己アテンションの増加を利用しており、従来のエンコーダ-デコーダベースネットワークよりも大幅にパフォーマンスが向上している。 大規模な実験では、既存のショートビデオのハウ2データセットと新しく導入されたビデオのAVIATEデータセットの質的および定量的評価において、ベースラインを大幅に改善し、それぞれ1.39$と2.74$のROUGE-Lポイントの2つのデータセットのベースラインを上回った。

In recent years, abstractive text summarization with multimodal inputs has started drawing attention due to its ability to accumulate information from different source modalities and generate a fluent textual summary. However, existing methods use short videos as the visual modality and short summary as the ground-truth, therefore, perform poorly on lengthy videos and long ground-truth summary. Additionally, there exists no benchmark dataset to generalize this task on videos of varying lengths. In this paper, we introduce AVIATE, the first large-scale dataset for abstractive text summarization with videos of diverse duration, compiled from presentations in well-known academic conferences like NDSS, ICML, NeurIPS, etc. We use the abstract of corresponding research papers as the reference summaries, which ensure adequate quality and uniformity of the ground-truth. We then propose {\name}, a factorized multi-modal Transformer based decoder-only language model, which inherently captures the intra-modal and inter-modal dynamics within various input modalities for the text summarization task. {\name} utilizes an increasing number of self-attentions to capture multimodality and performs significantly better than traditional encoder-decoder based networks. Extensive experiments illustrate that {\name} achieves significant improvement over the baselines in both qualitative and quantitative evaluations on the existing How2 dataset for short videos and newly introduced AVIATE dataset for videos with diverse duration, beating the best baseline on the two datasets by $1.39$ and $2.74$ ROUGE-L points respectively.
翻訳日:2021-05-21 18:49:49 公開日:2021-05-20
# (参考訳) 確率的・変動的勧告 [全文訳有]

Probabilistic and Variational Recommendation Denoising ( http://arxiv.org/abs/2105.09605v1 )

ライセンス: CC BY 4.0
Yu Wang, Xin Xin, Zaiqiao Meng, Xiangnan He, Joemon Jose, Fuli Feng(参考訳) 暗黙のフィードバックから学ぶことは、推奨システムの適用において最も一般的なケースの1つである。 一般的には、相互作用した例は正と見なされ、負の例は非相互作用のものからサンプリングされる。 しかし、実世界の暗黙のフィードバックではノイズが多い。 ノイズの多いポジティブな例は相互作用できるが、実際にはネガティブなユーザの好みにつながる。 ユーザの無知のために相互作用しないノイズの多いネガティブな例は、潜在的にポジティブなユーザの好みを示すこともある。 従来の訓練方法はこれらの騒がしい例を見落とし、最適でない推奨に繋がる。 本研究では,暗黙的なフィードバックのための確率的・変動的推薦を提案する。 実験的な研究では、異なるモデルが実際のユーザーの好みを示すクリーンな例で比較的類似の予測をするのに対し、ノイズの多い例の予測は異なるモデルによって異なることが判明した。 本研究の目的は,データ観測の可能性を最大化しつつ,2つの推奨モデルによりパラメータ化される実際のユーザの嗜好分布間のKL偏差を最小化することである。 次に,実ユーザの嗜好を潜在変数として考えると,dpiは変分オートエンコーダのエビデンス下限を回復することを示す。 これは、変分オートエンコーダ(dvae)による第2の学習フレームワークにつながります。 提案したDPIとDVAEを4つの最先端レコメンデーションモデルに適用し、3つのデータセットで実験を行う。 実験の結果, DPIとDVAEは, 通常の訓練法および他の聴覚訓練法と比較して, 推奨性能を有意に向上した。 コードはオープンソースになる。

Learning from implicit feedback is one of the most common cases in the application of recommender systems. Generally speaking, interacted examples are considered as positive while negative examples are sampled from uninteracted ones. However, noisy examples are prevalent in real-world implicit feedback. A noisy positive example could be interacted but it actually leads to negative user preference. A noisy negative example which is uninteracted because of unawareness of the user could also denote potential positive user preference. Conventional training methods overlook these noisy examples, leading to sub-optimal recommendation. In this work, we propose probabilistic and variational recommendation denoising for implicit feedback. Through an empirical study, we find that different models make relatively similar predictions on clean examples which denote the real user preference, while the predictions on noisy examples vary much more across different models. Motivated by this observation, we propose denoising with probabilistic inference (DPI) which aims to minimize the KL-divergence between the real user preference distributions parameterized by two recommendation models while maximize the likelihood of data observation. We then show that DPI recovers the evidence lower bound of an variational auto-encoder when the real user preference is considered as the latent variables. This leads to our second learning framework denoising with variational autoencoder (DVAE). We employ the proposed DPI and DVAE on four state-of-the-art recommendation models and conduct experiments on three datasets. Experimental results demonstrate that DPI and DVAE significantly improve recommendation performance compared with normal training and other denoising methods. Codes will be open-sourced.
翻訳日:2021-05-21 18:47:32 公開日:2021-05-20
# (参考訳) ガウス過程自己効果をもつ非線形ホークス過程 [全文訳有]

Nonlinear Hawkes Process with Gaussian Process Self Effects ( http://arxiv.org/abs/2105.09618v1 )

ライセンス: CC BY 4.0
Noa Malem-Shinitski, Cesar Ojeda and Manfred Opper(参考訳) 伝統的に、ホークス過程は履歴に依存した時間連続点過程のモデル化に使用される。 本稿では,自己効果が興奮型と抑制型の両方であり,ガウス過程に従う拡張モデルを提案する。 以前の作業では、モデルのより柔軟なパラメータ化に依存するか、大量のデータを必要とするかのどちらかでしたが、私たちの定式化は、データが不足している場合の柔軟なモデルと学習の両方を可能にします。 我々は,ホークス過程に対するベイズ的推論の行程を継続し,ガウス的過程の集合和上での推論を行うため,後方の分岐構造を推定する必要がなくなる。 効率的な近似ベイズ推定は,データ拡張によって実現され,モデルパラメータを学習するための平均場変分推論手法を提案する。 モデルの柔軟性を示すために、3つの異なるドメインのデータに我々の方法論を適用し、以前報告した結果と比較します。

Traditionally, Hawkes processes are used to model time--continuous point processes with history dependence. Here we propose an extended model where the self--effects are of both excitatory and inhibitory type and follow a Gaussian Process. Whereas previous work either relies on a less flexible parameterization of the model, or requires a large amount of data, our formulation allows for both a flexible model and learning when data are scarce. We continue the line of work of Bayesian inference for Hawkes processes, and our approach dispenses with the necessity of estimating a branching structure for the posterior, as we perform inference on an aggregated sum of Gaussian Processes. Efficient approximate Bayesian inference is achieved via data augmentation, and we describe a mean--field variational inference approach to learn the model parameters. To demonstrate the flexibility of the model we apply our methodology on data from three different domains and compare it to previously reported results.
翻訳日:2021-05-21 18:28:11 公開日:2021-05-20
# (参考訳) TF-IDF vs. Word Embeddings for Morbidity Identification in Clinical Notes: An Initial Study [全文訳有]

TF-IDF vs Word Embeddings for Morbidity Identification in Clinical Notes: An Initial Study ( http://arxiv.org/abs/2105.09632v1 )

ライセンス: CC BY 4.0
Danilo Dessi, Rim Helaoui, Vivek Kumar, Diego Reforgiato Recupero, and Daniele Riboni(参考訳) 今日、臨床結果、画像、患者の健康状態のテキスト記述を含む臨床ノートがどんどん増えています。 これらのデータはすべて、人々やドメインの専門家が共通のヘルスケアタスクを手伝う新しいサービスとして分析され、利用することができる。 しかし、ディープラーニングや単語埋め込みといった多くの技術が最近になって調査され始めており、医療ドメインアプリケーションに関しても多くの課題が残されている。 これらの課題に対処するために,臨床記録のテキスト記述における16種類の致命的タイプを特定するために,Deep LearningとWord Embeddingsを提案する。 この目的のために、我々は、ワード埋め込みのようなデータの最先端ベクトル表現を活用できる双方向長短メモリ(LSTM)層に基づくディープラーニングモデルを用いた。 我々は、GloVeとWord2Vecというトレーニング済みのWord Embeddingsと、ターゲットドメインでトレーニングされたWord Embeddingsを採用しました。 さらに,サポートベクターマシンと多層パーセプトロン(ベースライン)を用いて,従来のtf-idfと比較した。 得られた結果から,後者は単語埋め込みを用いたディープラーニング手法の組合せよりも優れていると考えられる。 予備的な結果は、データセットが従来の機械学習アプローチに偏った特定の特徴があることを示唆している。

Today, we are seeing an ever-increasing number of clinical notes that contain clinical results, images, and textual descriptions of patient's health state. All these data can be analyzed and employed to cater novel services that can help people and domain experts with their common healthcare tasks. However, many technologies such as Deep Learning and tools like Word Embeddings have started to be investigated only recently, and many challenges remain open when it comes to healthcare domain applications. To address these challenges, we propose the use of Deep Learning and Word Embeddings for identifying sixteen morbidity types within textual descriptions of clinical records. For this purpose, we have used a Deep Learning model based on Bidirectional Long-Short Term Memory (LSTM) layers which can exploit state-of-the-art vector representations of data such as Word Embeddings. We have employed pre-trained Word Embeddings namely GloVe and Word2Vec, and our own Word Embeddings trained on the target domain. Furthermore, we have compared the performances of the deep learning approaches against the traditional tf-idf using Support Vector Machine and Multilayer perceptron (our baselines). From the obtained results it seems that the latter outperforms the combination of Deep Learning approaches using any word embeddings. Our preliminary results indicate that there are specific features that make the dataset biased in favour of traditional machine learning approaches.
翻訳日:2021-05-21 18:10:07 公開日:2021-05-20
# (参考訳) ナビゲーションチューリングテスト(NTT):人間のようなナビゲーションを評価するための学習 [全文訳有]

Navigation Turing Test (NTT): Learning to Evaluate Human-Like Navigation ( http://arxiv.org/abs/2105.09637v1 )

ライセンス: CC BY 4.0
Sam Devlin, Raluca Georgescu, Ida Momennejad, Jaroslaw Rzepecki, Evelyn Zuniga, Gavin Costello, Guy Leroy, Ali Shaw and Katja Hofmann(参考訳) 複雑な人間のような振る舞いを学習するエージェントを開発する上で重要な課題は、人間の類似性を迅速かつ正確に定量化する必要があることである。 人間の行動評価は非常に正確であるが、速度とスケーラビリティは限られている。 これらの制限に対処するために,人間に近い人間の判断を学習する新しい自動ナビゲーションチューリングテスト(ANTT)を提案する。 複雑な3次元環境におけるナビゲーション作業における自動NTTの有効性を示す。 この課題に最も適したアーキテクチャのタイプを6つの分類モデルで明らかにし,人間のNTTで収集したデータに対して検証する。 我々の最良のモデルは、真の人間とエージェントの行動を区別する際に高い精度を達成する。 同時に, エージェントの人間的行動に対する進歩を微粒度で予測する手法は未解決であることを示した。 私たちの仕事は、複雑な人間のような振る舞いをより効果的に学習するエージェントに向かって重要な一歩を踏み出します。

A key challenge on the path to developing agents that learn complex human-like behavior is the need to quickly and accurately quantify human-likeness. While human assessments of such behavior can be highly accurate, speed and scalability are limited. We address these limitations through a novel automated Navigation Turing Test (ANTT) that learns to predict human judgments of human-likeness. We demonstrate the effectiveness of our automated NTT on a navigation task in a complex 3D environment. We investigate six classification models to shed light on the types of architectures best suited to this task, and validate them against data collected through a human NTT. Our best models achieve high accuracy when distinguishing true human and agent behavior. At the same time, we show that predicting finer-grained human assessment of agents' progress towards human-like behavior remains unsolved. Our work takes an important step towards agents that more effectively learn complex human-like behavior.
翻訳日:2021-05-21 18:00:25 公開日:2021-05-20
# (参考訳) モチベーション・インタビューにおける共感的反応の必要性の検出に向けて [全文訳有]

Towards Detecting Need for Empathetic Response in Motivational Interviewing ( http://arxiv.org/abs/2105.09649v1 )

ライセンス: CC BY 4.0
Zixiu Wu, Rim Helaoui, Vivek Kumar, Diego Reforgiato Recupero and Daniele Riboni(参考訳) セラピストからの共感反応は、臨床心理療法、特にモチベーション・インタビューの成功の鍵となる。 モチベーション・インタビューにおける共感の計算モデルに関する以前の研究は、セラピスト共感のオフライン、セッションレベルの評価に焦点を当てており、共感は、セラピストがクライアントの視点を理解し、その理解をクライアントに伝えるために行うすべての努力を捉えている。 本稿では,共感を必要とするクライアントをターンレベルに検出する新しいタスクを提案する。 具体的には,事前に学習した言語モデルと共感に関連する一般的な会話コーパスを,独自のラベラー・検出フレームワークで活用し,ラベラーが自動的にモチベーション付き面接会話コーパスに共感ラベルを付与し,セラピスト・共感の必要性を判断する検出器を訓練する。 また,検出器を追加入力およびマルチタスク設定で拡張し,検出と説明性を向上させるための戦略を整理した。

Empathetic response from the therapist is key to the success of clinical psychotherapy, especially motivational interviewing. Previous work on computational modelling of empathy in motivational interviewing has focused on offline, session-level assessment of therapist empathy, where empathy captures all efforts that the therapist makes to understand the client's perspective and convey that understanding to the client. In this position paper, we propose a novel task of turn-level detection of client need for empathy. Concretely, we propose to leverage pre-trained language models and empathy-related general conversation corpora in a unique labeller-detector framework, where the labeller automatically annotates a motivational interviewing conversation corpus with empathy labels to train the detector that determines the need for therapist empathy. We also lay out our strategies of extending the detector with additional-input and multi-task setups to improve its detection and explainability.
翻訳日:2021-05-21 17:45:23 公開日:2021-05-20
# (参考訳) LAST at SemEval-2021 Task 1: Improving Multi-Word Complexity Prediction using Bigram Association measures [全文訳有]

LAST at SemEval-2021 Task 1: Improving Multi-Word Complexity Prediction Using Bigram Association Measures ( http://arxiv.org/abs/2105.09653v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) 本稿では,SemEval-2021におけるLexical Complexity Prediction共有タスクのために,LAST(Laboratoire d'analyse statistique des textes)によって開発されたシステムについて述べる。 提案システムは,多くの単語頻度リスト,語彙規範,心理指標データから得られる特徴を取り入れたLightGBMモデルで構成されている。 マルチワードタスクの特異性に対処するためには、Bigram association measuresを使用する。 文脈的特徴が文長のみであったにもかかわらず、システムはマルチワードタスクで名誉あるパフォーマンスを達成したが、シングルワードタスクでは貧弱であった。 ビッグラム関連尺度は有用であるが, 限られた範囲で有効であった。

This paper describes the system developed by the Laboratoire d'analyse statistique des textes (LAST) for the Lexical Complexity Prediction shared task at SemEval-2021. The proposed system is made up of a LightGBM model fed with features obtained from many word frequency lists, published lexical norms and psychometric data. For tackling the specificity of the multi-word task, it uses bigram association measures. Despite that the only contextual feature used was sentence length, the system achieved an honorable performance in the multi-word task, but poorer in the single word task. The bigram association measures were found useful, but to a limited extent.
翻訳日:2021-05-21 17:30:40 公開日:2021-05-20
# (参考訳) ニュース記事のターゲット依存型感性分類に向けて [全文訳有]

Towards Target-dependent Sentiment Classification in News Articles ( http://arxiv.org/abs/2105.09660v1 )

ライセンス: CC BY-SA 4.0
Felix Hamborg and Karsten Donnay and Bela Gipp(参考訳) ターゲット依存感情分類(TSC)に関する広範な研究は、著者がレビューやソーシャルメディアなど特定のエンティティやトピックに対する感情を明確に表現する傾向にある領域において、強力な分類性能をもたらしている。 個人・社会的な意思決定において,ニュースが重要な情報源であるにもかかわらず,ニュース記事におけるTSCについて検討する。 本稿では,手動でTSCを探索するデータセットであるNewsTSCを紹介する。 ニュースにおける感情の特徴を調査し,それを一般的なtscドメインと比較すると,ニュースの感情は明示的ではなく,文脈や読者に依存しており,解釈の度合いも高いことが分かる。 広範に評価したところ、TSCにおけるアートの状況は他のドメインよりもニュース記事の方が悪い(AvgRec = 69.8をNewsTSCで、AvgRev = [75.6, 82.2])。 理由としては、ターゲットと感情を持つフレーズの誤った関係や、文脈外依存などが挙げられる。 従来のニュースTSCに対する大きな改善として、BERTの自然言語理解能力は、ニュース記事で使われるあまり明示的な感情を捉えることができる。

Extensive research on target-dependent sentiment classification (TSC) has led to strong classification performances in domains where authors tend to explicitly express sentiment about specific entities or topics, such as in reviews or on social media. We investigate TSC in news articles, a much less researched domain, despite the importance of news as an essential information source in individual and societal decision making. This article introduces NewsTSC, a manually annotated dataset to explore TSC on news articles. Investigating characteristics of sentiment in news and contrasting them to popular TSC domains, we find that sentiment in the news is expressed less explicitly, is more dependent on context and readership, and requires a greater degree of interpretation. In an extensive evaluation, we find that the state of the art in TSC performs worse on news articles than on other domains (average recall AvgRec = 69.8 on NewsTSC compared to AvgRev = [75.6, 82.2] on established TSC datasets). Reasons include incorrectly resolved relation of target and sentiment-bearing phrases and off-context dependence. As a major improvement over previous news TSC, we find that BERT's natural language understanding capabilities capture the less explicit sentiment used in news articles.
翻訳日:2021-05-21 17:22:56 公開日:2021-05-20
# (参考訳) 3層reluネットワーク抽出のための高精度多時間メンバシップキューアルゴリズム [全文訳有]

An Exact Poly-Time Membership-Queries Algorithm for Extraction a three-Layer ReLU Network ( http://arxiv.org/abs/2105.09673v1 )

ライセンス: CC BY 4.0
Amit Daniely and Elad Granot(参考訳) 機械学習が日々の生活でますます普及するにつれて、多くの組織がブラックボックスとしてニューラルネットベースのサービスを提供している。 学習モデルを隠す理由は、例えば、行動のコピーを防止したり、敵がメカニズムのリバースエンジニアリングを防ぎ、トレーニングデータに関する機密情報を明らかにするなど、さまざまである。 しかし、ブラックボックスとしても、いくつかの情報は特定のクエリによっても発見できる。 本研究では,ReLUアクティベーションを用いた3層ニューラルネットワークの動作を正確に模倣するために,多項式数を用いた多項式時間アルゴリズムを提案する。

As machine learning increasingly becomes more prevalent in our everyday life, many organizations offer neural-networks based services as a black-box. The reasons for hiding a learning model may vary: e.g., preventing copying of its behavior or keeping back an adversarial from reverse-engineering its mechanism and revealing sensitive information about its training data. However, even as a black-box, some information can still be discovered by specific queries. In this work, we show a polynomial-time algorithm that uses a polynomial number of queries to mimic precisely the behavior of a three-layer neural network that uses ReLU activation.
翻訳日:2021-05-21 17:10:59 公開日:2021-05-20
# (参考訳) 多木学習のパラメータ化複雑性について [全文訳有]

On the Parameterized Complexity of Polytree Learning ( http://arxiv.org/abs/2105.09675v1 )

ライセンス: CC BY 4.0
Niels Gr\"uttemeier, Christian Komusiewicz, Nils Morawietz(参考訳) ベイズネットワークは、共役確率分布の変数間の統計的依存関係を表す有向非巡回グラフである。 データサイエンスの基本的な課題は、観測データからベイズネットワークを学ぶことである。 \textsc{polytree learning} は、基礎となる無向グラフが森である追加プロパティを満たす最適なベイズネットワークを学ぶ問題である。 本研究では,textsc{Polytree Learning}の複雑さを再考する。 我々は、$n$が変数の数、$|I|$が全インスタンスサイズである場合、$3^n \cdot |I|^{\mathcal{O}(1)}$ で \textsc{Polytree Learning} を解くことができることを示した。 さらに、最終DAGの空でない親集合を受信する$d$変数の数が、 \textsc{Polytree Learning} の複雑さに与える影響についても検討する。 2^d \cdot |i|^{\mathcal{o}(1)}$ time で解くベイジアンネットワーク学習とは異なり、 \textsc{polytree learning} は$f(d)\cdot |i|^{\mathcal{o}(1)}$-timeアルゴリズムを持たない。 対照的に、$d$ と最大親集合のサイズが有界であれば、効率的なアルゴリズムを得ることができる。

A Bayesian network is a directed acyclic graph that represents statistical dependencies between variables of a joint probability distribution. A fundamental task in data science is to learn a Bayesian network from observed data. \textsc{Polytree Learning} is the problem of learning an optimal Bayesian network that fulfills the additional property that its underlying undirected graph is a forest. In this work, we revisit the complexity of \textsc{Polytree Learning}. We show that \textsc{Polytree Learning} can be solved in $3^n \cdot |I|^{\mathcal{O}(1)}$ time where $n$ is the number of variables and $|I|$ is the total instance size. Moreover, we consider the influence of the number of variables $d$ that might receive a nonempty parent set in the final DAG on the complexity of \textsc{Polytree Learning}. We show that \textsc{Polytree Learning} has no $f(d)\cdot |I|^{\mathcal{O}(1)}$-time algorithm, unlike Bayesian network learning which can be solved in $2^d \cdot |I|^{\mathcal{O}(1)}$ time. We show that, in contrast, if $d$ and the maximum parent set size are bounded, then we can obtain efficient algorithms.
翻訳日:2021-05-21 17:00:10 公開日:2021-05-20
# (参考訳) klue: 韓国語理解の評価

KLUE: Korean Language Understanding Evaluation ( http://arxiv.org/abs/2105.09680v1 )

ライセンス: CC BY-SA 4.0
Sungjoon Park, Jihyung Moon, Sungdong Kim, Won Ik Cho, Jiyoon Han, Jangwon Park, Chisung Song, Junseong Kim, Yongsook Song, Taehwan Oh, Joohong Lee, Juhyun Oh, Sungwon Lyu, Younghoon Jeong, Inkwon Lee, Sangwoo Seo, Dongjun Lee, Hyunwoo Kim, Myeonghwa Lee, Seongbo Jang, Seungwon Do, Sunkyoung Kim, Kyungtae Lim, Jongwon Lee, Kyumin Park, Jamin Shin, Seonghyun Kim, Lucy Park, Alice Oh, Jungwoo Ha, Kyunghyun Cho Alice Oh Jungwoo Ha Kyunghyun Cho(参考訳) 韓国語理解評価(KLUE)ベンチマークを紹介する。 klueは8つの韓国自然言語理解(nlu)タスクのコレクションであり、トピック分類、意味テキストの類似性、自然言語推論、名前付きエンティティ認識、関係抽出、依存関係解析、機械読解、対話状態追跡などが含まれる。 私たちは、著作権を尊重しながら、さまざまなソースコーパスからすべてのタスクをスクラッチから構築します。 倫理的考察を念頭に、アノテーションプロトコルを慎重に設計する。 ベンチマークタスクとデータに加えて,各タスクの事前学習した言語モデルに対して,適切な評価指標と微調整レシピを提供する。 さらに,予備学習言語モデル (PLM), KLUE-BERT, KLUE-RoBERTa もリリースし, KLUE のベースラインモデルを再現し,将来の研究を促進する。 我々は,提案したKLUEベンチマークスイートを用いた予備実験から,このベンチマークスイートの有用性をすでに実証している。 まず、KLUE-RoBERTa-largeは、多言語PLMや既存のオープンソースの韓国PLMなど、他のベースラインよりも優れています。 第2に、事前学習したコーパスから個人識別可能な情報を置き換えても、パフォーマンスの低下は最小限に抑えられ、プライバシとNLUの能力は互いに相反するものではないことを示唆する。 最後に,BPEトークン化とモーフィムレベルの事前トークン化を併用することで,モーフィムレベルのタグ付けや検出,生成といったタスクに有効であることが判明した。 韓国のNLP研究の加速に加えて、KLUEの作成に関する包括的なドキュメントは、将来他の言語にも同様のリソースを作成できるようにします。 KLUEはhttpsURL(https://klu e-benchmark.com/)で利用できる。

We introduce Korean Language Understanding Evaluation (KLUE) benchmark. KLUE is a collection of 8 Korean natural language understanding (NLU) tasks, including Topic Classification, Semantic Textual Similarity, Natural Language Inference, Named Entity Recognition, Relation Extraction, Dependency Parsing, Machine Reading Comprehension, and Dialogue State Tracking. We build all of the tasks from scratch from diverse source corpora while respecting copyrights, to ensure accessibility for anyone without any restrictions. With ethical considerations in mind, we carefully design annotation protocols. Along with the benchmark tasks and data, we provide suitable evaluation metrics and fine-tuning recipes for pretrained language models for each task. We furthermore release the pretrained language models (PLM), KLUE-BERT and KLUE-RoBERTa, to help reproduce baseline models on KLUE and thereby facilitate future research. We make a few interesting observations from the preliminary experiments using the proposed KLUE benchmark suite, already demonstrating the usefulness of this new benchmark suite. First, we find KLUE-RoBERTa-large outperforms other baselines, including multilingual PLMs and existing open-source Korean PLMs. Second, we see minimal degradation in performance even when we replace personally identifiable information from the pretraining corpus, suggesting that privacy and NLU capability are not at odds with each other. Lastly, we find that using BPE tokenization in combination with morpheme-level pre-tokenization is effective in tasks involving morpheme-level tagging, detection and generation. In addition to accelerating Korean NLP research, our comprehensive documentation on creating KLUE will facilitate creating similar resources for other languages in the future. KLUE is available at this https URL (https://klue-benchm ark.com/).
翻訳日:2021-05-21 16:36:46 公開日:2021-05-20
# (参考訳) 中国語単語セグメンテーションのための双方向LSTM-CRFアテンションベースモデル [全文訳有]

Bidirectional LSTM-CRF Attention-based Model for Chinese Word Segmentation ( http://arxiv.org/abs/2105.09681v1 )

ライセンス: CC BY 4.0
Chen Jin, Zhuangwei Shi, Weihua Li, Yanbu Guo(参考訳) 中国語の単語セグメンテーション(CWS)は、中国語の自然言語処理(NLP)の基本である。 単語セグメンテーションの品質は、NLPタスクの他の部分に直接影響を与えます。 近年、人工知能の潮流が再び高まる中、長い短期記憶(lstm)ニューラルネットワークは、シーケンシャルなモデリングの1つとして、様々なnlpタスクや機能で広く利用されている。 アテンション機構はLSTM上のメモリ圧縮問題を解決するための巧妙な方法である。 さらに, 2方向LSTMモデルによるシーケンスのモデル化とデコードのためのCRFモデルに着想を得て, 双方向LSTM-CRFアテンションベースモデルを提案する。 PKUおよびMSRAベンチマークデータセットの実験により、我々のモデルは、他のニューラルネットワークによるベースライン手法よりも優れた性能を示した。

Chinese word segmentation (CWS) is the basic of Chinese natural language processing (NLP). The quality of word segmentation will directly affect the rest of NLP tasks. Recently, with the artificial intelligence tide rising again, Long Short-Term Memory (LSTM) neural network, as one of easily modeling in sequence, has been widely utilized in various kinds of NLP tasks, and functions well. Attention mechanism is an ingenious method to solve the memory compression problem on LSTM. Furthermore, inspired by the powerful abilities of bidirectional LSTM models for modeling sequence and CRF model for decoding, we propose a Bidirectional LSTM-CRF Attention-based Model in this paper. Experiments on PKU and MSRA benchmark datasets show that our model performs better than the baseline methods modeling by other neural networks.
翻訳日:2021-05-21 16:35:25 公開日:2021-05-20
# (参考訳) グラフ畳み込みニューラルネットワークを用いた胸部X線および患者メタデータからのCovid-19の検出 [全文訳有]

Covid-19 Detection from Chest X-ray and Patient Metadata using Graph Convolutional Neural Networks ( http://arxiv.org/abs/2105.09720v1 )

ライセンス: CC BY 4.0
Thosini Bamunu Mudiyanselage, Nipuna Senanayake, Chunyan Ji, Yi Pan and Yanqing Zhang(参考訳) 新しいコロナウイルス(covid-19)は、呼吸伝達によって急速に広がる性質のため、重大な課題を提起している。 その結果,PCR (Polymerase Chain Reaction) などの高需要試験の代替として,AIをベースとした迅速な疾患診断法が求められている。 胸部X線(CXR)画像解析は,資源利用率と高速スクリーニングにより,コスト効率の高い放射線撮影技術である。 しかし、複雑な深層傾き(DL)モデルで必要とされる十分かつ体系的なデータ収集はより困難であり、この問題に対処するためにトランスファーラーニングを利用した最近の取り組みがある。 それでも、これらのトランスファー学習モデルは、一般化の欠如とトレーニングデータセットへのバイアスの増加によって、見えないデータのパフォーマンスが低下する。 事前訓練されたモデルからX線のような特定の医用画像領域に移行した特徴の限定的な相関と、少ないデータへの過度な適合は、この状況の原因となる。 そこで本研究では,CXR画像からCovid-19肺炎のバイオマーカーを同定し,患者のメタ情報を検出する新しいグラフ畳み込みニューラルネットワーク(GCN)を提案する。 提案手法は,グラフ表現を用いたデータインスタンスとその特徴間の重要な関係知識を活用し,従来のユークリッド領域の畳み込みでは不可能であるグラフデータ学習に畳み込みを適用する。 2次モデル(コビッド対ノーマル)と3種類の分類問題(コビッド、ノーマル、その他の肺炎)の広範な実験の結果は、異なるベンチマーク移行学習モデルよりも優れており、上記の欠点を克服している。

The novel corona virus (Covid-19) has introduced significant challenges due to its rapid spreading nature through respiratory transmission. As a result, there is a huge demand for Artificial Intelligence (AI) based quick disease diagnosis methods as an alternative to high demand tests such as Polymerase Chain Reaction (PCR). Chest X-ray (CXR) Image analysis is such cost-effective radiography technique due to resource availability and quick screening. But, a sufficient and systematic data collection that is required by complex deep leaning (DL) models is more difficult and hence there are recent efforts that utilize transfer learning to address this issue. Still these transfer learnt models suffer from lack of generalization and increased bias to the training dataset resulting poor performance for unseen data. Limited correlation of the transferred features from the pre-trained model to a specific medical imaging domain like X-ray and overfitting on fewer data can be reasons for this circumstance. In this work, we propose a novel Graph Convolution Neural Network (GCN) that is capable of identifying bio-markers of Covid-19 pneumonia from CXR images and meta information about patients. The proposed method exploits important relational knowledge between data instances and their features using graph representation and applies convolution to learn the graph data which is not possible with conventional convolution on Euclidean domain. The results of extensive experiments of proposed model on binary (Covid vs normal) and three class (Covid, normal, other pneumonia) classification problems outperform different benchmark transfer learnt models, hence overcoming the aforementioned drawbacks.
翻訳日:2021-05-21 16:27:01 公開日:2021-05-20
# (参考訳) 生体イメージング3次元顕微鏡による管状構造の半監督的トポロジー的セグメンテーション [全文訳有]

Semi-supervised, Topology-Aware Segmentation of Tubular Structures from Live Imaging 3D Microscopy ( http://arxiv.org/abs/2105.09737v1 )

ライセンス: CC BY 4.0
Kasra Arnavaz, Oswin Krause, Jelena M. Krivokapic, Silja Heilmann, Jakob Andreas B{\ae}rentzen, Pia Nyeng, Aasa Feragen(参考訳) 本論文は,管状ネットワークセグメンテーションの課題に起因して,バイオメディカルイメージングにおける2つの問題に対処する: セグメンテーションのトポロジ的一貫性とアノテーションの限定。 予測された真理セグメンテーションと基底的真理セグメンテーションの位相的および幾何学的整合性を測定する位相的スコアをモデル選択と検証に適用する。 トポロジカルスコアを3つのシナリオ、すなわちU-net iiに適用する。 オートエンコーダで事前訓練されたU-netとiii。 半教師付きu-netアーキテクチャは、オートエンコーダとセグメンテーションアルゴリズムの両方としてネットワークを共同トレーニングするための簡単なアプローチを提供する。 これにより、アノテートされたトレーニングデータに非常に制限があるにもかかわらず、テストデータの可変性を一般化する表現をトレーニングするために、アノテーションのないデータを利用することができます。 腹腔鏡検査にて,胎児膵管状構造を同定し,分節化に苦慮した課題を検証した。

Motivated by a challenging tubular network segmentation task, this paper tackles two commonly encountered problems in biomedical imaging: Topological consistency of the segmentation, and limited annotations. We propose a topological score which measures both topological and geometric consistency between the predicted and ground truth segmentations, applied for model selection and validation. We apply our topological score in three scenarios: i. a U-net ii. a U-net pretrained on an autoencoder, and iii. a semisupervised U-net architecture, which offers a straightforward approach to jointly training the network both as an autoencoder and a segmentation algorithm. This allows us to utilize un-annotated data for training a representation that generalizes across test data variability, in spite of our annotated training data having very limited variation. Our contributions are validated on a challenging segmentation task, locating tubular structures in the fetal pancreas from noisy live imaging confocal microscopy.
翻訳日:2021-05-21 16:12:26 公開日:2021-05-20
# (参考訳) DEHB: スケーラブルでロバストで効率的なハイパーパラメータ最適化のための進化的ハイバーバンド [全文訳有]

DEHB: Evolutionary Hyberband for Scalable, Robust and Efficient Hyperparameter Optimization ( http://arxiv.org/abs/2105.09821v1 )

ライセンス: CC BY 4.0
Noor Awad, Neeratyoy Mallik, Frank Hutter(参考訳) 現代の機械学習アルゴリズムは、強力なパフォーマンスを達成するためにいくつかの設計決定に依存しているため、ハイパーパラメータ最適化(hpo)の問題はこれまで以上に重要になっている。 本稿では,一般的な帯域幅に基づくHPO法であるHyperband(HB)と差分進化法(DE)の進化的探索手法の利点を組み合わせて,DeHBと呼ぶ新しいHPO法を提案する。 非常に幅広いHPO問題の包括的結果と、ニューラルアーキテクチャサーチによる幅広い表型ベンチマークは、DeHBが、我々が認識している全てのHPOメソッド、特に離散的な入力次元を持つ高次元問題に対して、強い性能を達成することを実証している。 例えば、DEHBはランダム検索よりも1000倍高速である。 また、計算時間でも効率的であり、概念的にはシンプルで実装が容易であり、新しいデフォルトHPO法に位置づけられる。

Modern machine learning algorithms crucially rely on several design decisions to achieve strong performance, making the problem of Hyperparameter Optimization (HPO) more important than ever. Here, we combine the advantages of the popular bandit-based HPO method Hyperband (HB) and the evolutionary search approach of Differential Evolution (DE) to yield a new HPO method which we call DEHB. Comprehensive results on a very broad range of HPO problems, as well as a wide range of tabular benchmarks from neural architecture search, demonstrate that DEHB achieves strong performance far more robustly than all previous HPO methods we are aware of, especially for high-dimensional problems with discrete input dimensions. For example, DEHB is up to 1000x faster than random search. It is also efficient in computational time, conceptually simple and easy to implement, positioning it well to become a new default HPO method.
翻訳日:2021-05-21 16:04:22 公開日:2021-05-20
# (参考訳) 畳み込みニューラルネットワークのための生物学的にインスパイアされた意味的側方接続 [全文訳有]

Biologically Inspired Semantic Lateral Connectivity for Convolutional Neural Networks ( http://arxiv.org/abs/2105.09830v1 )

ライセンス: CC BY 4.0
Tonio Weidler, Julian Lehnen, Quinton Denman, D\'avid Seb\H{o}k, Gerhard Weiss, Kurt Driessens, Mario Senden(参考訳) 側方接続は視覚野における感覚処理に重要な役割を担い、非常に類似した特徴に対しても識別可能な神経細胞応答をサポートする。 本研究では, フィルタ領域に沿って, 生物学的にインスパイアされたメキシコの帽子の横方向接続プロファイルを確立することで, 学習可能なネットワークパラメータを付加することなく, 様々な軽量畳み込みニューラルネットワークの分類精度を大幅に向上できることを示す。 さらに,変調フィルタ活性化の定常分布を解析的に決定することが可能であり,時間変動のモデル化に繰り返しを用いることを回避できることを示した。 さらに,メキシコの帽子の接続プロファイルは,初期視覚野における特徴選択性の地形構造に類似した順序でフィルタを順序付ける効果があることも明らかにした。 順序付きフィルタシーケンスでは、このプロファイルはフィルタのチューニング曲線を鋭くする。

Lateral connections play an important role for sensory processing in visual cortex by supporting discriminable neuronal responses even to highly similar features. In the present work, we show that establishing a biologically inspired Mexican hat lateral connectivity profile along the filter domain can significantly improve the classification accuracy of a variety of lightweight convolutional neural networks without the addition of trainable network parameters. Moreover, we demonstrate that it is possible to analytically determine the stationary distribution of modulated filter activations and thereby avoid using recurrence for modeling temporal dynamics. We furthermore reveal that the Mexican hat connectivity profile has the effect of ordering filters in a sequence resembling the topographic organization of feature selectivity in early visual cortex. In an ordered filter sequence, this profile then sharpens the filters' tuning curves.
翻訳日:2021-05-21 15:38:48 公開日:2021-05-20
# (参考訳) 合理的発話行動モデリングフレームワークの実際的紹介

A practical introduction to the Rational Speech Act modeling framework ( http://arxiv.org/abs/2105.09867v1 )

ライセンス: CC BY 4.0
Gregory Scontras, Michael Henry Tessler, Michael Franke(参考訳) 計算認知科学の最近の進歩(すなわちシミュレーションに基づく確率的プログラム)は、形式的かつ実装可能なプラグマティクスのモデルにおいて大きな進歩を遂げた。 散文で実践的な推論プロセスを記述するのではなく、これらのモデルは形式化して実装し、人間の行動の質的および定量的な予測を導出する。 本論文は,ベイズ合理音声法モデリングフレームワークの実践的紹介と批判的評価,理論的基礎の解き放ち,技術革新の探求,現在の応用を超える問題への接続の図面を提供する。

Recent advances in computational cognitive science (i.e., simulation-based probabilistic programs) have paved the way for significant progress in formal, implementable models of pragmatics. Rather than describing a pragmatic reasoning process in prose, these models formalize and implement one, deriving both qualitative and quantitative predictions of human behavior -- predictions that consistently prove correct, demonstrating the viability and value of the framework. The current paper provides a practical introduction to and critical assessment of the Bayesian Rational Speech Act modeling framework, unpacking theoretical foundations, exploring technological innovations, and drawing connections to issues beyond current applications.
翻訳日:2021-05-21 15:26:03 公開日:2021-05-20
# (参考訳) pocformer:point of care超音波を用いたcovid-19検出のための軽量トランスフォーマーアーキテクチャ [全文訳有]

POCFormer: A Lightweight Transformer Architecture for Detection of COVID-19 Using Point of Care Ultrasound ( http://arxiv.org/abs/2105.09913v1 )

ライセンス: CC BY 4.0
Shehan Perera, Srikar Adhikari, Alper Yilmaz(参考訳) 新型コロナウイルス(covid-19)の急速な拡大は、正確かつタイムリーな結果をもたらす検査キットの非効率性と不足にさかのぼることができる。 モバイル超音波技術の改良を取り入れた人気のテクニックは、医療専門家が大規模に迅速なスクリーニングを行うことを可能にする。 本稿では,農村環境や第三世界諸国に適用可能な,訓練された医療従事者の有無にかかわらず,迅速な大量検査を可能にするテストプロセスの自動化を目的とした画像ベースソリューションを提案する。 我々の高速な大規模テストへのコントリビューションには、超音波データをリアルタイムで分析できる新しいディープラーニングアーキテクチャが含まれており、画像ベースのCOVID-19検出による最先端の検出精度を大幅に改善する。

The rapid and seemingly endless expansion of COVID-19 can be traced back to the inefficiency and shortage of testing kits that offer accurate results in a timely manner. An emerging popular technique, which adopts improvements made in mobile ultrasound technology, allows for healthcare professionals to conduct rapid screenings on a large scale. We present an image-based solution that aims at automating the testing process which allows for rapid mass testing to be conducted with or without a trained medical professional that can be applied to rural environments and third world countries. Our contributions towards rapid large-scale testing include a novel deep learning architecture capable of analyzing ultrasound data that can run in real-time and significantly improve the current state-of-the-art detection accuracies using image-based COVID-19 detection.
翻訳日:2021-05-21 15:25:06 公開日:2021-05-20
# (参考訳) 超表現活性化と整数重み付きニューラルネットワーク [全文訳有]

Neural networks with superexpressive activations and integer weights ( http://arxiv.org/abs/2105.09917v1 )

ライセンス: CC BY 4.0
Aleksandr Beknazaryan(参考訳) 活性化関数 $\sigma$ の例としては、活性化を持つネットワークが $\{\sigma, \lfloor\cdot\rfloor\ }$, integer weights and a fixed architecture を $[0,1]^d$ 上の $d$ 近似連続関数に依存するように与えられる。 h\"older連続関数の$\varepsilon$-approx imationに必要な整数重みの範囲は導出され、与えられた$n$サンプルを持つ未知の$\beta$-h\"older連続関数のニューラルネットワーク回帰推定のために$n^{\frac{-2\beta}{2\beta+d}}\log_2n$の順に収束する。

An example of an activation function $\sigma$ is given such that networks with activations $\{\sigma, \lfloor\cdot\rfloor\ }$, integer weights and a fixed architecture depending on $d$ approximate continuous functions on $[0,1]^d$. The range of integer weights required for $\varepsilon$-approx imation of H\"older continuous functions is derived, which leads to a convergence rate of order $n^{\frac{-2\beta}{2\beta+d}}\log_2n$ for neural network regression estimation of unknown $\beta$-H\"older continuous function with given $n$ samples.
翻訳日:2021-05-21 15:18:39 公開日:2021-05-20
# (参考訳) APPSによる符号化チャレンジ能力の測定 [全文訳有]

Measuring Coding Challenge Competence With APPS ( http://arxiv.org/abs/2105.09938v1 )

ライセンス: CC BY 4.0
Dan Hendrycks and Steven Basart and Saurav Kadavath and Mantas Mazeika and Akul Arora and Ethan Guo and Collin Burns and Samir Puranik and Horace He and Dawn Song and Jacob Steinhardt(参考訳) プログラミングは現代社会で最も広く応用できるスキルの1つだが、現代の機械学習モデルは依然として基本的な問題に対する解決策をコーディングできない。 コード生成のパフォーマンスを正確に評価することは難しく、柔軟性と厳格性の両方を備えた方法でコード生成を評価する作業は驚くほど少ない。 この課題に対処するために、コード生成のベンチマークであるAPPSを紹介する。 より制限された設定での以前の作業とは異なり、我々のベンチマークはモデルが任意の自然言語仕様を取り込み、この仕様を満たすPythonコードを生成する能力を測定する。 企業がソフトウェア開発者の候補を評価する方法と同様に、テストケースで生成されたコードをチェックすることでモデルを評価する。 ベンチマークには1万の問題が含まれており、単純な1行のソリューションから、アルゴリズム上の大きな課題までさまざまです。 GitHubとトレーニングセットの両方で大きな言語モデルを微調整し、構文エラーの頻度が指数関数的に減少していることに気付きました。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできるため、機械学習モデルはコーディングの仕方を学び始めている。 自動コード生成の社会的重要性が今後数年間で高まるにつれて、我々のベンチマークは進歩を追跡する上で重要な指標となる。

While programming is one of the most broadly applicable skills in modern society, modern machine learning models still cannot code solutions to basic problems. It can be difficult to accurately assess code generation performance, and there has been surprisingly little work on evaluating code generation in a way that is both flexible and rigorous. To meet this challenge, we introduce APPS, a benchmark for code generation. Unlike prior work in more restricted settings, our benchmark measures the ability of models to take an arbitrary natural language specification and generate Python code fulfilling this specification. Similar to how companies assess candidate software developers, we then evaluate models by checking their generated code on test cases. Our benchmark includes 10,000 problems, which range from having simple one-line solutions to being substantial algorithmic challenges. We fine-tune large language models on both GitHub and our training set, and we find that the prevalence of syntax errors is decreasing exponentially. Recent models such as GPT-Neo can pass approximately 15% of the test cases of introductory problems, so we find that machine learning models are beginning to learn how to code. As the social significance of automatic code generation increases over the coming years, our benchmark can provide an important measure for tracking advancements.
翻訳日:2021-05-21 15:12:54 公開日:2021-05-20
# (参考訳) 顔, 体, 声: 複数のモダリティを持つビデオパーソナライズ [全文訳有]

Face, Body, Voice: Video Person-Clustering with Multiple Modalities ( http://arxiv.org/abs/2105.09939v1 )

ライセンス: CC BY 4.0
Andrew Brown, Vicky Kalogeiton, Andrew Zisserman(参考訳) この研究の目的は、ビデオ内の人的クラスタ化である -- アイデンティティに応じて文字をグループ化することだ。 それまでの方法は、顔のクラスタリングのより狭いタスクに焦点を合わせており、ほとんどの場合、人の声、全体的な外観(髪、衣服、姿勢)、ビデオの編集構造など、他の方法を無視している。 同様に、現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価する。 これにより、顔レベルの推論だけでなく、人レベルを必要とするストーリー理解のような下流アプリケーションへの適用性が制限される。 本稿では,これら2つの欠陥に対処するためのコントリビューションを行う。まず,複数のモダリティ(顔,体,声)のキューを用いて,ビデオ中の人物クラスタリングのためのマルチモーダル高精度クラスタリングアルゴリズムを提案する。 次に,マルチモーダルなパーソナライズ評価のためのビデオパーソナライズデータセットを提案する。 注釈付きキャラクタ毎のボディトラック、可視時のフェイストラック、発話時の音声トラック、関連する特徴を含む。 このデータセットは、その種類の中で最も大きく、幅広い人口層を代表する映画やテレビ番組をカバーしている。 最後に,パーソナライズ・クラスタ化に複数のモダリティを用いた場合の有効性を示すとともに,この新たな広範にわたるタスクを文字共起を通じて活用し,顔とパーソナライズのための利用可能なデータセットの新たな状態を実現する。

The objective of this work is person-clustering in videos -- grouping characters according to their identity. Previous methods focus on the narrower task of face-clustering, and for the most part ignore other cues such as the person's voice, their overall appearance (hair, clothes, posture), and the editing structure of the videos. Similarly, most current datasets evaluate only the task of face-clustering, rather than person-clustering. This limits their applicability to downstream applications such as story understanding which require person-level, rather than only face-level, reasoning. In this paper we make contributions to address both these deficiencies: first, we introduce a Multi-Modal High-Precision Clustering algorithm for person-clustering in videos using cues from several modalities (face, body, and voice). Second, we introduce a Video Person-Clustering dataset, for evaluating multi-modal person-clustering. It contains body-tracks for each annotated character, face-tracks when visible, and voice-tracks when speaking, with their associated features. The dataset is by far the largest of its kind, and covers films and TV-shows representing a wide range of demographics. Finally, we show the effectiveness of using multiple modalities for person-clustering, explore the use of this new broad task for story understanding through character co-occurrences, and achieve a new state of the art on all available datasets for face and person-clustering.
翻訳日:2021-05-21 14:50:02 公開日:2021-05-20
# 単純透明逆数例

Simple Transparent Adversarial Examples ( http://arxiv.org/abs/2105.09685v1 )

ライセンス: Link先を確認
Jaydeep Borkar, Pin-Yu Chen(参考訳) 機械学習・アズ・ア・サービス(MLaaS)ビジョンAPIは、事前に構築されたモデルやアルゴリズムを含む複数のサービスを提供しており、それ以外はスクラッチから構築すると膨大なリソースを消費する。 これらのAPIは高度なアプリケーションにデプロイされるため、異なる操作に対して堅牢であることが非常に重要です。 最近の研究は、ビジョンAPIの堅牢性を評価する際に、典型的な敵攻撃にのみ焦点を当てている。 本稿では,Google Cloud Vision APIの光学的文字認識サービスと, sightengine.com, picpurify.com, Google Cloud Vision API, Microsoft AzureのComputer Vision APIなどの実環境にデプロイされたオブジェクト検出APIの堅牢性について,敵対的画像生成手法の新たな2つの側面を提案する。 具体的には,従来の小雑音対向攻撃を超越し,ロバスト性を評価するための簡易な方法として,秘密の埋め込みと透過的な対向例を導入する。 これらの手法は非常に単純で、専門でない者でさえそのような攻撃を仕掛けることができる。 その結果、ハイリスクなアプリケーションにAPIが使用されるという深刻な脅威が生じる。 透過的な敵の例では、azure cloud vision(攻撃成功率52%)やgoogle cloud vision(攻撃成功率36%)といった最先端のオブジェクト検出apiを回避しています。 画像の90%は秘密の埋め込みテキストで、時間制限された人間のビジョンをうまく騙すが、Google Cloud Vision APIの光学文字認識によって検出される。 最近の研究を補完する形で,ロバスト性評価の手法は単純だが非従来的である。

There has been a rise in the use of Machine Learning as a Service (MLaaS) Vision APIs as they offer multiple services including pre-built models and algorithms, which otherwise take a huge amount of resources if built from scratch. As these APIs get deployed for high-stakes applications, it's very important that they are robust to different manipulations. Recent works have only focused on typical adversarial attacks when evaluating the robustness of vision APIs. We propose two new aspects of adversarial image generation methods and evaluate them on the robustness of Google Cloud Vision API's optical character recognition service and object detection APIs deployed in real-world settings such as sightengine.com, picpurify.com, Google Cloud Vision API, and Microsoft Azure's Computer Vision API. Specifically, we go beyond the conventional small-noise adversarial attacks and introduce secret embedding and transparent adversarial examples as a simpler way to evaluate robustness. These methods are so straightforward that even non-specialists can craft such attacks. As a result, they pose a serious threat where APIs are used for high-stakes applications. Our transparent adversarial examples successfully evade state-of-the art object detections APIs such as Azure Cloud Vision (attack success rate 52%) and Google Cloud Vision (attack success rate 36%). 90% of the images have a secret embedded text that successfully fools the vision of time-limited humans but is detected by Google Cloud Vision API's optical character recognition. Complementing to current research, our results provide simple but unconventional methods on robustness evaluation.
翻訳日:2021-05-21 13:49:46 公開日:2021-05-20
# マルチパースペクティブ異常検出

Multi-Perspective Anomaly Detection ( http://arxiv.org/abs/2105.09903v1 )

ライセンス: Link先を確認
Manav Madan, Peter Jakob, Tobias Schmid-Schirling, Abhinav Valada(参考訳) マルチビュー分類は,特に微細な特徴や稀に発生する異常を検出する場合に,人間の行動に着想を得たものである。 現在のコントリビューションは、高次元データの融合の問題を示している。 本研究では,深層支援ベクトルデータ記述アルゴリズムを構築し,3つの異なる融合手法を用いた多視点異常検出に対処する。 初期の核融合、後期核融合、および複数のデコーダとの後期核融合。 我々は,少ない一級データを扱うために,デノナイジング処理を用いた異なる拡張手法を採用し,性能を更に向上させる(ROC AUC = 80 %)。 さらに,複数の視点から2000以上のグレースケール画像と,稀な異常(例)を含む画像の5\%とからなるダイスデータセットを紹介する。 穴、こぎり、ひっかき傷など)。 2つの異なる視点からの画像を用いて新しいダイスデータセットのアプローチを評価し、標準MNISTデータセットのベンチマークを行った。 大規模な実験により,提案手法がMNISTとDicesデータセットの両者の最先端性を上回ることが示された。 我々の知る限り、これは画像における多視点異常検出に焦点をあてる最初の研究であり、異なる視点と1つの目的関数を併用して異常検出を行う。

Multi-view classification is inspired by the behavior of humans, especially when fine-grained features or in our case rarely occurring anomalies are to be detected. Current contributions point to the problem of how high-dimensional data can be fused. In this work, we build upon the deep support vector data description algorithm and address multi-perspective anomaly detection using three different fusion techniques i.e. early fusion, late fusion, and late fusion with multiple decoders. We employ different augmentation techniques with a denoising process to deal with scarce one-class data, which further improves the performance (ROC AUC = 80\%). Furthermore, we introduce the dices dataset that consists of over 2000 grayscale images of falling dices from multiple perspectives, with 5\% of the images containing rare anomalies (e.g. drill holes, sawing, or scratches). We evaluate our approach on the new dices dataset using images from two different perspectives and also benchmark on the standard MNIST dataset. Extensive experiments demonstrate that our proposed approach exceeds the state-of-the-art on both the MNIST and dices datasets. To the best of our knowledge, this is the first work that focuses on addressing multi-perspective anomaly detection in images by jointly using different perspectives together with one single objective function for anomaly detection.
翻訳日:2021-05-21 13:49:18 公開日:2021-05-20
# MLBiNet: クロス文集合イベント検出ネットワーク

MLBiNet: A Cross-Sentence Collective Event Detection Network ( http://arxiv.org/abs/2105.09458v1 )

ライセンス: Link先を確認
Dongfang Lou, Zhilin Liao, Shumin Deng, Ningyu Zhang, Huajun Chen(参考訳) 特にクロスセンテンス設定において,複数のイベントを集合的に検出する問題を考える。 問題に対処する鍵は、意味情報をエンコードし、ドキュメントレベルでイベント間の依存性をモデル化することである。 本稿では,Seq2Seqタスクとして再編成し,イベントとセマンティック情報の文書レベルの関連を同時に捉えるマルチ階層双方向ネットワーク(MLBiNet)を提案する。 特に、双方向デコーダは、まず、イベントタグベクターシーケンスをデコードする際に、文内のイベント相互依存をモデル化するために考案される。 次に、情報集約モジュールを用いて文レベルの意味情報とイベントタグ情報を集約する。 最後に,複数の双方向デコーダを積み重ねて,文間で情報を反復的に伝達する多層双方向タギングアーキテクチャを形成する。 提案手法は,現状の成果に比べて性能が大幅に向上していることを示す。

We consider the problem of collectively detecting multiple events, particularly in cross-sentence settings. The key to dealing with the problem is to encode semantic information and model event inter-dependency at a document-level. In this paper, we reformulate it as a Seq2Seq task and propose a Multi-Layer Bidirectional Network (MLBiNet) to capture the document-level association of events and semantic information simultaneously. Specifically, a bidirectional decoder is firstly devised to model event inter-dependency within a sentence when decoding the event tag vector sequence. Secondly, an information aggregation module is employed to aggregate sentence-level semantic and event tag information. Finally, we stack multiple bidirectional decoders and feed cross-sentence information, forming a multi-layer bidirectional tagging architecture to iteratively propagate information across sentences. We show that our approach provides significant improvement in performance compared to the current state-of-the-art results.
翻訳日:2021-05-21 13:48:57 公開日:2021-05-20
# ファウショットイベント検出のための適応的知識強化ベイズメタラーニング

Adaptive Knowledge-Enhanced Bayesian Meta-Learning for Few-shot Event Detection ( http://arxiv.org/abs/2105.09509v1 )

ライセンス: Link先を確認
Shirong Shen and Tongtong Wu and Guilin Qi and Yuan-Fang Li and Gholamreza Haffari and Sheng Bi(参考訳) event detection (ed) は文中のイベントトリガワードを検出し、それらを特定のイベントタイプに分類することを目的としている。 実世界のアプリケーションでは、edは通常十分なラベル付きデータを持っていないため、少数の学習問題として定式化できる。 そこで本研究では, イベントタイプ前の知識として外部イベント知識を導入するために, 定義に基づくエンコーダを用いた, 知識に基づく新規なイベント検出手法を提案する。 さらに,外部知識はイベントタイプを限定的かつ不完全にカバーするので,イベントタイプに先立って動的に知識を調整するための適応的知識強化ベイズメタラーニング手法を導入する。 実験により,本手法は,同じ数ショット設定下において,少なくとも15個の絶対F1点の基準線を一定かつ実質的に上回ることを示す。

Event detection (ED) aims at detecting event trigger words in sentences and classifying them into specific event types. In real-world applications, ED typically does not have sufficient labelled data, thus can be formulated as a few-shot learning problem. To tackle the issue of low sample diversity in few-shot ED, we propose a novel knowledge-based few-shot event detection method which uses a definition-based encoder to introduce external event knowledge as the knowledge prior of event types. Furthermore, as external knowledge typically provides limited and imperfect coverage of event types, we introduce an adaptive knowledge-enhanced Bayesian meta-learning method to dynamically adjust the knowledge prior of event types. Experiments show our method consistently and substantially outperforms a number of baselines by at least 15 absolute F1 points under the same few-shot settings.
翻訳日:2021-05-21 13:48:42 公開日:2021-05-20
# 分布意味論モデルの総合的比較評価と解析

A comprehensive comparative evaluation and analysis of Distributional Semantic Models ( http://arxiv.org/abs/2105.09825v1 )

ライセンス: Link先を確認
Alessandro Lenci and Magnus Sahlgren and Patrick Jeuniaux and Amaru Cuba Gyllensten and Martina Miliani(参考訳) 分布セマンティクスは過去数十年で大きく変化した。 まず、予測モデルが従来のカウントモデルから雷を盗み、最近ではトランスフォーマーニューラルネットワークモデルによって生成された文脈化されたベクトルによって、多くのNLPアプリケーションに置き換えられた。 分散セマンティックモデル(DSM)の評価に多くの研究が注がれてきたが、テストモデル、セマンティックタスク、ベンチマークデータセットに対する徹底的な比較はいまだに欠けている。 さらに、従来の研究は、語彙意味空間の表現方法の違いを探るのではなく、タスク駆動評価に主に焦点を当ててきた。 本稿では,静的dsmで生成するか,bertで生成したコンテクスト化ベクトルを平均化することによって得られる型分布ベクトルの包括的評価を行う。 まず,DSMの動作に影響を及ぼす要因を特定するために,複数の意味的タスクに埋め込まれた埋め込みの性能を調査し,詳細な統計分析を行った。 結果は、i)。 予測に基づくモデルの優越性は、現実よりも明らかで、確実にユビキタスでiiではない。 静的DSMは、コンテキスト外のセマンティックタスクやデータセットでコンテキスト化された表現を超越します。 さらに,認知神経科学から表現的類似性分析(rsa)の方法論を借用し,分布モデルによって生成された意味空間を検証した。 RSAは語彙項目の頻度とパート・オブ・スペルに関連する重要な違いを明らかにした。

Distributional semantics has deeply changed in the last decades. First, predict models stole the thunder from traditional count ones, and more recently both of them were replaced in many NLP applications by contextualized vectors produced by Transformer neural language models. Although an extensive body of research has been devoted to Distributional Semantic Model (DSM) evaluation, we still lack a thorough comparison with respect to tested models, semantic tasks, and benchmark datasets. Moreover, previous work has mostly focused on task-driven evaluation, instead of exploring the differences between the way models represent the lexical semantic space. In this paper, we perform a comprehensive evaluation of type distributional vectors, either produced by static DSMs or obtained by averaging the contextualized vectors generated by BERT. First of all, we investigate the performance of embeddings in several semantic tasks, carrying out an in-depth statistical analysis to identify the major factors influencing the behavior of DSMs. The results show that i.) the alleged superiority of predict based models is more apparent than real, and surely not ubiquitous and ii.) static DSMs surpass contextualized representations in most out-of-context semantic tasks and datasets. Furthermore, we borrow from cognitive neuroscience the methodology of Representational Similarity Analysis (RSA) to inspect the semantic spaces generated by distributional models. RSA reveals important differences related to the frequency and part-of-speech of lexical items.
翻訳日:2021-05-21 13:48:27 公開日:2021-05-20
# agsfcos:オブジェクト検出のための注意機構とスケール等化ピラミッドネットワークに基づく

AGSFCOS: Based on attention mechanism and Scale-Equalizing pyramid network of object detection ( http://arxiv.org/abs/2105.09596v1 )

ライセンス: Link先を確認
Li Wang, Wei Xiang, Ruhui Xue, Kaida Zou, Laili Zhu(参考訳) 近年,アンカーフリー物体検出モデルでは,アンカーベース物体検出を超える精度と速度の可能性が示された。 そこで本論文では,(1)アンカーフリーオブジェクト検出モデルにおけるバックボーンネットワークを特徴抽出をどのように学習させるか,という課題を主に研究している。 (2) 特徴ピラミッドネットワークをどう活用するか? 以上の問題を解決するため,提案モデルでは,COCOデータセット上の一般的な検出モデルと比較して精度が向上し,設計した注目機構モジュールがコンテキスト情報を適切に把握し,検出精度を向上し,セックネットワークを用いて抽象的かつ詳細な情報のバランスを保ち,特徴ピラミッドネットワークにおける意味的ギャップの問題を軽減できることを示した。 アンカーベースネットワークモデル YOLOv3 や Faster RCNN,あるいはアンカーフリーネットワークモデル Foveabox, FSAF, FCOS などである。 我々の最適モデルはResNet50の背景で39.5%のCOCO APが得られる。

Recently, the anchor-free object detection model has shown great potential for accuracy and speed to exceed anchor-based object detection. Therefore, two issues are mainly studied in this article: (1) How to let the backbone network in the anchor-free object detection model learn feature extraction? (2) How to make better use of the feature pyramid network? In order to solve the above problems, Experiments show that our model has a certain improvement in accuracy compared with the current popular detection models on the COCO dataset, the designed attention mechanism module can capture contextual information well, improve detection accuracy, and use sepc network to help balance abstract and detailed information, and reduce the problem of semantic gap in the feature pyramid network. Whether it is anchor-based network model YOLOv3, Faster RCNN, or anchor-free network model Foveabox, FSAF, FCOS. Our optimal model can get 39.5% COCO AP under the background of ResNet50.
翻訳日:2021-05-21 13:48:05 公開日:2021-05-20
# deepdarts: 単一のカメラによるdartの自動スコアキーピングのためのオブジェクトとしてのキーポイントのモデリング

DeepDarts: Modeling Keypoints as Objects for Automatic Scorekeeping in Darts using a Single Camera ( http://arxiv.org/abs/2105.09880v1 )

ライセンス: Link先を確認
William McNally, Pascale Walters, Kanav Vats, Alexander Wong, John McPhee(参考訳) 既存のsteel-tip dartの自動スコアキーピングのためのマルチカメラソリューションは非常に高価であり、ほとんどのプレイヤーにはアクセスできない。 よりアクセスしやすい低コストのソリューションを開発するために、キーポイント検出の新しいアプローチを提案し、任意のカメラアングルから撮影した単一の画像からダートスコアを予測する。 この問題は、同じクラスに属し、互いに近接している複数のキーポイントを検出することである。 heatmapsを使ってキーポイントをリグレッシブするための広く採用されているフレームワークは、このタスクには適していない。 この問題に対処するために、代わりにキーポイントをオブジェクトとしてモデル化することを提案します。 私たちは、このアイデアにまつわる深い畳み込みニューラルネットワークを開発し、それを使って、パイプライン全体のダート位置とダートボードキャリブレーションポイントを予測し、自動ダートスコアを作成します。 さらに,本手法の一般化を改善するために,タスク固有のデータ拡張戦略を提案する。 概念実証として、2つの異なるダーツボード構成から16kの画像からなる2つのデータセットを手動で収集し、システム評価を行った。 スマートフォンを使ってダーツボードの顔から撮影した15kの画像を含む一次データセットにおいて、DeepDartsはテスト画像の94.7%でスコアを正確に予測した。 限られたトレーニングデータ(830画像)と様々なカメラアングルを含む第2のより困難なデータセットでは、転送学習と広範なデータ拡張を使用して、テスト精度84.0%を達成する。 deepdartsは単一のイメージのみに依存しているため、エッジデバイスにデプロイする可能性があり、スマートフォンを持っている人なら誰でも、スチールチップダーツ用の自動dartスコアリングシステムにアクセスできる。 コードとデータセットは利用可能だ。

Existing multi-camera solutions for automatic scorekeeping in steel-tip darts are very expensive and thus inaccessible to most players. Motivated to develop a more accessible low-cost solution, we present a new approach to keypoint detection and apply it to predict dart scores from a single image taken from any camera angle. This problem involves detecting multiple keypoints that may be of the same class and positioned in close proximity to one another. The widely adopted framework for regressing keypoints using heatmaps is not well-suited for this task. To address this issue, we instead propose to model keypoints as objects. We develop a deep convolutional neural network around this idea and use it to predict dart locations and dartboard calibration points within an overall pipeline for automatic dart scoring, which we call DeepDarts. Additionally, we propose several task-specific data augmentation strategies to improve the generalization of our method. As a proof of concept, two datasets comprising 16k images originating from two different dartboard setups were manually collected and annotated to evaluate the system. In the primary dataset containing 15k images captured from a face-on view of the dartboard using a smartphone, DeepDarts predicted the total score correctly in 94.7% of the test images. In a second more challenging dataset containing limited training data (830 images) and various camera angles, we utilize transfer learning and extensive data augmentation to achieve a test accuracy of 84.0%. Because DeepDarts relies only on single images, it has the potential to be deployed on edge devices, giving anyone with a smartphone access to an automatic dart scoring system for steel-tip darts. The code and datasets are available.
翻訳日:2021-05-21 13:47:46 公開日:2021-05-20
# NN一般化に対する選択バイアスの効果の思考実験による検証

Probing the Effect of Selection Bias on NN Generalization with a Thought Experiment ( http://arxiv.org/abs/2105.09934v1 )

ライセンス: Link先を確認
John K. Tsotsos and Jun Luo(参考訳) 視覚認識と認知の領域における学習ネットワークは、可能な画像の全人口よりも数桁小さいデータセットで訓練されているにもかかわらず、新規で未発見のデータに適用可能な十分な一般化を示しているため、部分的に印象づけられている。 いくつかの観点から一般化に関する問題を調べてきたが、ネットワークが特定のドメイン属性に対応する特定のサンプルを見逃すバイアス付きデータセットで訓練されているかどうか疑問に思った。 視界において、現在のトレーニングセットがすべての視覚情報をフルにキャプチャするわけではなく、これが選択バイアスにつながることは確かである。 ここでは,思考実験の伝統の中で新しいアプローチを試みる。 私たちはこの思考実験を実際のビジュアルオブジェクトのドメインで実行し、トレーニングデータの特定のギャップとそれらのパフォーマンス要求への影響を完全にキャラクタリゼーションし、見ていくことができます。 我々の思考実験は、3つの結論を指摘している: まず、一般化行動は、トレーニング中にドメインの特定の次元がどの程度十分に表現されているかに依存している; 第二に、一般化の効用は許容されるシステムエラーに完全に依存している; 第三に、画像平面や色からのポーズ配向のような、対象の特定の視覚的特徴は、トレーニングセットで十分に表現されていなければ、回復できないかもしれない。 現代のディープラーニングネットワークで現在観察されている一般化は、一致したアライメントの結果であり、システムの性能仕様に関してその実用性を確認する必要がある。 私たちの思考実験プローブアプローチと結果のバイアスブレークダウンは、バイアスの影響を理解する上で非常に有意義なものです。

Learned networks in the domain of visual recognition and cognition impress in part because even though they are trained with datasets many orders of magnitude smaller than the full population of possible images, they exhibit sufficient generalization to be applicable to new and previously unseen data. Although many have examined issues regarding generalization from several perspectives, we wondered If a network is trained with a biased dataset that misses particular samples corresponding to some defining domain attribute, can it generalize to the full domain from which that training dataset was extracted? It is certainly true that in vision, no current training set fully captures all visual information and this may lead to Selection Bias. Here, we try a novel approach in the tradition of the Thought Experiment. We run this thought experiment on a real domain of visual objects that we can fully characterize and look at specific gaps in training data and their impact on performance requirements. Our thought experiment points to three conclusions: first, that generalization behavior is dependent on how sufficiently the particular dimensions of the domain are represented during training; second, that the utility of any generalization is completely dependent on the acceptable system error; and third, that specific visual features of objects, such as pose orientations out of the imaging plane or colours, may not be recoverable if not represented sufficiently in a training set. Any currently observed generalization in modern deep learning networks may be more the result of coincidental alignments and whose utility needs to be confirmed with respect to a system's performance specification. Our Thought Experiment Probe approach, coupled with the resulting Bias Breakdown can be very informative towards understanding the impact of biases.
翻訳日:2021-05-21 13:47:22 公開日:2021-05-20
# AnaXNet:胸部X線におけるマルチラベル検索分類を意識した解剖学

AnaXNet: Anatomy Aware Multi-label Finding Classification in Chest X-ray ( http://arxiv.org/abs/2105.09937v1 )

ライセンス: Link先を確認
Nkechinyere N. Agu, Joy T. Wu, Hanqing Chao, Ismini Lourentzou, Arjun Sharma, Mehdi Moradi, Pingkun Yan, James Hendler(参考訳) 放射線医は通常、判定する前に胸部X線像の解剖学的領域と全体像を観察する。 しかし、既存のディープラーニングモデルは、分類のためにX線画像全体を見るだけで、重要な解剖学的情報を利用できない。 本稿では,画像発見を正確に分類し,適切な解剖学的領域に局在する,新しいマルチラベル胸部X線分類モデルを提案する。 具体的には,検出モジュールと解剖依存性モジュールという2つのモジュールからなる。 後者はグラフ畳み込みネットワークを利用しており、このモデルではラベル依存だけでなく、胸部x線中の解剖学的領域の関係も学習できる。 さらに,各領域のラベルの相関を利用して,解剖学的領域の隣接行列を効率的に作成する手法を利用する。 本研究の詳細な実験と解析により, 胸部x線画像分類法と比較し, 正確な位置情報を提供しつつ, 提案手法の有効性が示された。

Radiologists usually observe anatomical regions of chest X-ray images as well as the overall image before making a decision. However, most existing deep learning models only look at the entire X-ray image for classification, failing to utilize important anatomical information. In this paper, we propose a novel multi-label chest X-ray classification model that accurately classifies the image finding and also localizes the findings to their correct anatomical regions. Specifically, our model consists of two modules, the detection module and the anatomical dependency module. The latter utilizes graph convolutional networks, which enable our model to learn not only the label dependency but also the relationship between the anatomical regions in the chest X-ray. We further utilize a method to efficiently create an adjacency matrix for the anatomical regions using the correlation of the label across the different regions. Detailed experiments and analysis of our results show the effectiveness of our method when compared to the current state-of-the-art multi-label chest X-ray image classification methods while also providing accurate location information.
翻訳日:2021-05-21 13:46:52 公開日:2021-05-20
# 多対多多言語ニューラルマシン翻訳のためのコントラスト学習

Contrastive Learning for Many-to-many Multilingual Neural Machine Translation ( http://arxiv.org/abs/2105.09501v1 )

ライセンス: Link先を確認
Xiao Pan, Mingxuan Wang, Liwei Wu, Lei Li(参考訳) 既存の多言語機械翻訳のアプローチは主に英語中心の方向に焦点を当てている。 本研究では,非英語の指示の質を重視した多対多翻訳システムの構築を目指している。 我々の直観は、普遍的な言語間表現がより優れた多言語翻訳性能をもたらすという仮説に基づいている。 そこで本研究では,単一統一多言語翻訳モデルを得るための学習法である \method を提案する。 mCOLTは、(i)異なる言語の表現間のギャップを埋めるための対照的な学習スキーム、(ii)トークン表現をさらに整合させる複数の並列データと単言語データの両方にデータ拡張を行う。 英語中心の方向では、mCOLTは、数十のWMTベンチマーク上の強力な事前訓練モデルmBARTよりも、競争力や性能が向上する。 非英語方向の場合、mCOLTは多言語ベースラインに比べて平均10以上のBLEUを改善する。

Existing multilingual machine translation approaches mainly focus on English-centric directions, while the non-English directions still lag behind. In this work, we aim to build a many-to-many translation system with an emphasis on the quality of non-English language directions. Our intuition is based on the hypothesis that a universal cross-language representation leads to better multilingual translation performance. To this end, we propose \method, a training method to obtain a single unified multilingual translation model. mCOLT is empowered by two techniques: (i) a contrastive learning scheme to close the gap among representations of different languages, and (ii) data augmentation on both multiple parallel and monolingual data to further align token representations. For English-centric directions, mCOLT achieves competitive or even better performance than a strong pre-trained model mBART on tens of WMT benchmarks. For non-English directions, mCOLT achieves an improvement of average 10+ BLEU compared with the multilingual baseline.
翻訳日:2021-05-21 13:46:38 公開日:2021-05-20
# 手動評価項目:遠隔監視型関係抽出テストプロトコルのレビュー

Manual Evaluation Matters: Reviewing Test Protocols of Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2105.09543v1 )

ライセンス: Link先を確認
Tianyu Gao, Xu Han, Keyue Qiu, Yuzhuo Bai, Zhiyu Xie, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) 遠隔監視(DS)関係抽出(RE)は,大規模な自動ラベル付きデータを利用するため,近年注目されている。 モデル予測の小さなサンプルを手作業で検証するために、コストと一貫性のない方法、あるいは自動ラベル付きデータ上でモデルを直接テストする — 当社のチェックでは、一般的なNYT10データセットのエンティティペアレベルで、最大53%の間違ったラベルを生成する。 この問題が不正確な評価につながっただけでなく、DS-REの研究で私たちがどこにいるか、何が改善されているのかを理解するのが難しくなりました。 DS-REモデルをより信頼性の高い方法で評価するために、2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートされたテストセットを構築し、いくつかの競合モデル、特に最新の事前学習モデルについて徹底的に評価する。 実験結果から、手動による評価は自動的な結果とは全く異なる結論を示すことが示され、特に、事前訓練されたモデルでは、従来の手法に比べて偽陽性の可能性が強く、支配的な性能を達成することができる。 手動テストセットと新しい観測結果の両方が将来のds-re研究に役立てることを願っています。

Distantly supervised (DS) relation extraction (RE) has attracted much attention in the past few years as it can utilize large-scale auto-labeled data. However, its evaluation has long been a problem: previous works either took costly and inconsistent methods to manually examine a small sample of model predictions, or directly test models on auto-labeled data -- which, by our check, produce as much as 53% wrong labels at the entity pair level in the popular NYT10 dataset. This problem has not only led to inaccurate evaluation, but also made it hard to understand where we are and what's left to improve in the research of DS-RE. To evaluate DS-RE models in a more credible way, we build manually-annotated test sets for two DS-RE datasets, NYT10 and Wiki20, and thoroughly evaluate several competitive models, especially the latest pre-trained ones. The experimental results show that the manual evaluation can indicate very different conclusions from automatic ones, especially some unexpected observations, e.g., pre-trained models can achieve dominating performance while being more susceptible to false-positives compared to previous methods. We hope that both our manual test sets and novel observations can help advance future DS-RE research.
翻訳日:2021-05-21 13:46:24 公開日:2021-05-20
# オンライン高信頼変化点検出による非定常強化学習における最小遅延適応

Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via Online High-Confidence Change-Point Detection ( http://arxiv.org/abs/2105.09452v1 )

ライセンス: Link先を確認
Lucas N. Alegre, Ana L. C. Bazzan, Bruno C. da Silva(参考訳) 非定常環境は強化学習アルゴリズムでは困難である。 状態遷移と/または報酬関数が潜在因子に基づいて変化する場合、エージェントは、ある未知の分布から引き出されたマルコフ決定過程(MDP)の潜在的ランダムなシーケンス上での性能を最大化する挙動を最適化する。 私たちはそれぞれを文脈として MDP と呼ぶ。 関連するほとんどの著作は、文脈上の分布に関する知識、事前学習段階の存在、または文脈間の数、シーケンス、境界に関する事前知識のような強い仮定を定めている。 非定常環境におけるポリシーを効率的に学習するアルゴリズムを提案する。 データの無限のストリームを分析し、リアルタイムで高信頼な変更点検出統計を計算し、新しい、特殊なポリシーを作成して、新しいコンテキストに取り組む必要があるか、以前最適化したものが再利用されるかどうかを判断する。 i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にし, (ii) 誤報の頻度を制限し, 後悔を最小限に抑えるために重要である。 本手法は,確率力学予測器の(おそらく無限の)アンサンブルからなる混合モデルを構築し,基礎となる潜在MDP上の分布の異なるモードをモデル化する。 我々は,高次元連続強化学習問題に対するアルゴリズムの評価を行い,非定常性に特化して設計された最先端(モデルフリーでモデルベース)のRLアルゴリズムおよび最先端メタラーニング手法よりも優れていることを示す。

Non-stationary environments are challenging for reinforcement learning algorithms. If the state transition and/or reward functions change based on latent factors, the agent is effectively tasked with optimizing a behavior that maximizes performance over a possibly infinite random sequence of Markov Decision Processes (MDPs), each of which drawn from some unknown distribution. We call each such MDP a context. Most related works make strong assumptions such as knowledge about the distribution over contexts, the existence of pre-training phases, or a priori knowledge about the number, sequence, or boundaries between contexts. We introduce an algorithm that efficiently learns policies in non-stationary environments. It analyzes a possibly infinite stream of data and computes, in real-time, high-confidence change-point detection statistics that reflect whether novel, specialized policies need to be created and deployed to tackle novel contexts, or whether previously-optimized ones might be reused. We show that (i) this algorithm minimizes the delay until unforeseen changes to a context are detected, thereby allowing for rapid responses; and (ii) it bounds the rate of false alarm, which is important in order to minimize regret. Our method constructs a mixture model composed of a (possibly infinite) ensemble of probabilistic dynamics predictors that model the different modes of the distribution over underlying latent MDPs. We evaluate our algorithm on high-dimensional continuous reinforcement learning problems and show that it outperforms state-of-the-art (model-free and model-based) RL algorithms, as well as state-of-the-art meta-learning methods specially designed to deal with non-stationarity.
翻訳日:2021-05-21 13:46:01 公開日:2021-05-20
# 推定およびテスト問題におけるマルコフ連鎖の$\alpha$-lazyバージョンについて

On the $\alpha$-lazy version of Markov chains in estimation and testing problems ( http://arxiv.org/abs/2105.09536v1 )

ライセンス: Link先を確認
Sela Fried, Geoffrey Wolfer(参考訳) いくつかの統計マルコフ連鎖推論問題のミニマックス1軌道長の拡張性を定式化し、そのような拡張の可能性と不可能性の両方に十分な条件を与える。 我々は、このフレームワークをエルゴードマルコフ連鎖の学習とアイデンティティテストに関する最近発表された結果に追従し、応用する。 特に、上記の結果のいくつかについては、元のプロセスの$\alpha$-lazyバージョンをシミュレートして周期性要件を省略し、この仮定を除去するコストを定量化できることが示される。

We formulate extendibility of the minimax one-trajectory length of several statistical Markov chains inference problems and give sufficient conditions for both the possibility and impossibility of such extensions. We follow up and apply this framework to recently published results on learning and identity testing of ergodic Markov chains. In particular, we show that for some of the aforementioned results, we can omit the aperiodicity requirement by simulating an $\alpha$-lazy version of the original process, and quantify the incurred cost of removing this assumption.
翻訳日:2021-05-21 13:45:31 公開日:2021-05-20
# 心エコー図と危険因子に基づく冠動脈疾患スクリーニングのためのアンサンブル機械学習アプローチ

Ensemble machine learning approach for screening of coronary heart disease based on echocardiography and risk factors ( http://arxiv.org/abs/2105.09670v1 )

ライセンス: Link先を確認
Jingyi Zhang, Huolan Zhu, Yongkai Chen, Chenguang Yang, Huimin Cheng, Yi Li, Wenxuan Zhong, Fang Wang(参考訳) 背景: 冠状動脈疾患(CHD)の早期スクリーニングは死亡率を大幅に低下させる可能性が示唆された。 64 次元スペックル追跡心エコー図 (2D-STE) と7 つの臨床像を用いて, CHD の有無を判定した。 手法: 一般的な分類手法をモデル積み重ねにより統合した機械学習手法を開発し, 従来の積み重ね手法を2段階積み重ね方式に一般化し, 診断性能の向上を図る。 結果: 提案手法を用いて複数の分類モデルから強みを借用することにより, chd分類精度を70%から87.7%に向上させた。 提案手法の感度は0.903であり、特異性は0.843であり、AUCは0.904であり、個々の分類モデルよりもかなり高い。 結論:本研究は冠動脈疾患に対するスペックル追跡心エコー検査に基づくスクリーニングツールの展開の基礎を築いている。

Background: Extensive clinical evidence suggests that a preventive screening of coronary heart disease (CHD) at an earlier stage can greatly reduce the mortality rate. We use 64 two-dimensional speckle tracking echocardiography (2D-STE) features and seven clinical features to predict whether one has CHD. Methods: We develop a machine learning approach that integrates a number of popular classification methods together by model stacking, and generalize the traditional stacking method to a two-step stacking method to improve the diagnostic performance. Results: By borrowing strengths from multiple classification models through the proposed method, we improve the CHD classification accuracy from around 70% to 87.7% on the testing set. The sensitivity of the proposed method is 0.903 and the specificity is 0.843, with an AUC of 0.904, which is significantly higher than those of the individual classification models. Conclusions: Our work lays a foundation for the deployment of speckle tracking echocardiography-bas ed screening tools for coronary heart disease.
翻訳日:2021-05-21 13:45:21 公開日:2021-05-20
# Monte Carlo Filtering Objectives: 時系列生成モデルとニューラル適応提案を学習するための変分対象の新しいファミリー

Monte Carlo Filtering Objectives: A New Family of Variational Objectives to Learn Generative Model and Neural Adaptive Proposal for Time Series ( http://arxiv.org/abs/2105.09801v1 )

ライセンス: Link先を確認
Shuangshuang Chen, Sihao Ding, Yiannis Karayiannidis, M{\aa}rten Bj\"orkman(参考訳) 学習生成モデルと潜在軌跡の推定は、フレキシブル生成モデルの難解な限界可能性のため、時系列では困難であることが示されている。 最適化の目的を代理することで対処できる。 パラメトリック生成モデルと時系列の適応的重要度評価を共同で学習するための変分目的の族であるモンテカルロフィルタリング目的(mcfos)を提案する。 MCFOは、シークエンシャル・モンテ・カルロを超える可能性推定器の選択を最先端の目的に拡張し、目的の厳密さの要因を明らかにする重要な特性を持ち、バイアスの少ない変分勾配推定を可能にする。 提案するmcfosと勾配推定は効率的で安定なモデル学習につながり,学習した生成モデルではデータや重要度が様々な時系列データに対してより効果的であることを示す。

Learning generative models and inferring latent trajectories have shown to be challenging for time series due to the intractable marginal likelihoods of flexible generative models. It can be addressed by surrogate objectives for optimization. We propose Monte Carlo filtering objectives (MCFOs), a family of variational objectives for jointly learning parametric generative models and amortized adaptive importance proposals of time series. MCFOs extend the choices of likelihood estimators beyond Sequential Monte Carlo in state-of-the-art objectives, possess important properties revealing the factors for the tightness of objectives, and allow for less biased and variant gradient estimates. We demonstrate that the proposed MCFOs and gradient estimations lead to efficient and stable model learning, and learned generative models well explain data and importance proposals are more sample efficient on various kinds of time series data.
翻訳日:2021-05-21 13:45:05 公開日:2021-05-20
# EiGLasso for Scalable Sparse Kronecker-Sum Inverse Covariance Estimation

EiGLasso for Scalable Sparse Kronecker-Sum Inverse Covariance Estimation ( http://arxiv.org/abs/2105.09872v1 )

ライセンス: Link先を確認
Jun Ho Yoon and Seyoung Kim(参考訳) 現実世界の多くの問題では、サンプルと機能の両方に複雑な依存関係が存在する。 クロネッカー和 (Kronecker sum) あるいは2つのグラフのカルテシアン積 (Cartesian product) は、それぞれ特徴とサンプルの間のモデリング依存であり、行列-変数ガウス分布の逆共分散行列として使われ、より直感的なスパース構造のためにクロネッカー積の逆共分散行列の代替として用いられる。 しかし, sparse kronecker-sum逆共分散推定法は, 数百以上の特徴とサンプルにスケールしないため, 同定不能なパラメータが推定に困難をもたらすため, 制限されている。 本稿では,Kronecker sumの構造を利用するために,ニュートン法と2つのグラフの固有分解を併用した,Kronecker-sum逆共分散推定の高度にスケーラブルな手法であるEiGLassoを紹介する。 EiGLassoはサンプルと特徴グラフの固有分解に基づいてヘッセンを近似することで計算時間を短縮する。 EiGLasso は、正確な Hessian と近似 Hessian との線型収束で二次収束を達成する。 既存の手法を一般化する未同定パラメータを推定するシンプルな新しい手法について述べる。 シミュレーションおよび実世界のデータを用いて,既存の手法と比較して,EiGLassoが2~3桁の速度アップを達成することを示す。

In many real-world problems, complex dependencies are present both among samples and among features. The Kronecker sum or the Cartesian product of two graphs, each modeling dependencies across features and across samples, has been used as an inverse covariance matrix for a matrix-variate Gaussian distribution, as an alternative to a Kronecker-product inverse covariance matrix, due to its more intuitive sparse structure. However, the existing methods for sparse Kronecker-sum inverse covariance estimation are limited in that they do not scale to more than a few hundred features and samples and that the unidentifiable parameters pose challenges in estimation. In this paper, we introduce EiGLasso, a highly scalable method for sparse Kronecker-sum inverse covariance estimation, based on Newton's method combined with eigendecomposition of the two graphs for exploiting the structure of Kronecker sum. EiGLasso further reduces computation time by approximating the Hessian based on the eigendecomposition of the sample and feature graphs. EiGLasso achieves quadratic convergence with the exact Hessian and linear convergence with the approximate Hessian. We describe a simple new approach to estimating the unidentifiable parameters that generalizes the existing methods. On simulated and real-world data, we demonstrate that EiGLasso achieves two to three orders-of-magnitude speed-up compared to the existing methods.
翻訳日:2021-05-21 13:44:46 公開日:2021-05-20
# ビデオからの乳幼児運動評価のための時空間注意ベースモデル

A Spatio-temporal Attention-based Model for Infant Movement Assessment from Videos ( http://arxiv.org/abs/2105.09783v1 )

ライセンス: Link先を確認
Binh Nguyen-Thai, Vuong Le, Catherine Morgan, Nadia Badawi, Truyen Tran, and Svetha Venkatesh(参考訳) 乳児の脳性麻痺は、関節や四肢の繊維運動の欠如や異常が強く示唆している。 ビデオ中の幼児の運動を評価するコンピュータベースの手法の開発は、脳性麻痺スクリーニングの改善に不可欠である。 既存の手法のほとんどは外観に基づく特徴を持ち、背景クラッタや移動カメラによって引き起こされる強いが無関係な信号に敏感である。 さらに、これらの特徴はフレーム全体にわたって計算され、特定の関節や肢の動きよりも全身の動きを計測する。 これらの課題に対処し,短いクリップから抽出した人間のポーズを用いて,消費者グレードビデオからフィジティ動作を評価する新しい手法を開発し,検証する。 人間のポーズは、関節と四肢の関連する動きプロファイルのみをキャプチャし、それゆえ無関係な外観アーティファクトから解放される。 関節間の動的および協調は時空間グラフ畳み込みネットワークを用いてモデル化される。 空間的注意機構を介して、フィジット運動に関する識別情報を含むフレーム及び体部を選択する。 本研究は,オーストラリアの脳性麻痺アライアンスを通じて,オーストラリアの病院で収集された実生活用コンシューマグレードビデオデータセットを用いて,脳性麻痺スクリーニングタスクにおける提案モデルを検証する。 実験の結果,提案手法はROC-AUCスコア81.87%を達成し,既存の競合手法よりも高い性能を示し,高い解釈性を示した。

The absence or abnormality of fidgety movements of joints or limbs is strongly indicative of cerebral palsy in infants. Developing computer-based methods for assessing infant movements in videos is pivotal for improved cerebral palsy screening. Most existing methods use appearance-based features and are thus sensitive to strong but irrelevant signals caused by background clutter or a moving camera. Moreover, these features are computed over the whole frame, thus they measure gross whole body movements rather than specific joint/limb motion. Addressing these challenges, we develop and validate a new method for fidgety movement assessment from consumer-grade videos using human poses extracted from short clips. Human poses capture only relevant motion profiles of joints and limbs and are thus free from irrelevant appearance artifacts. The dynamics and coordination between joints are modeled using spatio-temporal graph convolutional networks. Frames and body parts that contain discriminative information about fidgety movements are selected through a spatio-temporal attention mechanism. We validate the proposed model on the cerebral palsy screening task using a real-life consumer-grade video dataset collected at an Australian hospital through the Cerebral Palsy Alliance, Australia. Our experiments show that the proposed method achieves the ROC-AUC score of 81.87%, significantly outperforming existing competing methods with better interpretability.
翻訳日:2021-05-21 13:43:36 公開日:2021-05-20
# 構造化視覚概念の柔軟な構成学習

Flexible Compositional Learning of Structured Visual Concepts ( http://arxiv.org/abs/2105.09848v1 )

ライセンス: Link先を確認
Yanli Zhou, Brenden M. Lake(参考訳) 人間は非常に効率的な学習者であり、いくつかの例から新しい概念の意味を理解することができる。 一般的なコンピュータビジョンシステムとは異なり、人間は視覚世界の構成構造を柔軟に活用し、新しい概念を既存の概念の組み合わせとして理解することができる。 本稿では,リッチなリレーショナル構造を持つ抽象視覚形式を用いて,様々な視覚構成を学習する方法について検討する。 様々なシナリオでいくつかの例から有意義な構成一般化が可能であることが分かり,行動データによく適合するベイズプログラム誘導モデルを開発した。 構成性の特別な場合を調べる過去の研究とは異なり、我々の研究は単一の計算手法が多くの異なる種類の構成一般化を考慮できることを示す。

Humans are highly efficient learners, with the ability to grasp the meaning of a new concept from just a few examples. Unlike popular computer vision systems, humans can flexibly leverage the compositional structure of the visual world, understanding new concepts as combinations of existing concepts. In the current paper, we study how people learn different types of visual compositions, using abstract visual forms with rich relational structure. We find that people can make meaningful compositional generalizations from just a few examples in a variety of scenarios, and we develop a Bayesian program induction model that provides a close fit to the behavioral data. Unlike past work examining special cases of compositionality, our work shows how a single computational approach can account for many distinct types of compositional generalization.
翻訳日:2021-05-21 13:43:15 公開日:2021-05-20
# DeepAVO:Deep Visual Odometryのための機能拡張による効率的なポーズ精製

DeepAVO: Efficient Pose Refining with Feature Distilling for Deep Visual Odometry ( http://arxiv.org/abs/2105.09899v1 )

ライセンス: Link先を確認
Ran Zhu, Mingkun Yang, Wang Liu, Rujun Song, Bo Yan, Zhuoling Xiao(参考訳) 視覚オドメトリ(vo, visual odometry, 視覚オドメトリ)技術は、車載カメラで撮影された画像シーケンスを分析し、移動物体の位置と方向を推定する技術であり、自動運転への関心が高まっている。 本稿では,Deep Learning(DL)の観点から,単分子VOについて考察する。 従来の学習手法とは異なり、私たちのアプローチであるDeepAVOは、特徴が異なる動きパターンに差別的に寄与する直感に基づいています。 具体的には,畳み込みニューラルネットワーク(cnns)を利用して,光フロー入力の4次領域に焦点を合わせることで,回転と変換を学習する新しい4分岐ネットワークを提案する。 さらに,特徴選択能力を高めるために,特定フレームからフレーム(f2f)の動き推定に関して,各ブランチに明示的に関連情報を抽出させる効果的なチャネル空間的注意機構を導入する。 屋外走行と屋内歩行のシナリオを含む様々なデータセットの実験により、提案されたDeepAVOは最先端のモノラル法を大きなマージンで上回り、ステレオVOアルゴリズムとの競合性能を示し、一般化の有望な可能性を検証している。

The technology for Visual Odometry (VO) that estimates the position and orientation of the moving object through analyzing the image sequences captured by on-board cameras, has been well investigated with the rising interest in autonomous driving. This paper studies monocular VO from the perspective of Deep Learning (DL). Unlike most current learning-based methods, our approach, called DeepAVO, is established on the intuition that features contribute discriminately to different motion patterns. Specifically, we present a novel four-branch network to learn the rotation and translation by leveraging Convolutional Neural Networks (CNNs) to focus on different quadrants of optical flow input. To enhance the ability of feature selection, we further introduce an effective channel-spatial attention mechanism to force each branch to explicitly distill related information for specific Frame to Frame (F2F) motion estimation. Experiments on various datasets involving outdoor driving and indoor walking scenarios show that the proposed DeepAVO outperforms the state-of-the-art monocular methods by a large margin, demonstrating competitive performance to the stereo VO algorithm and verifying promising potential for generalization.
翻訳日:2021-05-21 13:43:03 公開日:2021-05-20
# 離散波形モデリングのためのデータ駆動線形予測を用いたマルチバンドウェーブRNNに基づく高忠実・低レイテンシユニバーサルニューラルボコーダ

High-Fidelity and Low-Latency Universal Neural Vocoder based on Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform Modeling ( http://arxiv.org/abs/2105.09856v1 )

ライセンス: Link先を確認
Patrick Lumban Tobing, Tomoki Toda(参考訳) 本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドウェーブRNNに基づく、新しい高忠実かつ低レイテンシなユニバーサルニューラルボコーダフレームワークを提案する。 MWDLPは10ビットのムラ波形モデリングに粗いビットWaveRNNアーキテクチャを採用している。 比較的大きな隠れ単位を持つスパースゲートリカレントユニットを利用する一方、マルチバンドモデリングはリアルタイム低遅延使用を実現するためにデプロイされる。 離散波形モデリングを用いたデータ駆動線形予測(LP)のための新しい手法を提案し,データ駆動方式でLP係数を推定する。 さらに,ガムベル近似を用いた離散波形モデリングのための短時間フーリエ変換(stft)を用いた新しい損失関数を提案する。 実験の結果、MWDLPフレームワークは、クリーンでノイズの多い/残響な条件を含む300の話者の学習データに対して、高忠実な合成音声を生成することを示し、トレーニング発話の回数は話者あたり60に制限されるとともに、入力・出力・特徴抽出を含む0.57-0.64ドルである$2.1--2.7~GHz CPUの単一コアを用いたリアルタイム低レイテンシ処理を可能にする。

This paper presents a novel high-fidelity and low-latency universal neural vocoder framework based on multiband WaveRNN with data-driven linear prediction for discrete waveform modeling (MWDLP). MWDLP employs a coarse-fine bit WaveRNN architecture for 10-bit mu-law waveform modeling. A sparse gated recurrent unit with a relatively large size of hidden units is utilized, while the multiband modeling is deployed to achieve real-time low-latency usage. A novel technique for data-driven linear prediction (LP) with discrete waveform modeling is proposed, where the LP coefficients are estimated in a data-driven manner. Moreover, a novel loss function using short-time Fourier transform (STFT) for discrete waveform modeling with Gumbel approximation is also proposed. The experimental results demonstrate that the proposed MWDLP framework generates high-fidelity synthetic speech for seen and unseen speakers and/or language on 300 speakers training data including clean and noisy/reverberant conditions, where the number of training utterances is limited to 60 per speaker, while allowing for real-time low-latency processing using a single core of $\sim\!$ 2.1--2.7~GHz CPU with $\sim\!$ 0.57--0.64 real-time factor including input/output and feature extraction.
翻訳日:2021-05-21 13:42:43 公開日:2021-05-20
# データ駆動線形予測を用いた周期変動オートエンコーダとマルチバンドウェーブRNNに基づく低レイテンシリアルタイム非並列音声変換

Low-Latency Real-Time Non-Parallel Voice Conversion based on Cyclic Variational Autoencoder and Multiband WaveRNN with Data-Driven Linear Prediction ( http://arxiv.org/abs/2105.09858v1 )

ライセンス: Link先を確認
Patrick Lumban Tobing, Tomoki Toda(参考訳) 本稿では,周期変動オートエンコーダ(CycleVAE)とデータ駆動線形予測(MWDLP)を用いたマルチバンドウェーブRNNに基づく低遅延リアルタイム非並列音声変換(VC)フレームワークを提案する。 CycleVAEは頑健な非並列マルチスピーカスペクトルモデルであり、入力話者のスペクトル特性から再構成・変換されたスペクトル特徴を生成するために、話者非依存の潜在空間と話者依存コードを利用する。 一方,MWDLPはマルチスピーカデータを処理し,CPUを用いたLLRTアプリケーションのための音声波形を生成する,効率的で高品質なニューラルボコーダである。 llrt制約をcpuで満たすために,mel-spectrogramをスペクトル特徴として活用し,スパースネットワークアーキテクチャを組み込んだ新しいcyclevaeフレームワークを提案する。 さらに,モデリング性能を向上させるために,MWDLPネットワークからの波形損失を利用してフレームレートCycleVAEネットワークを改良するファインチューニング手法を提案する。 実験の結果、提案フレームワークは高性能vcを実現し、シングルコア2.1$〜2.7$~ghz cpuで、入出力、特徴抽出、フレームシフト10$ms、ウィンドウ長27.5$ms、ルックアップフレーム2$を含む、リアルタイムファクター0.87$〜$0.95$でllrt使用が可能となった。

This paper presents a low-latency real-time (LLRT) non-parallel voice conversion (VC) framework based on cyclic variational autoencoder (CycleVAE) and multiband WaveRNN with data-driven linear prediction (MWDLP). CycleVAE is a robust non-parallel multispeaker spectral model, which utilizes a speaker-independent latent space and a speaker-dependent code to generate reconstructed/conver ted spectral features given the spectral features of an input speaker. On the other hand, MWDLP is an efficient and a high-quality neural vocoder that can handle multispeaker data and generate speech waveform for LLRT applications with CPU. To accommodate LLRT constraint with CPU, we propose a novel CycleVAE framework that utilizes mel-spectrogram as spectral features and is built with a sparse network architecture. Further, to improve the modeling performance, we also propose a novel fine-tuning procedure that refines the frame-rate CycleVAE network by utilizing the waveform loss from the MWDLP network. The experimental results demonstrate that the proposed framework achieves high-performance VC, while allowing for LLRT usage with a single-core of $2.1$--$2.7$~GHz CPU on a real-time factor of $0.87$--$0.95$, including input/output, feature extraction, on a frame shift of $10$ ms, a window length of $27.5$ ms, and $2$ lookup frames.
翻訳日:2021-05-21 13:42:17 公開日:2021-05-20
# Mondegreen:音声検索クエリの音声認識誤り訂正のための後処理ソリューション

Mondegreen: A Post-Processing Solution to Speech Recognition Error Correction for Voice Search Queries ( http://arxiv.org/abs/2105.09930v1 )

ライセンス: Link先を確認
Sukhdeep S. Sodhi, Ellie Ka-In Chio, Ambarish Jash, Santiago Onta\~n\'on, Ajit Apte, Ankit Kumar, Ayooluwakunmi Jeje, Dima Kuzmin, Harry Fung, Heng-Tze Cheng, Jon Effrat, Tarush Bali, Nitin Jindal, Pei Cao, Sarvjeet Singh, Senqiang Zhou, Tameen Khan, Amol Wankhede, Moustafa Alzantot, Allen Wu, Tushar Chandra(参考訳) ますます多くのオンライン検索クエリが音声から来るようになり、自動音声認識は関連する検索結果を提供する上で重要な要素となる。 自動音声認識(asr)によってもたらされた誤りは、ユーザに返される不適切な検索結果につながり、ユーザの不満を招く。 本稿では,システム制約やプライバシ,帯域幅(デバイス上で動作している一部のASRシステムなど)などにより,音声信号に依存することなくテキスト空間の音声クエリを補正する手法であるMondegreenを導入する。 いくつかの商用ASRシステムを通じて書き起こされた音声クエリに焦点を当てる。 これらのクエリは、インターネットやオンラインのサービス検索クエリを作るユーザから来ている。 まず,市販のasrシステムをトレーニングするために使用する従来のテキストコーパスと,ユーザの音声クエリから得られる言語分布の違いについて分析する。 次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正によって,Mondegreen がユーザインタラクションの大幅な向上を実現することを示す。 最後に、Mondegreen は既存の高度に最適化された生産型 ASR システムを補完するものとみなす。

As more and more online search queries come from voice, automatic speech recognition becomes a key component to deliver relevant search results. Errors introduced by automatic speech recognition (ASR) lead to irrelevant search results returned to the user, thus causing user dissatisfaction. In this paper, we introduce an approach, Mondegreen, to correct voice queries in text space without depending on audio signals, which may not always be available due to system constraints or privacy or bandwidth (for example, some ASR systems run on-device) considerations. We focus on voice queries transcribed via several proprietary commercial ASR systems. These queries come from users making internet, or online service search queries. We first present an analysis showing how different the language distribution coming from user voice queries is from that in traditional text corpora used to train off-the-shelf ASR systems. We then demonstrate that Mondegreen can achieve significant improvements in increased user interaction by correcting user voice queries in one of the largest search systems in Google. Finally, we see Mondegreen as complementing existing highly-optimized production ASR systems, which may not be frequently retrained and thus lag behind due to vocabulary drifts.
翻訳日:2021-05-21 13:41:49 公開日:2021-05-20
# fed-eini:フェデレーション学習における決定木アンサンブルの効率的かつ解釈可能な推論フレームワーク

Fed-EINI: An Efficient and Interpretable Inference Framework for Decision Tree Ensembles in Federated Learning ( http://arxiv.org/abs/2105.09540v1 )

ライセンス: Link先を確認
Xiaolin Chen, Shuai Zhou, Kai Yang, Hao Fan, Zejin Feng, Zhong Chen, Hu Wang, Yongji Wang(参考訳) データプライバシとセキュリティに対する懸念が高まり、独立したデータソース、すなわち \textit{federated learning}からプライバシを保存する機械学習を研究する新たな分野が出現する。 異なる組織が共通のユーザーのために異なる機能を持つ垂直的連合学習は、異なる分野の企業間でより多様なビジネス協力を促進する大きな可能性を持っている。 決定木モデル、特に決定木アンサンブルは、高い解釈可能性とモデリング効率を備えた、広く応用された強力な機械学習モデルのクラスである。 しかしながら、SecureBoostのようなこれらの作業では、保護されていない決定パスによって可能なデータ漏洩を避けるために、機能名が公開されないため、解釈性が損なわれる。 本稿では,1ラウンドのマルチパーティ通信のみのフェデレーション決定木モデルのための効率的かつ解釈可能な推論フレームワークであるfeed-einiを提案する。 各当事者のローカルデータに基づいて葉ノードの候補集合を並列に計算し、次に候補ノードの交点における唯一の葉ノードの重みをセキュアに計算する。 提案手法は,特徴名の開示を可能とし,フェデレートされた決定木を解釈可能とした,効率的な付加的同型暗号法により決定経路を保護する。 Fed-EINIの利点は、理論解析と広範な数値結果によって示される。 実験によれば、推論効率は平均で50〜%以上向上している。

The increasing concerns about data privacy and security drives the emergence of a new field of studying privacy-preserving machine learning from isolated data sources, i.e., \textit{federated learning}. Vertical federated learning, where different parties hold different features for common users, has a great potential of driving a more variety of business cooperation among enterprises in different fields. Decision tree models especially decision tree ensembles are a class of widely applied powerful machine learning models with high interpretability and modeling efficiency. However, the interpretability are compromised in these works such as SecureBoost since the feature names are not exposed to avoid possible data breaches due to the unprotected decision path. In this paper, we shall propose Fed-EINI, an efficient and interpretable inference framework for federated decision tree models with only one round of multi-party communication. We shall compute the candidate sets of leaf nodes based on the local data at each party in parallel, followed by securely computing the weight of the only leaf node in the intersection of the candidate sets. We propose to protect the decision path by the efficient additively homomorphic encryption method, which allows the disclosure of feature names and thus makes the federated decision trees interpretable. The advantages of Fed-EINI will be demonstrated through theoretical analysis and extensive numerical results. Experiments show that the inference efficiency is improved by over $50\%$ in average.
翻訳日:2021-05-21 13:41:30 公開日:2021-05-20
# 因果表記に基づくパーソナライズドフェアネスに向けて

Towards Personalized Fairness based on Causal Notion ( http://arxiv.org/abs/2105.09829v1 )

ライセンス: Link先を確認
Yunqi Li, Hanxiong Chen, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang(参考訳) レコメンダシステムは、情報検索や意思決定に使用するユーザが増えているため、人間と社会にますます大きな影響を与えています。 したがって、勧告における潜在的不公平の問題に対処することが不可欠である。 ユーザーがアイテムにパーソナライズされた好みを持っているように、公正に対するユーザーの要求も多くのシナリオでパーソナライズされる。 したがって、パーソナライズされた公平さ要求を満たすために、ユーザにパーソナライズされた公正な推奨を提供することが重要である。 さらに、以前のフェアレコメンデーションの研究は、主に協会ベースのフェアネスに焦点を当てている。 しかし、コメンテーターシステムにおいて、より適切に公正を評価するためには、連想公正概念から因果公正概念へと進むことが重要である。 本研究は,レコメンデーションシステムにおけるユーザに対して,パーソナライズされたカウンターファクトフェアネスを実現することに焦点を当てる。 そこで本研究では,機能非依存のユーザ埋め込み生成による敵意学習による反則的公正なレコメンデーションを実現するためのフレームワークを提案する。 このフレームワークにより、レコメンダシステムは、非パーソナライズされた状況をカバーすると同時に、ユーザに対してパーソナライズされた公平性を達成することができる。 提案手法は,提案手法により,推奨性能の高いユーザに対して,より公平なレコメンデーションを生成できることを示す。

Recommender systems are gaining increasing and critical impacts on human and society since a growing number of users use them for information seeking and decision making. Therefore, it is crucial to address the potential unfairness problems in recommendations. Just like users have personalized preferences on items, users' demands for fairness are also personalized in many scenarios. Therefore, it is important to provide personalized fair recommendations for users to satisfy their personalized fairness demands. Besides, previous works on fair recommendation mainly focus on association-based fairness. However, it is important to advance from associative fairness notions to causal fairness notions for assessing fairness more properly in recommender systems. Based on the above considerations, this paper focuses on achieving personalized counterfactual fairness for users in recommender systems. To this end, we introduce a framework for achieving counterfactually fair recommendations through adversary learning by generating feature-independent user embeddings for recommendation. The framework allows recommender systems to achieve personalized fairness for users while also covering non-personalized situations. Experiments on two real-world datasets with shallow and deep recommendation algorithms show that our method can generate fairer recommendations for users with a desirable recommendation performance.
翻訳日:2021-05-21 13:41:08 公開日:2021-05-20
# sgdの対数地形とパワーローエスケープ率

Logarithmic landscape and power-law escape rate of SGD ( http://arxiv.org/abs/2105.09557v1 )

ライセンス: Link先を確認
Takashi Mori, Liu Ziyin, Kangqiao Liu, Masahito Ueda(参考訳) 確率勾配降下(SGD)は平均二乗損失に対して複雑な乗法ノイズを受ける。 このsgdノイズの特性を用いて,時間変数の非一様変換を行うことにより,より単純な加算雑音を伴う確率微分方程式(sde)を導出する。 SDEでは、損失の勾配を対数化損失の勾配に置き換える。 したがって、局所的あるいは大域的最小値の近傍において、ネットワークパラメータの固定分布$P_\mathrm{ss}(\theta)$は損失関数$L(\theta)$,すなわち損失関数$L(\theta)$に対してパワー則に従うことを示す。 p_\mathrm{ss}(\theta)\propto l(\theta)^{-\phi}$ 最小のミニバッチサイズ、学習率、およびヘッシアンによって指定された指数 $\phi$ を持つ。 我々は、損失障壁高さ$\Delta L=L(\theta^s)-L(\theta^*)$を最小の$\theta^*$とサドルの$\theta^s$ではなく、対数化された損失障壁高さ$\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$で決定する局所的最小値から脱出率式を得る。 我々のエスケープレート式は、SGDが低い有効次元の平坦なミニマを好むという経験的事実を説明する。

Stochastic gradient descent (SGD) undergoes complicated multiplicative noise for the mean-square loss. We use this property of the SGD noise to derive a stochastic differential equation (SDE) with simpler additive noise by performing a non-uniform transformation of the time variable. In the SDE, the gradient of the loss is replaced by that of the logarithmized loss. Consequently, we show that, near a local or global minimum, the stationary distribution $P_\mathrm{ss}(\theta)$ of the network parameters $\theta$ follows a power-law with respect to the loss function $L(\theta)$, i.e. $P_\mathrm{ss}(\theta)\propto L(\theta)^{-\phi}$ with the exponent $\phi$ specified by the mini-batch size, the learning rate, and the Hessian at the minimum. We obtain the escape rate formula from a local minimum, which is determined not by the loss barrier height $\Delta L=L(\theta^s)-L(\theta^*)$ between a minimum $\theta^*$ and a saddle $\theta^s$ but by the logarithmized loss barrier height $\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$. Our escape-rate formula explains an empirical fact that SGD prefers flat minima with low effective dimensions.
翻訳日:2021-05-21 13:40:44 公開日:2021-05-20
# 生成モデルとMCMCによるニューロンのアンサンブル推論の改善

Improved Neuronal Ensemble Inference with Generative Model and MCMC ( http://arxiv.org/abs/2105.09679v1 )

ライセンス: Link先を確認
Shun Kimura, Keisuke Ota, Koujin Takeda(参考訳) 神経アンサンブル推論は生物学的ニューラルネットワークの研究において重要な問題である。 ニューロン活動の実験データからアンサンブル推論のための様々な方法が提案されている。 このうち, 生成モデルを用いたベイズ推定手法が最近提案されている。 しかし、適切な推論を行うには計算コストが大きい。 本研究では,マルコフ連鎖モンテカルロ法における更新規則を変更し,過度パラメータ制御のシミュレーションアニーリングの概念を導入することにより,ベイズ推定アルゴリズムの改良を行った。 我々は,本アルゴリズムと原文のアンサンブル推論の性能を比較し,本手法の利点について考察する。

Neuronal ensemble inference is a significant problem in the study of biological neural networks. Various methods have been proposed for ensemble inference from experimental data of neuronal activity. Among them, Bayesian inference approach with generative model was proposed recently. However, this method requires large computational cost for appropriate inference. In this work, we give an improved Bayesian inference algorithm by modifying update rule in Markov chain Monte Carlo method and introducing the idea of simulated annealing for hyperparameter control. We compare the performance of ensemble inference between our algorithm and the original one, and discuss the advantage of our method.
翻訳日:2021-05-21 13:40:11 公開日:2021-05-20
# 分散適応最近傍分類器:アルゴリズムと理論

Distributed Adaptive Nearest Neighbor Classifier: Algorithm and Theory ( http://arxiv.org/abs/2105.09788v1 )

ライセンス: Link先を確認
Ruiqi Liu, Ganggang Xu, Zuofeng Shang(参考訳) データが極端に大きい場合や、物理的に異なる場所に格納されている場合、分散隣人分類器(NN)は魅力的な分類ツールである。 本稿では,データ駆動の基準によって確率的に選択されるチューニングパラメータを,近隣住民の個数で表す分散適応型NN分類器を提案する。 最適チューニングパラメータを探索する際には早期停止規則が提案され、これは計算を高速化するだけでなく、提案アルゴリズムの有限サンプル性能も改善する。 分散適応nn分類器の過大リスクの収束率を,様々なサブサンプルサイズ組成で検討した。 特に,サブサンプルサイズが十分大きい場合には,提案する分類器がほぼ最適収束率を達成することを示す。 提案手法の有効性はシミュレーション研究や実世界のデータセットへの実証的な応用を通じて実証される。

When data is of an extraordinarily large size or physically stored in different locations, the distributed nearest neighbor (NN) classifier is an attractive tool for classification. We propose a novel distributed adaptive NN classifier for which the number of nearest neighbors is a tuning parameter stochastically chosen by a data-driven criterion. An early stopping rule is proposed when searching for the optimal tuning parameter, which not only speeds up the computation but also improves the finite sample performance of the proposed Algorithm. Convergence rate of excess risk of the distributed adaptive NN classifier is investigated under various sub-sample size compositions. In particular, we show that when the sub-sample sizes are sufficiently large, the proposed classifier achieves the nearly optimal convergence rate. Effectiveness of the proposed approach is demonstrated through simulation studies as well as an empirical application to a real-world dataset.
翻訳日:2021-05-21 13:40:02 公開日:2021-05-20
# コンピュータビジョンにおけるスーパーピクセルベースドメイン知識注入

Superpixel-based Domain-Knowledge Infusion in Computer Vision ( http://arxiv.org/abs/2105.09448v1 )

ライセンス: Link先を確認
Gunjan Chhablani, Abheesht Sharma, Harshit Pandey, Tirtharaj Dash(参考訳) スーパーピクセルは画像内のピクセルの高次知覚群であり、しばしば生のピクセルよりも多くの情報を運ぶ。 画像の異なるスーパーピクセル間の関係に固有の関係構造が存在する。 この関係情報は、画像に関するある種のドメイン情報を伝達することができる。 猫画像における2つの目を表すスーパーピクセル間の関係 本稿では,コンピュータビジョンモデルの構築,特にDeep Neural Networks(DNN)に基づくスーパーピクセル情報の統合に関心がある。 本稿では,画像内の空間情報を扱う畳み込みニューラルネットワーク(cnn)と,画像内の関連スーパーピクセル情報を扱うグラフニューラルネットワーク(gnn)を組み合わせたハイブリッドモデルを構築する手法を提案する。 提案する深層モデルでは,'ハイブリッド'損失と呼ぶ汎用ハイブリッド損失関数を用いて学習する。 MNIST,FMNIST,CIFAR-1 0,CIFAR-100の4つの画像分類データセットを用いたハイブリッドビジョンモデルの予測性能の評価を行った。 さらに, 実世界の3つの分類課題, COVID-19 X線検出, LFW顔認証, SOCOFing Fingerprint Identificationについて検討した。 以上の結果から,gnnを経由するスーパーピクセル情報により,標準cnnベースの視覚システムの性能が向上する可能性が示唆された。

Superpixels are higher-order perceptual groups of pixels in an image, often carrying much more information than raw pixels. There is an inherent relational structure to the relationship among different superpixels of an image. This relational information can convey some form of domain information about the image, e.g. relationship between superpixels representing two eyes in a cat image. Our interest in this paper is to construct computer vision models, specifically those based on Deep Neural Networks (DNNs) to incorporate these superpixels information. We propose a methodology to construct a hybrid model that leverages (a) Convolutional Neural Network (CNN) to deal with spatial information in an image, and (b) Graph Neural Network (GNN) to deal with relational superpixel information in the image. The proposed deep model is learned using a generic hybrid loss function that we call a `hybrid' loss. We evaluate the predictive performance of our proposed hybrid vision model on four popular image classification datasets: MNIST, FMNIST, CIFAR-10 and CIFAR-100. Moreover, we evaluate our method on three real-world classification tasks: COVID-19 X-Ray Detection, LFW Face Recognition, and SOCOFing Fingerprint Identification. The results demonstrate that the relational superpixel information provided via a GNN could improve the performance of standard CNN-based vision systems.
翻訳日:2021-05-21 13:39:50 公開日:2021-05-20
# DeepCAD: コンピュータ支援設計モデルのための深層生成ネットワーク

DeepCAD: A Deep Generative Network for Computer-Aided Design Models ( http://arxiv.org/abs/2105.09492v1 )

ライセンス: Link先を確認
Rundi Wu, Chang Xiao, Changxi Zheng(参考訳) 3次元形状の深い生成モデルは、多くの研究関心を集めている。 しかし、それらのほとんどは、ボクセル、点雲、ポリゴンメッシュなどの離散的な形状表現を生成する。 形状をcad(computer-aided design)操作のシーケンスとして表現する,大幅に異なる形状表現のための最初の3次元生成モデルを提案する。 メッシュやポイントクラウドとは異なり、CADモデルは、多くの産業や工学設計タスクで広く使われている3D形状のユーザー生成プロセスをエンコードする。 しかし,CAD操作の逐次的・不規則な構造は,既存の3次元生成モデルにとって大きな課題となる。 CAD操作と自然言語の類似性について,トランスフォーマーに基づくCAD生成ネットワークを提案する。 形状の自動エンコーディングとランダム形状生成の両方におけるモデルの性能を示す。 ネットワークをトレーニングするために、179,133モデルとそのCAD構築シーケンスからなる新しいCADデータセットを作成する。 このデータセットを公開して,今後の研究を推進しています。

Deep generative models of 3D shapes have received a great deal of research interest. Yet, almost all of them generate discrete shape representations, such as voxels, point clouds, and polygon meshes. We present the first 3D generative model for a drastically different shape representation -- describing a shape as a sequence of computer-aided design (CAD) operations. Unlike meshes and point clouds, CAD models encode the user creation process of 3D shapes, widely used in numerous industrial and engineering design tasks. However, the sequential and irregular structure of CAD operations poses significant challenges for existing 3D generative models. Drawing an analogy between CAD operations and natural language, we propose a CAD generative network based on the Transformer. We demonstrate the performance of our model for both shape autoencoding and random shape generation. To train our network, we create a new CAD dataset consisting of 179,133 models and their CAD construction sequences. We have made this dataset publicly available to promote future research on this topic.
翻訳日:2021-05-21 13:39:29 公開日:2021-05-20
# ボトムアップ階層型ポインタネットワークによる依存性解析

Dependency Parsing with Bottom-up Hierarchical Pointer Networks ( http://arxiv.org/abs/2105.09611v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez and Carlos G\'omez-Rodr\'iguez(参考訳) 依存関係解析は、深い言語理解への重要なステップであり、多くの自然言語処理アプリケーションによって広く要求されている。 特に、Pointer Networksに依存する左から右、トップダウンの遷移ベースのアルゴリズムは、依存性解析を行う上で最も正確なアプローチである。 さらに、ポインタネットワークのシーケンシャルデコーディングは階層的変異を実装することで改善され、従属構造をモデル化するのにより適したトップダウンアルゴリズムとして観察されている。 これらを考慮すると、ボトムアップ指向の左から右へのパーサのための階層的ポインタネットワークを開発し、文を右から左への順で解析するアプローチと、それを行う変種という2つの新しい遷移ベースの代替案を提案する。 提案するニューラルアーキテクチャを多種多様な言語で異なるアルゴリズムを用いて実証的にテストし,そのアプローチを事実上すべてに上回り,非コンテキスト化およびbertベース埋め込みのための英語と中国語のpenn treebanksに新たな最先端結果を設定した。

Dependency parsing is a crucial step towards deep language understanding and, therefore, widely demanded by numerous Natural Language Processing applications. In particular, left-to-right and top-down transition-based algorithms that rely on Pointer Networks are among the most accurate approaches for performing dependency parsing. Additionally, it has been observed for the top-down algorithm that Pointer Networks' sequential decoding can be improved by implementing a hierarchical variant, more adequate to model dependency structures. Considering all this, we develop a bottom-up-oriented Hierarchical Pointer Network for the left-to-right parser and propose two novel transition-based alternatives: an approach that parses a sentence in right-to-left order and a variant that does it from the outside in. We empirically test the proposed neural architecture with the different algorithms on a wide variety of languages, outperforming the original approach in practically all of them and setting new state-of-the-art results on the English and Chinese Penn Treebanks for non-contextualized and BERT-based embeddings.
翻訳日:2021-05-21 13:39:08 公開日:2021-05-20
# ドイツ医学文献からの否定抽出のための正規表現検出と依存解析の意義と問題点に関する事例研究 技術報告

A Case Study on Pros and Cons of Regular Expression Detection and Dependency Parsing for Negation Extraction from German Medical Documents. Technical Report ( http://arxiv.org/abs/2105.09702v1 )

ライセンス: Link先を確認
Hans-J\"urgen Profitlich and Daniel Sonntag(参考訳) ドイツ語で書かれた医療文書における情報抽出,特にUIMAパイプラインに基づくアーキテクチャを用いた否定の検出について述べる。 診断や検査などの医学的概念をカバーするソフトウェアモジュールに関するこれまでの作業に基づいています。 我々は,大量のトリガをベースラインとして,NegEx正規表現アルゴリズムのバージョンを用いる。 そこで本研究では,新しいテキストタイプへの適応時間を短縮するために,同様の結果を得るためにトリガーセットが大幅に小さくなることを示す。 依存関係解析(Stanford CoreNLPモデルに基づく)が優れた代替手段であるかどうか、両アプローチの可能性と欠点について詳しく説明する。

We describe our work on information extraction in medical documents written in German, especially detecting negations using an architecture based on the UIMA pipeline. Based on our previous work on software modules to cover medical concepts like diagnoses, examinations, etc. we employ a version of the NegEx regular expression algorithm with a large set of triggers as a baseline. We show how a significantly smaller trigger set is sufficient to achieve similar results, in order to reduce adaptation times to new text types. We elaborate on the question whether dependency parsing (based on the Stanford CoreNLP model) is a good alternative and describe the potentials and shortcomings of both approaches.
翻訳日:2021-05-21 13:38:47 公開日:2021-05-20
# O($n^3$)時間複雑度における頭部駆動句構造解析

Head-driven Phrase Structure Parsing in O($n^3$) Time Complexity ( http://arxiv.org/abs/2105.09835v1 )

ライセンス: Link先を確認
Zuchao Li, Junru Zhou, Hai Zhao, Kevin Parnow(参考訳) 古典的な構文解析の2つの形式である構成的および依存的解析は、統一形式主義(HPSG)の下での共同訓練と復号化の恩恵を受けている。 しかし、この統一文法のデコーディングは、デコーディング中に多くの要素を考慮する必要があるため、個別の形式(o(n^3)$)よりも時間的複雑性(o(n^5)$)が高い。 そこで我々は,新しい性能保存型パーサを$O$($n^3$)時間で実現するための改良されたヘッドスコアラを提案する。 さらに,本提案した実用HPSGパーサに基づき,HPSGに基づくパーサの強みについて検討し,多言語シナリオにおける構成的あるいは依存的アノテーションのみからHPSGベースのパーサをトレーニングする一般的な方法を検討した。 そこで我々は,HPSG解析において,より効果的で,より奥深く,汎用的な研究を行っている。

Constituent and dependency parsing, the two classic forms of syntactic parsing, have been found to benefit from joint training and decoding under a uniform formalism, Head-driven Phrase Structure Grammar (HPSG). However, decoding this unified grammar has a higher time complexity ($O(n^5)$) than decoding either form individually ($O(n^3)$) since more factors have to be considered during decoding. We thus propose an improved head scorer that helps achieve a novel performance-preserve d parser in $O$($n^3$) time complexity. Furthermore, on the basis of this proposed practical HPSG parser, we investigated the strengths of HPSG-based parsing and explored the general method of training an HPSG-based parser from only a constituent or dependency annotations in a multilingual scenario. We thus present a more effective, more in-depth, and general work on HPSG parsing.
翻訳日:2021-05-21 13:38:35 公開日:2021-05-20
# 統一信用評価のためのフェデレーション人工知能

Federated Artificial Intelligence for Unified Credit Assessment ( http://arxiv.org/abs/2105.09484v1 )

ライセンス: Link先を確認
Minh-Duc Hoang, Linh Le, Anh-Tuan Nguyen, Trang Le and Hoang D. Nguyen(参考訳) インターネット技術が急速に普及するにつれて、デジタルトランスフォーメーションにおいて金融産業に革命を起こすためのデジタルフットプリントがユビキタスかつ多用途になってきた。 本稿では,連合型人工知能(federated artificial intelligence)を用いて,統合信用評価の新しいパラダイムを検討する。 我々は、社会的、文脈的、経済的、技術的次元からなるデジタル人間表現を概念化し、銀行と銀行の双方の商業的信用と社会的評価を評価する。 フェデレートされた人工知能プラットフォームは、効率的かつ効果的なクレジットスコアリングのためのシステム設計の包括的セットで提案されている。 この研究は、金融インテリジェンスと社会コンピューティングの累積的な発展に大きく貢献している。 また、学術機関、実践者、金融技術の開発者にも多くの影響をもたらしている。

With the rapid adoption of Internet technologies, digital footprints have become ubiquitous and versatile to revolutionise the financial industry in digital transformation. This paper takes initiatives to investigate a new paradigm of the unified credit assessment with the use of federated artificial intelligence. We conceptualised digital human representation which consists of social, contextual, financial and technological dimensions to assess the commercial creditworthiness and social reputation of both banked and unbanked individuals. A federated artificial intelligence platform is proposed with a comprehensive set of system design for efficient and effective credit scoring. The study considerably contributes to the cumulative development of financial intelligence and social computing. It also provides a number of implications for academic bodies, practitioners, and developers of financial technologies.
翻訳日:2021-05-21 13:38:16 公開日:2021-05-20
# ディープニューラルネットワークを用いた社会的行動理解 : ソーシャルインテリジェンスシステムの開発

Social Behaviour Understanding using Deep Neural Networks: Development of Social Intelligence Systems ( http://arxiv.org/abs/2105.09489v1 )

ライセンス: Link先を確認
Ethan Lim Ding Feng, Zhi-Wei Neo, Aaron William De Silva, Kellie Sim, Hong-Ray Tan, Thi-Thanh Nguyen, Karen Wei Ling Koh, Wenru Wang and Hoang D. Nguyen(参考訳) 人工知能の急速な発展とともに、社会コンピューティングは社会情報学から社会情報システム誕生へと進化してきた。 そこで本稿では,深層ニューラルネットワークを用いた社会的行動理解フレームワークを提案する。 情報融合、人物と物体の検知、社会的シグナル理解、行動理解、文脈理解の統合は、社会的行動を引き出すための調和的な役割を果たす。 抑うつ検出、活動認識、認知障害スクリーニングを含む3つのシステムは、社会的知性の重要性を明確に示すために開発された。 この研究は、社会コンピューティングと健康情報学の累積発展に大きく貢献している。 また、学術機関、医療従事者、社会的に知的なエージェントの開発者にも多くの意味を与えている。

With the rapid development in artificial intelligence, social computing has evolved beyond social informatics toward the birth of social intelligence systems. This paper, therefore, takes initiatives to propose a social behaviour understanding framework with the use of deep neural networks for social and behavioural analysis. The integration of information fusion, person and object detection, social signal understanding, behaviour understanding, and context understanding plays a harmonious role to elicit social behaviours. Three systems, including depression detection, activity recognition and cognitive impairment screening, are developed to evidently demonstrate the importance of social intelligence. The study considerably contributes to the cumulative development of social computing and health informatics. It also provides a number of implications for academic bodies, healthcare practitioners, and developers of socially intelligent agents.
翻訳日:2021-05-21 13:38:04 公開日:2021-05-20
# 逆強化学習による客観的交通シミュレーション

Objective-aware Traffic Simulation via Inverse Reinforcement Learning ( http://arxiv.org/abs/2105.09560v1 )

ライセンス: Link先を確認
Guanjie Zheng, Hanyang Liu, Kai Xu, Zhenhui Li(参考訳) 交通シミュレーターは交通システムの運用と計画に不可欠な要素である。 従来の交通シミュレータは通常、車両の挙動と交通環境との相互作用を記述するために、キャリブレーションされた車追従モデルを使用する。 しかし、異なる状況における車両の行動パターンを正確に予測できる普遍的な物理モデルは存在しない。 固定物理モデルは、交通力学の非定常的性質を考えると、複雑な環境では効果が低い傾向にある。 本稿では,逆強化学習問題として交通シミュレーションを定式化し,動的ロバストシミュレーション学習のためのパラメータ共有逆強化学習モデルを提案する。 提案モデルでは,車両の軌道を実世界で模倣すると同時に,車両の真の目的が異なる動特性に不変であることを示す報酬関数を再現する。 合成データと実世界のデータセットに関する広範な実験は、最先端の手法と比較して優れた性能を示し、トラフィックの変動ダイナミクスに対する堅牢性を示している。

Traffic simulators act as an essential component in the operating and planning of transportation systems. Conventional traffic simulators usually employ a calibrated physical car-following model to describe vehicles' behaviors and their interactions with traffic environment. However, there is no universal physical model that can accurately predict the pattern of vehicle's behaviors in different situations. A fixed physical model tends to be less effective in a complicated environment given the non-stationary nature of traffic dynamics. In this paper, we formulate traffic simulation as an inverse reinforcement learning problem, and propose a parameter sharing adversarial inverse reinforcement learning model for dynamics-robust simulation learning. Our proposed model is able to imitate a vehicle's trajectories in the real world while simultaneously recovering the reward function that reveals the vehicle's true objective which is invariant to different dynamics. Extensive experiments on synthetic and real-world datasets show the superior performance of our approach compared to state-of-the-art methods and its robustness to variant dynamics of traffic.
翻訳日:2021-05-21 13:37:53 公開日:2021-05-20
# BigCQ: SPARQL-OWLクエリテンプレートに形式化された有能な質問パターンの大規模合成データセット

BigCQ: A large-scale synthetic dataset of competency question patterns formalized into SPARQL-OWL query templates ( http://arxiv.org/abs/2105.09574v1 )

ライセンス: Link先を確認
Dawid Wi\'sniewski and J\k{e}drzej Potoniec and Agnieszka {\L}awrynowicz(参考訳) コンピテンシー質問 (CQ) は、多くのオントロジー工学手法において、要求を収集し、構築中のオントロジーの完全性と正確性を追跡するために用いられる。 オントロジー工学手法によってしばしば提案されるが、CQの公開データセットとオントロジークエリ言語での形式化は非常に少ない。 CQを利用したプロセスを自動化するための最初の取り組みが作成されているため、これらのソリューションを促進するために、大規模で多様なデータセットを提供することが重要である。 本稿では,CQテンプレートの最大データセットであるBigCQをSPARQL-OWLクエリテンプレートに形式化する。 BigCQは頻繁に使用される公理形状のデータセットから自動的に生成される。 これらのCQテンプレートとクエリテンプレートのペアは、与えられたオントロジーのリソースラベルとIRIで満たされた場合、実際のCQとSPARQL-OWLクエリとして実現される。 データセットを詳細に記述し、データセットの作成に繋がるプロセスの説明と、データセットが実際の例をどのようにカバーしているかを分析する。 また、データセットと公理形をcqパターンとsparql-owlテンプレートのペアに変換するスクリプトを公開して、エンジニアが特定のニーズにプロセスを適応できるようにしています。

Competency Questions (CQs) are used in many ontology engineering methodologies to collect requirements and track the completeness and correctness of an ontology being constructed. Although they are frequently suggested by ontology engineering methodologies, the publicly available datasets of CQs and their formalizations in ontology query languages are very scarce. Since first efforts to automate processes utilizing CQs are being made, it is of high importance to provide large and diverse datasets to fuel these solutions. In this paper, we present BigCQ, the biggest dataset of CQ templates with their formalizations into SPARQL-OWL query templates. BigCQ is created automatically from a dataset of frequently used axiom shapes. These pairs of CQ templates and query templates can be then materialized as actual CQs and SPARQL-OWL queries if filled with resource labels and IRIs from a given ontology. We describe the dataset in detail, provide a description of the process leading to the creation of the dataset and analyze how well the dataset covers real-world examples. We also publish the dataset as well as scripts transforming axiom shapes into pairs of CQ patterns and SPARQL-OWL templates, to make engineers able to adapt the process to their particular needs.
翻訳日:2021-05-21 13:37:36 公開日:2021-05-20
# 説明可能なAIアルゴリズムの分類精度の評価

Evaluating the Correctness of Explainable AI Algorithms for Classification ( http://arxiv.org/abs/2105.09740v1 )

ライセンス: Link先を確認
Orcun Yalcin, Xiuyi Fan, Siyuan Liu(参考訳) 説明可能なAIは近年,予測において"機能の重要性"を計算する機能属性アルゴリズムによって,研究の注目を集めている。 しかし、既存のデータセットにその正確性を検証する「根拠真理」がないため、これらのアルゴリズムの有効性についてはほとんど分析されていない。 本研究では,既知の説明的根拠を持つデータセットを作成し,xaiアルゴリズムの正しさを定量的に評価する手法を開発した。 この目的のために、二項分類問題に焦点を当てる。 文字列データセットは文法から派生した形式言語を用いて構築される。 文字列が正であることと、ある性質が満たされているときのみである。 正弦における説明基底真理として機能する記号は、それらがその性質を満たすことに貢献した場合に限り説明の一部である。 提案実験では,(1)分類精度は説明精度と正に相関していること,(2) SHAPはLIMEよりも正確な説明を提供すること,(3) 説明精度はデータセットの複雑さと負に相関していること,の2つの特徴説明器,LIME(Local Interpretable Model-Anostic Explanations) とSHAP(SHAP) が用いられている。

Explainable AI has attracted much research attention in recent years with feature attribution algorithms, which compute "feature importance" in predictions, becoming increasingly popular. However, there is little analysis of the validity of these algorithms as there is no "ground truth" in the existing datasets to validate their correctness. In this work, we develop a method to quantitatively evaluate the correctness of XAI algorithms by creating datasets with known explanation ground truth. To this end, we focus on the binary classification problems. String datasets are constructed using formal language derived from a grammar. A string is positive if and only if a certain property is fulfilled. Symbols serving as explanation ground truth in a positive string are part of an explanation if and only if they contributes to fulfilling the property. Two popular feature attribution explainers, Local Interpretable Model-agnostic Explanations (LIME) and SHapley Additive exPlanations (SHAP), are used in our experiments.We show that: (1) classification accuracy is positively correlated with explanation accuracy; (2) SHAP provides more accurate explanations than LIME; (3) explanation accuracy is negatively correlated with dataset complexity.
翻訳日:2021-05-21 13:37:13 公開日:2021-05-20
# CREAD:対話における楕円とアナフォラの複合分解能

CREAD: Combined Resolution of Ellipses and Anaphora in Dialogues ( http://arxiv.org/abs/2105.09914v1 )

ライセンス: Link先を確認
Bo-Hsiang Tseng, Shruti Bhargava, Jiarui Lu, Joel Ruben Antony Moniz, Dhivya Piraviperumal, Lin Li, Hong Yu(参考訳) アナフォラと楕円は対話において2つの一般的な現象である。 参照表現や情報の欠落を解決しなければ、対話システムは一貫性と一貫性のある応答を生成することができない。 伝統的に、アナフォラはコア参照解決とクエリ書き換えによる楕円によって解決される。 本稿では,複雑な複数ターン対話理解のためのコリファレンス解決とクエリ書き換えをモデル化する,新しい共同学習フレームワークを提案する。 ユーザと対話アシスタントの対話が進行中であることを条件として,私たちの共同学習モデルはまず,クエリと対話コンテキストのコア参照リンクを予測し,自己完結したユーザクエリを生成する。 本モデルを評価するために,対話ベースのコア参照解決データセットである MuDoCo を書き換えたクエリでアノテートする。 その結果、コア参照モデリングの助けを借りて、クエリ書き換えの性能を大幅に向上できる(+2.3% F1)。 さらに,本モデルでは,このデータセットにおける最先端のコリファレンス解像度モデル (+2% f1) を上回っている。

Anaphora and ellipses are two common phenomena in dialogues. Without resolving referring expressions and information omission, dialogue systems may fail to generate consistent and coherent responses. Traditionally, anaphora is resolved by coreference resolution and ellipses by query rewrite. In this work, we propose a novel joint learning framework of modeling coreference resolution and query rewriting for complex, multi-turn dialogue understanding. Given an ongoing dialogue between a user and a dialogue assistant, for the user query, our joint learning model first predicts coreference links between the query and the dialogue context, and then generates a self-contained rewritten user query. To evaluate our model, we annotate a dialogue based coreference resolution dataset, MuDoCo, with rewritten queries. Results show that the performance of query rewrite can be substantially boosted (+2.3% F1) with the aid of coreference modeling. Furthermore, our joint model outperforms the state-of-the-art coreference resolution model (+2% F1) on this dataset.
翻訳日:2021-05-21 13:36:52 公開日:2021-05-20
# フォーミングを伴わない一般化Few-Shotオブジェクト検出

Generalized Few-Shot Object Detection without Forgetting ( http://arxiv.org/abs/2105.09491v1 )

ライセンス: Link先を確認
Zhibo Fan, Yuchen Ma, Zeming Li, Jian Sun(参考訳) 近年,データ制限状況に対処するために,ショット物体検出が広く採用されている。 これまでのほとんどの研究は、数ショットのカテゴリのパフォーマンスにのみ焦点を当てているが、テストサンプルが現実的なアプリケーションにインスタンスを含む可能性があるため、すべてのクラスを検出することは重要である、と我々は主張する。 転写学習に基づく解析により、いくつかの無視されているが有益な性質を利用して、単純で効果的な少数ショット検出器Retentive R-CNNを設計する。 Bias-Balanced RPN は、事前訓練された RPN と Re-detector からなり、過去の知識を忘れずに、ほとんどショットのクラスオブジェクトを見つける。 少数ショット検出ベンチマークの広範囲な実験により、r-cnnは、少数ショットクラスでの競争結果を達成でき、ベースクラスのパフォーマンスを全く低下させないため、すべての設定において最先端のメソッドを著しく上回っていることが示されている。 我々のアプローチは、長年望まれていなかった学習者がオブジェクト検出で利用できることを示した。

Recently few-shot object detection is widely adopted to deal with data-limited situations. While most previous works merely focus on the performance on few-shot categories, we claim that detecting all classes is crucial as test samples may contain any instances in realistic applications, which requires the few-shot detector to learn new concepts without forgetting. Through analysis on transfer learning based methods, some neglected but beneficial properties are utilized to design a simple yet effective few-shot detector, Retentive R-CNN. It consists of Bias-Balanced RPN to debias the pretrained RPN and Re-detector to find few-shot class objects without forgetting previous knowledge. Extensive experiments on few-shot detection benchmarks show that Retentive R-CNN significantly outperforms state-of-the-art methods on overall performance among all settings as it can achieve competitive results on few-shot classes and does not degrade the base class performance at all. Our approach has demonstrated that the long desired never-forgetting learner is available in object detection.
翻訳日:2021-05-21 13:35:54 公開日:2021-05-20
# Egocentric Activity Recognition and Localization on a 3D Map

Egocentric Activity Recognition and Localization on a 3D Map ( http://arxiv.org/abs/2105.09544v1 )

ライセンス: Link先を確認
Miao Liu, Lingni Ma, Kiran Somasundaram, Yin Li, Kristen Grauman, James M. Rehg and Chao Li(参考訳) 初対面から撮影した映像が身近な環境で記録されている場合、その人が何をしているかを認識して、そのアクションが3D空間で起きているかを特定できますか? 自発的ビデオから既知の3dマップ上でモバイルユーザのアクションを認識・ローカライズするという,この課題に対処する。 そこで本研究では,新しい深部確率モデルを提案する。 本モデルは,環境の階層的ボリューム表現(hvr)とエゴセントリックビデオの入力を受け取り,その3次元動作位置を潜在変数として推定し,その潜在位置を取り巻く映像と文脈的手がかりに基づいて動作を認識する。 本モデルを評価するために,新たに収集したエゴセントリックなビデオデータセットを用いて,人間の自然主義行動と写真リアルな3D環境再構築の両方を捉える実験を行った。 本手法は,視認環境および視認環境における行動認識と3次元行動定位の両方において強い結果を示す。 私たちは、エゴセントリックな視覚の交差と3Dシーン理解におけるエキサイティングな研究方向を示していると信じています。

Given a video captured from a first person perspective and recorded in a familiar environment, can we recognize what the person is doing and identify where the action occurs in the 3D space? We address this challenging problem of jointly recognizing and localizing actions of a mobile user on a known 3D map from egocentric videos. To this end, we propose a novel deep probabilistic model. Our model takes the inputs of a Hierarchical Volumetric Representation (HVR) of the environment and an egocentric video, infers the 3D action location as a latent variable, and recognizes the action based on the video and contextual cues surrounding its potential locations. To evaluate our model, we conduct extensive experiments on a newly collected egocentric video dataset, in which both human naturalistic actions and photo-realistic 3D environment reconstructions are captured. Our method demonstrates strong results on both action recognition and 3D action localization across seen and unseen environments. We believe our work points to an exciting research direction in the intersection of egocentric vision, and 3D scene understanding.
翻訳日:2021-05-21 13:35:32 公開日:2021-05-20
# 医療画像の教師なし登録のための低ランク表現

A low-rank representation for unsupervised registration of medical images ( http://arxiv.org/abs/2105.09548v1 )

ライセンス: Link先を確認
Dengqiang Jia, Shangqi Gao, Qunlong Chen, Xinzhe Luo, Xiahai Zhuang(参考訳) 登録ネットワークは医療画像解析において大きな応用可能性を示している。 しかし、教師付きトレーニング手法は、大規模で高品質なラベル付きデータセットに対する大きな需要があり、これはデータ共有の問題のために時間がかかり、時には実用的ではない。 教師なし画像登録アルゴリズムは、通常、手作業によるアノテーション無しの損失関数として強度に基づく類似度尺度を用いる。 これらの手法は, 学習中のネットワークパラメータの最適化により, 移動画像と固定画像の対間のパラメータ化変換を推定する。 しかし、画像の品質が変化した場合、例えば、いくつかの画像は大きなノイズやアーチファクトによって破損するなど、これらの手法は効果が低下する。 本稿では,この問題に取り組むために,低ランク表現(regnet-lrr)に基づく新しいアプローチを提案する。 ノイズのない低ランク空間にノイズ画像を投影し,画像間の類似度を計算する。 低ランク類似度尺度に基づいて登録ネットワークを訓練し,ノイズ画像対の濃厚変形場を予測した。 低ランクのプロジェクションは、登録ネットワークが勾配の更新を成功させるように再構成されていることを強調する。 心内モダリティ登録と腹部モダリティ登録という2つの課題により,低ランク表現はモデルの一般化能力と堅牢性を高め,ノイズの多いデータ登録シナリオにおいて大幅な改善をもたらすことを示した。

Registration networks have shown great application potentials in medical image analysis. However, supervised training methods have a great demand for large and high-quality labeled datasets, which is time-consuming and sometimes impractical due to data sharing issues. Unsupervised image registration algorithms commonly employ intensity-based similarity measures as loss functions without any manual annotations. These methods estimate the parameterized transformations between pairs of moving and fixed images through the optimization of the network parameters during training. However, these methods become less effective when the image quality varies, e.g., some images are corrupted by substantial noise or artifacts. In this work, we propose a novel approach based on a low-rank representation, i.e., Regnet-LRR, to tackle the problem. We project noisy images into a noise-free low-rank space, and then compute the similarity between the images. Based on the low-rank similarity measure, we train the registration network to predict the dense deformation fields of noisy image pairs. We highlight that the low-rank projection is reformulated in a way that the registration network can successfully update gradients. With two tasks, i.e., cardiac and abdominal intra-modality registration, we demonstrate that the low-rank representation can boost the generalization ability and robustness of models as well as bring significant improvements in noisy data registration scenarios.
翻訳日:2021-05-21 13:35:13 公開日:2021-05-20
# ニューラルネットワークのモデル内協調学習

Intra-Model Collaborative Learning of Neural Networks ( http://arxiv.org/abs/2105.09590v1 )

ライセンス: Link先を確認
Shijie Fang, Tong Lin(参考訳) 近年,songとchaiによるコラボレーティブラーニングにより,複数の分類器頭を同時に訓練することで画像分類タスクが大幅に改善されている。 しかし、このようなマルチヘッド構造に必要な巨大なメモリフットプリントは、大容量のベースラインモデルのトレーニングを妨げる可能性がある。 自然な質問は、モジュールを複製せずに単一のネットワーク内で協調学習を実現する方法だ。 本稿では,1つのネットワークの異なる部分間での協調学習の4つの方法を提案する。 ネットワークのロバスト性を向上させるため,協調学習フレームワークの下では,出力層と中間層の一貫性をトレーニングに活用する。 さらに、中間表現と畳み込みカーネルの類似性も導入され、ニューラルネットワークの冗長性を低減できる。 songとchaiの方法と比較して、このフレームワークは単一モデル内のコラボレーションをさらに考慮し、オーバーヘッドを小さくします。 cifar-10、cifar-100、imagenet32、stl-10の広範な実験は、これら4つの方法の有効性を分離し、それらを組み合わせることでさらなる改善をもたらす。 特に、STL-10データセットのテストエラーは、それぞれResNet-18とVGG-16の9.28\%$と5.45\%$に減少する。 また,cifar-10データセットを用いた実験により,ノイズのラベル付けにロバストであることが証明された。 例えば、この方法では、50ドル$ノイズ比設定で3.53ドル高いパフォーマンスが得られます。

Recently, collaborative learning proposed by Song and Chai has achieved remarkable improvements in image classification tasks by simultaneously training multiple classifier heads. However, huge memory footprints required by such multi-head structures may hinder the training of large-capacity baseline models. The natural question is how to achieve collaborative learning within a single network without duplicating any modules. In this paper, we propose four ways of collaborative learning among different parts of a single network with negligible engineering efforts. To improve the robustness of the network, we leverage the consistency of the output layer and intermediate layers for training under the collaborative learning framework. Besides, the similarity of intermediate representation and convolution kernel is also introduced to reduce the reduce redundant in a neural network. Compared to the method of Song and Chai, our framework further considers the collaboration inside a single model and takes smaller overhead. Extensive experiments on Cifar-10, Cifar-100, ImageNet32 and STL-10 corroborate the effectiveness of these four ways separately while combining them leads to further improvements. In particular, test errors on the STL-10 dataset are decreased by $9.28\%$ and $5.45\%$ for ResNet-18 and VGG-16 respectively. Moreover, our method is proven to be robust to label noise with experiments on Cifar-10 dataset. For example, our method has $3.53\%$ higher performance under $50\%$ noise ratio setting.
翻訳日:2021-05-21 13:34:53 公開日:2021-05-20
# 単なる注意以上のもの:コントラスト制約による横断的注意の学習

More Than Just Attention: Learning Cross-Modal Attentions with Contrastive Constraints ( http://arxiv.org/abs/2105.09597v1 )

ライセンス: Link先を確認
Yuxiao Chen, Jianbo Yuan, Long Zhao, Rui Luo, Larry Davis, Dimitris N. Metaxas(参考訳) 注意機構は画像キャプションや情報検索などのクロスモーダルなタスクに広く適用されており、様々なモダリティ間の微妙な関係を学習する能力により、目覚ましい改善を遂げている。 しかし、既存の注意モデルは準最適であり、訓練中に直接の監督が伴わないため正確性に欠ける可能性がある。 本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。 これらの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。 さらに,注意の質を定量的に評価するために,注意精度,リコール,F1スコアの3つの指標を導入する。 提案する制約をクロスモーダル検索(画像テキストマッチング)タスクで評価する。 Flickr30kとMS-COCOのデータセットでの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、精度と注意度の両方の観点からモデルのパフォーマンスが向上することを示した。

Attention mechanisms have been widely applied to cross-modal tasks such as image captioning and information retrieval, and have achieved remarkable improvements due to its capability to learn fine-grained relevance across different modalities. However, existing attention models could be sub-optimal and lack preciseness because there is no direct supervision involved during training. In this work, we propose Contrastive Content Re-sourcing (CCR) and Contrastive Content Swapping (CCS) constraints to address such limitation. These constraints supervise the training of attention models in a contrastive learning manner without requiring explicit attention annotations. Additionally, we introduce three metrics, namely Attention Precision, Recall and F1-Score, to quantitatively evaluate the attention quality. We evaluate the proposed constraints with cross-modal retrieval (image-text matching) task. The experiments on both Flickr30k and MS-COCO datasets demonstrate that integrating these attention constraints into two state-of-the-art attention-based models improves the model performance in terms of both retrieval accuracy and attention metrics.
翻訳日:2021-05-21 13:34:35 公開日:2021-05-20
# 高速画像超解像のためのコンテンツ適応表現学習

Content-adaptive Representation Learning for Fast Image Super-resolution ( http://arxiv.org/abs/2105.09645v1 )

ライセンス: Link先を確認
Yukai Shi, Jinghui Qin(参考訳) 深層畳み込みネットワークは画像修復と拡張に大きな注目を集めている。 一般に、より多くの畳み込みブロックを構築することにより、修復品質が向上した。 しかし、これらの手法は主に全ての画像を扱うための特定のモデルを学び、困難さの多様性を無視する。 言い換えると、高頻度の画像の領域は圧縮中により多くの情報を失う傾向があり、低周波数の領域は低くなる傾向があります。 本稿では,パッチワイド・ローリング・ネットワーク(PRN)をコンテント順応性のある画像に組み込むことで,画像SRの効率性の問題に対処する。 難易度を無視する既存の研究とは対照的に、ニューラルネットワークの異なる段階を採用して画像復元を行う。 さらに,各ステージのパラメータをより柔軟に活用するローリング戦略を提案する。 広範な実験により,本モデルが著しい加速を示すだけでなく,最先端の性能を維持することを実証した。

Deep convolutional networks have attracted great attention in image restoration and enhancement. Generally, restoration quality has been improved by building more and more convolutional block. However, these methods mostly learn a specific model to handle all images and ignore difficulty diversity. In other words, an area in the image with high frequency tend to lose more information during compressing while an area with low frequency tends to lose less. In this article, we adrress the efficiency issue in image SR by incorporating a patch-wise rolling network(PRN) to content-adaptively recover images according to difficulty levels. In contrast to existing studies that ignore difficulty diversity, we adopt different stage of a neural network to perform image restoration. In addition, we propose a rolling strategy that utilizes the parameters of each stage more flexible. Extensive experiments demonstrate that our model not only shows a significant acceleration but also maintain state-of-the-art performance.
翻訳日:2021-05-21 13:34:17 公開日:2021-05-20
# 自己監督的移動色分け学習とグローバル事前分類による集団カウント

Crowd Counting by Self-supervised Transfer Colorization Learning and Global Prior Classification ( http://arxiv.org/abs/2105.09684v1 )

ライセンス: Link先を確認
Haoyue Bai, Song Wen, S.-H. Gary Chan(参考訳) ラベル付き群衆シーン画像は高価で不足しています。 ラベル付き画像の必要量を大幅に削減するために,自己教師付き転送色化学習とグローバル事前分類を組み合わせた新しいcnnベースのアプローチであるcolorcountを提案する。 自己教師付きカラー化ブランチは、そのカラー成分を擬似ラベルとして、画像のセマンティクスと表面テクスチャを学習する。 分類部は、画像クラスタ間での学習相関により、グローバルグループ先行を抽出する。 それらの融合した識別的特徴(言語前駆体、意味論、テクスチャ)はカウントに十分な事前情報を提供し、ラベル付き画像の要求を大幅に低減する。 4つの挑戦的なベンチマークで広範な実験を行う。 ColorCountは他の教師なしのアプローチと比べてはるかに優れたパフォーマンスを実現している。 その性能は教師付きベースラインに近いが、ラベル付きデータはかなり少ない(元のデータのうち10倍)。

Labeled crowd scene images are expensive and scarce. To significantly reduce the requirement of the labeled images, we propose ColorCount, a novel CNN-based approach by combining self-supervised transfer colorization learning and global prior classification to leverage the abundantly available unlabeled data. The self-supervised colorization branch learns the semantics and surface texture of the image by using its color components as pseudo labels. The classification branch extracts global group priors by learning correlations among image clusters. Their fused resultant discriminative features (global priors, semantics and textures) provide ample priors for counting, hence significantly reducing the requirement of labeled images. We conduct extensive experiments on four challenging benchmarks. ColorCount achieves much better performance as compared with other unsupervised approaches. Its performance is close to the supervised baseline with substantially less labeled data (10\% of the original one).
翻訳日:2021-05-21 13:34:04 公開日:2021-05-20
# AIシティチャレンジにおける車両再同定の実証的研究

An Empirical Study of Vehicle Re-Identification on the AI City Challenge ( http://arxiv.org/abs/2105.09701v1 )

ライセンス: Link先を確認
Hao Luo, Weihua Chen, Xianzhe Xu, Jianyang Gu, Yuqi Zhang, Chong Liu, Yiqi Jiang, Shuting He, Fan Wang, Hao Li(参考訳) 本稿では,AI City Challenge 2021 (AICITY21) におけるトラック2の解決策を紹介する。 Track2は、現実世界のデータと合成データの両方を扱う車両再識別(ReID)タスクである。 主に4つの点に焦点を合わせます トレーニングデータ、教師なしドメイン適応(UDA)トレーニング、後処理、モデルアンサンブルがこの課題に取り組みます。 1) トレーニングデータの切り抜きと合成データの使用は、モデルがより識別的特徴を学ぶのに役立ちます。 2) トレーニングセットに用量が現れないテストセットに新たなシナリオが存在するため, UDA法は課題において良好に機能する。 3) 画像・トラック検索, カメラ間融合などの後処理技術は, 最終性能を著しく向上させる。 (4)異なる表現の多様性を提供するcnnモデルとトランスベースモデルをアンサンブルする。 上記の手法により,最終的に0.7445のマップスコアを達成し,コンペティションで1位となった。 コードはhttps://github.com/m ichuanhaohao/AICITY2 021_Track2_DMTで公開されている。

This paper introduces our solution for the Track2 in AI City Challenge 2021 (AICITY21). The Track2 is a vehicle re-identification (ReID) task with both the real-world data and synthetic data. We mainly focus on four points, i.e. training data, unsupervised domain-adaptive (UDA) training, post-processing, model ensembling in this challenge. (1) Both cropping training data and using synthetic data can help the model learn more discriminative features. (2) Since there is a new scenario in the test set that dose not appear in the training set, UDA methods perform well in the challenge. (3) Post-processing techniques including re-ranking, image-to-track retrieval, inter-camera fusion, etc, significantly improve final performance. (4) We ensemble CNN-based models and transformer-based models which provide different representation diversity. With aforementioned techniques, our method finally achieves 0.7445 mAP score, yielding the first place in the competition. Codes are available at https://github.com/m ichuanhaohao/AICITY2 021_Track2_DMT.
翻訳日:2021-05-21 13:33:50 公開日:2021-05-20
# 人体運動予測のためのトラクター誘導型ニューラルネットワーク

An Attractor-Guided Neural Networks for Skeleton-Based Human Motion Prediction ( http://arxiv.org/abs/2105.09711v1 )

ライセンス: Link先を確認
Pengxiang Ding and Jianqin Yin(参考訳) 関節関係モデリングは人間の動作予測におけるキュリアルな要素である。 既存の手法のほとんどは、関節間の関係を構築するために骨格ベースのグラフを設計する傾向がある。 しかし、人間の運動のバランス特性を反映した全ての関節のグローバルな協調は、段階的かつ非同期に学習されるため、通常は弱められる。 したがって、最終的な予測運動は時々不自然である。 この問題に取り組むため,我々は,運動の時空間的特徴からバランスアトラクタ(ba)と呼ばれる媒体を学習し,新たな協調関係の構築に使用されるグローバルモーションの特徴を特徴付ける。 baを通して全ての関節は同期的に関連し、したがって全ての関節のグローバルな協調がより良く学習できる。 本稿では,AJRE (Attractor-Based Joint Relation Extractor) とMTDE (Multi-timescale Dynamics Extractor) を含むAttractor-Guided Neural Networkを提案する。 AJREは主にGCE(Global Coordination Extractor)とLIE(Local Interaction Extractor)を含んでいる。 前者はすべてのジョイントのグローバルな協調を示し、後者はジョイントペア間の局所的な相互作用を符号化する。 MTDEは、効率的な予測のために、原位置情報から動的情報を抽出するように設計されている。 大規模な実験の結果,提案手法はH3.6M, CMU-Mocap, 3DPWの短期および長期予測において, 最先端の手法よりも優れていた。

Joint relation modeling is a curial component in human motion prediction. Most existing methods tend to design skeletal-based graphs to build the relations among joints, where local interactions between joint pairs are well learned. However, the global coordination of all joints, which reflects human motion's balance property, is usually weakened because it is learned from part to whole progressively and asynchronously. Thus, the final predicted motions are sometimes unnatural. To tackle this issue, we learn a medium, called balance attractor (BA), from the spatiotemporal features of motion to characterize the global motion features, which is subsequently used to build new joint relations. Through the BA, all joints are related synchronously, and thus the global coordination of all joints can be better learned. Based on the BA, we propose our framework, referred to Attractor-Guided Neural Network, mainly including Attractor-Based Joint Relation Extractor (AJRE) and Multi-timescale Dynamics Extractor (MTDE). The AJRE mainly includes Global Coordination Extractor (GCE) and Local Interaction Extractor (LIE). The former presents the global coordination of all joints, and the latter encodes local interactions between joint pairs. The MTDE is designed to extract dynamic information from raw position information for effective prediction. Extensive experiments show that the proposed framework outperforms state-of-the-art methods in both short and long-term predictions in H3.6M, CMU-Mocap, and 3DPW.
翻訳日:2021-05-21 13:33:38 公開日:2021-05-20
# 弱教師付き身体的無拘束視線推定

Weakly-Supervised Physically Unconstrained Gaze Estimation ( http://arxiv.org/abs/2105.09803v1 )

ライセンス: Link先を確認
Rakshit Kothari, Shalini De Mello, Umar Iqbal, Wonmin Byeon, Seonwook Park, Jan Kautz(参考訳) 物理的に制約のない視線推定の大きな課題は、3次元視線アノテーションを用いたトレーニングデータを取得することである。 対照的に、制約のない環境での人間のインタラクションのビデオは豊富に利用可能であり、フレームレベルのアクティビティラベルでより簡単に注釈を付けることができる。 本研究では,人間のインタラクションのビデオから弱教師付き視線推定の未解決問題に取り組む。 我々は、人々がお互いを見つめる(LAEO)活動を行うときに、強い視線に関連する幾何学的制約が存在するという洞察を活用する。 LAEOラベルから実効的な3D視線監視を実現するために,特にタスク用に設計されたいくつかの新しい損失関数とともに,トレーニングアルゴリズムを提案する。 2つの大規模CMU-Panoptic と AVA-LAEO のアクティビティデータセットからの弱い監視により、(a) 半教師付き視線推定の精度と(b) 最先端の物理的に制約のないGaze360視線推定ベンチマークにおけるクロスドメイン一般化の大幅な改善を示す。 私たちはコードをhttps://github.com/n vlabs/weakly-supervi sed-gazeでオープンソースにしています。

A major challenge for physically unconstrained gaze estimation is acquiring training data with 3D gaze annotations for in-the-wild and outdoor scenarios. In contrast, videos of human interactions in unconstrained environments are abundantly available and can be much more easily annotated with frame-level activity labels. In this work, we tackle the previously unexplored problem of weakly-supervised gaze estimation from videos of human interactions. We leverage the insight that strong gaze-related geometric constraints exist when people perform the activity of "looking at each other" (LAEO). To acquire viable 3D gaze supervision from LAEO labels, we propose a training algorithm along with several novel loss functions especially designed for the task. With weak supervision from two large scale CMU-Panoptic and AVA-LAEO activity datasets, we show significant improvements in (a) the accuracy of semi-supervised gaze estimation and (b) cross-domain generalization on the state-of-the-art physically unconstrained in-the-wild Gaze360 gaze estimation benchmark. We open source our code at https://github.com/N Vlabs/weakly-supervi sed-gaze.
翻訳日:2021-05-21 13:33:12 公開日:2021-05-20
# M4Depth:ビデオシーケンス上の単眼深度推定のためのモーションベースアプローチ

M4Depth: A motion-based approach for monocular depth estimation on video sequences ( http://arxiv.org/abs/2105.09847v1 )

ライセンス: Link先を確認
Micha\"el Fonder and Damien Ernst and Marc Van Droogenbroeck(参考訳) 物体に近づくことは自動運転車にとって不可欠だ。 深度センサーが使用できない場合、rgbカメラからこの距離を推定する必要がある。 車とは対照的に、搭載されたカメラから深度を推定する作業は、飛行中の動きに制約がないため、ドローンでは複雑になる。 ドローンの場合、この作業はカメラの動きが制限されていないため、車載カメラよりもさらに複雑である。 本稿では,そのrgbビデオストリームとドローンの動き情報を用いて,搭載カメラで見る物体の距離を推定する手法を提案する。 本手法はピラミッド型畳み込みニューラルネットワークアーキテクチャ上に構築され,動きによる幾何的制約と組み合わせて時間繰り返しを用いて画素幅の深度マップを生成する。 %) で, ドローンに装着したカメラのrgbビデオストリームから, ピラミッドの各レベルは, ピラミッドの過去の観測値と過去のレベルから得られた情報に基づいて, それぞれの深さ推定値を生成するように設計されている。 空間的再投影層を導入し,各レベル間のデータの時空間的一貫性を維持する。 我々は,多種多様な非構造屋外環境において記録された合成ドローン軌跡を特徴とするドローンデータセットであるmid-airの性能解析を行った。 実験の結果,我々のネットワークは最先端の深度推定法よりも優れており,運動情報の利用が本改良の主な要因であることがわかった。 私たちのメソッドのコードはGitHubで公開されている。 $\href{https://github.com/m ichael-fonder/M4Dept h}{\text{https://github.com/m ichael-fonder/M4Dept h}}$

Getting the distance to objects is crucial for autonomous vehicles. In instances where depth sensors cannot be used, this distance has to be estimated from RGB cameras. As opposed to cars, the task of estimating depth from on-board mounted cameras is made complex on drones because of the lack of constrains on motion during flights. %In the case of drones, this task is even more complex than for car-mounted cameras since the camera motion is unconstrained. In this paper, we present a method to estimate the distance of objects seen by an on-board mounted camera by using its RGB video stream and drone motion information. Our method is built upon a pyramidal convolutional neural network architecture and uses time recurrence in pair with geometric constraints imposed by motion to produce pixel-wise depth maps. %from a RGB video stream of a camera attached to the drone In our architecture, each level of the pyramid is designed to produce its own depth estimate based on past observations and information provided by the previous level in the pyramid. We introduce a spatial reprojection layer to maintain the spatio-temporal consistency of the data between the levels. We analyse the performance of our approach on Mid-Air, a public drone dataset featuring synthetic drone trajectories recorded in a wide variety of unstructured outdoor environments. Our experiments show that our network outperforms state-of-the-art depth estimation methods and that the use of motion information is the main contributing factor for this improvement. The code of our method is publicly available on GitHub; see $\href{https://github.com/m ichael-fonder/M4Dept h}{\text{https://github.com/m ichael-fonder/M4Dept h}}$
翻訳日:2021-05-21 13:32:47 公開日:2021-05-20
# BodyPressure - 深部画像からの体球と接触圧の推測

BodyPressure -- Inferring Body Pose and Contact Pressure from a Depth Image ( http://arxiv.org/abs/2105.09936v1 )

ライセンス: Link先を確認
Henry M. Clever, Patrick Grady, Greg Turk, and Charles C. Kemp(参考訳) 人体とその周囲との接触圧は重要な意味を持つ。 例えば、快適、安全、姿勢、健康において重要な役割を果たしている。 深度画像から人体とマットレスとの接触圧力を推定する手法を提案する。 具体的には、下向きカメラからの奥行き画像を用いて、寝床の安静時の体に圧力をあてることに焦点をあて、医療における圧傷予防に直接適用する。 我々のアプローチでは、人体、マットレス、圧力感知マット、毛布のソフトボディ物理シミュレーションによって生成された合成データによって、実際のデータセットを増強する。 拡張データセット上でトレーニングし,実データを用いて評価する,新たなディープネットワークを提案する。 このネットワークは、組み込み人体メッシュモデルを含み、深さと圧力画像の生成のホワイトボックスモデルを使用する。 我々のネットワークはボディーポーズを推し進め、先行作業よりも優れています。 また、人体の3dメッシュモデルを通じて接触圧を推定するが、これは新しい能力であり、毛布からの閉塞の存在下でも同様である。

Contact pressure between the human body and its surroundings has important implications. For example, it plays a role in comfort, safety, posture, and health. We present a method that infers contact pressure between a human body and a mattress from a depth image. Specifically, we focus on using a depth image from a downward facing camera to infer pressure on a body at rest in bed occluded by bedding, which is directly applicable to the prevention of pressure injuries in healthcare. Our approach involves augmenting a real dataset with synthetic data generated via a soft-body physics simulation of a human body, a mattress, a pressure sensing mat, and a blanket. We introduce a novel deep network that we trained on an augmented dataset and evaluated with real data. The network contains an embedded human body mesh model and uses a white-box model of depth and pressure image generation. Our network successfully infers body pose, outperforming prior work. It also infers contact pressure across a 3D mesh model of the human body, which is a novel capability, and does so in the presence of occlusion from blankets.
翻訳日:2021-05-21 13:32:21 公開日:2021-05-20
# 文書内カスケード:ニューラル文書ランク付けのためのパスを選択する学習

Intra-Document Cascading: Learning to Select Passages for Neural Document Ranking ( http://arxiv.org/abs/2105.09816v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Bhaskar Mitra, Hamed Zamani, Nick Craswell, Allan Hanbury(参考訳) ニューラル文書における最先端の有効性を達成するための新しいレシピは、大きな事前訓練された言語モデル(例えばBERT)を利用することで、文書内の個々のパスを評価し、次にプールまたは追加のトランスフォーマー層によって出力を集約する。 このアプローチの大きな欠点は、BERTでドキュメントのすべてのパスを評価するコストのために、クエリレイテンシが高いことだ。 さらに悪いことに、この高い推論コストと遅延はドキュメントの長さによって異なり、長いドキュメントでは時間と計算時間を必要とする。 この課題に対処するために、我々は、より高価で効果的なスコアリングモデルを実行する前に、ESMと呼ばれる安価なモデルを用いて、候補文書のパスを抽出する文書内カスケード戦略を採用した。 我々は,EMM(Effective Teacher Model)の知識蒸留(例えばBERT)を通じて,ESM(Efficient Student Model)を訓練することが最善であることがわかった。 このプルーニングにより、文書の長さによってサイズが変化しない小さなパスセット上でのみETMモデルを実行できる。 MARCO と TREC Deep Learning Track のベンチマーク実験により,提案した文書内カスケードランキングモデル (IDCM) が,最先端の BERT ベースの文書ランキングモデルと基本的に同等の有効性を提供することにより,クエリレイテンシを 400% 以上低下させることが示唆された。

An emerging recipe for achieving state-of-the-art effectiveness in neural document re-ranking involves utilizing large pre-trained language models - e.g., BERT - to evaluate all individual passages in the document and then aggregating the outputs by pooling or additional Transformer layers. A major drawback of this approach is high query latency due to the cost of evaluating every passage in the document with BERT. To make matters worse, this high inference cost and latency varies based on the length of the document, with longer documents requiring more time and computation. To address this challenge, we adopt an intra-document cascading strategy, which prunes passages of a candidate document using a less expensive model, called ESM, before running a scoring model that is more expensive and effective, called ETM. We found it best to train ESM (short for Efficient Student Model) via knowledge distillation from the ETM (short for Effective Teacher Model) e.g., BERT. This pruning allows us to only run the ETM model on a smaller set of passages whose size does not vary by document length. Our experiments on the MS MARCO and TREC Deep Learning Track benchmarks suggest that the proposed Intra-Document Cascaded Ranking Model (IDCM) leads to over 400% lower query latency by providing essentially the same effectiveness as the state-of-the-art BERT-based document ranking models.
翻訳日:2021-05-21 13:32:04 公開日:2021-05-20
# コンピュータユーザーには、一貫したコンピュータ利用プロファイルがある

Computer Users Have Unique Yet Temporally Inconsistent Computer Usage Profiles ( http://arxiv.org/abs/2105.09900v1 )

ライセンス: Link先を確認
Luiz Giovanini, Fabr\'icio Ceschin, Mirela Silva, Aokun Chen, Ramchandra Kulkarni, Sanjay Banda, Madison Lysaght, Heng Qiao, Nikolaos Sapountzis, Ruimin Sun, Brandon Matthews, Dapeng Oliver Wu, Andr\'e Gr\'egio, Daniela Oliveira(参考訳) 本稿では,プロセス,ネットワーク,マウス,キーストローク関連イベントからなるコンピュータ使用プロファイルが,自然主義的な環境でユニークかつ時間的に一貫性のあるものであるかどうかを検証し,連続認証のアプリケーションにおいてこのようなプロファイルを使用する課題と機会について考察する。 8週間にわたり,28msのwindows 10コンピュータユーザから,生態学的に有意なコンピュータ利用プロファイルを収集し,オンラインおよびオフラインの多様な分類器を含む総合的な機械学習分析に適用した。 We found that (i) computer usage profiles have the potential to uniquely characterize computer users (with a maximum F-score of 99.94%); (ii) network-related events were the most useful features to properly recognize profiles (95.14% of the top features distinguishing users being network-related); (iii) user profiles were mostly inconsistent over the 8-week data collection period, with 92.86% of users exhibiting drifts in terms of time and usage habits; and (iv) online models are better suited to handle computer usage profiles compared to offline models (maximum F-score for each approach was 95.99% and 99.94%, respectively).

This paper investigates whether computer usage profiles comprised of process-, network-, mouse- and keystroke-related events are unique and temporally consistent in a naturalistic setting, discussing challenges and opportunities of using such profiles in applications of continuous authentication. We collected ecologically-valid computer usage profiles from 28 MS Windows 10 computer users over 8 weeks and submitted this data to comprehensive machine learning analysis involving a diverse set of online and offline classifiers. We found that (i) computer usage profiles have the potential to uniquely characterize computer users (with a maximum F-score of 99.94%); (ii) network-related events were the most useful features to properly recognize profiles (95.14% of the top features distinguishing users being network-related); (iii) user profiles were mostly inconsistent over the 8-week data collection period, with 92.86% of users exhibiting drifts in terms of time and usage habits; and (iv) online models are better suited to handle computer usage profiles compared to offline models (maximum F-score for each approach was 95.99% and 99.94%, respectively).
翻訳日:2021-05-21 13:30:41 公開日:2021-05-20
# 多言語文脈における糖尿病ケアのためのAIベースの会話エージェントの設計

Designing AI-based Conversational Agent for Diabetes Care in a Multilingual Context ( http://arxiv.org/abs/2105.09490v1 )

ライセンス: Link先を確認
Thuy-Trinh Nguyen, Kellie Sim, Anthony To Yiu Kuen, Ronald R. O'donnell, Suan Tee Lim, Wenru Wang and Hoang D. Nguyen(参考訳) 会話エージェント(CA)は、健康情報システムにおける新たな研究分野であり、タイムリーな情報と自然言語インタフェースを持つ患者に、大きな可能性を秘めている。 それにもかかわらず、医療分野全般においてcasの設計に関する規範的な知識を確立する試みは限定的であり、特に糖尿病の治療である。 本稿では,デザイン科学研究プロジェクトを実施し,既存のソリューションの限界に対処するために,ai(artificial intelligence)に着手する健康関連casを設計するための3つの設計原則を提案する。 さらに,提案する設計をインスタンス化し,自然発声アクセントのための最新技術を用いた糖尿病ケアのためのaiベースの多言語caであるamandaを開発した。 我々は,AMANDAの音声品質とユーザビリティを評価するために,平均意見スコアとシステムユーザビリティ尺度を用いた。 本稿では,糖尿病診療におけるCAs設計の青写真と,他の医療領域に拡張可能な具体的な設計ガイドラインを提供する。

Conversational agents (CAs) represent an emerging research field in health information systems, where there are great potentials in empowering patients with timely information and natural language interfaces. Nevertheless, there have been limited attempts in establishing prescriptive knowledge on designing CAs in the healthcare domain in general, and diabetes care specifically. In this paper, we conducted a Design Science Research project and proposed three design principles for designing health-related CAs that embark on artificial intelligence (AI) to address the limitations of existing solutions. Further, we instantiated the proposed design and developed AMANDA - an AI-based multilingual CA in diabetes care with state-of-the-art technologies for natural-sounding localised accent. We employed mean opinion scores and system usability scale to evaluate AMANDA's speech quality and usability, respectively. This paper provides practitioners with a blueprint for designing CAs in diabetes care with concrete design guidelines that can be extended into other healthcare domains.
翻訳日:2021-05-21 13:29:47 公開日:2021-05-20
# ロボットにおける社会感情の調査と展望

Survey and Perspective on Social Emotions in Robotics ( http://arxiv.org/abs/2105.09647v1 )

ライセンス: Link先を確認
Chie Hieida and Takayuki Nagai(参考訳) 本研究はロボット工学における社会的感情に関する研究を概観する。 ロボット工学では、感情は、その背後にある基本的なメカニズムの認識、表現、計算モデリングなど、長期にわたって追求される。 カテゴリー理論や次元理論など、よく知られた心理学的知見に従って研究が進められている。 多くの研究はこれらの基本的な理論に基づいており、基本的な感情のみを扱っている。 しかし、社会的感情(高水準感情とも呼ばれる)は心理学で研究されている。 これらの高いレベルの感情は、次世代の社会認識ロボットのためのロボット工学を追求する価値があると考えています。 本稿では,心理学と神経科学における社会感情の知見を要約しながら,ロボット工学における社会感情の研究について概説する。 その後、ロボットにおける社会感情の実装に向けた研究の方向性について論じる。

This study reviews research on social emotions in robotics. In robotics, emotions are pursued for a long duration, such as recognition, expression, and computational modeling of the basic mechanism behind them. Research has been promoted according to well-known psychological findings, such as category and dimension theories. Many studies have been based on these basic theories, addressing only basic emotions. However, social emotions, also called higher-level emotions, have been studied in psychology. We believe that these higher-level emotions are worth pursuing in robotics for next-generation social-aware robots. In this review paper, while summarizing the findings of social emotions in psychology and neuroscience, studies on social emotions in robotics at present are surveyed. Thereafter, research directions towards implementation of social emotions in robots are discussed.
翻訳日:2021-05-21 13:29:33 公開日:2021-05-20
# 視覚型ロボットのための効率的な強化学習パイプラインの試作

Towards a Sample Efficient Reinforcement Learning Pipeline for Vision Based Robotics ( http://arxiv.org/abs/2105.09719v1 )

ライセンス: Link先を確認
Maxence Mahe, Pierre Belamri, Jesus Bujalance Martin(参考訳) 深層強化学習は、人間の仲介を無視できる膨大な行動能力のコレクションを習得する自己学習ロボットの権限を保証している。 この技術によってもたらされる改善により、ロボットはターゲットをつかむ、到達するといった難しいタスクを実行できる。 それでも、トレーニングプロセスは、特にRGBカメラ情報のみでの学習ポリシーでは、時間がかかり、面倒です。 この学習方法は,実生活におけるロボットの外部情報源はビデオのみであるため,シミュレーションから実世界へタスクを移すことが重要である。 本稿では,6自由度(dof)のロボットアームのトレーニングに要する時間を,可能な限り効率的にパイプラインを組み立てることで,スクラッチからボールに到達できる時間を制限する方法について検討する。 パイプラインは2つの部分に分けられる: 1つ目は、コンピュータビジョンアルゴリズムを用いてrgbビデオから関連する情報をキャプチャする。 2つめは、ロボットアームを目の前の目標に到達させるために、深層強化学習アルゴリズムを高速にトレーニングする方法である。 url{https://drive.google .com/drive/folders/1 _lrldsopzd_gtcvrxnip 10o_lm-_dpdn?usp=shareing}

Deep Reinforcement learning holds the guarantee of empowering self-ruling robots to master enormous collections of conduct abilities with negligible human mediation. The improvements brought by this technique enables robots to perform difficult tasks such as grabbing or reaching targets. Nevertheless, the training process is still time consuming and tedious especially when learning policies only with RGB camera information. This way of learning is capital to transfer the task from simulation to the real world since the only external source of information for the robot in real life is video. In this paper, we study how to limit the time taken for training a robotic arm with 6 Degrees Of Freedom (DOF) to reach a ball from scratch by assembling a pipeline as efficient as possible. The pipeline is divided into two parts: the first one is to capture the relevant information from the RGB video with a Computer Vision algorithm. The second one studies how to train faster a Deep Reinforcement Learning algorithm in order to make the robotic arm reach the target in front of him. Follow this link to find videos and plots in higher resolution: \url{https://drive.google .com/drive/folders/1 _lRlDSoPzd_GTcVrxNip 10o_lm-_DPdn?usp=sharing}
翻訳日:2021-05-21 13:29:23 公開日:2021-05-20
# 仮想ミラーリングが顧客満足度に及ぼす影響

The impact of virtual mirroring on customer satisfaction ( http://arxiv.org/abs/2105.09571v1 )

ライセンス: Link先を確認
P. Gloor, A. Fronzetti Colladon, G. Giacomelli, T. Saran, F. Grippa(参考訳) 本研究では,従業員の自己反映を促進し,顧客満足度に影響を及ぼす「仮想ミラーリング」という新しい手法の効果について検討する。 この手法は、ソーシャルネットワークや意味分析を通じてコミュニケーションパターンを測定し、それらを個人にミラーリングする。 私たちの目標は、セルフリフレクションがコミュニケーション行動の変化を引き起こし、顧客満足度が向上することを示すことです。 仮想ミラーリング(実験グループ)に暴露されたチームリーダーによる顧客満足度の変化を比較して、大規模なグローバルサービス企業の電子メールの分析手法を解説し、検証する。 実験グループでは顧客満足度が向上し,コントロールグループ(仮想ミラーリングプロセスには関与しないチームリーダ)が減少したことが分かりました。 個々のコミュニケーション指標に関しては、従業員がより応答性が高く、よりシンプルな言語を使い、より集中度の低いコミュニケーションネットワークに埋め込まれ、安定したリーダーシップパターンを示す場合、顧客満足度が高いことが分かります。

We investigate the impact of a novel method called "virtual mirroring" to promote employee self-reflection and impact customer satisfaction. The method is based on measuring communication patterns, through social network and semantic analysis, and mirroring them back to the individual. Our goal is to demonstrate that self-reflection can trigger a change in communication behaviors, which lead to increased customer satisfaction. We illustrate and test our approach analyzing e-mails of a large global services company by comparing changes in customer satisfaction associated with team leaders exposed to virtual mirroring (the experimental group). We find an increase in customer satisfaction in the experimental group and a decrease in the control group (team leaders not involved in the virtual mirroring process). With regard to the individual communication indicators, we find that customer satisfaction is higher when employees are more responsive, use a simpler language, are embedded in less centralized communication networks, and show more stable leadership patterns.
翻訳日:2021-05-21 13:29:01 公開日:2021-05-20
# Squeeze-and-Expansio n Transformer を用いた医用画像分割

Medical Image Segmentation using Squeeze-and-Expansio n Transformers ( http://arxiv.org/abs/2105.09511v1 )

ライセンス: Link先を確認
Shaohua Li, Xiuchao Sui, Xiangde Luo, Xinxing Xu, Yong Liu, Rick Siow Mong Goh(参考訳) 医用画像分割はコンピュータ診断において重要である。 良いセグメンテーションは、大きな画像と細部を同時に見ること、すなわち空間解像度を維持しながら大きなコンテキストを含む画像の特徴を学習することを要求する。 この目標を達成するために、最も広く使われているメソッド -- U-Net と variants, extract and fuse multi-scale features である。 しかし、融合された特徴は、局所的な画像手がかりに焦点を当てた小さな「効果的な受容野」を持ち、性能を制限している。 本研究では,高機能解像度でも無制限に「効果的な受容場」を持つトランスフォーマに基づく代替セグメンテーションフレームワークであるsegtranを提案する。 segtranのコアは、新しいスクイーズ・アンド・エクステンショントランスであり、スクイーズド・アテンション・ブロックはトランスフォーマーの自己注意を規則化し、拡張ブロックは多様化した表現を学習する。 さらに,画像に対して連続性帰納バイアスを与えるトランスフォーマーの新たな位置符号化方式を提案する。 2次元および3次元の医用画像分割課題(眼底画像における乳頭/カップセグメンテーション(refuge'20 challenge)、大腸内視鏡画像におけるポリープセグメンテーション(polyp segmentation)、mriスキャンでの脳腫瘍セグメンテーション(brats'19 challenge))について実験を行った。 既存の一般的な手法と比較して、Segtranは高いセグメンテーション精度を獲得し、優れたクロスドメイン一般化能力を示した。

Medical image segmentation is important for computer-aided diagnosis. Good segmentation demands the model to see the big picture and fine details simultaneously, i.e., to learn image features that incorporate large context while keep high spatial resolutions. To approach this goal, the most widely used methods -- U-Net and variants, extract and fuse multi-scale features. However, the fused features still have small "effective receptive fields" with a focus on local image cues, limiting their performance. In this work, we propose Segtran, an alternative segmentation framework based on transformers, which have unlimited "effective receptive fields" even at high feature resolutions. The core of Segtran is a novel Squeeze-and-Expansio n transformer: a squeezed attention block regularizes the self attention of transformers, and an expansion block learns diversified representations. Additionally, we propose a new positional encoding scheme for transformers, imposing a continuity inductive bias for images. Experiments were performed on 2D and 3D medical image segmentation tasks: optic disc/cup segmentation in fundus images (REFUGE'20 challenge), polyp segmentation in colonoscopy images, and brain tumor segmentation in MRI scans (BraTS'19 challenge). Compared with representative existing methods, Segtran consistently achieved the highest segmentation accuracy, and exhibited good cross-domain generalization capabilities.
翻訳日:2021-05-21 13:28:20 公開日:2021-05-20
# FVC: 機能空間におけるディープビデオ圧縮のための新しいフレームワーク

FVC: A New Framework towards Deep Video Compression in Feature Space ( http://arxiv.org/abs/2105.09600v1 )

ライセンス: Link先を確認
Zhihao Hu, Guo Lu, Dong Xu(参考訳) 学習に基づくビデオ圧縮は、ここ数年で注目を集めている。 従来のハイブリッド符号化手法は、不正確な動き推定やより効果的な動き補償に苦しむ空間的および時間的冗長性を低減するためにピクセル空間演算に依存する。 本稿では,特徴空間における全ての主要な操作(動き推定,動き圧縮,動き補償,残留圧縮など)を行うことにより,特徴空間映像符号化ネットワーク(fvc)を提案する。 具体的には,提案した変形可能補償モジュールにおいて,まず特徴空間に動き推定を適用し,自動エンコーダ方式のネットワークを用いて圧縮される動き情報(オフセットマップ)を生成する。 次に変形可能な畳み込みを用いて動作補償を行い、予測特徴を生成する。 その後、現在のフレームからの機能と、変形可能な補償モジュールから予測された機能の間の残余フィーチャを圧縮します。 より優れたフレーム再構築のために、複数の以前の再構成フレームからの参照特徴もマルチフレーム特徴融合モジュールにおける非局所的注意機構を用いて融合する。 実験結果から,HEVC,UVG,VTL,MCL-JC Vの4つのベンチマークデータセットにおいて,提案フレームワークが最先端の性能を実現することを示す。

Learning based video compression attracts increasing attention in the past few years. The previous hybrid coding approaches rely on pixel space operations to reduce spatial and temporal redundancy, which may suffer from inaccurate motion estimation or less effective motion compensation. In this work, we propose a feature-space video coding network (FVC) by performing all major operations (i.e., motion estimation, motion compression, motion compensation and residual compression) in the feature space. Specifically, in the proposed deformable compensation module, we first apply motion estimation in the feature space to produce motion information (i.e., the offset maps), which will be compressed by using the auto-encoder style network. Then we perform motion compensation by using deformable convolution and generate the predicted feature. After that, we compress the residual feature between the feature from the current frame and the predicted feature from our deformable compensation module. For better frame reconstruction, the reference features from multiple previous reconstructed frames are also fused by using the non-local attention mechanism in the multi-frame feature fusion module. Comprehensive experimental results demonstrate that the proposed framework achieves the state-of-the-art performance on four benchmark datasets including HEVC, UVG, VTL and MCL-JCV.
翻訳日:2021-05-21 13:27:46 公開日:2021-05-20
# クロックサイクルビデオストレア毎に複数画素を接続するコンポーネントラベリングアルゴリズム

A Connected Component Labelling algorithm for multi-pixel per clock cycle video strea ( http://arxiv.org/abs/2105.09658v1 )

ライセンス: Link先を確認
Marcin Kowalczyk and Tomasz Kryjak(参考訳) 本稿では、reprogammable logicにおけるコネクテッドコンポーネントラベリング(CCL)モジュールのハードウェア実装について述べる。 デザインの主な特徴は「フル」、すなわち「フル」である。 単純化なしでは、1クロック4ピクセル (4 ppc) をサポートし、4K/UltraHDビデオストリーム (3840 x 2160 ピクセル) を毎秒60フレームでリアルタイムに処理できる。 これを実現するため,同値表への1つ以上のマージを必要とする画素群を処理するために,入力データストリームを停止する特別なラベル付け手法と機能を実装した。 提案モジュールは,ZCU104評価ボード上のXilinx Zynq Ultrascale+ MPSoCチップ上で,シミュレーションおよびハードウェア上で検証された。

This work describes the hardware implementation of a connected component labelling (CCL) module in reprogammable logic. The main novelty of the design is the "full", i.e. without any simplifications, support of a 4 pixel per clock format (4 ppc) and real-time processing of a 4K/UltraHD video stream (3840 x 2160 pixels) at 60 frames per second. To achieve this, a special labelling method was designed and a functionality that stops the input data stream in order to process pixel groups which require writing more than one merger into the equivalence table. The proposed module was verified in simulation and in hardware on the Xilinx Zynq Ultrascale+ MPSoC chip on the ZCU104 evaluation board.
翻訳日:2021-05-21 13:27:27 公開日:2021-05-20
# DPN-SENet:胸部X線画像からのCOVID-19の検出と診断のための自己注意機構ニューラルネットワーク

DPN-SENet:A self-attention mechanism neural network for detection and diagnosis of COVID-19 from chest x-ray images ( http://arxiv.org/abs/2105.09683v1 )

ライセンス: Link先を確認
Bo Cheng, Ruhui Xue, Hang Yang, Laili Zhu, and Wei Xiang(参考訳) 背景と目的:新型新型コロナウイルスは「covid-19」とも呼ばれる。 2019年末に普及し、現在では世界中に広まっている。 2020年10月までに3700万人が感染し、100万人が命を奪った。 放射線科医や臨床医が胸部x線を使って新型コロナウイルスの症例を診断し、肺炎の診断的特徴を示すディープラーニングモデルを提案する。 方法:本研究におけるアプローチは,(1)データセットの多様性を向上し,モデルの一般化性能を向上させるためのデータ拡張手法を提案することである。 2) 深部畳み込みニューラルネットワークモデルDPN-SEはDPNネットワークに自己認識機構を付加する。 セルフアテンション機構の追加により,ネットワークの性能が大幅に向上した。 3) 医師がより迅速に新型コロナウイルスを診断するのに役立つX線医学画像の特徴領域を示すために, Lime 解釈ライブラリを用いている。 結果: 同じネットワークモデルの下で、データ拡張の有無に関わらず、それぞれトレーニング用のモデルにデータを置く。 最終的に、異なる構造を持つ10のネットワークモデルのうち、7つのネットワークモデルがデータ拡張を用いて効果を向上し、認識精度が平均1%向上した。 DPN-SEネットワークの精度とリコール率は93%,98%(肺炎菌対ウイルス性肺炎対正常例)であることが示唆された。 元のDPNと比較して、それぞれの精度を2%向上させる。 結論: 筆者らが使用したデータ拡張手法は, 少量のデータセットにおいて有効であり, サンプルサイズやモデル構造を変化させることなく, 合理的なデータ拡張手法によって認識精度の向上が期待できることを示す。 全体として,提案手法とモデルは,臨床放射線医にとって非常に有用なツールとなりうる。

Background and Objective: The new type of coronavirus is also called COVID-19. It began to spread at the end of 2019 and has now spread across the world. Until October 2020, It has infected around 37 million people and claimed about 1 million lives. We propose a deep learning model that can help radiologists and clinicians use chest X-rays to diagnose COVID-19 cases and show the diagnostic features of pneumonia. Methods: The approach in this study is: 1) we propose a data enhancement method to increase the diversity of the data set, thereby improving the generalization performance of the model. 2) Our deep convolution neural network model DPN-SE adds a self-attention mechanism to the DPN network. The addition of a self-attention mechanism has greatly improved the performance of the network. 3) Use the Lime interpretable library to mark the feature regions on the X-ray medical image that helps doctors more quickly diagnose COVID-19 in people. Results: Under the same network model, the data with and without data enhancement is put into the model for training respectively. At last, comparing two experimental results: among the 10 network models with different structures, 7 network models have improved their effects after using data enhancement, with an average improvement of 1% in recognition accuracy. We propose that the accuracy and recall rates of the DPN-SE network are 93% and 98% of cases (COVID vs. pneumonia bacteria vs. viral pneumonia vs. normal). Compared with the original DPN, the respective accuracy is improved by 2%. Conclusion: The data augmentation method we used has achieved effective results on a small amount of data set, showing that a reasonable data augmentation method can improve the recognition accuracy without changing the sample size and model structure. Overall, the proposed method and model can effectively become a very useful tool for clinical radiologists.
翻訳日:2021-05-21 13:27:15 公開日:2021-05-20
# モバイル画像超解像のためのアンカーベースプレーンネット

Anchor-based Plain Net for Mobile Image Super-Resolution ( http://arxiv.org/abs/2105.09750v1 )

ライセンス: Link先を確認
Zongcai Du, Jie Liu, Jie Tang and Gangshan Wu(参考訳) 現実の応用の急速な発展とともに、画像超解像(SR)の精度と効率に対する高い要求がもたらされる。 既存の手法は目覚ましい成功を収めているが、その大半は大量の計算資源と大量のRAMを必要としており、モバイルデバイスにはうまく適用できない。 本稿では,8ビット量子化のための効率的なアーキテクチャを設計し,モバイルデバイスに展開することを目的とする。 まず、軽量srアーキテクチャを分解して、メタノードレイテンシーに関する実験を行い、我々が利用できる可搬性のある操作を決定する。 次に,8ビット量子化にどのようなアーキテクチャが有用かについて詳しく検討し,アンカーベースプレーンネット(ABPN)を提案する。 最後に,量子化アウェアトレーニング戦略を採用し,さらなるパフォーマンス向上を図る。 提案モデルは,PSNRの観点から8ビット量子化FSRCNNを約2dBで上回り,同時に現実的なニーズを満たすことができる。 コードはhttps://github.com/N JU- Jet/SR_Mobile_Quanti zationで検証可能である。

Along with the rapid development of real-world applications, higher requirements on the accuracy and efficiency of image super-resolution (SR) are brought forward. Though existing methods have achieved remarkable success, the majority of them demand plenty of computational resources and large amount of RAM, and thus they can not be well applied to mobile device. In this paper, we aim at designing efficient architecture for 8-bit quantization and deploy it on mobile device. First, we conduct an experiment about meta-node latency by decomposing lightweight SR architectures, which determines the portable operations we can utilize. Then, we dig deeper into what kind of architecture is beneficial to 8-bit quantization and propose anchor-based plain net (ABPN). Finally, we adopt quantization-aware training strategy to further boost the performance. Our model can outperform 8-bit quantized FSRCNN by nearly 2dB in terms of PSNR, while satisfying realistic needs at the same time. Code is avaliable at https://github.com/N JU- Jet/SR_Mobile_Quanti zation.
翻訳日:2021-05-21 13:26:49 公開日:2021-05-20
# 効率的かつロバストなLiDARによるエンドツーエンドナビゲーション

Efficient and Robust LiDAR-Based End-to-End Navigation ( http://arxiv.org/abs/2105.09932v1 )

ライセンス: Link先を確認
Zhijian Liu, Alexander Amini, Sibo Zhu, Sertac Karaman, Song Han, Daniela Rus(参考訳) ディープラーニングは、生の感覚入力から自律的な車両制御のためのエンドツーエンドニューラルネットワーク学習の実証に使用されている。 lidarセンサーは確実に正確な情報を提供するが、既存のエンド・ツー・エンドの運転ソリューションは3dデータの処理には大きなメモリフットプリントと計算コストを必要とするため、主にカメラに基づいている。 一方で、これらのシステムの堅牢性を高めることも重要であるが、サンプリングベースの手法のコストがかかるため、モデルの不確かさを推定することさえ非常に困難である。 本稿では,LiDARを用いたエンドツーエンドナビゲーションフレームワークを提案する。 我々はまず,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを紹介する。 次に,1回のフォワードパスのみから予測の不確実性を直接推定し,制御予測をインテリジェントに融合するハイブリッド実証融合を提案する。 実車上でのシステム評価を行い,車線安定と航法能力の実証を行った。 分散イベント(例えばセンサ障害)が存在する場合、システムはロバスト性を大幅に改善し、現実世界での乗っ取り回数を削減します。

Deep learning has been used to demonstrate end-to-end neural network learning for autonomous vehicle control from raw sensory input. While LiDAR sensors provide reliably accurate information, existing end-to-end driving solutions are mainly based on cameras since processing 3D data requires a large memory footprint and computation cost. On the other hand, increasing the robustness of these systems is also critical; however, even estimating the model's uncertainty is very challenging due to the cost of sampling-based methods. In this paper, we present an efficient and robust LiDAR-based end-to-end navigation framework. We first introduce Fast-LiDARNet that is based on sparse convolution kernel optimization and hardware-aware model design. We then propose Hybrid Evidential Fusion that directly estimates the uncertainty of the prediction from only a single forward pass and then fuses the control predictions intelligently. We evaluate our system on a full-scale vehicle and demonstrate lane-stable as well as navigation capabilities. In the presence of out-of-distribution events (e.g., sensor failures), our system significantly improves robustness and reduces the number of takeovers in the real world.
翻訳日:2021-05-21 13:26:34 公開日:2021-05-20
# l^1$正規化を伴う階層型非定常時間ガウス過程

Hierarchical Non-Stationary Temporal Gaussian Processes With $L^1$-Regularization ( http://arxiv.org/abs/2105.09695v1 )

ライセンス: Link先を確認
Zheng Zhao, Rui Gao, Simo S\"arkk\"a(参考訳) 本稿では,パラメータ(長さスケールなど)をgpsとしてモデル化した階層型非定常時間ガウス過程(nsgps)の正規化拡張について述べる。 特に、明示的に構築された非定常共分散関数と確率微分方程式に基づく2つのよく使われるNSGP構成を考える。 これらのNSGPは、スパース性を誘導するために、プロセスに$L^1$-regularizationを含めることで拡張する。 得られた正規化NSGP(R-NSGP)回帰問題を解くために,乗算器の交互方向法(ADMM)に基づく手法を開発し,その収束特性を理論的に解析する。 また,シミュレーションおよび実世界のデータセットにおける提案手法の性能評価を行った。

This paper is concerned with regularized extensions of hierarchical non-stationary temporal Gaussian processes (NSGPs) in which the parameters (e.g., length-scale) are modeled as GPs. In particular, we consider two commonly used NSGP constructions which are based on explicitly constructed non-stationary covariance functions and stochastic differential equations, respectively. We extend these NSGPs by including $L^1$-regularization on the processes in order to induce sparseness. To solve the resulting regularized NSGP (R-NSGP) regression problem we develop a method based on the alternating direction method of multipliers (ADMM) and we also analyze its convergence properties theoretically. We also evaluate the performance of the proposed methods in simulated and real-world datasets.
翻訳日:2021-05-21 13:26:15 公開日:2021-05-20
# 逆モード自動微分の分解

Decomposing reverse-mode automatic differentiation ( http://arxiv.org/abs/2105.09469v1 )

ライセンス: Link先を確認
Roy Frostig, Matthew J. Johnson, Dougal Maclaurin, Adam Paszke, Alexey Radul(参考訳) 逆モードの自動微分を(フォワードモード)線形化に分解し、変換を行う。 そうすることで、フォワードモードとリバースモードADの主な違いを分離し、共同実装を単純化する。 特に、一度フォワードモードADルールがソース言語のすべてのプリミティブ操作に対して定義されると、完全なリバースモードAD実装に到達するためには、リニアプリミティブのみが追加のトランスポジションルールを必要とする。 これは、JAX と Dex でリバースモード AD を記述する方法です。

We decompose reverse-mode automatic differentiation into (forward-mode) linearization followed by transposition. Doing so isolates the essential difference between forward- and reverse-mode AD, and simplifies their joint implementation. In particular, once forward-mode AD rules are defined for every primitive operation in a source language, only linear primitives require an additional transposition rule in order to arrive at a complete reverse-mode AD implementation. This is how reverse-mode AD is written in JAX and Dex.
翻訳日:2021-05-21 13:25:27 公開日:2021-05-20
# 血液と組織を有するクラッタ手術部位における磁気縫合針の局在と制御

Localization and Control of Magnetic Suture Needles in Cluttered Surgical Site with Blood and Tissue ( http://arxiv.org/abs/2105.09481v1 )

ライセンス: Link先を確認
Will Pryor, Yotam Barnoy, Suraj Raval, Xiaolong Liu, Lamar Mair, Daniel Lerner, Onder Erin, Gregory D. Hager, Yancy Diaz-Mercado, Axel Krieger(参考訳) 手術の自動化や視覚フィードバックなど,様々な外科的応用には針のリアルタイム可視化が不可欠である。 本研究では,磁気縫合システムにおける針の位置と自律的なロボット制御について検討する。 本システムでは,侵襲性の最小化と患者の副作用の低減による手術の可能性を秘めている。 しかし、非線形磁場は直観的な力を生み出し、直接操作の能力を超える繊細な位置制御を必要とする。 これにより、針の自動定位が必須となる。 本手法は, ニューラルネットワークに基づくセグメンテーションと古典的手法を組み合わせることで, 清潔な環境では0.73mmrms誤差, 血液と閉塞を伴う困難な環境では2.72mmrms誤差と針の位置を一貫して特定できる。 平均ローカライゼーションrms誤差は実験で使用した全ての環境において2.16mmである。 本手法をクローズドループフィードバック制御システムと組み合わせることで,自律制御へのローカライゼーションのさらなる適用性を示す。 針は(1) 血液, 組織, (2) 重血, 組織, (3) 血液, 組織, (4) 重血, 組織環境における縫合経路をたどることができる。 先端位置追跡誤差は2.6mmから3.7mmのrmsで、自動縫合作業へのドアを開く。

Real-time visual localization of needles is necessary for various surgical applications, including surgical automation and visual feedback. In this study we investigate localization and autonomous robotic control of needles in the context of our magneto-suturing system. Our system holds the potential for surgical manipulation with the benefit of minimal invasiveness and reduced patient side effects. However, the non-linear magnetic fields produce unintuitive forces and demand delicate position-based control that exceeds the capabilities of direct human manipulation. This makes automatic needle localization a necessity. Our localization method combines neural network-based segmentation and classical techniques, and we are able to consistently locate our needle with 0.73 mm RMS error in clean environments and 2.72 mm RMS error in challenging environments with blood and occlusion. The average localization RMS error is 2.16 mm for all environments we used in the experiments. We combine this localization method with our closed-loop feedback control system to demonstrate the further applicability of localization to autonomous control. Our needle is able to follow a running suture path in (1) no blood, no tissue; (2) heavy blood, no tissue; (3) no blood, with tissue; and (4) heavy blood, with tissue environments. The tip position tracking error ranges from 2.6 mm to 3.7 mm RMS, opening the door towards autonomous suturing tasks.
翻訳日:2021-05-21 13:25:17 公開日:2021-05-20
# 流体力学のための物理インフォームドニューラルネットワーク(PINN)

Physics-informed neural networks (PINNs) for fluid mechanics: A review ( http://arxiv.org/abs/2105.09506v1 )

ライセンス: Link先を確認
Shengze Cai, Zhiping Mao, Zhicheng Wang, Minglang Yin, George Em Karniadakis(参考訳) ナヴィエ・ストークス方程式(NSE)の数値離散化を用いた流れ問題のシミュレーションにおいて,過去50年間の著しい進歩にもかかわらず,メッシュ生成は複雑であり,パラメータ化NSEによる高次元問題に対処できない。 さらに、逆流問題の解法は、しばしば高額であり、複雑で高価な定式化と新しいコンピュータコードを必要とする。 本稿では,フロー物理学に基づく学習を概観し,データと数理モデルをシームレスに統合し,物理計算型ニューラルネットワーク(pinns)を用いてそれらを実装する。 三次元後流, 超音速流, 生物医学的流れに関連する逆問題に対するピンの効果を実証する。

Despite the significant progress over the last 50 years in simulating flow problems using numerical discretization of the Navier-Stokes equations (NSE), we still cannot incorporate seamlessly noisy data into existing algorithms, mesh-generation is complex, and we cannot tackle high-dimensional problems governed by parametrized NSE. Moreover, solving inverse flow problems is often prohibitively expensive and requires complex and expensive formulations and new computer codes. Here, we review flow physics-informed learning, integrating seamlessly data and mathematical models, and implementing them using physics-informed neural networks (PINNs). We demonstrate the effectiveness of PINNs for inverse problems related to three-dimensional wake flows, supersonic flows, and biomedical flows.
翻訳日:2021-05-21 13:24:53 公開日:2021-05-20
# デュアルサイドスパーステンソルコア

Dual-side Sparse Tensor Core ( http://arxiv.org/abs/2105.09564v1 )

ライセンス: Link先を確認
Yang Wang, Chen Zhang, Zhiqiang Xie, Cong Guo, Yunxin Liu, Jingwen Leng(参考訳) deep neural network (dnn)モデルにおけるスパーシティの活用は、モデル推論の加速に有望である。 しかし、既存のgpuは、重みからのスパーシティのみを活用できるが、アクティベーションは利用できない。 本研究では,両面の空間(重みとアクティベーションの空間)を効率的に利用するための新しいアーキテクチャを提案する。 本稿では,従来の疎性関連アーキテクチャの(非)アドバンテージを理解するための体系的なアプローチと,外積計算プリミティブとビットマップベースの符号化フォーマットを組み合わせた,新しい未探索パラダイムを提案する。 既存の生産規模内製品ベースのTensor Coreに最小限の変更を加えることで、設計の実現可能性を示す。 本稿では,DNNモデルにおける2つの主要な計算パターンである行列行列行列乗法と畳み込みアルゴリズムを共同設計し,新しい両面スパーステンソルコアを利用する新しいISA拡張セットを提案する。 評価の結果,ハードウェアのオーバーヘッドにより,両面のDNN間隔を完全に解き,最大1桁の性能を向上できることがわかった。

Leveraging sparsity in deep neural network (DNN) models is promising for accelerating model inference. Yet existing GPUs can only leverage the sparsity from weights but not activations, which are dynamic, unpredictable, and hence challenging to exploit. In this work, we propose a novel architecture to efficiently harness the dual-side sparsity (i.e., weight and activation sparsity). We take a systematic approach to understand the (dis)advantages of previous sparsity-related architectures and propose a novel, unexplored paradigm that combines outer-product computation primitive and bitmap-based encoding format. We demonstrate the feasibility of our design with minimal changes to the existing production-scale inner-product-based Tensor Core. We propose a set of novel ISA extensions and co-design the matrix-matrix multiplication and convolution algorithms, which are the two dominant computation patterns in today's DNN models, to exploit our new dual-side sparse Tensor Core. Our evaluation shows that our design can fully unleash the dual-side DNN sparsity and improve the performance by up to one order of magnitude with \hl{small} hardware overhead.
翻訳日:2021-05-21 13:24:38 公開日:2021-05-20
# 時系列次元減少とオンライン異常検出のための分布非依存記号表現

Distribution Agnostic Symbolic Representations for Time Series Dimensionality Reduction and Online Anomaly Detection ( http://arxiv.org/abs/2105.09592v1 )

ライセンス: Link先を確認
Konstantinos Bountrogiannis, George Tzagkarakis, Panagiotis Tsakalides(参考訳) 低境界距離の重要性と記号表現の魅力のため、記号集合近似(SAX)の族は時系列データの符号化に広く用いられている。 しかし、SAXベースの典型的な手法は、ガウス分布と等確率記号の2つの制限的な仮定に依存している。 本稿では,データ駆動型SAXに基づく2つのシンボル表現を提案する。 一般データ圧縮とインデックス化のシナリオを指向した最初の表現は、カーネル密度推定とロイド-マックス量子化の組み合わせに基づいて、情報損失と離散化ステップにおける平均二乗誤差を最小化する。 第2の方法は,高レベルマイニングタスクを指向し,平均シフトクラスタリング法を採用し,低次元空間における異常検出を強化する。 さらに, 従来観測されていた内在過程の現象を理論的に検証し, 中間集合体近似の期待分散よりも低い値となることを検証した。 この現象は付加的な情報損失を引き起こすが、簡単な修正で避けることができる。 提案した表現は,従来のSAX手法の魅力を全て有している。 さらに、実世界のデータセットに対する実験的な評価は、従来のSAXと代替データ駆動型SAXと比較して優位性を示す。

Due to the importance of the lower bounding distances and the attractiveness of symbolic representations, the family of symbolic aggregate approximations (SAX) has been used extensively for encoding time series data. However, typical SAX-based methods rely on two restrictive assumptions; the Gaussian distribution and equiprobable symbols. This paper proposes two novel data-driven SAX-based symbolic representations, distinguished by their discretization steps. The first representation, oriented for general data compaction and indexing scenarios, is based on the combination of kernel density estimation and Lloyd-Max quantization to minimize the information loss and mean squared error in the discretization step. The second method, oriented for high-level mining tasks, employs the Mean-Shift clustering method and is shown to enhance anomaly detection in the lower-dimensional space. Besides, we verify on a theoretical basis a previously observed phenomenon of the intrinsic process that results in a lower than the expected variance of the intermediate piecewise aggregate approximation. This phenomenon causes an additional information loss but can be avoided with a simple modification. The proposed representations possess all the attractive properties of the conventional SAX method. Furthermore, experimental evaluation on real-world datasets demonstrates their superiority compared to the traditional SAX and an alternative data-driven SAX variant.
翻訳日:2021-05-21 13:24:20 公開日:2021-05-20
# 強化学習のための確率的複合拡張ラグランジアン法

A Stochastic Composite Augmented Lagrangian Method For Reinforcement Learning ( http://arxiv.org/abs/2105.09716v1 )

ライセンス: Link先を確認
Yongfeng Li, Mingming Zhao, Weijie Chen, and Zaiwen Wen(参考訳) 本稿では,深層強化学習のための線形プログラミング(LP)の定式化について考察する。 制約の数は状態空間と行動空間のサイズに依存するため、大きな環境や連続的な環境では問題に難易度が生じる。 一般拡張ラグランジアン法はlpの解法において二重サンプリング障害に苦しむ。 すなわち、条件付き期待は、拡張ラグランジュ関数の制約関数と二次罰がサンプリングと評価に困難を課すことから生じる。 乗算器の更新からモチベーションを得た結果、拡張ラグランジュ関数の最小化における障害を克服し、難解な条件付き期待を乗算器に置き換える。 そこで, 深いパラメータ化拡張ラグランジアン法を提案する。 さらに、この置換は拡張ラグランジアン法の2つのステップを単一の制約付き問題に統合する有望なブレークスルーを提供する。 一般化理論解析により、制約付き最適化の列から生成される解は、誤差が適切に制御された場合、LPの最適解に収束することを示した。 ニューラルネットワークカーネル設定下での2次ペナルティアルゴリズムの理論解析は、ネットワークおよび最適化アルゴリズムのパラメータが好適に選択された場合、残余を任意に小さくすることができることを示している。 予備実験により,本手法は他の最先端アルゴリズムと競合することを示した。

In this paper, we consider the linear programming (LP) formulation for deep reinforcement learning. The number of the constraints depends on the size of state and action spaces, which makes the problem intractable in large or continuous environments. The general augmented Lagrangian method suffers the double-sampling obstacle in solving the LP. Namely, the conditional expectations originated from the constraint functions and the quadratic penalties in the augmented Lagrangian function impose difficulties in sampling and evaluation. Motivated from the updates of the multipliers, we overcome the obstacles in minimizing the augmented Lagrangian function by replacing the intractable conditional expectations with the multipliers. Therefore, a deep parameterized augment Lagrangian method is proposed. Furthermore, the replacement provides a promising breakthrough to integrate the two steps in the augmented Lagrangian method into a single constrained problem. A general theoretical analysis shows that the solutions generated from a sequence of the constrained optimizations converge to the optimal solution of the LP if the error is controlled properly. A theoretical analysis on the quadratic penalty algorithm under neural tangent kernel setting shows the residual can be arbitrarily small if the parameter in network and optimization algorithm is chosen suitably. Preliminary experiments illustrate that our method is competitive to other state-of-the-art algorithms.
翻訳日:2021-05-21 13:24:01 公開日:2021-05-20
# スマートホームシステムのための説明可能なアクティビティ認識

Explainable Activity Recognition for Smart Home Systems ( http://arxiv.org/abs/2105.09787v1 )

ライセンス: Link先を確認
Devleena Das, Yasutaka Nishimura, Rajan P. Vivek, Naoto Takeda, Sean T. Fish, Thomas Ploetz, Sonia Chernova(参考訳) スマートホーム環境は、空間全体に設置されたさまざまなセンサーやアクチュエータを通じて、居住者の生活の質を改善するサービスを提供するように設計されている。 スマートホームが行う多くの自動アクションは、基礎となるアクティビティ認識システムの出力によって制御される。 しかし、アクティビティ認識システムは必ずしも正確ではないため、スマートホーム操作の不整合により、ユーザは「なぜスマートホームがそれをしたのか? 本研究では,xai(resolvable artificial intelligence)技術から得られた知見に基づいて,行動認識のための計算手法を提案する。 具体的には、スマートホーム活動認識システムについて、特定の分類に繋がった活動についての説明を行う。 そこで我々は,スマートホームデータの自然言語説明を生成するための4つの計算手法を導入し,その有効性を比較した。 日常的なユーザを対象とした調査を通じて,4つの説明型に対するユーザの嗜好を評価する。 以上の結果から, SHAPは92%の成功率を示し, 正確な説明が得られた。 さらに、サンプルシナリオの84%は、単純なアクティビティラベルよりも自然言語の説明を好んでおり、説明可能なアクティビティ認識システムの必要性を強調している。 最後に,いくつかのXAI手法によって生成された説明は,利用者の行動認識モデルの精度への信頼を損なうとともに,利用者の信頼を損なう可能性があることを示す。 検討されたすべての要因を考慮し、スマートホームオートメーションの分野において、既存のXAI手法がどのパフォーマンスをもたらすかを推奨し、この分野における今後の課題について論じる。

Smart home environments are designed to provide services that help improve the quality of life for the occupant via a variety of sensors and actuators installed throughout the space. Many automated actions taken by a smart home are governed by the output of an underlying activity recognition system. However, activity recognition systems may not be perfectly accurate and therefore inconsistencies in smart home operations can lead a user to wonder "why did the smart home do that?" In this work, we build on insights from Explainable Artificial Intelligence (XAI) techniques to contribute computational methods for explainable activity recognition. Specifically, we generate explanations for smart home activity recognition systems that explain what about an activity led to the given classification. To do so, we introduce four computational techniques for generating natural language explanations of smart home data and compare their effectiveness at generating meaningful explanations. Through a study with everyday users, we evaluate user preferences towards the four explanation types. Our results show that the leading approach, SHAP, has a 92% success rate in generating accurate explanations. Moreover, 84% of sampled scenarios users preferred natural language explanations over a simple activity label, underscoring the need for explainable activity recognition systems. Finally, we show that explanations generated by some XAI methods can lead users to lose confidence in the accuracy of the underlying activity recognition model, while others lead users to gain confidence. Taking all studied factors into consideration, we make a recommendation regarding which existing XAI method leads to the best performance in the domain of smart home automation, and discuss a range of topics for future work in this area.
翻訳日:2021-05-21 13:23:42 公開日:2021-05-20
# 深層学習を用いた多スペクトル光音響画像のセマンティックセグメンテーション

Semantic segmentation of multispectral photoacoustic images using deep learning ( http://arxiv.org/abs/2105.09624v1 )

ライセンス: Link先を確認
Janek Gr\"ohl, Melanie Schellenberg, Kris Dreher, Niklas Holzwarth, Minu D. Tizabi, Alexander Seitel, Lena Maier-Hein(参考訳) 光音響イメージングは、多スペクトル光音響測定に含まれる組織生理学の貴重な情報により、医療に革命をもたらす可能性がある。 この技術の臨床的翻訳には、高次元取得データを臨床的に関連性があり解釈可能な情報に変換する必要がある。 本研究では,マルチスペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。 ゴールド基準アノテーションとして手書き注釈付きマルチスペクトル光音響画像データを使用し、教師付き方法で深層学習に基づくセグメンテーションアルゴリズムのトレーニングを可能にする。 健常人ボランティアのデータを実験的に取得した検証研究に基づいて,多スペクトル光音響画像の強力な解析と可視化を行うために,自動組織セグメンテーションが有効であることを示す。 高次元情報の直感的な表現のため、このような処理アルゴリズムは、光音響イメージングの臨床的翻訳を容易にする貴重な手段となり得る。

Photoacoustic imaging has the potential to revolutionise healthcare due to the valuable information on tissue physiology that is contained in multispectral photoacoustic measurements. Clinical translation of the technology requires conversion of the high-dimensional acquired data into clinically relevant and interpretable information. In this work, we present a deep learning-based approach to semantic segmentation of multispectral photoacoustic images to facilitate the interpretability of recorded images. Manually annotated multispectral photoacoustic imaging data are used as gold standard reference annotations and enable the training of a deep learning-based segmentation algorithm in a supervised manner. Based on a validation study with experimentally acquired data of healthy human volunteers, we show that automatic tissue segmentation can be used to create powerful analyses and visualisations of multispectral photoacoustic images. Due to the intuitive representation of high-dimensional information, such a processing algorithm could be a valuable means to facilitate the clinical translation of photoacoustic imaging.
翻訳日:2021-05-21 13:23:17 公開日:2021-05-20
# グラディエントフリーADMMフレームワークに基づくグラフ拡張MLPの量子モデル並列化に向けて

Towards Quantized Model Parallelism for Graph-Augmented MLPs Based on Gradient-Free ADMM framework ( http://arxiv.org/abs/2105.09837v1 )

ライセンス: Link先を確認
Junxiang Wang, Hongyi Li, Zheng Chai, Yongchao Wang, Yue Cheng and Liang Zhao(参考訳) Graph Augmented Multi-layer Perceptron(GA-MLP)モデルは、グラフニューラルネットワーク(GNN)の魅力的な代替品である。 これはオーバースムーシング問題に耐性があり、より深いga-mlpモデルの方が優れた性能をもたらすためである。 GA-MLPモデルは伝統的にStochastic Gradient Descent (SGD)によって最適化されている。 しかし、SGDは層依存性の問題に悩まされ、GA-MLPモデルの異なる層の勾配が並列に計算されるのを防ぐ。 本稿では,GA-MLPモデルの各層におけるパラメータを並列に更新する,モデル並列化を実現するための並列ディープラーニング代替指向手法(pdADMM)を提案する。 拡張pdadmm-qアルゴリズムは、量子化技術を用いて通信コストを削減する。 pdADMMアルゴリズムとpdADMM-Qアルゴリズムの臨界点への理論的収束は、サブ線形収束率$o(1/k)$である。 6つのベンチマークデータセットの大規模な実験により、pdADMMは高速な高速化につながることが示され、既存の最先端比較手法よりも優れている。

The Graph Augmented Multi-layer Perceptron (GA-MLP) model is an attractive alternative to Graph Neural Networks (GNNs). This is because it is resistant to the over-smoothing problem, and deeper GA-MLP models yield better performance. GA-MLP models are traditionally optimized by the Stochastic Gradient Descent (SGD). However, SGD suffers from the layer dependency problem, which prevents the gradients of different layers of GA-MLP models from being calculated in parallel. In this paper, we propose a parallel deep learning Alternating Direction Method of Multipliers (pdADMM) framework to achieve model parallelism: parameters in each layer of GA-MLP models can be updated in parallel. The extended pdADMM-Q algorithm reduces communication cost by utilizing the quantization technique. Theoretical convergence to a critical point of the pdADMM algorithm and the pdADMM-Q algorithm is provided with a sublinear convergence rate $o(1/k)$. Extensive experiments in six benchmark datasets demonstrate that the pdADMM can lead to high speedup, and outperforms all the existing state-of-the-art comparison methods.
翻訳日:2021-05-21 13:23:04 公開日:2021-05-20
# 試料当たりの超微量測定による複数支援回収

Multiple Support Recovery Using Very Few Measurements Per Sample ( http://arxiv.org/abs/2105.09855v1 )

ライセンス: Link先を確認
Lekshmi Ramesh, Chandra R. Murthy, Himanshu Tyagi(参考訳) 複数のサポートリカバリの問題では、$\mathbb{r}^{d}$ で複数のスパースサンプルの線形測定へのアクセスが与えられる。 これらのサンプルは$\ell$グループに分割することができ、サンプルは同じグループに属する同じサポートを持つ。 サンプルあたりの$m$測定の予算については、グループラベルの知識がなければ、$$\ell$の基盤となるサポートを回復することが目標である。 本研究では,m$が各試料の支持サイズ$k$よりも小さい測定制約型体制に着目して,この問題を考察する。 まず,基礎となるサポートの結合を推定する2段階の手順を設計,次にスペクトルアルゴリズムを用いて個々のサポートを推定する。 提案した推定器は、$\tilde{O}(k^{4}\ell^{4}/m^{4})$サンプルから、サンプルあたりのm<k$測定でサポートを回復することができる。 我々の保証は、サンプルと測定行列の一般的な生成モデル仮定を定めている。 また,合成データとmnistデータセットを用いた実験結果も提供する。

In the problem of multiple support recovery, we are given access to linear measurements of multiple sparse samples in $\mathbb{R}^{d}$. These samples can be partitioned into $\ell$ groups, with samples having the same support belonging to the same group. For a given budget of $m$ measurements per sample, the goal is to recover the $\ell$ underlying supports, in the absence of the knowledge of group labels. We study this problem with a focus on the measurement-constrai ned regime where $m$ is smaller than the support size $k$ of each sample. We design a two-step procedure that estimates the union of the underlying supports first, and then uses a spectral algorithm to estimate the individual supports. Our proposed estimator can recover the supports with $m<k$ measurements per sample, from $\tilde{O}(k^{4}\ell^{4}/m^{4})$ samples. Our guarantees hold for a general, generative model assumption on the samples and measurement matrices. We also provide results from experiments conducted on synthetic data and on the MNIST dataset.
翻訳日:2021-05-21 13:22:47 公開日:2021-05-20
# (参考訳) Be Causal:リコメンデーションでソーシャルネットワークを混乱させる [全文訳有]

Be Causal: De-biasing Social Network Confounding in Recommendation ( http://arxiv.org/abs/2105.07775v2 )

ライセンス: CC BY 4.0
Qian Li, Xiangmeng Wang, Guandong Xu(参考訳) レコメンデーションシステムでは、非ランダム(MNAR)問題の存在が選択バイアス問題を引き起こし、最終的にレコメンデーション性能を低下させる。 MNARに対処する一般的な習慣は、いわゆる「露出」の観点から欠落したエントリを扱うことである。 既存のアプローチのほとんどは、不足するランダムな設定を模倣するために、観測された評価に対するヒューリスティックモデルまたは再重み付け戦略を使用している。 しかし、評価が因果的観点からいかに欠落しているかを明らかにする研究はほとんど行われていない。 因果推論における共起解析に触発されたdenc(de-bias network confounding in recommendation)と呼ばれる非バイアスでロバストな手法を提案する。 一般に、DNCはMNARの因果解析を、固有の要因(潜在ユーザやアイテムファクタなど)と補助ネットワークの観点から提供する。 特に、提案したDECの露光モデルは、観測された露光情報を保存しながら、ソーシャルネットワークの共同創業者を制御できる。 また、バランスの取れた表現学習を通じて、主要なユーザとアイテムの特徴を保持するデコンウンディングモデルを構築し、評価予測に基づいてDENCの一般化を可能にする。 3つのデータセットに関する広範囲な実験により、提案モデルが最先端のベースラインを上回ることを検証した。

In recommendation systems, the existence of the missing-not-at-rando m (MNAR) problem results in the selection bias issue, degrading the recommendation performance ultimately. A common practice to address MNAR is to treat missing entries from the so-called "exposure" perspective, i.e., modeling how an item is exposed (provided) to a user. Most of the existing approaches use heuristic models or re-weighting strategy on observed ratings to mimic the missing-at-random setting. However, little research has been done to reveal how the ratings are missing from a causal perspective. To bridge the gap, we propose an unbiased and robust method called DENC (De-bias Network Confounding in Recommendation) inspired by confounder analysis in causal inference. In general, DENC provides a causal analysis on MNAR from both the inherent factors (e.g., latent user or item factors) and auxiliary network's perspective. Particularly, the proposed exposure model in DENC can control the social network confounder meanwhile preserves the observed exposure information. We also develop a deconfounding model through the balanced representation learning to retain the primary user and item features, which enables DENC generalize well on the rating prediction. Extensive experiments on three datasets validate that our proposed model outperforms the state-of-the-art baselines.
翻訳日:2021-05-21 11:22:06 公開日:2021-05-20
# Value Functionは必要なものすべて: ハイドプラットフォームのための統一学習フレームワーク

Value Function is All You Need: A Unified Learning Framework for Ride Hailing Platforms ( http://arxiv.org/abs/2105.08791v2 )

ライセンス: Link先を確認
Xiaocheng Tang, Fan Zhang, Zhiwei Qin, Yansheng Wang, Dingyuan Shi, Bingchen Song, Yongxin Tong, Hongtu Zhu, Jieping Ye(参考訳) DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続し、注文の発送と車両配置のタスクを通じて、交通効率を向上させるための素晴らしい約束を提供する。 しかし、既存の研究では2つのタスクが単純化されており、これら2つの間の複雑な相互作用、供給と需要のリアルタイムな変動、そして問題の大規模な性質による必要な調整にほとんど対応していない。 本稿では,両タスクに取り組むための統合価値ベース動的学習フレームワーク(v1d3)を提案する。 フレームワークの中心にはグローバルな共有バリュー関数があり、リアルタイムプラットフォームトランザクションから生成されたオンラインエクスペリエンスを使用して継続的に更新される。 サンプル効率とロバスト性を改善するために,高速オンライン学習と,豊富な履歴ドライバ軌道データを活用する大規模なオフライン学習手法を組み合わせた,新しい定期的なアンサンブル手法を提案する。 これにより、提案するフレームワークは、非常にダイナミックな環境に迅速に適応し、繰り返しパターンに頑健に一般化し、管理車両の人口間の暗黙的な調整を促進することができる。 実世界のデータセットに基づく広範な実験では、両タスクで最近提案された他の方法よりも大幅に改善されている。 特に、v1d3は、kdd cup 2020 rlコンペティションにおけるディスパッチとリプレースの両方のトラックの勝者を上回り、ドライバー総収入とユーザエクスペリエンス関連の指標の両方を改善する最新結果を達成している。

Large ride-hailing platforms, such as DiDi, Uber and Lyft, connect tens of thousands of vehicles in a city to millions of ride demands throughout the day, providing great promises for improving transportation efficiency through the tasks of order dispatching and vehicle repositioning. Existing studies, however, usually consider the two tasks in simplified settings that hardly address the complex interactions between the two, the real-time fluctuations between supply and demand, and the necessary coordinations due to the large-scale nature of the problem. In this paper we propose a unified value-based dynamic learning framework (V1D3) for tackling both tasks. At the center of the framework is a globally shared value function that is updated continuously using online experiences generated from real-time platform transactions. To improve the sample-efficiency and the robustness, we further propose a novel periodic ensemble method combining the fast online learning with a large-scale offline training scheme that leverages the abundant historical driver trajectory data. This allows the proposed framework to adapt quickly to the highly dynamic environment, to generalize robustly to recurrent patterns and to drive implicit coordinations among the population of managed vehicles. Extensive experiments based on real-world datasets show considerably improvements over other recently proposed methods on both tasks. Particularly, V1D3 outperforms the first prize winners of both dispatching and repositioning tracks in the KDD Cup 2020 RL competition, achieving state-of-the-art results on improving both total driver income and user experience related metrics.
翻訳日:2021-05-21 11:02:19 公開日:2021-05-20
# 自己強化型ユーザ嗜好による帯域学習のインセンティブ

Incentivized Bandit Learning with Self-Reinforcing User Preferences ( http://arxiv.org/abs/2105.08869v2 )

ライセンス: Link先を確認
Tianchen Zhou, Jia Liu, Chaosheng Dong, Jingyuan Deng(参考訳) 本稿では,多くの推薦システムにおいて実世界の現象を考慮した新しいマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する: (i)学習エージェントは単独では腕を引っ張ることができず,また,間接的に腕の推進を動機付ける報酬を与える必要がある; (ii)特定の腕の好みを持つユーザに対して報奨が得られれば,類似の腕の好みを持つユーザを引き付けるという意味で,自己強化効果を誘導する。 探索と搾取のトレードオフに対処するだけでなく、新たなMABモデルのもう一つの重要な特徴は報酬のバランスと支払いのインセンティブを得ることである。 エージェントの目標は、固定時間軸$t$に対して総報酬を最大化し、総支払額を低くすることである。 i) ユーザの自己申告嗜好とインセンティブの関係を考慮したランダムアーム選択による新しいmabモデルを提案し, (ii) 非線形フィードバックモデルを用いた多色ポリa urnの特性を利用して, "at-least-$n$explore- then-commit" と "ucb-list" の2つのmabポリシーを提案する。 両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。 我々は,これらの2つのポリシーの性能を実証し検証するために数値シミュレーションを行い,その頑健性について様々な条件下で検討する。

In this paper, we investigate a new multi-armed bandit (MAB) online learning model that considers real-world phenomena in many recommender systems: (i) the learning agent cannot pull the arms by itself and thus has to offer rewards to users to incentivize arm-pulling indirectly; and (ii) if users with specific arm preferences are well rewarded, they induce a "self-reinforcing&quo t; effect in the sense that they will attract more users of similar arm preferences. Besides addressing the tradeoff of exploration and exploitation, another key feature of this new MAB model is to balance reward and incentivizing payment. The goal of the agent is to maximize the total reward over a fixed time horizon $T$ with a low total payment. Our contributions in this paper are two-fold: (i) We propose a new MAB model with random arm selection that considers the relationship of users' self-reinforcing preferences and incentives; and (ii) We leverage the properties of a multi-color Polya urn with nonlinear feedback model to propose two MAB policies termed "At-Least-$n$ Explore-Then-Commit& quot; and "UCB-List". We prove that both policies achieve $O(log T)$ expected regret with $O(log T)$ expected payment over a time horizon $T$. We conduct numerical simulations to demonstrate and verify the performances of these two policies and study their robustness under various settings.
翻訳日:2021-05-21 11:01:54 公開日:2021-05-20
# 胸部X線CTから自動計算した胸部X線上のマスクR-CNNによるCOVID-19肺病変の分画

COVID-19 Lung Lesion Segmentation Using a Sparsely Supervised Mask R-CNN on Chest X-rays Automatically Computed from Volumetric CTs ( http://arxiv.org/abs/2105.08147v2 )

ライセンス: Link先を確認
Vignav Ramesh, Blaine Rister, Daniel L. Rubin(参考訳) 2019年のcovid-19患者の胸部x線は肺疾患の程度を判定するために頻繁に入手され、人工知能モデルの作成に有用なデータ源である。 胸部画像における疾患重症度の評価はCT画像のセグメンテーションに焦点が当てられているが, 新型コロナウイルス患者の胸部X線検査よりもCTの頻度がはるかに低いことから, 胸部X線による肺病変の自動分離は臨床的に有用である可能性がある。 現在、胸部x線と肺病変の注釈が普遍的に不足しており、手作業で肺の不透明度を検査するのは退屈で労働集約的な作業です。 教師付き深層学習(DL)モデルにおける重症度の検出と胸部X線トレーニングデータの増大を図るため,既存のCT画像を利用して,新型コロナウイルスの胸部X線モデルをトレーニングするための前頭投射「ケストX線」画像を生成する。 本稿では,オープンソースの胸部X線と冠状X線プロジェクションの混合データセットを用いて訓練したMask R-CNNを用いた胸部X線上のCOVID-19肺病変の分画自動パイプラインを提案する。 検査では,60個の胸部X線と10個の胸部X線と50個の胸部CT線を混合したデータセットを用いてトレーニングし,IoUスコアが0.81$\pm$ 0.03,0.79$\pm$ 0.03を得た。 我々のモデルは、監督訓練を限定して現在のベースラインをはるかに上回り、胸部X線による新型コロナウイルスの重症度の自動定量化を支援することができる。

Chest X-rays of coronavirus disease 2019 (COVID-19) patients are frequently obtained to determine the extent of lung disease and are a valuable source of data for creating artificial intelligence models. Most work to date assessing disease severity on chest imaging has focused on segmenting computed tomography (CT) images; however, given that CTs are performed much less frequently than chest X-rays for COVID-19 patients, automated lung lesion segmentation on chest X-rays could be clinically valuable. There currently exists a universal shortage of chest X-rays with ground truth COVID-19 lung lesion annotations, and manually contouring lung opacities is a tedious, labor-intensive task. To accelerate severity detection and augment the amount of publicly available chest X-ray training data for supervised deep learning (DL) models, we leverage existing annotated CT images to generate frontal projection "chest X-ray" images for training COVID-19 chest X-ray models. In this paper, we propose an automated pipeline for segmentation of COVID-19 lung lesions on chest X-rays comprised of a Mask R-CNN trained on a mixed dataset of open-source chest X-rays and coronal X-ray projections computed from annotated volumetric CTs. On a test set containing 40 chest X-rays of COVID-19 positive patients, our model achieved IoU scores of 0.81 $\pm$ 0.03 and 0.79 $\pm$ 0.03 when trained on a dataset of 60 chest X-rays and on a mixed dataset of 10 chest X-rays and 50 projections from CTs, respectively. Our model far outperforms current baselines with limited supervised training and may assist in automated COVID-19 severity quantification on chest X-rays.
翻訳日:2021-05-21 11:01:19 公開日:2021-05-20
# 2次元および3次元アプローチによるct画像中のcovid-19検出

COVID-19 Detection in Computed Tomography Images with 2D and 3D Approaches ( http://arxiv.org/abs/2105.08506v2 )

ライセンス: Link先を確認
Sara Atito Ali Ahmed and Mehmet Can Yavuz and Mehmet Umut Sen and Fatih Gulsen and Onur Tutar and Bora Korkmazer and Cesur Samanci and Sabri Sirolu and Rauf Hamid and Ali Ergun Eryurekli and Toghrul Mammadov and Berrin Yanikoglu(参考訳) RT-PCR検査のサプリメントとしてCT(Computed tomography)やラジオグラフィー画像中のCOVID-19の検出が提案されている。 本稿では,スライスベース(2D)とボリュームベース(3D)を組み合わせた,新型コロナウイルス感染症検出のための深層学習アンサンブルを提案する。 2Dシステムは各CTスライスへの感染を個別に検出し、それらを組み合わせて、異なる方法(長期記憶ネットワークの拡張)によって患者レベルの決定を得る。 3dシステムは、ctの全容を1ステップで患者レベルの判断に到達させる。 IST-Cデータセットと呼ばれる新しい高解像度胸部CTスキャンデータセットもこの研究で収集されている。 提案されたアンサンブルは、IST-CovNetと呼ばれ、通常のコントロールやその他の種類の肺病理の新型コロナウイルスを検出するIST-Cデータセットで90.80%の精度と0.95のAUCスコア、および、COVID-19スキャンと通常のコントロールのみからなる一般公開されたMosMedデータセットで93.69%の精度と0.99のAUCスコアを得る。 Istanbul University Cerrahpasa School of Medicineで運用されている。

Detecting COVID-19 in computed tomography (CT) or radiography images has been proposed as a supplement to the definitive RT-PCR test. We present a deep learning ensemble for detecting COVID-19 infection, combining slice-based (2D) and volume-based (3D) approaches. The 2D system detects the infection on each CT slice independently, combining them to obtain the patient-level decision via different methods (averaging and long-short term memory networks). The 3D system takes the whole CT volume to arrive to the patient-level decision in one step. A new high resolution chest CT scan dataset, called the IST-C dataset, is also collected in this work. The proposed ensemble, called IST-CovNet, obtains 90.80% accuracy and 0.95 AUC score overall on the IST-C dataset in detecting COVID-19 among normal controls and other types of lung pathologies; and 93.69% accuracy and 0.99 AUC score on the publicly available MosMed dataset that consists of COVID-19 scans and normal controls only. The system is deployed at Istanbul University Cerrahpasa School of Medicine.
翻訳日:2021-05-21 11:00:45 公開日:2021-05-20
# クロスアクションアテンションを用いたマルチパーソン極端運動予測

Multi-Person Extreme Motion Prediction with Cross-Interaction Attention ( http://arxiv.org/abs/2105.08825v2 )

ライセンス: Link先を確認
Wen Guo, Xiaoyu Bie, Xavier Alameda-Pineda, Francesc Moreno-Noguer(参考訳) 人間の動き予測は、過去の3D骨格の連続から将来の人間のポーズを予測することを目的としている。 この問題は近年注目されているが、ほとんどの場合単独の人間に対処されている。 本稿では,人間による協調作業を含む新しい視点から,この問題を考察する。 本システムでは,2人の対話者を対象とした2つの過去の骨格列を入力とし,それぞれの動作を予測することを目的とする。 本研究では,両者の歴史的情報を活用し,その空間的・時間的距離に拘わらず,自己ポーズと他者のポーズ間の相互依存を予測できる新たな相互行為注意機構を考案する。 このような対話的な状況をトレーニングするデータセットが存在しないため、アクロバティックを行うプロのダンサーによる新しいラボベースの個人インタラクションデータセットであるExPI(Extreme Pose Interaction)をキャプチャした。 ExPIには、30kフレームと60kインスタンスの115のシーケンスと、アノテーション付きの3Dボディポーズと形状が含まれている。 このデータセット上でのクロスインタラクションネットワークを徹底的に評価し、短期予測と長期予測の両方において、各人が独立的に推論するベースラインを一貫して上回っています。 私たちは、データセットとトレイン/テストの分割を共同でリリースして、このトピックに関する将来の研究を促進する予定です。

Human motion prediction aims to forecast future human poses given a sequence of past 3D skeletons. While this problem has recently received increasing attention, it has mostly been tackled for single humans in isolation. In this paper we explore this problem from a novel perspective, involving humans performing collaborative tasks. We assume that the input of our system are two sequences of past skeletons for two interacting persons, and we aim to predict the future motion for each of them. For this purpose, we devise a novel cross interaction attention mechanism that exploits historical information of both persons and learns to predict cross dependencies between self poses and the poses of the other person in spite of their spatial or temporal distance. Since no dataset to train such interactive situations is available, we have captured ExPI (Extreme Pose Interaction), a new lab-based person interaction dataset of professional dancers performing acrobatics. ExPI contains 115 sequences with 30k frames and 60k instances with annotated 3D body poses and shapes. We thoroughly evaluate our cross-interaction network on this dataset and show that both in short-term and long-term predictions, it consistently outperforms baselines that independently reason for each person. We plan to release our code jointly with the dataset and the train/test splits to spur future research on the topic.
翻訳日:2021-05-21 11:00:24 公開日:2021-05-20
# 前立腺MRI超解像のためのカプセルガン

Capsule GAN for Prostate MRI Super-Resolution ( http://arxiv.org/abs/2105.07495v2 )

ライセンス: Link先を確認
Mahdiyar Molahasani Majdabadi and Younhee Choi and S. Deivalakshmi and Seokbum Ko(参考訳) 前立腺癌は成人男性によく見られる疾患である。 カナダ人男性7人に1人がこのがんと診断された。 スーパーレゾリューション(sr)は早期診断を容易にし、多くの命を救える。 本稿では,前立腺MRI SRに対して頑健で正確なモデルを提案する。 このモデルは Prostate-Diagnosis と PROSTATEx データセットに基づいてトレーニングされている。 提案モデルでは,有意なマージンを持つすべての類似度指標において,最先端のプレステートSRモデルよりも優れていた。 新しいタスク固有の類似性評価も導入されている。 重度癌検出のために分類器を訓練し、高分解能画像を扱う際のこのモデルの精度の低下をsrモデルの医療的詳細化能力の評価に利用する。 提案したSRモデルは、効率的で正確な一般医療SRプラットフォームに向けたステップである。

Prostate cancer is a very common disease among adult men. One in seven Canadian men is diagnosed with this cancer in their lifetime. Super-Resolution (SR) can facilitate early diagnosis and potentially save many lives. In this paper, a robust and accurate model is proposed for prostate MRI SR. The model is trained on the Prostate-Diagnosis and PROSTATEx datasets. The proposed model outperformed the state-of-the-art prostate SR model in all similarity metrics with notable margins. A new task-specific similarity assessment is introduced as well. A classifier is trained for severe cancer detection and the drop in the accuracy of this model when dealing with super-resolved images is used for evaluating the ability of medical detail reconstruction of the SR models. The proposed SR model is a step towards an efficient and accurate general medical SR platform.
翻訳日:2021-05-21 11:00:03 公開日:2021-05-20
# 確率ネットワークとキューにおける学習と情報

Learning and Information in Stochastic Networks and Queues ( http://arxiv.org/abs/2105.08769v2 )

ライセンス: Link先を確認
Neil Walton, Kuang Xu(参考訳) 待ち行列システムの安定性と最適化における情報と学習の役割を概観する。 近年,意思決定における情報の役割の増大に支えられた待ち行列システムに,教師あり学習,盗賊学習,強化学習の技法が応用されている。 待ち行列システムへのこれらの領域の適用を合理化するための観測結果と新たな結果を提案する。 我々は、MaxWeight と BackPressure ポリシーが Blackwell の Approachability Theorem の応用であることを証明する。 これは待ち行列理論の結果と逆学習を結びつける。 次に,サービスパラメータ推定のための統計的学習の要件について論じる。 例として、サービス分類にパーセプトロンアルゴリズムを適用する場合、キューサイズの後悔がいかに制限されるかを示す。 次に,意思決定における状態情報の役割について述べる。 ここでは, てんかん情報(不確定なパラメータの情報)と失語症情報(不確定な状態の情報)の役割を対比する。 最後に,強化学習と待ち行列理論の最近の進歩を概観し,現在の研究課題について考察する。

We review the role of information and learning in the stability and optimization of queueing systems. In recent years, techniques from supervised learning, bandit learning and reinforcement learning have been applied to queueing systems supported by increasing role of information in decision making. We present observations and new results that help rationalize the application of these areas to queueing systems. We prove that the MaxWeight and BackPressure policies are an application of Blackwell's Approachability Theorem. This connects queueing theoretic results with adversarial learning. We then discuss the requirements of statistical learning for service parameter estimation. As an example, we show how queue size regret can be bounded when applying a perceptron algorithm to classify service. Next, we discuss the role of state information in improved decision making. Here we contrast the roles of epistemic information (information on uncertain parameters) and aleatoric information (information on an uncertain state). Finally we review recent advances in the theory of reinforcement learning and queueing, as well as, provide discussion on current research challenges.
翻訳日:2021-05-21 10:59:53 公開日:2021-05-20
# ニューラルネットワークの可変性

Variability of Artificial Neural Networks ( http://arxiv.org/abs/2105.08911v2 )

ライセンス: Link先を確認
Yin Zhang and Yueyao Yu(参考訳) 人工ニューラルネットワークをトレーニングしやすくし、他の同等のネットワークよりも望ましいソリューションを生み出しやすい理由は何だろうか? 本稿では,モデルパラメータの固定数の設定の下で,このような問題を研究するための新しい角度を提供する。 可変性の概念を導入し、これは活性化比と負の相関関係を示し、その相関は {Collapse to Constants} (または C2C) と呼ばれる現象と相関する。 スタイル付きモデル問題の実験では、変数が完全に接続されたニューラルネットワークの重要なパフォーマンス指標であることを実証的に検証している。 この可変性の研究から得られた洞察は、新しい効果的なニューラルネットワークアーキテクチャの設計に役立つだろう。

What makes an artificial neural network easier to train and more likely to produce desirable solutions than other comparable networks? In this paper, we provide a new angle to study such issues under the setting of a fixed number of model parameters which in general is the most dominant cost factor. We introduce a notion of variability and show that it correlates positively to the activation ratio and negatively to a phenomenon called {Collapse to Constants} (or C2C), which is closely related but not identical to the phenomenon commonly known as vanishing gradient. Experiments on a styled model problem empirically verify that variability is indeed a key performance indicator for fully connected neural networks. The insights gained from this variability study will help the design of new and effective neural network architectures.
翻訳日:2021-05-21 10:59:38 公開日:2021-05-20
# 音声イベント分類のための教師なし識別学習

Unsupervised Discriminative Learning of Sounds for Audio Event Classification ( http://arxiv.org/abs/2105.09279v2 )

ライセンス: Link先を確認
Sascha Hornauer, Ke Li, Stella X. Yu, Shabnam Ghaffarzadegan, Liu Ren(参考訳) ネットワークベースの音声イベント分類の最近の進歩は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。 このプロセスは、異なるドメイン間での知識伝達を可能にするが、大規模なビジュアルデータセット上でモデルをトレーニングするのは時間を要する。 いくつかのオーディオイベント分類ベンチマークでは、教師なしのモデルを事前訓練する高速で効果的な代替手段が示され、これは音声データにのみ依存するが、ImageNetの事前訓練でオンパーのパフォーマンスを提供する。 さらに、我々の識別学習は、音声データセット間で知識を伝達し、オプションでImageNet事前学習を組み込むことができることを示す。

Recent progress in network-based audio event classification has shown the benefit of pre-training models on visual data such as ImageNet. While this process allows knowledge transfer across different domains, training a model on large-scale visual datasets is time consuming. On several audio event classification benchmarks, we show a fast and effective alternative that pre-trains the model unsupervised, only on audio data and yet delivers on-par performance with ImageNet pre-training. Furthermore, we show that our discriminative audio learning can be used to transfer knowledge across audio datasets and optionally include ImageNet pre-training.
翻訳日:2021-05-21 10:59:28 公開日:2021-05-20