このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210725となっている論文です。

PDF登録状況(公開日: 20210725)

TitleAuthorsAbstract論文公表日・翻訳日
# テキストマイニングにおける潜在意味分析と対応分析の比較

A Comparison of Latent Semantic Analysis and Correspondence Analysis for Text Mining ( http://arxiv.org/abs/2108.06197v1 )

ライセンス: Link先を確認
Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden(参考訳) 潜在意味分析(LSA)と対応解析(CA)は、次元の減少に特異値分解(SVD)を用いる。 本稿では、LAAとCAを理論的観点から比較し、おもちゃの例と著者帰属の例の両方に適用する。 テキストマイニングにおいて、興味は文書と用語の間の関係に向けられる:例えば、どの用語がどの文書でより頻繁に使われるか。 しかし、LSA溶液は限界効果とこれらの関係の混合を示す。 CA は LSA よりも魅力的な性質を持つ。 そのような性質の1つは、CAではマージンの効果を効果的に排除し、CA解は文書と用語間の関係に集中するのに最適であるということである。 3つのメカニズムは文書と用語の重み付けと区別され,これら3つのメカニズムを含む統一フレームワークが提案されている。 著者帰属の例では、オランダの国歌において、議論された方法の適用について説明する。

Both latent semantic analysis (LSA) and correspondence analysis (CA) use a singular value decomposition (SVD) for dimensionality reduction. In this article, LSA and CA are compared from a theoretical point of view and applied in both a toy example and an authorship attribution example. In text mining interest goes out to the relationships among documents and terms: for example, what terms are more often used in what documents. However, the LSA solution displays a mix of marginal effects and these relationships. It appears that CA has more attractive properties than LSA. One such property is that, in CA, the effect of the margins is effectively eliminated, so that the CA solution is optimally suited to focus on the relationships among documents and terms. Three mechanisms are distinguished to weight documents and terms, and a unifying framework is proposed that includes these three mechanisms and includes both CA and LSA as special cases. In the authorship attribution example, the national anthem of the Netherlands, the application of the discussed methods is illustrated.
翻訳日:2021-08-22 14:35:26 公開日:2021-07-25
# 画像によるcovid-19の検出と診断のための機械学習技術に関する調査

A Survey of Machine Learning Techniques for Detecting and Diagnosing COVID-19 from Imaging ( http://arxiv.org/abs/2108.04344v1 )

ライセンス: Link先を確認
Aishwarza Panday, Muhammad Ashad Kabir, Nihad Karim Chowdhury(参考訳) 逆転写-ポリメラーゼ連鎖反応(RT-PCR)の高可用性と高コストのため、医療画像からCOVID-19を検出するための機械学習技術が提案されている。 本研究の目的は、異なる機械学習技術を用いて胸部X線およびCTスキャン画像から新型コロナウイルスを検出し診断した研究論文を体系的にレビューし、評価し、合成することである。 関連文献データベースで構造化された文献検索を行い,再現性,高品質な研究のみに焦点を当てた調査を行った。 包含基準に基づいて論文を選定した。 本調査では,包括的基準を満たす980ドルの項目をレビューした。 データ収集,前処理,特徴抽出,分類,可視化など,covid-19に関連する胸部画像解析技術の全パイプラインを調査した。 我々は、医療画像の最新の進歩を描写するために、CTスキャンとX線が広く使われていると考えている。 今回の調査は、さまざまな機械学習技術と、胸部画像からのCOVID-19の検出と診断におけるパフォーマンスに関する貴重な洞察を提供する。 最後に、機械学習技術を用いたcovid-19検出の課題と限界、研究の今後の方向性について論じる。

Due to the limited availability and high cost of the reverse transcription-polyme rase chain reaction (RT-PCR) test, many studies have proposed machine learning techniques for detecting COVID-19 from medical imaging. The purpose of this study is to systematically review, assess, and synthesize research articles that have used different machine learning techniques to detect and diagnose COVID-19 from chest X-ray and CT scan images. A structured literature search was conducted in the relevant bibliographic databases to ensure that the survey solely centered on reproducible and high-quality research. We selected papers based on our inclusion criteria. In this survey, we reviewed $98$ articles that fulfilled our inclusion criteria. We have surveyed a complete pipeline of chest imaging analysis techniques related to COVID-19, including data collection, pre-processing, feature extraction, classification, and visualization. We have considered CT scans and X-rays as both are widely used to describe the latest developments in medical imaging to detect COVID-19. This survey provides researchers with valuable insights into different machine learning techniques and their performance in the detection and diagnosis of COVID-19 from chest imaging. At the end, the challenges and limitations in detecting COVID-19 using machine learning techniques and the future direction of research are discussed.
翻訳日:2021-08-15 11:30:25 公開日:2021-07-25
# (参考訳) 地球規模における水温時系列予測可能性の説明と予測のための大規模特徴抽出

Massive feature extraction for explaining and foretelling hydroclimatic time series forecastability at the global scale ( http://arxiv.org/abs/2108.00846v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Hristos Tyralis, Ilias G. Pechlivanidis, Salvatore Grimaldi, Elena Volpi(参考訳) 統計分析や記述的特徴付けは、時系列の予測可能性に関する情報を提供すると考えられている。 このような仮定によって示唆される科学的関心にもかかわらず、記述的時系列特徴(時間的依存、エントロピー、季節性、傾向、非線形性特徴など)と実際の時系列予測可能性(過去の予測の発行と評価によって定量化)の関係は文献でほとんど研究されていない。 本研究では,このような関係を解明し,水環境予測可能性の理解に活用することで,このギャップを埋めることを目的としている。 この目的のために、57の記述的特徴を含むさまざまな(主に水文学の新しい)概念とメソッドをまとめて、体系的なフレームワークに従います。 このフレームワークを3つのグローバルデータセットに適用する。 これらのデータセットは, 月間気温, 降水量, 河川流量の時系列で構成されているため, 地球規模での温暖化予測可能性について, 信頼性の高いキャラクタリゼーションと解釈を行うことができる。 Nash-Sutcliffe効率のこの予測可能性は、いくつかの記述的特徴と強く関連している。 さらに,このような記述的情報が時系列で利用可能であれば,その将来予測の品質をある程度の信頼性で予見することができ,かつ (ii) 予測可能性の推測と予測の効率に応じて特徴をランク付けすることができることを示す。 空間予測可能性パターンも実験によって明らかにされる。 大量の特徴抽出と特徴に基づく時系列クラスタリングにより、このようなパターの包括的解釈が可能であることが示されている。

Statistical analyses and descriptive characterizations are sometimes assumed to be offering information on time series forecastability. Despite the scientific interest suggested by such assumptions, the relationships between descriptive time series features (e.g., temporal dependence, entropy, seasonality, trend and nonlinearity features) and actual time series forecastability (quantified by issuing and assessing forecasts for the past) are scarcely studied and quantified in the literature. In this work, we aim to fill in this gap by investigating such relationships, and the way that they can be exploited for understanding hydroclimatic forecastability. To this end, we follow a systematic framework bringing together a variety of -- mostly new for hydrology -- concepts and methods, including 57 descriptive features. We apply this framework to three global datasets. As these datasets comprise over 13 000 monthly temperature, precipitation and river flow time series from several continents and hydroclimatic regimes, they allow us to provide trustable characterizations and interpretations of 12-month ahead hydroclimatic forecastability at the global scale. We find that this forecastability in terms of Nash-Sutcliffe efficiency is strongly related to several descriptive features. We further (i) show that, if such descriptive information is available for a time series, we can even foretell the quality of its future forecasts with a considerable degree of confidence, and (ii) rank the features according to their efficiency in inferring and foretelling forecastability. Spatial forecastability patterns are also revealed through our experiments. A comprehensive interpretation of such patters through massive feature extraction and feature-based time series clustering is shown to be possible.
翻訳日:2021-08-08 11:19:32 公開日:2021-07-25
# 知っておくべきこと - 離散イベントシステムにおける知識と行動の結合

Do What You Know: Coupling Knowledge with Action in Discrete-Event Systems ( http://arxiv.org/abs/2108.02000v1 )

ライセンス: Link先を確認
Richard Ean (1), Karen Rudie (1) ((1) Queen's University, Kingston, Canada)(参考訳) 非バイナリ制御を伴う分散離散イベントシステムの疫学モデルを示す。 このフレームワークは、条件制御決定に関する既存の作業と、離散イベントシステムにおける知識に関する正式な推論に関する既存の作業を組み合わせる。 提示されたモデルの新規性は、問題解決可能性に必要な必要十分条件が、監督者が取るべき行動をカプセル化することである。 この知識と行動の直接的な結合 -- 自然言語を模倣した形式的構造 -- により、問題条件が失敗した場合、問題要件の修正方法を決定するのが容易になります。

An epistemic model for decentralized discrete-event systems with non-binary control is presented. This framework combines existing work on conditional control decisions with existing work on formal reasoning about knowledge in discrete-event systems. The novelty in the model presented is that the necessary and sufficient conditions for problem solvability encapsulate the actions that supervisors must take. This direct coupling between knowledge and action -- in a formalism that mimics natural language -- makes it easier, when the problem conditions fail, to determine how the problem requirements should be revised.
翻訳日:2021-08-08 11:04:00 公開日:2021-07-25
# オンラインソーシャルネットワークにおける感情分析を用いた群集行動に関する研究

A Study on Herd Behavior Using Sentiment Analysis in Online Social Network ( http://arxiv.org/abs/2108.01728v1 )

ライセンス: Link先を確認
Suchandra Dutta, Dhrubasish Sarkar, Sohom Roy, Dipak K. Kole, Premananda Jana(参考訳) ソーシャルメディアプラットフォームは最近盛んなので、大量のデータが生成される。 簡潔で明確な声明が含まれているため、何百万人もの人々が毎日マイクロブログサイトで自分の考えを投稿している。 本稿では,オンラインソーシャルネットワーキングサイトからの批判的意見を予測するために,ボリューム,デリケート,ソーシャルネットワークに対する多様な戦略の能力を表現し,分析する。 特定の検索の探索において、人々の思考は重要な役割を担っている。 ソーシャルメディアはここ数十年で良いメディアとなり、世界中の意見を共有している。 感情分析や意見マイニングは、一般大衆の意見や考えを抽出するためのツールである。 経済、政治、社会といった一つの場所で起こることは、ますます相互に繋がる世界において、他の多くのサイトで大規模なチェーンの公開反応を引き起こす可能性がある。 本研究は,ソーシャルメディアコンテンツを用いた感情分析手法の評価と,主観性と集団行動とクラスタリング係数との関連性,ならびに選挙結果の予測を試みるものである(西ベンガルにおける2021年の選挙)。 これは、ソーシャルメディア全体の世論を評価することによって、次期選挙の結果を推定することを目的とした感情分析の実装である。 本論文は,他の分野におけるアイデアの有用性に関する簡単な議論セクションも設けた。

Social media platforms are thriving nowadays, so a huge volume of data is produced. As it includes brief and clear statements, millions of people post their thoughts on microblogging sites every day. This paper represents and analyze the capacity of diverse strategies to volumetric, delicate, and social networks to predict critical opinions from online social networking sites. In the exploration of certain searching for relevant, the thoughts of people play a crucial role. Social media becomes a good outlet since the last decades to share the opinions globally. Sentiment analysis as well as opinion mining is a tool that is used to extract the opinions or thoughts of the common public. An occurrence in one place, be it economic, political, or social, may trigger large-scale chain public reaction across many other sites in an increasingly interconnected world. This study demonstrates the evaluation of sentiment analysis techniques using social media contents and creating the association between subjectivity with herd behavior and clustering coefficient as well as tries to predict the election result (2021 election in West Bengal). This is an implementation of sentiment analysis targeted at estimating the results of an upcoming election by assessing the public's opinion across social media. This paper also has a short discussion section on the usefulness of the idea in other fields.
翻訳日:2021-08-08 11:03:51 公開日:2021-07-25
# リレーショナルブースト回帰木

Relational Boosted Regression Trees ( http://arxiv.org/abs/2107.12373v1 )

ライセンス: Link先を確認
Sonia Cromp, Alireza Samadian, Kirk Pruhs(参考訳) 多くのタスクはリレーショナルデータベースに格納されたデータを使用して、強化された回帰ツリーモデルをトレーニングする。 本稿では,強化回帰木を訓練するためのgreedyアルゴリズムのリレーショナル適応について述べる。 ブースティングアルゴリズムのランタイムを支配しているデータセットの平方残差の和を計算するサブプロブレムに対して、テンソルスケッチ手法を用いて$(1 + \epsilon)$-approxima tionを提供する。 この近似をリレーショナル強化回帰木アルゴリズムに組み込むことで、同様のモデルパラメータを学習するが、漸近的に優れたランタイムを持つ。

Many tasks use data housed in relational databases to train boosted regression tree models. In this paper, we give a relational adaptation of the greedy algorithm for training boosted regression trees. For the subproblem of calculating the sum of squared residuals of the dataset, which dominates the runtime of the boosting algorithm, we provide a $(1 + \epsilon)$-approxima tion using the tensor sketch technique. Employing this approximation within the relational boosted regression trees algorithm leads to learning similar model parameters, but with asymptotically better runtime.
翻訳日:2021-07-28 14:28:36 公開日:2021-07-25
# (参考訳) ダイナミックロスネットワークによるビデオキャプションの高速化 [全文訳有]

Boosting Video Captioning with Dynamic Loss Network ( http://arxiv.org/abs/2107.11707v1 )

ライセンス: CC BY 4.0
Nasibullah, Partha Pratim Mohanta(参考訳) ビデオキャプションは、映像検索、ビデオ監視、視覚障害者支援、人間と機械のインターフェイスなど、多くの現実のアプリケーションを持つビジョンと言語の交差点における困難な問題の1つだ。 近年の深層学習に基づく手法は有望な結果を示しているが、他の視覚タスク(画像分類、物体検出など)よりもまだ下位にある。 既存のビデオキャプション手法の重大な欠点は、デファクト評価指標(BLEU, METEOR, CIDER, ROUGE)とは無関係なクロスエントロピー損失関数に最適化されることである。 本稿では,評価指標を直接反映したフィードバック信号を提供する動的損失ネットワーク(DLN)を導入することで,その欠点に対処する。 Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSRVTT) のデータセットは,従来の手法よりも優れていた。

Video captioning is one of the challenging problems at the intersection of vision and language, having many real-life applications in video retrieval, video surveillance, assisting visually challenged people, Human-machine interface, and many more. Recent deep learning-based methods have shown promising results but are still on the lower side than other vision tasks (such as image classification, object detection). A significant drawback with existing video captioning methods is that they are optimized over cross-entropy loss function, which is uncorrelated to the de facto evaluation metrics (BLEU, METEOR, CIDER, ROUGE).In other words, cross-entropy is not a proper surrogate of the true loss function for video captioning. This paper addresses the drawback by introducing a dynamic loss network (DLN), which provides an additional feedback signal that directly reflects the evaluation metrics. Our results on Microsoft Research Video Description Corpus (MSVD) and MSR-Video to Text (MSRVTT) datasets outperform previous methods.
翻訳日:2021-07-28 02:59:50 公開日:2021-07-25
# (参考訳) 介入分布の効率的な推定 [全文訳有]

Efficient inference of interventional distributions ( http://arxiv.org/abs/2107.11712v1 )

ライセンス: CC BY 4.0
Arnab Bhattacharyya, Sutanu Gayen, Saravanan Kandasamy, Vedant Raval, N. V. Vinodchandran(参考訳) 有限個の観測値から因果ベイズネットワーク内の干渉分布を効率的に推定する問題を考察する。 与えられた因果グラフ上の可観測変数のセット $\mathbf{v}$ 上の因果モデルとして $\mathcal{p}$ とする。 集合 $\mathbf{x},\mathbf{y}\subseteq \mathbf{v}$, and set ${\bf x}$ to $\mathbf{x}$, let $p_{\bf x}(\mathbf{y})$ は変数 ${\bf x}$ に対する介入${\bf x}$ に関して$\mathbf{y}$ 上の介入分布を表す。 Shpitser and Pearl (AAAI 2006), building on the work of Tian and Pearl (AAAI 2001), given a exact Characterization of the class of causal graphs that the interventional distribution $P_{\bf x}({\mathbf{Y}})$ can be uniquely determined。 shpitser-pearlアルゴリズムの最初の効率的なバージョンを与える。 特に、自然仮定の下では、可観測変数 $\mathbf{v}$, a set $\mathbf{x} \subseteq \mathbf{v}$ of bounded size, outputs succinct descriptions of a evaluator and a distribution $\hat{p}$ that is $\varepsilon$-close (in total variation distance) to $p_{\bf x}({\mathbf{y}})$ where $y=\mathbf{v}\setminus \mathbf{x}$, if $p_{\bf x}(\mathbf{y})$, if $p_{\bf x}(\mathbf{y})$ の因果グラフを入力する多項式時間アルゴリズムを与える。 また、$\mathbf{y}$ が任意の集合である場合、グラフ同型問題を含む統計的ゼロ知識証明を持つすべての問題が効率的なランダム化アルゴリズムを持つ場合を除き、$\varepsilon$-closeから$p_{\bf x}({\mathbf{y}})$となる分布の蒸発器を出力する効率的なアルゴリズムは存在しないことを示した。

We consider the problem of efficiently inferring interventional distributions in a causal Bayesian network from a finite number of observations. Let $\mathcal{P}$ be a causal model on a set $\mathbf{V}$ of observable variables on a given causal graph $G$. For sets $\mathbf{X},\mathbf{Y}\subseteq \mathbf{V}$, and setting ${\bf x}$ to $\mathbf{X}$, let $P_{\bf x}(\mathbf{Y})$ denote the interventional distribution on $\mathbf{Y}$ with respect to an intervention ${\bf x}$ to variables ${\bf x}$. Shpitser and Pearl (AAAI 2006), building on the work of Tian and Pearl (AAAI 2001), gave an exact characterization of the class of causal graphs for which the interventional distribution $P_{\bf x}({\mathbf{Y}})$ can be uniquely determined. We give the first efficient version of the Shpitser-Pearl algorithm. In particular, under natural assumptions, we give a polynomial-time algorithm that on input a causal graph $G$ on observable variables $\mathbf{V}$, a setting ${\bf x}$ of a set $\mathbf{X} \subseteq \mathbf{V}$ of bounded size, outputs succinct descriptions of both an evaluator and a generator for a distribution $\hat{P}$ that is $\varepsilon$-close (in total variation distance) to $P_{\bf x}({\mathbf{Y}})$ where $Y=\mathbf{V}\setminus \mathbf{X}$, if $P_{\bf x}(\mathbf{Y})$ is identifiable. We also show that when $\mathbf{Y}$ is an arbitrary set, there is no efficient algorithm that outputs an evaluator of a distribution that is $\varepsilon$-close to $P_{\bf x}({\mathbf{Y}})$ unless all problems that have statistical zero-knowledge proofs, including the Graph Isomorphism problem, have efficient randomized algorithms.
翻訳日:2021-07-28 02:52:04 公開日:2021-07-25
# (参考訳) 音声言語理解のための統合的・ドメイン適応的アプローチ [全文訳有]

A Joint and Domain-Adaptive Approach to Spoken Language Understanding ( http://arxiv.org/abs/2107.11768v1 )

ライセンス: CC BY 4.0
Linhao Zhang, Yu Shi, Linjun Shou, Ming Gong, Houfeng Wang, Michael Zeng(参考訳) Spoken Language Understanding (SLU)は、インテント検出(ID)とスロットフィリング(SF)の2つのサブタスクで構成されている。 SLUには2つの研究線がある。 1つはこれら2つのサブタスクに共同で取り組み、予測精度を向上させ、もう1つはサブタスクのドメイン適応能力に焦点を当てている。 本稿では,これら2つの研究ラインを橋渡しし,SLUに対する共同およびドメイン適応アプローチを提案する。 制約付き生成タスクとしてSLUを定式化し、ドメイン固有オントロジーに基づく動的語彙を利用する。 ASMixed と MTOD のデータセット上で実験を行い、従来の最先端関節モデルと競合する性能を実現する。 また,共同モデルが新しい領域に効果的に適応できることを示した。

Spoken Language Understanding (SLU) is composed of two subtasks: intent detection (ID) and slot filling (SF). There are two lines of research on SLU. One jointly tackles these two subtasks to improve their prediction accuracy, and the other focuses on the domain-adaptation ability of one of the subtasks. In this paper, we attempt to bridge these two lines of research and propose a joint and domain adaptive approach to SLU. We formulate SLU as a constrained generation task and utilize a dynamic vocabulary based on domain-specific ontology. We conduct experiments on the ASMixed and MTOD datasets and achieve competitive performance with previous state-of-the-art joint models. Besides, results show that our joint model can be effectively adapted to a new domain.
翻訳日:2021-07-28 02:31:36 公開日:2021-07-25
# (参考訳) 集中学習:対話状態追跡のための階層型動的コピーネットワーク [全文訳有]

Learn to Focus: Hierarchical Dynamic Copy Network for Dialogue State Tracking ( http://arxiv.org/abs/2107.11778v1 )

ライセンス: CC BY 4.0
Linhao Zhang, Houfeng Wang(参考訳) 近年,タスク指向対話システムの主要なコンポーネントである対話状態追跡(dst)に取り組むために,エンコーダ・デコーダフレームワークの利用が研究されている。 しかし、彼らはマルチターン対話をフラットなシーケンスとみなし、シーケンスが長い場合に有用な情報に集中できない。 本稿では,最も有益なターンに着目し,対話コンテキストからスロット値を抽出することを容易にする階層型動的コピーネットワーク(hdcn)を提案する。 エンコーダ・デコーダ・フレームワークに基づいて,ワード・ターンレベルで2つの注意レベルを計算し,最後にコピー分布を得るために再正規化する階層的コピー・アプローチを採用する。 フォーカス損失項は、最も情報性の高いターンに最も高いターンレベルの注意重みを割り当てるようモデルに促すために使用される。 実験の結果,MultiWOZ 2.1データセットでは46.76%のジョイント精度が得られた。

Recently, researchers have explored using the encoder-decoder framework to tackle dialogue state tracking (DST), which is a key component of task-oriented dialogue systems. However, they regard a multi-turn dialogue as a flat sequence, failing to focus on useful information when the sequence is long. In this paper, we propose a Hierarchical Dynamic Copy Network (HDCN) to facilitate focusing on the most informative turn, making it easier to extract slot values from the dialogue context. Based on the encoder-decoder framework, we adopt a hierarchical copy approach that calculates two levels of attention at the word- and turn-level, which are then renormalized to obtain the final copy distribution. A focus loss term is employed to encourage the model to assign the highest turn-level attention weight to the most informative turn. Experimental results show that our model achieves 46.76% joint accuracy on the MultiWOZ 2.1 dataset.
翻訳日:2021-07-28 02:18:06 公開日:2021-07-25
# (参考訳) コメントの制御と多角的生成に向けて [全文訳有]

Towards Controlled and Diverse Generation of Article Comments ( http://arxiv.org/abs/2107.11781v1 )

ライセンス: CC BY 4.0
Linhao Zhang, Houfeng Wang(参考訳) 近年、多くの研究が記事の自動コメントに注目している。 しかし、以前の研究のほとんどがコメントの制御可能な生成に焦点を当てている。 さらに、鈍いコメントや一般的なコメントも生成する傾向があり、実用的なアプリケーションはさらに制限される。 本稿では、生成したコメントの感情を明示的に制御できるシステムを構築することにより、コメントの制御可能な生成に向けて第一歩を踏み出す。 これを実現するために,各感情カテゴリを組込みと関連付け,動的融合機構を採用し,これをデコーダに融合する。 さらに、文レベルの感情分類器を用いて、モデルに望ましい感情を表現するコメントを生成するよう誘導する。 生成したコメントの多様性を高めるために,モデルが入力記事からの単語を直接コピーできる階層的コピー機構を提案する。 また,sentenceの多様性を高めるために,制限ビーム探索 (rbs) アルゴリズムを提案する。 実験結果から,本モデルは所望の感情を高精度に表現する情報的・多様なコメントを生成できることがわかった。

Much research in recent years has focused on automatic article commenting. However, few of previous studies focus on the controllable generation of comments. Besides, they tend to generate dull and commonplace comments, which further limits their practical application. In this paper, we make the first step towards controllable generation of comments, by building a system that can explicitly control the emotion of the generated comments. To achieve this, we associate each kind of emotion category with an embedding and adopt a dynamic fusion mechanism to fuse this embedding into the decoder. A sentence-level emotion classifier is further employed to better guide the model to generate comments expressing the desired emotion. To increase the diversity of the generated comments, we propose a hierarchical copy mechanism that allows our model to directly copy words from the input articles. We also propose a restricted beam search (RBS) algorithm to increase intra-sentence diversity. Experimental results show that our model can generate informative and diverse comments that express the desired emotions with high accuracy.
翻訳日:2021-07-28 02:07:08 公開日:2021-07-25
# (参考訳) 組合せ最適化問題の解法における人間-アルゴリズム協調の力 [全文訳有]

Power of human-algorithm collaboration in solving combinatorial optimization problems ( http://arxiv.org/abs/2107.11784v1 )

ライセンス: CC BY 4.0
Tapani Toivonen(参考訳) 多くの組合せ最適化問題は、正確にあるいは近似によって解くには難解であると考えられている。 そのような問題の例として、複雑性理論の標準的な仮定の下では、最小指数時間で解くことも多項式係数内で効率的に近似することもできない最大クランクがある。 多項式時間アルゴリズムが専門家の $poly(n)$ から有意なガウス前処理を問い合わせることができれば、乗算係数 $\epsilon$ まで期待して組合せ最適化問題のクラスを効率的に解くことができ、ここで $\epsilon$ は任意の定数である。 提案手法は理論的なものに過ぎないが,通常難解であると考えられるこれらの問題を解決する方法に新たな光を当てた。

Many combinatorial optimization problems are often considered intractable to solve exactly or by approximation. An example of such problem is maximum clique which -- under standard assumptions in complexity theory -- cannot be solved in sub-exponential time or be approximated within polynomial factor efficiently. We show that if a polynomial time algorithm can query informative Gaussian priors from an expert $poly(n)$ times, then a class of combinatorial optimization problems can be solved efficiently in expectation up to a multiplicative factor $\epsilon$ where $\epsilon$ is arbitrary constant. While our proposed methods are merely theoretical, they cast new light on how to approach solving these problems that have been usually considered intractable.
翻訳日:2021-07-28 01:53:25 公開日:2021-07-25
# (参考訳) bnmonitor Rパッケージを用いたベイズネットワークの感度とロバスト性解析 [全文訳有]

Sensitivity and robustness analysis in Bayesian networks with the bnmonitor R package ( http://arxiv.org/abs/2107.11785v1 )

ライセンス: CC BY 4.0
Manuele Leonelli, Ramsiya Ramanathan, Rachel L. Wilkerson(参考訳) ベイズネットワーク(英: Bayesian network)は、複雑な運用システムのリスクアセスメントに広く用いられているモデルである。 今では複数のアプローチと実装済みのソフトウェアがあり、データ学習やエキスパートの理解を通じて構築を導く。 しかし、構築されたベイズネットワークは、実用的なリスク評価に使用できる前に検証する必要がある。 ここでは、bnmonitor rパッケージ(ベイズネットワークの検証のための最初の包括的なソフトウェア)の使用例を示す。 医療データセット上でbnmonitorを用いた応用データ分析を行い、その広範囲な機能の利用を図示する。

Bayesian networks are a class of models that are widely used for risk assessment of complex operational systems. There are now multiple approaches, as well as implemented software, that guide their construction via data learning or expert elicitation. However, a constructed Bayesian network needs to be validated before it can be used for practical risk assessment. Here, we illustrate the usage of the bnmonitor R package: the first comprehensive software for the validation of a Bayesian network. An applied data analysis using bnmonitor is carried out over a medical dataset to illustrate the use of its wide array of functions.
翻訳日:2021-07-28 01:41:07 公開日:2021-07-25
# (参考訳) 深層学習に基づく凍結部からFFPE翻訳 [全文訳有]

Deep Learning-based Frozen Section to FFPE Translation ( http://arxiv.org/abs/2107.11786v1 )

ライセンス: CC BY 4.0
Kutsev Bengisu Ozyoruk, Sermet Can, Guliz Irem Gokceler, Kayhan Basak, Derya Demir, Gurdeniz Serin, Uguray Payam Hacisalihoglu, Berkan Darbaz, Ming Y. Lu, Tiffany Y. Chen, Drew F. K. Williamson, Funda Yilmaz, Faisal Mahmood, Mehmet Turan(参考訳) 凍結切片 (FS) は外科手術中の組織を顕微鏡的に評価する方法である。 手術の高速化により、病理医は腫瘍のマージンや悪性度などの重要な顕微鏡的特徴を迅速に評価し、外科的意思決定をガイドし、手術の経過を最小化することができる。 しかし、FSは核氷結晶、圧縮、切削人工物など多くの誤解を招く人工構造物(考古学的人工物)を導入する傾向があり、病理学者のタイムリーかつ正確な診断を妨げている。 一方, ホルマリン固定法とパラフィン埋め込み法(FFPE)の金標準組織調製法は画像品質を著しく向上させるが, 非常に時間を要する(12~48時間)であり, 術中使用には適さない。 本稿では,凍結切断された全スライディング画像(FS-WSI)を全スライディングFFPE画像に数分で変換することにより,FS画質を向上させる人工知能(AI)手法を提案する。 AI-FFPEは、FS入力画像と臨床的に関係のある特徴を保存したFFPEスタイルの画像との間に確立された自己規則化メカニズムを活用しながら、アーティファクトに特に重点を置く注目機構のガイダンスでFSアーティファクトを修正する。 その結果, 組織処理時間を著しく延長することなく, ffpe型画像の生成に成功し, 診断精度が向上した。

Frozen sectioning (FS) is the preparation method of choice for microscopic evaluation of tissues during surgical operations. The high speed of procedure allows pathologists to rapidly assess the key microscopic features, such as tumor margins and malignant status to guide surgical decision-making and minimise disruptions to the course of the operation. However, FS is prone to introducing many misleading artificial structures (histological artefacts), such as nuclear ice crystals, compression, and cutting artefacts, hindering timely and accurate diagnostic judgement of the pathologist. On the other hand, the gold standard tissue preparation technique of formalin-fixation and paraffin-embedding (FFPE) provides significantly superior image quality, but is a very time-consuming process (12-48 hours), making it unsuitable for intra-operative use. In this paper, we propose an artificial intelligence (AI) method that improves FS image quality by computationally transforming frozen-sectioned whole-slide images (FS-WSIs) into whole-slide FFPE-style images in minutes. AI-FFPE rectifies FS artefacts with the guidance of an attention-mechanism that puts a particular emphasis on artefacts while utilising a self-regularization mechanism established between FS input image and synthesized FFPE-style image that preserves clinically relevant features. As a result, AI-FFPE method successfully generates FFPE-style images without significantly extending tissue processing time and consequently improves diagnostic accuracy.
翻訳日:2021-07-28 01:28:06 公開日:2021-07-25
# (参考訳) 機械学習を用いた文字スポッティング [全文訳有]

Character Spotting Using Machine Learning Techniques ( http://arxiv.org/abs/2107.11795v1 )

ライセンス: CC0 1.0
P Preethi and Hrishikesh Viswanath(参考訳) 本研究は、画像として提示されるテキストの文字を分割するために実装された機械学習アルゴリズムの比較を示す。 アルゴリズムは、整列していないテキストで劣化した文書を扱うよう設計されている。 本稿では,文字スポッティングを行うための支援ベクトルマシン,K-Nearest Neighborアルゴリズム,エンコーダネットワークの利用について検討する。 文字スポッティングは、ホワイトスペースで区切られた領域を選択することによって、テキストストリームから潜在的文字を抽出する。

This work presents a comparison of machine learning algorithms that are implemented to segment the characters of text presented as an image. The algorithms are designed to work on degraded documents with text that is not aligned in an organized fashion. The paper investigates the use of Support Vector Machines, K-Nearest Neighbor algorithm and an Encoder Network to perform the operation of character spotting. Character Spotting involves extracting potential characters from a stream of text by selecting regions bound by white space.
翻訳日:2021-07-28 01:14:23 公開日:2021-07-25
# (参考訳) 任意形状のシーンテキスト検出のための総合的研究 [全文訳有]

Comprehensive Studies for Arbitrary-shape Scene Text Detection ( http://arxiv.org/abs/2107.11800v1 )

ライセンス: CC BY 4.0
Pengwen Dai, Xiaochun Cao(参考訳) 近年,シーンテキスト検出手法が数多く提案されている。 その多くは、最先端のパフォーマンスを達成したと宣言している。 しかしながら、一貫性のない設定(トレーニングデータ、バックボーンネットワーク、マルチスケール機能融合、評価プロトコルなど)が多いため、パフォーマンス比較は不公平である。 これらの様々な設定は、提案されたコアテクニックの長所と短所を分解する。 本稿では,一貫性のない設定を慎重に検討・分析し,ボトムアップに基づくシーンテキスト検出のための統一フレームワークを提案する。 統一されたフレームワークの下では,非コアモジュールの一貫した設定を保証し,テキスト輪郭上の回帰点,予測補助情報によるクラスタリング画素,学習したリンク付き接続コンポーネントのグループ化など,任意の形式のシーンテキストを記述する表現を主に検討する。 包括的調査と精巧な分析により、既存の手法間の性能差を理解することの障害を解消するだけでなく、公正な比較で過去のモデルの利点と欠点を明らかにする。

Numerous scene text detection methods have been proposed in recent years. Most of them declare they have achieved state-of-the-art performances. However, the performance comparison is unfair, due to lots of inconsistent settings (e.g., training data, backbone network, multi-scale feature fusion, evaluation protocols, etc.). These various settings would dissemble the pros and cons of the proposed core techniques. In this paper, we carefully examine and analyze the inconsistent settings, and propose a unified framework for the bottom-up based scene text detection methods. Under the unified framework, we ensure the consistent settings for non-core modules, and mainly investigate the representations of describing arbitrary-shape scene texts, e.g., regressing points on text contours, clustering pixels with predicted auxiliary information, grouping connected components with learned linkages, etc. With the comprehensive investigations and elaborate analyses, it not only cleans up the obstacle of understanding the performance differences between existing methods but also reveals the advantages and disadvantages of previous models under fair comparisons.
翻訳日:2021-07-28 01:10:42 公開日:2021-07-25
# (参考訳) エピグラフィカルスクリプトのデノジングとセグメンテーション [全文訳有]

Denoising and Segmentation of Epigraphical Scripts ( http://arxiv.org/abs/2107.11801v1 )

ライセンス: CC0 1.0
P Preethi and Hrishikesh Viswanath(参考訳) 本稿では,ハラリック特徴を用いた画像の切り出しと,さらに人工ニューラルネットワークを用いた文字分割手法を提案する。 画像はカーネルに分割され、それぞれがハラリック特徴生成関数が呼ばれるglcm(gray level co-occurrence matrix)に変換され、14の要素に対応する14の要素からなる配列がハラリック値と対応するノイズ/テキスト分類が辞書を形成し、カーネル比較により画像の非ノイズ化に使用される。 セグメンテーションはドキュメントから文字を抽出するプロセスであり、明示的な境界マーカーであるホワイトスペースによって文字が分離されたときに使用できる。 セグメンテーションは多くの自然言語処理問題の第一段階である。 本稿ではニューラルネットワークを用いたセグメンテーションのプロセスについて述べる。 文書の文字を分割する手法は数多く存在するが,本論文はニューラルネットワークを用いて文字を分割する精度にのみ関係している。 文字を正しく分割することは必須であり、それができないと自然言語処理ツールによる誤認識につながる。 ニューラルネットワークは、最大89%の精度を達成するために使用された。 この方法は文字が白文字で区切られた言語に適している。 しかし、この方法は、言語が接続された文字を多用する場合、受け入れられる結果を与えることができない。 例として、インド北部で主に使われているデヴァナガリ文字がある。

This paper is a presentation of a new method for denoising images using Haralick features and further segmenting the characters using artificial neural networks. The image is divided into kernels, each of which is converted to a GLCM (Gray Level Co-Occurrence Matrix) on which a Haralick Feature generation function is called, the result of which is an array with fourteen elements corresponding to fourteen features The Haralick values and the corresponding noise/text classification form a dictionary, which is then used to de-noise the image through kernel comparison. Segmentation is the process of extracting characters from a document and can be used when letters are separated by white space, which is an explicit boundary marker. Segmentation is the first step in many Natural Language Processing problems. This paper explores the process of segmentation using Neural Networks. While there have been numerous methods to segment characters of a document, this paper is only concerned with the accuracy of doing so using neural networks. It is imperative that the characters be segmented correctly, for failing to do so will lead to incorrect recognition by Natural language processing tools. Artificial Neural Networks was used to attain accuracy of upto 89%. This method is suitable for languages where the characters are delimited by white space. However, this method will fail to provide acceptable results when the language heavily uses connected letters. An example would be the Devanagari script, which is predominantly used in northern India.
翻訳日:2021-07-28 00:55:09 公開日:2021-07-25
# (参考訳) 自由エネルギー原理による強化模倣学習

Reinforced Imitation Learning by Free Energy Principle ( http://arxiv.org/abs/2107.11811v1 )

ライセンス: CC BY 4.0
Ryoya Ogishima, Izumi Karino, Yasuo Kuniyoshi(参考訳) 強化学習(rl)は、特にスパースワード設定において、大量の探索を必要とする。 シミュレーション学習(IL)は、専門家のデモンストレーションから探究なしで学ぶことができるが、専門家のパフォーマンスを超えず、デモンストレーションと実行の間の分散シフトにも脆弱である。 本稿では,自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する。 FEPは、認知、行動、モデル学習を共通の原理で説明する、脳のベイズ理論である。 本稿では,fepの理論的拡張と,エージェントがエキスパートデモを内部化する世界モデルを学ぶアルゴリズムの導出と,そのモデルを用いて報酬を最大化する現在の状態と将来の状態と行動を推測する手法を提案する。 したがって、このアルゴリズムは、専門家を部分的に模倣し、そのリターンをシームレスに最大化することで探索コストを削減し、その結果、準最適専門家よりも高いパフォーマンスをもたらす。 実験の結果,このアプローチは視覚制御タスク,特にスパースワード環境において有望であることがわかった。

Reinforcement Learning (RL) requires a large amount of exploration especially in sparse-reward settings. Imitation Learning (IL) can learn from expert demonstrations without exploration, but it never exceeds the expert's performance and is also vulnerable to distributional shift between demonstration and execution. In this paper, we radically unify RL and IL based on Free Energy Principle (FEP). FEP is a unified Bayesian theory of the brain that explains perception, action and model learning by a common fundamental principle. We present a theoretical extension of FEP and derive an algorithm in which an agent learns the world model that internalizes expert demonstrations and at the same time uses the model to infer the current and future states and actions that maximize rewards. The algorithm thus reduces exploration costs by partially imitating experts as well as maximizing its return in a seamless way, resulting in a higher performance than the suboptimal expert. Our experimental results show that this approach is promising in visual control tasks especially in sparse-reward environments.
翻訳日:2021-07-28 00:51:34 公開日:2021-07-25
# (参考訳) 連結BdSLネットワークを用いたバングラ手話認識 [全文訳有]

Bangla sign language recognition using concatenated BdSL network ( http://arxiv.org/abs/2107.11818v1 )

ライセンス: CC BY 4.0
Thasin Abedin, Khondokar S. S. Prottoy, Ayana Moshruba and Safayat Bin Hakim(参考訳) 手話は聴覚障害者と聴覚障害者と無口なコミュニティにとって唯一のコミュニケーション手段である。 したがって、一般大衆とのコミュニケーションは、この少数派グループにとって常に困難である。 特にバングラ手話(BdSL)では、38のアルファベットがあり、いくつかはほぼ同じ記号を持つ。 その結果、BdSL認識においては、手の位置は従来の畳み込みニューラルネットワーク(CNN)から抽出された視覚的特徴に加えて重要な要素である。 本稿では,CNNに基づく画像ネットワークとポーズ推定ネットワークを組み合わせた,新しいアーキテクチャ"Concatenated BdSL Network"を提案する。 画像ネットワークは視覚的特徴を得る一方、ポーズ推定ネットワークによって手指キーポイントの相対位置を捉え、BdSLシンボルの複雑さに対処する付加的な特徴を得る。 実験結果から, テストセットにおける新たなアプローチにより91.51%のスコアが得られ, 追加ポーズ推定ネットワークの有効性が示唆された。

Sign language is the only medium of communication for the hearing impaired and the deaf and dumb community. Communication with the general mass is thus always a challenge for this minority group. Especially in Bangla sign language (BdSL), there are 38 alphabets with some having nearly identical symbols. As a result, in BdSL recognition, the posture of hand is an important factor in addition to visual features extracted from traditional Convolutional Neural Network (CNN). In this paper, a novel architecture "Concatenated BdSL Network" is proposed which consists of a CNN based image network and a pose estimation network. While the image network gets the visual features, the relative positions of hand keypoints are taken by the pose estimation network to obtain the additional features to deal with the complexity of the BdSL symbols. A score of 91.51% was achieved by this novel approach in test set and the effectiveness of the additional pose estimation network is suggested by the experimental results.
翻訳日:2021-07-28 00:44:03 公開日:2021-07-25
# (参考訳) 糖尿病網膜症自動スクリーニングにおける分布変化 [全文訳有]

Distributional Shifts in Automated Diabetic Retinopathy Screening ( http://arxiv.org/abs/2107.11822v1 )

ライセンス: CC BY 4.0
Jay Nandy and Wynne Hsu and Mong Li Lee(参考訳) 深層学習に基づくモデルは、糖尿病網膜症(DR)スクリーニングにおいて網膜像が「参照可能」かどうかを自動的に検出するために開発された。 しかし、入力画像がトレーニング分布から分散的にシフトするにつれて、分類精度は低下する。 さらに、入力が網膜画像でない場合でも、標準DR分類器は画像が「参照可能」であることを高い信頼度で予測する。 本稿では,この問題に対処するためにdirichlet prior network-based frameworkを提案する。 オフ・オブ・ディストリビューション(OOD)検出器モデルとDR分類モデルを用いて、OOD画像の識別により一般化性を向上させる。 実世界のデータセットに関する実験は、提案されたフレームワークが未知の非網膜画像を排除し、人間の介入のために分布シフトした網膜画像を識別できることを示している。

Deep learning-based models are developed to automatically detect if a retina image is `referable' in diabetic retinopathy (DR) screening. However, their classification accuracy degrades as the input images distributionally shift from their training distribution. Further, even if the input is not a retina image, a standard DR classifier produces a high confident prediction that the image is `referable'. Our paper presents a Dirichlet Prior Network-based framework to address this issue. It utilizes an out-of-distribution (OOD) detector model and a DR classification model to improve generalizability by identifying OOD images. Experiments on real-world datasets indicate that the proposed framework can eliminate the unknown non-retina images and identify the distributionally shifted retina images for human intervention.
翻訳日:2021-07-28 00:37:39 公開日:2021-07-25
# (参考訳) 組織特異的マルチオミクスによるグラフ表現学習 [全文訳有]

Graph Representation Learning on Tissue-Specific Multi-Omics ( http://arxiv.org/abs/2107.11856v1 )

ライセンス: CC BY 4.0
Amine Amor (1), Pietro Lio' (1), Vikash Singh (1), Ramon Vi\~nas Torn\'e (1), Helena Andres Terre (1)(参考訳) 生体医学研究とパーソナライズド医療の推進に、ヒト組織からのさまざまなデータモダリティを組み合わせることが重要である。 本研究では,組織特異的遺伝子間相互作用(ggi)ネットワーク上でのリンク予測を行うために,グラフ埋め込みモデル(vgae)を利用する。 アブレーション実験により,複数の生物学的モダリティ(すなわちマルチオミクス)の組み合わせが強力な埋め込みとより良いリンク予測性能をもたらすことを証明した。 遺伝子メチル化プロファイルとrnaシークエンシングデータの統合によりリンク予測性能が著しく向上することを示す。 RNAシークエンシングと遺伝子メチル化のデータの組み合わせにより、GGIネットワーク上でのリンク予測精度は71%になる。 マルチオミクスデータを用いたグラフ表現学習を活用し,バイオインフォマティクスにおけるマルチオミクス統合に関する最近の文献に新たな知見を与える。

Combining different modalities of data from human tissues has been critical in advancing biomedical research and personalised medical care. In this study, we leverage a graph embedding model (i.e VGAE) to perform link prediction on tissue-specific Gene-Gene Interaction (GGI) networks. Through ablation experiments, we prove that the combination of multiple biological modalities (i.e multi-omics) leads to powerful embeddings and better link prediction performances. Our evaluation shows that the integration of gene methylation profiles and RNA-sequencing data significantly improves the link prediction performance. Overall, the combination of RNA-sequencing and gene methylation data leads to a link prediction accuracy of 71% on GGI networks. By harnessing graph representation learning on multi-omics data, our work brings novel insights to the current literature on multi-omics integration in bioinformatics.
翻訳日:2021-07-28 00:30:22 公開日:2021-07-25
# (参考訳) 映像ベース人物再同定のための時空間表現因子化 [全文訳有]

Spatio-Temporal Representation Factorization for Video-based Person Re-Identification ( http://arxiv.org/abs/2107.11878v1 )

ライセンス: CC BY 4.0
Abhishek Aich, Meng Zheng, Srikrishna Karanam, Terrence Chen, Amit K. Roy-Chowdhury, Ziyan Wu(参考訳) ビデオベースの人物再同定(re-id)の進歩にもかかわらず、現在の最先端技術は、様々な人々の間での外観の類似性、オクルージョン、フレームの誤認といった一般的な現実世界の課題に苦しめられている。 これらの問題を緩和するために,既存の3次元畳み込みニューラルネットワークアーキテクチャと組み合わせてre-IDのためのフレキシブルな新しい計算ユニットであるspatio-Temporal Representation Factorization Module (STRF)を提案する。 先行研究におけるstrfの重要な革新は、識別的時間的特徴と空間的特徴を学習するための明示的な経路であり、各要素は補足的な人物特有の外観と動き情報を捉えるためにさらに分解される。 具体的には、時間分解は、時間とともに大きく変化しない静的特徴(例えば、服の色)と、時間とともに変化する動的特徴(例えば、歩行パターン)の2つの枝からなる。 さらに、空間因子分解は、グローバル(コアセグメンテーション)とローカル(フィンガーセグメント)の外観特徴の両方を学ぶ2つの分枝を含み、その局所的特徴は、特に咬合や空間的不均衡の場合に有用である。 これら2つの分解処理は、パラメータワイド経済STRFユニットのモジュラーアーキテクチャとなり、任意の2つの3次元畳み込み層の間に接続可能となり、エンドツーエンドの学習フレームワークとなる。 実験により,STRFは,3つのベンチマーク上での標準人物識別評価プロトコルを用いて,様々なベースラインアーキテクチャの性能を向上することを示す。

Despite much recent progress in video-based person re-identification (re-ID), the current state-of-the-art still suffers from common real-world challenges such as appearance similarity among various people, occlusions, and frame misalignment. To alleviate these problems, we propose Spatio-Temporal Representation Factorization module (STRF), a flexible new computational unit that can be used in conjunction with most existing 3D convolutional neural network architectures for re-ID. The key innovations of STRF over prior work include explicit pathways for learning discriminative temporal and spatial features, with each component further factorized to capture complementary person-specific appearance and motion information. Specifically, temporal factorization comprises two branches, one each for static features (e.g., the color of clothes) that do not change much over time, and dynamic features (e.g., walking patterns) that change over time. Further, spatial factorization also comprises two branches to learn both global (coarse segments) as well as local (finer segments) appearance features, with the local features particularly useful in cases of occlusion or spatial misalignment. These two factorization operations taken together result in a modular architecture for our parameter-wise economic STRF unit that can be plugged in between any two 3D convolutional layers, resulting in an end-to-end learning framework. We empirically show that STRF improves performance of various existing baseline architectures while demonstrating new state-of-the-art results using standard person re-identification evaluation protocols on three benchmarks.
翻訳日:2021-07-28 00:23:24 公開日:2021-07-25
# (参考訳) 不完全データを用いた肺癌リスク推定:統合的インプテーション視点の欠如 [全文訳有]

Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing Imputation Perspective ( http://arxiv.org/abs/2107.11882v1 )

ライセンス: CC BY 4.0
Riqiang Gao, Yucheng Tang, Kaiwen Xu, Ho Hin Lee, Steve Deppen, Kim Sandler, Pierre Massion, Thomas A. Lasko, Yuankai Huo, Bennett A. Landman(参考訳) 多様性からのデータは臨床予測において相補的な情報を提供するが、臨床コホートにおける欠落したデータは、多様学習コンテキストにおける被験者数を制限する。 マルチモーダル欠落インプテーションは、1)不均一なモダリティ(画像対非画像)にまたがるデータの欠如、または2)1つのモダリティが欠如している場合、既存の手法では困難である。 本稿では,マルチモーダルデータの統合分布をモデル化し,欠落データのインプテーションに対処する。 そこで本研究では, 条件付き PBiGAN (C-PBiGAN) 法を新たに提案し, 条件付き知識を他のモードから組み合わせた条件付き PBiGAN (C-PBiGAN) 法を提案する。 具体的には、C-PBiGANは、利用可能なマルチモーダルデータを共同で符号化する欠落した計算フレームワークに条件付き潜伏空間を導入し、不特定データをクラス正規化して識別情報を復元する。 画像と非画像データの連成分布をモデル化することにより,マルチモーダルな欠落インプテーションに対処した最初の生成的逆向モデルである。 我々は,国立肺検診試験(NLST)データセットと外部臨床検査コホートを用いて本モデルを検証した。 提案するc-pbiganは、代表的インプテーション法(例えば、nlst (+2.9\%) と社内データセット (+4.3\%) の両方において、pbigan (p$<0.05) と比較してauc値が増加する)と比較して、肺がんリスク推定の大幅な改善を達成している。

Data from multi-modality provide complementary information in clinical prediction, but missing data in clinical cohorts limits the number of subjects in multi-modal learning context. Multi-modal missing imputation is challenging with existing methods when 1) the missing data span across heterogeneous modalities (e.g., image vs. non-image); or 2) one modality is largely missing. In this paper, we address imputation of missing data by modeling the joint distribution of multi-modal data. Motivated by partial bidirectional generative adversarial net (PBiGAN), we propose a new Conditional PBiGAN (C-PBiGAN) method that imputes one modality combining the conditional knowledge from another modality. Specifically, C-PBiGAN introduces a conditional latent space in a missing imputation framework that jointly encodes the available multi-modal data, along with a class regularization loss on imputed data to recover discriminative information. To our knowledge, it is the first generative adversarial model that addresses multi-modal missing imputation by modeling the joint distribution of image and non-image data. We validate our model with both the national lung screening trial (NLST) dataset and an external clinical validation cohort. The proposed C-PBiGAN achieves significant improvements in lung cancer risk estimation compared with representative imputation methods (e.g., AUC values increase in both NLST (+2.9\%) and in-house dataset (+4.3\%) compared with PBiGAN, p$<$0.05).
翻訳日:2021-07-28 00:00:05 公開日:2021-07-25
# (参考訳) H-Transformer-1D:高速1次元階層型シーケンス注意 [全文訳有]

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences ( http://arxiv.org/abs/2107.11906v1 )

ライセンス: CC BY 4.0
Zhenhai Zhu and Radu Soricut(参考訳) 本稿では,トランスフォーマーアーキテクチャにおける注意力を計算するための効率的な階層的手法について述べる。 提案手法は,数値解析コミュニティが開発した階層行列(h行列)に似た行列構造を利用し,線形実行時間とメモリ複雑性を有する。 階層的注意によって具現化された帰納的バイアスが,自然言語や視覚タスクに典型的なシーケンスの階層構造を捉える上で有効であることを示すために,広範な実験を行った。 提案手法は,arenaベンチマークにおいて,平均で+6点以上の精度で代替サブクアドラティック提案法よりも優れている。 また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。

We describe an efficient hierarchical method to compute attention in the Transformer architecture. The proposed attention mechanism exploits a matrix structure similar to the Hierarchical Matrix (H-Matrix) developed by the numerical analysis community, and has linear run time and memory complexity. We perform extensive experiments to show that the inductive bias embodied by our hierarchical attention is effective in capturing the hierarchical structure in the sequences typical for natural language and vision tasks. Our method is superior to alternative sub-quadratic proposals by over +6 points on average on the Long Range Arena benchmark. It also sets a new SOTA test perplexity on One-Billion Word dataset with 5x fewer model parameters than that of the previous-best Transformer-based models.
翻訳日:2021-07-27 23:47:32 公開日:2021-07-25
# (参考訳) 多くの腕を持つレストなしバンディット:中央極限定理を破る

Restless Bandits with Many Arms: Beating the Central Limit Theorem ( http://arxiv.org/abs/2107.11911v1 )

ライセンス: CC BY 4.0
Xiangyu Zhang, Peter I. Frazier(参考訳) 我々は,レコメンダシステム,アクティブラーニング,収益管理,その他多くの分野において重要な役割を担っている,周期毎に複数のプルを持つ有限ホリゾンレストレスバンディットを考える。 最適ポリシーは、原理的には動的プログラミングを用いて計算できるが、計算に必要なスケールは腕数$N$で指数関数的にスケールする。 したがって、大規模な$N$で効率的に計算できるインデックスポリシーやその他のポリシーのパフォーマンスを理解することにはかなり価値がある。 ホイットルが提唱した古典的漸近的体制において, 最適性ギャップの増大,すなわち, 最適政策と比較して期待性能の損失について検討し, 周期ごとに引き出すことのできるアームの比率を一定に保ちながら, n$ を増加させる。 中心極限定理と最も厳密な前の理論境界からの直観は、この最適性ギャップは$o(\sqrt{n})$ のように成長することを示唆する。 驚くべきことに、我々はこの限界を上回ることができることを示す。 我々は,非退化条件と,その最適性差が $o(1)$ である流体優先性ポリシーと呼ばれる,新しい実用計算可能な政策の幅広いクラスを特徴付ける。 これらは最も広く使われているインデックスポリシーを含んでいる。 この非退化条件が成立しない場合、流体優先性ポリシーは、しかしながら、o(\sqrt{n})$である最適性ギャップを持ち、収束率が知られているポリシーのクラスを著しく一般化する。 数値実験において,流体プライオリティポリシはレストレスバンディット問題の集合に対して最先端の性能を提供することを示した。

We consider finite-horizon restless bandits with multiple pulls per period, which play an important role in recommender systems, active learning, revenue management, and many other areas. While an optimal policy can be computed, in principle, using dynamic programming, the computation required scales exponentially in the number of arms $N$. Thus, there is substantial value in understanding the performance of index policies and other policies that can be computed efficiently for large $N$. We study the growth of the optimality gap, i.e., the loss in expected performance compared to an optimal policy, for such policies in a classical asymptotic regime proposed by Whittle in which $N$ grows while holding constant the fraction of arms that can be pulled per period. Intuition from the Central Limit Theorem and the tightest previous theoretical bounds suggest that this optimality gap should grow like $O(\sqrt{N})$. Surprisingly, we show that it is possible to outperform this bound. We characterize a non-degeneracy condition and a wide class of novel practically-computab le policies, called fluid-priority policies, in which the optimality gap is $O(1)$. These include most widely-used index policies. When this non-degeneracy condition does not hold, we show that fluid-priority policies nevertheless have an optimality gap that is $O(\sqrt{N})$, significantly generalizing the class of policies for which convergence rates are known. We demonstrate that fluid-priority policies offer state-of-the-art performance on a collection of restless bandit problems in numerical experiments.
翻訳日:2021-07-27 23:27:48 公開日:2021-07-25
# より深くではなくより広く行く

Go Wider Instead of Deeper ( http://arxiv.org/abs/2107.11817v1 )

ライセンス: Link先を確認
Fuzhao Xue, Ziji Shi, Yuxuan Lou, Yong Liu, Yang You(参考訳) トランスフォーマーは最近、様々なタスクで素晴らしい成果を上げています。 変圧器の有効性と効率をさらに向上させるため,(1)より訓練可能なパラメータに拡大し,(2)パラメータ共有によりより浅く,あるいは深度とともにモデルを圧縮する,という2つの既存の作業が検討されている。 しかし、大きなモデルは、訓練に利用可能なトークンが少ない場合、よくスケールせず、モデルが非常に大きい場合は高度な並列性が必要となる。 小型モデルは通常、表現力の喪失によりオリジナルのトランスモデルに比べて性能が劣る。 本稿では,トレーニング可能なパラメータの少ない性能を実現するために,より深く学習可能なパラメータを効率的にデプロイするフレームワークを提案する。 特に,フィードフォワードネットワーク(FFN)をMixix-of-experts(MoE )に置き換えることで,モデル幅を拡大する。 次に、各層正規化を用いて変換器ブロック間でMoE層を共有します。 このような配置は、様々な意味表現を変換する役割を担い、モデルをよりパラメータ効率よく効果的にする。 このフレームワークを評価するために、WideNetを設計し、ImageNet-1K上で評価する。 私たちの最良のモデルはViT(Vision Transformer)を1.46\%$、0.72 \times$トレーニング可能なパラメータで上回る。 0.46 \times$と0.13 \times$パラメータを使って、WideNetはViTとViT-MoEをそれぞれ0.83\%$と2.08\%$で上回ることができる。

The transformer has recently achieved impressive results on various tasks. To further improve the effectiveness and efficiency of the transformer, there are two trains of thought among existing works: (1) going wider by scaling to more trainable parameters; (2) going shallower by parameter sharing or model compressing along with the depth. However, larger models usually do not scale well when fewer tokens are available to train, and advanced parallelisms are required when the model is extremely large. Smaller models usually achieve inferior performance compared to the original transformer model due to the loss of representation power. In this paper, to achieve better performance with fewer trainable parameters, we propose a framework to deploy trainable parameters efficiently, by going wider instead of deeper. Specially, we scale along model width by replacing feed-forward network (FFN) with mixture-of-experts (MoE). We then share the MoE layers across transformer blocks using individual layer normalization. Such deployment plays the role to transform various semantic representations, which makes the model more parameter-efficient and effective. To evaluate our framework, we design WideNet and evaluate it on ImageNet-1K. Our best model outperforms Vision Transformer (ViT) by $1.46\%$ with $0.72 \times$ trainable parameters. Using $0.46 \times$ and $0.13 \times$ parameters, our WideNet can still surpass ViT and ViT-MoE by $0.83\%$ and $2.08\%$, respectively.
翻訳日:2021-07-27 16:27:41 公開日:2021-07-25
# 転送可能な対話システムとユーザシミュレータ

Transferable Dialogue Systems and User Simulators ( http://arxiv.org/abs/2107.11904v1 )

ライセンス: Link先を確認
Bo-Hsiang Tseng, Yinpei Dai, Florian Kreyssig, Bill Byrne(参考訳) 対話システムの訓練の難しさの1つは、訓練データの欠如である。 対話システムとユーザシミュレータとのインタラクションを通じて対話データを作成する可能性を検討する。 私たちの目標は、2つのエージェント間の自己再生を通じて、新しい対話シナリオを組み込むことができるモデリングフレームワークの開発です。 このフレームワークでは、まず2つのエージェントをソースドメインの対話の集まりで事前トレーニングし、エージェントが自然言語を介して互いに会話するようにします。 少量のターゲットドメインデータに対するさらなる微調整により、エージェントは構造化報酬関数を用いた強化学習を用いて、彼らの行動を改善する目的と対話し続けます。 マルチウォズデータセットを用いた実験では,1)ドメイン適応と2)1対複数ドメイン転送という2つの実用的なトランスファー学習問題について検討した。 提案手法は,転送学習における2つのエージェントの性能のブートストラップに極めて有効であることを示す。 また,本手法が完全なデータセット上での対話システム性能の向上につながることを示す。

One of the difficulties in training dialogue systems is the lack of training data. We explore the possibility of creating dialogue data through the interaction between a dialogue system and a user simulator. Our goal is to develop a modelling framework that can incorporate new dialogue scenarios through self-play between the two agents. In this framework, we first pre-train the two agents on a collection of source domain dialogues, which equips the agents to converse with each other via natural language. With further fine-tuning on a small amount of target domain data, the agents continue to interact with the aim of improving their behaviors using reinforcement learning with structured reward functions. In experiments on the MultiWOZ dataset, two practical transfer learning problems are investigated: 1) domain adaptation and 2) single-to-multiple domain transfer. We demonstrate that the proposed framework is highly effective in bootstrapping the performance of the two agents in transfer learning. We also show that our method leads to improvements in dialogue system performance on complete datasets.
翻訳日:2021-07-27 16:25:57 公開日:2021-07-25
# オンデバイスコンテンツモデレーション

On-Device Content Moderation ( http://arxiv.org/abs/2107.11845v1 )

ライセンス: Link先を確認
Anchal Pandey, Sukumar Moharana, Debi Prasanna Mohanty, Archit Panwar, Dewang Agarwal, Siva Prasad Thota(参考訳) インターネットの出現に伴い、nsfw(safe for work)コンテンツのモデレーションは、今日では大きな問題となっている。 スマートフォンは今や何十億という人々の日常生活の一部になっているので、スマートフォン上のnsfwコンテンツの可能性をユーザから検出し、示唆するソリューションを持つことは、さらに重要だ。 本稿では,NSFW画像検出のための新しいオンデバイスソリューションを提案する。 従来のポルノグラフィックコンテンツモデレーションに加えて,大規模なデモグラフィではnsfwのままであるセミヌードコンテンツモデレーションも取り入れており,ヌード,セミヌード,セーフイメージの3つの主要カテゴリからなるデータセットを収集した。 我々は,ヌードとセミヌードのフィルタリングを行うためのオブジェクト検出器と分類器のanensembleを開発した。 このソリューションは、セミヌード画像の識別とともに、安全でないボディ部分アノテーションを提供する。 weextensiveは、提案するソリューションをいくつかのパブリックデータセットとカスタムデータセット上でテストしました。 このモデルは、カスタムNSFW16kデータセットで95%精度でF1スコア0.91、NPDIデータセットで0.92MAPをリコールする。 さらに、itachievesはsafeimage open datasetのコレクションで平均0.002偽陽性率を示している。

With the advent of internet, not safe for work(NSFW) content moderation is a major problem today. Since,smartphones are now part of daily life of billions of people,it becomes even more important to have a solution which coulddetect and suggest user about potential NSFW content present ontheir phone. In this paper we present a novel on-device solutionfor detecting NSFW images. In addition to conventional porno-graphic content moderation, we have also included semi-nudecontent moderation as it is still NSFW in a large demography.We have curated a dataset comprising of three major categories,namely nude, semi-nude and safe images. We have created anensemble of object detector and classifier for filtering of nudeand semi-nude contents. The solution provides unsafe body partannotations along with identification of semi-nude images. Weextensively tested our proposed solution on several public datasetand also on our custom dataset. The model achieves F1 scoreof 0.91 with 95% precision and 88% recall on our customNSFW16k dataset and 0.92 MAP on NPDI dataset. Moreover itachieves average 0.002 false positive rate on a collection of safeimage open datasets.
翻訳日:2021-07-27 16:24:33 公開日:2021-07-25
# スケーラブルな帰納的自然言語推論のためのハイブリッド自己回帰解法

Hybrid Autoregressive Solver for Scalable Abductive Natural Language Inference ( http://arxiv.org/abs/2107.11879v1 )

ライセンス: Link先を確認
Marco Valentino, Mokanarangan Thayaparan, Deborah Ferreira, Andr\'e Freitas(参考訳) 科学的な質問に対する自然言語説明の再生は、複雑なマルチホップと帰納的推論能力を評価する上で難しい課題である。 この設定では、ヒューマンアノテートされた説明に基づいて訓練されたトランスフォーマーは、クロスエンコーダアーキテクチャとして採用される場合、最先端のパフォーマンスを達成する。 しかしながら、構築された説明の質に多くの注意が向けられているが、大規模に推論を行うという問題はいまだに未検討である。 本質的にスケーラブルではないため、クロスエンコーダアーキテクチャパラダイムは巨大なファクトバンクの効率的なマルチホップ推論には適していない。 精度と推論時間の両方を最大化するために,高密度な双エンコーダと説明力のスパースモデルとを自己回帰的に結合し,説明文中の明示的なパターンを活用するハイブリッド誘導解法を提案する。 実験の結果,提案フレームワークは最先端のクロスエンコーダに匹敵する性能を達成でき,しかも,数百万の事実をコーパスするために,50ドルの高速かつスケーラブルであることがわかった。 さらに,ハイブリダイゼーションがセマンティックドリフトおよび科学質問応答に与える影響について,追加のトレーニングを伴わずに検討し,説明の質を高め,下流推論性能の向上に寄与することを示した。

Regenerating natural language explanations for science questions is a challenging task for evaluating complex multi-hop and abductive inference capabilities. In this setting, Transformers trained on human-annotated explanations achieve state-of-the-art performance when adopted as cross-encoder architectures. However, while much attention has been devoted to the quality of the constructed explanations, the problem of performing abductive inference at scale is still under-studied. As intrinsically not scalable, the cross-encoder architectural paradigm is not suitable for efficient multi-hop inference on massive facts banks. To maximise both accuracy and inference time, we propose a hybrid abductive solver that autoregressively combines a dense bi-encoder with a sparse model of explanatory power, computed leveraging explicit patterns in the explanations. Our experiments demonstrate that the proposed framework can achieve performance comparable with the state-of-the-art cross-encoder while being $\approx 50$ times faster and scalable to corpora of millions of facts. Moreover, we study the impact of the hybridisation on semantic drift and science question answering without additional training, showing that it boosts the quality of the explanations and contributes to improved downstream inference performance.
翻訳日:2021-07-27 16:22:37 公開日:2021-07-25
# ROD: スパースグラフのためのレセプション対応オンライン蒸留

ROD: Reception-aware Online Distillation for Sparse Graphs ( http://arxiv.org/abs/2107.11789v1 )

ライセンス: Link先を確認
Wentao Zhang, Yuezihan Jiang, Yang Li, Zeang Sheng, Yu Shen, Xupeng Miao, Liang Wang, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、リンク予測、ノードクラスタリングなど、多くのグラフベースのタスクで広く使用されている。 しかし、GNNは、主に機能伝搬を実行し、グラフのエッジをスムーズにすることで、十分な接続性とラベル情報を必要とし、効果的な伝搬を行う。 残念なことに、多くの現実世界のネットワークはエッジとラベルの両面で疎結合であり、GNNの準最適性能に繋がる。 このスパース問題に対する近年の関心は、擬似ラベルで教師付き信号を拡張する自己学習アプローチに焦点を当てている。 にもかかわらず、自己学習アプローチは本質的には、疑似ラベルの品質と量のためにスパースグラフ上の学習性能を改善できる可能性を完全には認識できない。 本稿では,疎グラフ学習のための新しいレセプション対応オンライン知識蒸留手法 ROD を提案する。 我々は,マルチスケール・レセプション・アウェアグラフ知識,タスクベース・スーパービジョン,リッチ・蒸留知識の3つの監督信号を設計し,ピアティーチング方式でオンライン知識の伝達を可能にした。 マルチスケール・レセプション・フィールドに隠された知識を抽出するためには、RODは個別の学生モデルに異なるレベルの局所性情報を保存するよう明示的に要求する。 与えられた課題に対して、各生徒は、その受動的知識に基づいて予測し、同時にマルチスケールの知識を組み合わせることで、強力な教師をオンザフライで確立する。 提案手法は,ノード分類,リンク予測,ノードクラスタリングなど,9つのデータセットとグラフベースのタスクに対して広く評価されている。 その結果、RODは最先端の性能を達成し、グラフの空間性に対してより堅牢であることを示す。

Graph neural networks (GNNs) have been widely used in many graph-based tasks such as node classification, link prediction, and node clustering. However, GNNs gain their performance benefits mainly from performing the feature propagation and smoothing across the edges of the graph, thus requiring sufficient connectivity and label information for effective propagation. Unfortunately, many real-world networks are sparse in terms of both edges and labels, leading to sub-optimal performance of GNNs. Recent interest in this sparse problem has focused on the self-training approach, which expands supervised signals with pseudo labels. Nevertheless, the self-training approach inherently cannot realize the full potential of refining the learning performance on sparse graphs due to the unsatisfactory quality and quantity of pseudo labels. In this paper, we propose ROD, a novel reception-aware online knowledge distillation approach for sparse graph learning. We design three supervision signals for ROD: multi-scale reception-aware graph knowledge, task-based supervision, and rich distilled knowledge, allowing online knowledge transfer in a peer-teaching manner. To extract knowledge concealed in the multi-scale reception fields, ROD explicitly requires individual student models to preserve different levels of locality information. For a given task, each student would predict based on its reception-scale knowledge, while simultaneously a strong teacher is established on-the-fly by combining multi-scale knowledge. Our approach has been extensively evaluated on 9 datasets and a variety of graph-based tasks, including node classification, link prediction, and node clustering. The result demonstrates that ROD achieves state-of-art performance and is more robust for the graph sparsity.
翻訳日:2021-07-27 16:22:15 公開日:2021-07-25
# 等価学習のための潜在空間埋め込みの不変性に基づくマルチクラスタ化

Invariance-based Multi-Clustering of Latent Space Embeddings for Equivariant Learning ( http://arxiv.org/abs/2107.11717v1 )

ライセンス: Link先を確認
Chandrajit Bajaj, Avik Roy, Haoran Zhang(参考訳) 可変オートエンコーダ(VAE)は、複数のコンピュータビジョンタスクのためのモデル潜在空間の復元に極めて有効であることが示されている。 しかしながら、現在訓練されているVAEは、いくつかの理由により、潜在空間における不変および同変クラスタの学習に不足しているようである。 本研究は,この問題に対する解の提供に焦点をあて,リー群多様体内の等分散特徴写像を深く,グループ不変な学習を強制する手法を提案する。 潜在空間表現の意味的および同変変数の新たな分離を同時に実装し、より優れた教師なし変分クラスタリングを可能にする不変クラスタ埋め込みのためのガウス混合のような混合モデルpdfを用いて、改良されたエビデンス下界 (elbo) を定式化する。 実験により,本モデルは,現在最良なディープラーニングモデルと比較して,学習率と可観測的に優れた画像認識と正準状態再構成により,不変表現と同変表現を効果的に分離することを示す。

Variational Autoencoders (VAEs) have been shown to be remarkably effective in recovering model latent spaces for several computer vision tasks. However, currently trained VAEs, for a number of reasons, seem to fall short in learning invariant and equivariant clusters in latent space. Our work focuses on providing solutions to this problem and presents an approach to disentangle equivariance feature maps in a Lie group manifold by enforcing deep, group-invariant learning. Simultaneously implementing a novel separation of semantic and equivariant variables of the latent space representation, we formulate a modified Evidence Lower BOund (ELBO) by using a mixture model pdf like Gaussian mixtures for invariant cluster embeddings that allows superior unsupervised variational clustering. Our experiments show that this model effectively learns to disentangle the invariant and equivariant representations with significant improvements in the learning rate and an observably superior image recognition and canonical state reconstruction compared to the currently best deep learning models.
翻訳日:2021-07-27 16:21:06 公開日:2021-07-25
# 組込みリアルタイムアプリケーションのための変分オートエンコーダに基づく分散検出の改善

Improving Variational Autoencoder based Out-of-Distribution Detection for Embedded Real-time Applications ( http://arxiv.org/abs/2107.11750v1 )

ライセンス: Link先を確認
Yeli Feng, Daniel Jun Xian Ng, Arvind Easwaran(参考訳) 機械学習の不確実性は、安全クリティカルなサイバー物理システム(CPS)に適用するための重要な障害である。 不確実性の1つの源は、トレーニングとテストシナリオの間の入力データの分布シフトから生じる。 このような分散シフトをリアルタイムに検出することは、課題に対処するための新たなアプローチだ。 画像を含むCPSアプリケーションにおける高次元入力空間は、タスクに余分な困難をもたらす。 このタスクには生成学習モデル(out-of-distribution (ood) detection)が広く採用されている。 現状を改善するため,機械学習とCPSの両方の分野からの既存提案について検討した。 後者では、自動運転エージェントのリアルタイムの安全性モニタリングが注目されている。 ビデオ中の動きの時空間的相関を利用して、自律運転エージェント周辺の危険な動きをロバストに検出する。 変分オートエンコーダ(VAE)理論と実践の最近の進歩に触発されて、我々はOoD検出の堅牢性をさらに向上するために、データの事前の知識を取り入れた。 nuScenesとSynthiaデータセットの比較研究により,本手法は運転シナリオ固有のOoD因子の検出能力を大幅に向上し,最先端手法よりも42%向上した。 また,実世界の最先端技術やシミュレーション駆動データセットよりも,ほぼ完ぺきに97%向上した。 最後に,提案手法をtwin-encoderモデルにカスタマイズし,実時間ood検出のためのリソース制限組込みデバイスにデプロイする。 その実行時間は低精度の8ビット整数推論で4倍に短縮され、検出能力は対応する浮動小数点モデルに匹敵する。

Uncertainties in machine learning are a significant roadblock for its application in safety-critical cyber-physical systems (CPS). One source of uncertainty arises from distribution shifts in the input data between training and test scenarios. Detecting such distribution shifts in real-time is an emerging approach to address the challenge. The high dimensional input space in CPS applications involving imaging adds extra difficulty to the task. Generative learning models are widely adopted for the task, namely out-of-distribution (OoD) detection. To improve the state-of-the-art, we studied existing proposals from both machine learning and CPS fields. In the latter, safety monitoring in real-time for autonomous driving agents has been a focus. Exploiting the spatiotemporal correlation of motion in videos, we can robustly detect hazardous motion around autonomous driving agents. Inspired by the latest advances in the Variational Autoencoder (VAE) theory and practice, we tapped into the prior knowledge in data to further boost OoD detection's robustness. Comparison studies over nuScenes and Synthia data sets show our methods significantly improve detection capabilities of OoD factors unique to driving scenarios, 42% better than state-of-the-art approaches. Our model also generalized near-perfectly, 97% better than the state-of-the-art across the real-world and simulation driving data sets experimented. Finally, we customized one proposed method into a twin-encoder model that can be deployed to resource limited embedded devices for real-time OoD detection. Its execution time was reduced over four times in low-precision 8-bit integer inference, while detection capability is comparable to its corresponding floating-point model.
翻訳日:2021-07-27 16:19:49 公開日:2021-07-25
# ReDAL: ポイントクラウドセマンティックセグメンテーションのための領域ベースおよび多様性を考慮したアクティブラーニング

ReDAL: Region-based and Diversity-aware Active Learning for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2107.11769v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Yueh-Cheng Liu, Yu-Kai Huang, Hsin-Ying Lee, Hung-Ting Su, Ping-Chia Huang, Winston H. Hsu(参考訳) 教師付きポイントクラウドセマンティクスセグメンテーションにおけるディープラーニングの成功にもかかわらず、大規模なポイントバイポイント手動アノテーションの取得は依然として大きな課題である。 そこで本研究では,多くの深層学習アプローチのための汎用フレームワークであるReDAL(Regional-based and Diversity-Aware Active Learning)を提案する。 注記領域のごく一部だけが深層学習による3次元シーン理解に十分であることを示すため, ソフトマックスエントロピー, 色の不連続性, 構造的複雑さを用いて, サブシーン領域の情報を測定する。 また,クエリバッチにおける情報的,類似の領域の選択による冗長アノテーションを回避するために,多様性を考慮した選択アルゴリズムを開発した。 また,s3disとsemantickittiデータセットには15%,5%のアノテーションがそれぞれ必要とされているが,90%の完全教師付き学習性能を達成することができた。

Despite the success of deep learning on supervised point cloud semantic segmentation, obtaining large-scale point-by-point manual annotations is still a significant challenge. To reduce the huge annotation burden, we propose a Region-based and Diversity-aware Active Learning (ReDAL), a general framework for many deep learning approaches, aiming to automatically select only informative and diverse sub-scene regions for label acquisition. Observing that only a small portion of annotated regions are sufficient for 3D scene understanding with deep learning, we use softmax entropy, color discontinuity, and structural complexity to measure the information of sub-scene regions. A diversity-aware selection algorithm is also developed to avoid redundant annotations resulting from selecting informative but similar regions in a querying batch. Extensive experiments show that our method highly outperforms previous active learning strategies, and we achieve the performance of 90% fully supervised learning, while less than 15% and 5% annotations are required on S3DIS and SemanticKITTI datasets, respectively.
翻訳日:2021-07-27 16:19:15 公開日:2021-07-25
# 困難環境におけるトラバーサビリティのためのリスクアウェアコストマップの学習

Learning Risk-aware Costmaps for Traversability in Challenging Environments ( http://arxiv.org/abs/2107.11722v1 )

ライセンス: Link先を確認
David D. Fan, Ali-akbar Agha-mohammadi, Evangelos A. Theodorou(参考訳) 未知の環境と非構造環境における自律型ロボット探査とナビゲーションの主な課題の1つは、ロボットが安全な移動が可能な場所を決定することである。 この決定の重大な困難の原因は、局所化誤差、センサーの間隔とノイズ、ロボットと地上の相互作用の難しさ、車両の動きの妨害などによる確率性と不確実性である。 この問題の古典的なアプローチは周囲の地形の幾何学的解析に依存しており、エラーをモデル化しやすく、計算コストも高い。 さらに, 不確実なトラバーサビリティコストの分布をモデル化することは, 上記のような様々な誤差源が組み合わさって難しい課題である。 本研究では,この問題に対して原則的学習アプローチを採る。 トラバーサビリティコストの分散を堅牢に学習するためのニューラルネットワークアーキテクチャを導入する。 ロボットの生活を守ることによる動機付けのため,我々は尾のリスクを学習する観点から,この学習問題に取り組む。 Conditional Value-at-Risk (CVaR)。 提案手法は,確率リスク閾値が0から1の間にある場合,予測されたテールリスクを確実に学習し,異常値に対してより頑健で,テールリスクをより正確に捉え,ベースラインと比較した場合に計算効率が高いトラバーサビリティコストマップを生成する。 本研究では, 廃地下鉄, 石灰岩洞, 溶岩洞洞など, 難易度の高い非構造環境をナビゲートする脚付きロボットのデータを用いて, 評価を行った。

One of the main challenges in autonomous robotic exploration and navigation in unknown and unstructured environments is determining where the robot can or cannot safely move. A significant source of difficulty in this determination arises from stochasticity and uncertainty, coming from localization error, sensor sparsity and noise, difficult-to-model robot-ground interactions, and disturbances to the motion of the vehicle. Classical approaches to this problem rely on geometric analysis of the surrounding terrain, which can be prone to modeling errors and can be computationally expensive. Moreover, modeling the distribution of uncertain traversability costs is a difficult task, compounded by the various error sources mentioned above. In this work, we take a principled learning approach to this problem. We introduce a neural network architecture for robustly learning the distribution of traversability costs. Because we are motivated by preserving the life of the robot, we tackle this learning problem from the perspective of learning tail-risks, i.e. the Conditional Value-at-Risk (CVaR). We show that this approach reliably learns the expected tail risk given a desired probability risk threshold between 0 and 1, producing a traversability costmap which is more robust to outliers, more accurately captures tail risks, and is more computationally efficient, when compared against baselines. We validate our method on data collected a legged robot navigating challenging, unstructured environments including an abandoned subway, limestone caves, and lava tube caves.
翻訳日:2021-07-27 16:17:33 公開日:2021-07-25
# DR2L:ドメインランダム化強化学習による自律運転のロバスティフィケーション

DR2L: Surfacing Corner Cases to Robustify Autonomous Driving via Domain Randomization Reinforcement Learning ( http://arxiv.org/abs/2107.11762v1 )

ライセンス: Link先を確認
Haoyi Niu, Jianming Hu, Zheyu Cui and Yi Zhang(参考訳) コーナーケースをできるだけ効率的にかつ徹底的に探索する方法は、ディープ強化学習(DeepRL)自動運転の文脈における主要な関心事の1つである。 シミュレーションデータによるトレーニングは、実世界のデータを利用するよりもコストと危険性が低いが、パラメータ分布の不整合とシミュレータ内の不正確なシステムモデリングは、必然的にsim2現実的ギャップをもたらす。 ドメインランダム化(DR)は、このギャップを現実世界のデータで埋めることのできる方法論である。 そこで本研究では,DeepRLをベースとした自動運転車をシミュレーションで強化し,より困難な事象を徐々に克服し,現実の世界へ容易に移行できるようにする。

How to explore corner cases as efficiently and thoroughly as possible has long been one of the top concerns in the context of deep reinforcement learning (DeepRL) autonomous driving. Training with simulated data is less costly and dangerous than utilizing real-world data, but the inconsistency of parameter distribution and the incorrect system modeling in simulators always lead to an inevitable Sim2real gap, which probably accounts for the underperformance in novel, anomalous and risky cases that simulators can hardly generate. Domain Randomization(DR) is a methodology that can bridge this gap with little or no real-world data. Consequently, in this research, an adversarial model is put forward to robustify DeepRL-based autonomous vehicles trained in simulation to gradually surfacing harder events, so that the models could readily transfer to the real world.
翻訳日:2021-07-27 16:17:06 公開日:2021-07-25
# 重力探索アルゴリズムの2値変種とそのウィンドファーム配置最適化問題への応用

A binary variant of gravitational search algorithm and its application to windfarm layout optimization problem ( http://arxiv.org/abs/2107.11844v1 )

ライセンス: Link先を確認
Susheel Kumar Joshi, Jagdish Chand Bansal(参考訳) 二元探索の分野では、GSAフレームワークは停滞、多様性の喪失、早めの収束、および高速複雑性の欠点に直面する。 これらの問題に対処するため,新たな二分法である「二分法探索空間(BNAGGSA)のためのGSAにGSAを埋め込んだ新しい近傍アーカイブ」を提案する。 BNAGGSAでは、新しいフィットネス依存型ソーシャルインタラクション戦略により、エージェントが現在の検索要件に従って最適なステップサイズで最適な方向に移動する自己適応的なステップサイズメカニズムが生成される。 提案アルゴリズムの性能は,よく知られた23以上のベンチマークテスト問題に対して,gsaの2つのバイナリ変種と比較した。 実験結果と統計的解析により,比較アルゴリズムよりもBNAGGSAの優位性が証明された。 さらに,実世界のアプリケーション解決における提案アルゴリズムの適用性を確認するため,ウィンドファームレイアウト最適化問題を考える。 2つの異なる風場の2つの異なる風データを用いた2つのケーススタディが実験として検討されている。

In the binary search space, GSA framework encounters the shortcomings of stagnation, diversity loss, premature convergence and high time complexity. To address these issues, a novel binary variant of GSA called `A novel neighbourhood archives embedded gravitational constant in GSA for binary search space (BNAGGSA)' is proposed in this paper. In BNAGGSA, the novel fitness-distance based social interaction strategy produces a self-adaptive step size mechanism through which the agent moves towards the optimal direction with the optimal step size, as per its current search requirement. The performance of the proposed algorithm is compared with the two binary variants of GSA over 23 well-known benchmark test problems. The experimental results and statistical analyses prove the supremacy of BNAGGSA over the compared algorithms. Furthermore, to check the applicability of the proposed algorithm in solving real-world applications, a windfarm layout optimization problem is considered. Two case studies with two different wind data sets of two different wind sites is considered for experiments.
翻訳日:2021-07-27 16:16:48 公開日:2021-07-25
# SGDはサドルポイントを抜け出さないかもしれない

SGD May Never Escape Saddle Points ( http://arxiv.org/abs/2107.11774v1 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Masahito Ueda(参考訳) 確率勾配降下(SGD)は、ディープニューラルネットワークのトレーニングなど、高度に非線形で非凸な機械学習問題を解決するために展開されている。 しかしながら、SGDに関する以前の研究は、しばしばSGDのノイズの性質に関する非常に制限的で非現実的な仮定に依存している。 本研究では,従来のSGDの理解に反する例を数学的に構築する。 例えば,(1) SGD は局所的な最大値に収束し,(2) SGD は緩やかにサドル点を脱出し,(3) SGD は平坦な点よりも鋭い最小値を好む,(4) AMSGrad は局所的な最大値に収束する。 その結果,sgdのノイズ構造はニューラルネットワークトレーニングのロスランドスケープよりも重要である可能性が示唆され,今後の研究は深層学習における実際のノイズ構造を導出することに焦点を当てるべきである。

Stochastic gradient descent (SGD) has been deployed to solve highly non-linear and non-convex machine learning problems such as the training of deep neural networks. However, previous works on SGD often rely on highly restrictive and unrealistic assumptions about the nature of noise in SGD. In this work, we mathematically construct examples that defy previous understandings of SGD. For example, our constructions show that: (1) SGD may converge to a local maximum; (2) SGD may escape a saddle point arbitrarily slowly; (3) SGD may prefer sharp minima over the flat ones; and (4) AMSGrad may converge to a local maximum. Our result suggests that the noise structure of SGD might be more important than the loss landscape in neural network training and that future research should focus on deriving the actual noise structure in deep learning.
翻訳日:2021-07-27 16:14:52 公開日:2021-07-25
# ガウス過程としてのニューラルネットワークの理解について

A brief note on understanding neural networks as Gaussian processes ( http://arxiv.org/abs/2107.11892v1 )

ライセンス: Link先を確認
Mengwu Guo(参考訳) The generalization of the work in [Lee et al., 2017], this note discuss the prior of a neural network output after a Gaussian process, and how the neural-network-induc ed Gaussian process are formulated。 このようなガウス過程回帰の後方平均関数は、ニューラルネットワークによって定義される再生核ヒルベルト空間にある。 二層ニューラルネットワークの場合、誘導されたガウス過程は、結合がバロン空間を形成する再生核ヒルベルト空間の解釈を提供する。

As a generalization of the work in [Lee et al., 2017], this note briefly discusses when the prior of a neural network output follows a Gaussian process, and how a neural-network-induc ed Gaussian process is formulated. The posterior mean functions of such a Gaussian process regression lie in the reproducing kernel Hilbert space defined by the neural-network-induc ed kernel. In the case of two-layer neural networks, the induced Gaussian processes provide an interpretation of the reproducing kernel Hilbert spaces whose union forms a Barron space.
翻訳日:2021-07-27 16:14:35 公開日:2021-07-25
# MuSe-Toolbox: Multimodal Sentiment Analysis Continuous Annotation Fusion and Discrete Class Transformation Toolbox

MuSe-Toolbox: The Multimodal Sentiment Analysis Continuous Annotation Fusion and Discrete Class Transformation Toolbox ( http://arxiv.org/abs/2107.11757v1 )

ライセンス: Link先を確認
Lukas Stappen and Lea Schumann and Benjamin Sertolli and Alice Baird and Benjamin Weigel and Erik Cambria and Bj\"orn W. Schuller(参考訳) 私たちはPythonベースのオープンソースツールキットであるMuSe-Toolboxを紹介します。 一つのフレームワークにおいて、我々は幅広い融合手法を統一し、アノテーション間のラター間の合意に基づいてアノテーションを重み付け・融合する前に、翻訳不変の方法でアノテーションを整列する新しいRAAW(Rater Aligned Anightation Weighting)を提案する。 さらに、離散圏は連続的な信号よりも人間が解釈しやすい傾向にある。 これを考慮して、MuSe-Toolboxは、連続したゴールド標準で意味のあるクラスクラスタを徹底的に検索する機能を提供する。 私たちの知る限りでは、これは最先端の感情的ゴールド標準メソッドの幅広い選択と、それらの離散クラスへの変換を提供する最初のツールキットです。 実験結果から, MuSe-Toolboxは人間の介入を最小限に抑えたハードコードクラス境界よりも予測可能な,有望で斬新なクラス形成を実現できることが示唆された。 実装(1)は、dockerコンテナを使用するすべての依存関係が最初から利用可能である(2)。

We introduce the MuSe-Toolbox - a Python-based open-source toolkit for creating a variety of continuous and discrete emotion gold standards. In a single framework, we unify a wide range of fusion methods and propose the novel Rater Aligned Annotation Weighting (RAAW), which aligns the annotations in a translation-invarian t way before weighting and fusing them based on the inter-rater agreements between the annotations. Furthermore, discrete categories tend to be easier for humans to interpret than continuous signals. With this in mind, the MuSe-Toolbox provides the functionality to run exhaustive searches for meaningful class clusters in the continuous gold standards. To our knowledge, this is the first toolkit that provides a wide selection of state-of-the-art emotional gold standard methods and their transformation to discrete classes. Experimental results indicate that MuSe-Toolbox can provide promising and novel class formations which can be better predicted than hard-coded classes boundaries with minimal human intervention. The implementation (1) is out-of-the-box available with all dependencies using a Docker container (2).
翻訳日:2021-07-27 16:12:37 公開日:2021-07-25
# グラフなしマルチホップ読解:選択ガイド戦略

Graph-free Multi-hop Reading Comprehension: A Select-to-Guide Strategy ( http://arxiv.org/abs/2107.11823v1 )

ライセンス: Link先を確認
Bohong Wu, Zhuosheng Zhang, Hai Zhao(参考訳) MHRC(Multi-hop reading comprehension)は、与えられた文節の正しい解答範囲を予測するだけでなく、解釈可能性の推論を裏付ける証拠の連鎖を提供する必要がある。 このようなプロセスを、エンティティノードを飛び越えるマルチホップ推論を理解することによってグラフ構造にモデル化するのは自然なことだ。 近年,グラフ構築の不便さのため,グラフモデリングが不可欠であるかどうかに不満の声が上がっているが,既存の最先端のグラフフリーの試みは,グラフベースのものに比べて大きなパフォーマンスギャップに悩まされている。 この研究は、まず、MHRC上の全てのグラフモデルを上回る新しいグラフのない代替案を示す。 具体的には,s2g(select-to-guide )戦略を生かして,エビデンス段落を粗大から細かな方法で正確に検索し,マルチホップ推論の性質に驚くほど適合する2つの新しい注意機構を組み込んだ。 当社のグラフフリーモデルでは,強力なベースラインよりも大幅なパフォーマンス向上と,mhrcベンチマークのhotpotqaでの最新技術であるhotpotqaが実現されています。

Multi-hop reading comprehension (MHRC) requires not only to predict the correct answer span in the given passage, but also to provide a chain of supporting evidences for reasoning interpretability. It is natural to model such a process into graph structure by understanding multi-hop reasoning as jumping over entity nodes, which has made graph modelling dominant on this task. Recently, there have been dissenting voices about whether graph modelling is indispensable due to the inconvenience of the graph building, however existing state-of-the-art graph-free attempts suffer from huge performance gap compared to graph-based ones. This work presents a novel graph-free alternative which firstly outperform all graph models on MHRC. In detail, we exploit a select-to-guide (S2G) strategy to accurately retrieve evidence paragraphs in a coarse-to-fine manner, incorporated with two novel attention mechanisms, which surprisingly shows conforming to the nature of multi-hop reasoning. Our graph-free model achieves significant and consistent performance gain over strong baselines and the current new state-of-the-art on the MHRC benchmark, HotpotQA, among all the published works.
翻訳日:2021-07-27 16:12:19 公開日:2021-07-25
# ロジキーフレームワークにおける倫理的・法的推論のための新しい代数的規範理論

New Algebraic Normative Theories for Ethical and Legal Reasoning in the LogiKEy Framework ( http://arxiv.org/abs/2107.11838v1 )

ライセンス: Link先を確認
Ali Farjami(参考訳) Benzm\"{u}ller, Parent and van der Torre は、倫理的および法的推論と責任あるシステムを設計・設計するために、古典的な高階論理へのデオン論理のセマンティックな埋め込みに基づく LogiKEy 方法論を導入している。 本稿では代数的アプローチを用いて,LogiKEyデオン論理とデータセットを大幅に拡張する。 ブール代数上の規範的推論のための入出力演算の理論を開発する。

To design and engineer ethical and legal reasoners and responsible systems, Benzm\"{u}ller, Parent and van der Torre introduce LogiKEy methodology based on the semantical embedding of deontic logics into classic higher-order logic. In this paper, we considerably extend the LogiKEy deontic logics and dataset using an algebraic approach. We develop theory of input/output operations for normative reasoning on top of Boolean algebras.
翻訳日:2021-07-27 16:11:17 公開日:2021-07-25
# イベントストリーム分類のための時間的注意スパイクニューラルネットワーク

Temporal-wise Attention Spiking Neural Networks for Event Streams Classification ( http://arxiv.org/abs/2107.11711v1 )

ライセンス: Link先を確認
Man Yao, Huanhuan Gao, Guangshe Zhao, Dingheng Wang, Yihan Lin, Zhaoxu Yang, Guoqi Li(参考訳) イベントは一般にスパースで非均一であり、マイクロ秒の時間分解能を持ち、非常に価値があり、様々な現実の応用がある時空間のイベントストリームを効果的かつ効率的に処理する方法。 スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたイベントトリガーコンピューティングモデルの一つであり、イベントストリームから効果的な時空間的特徴を抽出する可能性がある。 しかし、新しい高時間分解能のフレームに個別のイベントを集約する場合、既存のSNNモデルは、イベントストリームがスパースで非均一であるため、シリアルフレームが信号と雑音の比率が異なることには重要でない。 この状況は既存のSNNの性能を阻害する。 本研究では,イベントストリーム処理のためのフレームベース表現を学習するための時間的注意SNN(TA-SNN)モデルを提案する。 具体的には,注意概念を時間的入力に拡張し,最終決定におけるフレームの重要性を判断し,無関係なフレームを推論段階で破棄する。 TA-SNNモデルはイベントストリーム分類タスクの精度を向上させることを実証する。 また,フレームベース表現における多重時間分解能の影響についても検討した。 本手法は,ジェスチャ認識,画像分類,音声指認識の3つのタスクでテストを行った。 本報告では,これらの課題について最先端の結果を報告し,60msのジェスチャ認識において,精度(約 19 %)が本質的に向上することを示す。

How to effectively and efficiently deal with spatio-temporal event streams, where the events are generally sparse and non-uniform and have the microsecond temporal resolution, is of great value and has various real-life applications. Spiking neural network (SNN), as one of the brain-inspired event-triggered computing models, has the potential to extract effective spatio-temporal features from the event streams. However, when aggregating individual events into frames with a new higher temporal resolution, existing SNN models do not attach importance to that the serial frames have different signal-to-noise ratios since event streams are sparse and non-uniform. This situation interferes with the performance of existing SNNs. In this work, we propose a temporal-wise attention SNN (TA-SNN) model to learn frame-based representation for processing event streams. Concretely, we extend the attention concept to temporal-wise input to judge the significance of frames for the final decision at the training stage, and discard the irrelevant frames at the inference stage. We demonstrate that TA-SNN models improve the accuracy of event streams classification tasks. We also study the impact of multiple-scale temporal resolutions for frame-based representation. Our approach is tested on three different classification tasks: gesture recognition, image classification, and spoken digit recognition. We report the state-of-the-art results on these tasks, and get the essential improvement of accuracy (almost 19\%) for gesture recognition with only 60 ms.
翻訳日:2021-07-27 16:07:44 公開日:2021-07-25
# PoseFace:Pose-invari ant機能とPose-Adaptive Loss for Face Recognition

PoseFace: Pose-Invariant Features and Pose-Adaptive Loss for Face Recognition ( http://arxiv.org/abs/2107.11721v1 )

ライセンス: Link先を確認
Qiang Meng, Xiaqing Xu, Xiaobo Wang, Yang Qian, Yunxiao Qin, Zezheng Wang, Chenxu Zhao, Feng Zhou, Zhen Lei(参考訳) 顔認識におけるディープラーニング手法による大きな成功にもかかわらず、制約のない環境(例えば、監視や写真タグ付けの場合)における大きなポーズの変化に対して、厳しいパフォーマンス低下が観察される。 これに対処するため、現在のメソッドでは、ポーズ特化モデルをデプロイするか、追加モジュールで顔を前面に配置する。 それでも彼らは、アイデンティティ情報はポーズ間で一貫性があり、トレーニング中に前面画像と顔画像の間のデータ不均衡を認識していないという事実を無視している。 本稿では,顔のランドマークを利用してポーズ不変の特徴を解消し,不均衡問題に適応的に対処するためにポーズ適応的損失を利用する,効率的なPoseFaceフレームワークを提案する。 また,Multi-PIE,CFP,CPLFW ,IJBのベンチマーク実験により,本手法が最先端技術よりも優れていることを示した。

Despite the great success achieved by deep learning methods in face recognition, severe performance drops are observed for large pose variations in unconstrained environments (e.g., in cases of surveillance and photo-tagging). To address it, current methods either deploy pose-specific models or frontalize faces by additional modules. Still, they ignore the fact that identity information should be consistent across poses and are not realizing the data imbalance between frontal and profile face images during training. In this paper, we propose an efficient PoseFace framework which utilizes the facial landmarks to disentangle the pose-invariant features and exploits a pose-adaptive loss to handle the imbalance issue adaptively. Extensive experimental results on the benchmarks of Multi-PIE, CFP, CPLFW and IJB have demonstrated the superiority of our method over the state-of-the-arts.
翻訳日:2021-07-27 16:07:19 公開日:2021-07-25
# リモートセンシング画像におけるセグメンテーションにおける意味的注意とスケール補完ネットワーク

Semantic Attention and Scale Complementary Network for Instance Segmentation in Remote Sensing Images ( http://arxiv.org/abs/2107.11758v1 )

ライセンス: Link先を確認
Tianyang Zhang, Xiangrong Zhang, Peng Zhu, Xu Tang, Chen Li, Licheng Jiao, and Huiyu Zhou(参考訳) 本稿では,全インスタンスのカテゴリを予測し,ピクセルレベルマスクを用いてローカライズすることを目的とした,リモートセンシング画像(rsis)における,課題の多いマルチカテゴリインスタンスセグメンテーション問題に焦点を当てる。 多くの画期的なフレームワークは、インスタンスのセグメンテーションにおいて有望なパフォーマンスを示しているが、背景の複雑さとスケールの可変性インスタンスは、rsisのセグメンテーションでは依然として困難である。 上記の問題に対処するため,主にセマンティック・アテンション(SEA)モジュールとスケール・コンプリメント・マスク・ブランチ(SCMB)で構成されるセマンティック・アテンションとスケール・コンプリメント・ネットワークという,エンドツーエンドのマルチカテゴリ・インスタンスセグメンテーションモデルを提案する。 SEAモジュールには単純な完全な畳み込みセマンティックセマンティクスブランチが含まれており、フィーチャマップ上の関心インスタンスのアクティベーションを強化し、バックグラウンドノイズの干渉を減らすために追加の監督を行う。 そこで本稿では,従来のシングルマスク分枝をトリデントマスク分枝に拡張したscmbの設計を行い,マルチスケール情報を十分に活用するために,異なるスケールで補完マスクの監督を導入する。 提案手法の有効性をiSAIDデータセットとNWPUインスタンスセグメンテーションデータセットで評価し,有望な性能を実現するための総合実験を行った。

In this paper, we focus on the challenging multicategory instance segmentation problem in remote sensing images (RSIs), which aims at predicting the categories of all instances and localizing them with pixel-level masks. Although many landmark frameworks have demonstrated promising performance in instance segmentation, the complexity in the background and scale variability instances still remain challenging for instance segmentation of RSIs. To address the above problems, we propose an end-to-end multi-category instance segmentation model, namely Semantic Attention and Scale Complementary Network, which mainly consists of a Semantic Attention (SEA) module and a Scale Complementary Mask Branch (SCMB). The SEA module contains a simple fully convolutional semantic segmentation branch with extra supervision to strengthen the activation of interest instances on the feature map and reduce the background noise's interference. To handle the under-segmentation of geospatial instances with large varying scales, we design the SCMB that extends the original single mask branch to trident mask branches and introduces complementary mask supervision at different scales to sufficiently leverage the multi-scale information. We conduct comprehensive experiments to evaluate the effectiveness of our proposed method on the iSAID dataset and the NWPU Instance Segmentation dataset and achieve promising performance.
翻訳日:2021-07-27 16:07:05 公開日:2021-07-25
# 弱教師付き意味セグメンテーションのための親和性学習による補助タスクの活用

Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2107.11787v1 )

ライセンス: Link先を確認
Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu(参考訳) セマンティックセグメンテーションは、密にラベル付けされたデータがない場合に難しいタスクである。 画像レベルのラベルを持つクラスアクティベーションマップ(CAM)のみに依存すると、セグメンテーションの監督が不十分になる。 したがって、事前訓練されたモデルを用いて、擬似セグメンテーションラベルの生成を誘導する粗いサリエンシマップを作成する。 しかし、一般的に使われるオフラインヒューリスティック生成プロセスは、これらの粗いサリエンシマップの利点を完全に活用することはできない。 そこで本研究では,auxsegnetと呼ばれる弱教師付きマルチタスクフレームワークを提案する。サリエンシー検出とマルチラベル画像分類を補助タスクとして活用し,画像レベルの接地ラベルのみを用いた意味セグメンテーションの一次タスクを改善する。 同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーション表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。 学習されたクロスタスクアフィニティは、給与予測を洗練し、カムマップを伝播させ、両方のタスクに擬似ラベルを改善するために使用できる。 擬似ラベル更新とクロスタスクアフィニティ学習の相互強化により、セグメンテーション性能が反復的に向上する。 提案する補助学習ネットワーク構造とクロスタスク親和性学習手法の有効性を示す。 提案手法は,PASCAL VOC 2012とMS COCOベンチマークを用いて,最先端の教師付きセグメンテーション性能を実現する。

Semantic segmentation is a challenging task in the absence of densely labelled data. Only relying on class activation maps (CAM) with image-level labels provides deficient segmentation supervision. Prior works thus consider pre-trained models to produce coarse saliency maps to guide the generation of pseudo segmentation labels. However, the commonly used off-line heuristic generation process cannot fully exploit the benefits of these coarse saliency maps. Motivated by the significant inter-task correlation, we propose a novel weakly supervised multi-task framework termed as AuxSegNet, to leverage saliency detection and multi-label image classification as auxiliary tasks to improve the primary task of semantic segmentation using only image-level ground-truth labels. Inspired by their similar structured semantics, we also propose to learn a cross-task global pixel-level affinity map from the saliency and segmentation representations. The learned cross-task affinity can be used to refine saliency predictions and propagate CAM maps to provide improved pseudo labels for both tasks. The mutual boost between pseudo label updating and cross-task affinity learning enables iterative improvements on segmentation performance. Extensive experiments demonstrate the effectiveness of the proposed auxiliary learning network structure and the cross-task affinity learning method. The proposed approach achieves state-of-the-art weakly supervised segmentation performance on the challenging PASCAL VOC 2012 and MS COCO benchmarks.
翻訳日:2021-07-27 16:06:38 公開日:2021-07-25
# 幾何学的視覚問題に対する大規模不整形投票の効率化

Efficient Large Scale Inlier Voting for Geometric Vision Problems ( http://arxiv.org/abs/2107.11810v1 )

ライセンス: Link先を確認
Dror Aiger, Simon Lynen, Jan Hosang, Bernhard Zeisl(参考訳) カメラポーズ推定や平面における点マッチングのフィルタリングや、点雲における正規推定など、コンピュータビジョンにおける多くの応用において、アウター・リジェクションや等価不整集合最適化は重要な要素である。 いくつかのアプローチが存在するが、大規模には可能な解の組合せ的爆発に直面し、RANSAC、Hough transform、Branch\&Boundのような最先端の手法は、実用的であり続けるためには最小のインリエ比または事前知識を必要とする。 実際、非常に大きなシーンでのカメラポーズのような問題に対して、これらの条件が満たされない場合、これらのアプローチは指数関数的なランタイム成長を持つため、役に立たない。 この問題にアプローチするために, $r^d$ において "intersecting" $k$-dimensional surface に基づいた異常拒絶の効率的で一般的なアルゴリズムを提案する。 R^d$ の点を求めることで、近傍の曲面の数(したがって不等式)を最大化する様々な幾何学的問題を鋳造するレシピを提供する。 結果として得られるアルゴリズムは、ドメイン固有の境界を必要とせず、競合アルゴリズムよりも近似係数のランタイム依存性をより良く、線形な最悪のケース複雑性を持つ。 これは、連続的な丸めとサンプルのグループ化によって計算回数を制限した空間分解スキームを導入することによって達成される。 私たちのレシピ(とオープンソースコード)は、さまざまなドメインにまたがる新しい問題に対する、このような高速なアプローチを誰でも引き出すことができます。 本手法は,処理時間を大幅に下げた場合,低収率のマッチ数の多い複数のカメラフォーミング問題に対して,汎用性を示す。

Outlier rejection and equivalently inlier set optimization is a key ingredient in numerous applications in computer vision such as filtering point-matches in camera pose estimation or plane and normal estimation in point clouds. Several approaches exist, yet at large scale we face a combinatorial explosion of possible solutions and state-of-the-art methods like RANSAC, Hough transform or Branch\&Bound require a minimum inlier ratio or prior knowledge to remain practical. In fact, for problems such as camera posing in very large scenes these approaches become useless as they have exponential runtime growth if these conditions aren't met. To approach the problem we present a efficient and general algorithm for outlier rejection based on "intersecting" $k$-dimensional surfaces in $R^d$. We provide a recipe for casting a variety of geometric problems as finding a point in $R^d$ which maximizes the number of nearby surfaces (and thus inliers). The resulting algorithm has linear worst-case complexity with a better runtime dependency in the approximation factor than competing algorithms while not requiring domain specific bounds. This is achieved by introducing a space decomposition scheme that bounds the number of computations by successively rounding and grouping samples. Our recipe (and open-source code) enables anybody to derive such fast approaches to new problems across a wide range of domains. We demonstrate the versatility of the approach on several camera posing problems with a high number of matches at low inlier ratio achieving state-of-the-art results at significantly lower processing times.
翻訳日:2021-07-27 16:06:14 公開日:2021-07-25
# 細粒度動作認識のための適応再帰的サークルフレームワーク

Adaptive Recursive Circle Framework for Fine-grained Action Recognition ( http://arxiv.org/abs/2107.11813v1 )

ライセンス: Link先を確認
Hanxi Lin, Xinxiao Wu, Jiebo Luo(参考訳) ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。 微妙で抽象的な動きに対して優れた特徴を持つ深遠で豊かな特徴を学ぶ必要がある。 ほとんどの既存手法は、情報を入力から出力へと一方向に移動する純粋なフィードフォワード方式で層の特徴を生成する。 さらに、より強力な機能を得るために、より多くのレイヤを積み重ねることに依存しています。 本稿では、純粋なフィードフォワード層のためのきめ細かいデコレータである適応再帰循環(ARC)フレームワークを提案する。 元の層の演算子とパラメータを継承するが、それらの演算子とパラメータの使用ではわずかに異なる。 具体的には、レイヤの入力を進化状態として処理し、その更新を機能生成と交互に行う。 各再帰ステップにおいて、予め生成された特徴により入力状態を豊かにし、新たに更新された入力状態を特徴生成する。 ARCフレームワークは,高精細な特徴とマルチスケールの受容場を低コストで導入することにより,よりきめ細かな動作認識を容易にすることを期待する。 いくつかのベンチマークではフィードフォワードベースラインに対する重要な改善が観察されている。 例えば、arc搭載のtsm-resnet18は、48%のフロップと52%のモデルパラメータを持つtsm-resnet50よりも優れている。

How to model fine-grained spatial-temporal dynamics in videos has been a challenging problem for action recognition. It requires learning deep and rich features with superior distinctiveness for the subtle and abstract motions. Most existing methods generate features of a layer in a pure feedforward manner, where the information moves in one direction from inputs to outputs. And they rely on stacking more layers to obtain more powerful features, bringing extra non-negligible overheads. In this paper, we propose an Adaptive Recursive Circle (ARC) framework, a fine-grained decorator for pure feedforward layers. It inherits the operators and parameters of the original layer but is slightly different in the use of those operators and parameters. Specifically, the input of the layer is treated as an evolving state, and its update is alternated with the feature generation. At each recursive step, the input state is enriched by the previously generated features and the feature generation is made with the newly updated input state. We hope the ARC framework can facilitate fine-grained action recognition by introducing deeply refined features and multi-scale receptive fields at a low cost. Significant improvements over feedforward baselines are observed on several benchmarks. For example, an ARC-equipped TSM-ResNet18 outperforms TSM-ResNet50 with 48% fewer FLOPs and 52% model parameters on Something-Something V1 and Diving48.
翻訳日:2021-07-27 16:05:47 公開日:2021-07-25
# Transcript to Video: テキストからの効率的なクリップシークエンシング

Transcript to Video: Efficient Clip Sequencing from Texts ( http://arxiv.org/abs/2107.11851v1 )

ライセンス: Link先を確認
Yu Xiong, Fabian Caba Heilbron, Dahua Lin(参考訳) Web上で共有される多くのビデオの中で、よく編集されたビデオが常に注目を集めている。 しかし、専門知識と膨大な手作業を必要とするため、未熟な利用者がうまく編集された動画を作成することは困難である。 非専門家の要求を満たすために、私たちはTranscript-to-Videoという、テキストを入力として使用する弱い教師付きフレームワークを紹介します。 具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。 高速推定のために,リアルタイムビデオクリップシーケンシングのための効率的な検索戦略を提案する。 定量的な結果とユーザスタディにより,提案する学習フレームワークが,スタイルの観点でもっともらしい映像シーケンスを作成しながら,コンテンツ関連ショットを検索できることが実証された。 さらに、ランタイムパフォーマンス分析によって、フレームワークが現実世界のアプリケーションをサポートできることが分かりました。

Among numerous videos shared on the web, well-edited ones always attract more attention. However, it is difficult for inexperienced users to make well-edited videos because it requires professional expertise and immense manual labor. To meet the demands for non-experts, we present Transcript-to-Video -- a weakly-supervised framework that uses texts as input to automatically create video sequences from an extensive collection of shots. Specifically, we propose a Content Retrieval Module and a Temporal Coherent Module to learn visual-language representations and model shot sequencing styles, respectively. For fast inference, we introduce an efficient search strategy for real-time video clip sequencing. Quantitative results and user studies demonstrate empirically that the proposed learning framework can retrieve content-relevant shots while creating plausible video sequences in terms of style. Besides, the run-time performance analysis shows that our framework can support real-world applications.
翻訳日:2021-07-27 16:05:27 公開日:2021-07-25
# マルチモーダルデータによるショット学習は改善されるか?

Will Multi-modal Data Improves Few-shot Learning? ( http://arxiv.org/abs/2107.11853v1 )

ライセンス: Link先を確認
Zilun Zhang, Shihao Ma, Yichun Zhang(参考訳) ほとんどの少数ショット学習モデルはデータの1つのモダリティのみを使用する。 余剰モダリティ(つまり余剰モダリティ)を加えると、モデルがどのように改善するかを質的かつ定量的に調べたい。 画像のテキスト記述)とそれが学習手順にどのように影響するか。 この目的を達成するために,画像特徴とテキスト特徴を組み合わせた4種類の融合法を提案する。 改良の有効性を検証するため,2つの古典的数ショット学習モデルであるProtoNetとMAMLと,ConvNetやResNet12などの画像特徴抽出器を用いた融合手法を検証した。 注意に基づく融合法が最もよく機能し, 基準値と比較した場合, 分類精度を約30%向上させる。

Most few-shot learning models utilize only one modality of data. We would like to investigate qualitatively and quantitatively how much will the model improve if we add an extra modality (i.e. text description of the image), and how it affects the learning procedure. To achieve this goal, we propose four types of fusion method to combine the image feature and text feature. To verify the effectiveness of improvement, we test the fusion methods with two classical few-shot learning models - ProtoNet and MAML, with image feature extractors such as ConvNet and ResNet12. The attention-based fusion method works best, which improves the classification accuracy by a large margin around 30% comparing to the baseline result.
翻訳日:2021-07-27 16:05:14 公開日:2021-07-25
# wip abstract : 自律型cpsにおけるロバストな分布外運動検出と局在

WiP Abstract : Robust Out-of-distribution Motion Detection and Localization in Autonomous CPS ( http://arxiv.org/abs/2107.11736v1 )

ライセンス: Link先を確認
Yeli Feng, Arvind Easwaran(参考訳) 高度に複雑なディープラーニングモデルは、現代のサイバーフィジカルシステム(cps)に統合され、その多くが厳格な安全性要件を持っている。 これに起因する問題のひとつは、深層学習にはブラックボックスとして動作する解釈性がないことだ。 深層学習の信頼性は、特に入力空間次元が自然画像として高い場合、モデルトレーニングデータが実行時テストデータをどのように表現するかに大きく影響する。 そこで本研究では,ロバストなアウト・オブ・ディストリビューション(OOD)検出フレームワークを提案する。 提案手法は,従来の光フロー操作と可変オートエンコーダ(VAE)を用いた表現学習を組み合わせることで,リアルタイムに動画から異常な動きを検出する。 また、画像中のOOD因子を特定する方法も設計する。 運転シミュレーションデータセットの評価は,本手法が関連する作業よりも統計的に頑健であることを示す。

Highly complex deep learning models are increasingly integrated into modern cyber-physical systems (CPS), many of which have strict safety requirements. One problem arising from this is that deep learning lacks interpretability, operating as a black box. The reliability of deep learning is heavily impacted by how well the model training data represents runtime test data, especially when the input space dimension is high as natural images. In response, we propose a robust out-of-distribution (OOD) detection framework. Our approach detects unusual movements from driving video in real-time by combining classical optic flow operation with representation learning via variational autoencoder (VAE). We also design a method to locate OOD factors in images. Evaluation on a driving simulation data set shows that our approach is statistically more robust than related works.
翻訳日:2021-07-27 15:58:40 公開日:2021-07-25
# ネットワーク侵入検知におけるレアクラス分類のための意思決定-フォレスト投票方式

Decision-forest voting scheme for classification of rare classes in network intrusion detection ( http://arxiv.org/abs/2107.11862v1 )

ライセンス: Link先を確認
Jan Brabec, Lukas Machlica(参考訳) 本稿では,アンサンブル(決定林)における決定木の集合をベイズ系で検討する。 焦点は多クラス分類であり、サンプルの数はクラスの1つにかなり偏っている。 このアルゴリズムは、バッグ外データセットを利用して個々の木の予測誤差を推定し、ベイズ則に従ってアンサンブルの決定を洗練するために使用される。 このアルゴリズムは個々のクラスの流行を考慮に入れ、クラス重みや決定スコアしきい値に関連する追加パラメータの設定を必要としない。 評価は、公開されているデータセットと、総ユーザ数が100万を超える数百の企業ネットワークからのネットワークトラフィックテレメトリで構成されるプロプライエタリなデータセットに基づいている。 本研究の目的は,オペレーティングマルウェア検出システムの検出能力を向上することである。 ネットワーク管理者に提示された100件中6件が誤報であり,94\%以上の精度を維持することができたが,検出回数が約7\%増加した。 このアルゴリズムは、大量のデータを効果的に処理し、意思決定林の訓練に使用される最先端のアルゴリズムのほとんどと併用することができる。

In this paper, Bayesian based aggregation of decision trees in an ensemble (decision forest) is investigated. The focus is laid on multi-class classification with number of samples significantly skewed toward one of the classes. The algorithm leverages out-of-bag datasets to estimate prediction errors of individual trees, which are then used in accordance with the Bayes rule to refine the decision of the ensemble. The algorithm takes prevalence of individual classes into account and does not require setting of any additional parameters related to class weights or decision-score thresholds. Evaluation is based on publicly available datasets as well as on an proprietary dataset comprising network traffic telemetry from hundreds of enterprise networks with over a million of users overall. The aim is to increase the detection capabilities of an operating malware detection system. While we were able to keep precision of the system higher than 94\%, that is only 6 out of 100 detections shown to the network administrator are false alarms, we were able to achieve increase of approximately 7\% in the number of detections. The algorithm effectively handles large amounts of data, and can be used in conjunction with most of the state-of-the-art algorithms used to train decision forests.
翻訳日:2021-07-27 15:58:25 公開日:2021-07-25
# gcexplainer: グラフニューラルネットワークのためのヒューマン・イン・ザ・ループ概念に基づく説明

GCExplainer: Human-in-the-Loop Concept-based Explanations for Graph Neural Networks ( http://arxiv.org/abs/2107.11889v1 )

ライセンス: Link先を確認
Lucie Charlotte Magister, Dmitry Kazhdan, Vikash Singh, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな分野のグラフベースのデータでよく機能することが示されているが、それらは透明性と説明責任の欠如に悩まされており、信頼性を損なうため、そのようなモデルがハイテイクで安全クリティカルなシナリオにデプロイされる。 近年、GNNの説明方法が研究されているが、これらの手法は局所的な説明として知られる単一インスタンスの説明に限られている。 グローバルな説明の提供を目的として,GNNノードとグラフ分類に有名なAutomated Concept-based Explanationアプローチ(Ghorbani et al., 2019)を適用し,GCExplainerを提案する。 GCExplainerは、GNNのグローバルな概念に基づく説明のポストホック発見と抽出のための教師なしのアプローチである。 提案手法は5つのノード分類データセットと2つのグラフ分類データセット上で成功し,人間をループに配置することで高品質な概念表現を発見し,抽出できることを実証した。 データセットの平均完全度スコアは1で、平均完全度スコアは0.753である。 最後に、概念に基づく説明は、GNNExplainer(Ying et al., 2019)が作成した最先端の説明と比較して、データセットとGNNモデルに関する洞察が向上していることを示す。

While graph neural networks (GNNs) have been shown to perform well on graph-based data from a variety of fields, they suffer from a lack of transparency and accountability, which hinders trust and consequently the deployment of such models in high-stake and safety-critical scenarios. Even though recent research has investigated methods for explaining GNNs, these methods are limited to single-instance explanations, also known as local explanations. Motivated by the aim of providing global explanations, we adapt the well-known Automated Concept-based Explanation approach (Ghorbani et al., 2019) to GNN node and graph classification, and propose GCExplainer. GCExplainer is an unsupervised approach for post-hoc discovery and extraction of global concept-based explanations for GNNs, which puts the human in the loop. We demonstrate the success of our technique on five node classification datasets and two graph classification datasets, showing that we are able to discover and extract high-quality concept representations by putting the human in the loop. We achieve a maximum completeness score of 1 and an average completeness score of 0.753 across the datasets. Finally, we show that the concept-based explanations provide an improved insight into the datasets and GNN models compared to the state-of-the-art explanations produced by GNNExplainer (Ying et al., 2019).
翻訳日:2021-07-27 15:58:11 公開日:2021-07-25
# 行動は模倣できるのか? ビデオからヒューマンダイナミクスの再構築と伝達を学ぶ

Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics from Videos ( http://arxiv.org/abs/2107.11756v1 )

ライセンス: Link先を確認
Yuqian Fu, Yanwei Fu, Yu-Gang Jiang(参考訳) デモビデオを見ると、このビデオに含まれるアクションを模倣できるだろうか? 本稿では,メッシュ型行動模倣と呼ばれる新しいタスクを提案する。 このタスクの目的は、任意のターゲットのヒューマンメッシュが、ビデオデモで示すのと同じアクションを実行できるようにすることです。 これを実現するために,M-VAI (Mesh-based Video Action Imitation) 法を提案する。 M-VAIはまず、与えられたソースイメージフレームからメッシュを再構築し、最初に回復したメッシュシーケンスを、私たちによって提案されたメッシュシーケンススムーズなモジュールである Mesh2meshに入力し、時間的一貫性を改善する。 最後に、構築された人体から対象のアイデンティティメッシュにポーズを移すことで、アクションを模倣します。 高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。 広範な実験により,提案手法の有効性と課題の有効性が実証された。

Given a video demonstration, can we imitate the action contained in this video? In this paper, we introduce a novel task, dubbed mesh-based action imitation. The goal of this task is to enable an arbitrary target human mesh to perform the same action shown on the video demonstration. To achieve this, a novel Mesh-based Video Action Imitation (M-VAI) method is proposed by us. M-VAI first learns to reconstruct the meshes from the given source image frames, then the initial recovered mesh sequence is fed into mesh2mesh, a mesh sequence smooth module proposed by us, to improve the temporal consistency. Finally, we imitate the actions by transferring the pose from the constructed human body to our target identity mesh. High-quality and detailed human body meshes can be generated by using our M-VAI. Extensive experiments demonstrate the feasibility of our task and the effectiveness of our proposed method.
翻訳日:2021-07-27 15:54:19 公開日:2021-07-25
# 視覚障害を無視するロボットの局所化

Improving Robot Localisation by Ignoring Visual Distraction ( http://arxiv.org/abs/2107.11857v1 )

ライセンス: Link先を確認
Oscar Mendez, Matthew Vowels, Richard Bowden(参考訳) 注意は現代のディープラーニングの重要な要素である。 しかし、その逆についてあまり強調されていない。 日々の生活では、達成しようとしているタスクを混乱させるような、健全な視覚的特徴への注意を明示的に避ける必要があります。 この視覚的な優先順位付けは、視覚障害を無視しながら重要なタスクに集中できる。 そこで本研究では,ニューラルブラインドネス(neural blindness)を導入し,エージェントが不注意と考えられるオブジェクトやクラスを完全に無視する能力を与える。 より明確には、ニューラルネットワークが潜在空間内で特定の選択されたクラスを完全に表現できないようにすることを目指している。 非常に現実的な意味で、これはネットワークを特定のクラスに"盲目"させ、与えられたタスクにとって重要なものに集中させ、それがローカライゼーションを改善するためにどのように使用できるかを示す。

Attention is an important component of modern deep learning. However, less emphasis has been put on its inverse: ignoring distraction. Our daily lives require us to explicitly avoid giving attention to salient visual features that confound the task we are trying to accomplish. This visual prioritisation allows us to concentrate on important tasks while ignoring visual distractors. In this work, we introduce Neural Blindness, which gives an agent the ability to completely ignore objects or classes that are deemed distractors. More explicitly, we aim to render a neural network completely incapable of representing specific chosen classes in its latent space. In a very real sense, this makes the network "blind" to certain classes, allowing and agent to focus on what is important for a given task, and demonstrates how this can be used to improve localisation.
翻訳日:2021-07-27 15:54:05 公開日:2021-07-25
# パラメータ推定のためのモンテカルロ法の検討

A Survey of Monte Carlo Methods for Parameter Estimation ( http://arxiv.org/abs/2107.11820v1 )

ライセンス: Link先を確認
D. Luengo, L. Martino, M. Bugallo, V. Elvira, S. S\"arkk\"a(参考訳) 統計信号処理の応用は通常、観測されたデータの集合から興味のあるパラメータを推定する必要がある。 これらの推定は通常、最大確率(ML)や最大値(MAP)推定器のように多変量最適化問題を解くか、最小平均二乗誤差(MMSE)推定器のように多次元積分を行うことによって得られる。 残念ながら、これらの推定器の分析式は現実世界のほとんどのアプリケーションでは見つからず、モンテカルロ法(MC)は実現可能なアプローチである。 MC法は、所望の分布またはより単純な分布からランダムなサンプルを描画し、一貫性のある推定器を計算する。 MCアルゴリズムの最も重要なファミリーはマルコフ連鎖MC(MCMC)と重要サンプリング(IS)である。 一方、mcmc法は提案密度からサンプルを抽出し、それらの候補サンプルを新しい状態として受け入れまたは拒否することで、定常分布が所望の分布であるエルゴードマルコフ連鎖を構築する。 一方、IS手法は単純な提案密度からサンプルを抽出し、適切な方法でそれらの品質を測定するための適切な重量を割り当てる。 本稿では,信号処理アプリケーションにおける静的パラメータ推定のためのMC手法の徹底的なレビューを行う。 MCスキームの開発に関する歴史的ノートも提供され、その後に基本MC法とレジェクションサンプリング(RS)アルゴリズムの簡潔な記述、そして最も関係の深いMCMCとISのアルゴリズムの多くとそれらの組み合わせを記述した3つのセクションが提供されている。

Statistical signal processing applications usually require the estimation of some parameters of interest given a set of observed data. These estimates are typically obtained either by solving a multi-variate optimization problem, as in the maximum likelihood (ML) or maximum a posteriori (MAP) estimators, or by performing a multi-dimensional integration, as in the minimum mean squared error (MMSE) estimators. Unfortunately, analytical expressions for these estimators cannot be found in most real-world applications, and the Monte Carlo (MC) methodology is one feasible approach. MC methods proceed by drawing random samples, either from the desired distribution or from a simpler one, and using them to compute consistent estimators. The most important families of MC algorithms are Markov chain MC (MCMC) and importance sampling (IS). On the one hand, MCMC methods draw samples from a proposal density, building then an ergodic Markov chain whose stationary distribution is the desired distribution by accepting or rejecting those candidate samples as the new state of the chain. On the other hand, IS techniques draw samples from a simple proposal density, and then assign them suitable weights that measure their quality in some appropriate way. In this paper, we perform a thorough review of MC methods for the estimation of static parameters in signal processing applications. A historical note on the development of MC schemes is also provided, followed by the basic MC method and a brief description of the rejection sampling (RS) algorithm, as well as three sections describing many of the most relevant MCMC and IS algorithms, and their combined use.
翻訳日:2021-07-27 15:52:33 公開日:2021-07-25
# 静止最適輸送計画の推定

Estimation of Stationary Optimal Transport Plans ( http://arxiv.org/abs/2107.11858v1 )

ライセンス: Link先を確認
Kevin O'Connor, Kevin McGoff, Andrew B Nobel(参考訳) 有限値の興味が定常的に時間とともに動的に進化する最適輸送問題について検討する。 数学的には、これは、研究中の分布が定常過程を表し、コストが有限個の時間点に依存する一般的な最適輸送問題の特別な場合である。 この環境では、長い平均コストと密接なつながりを持つ固定結合(結合とも呼ばれる)に注意を向けるべきである。 最適接合と最適接合コストの両方の推定器を導入し, 穏やかな条件下での一貫性を確立する。 強い混合仮定の下では、iid の場合で最もよく知られた結果を拡張する同じ推定器に対して有限サンプル誤差率を確立する。 最後に, 最適結合問題のエントロピーペナライズバージョンに, 一貫性とレート解析を拡張した。

We study optimal transport problems in which finite-valued quantities of interest evolve dynamically over time in a stationary fashion. Mathematically, this is a special case of the general optimal transport problem in which the distributions under study represent stationary processes and the cost depends on a finite number of time points. In this setting, we argue that one should restrict attention to stationary couplings, also known as joinings, which have close connections with long run average cost. We introduce estimators of both optimal joinings and the optimal joining cost, and we establish their consistency under mild conditions. Under stronger mixing assumptions we establish finite-sample error rates for the same estimators that extend the best known results in the iid case. Finally, we extend the consistency and rate analysis to an entropy-penalized version of the optimal joining problem.
翻訳日:2021-07-27 15:52:08 公開日:2021-07-25
# 非パラメトリックIVにおける適応推定と均一信頼帯域

Adaptive Estimation and Uniform Confidence Bands for Nonparametric IV ( http://arxiv.org/abs/2107.11869v1 )

ライセンス: Link先を確認
Xiaohong Chen, Timothy Christensen, Sid Kankanala(参考訳) 本稿では,非パラメトリックモデルにおける構造関数 $h_0$ とその導関数の推定と推論のための計算的単純データ駆動手法を提案する。 最初の手順はブートストラップに基づく非パラメトリック楽器変数(NPIV)推定器のシーブ次元の選択である。 このデータ駆動選択によって実装されると、$h_0$のniv推定器とその導関数は適応的であり、それらは$h_0$の滑らかさ、レセプタの自己発生度、楽器強度を知ることなく、可能な限り(すなわちミニマックス)の超ノルムレートで収束する。 第2の手順は、真正かつ適応的な均一信頼バンド(UCB)を$h_0$で構築するためのデータ駆動型アプローチである。 データ駆動型UPBは、データ生成プロセス(正直な)の一般的なクラスと、最小極超ノルムレート(適応性)の対数係数内における契約に対して、$h_0$とそのデリバティブのカバレッジを保証します。 このように、我々のデータ駆動型UCBは、通常のアンダースムーシング手法によって構築されたUCBと比較して漸近効率が向上する。 さらに、この2つの手順は特別な場合として非パラメトリック回帰に適用される。 本手法は,非パラメトリック重力方程式を用いたファクト輸出の集中的マージンの推定と推論を行い,非オブザーブドファクト生産性分布の共通パラメータ化に対する証拠を求める。

We introduce computationally simple, data-driven procedures for estimation and inference on a structural function $h_0$ and its derivatives in nonparametric models using instrumental variables. Our first procedure is a bootstrap-based, data-driven choice of sieve dimension for sieve nonparametric instrumental variables (NPIV) estimators. When implemented with this data-driven choice, sieve NPIV estimators of $h_0$ and its derivatives are adaptive: they converge at the best possible (i.e., minimax) sup-norm rate, without having to know the smoothness of $h_0$, degree of endogeneity of the regressors, or instrument strength. Our second procedure is a data-driven approach for constructing honest and adaptive uniform confidence bands (UCBs) for $h_0$ and its derivatives. Our data-driven UCBs guarantee coverage for $h_0$ and its derivatives uniformly over a generic class of data-generating processes (honesty) and contract at, or within a logarithmic factor of, the minimax sup-norm rate (adaptivity). As such, our data-driven UCBs deliver asymptotic efficiency gains relative to UCBs constructed via the usual approach of undersmoothing. In addition, both our procedures apply to nonparametric regression as a special case. We use our procedures to estimate and perform inference on a nonparametric gravity equation for the intensive margin of firm exports and find evidence against common parameterizations of the distribution of unobserved firm productivity.
翻訳日:2021-07-27 15:51:56 公開日:2021-07-25
# NMRデータの深部学習による有機化合物のフラグメント構造同定

Identifying the fragment structure of the organic compounds by deeply learning the original NMR data ( http://arxiv.org/abs/2107.11740v1 )

ライセンス: Link先を確認
Chongcan Li, Yong Cong, and Weihua Deng(参考訳) 我々は, 生のnmrスペクトルを前処理し, 等値サンプリングとピークサンプリングという2つの異なる手法を用いて特徴特性を抽出し, その後のサブストラクチャーパターン認識を行う。一方, 統計モデリングのデータセットで頻繁に発生するnmrデータセットの不均衡問題に対処するための代替戦略を提供し, 2つの特徴選択の能力を評価するために, 従来のsvmとknモデルを構築した。 本研究は,ピークサンプリングの抽出した特徴を用いたモデルが,他方を用いたモデルよりも優れていることを示す。 次に,ピークサンプリングから収集したデータbで学習したリカレントニューラルネットワーク(rnn)モデルを構築する。 さらに,従来の機械学習SVMおよびKNNモデルとの比較により,ハイパーパラメータの簡易な最適化と,RNN深層学習モデルのより優れた一般化能力について述べる。

We preprocess the raw NMR spectrum and extract key characteristic features by using two different methodologies, called equidistant sampling and peak sampling for subsequent substructure pattern recognition; meanwhile may provide the alternative strategy to address the imbalance issue of the NMR dataset frequently encountered in dataset collection of statistical modeling and establish two conventional SVM and KNN models to assess the capability of two feature selection, respectively. Our results in this study show that the models using the selected features of peak sampling outperform the ones using the other. Then we build the Recurrent Neural Network (RNN) model trained by Data B collected from peak sampling. Furthermore, we illustrate the easier optimization of hyper parameters and the better generalization ability of the RNN deep learning model by comparison with traditional machine learning SVM and KNN models in detail.
翻訳日:2021-07-27 15:50:22 公開日:2021-07-25
# 仕様パターンからのニューラル回路合成

Neural Circuit Synthesis from Specification Patterns ( http://arxiv.org/abs/2107.11864v1 )

ライセンス: Link先を確認
Frederik Schmitt, Christopher Hahn, Markus N. Rabe and Bernd Finkbeiner(参考訳) 線形時間時間論理(LTL)の高レベル論理仕様から直接ハードウェア回路を合成するタスクにおいて階層変換器を訓練する。 LTL合成問題は、長い歴史を持つよく知られたアルゴリズム上の課題であり、アルゴリズムとツールの改善を追跡するために毎年のコンペが開催されている。 機械学習を使った新しいアプローチはこの領域で多くの可能性を開くかもしれないが、十分な量のトレーニングデータが不足している。 本稿では,追加のトレーニングデータ(仕様と回路のペア)を大量に生成する手法について検討する。 合成コンペティションで使用される仕様から共通パターンをマイニングすることで、この合成データが人手による仕様に十分近いことを保証します。 この合成データに基づいてトレーニングされた階層的トランスフォーマは、合成コンペティションから生じる問題の大部分を解決し、また、最近のケーススタディからの分散の例さえも解決している。

We train hierarchical Transformers on the task of synthesizing hardware circuits directly out of high-level logical specifications in linear-time temporal logic (LTL). The LTL synthesis problem is a well-known algorithmic challenge with a long history and an annual competition is organized to track the improvement of algorithms and tooling over time. New approaches using machine learning might open a lot of possibilities in this area, but suffer from the lack of sufficient amounts of training data. In this paper, we consider a method to generate large amounts of additional training data, i.e., pairs of specifications and circuits implementing them. We ensure that this synthetic data is sufficiently close to human-written specifications by mining common patterns from the specifications used in the synthesis competitions. We show that hierarchical Transformers trained on this synthetic data solve a significant portion of problems from the synthesis competitions, and even out-of-distribution examples from a recent case study.
翻訳日:2021-07-27 15:50:06 公開日:2021-07-25
# 公正な作業者選択によるフェデレーションラーニング:マルチラウンドサブモジュールの最大化アプローチ

Federated Learning with Fair Worker Selection: A Multi-Round Submodular Maximization Approach ( http://arxiv.org/abs/2107.11728v1 )

ライセンス: Link先を確認
Fengjiao Li, Jia Liu, and Bo Ji(参考訳) 本稿では,フェデレーション学習システムにおけるフェアワーカー選択の問題について検討し,フェアネスは,フェデレーションへの参加を促すインセンティブメカニズムとして機能する。 選択された労働者の効用としてグローバルモデルの訓練精度が得られたことを考慮し, 労働者選択問題を, 濃度と公平性制約を伴い, 新たな多ラウンドモノトンサブモジュラー最大化問題として定式化する。 目的は、各作業者が一定時間だけ選択されなければならない追加の公平性要件の下で、複数のラウンドで平均的なユーティリティを最大化することである。 濃度制約を伴う伝統的な部分モジュラー最大化は、既によく知られたNP-ハード問題であるが、マルチラウンド設定におけるフェアネス制約は、余分な困難を伴う。 この新たな課題に対処するために,fair continuous greedy (faircg1 と faircg2) と fair discrete greedy (fairdg) の3つのアルゴリズムを提案する。 さらに,FairCG1およびFairCG2において達成された時間平均ユーティリティの非自明な下限を証明した。 さらに、フェアネスよりも高い優先順位を与えることで、FairDGはラウンド毎に保持されるより強力な短期フェアネス保証を保証します。 最後に,提案アルゴリズムの有効性を,時間平均ユーティリティと公平性満足度の観点から検証するために,広範囲なシミュレーションを行った。

In this paper, we study the problem of fair worker selection in Federated Learning systems, where fairness serves as an incentive mechanism that encourages more workers to participate in the federation. Considering the achieved training accuracy of the global model as the utility of the selected workers, which is typically a monotone submodular function, we formulate the worker selection problem as a new multi-round monotone submodular maximization problem with cardinality and fairness constraints. The objective is to maximize the time-average utility over multiple rounds subject to an additional fairness requirement that each worker must be selected for a certain fraction of time. While the traditional submodular maximization with a cardinality constraint is already a well-known NP-Hard problem, the fairness constraint in the multi-round setting adds an extra layer of difficulty. To address this novel challenge, we propose three algorithms: Fair Continuous Greedy (FairCG1 and FairCG2) and Fair Discrete Greedy (FairDG), all of which satisfy the fairness requirement whenever feasible. Moreover, we prove nontrivial lower bounds on the achieved time-average utility under FairCG1 and FairCG2. In addition, by giving a higher priority to fairness, FairDG ensures a stronger short-term fairness guarantee, which holds in every round. Finally, we perform extensive simulations to verify the effectiveness of the proposed algorithms in terms of the time-average utility and fairness satisfaction.
翻訳日:2021-07-27 15:45:53 公開日:2021-07-25
# 不均一観測データにおける連関因果推論

Federated Causal Inference in Heterogeneous Observational Data ( http://arxiv.org/abs/2107.11732v1 )

ライセンス: Link先を確認
Ruoxuan Xiong, Allison Koenecke, Michael Powell, Zhu Shen, Joshua T. Vogelstein, Susan Athey(参考訳) 複数のソースからの観測データの解析は、治療効果を検出するための統計力の増大に有用であるが、プライバシの考慮のような実用的な制約は、データセット間での個人レベルの情報共有を制限する可能性がある。 本稿では,異種データセットからの要約レベル情報のみを利用するフェデレーション手法を提案する。 フェデレート法は治療効果の2倍ロバスト点推定と分散推定を提供する。 本研究は,連合型推定器の漸近分布を導出し,各レベルのデータから対応する推定器と漸近的に等価であることを示す。 これらの特性を達成するためには,モデルが正しく指定されているか,不均質なデータセット間で安定であるかといった条件に基づいて,フェデレーション法を調整する必要がある。

Analyzing observational data from multiple sources can be useful for increasing statistical power to detect a treatment effect; however, practical constraints such as privacy considerations may restrict individual-level information sharing across data sets. This paper develops federated methods that only utilize summary-level information from heterogeneous data sets. Our federated methods provide doubly-robust point estimates of treatment effects as well as variance estimates. We derive the asymptotic distributions of our federated estimators, which are shown to be asymptotically equivalent to the corresponding estimators from the combined, individual-level data. We show that to achieve these properties, federated methods should be adjusted based on conditions such as whether models are correctly specified and stable across heterogeneous data sets.
翻訳日:2021-07-27 15:45:27 公開日:2021-07-25
# 建物におけるDeep Learning Explicit Differentiable Predictive Control Laws

Deep Learning Explicit Differentiable Predictive Control Laws for Buildings ( http://arxiv.org/abs/2107.11843v1 )

ライセンス: Link先を確認
Jan Drgona, Aaron Tuor, Soumya Vasisht, Elliott Skomski and Draguna Vrabie(参考訳) 未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。 dpcは、明示的な非線形モデル予測制御(mpc)から生じるマルチパラメトリックプログラミング問題に対する近似解である。 MPCの近似とは対照的に、DPCは専門家の監督を必要としない。 代わりに、観測されたシステムのダイナミクスからシステムダイナミクスモデルを学び、微分可能なクローズドループシステムモデルを利用して、神経制御法則をオフラインで最適化する。 システム出力と入力の制約処理のための識別可能な閉ループシステムとペナルティ手法を組み合わせることで、学習システムモデルを通して経済的なMPC損失をバックプロパゲートすることで、制御則のパラメータを直接最適化することができる。 提案手法の制御性能は, マルチゾーン建築熱力学の学習モデルを用いてシミュレーションした。

We present a differentiable predictive control (DPC) methodology for learning constrained control laws for unknown nonlinear systems. DPC poses an approximate solution to multiparametric programming problems emerging from explicit nonlinear model predictive control (MPC). Contrary to approximate MPC, DPC does not require supervision by an expert controller. Instead, a system dynamics model is learned from the observed system's dynamics, and the neural control law is optimized offline by leveraging the differentiable closed-loop system model. The combination of a differentiable closed-loop system and penalty methods for constraint handling of system outputs and inputs allows us to optimize the control law's parameters directly by backpropagating economic MPC loss through the learned system model. The control performance of the proposed DPC method is demonstrated in simulation using learned model of multi-zone building thermal dynamics.
翻訳日:2021-07-27 15:45:16 公開日:2021-07-25
# 拡散確率モデルに基づく音声強調の検討

A Study on Speech Enhancement Based on Diffusion Probabilistic Model ( http://arxiv.org/abs/2107.11876v1 )

ライセンス: Link先を確認
Yen-Ju Lu, Yu Tsao and Shinji Watanabe(参考訳) 拡散確率モデルは、対の拡散と逆過程を通じて自然画像と生音声波形をモデル化する優れた能力を示した。 逆過程のユニークな特性(すなわちガウスノイズと雑音信号から非ターゲット信号を排除する)は、クリーン信号の復元に利用することができる。 この特性に基づいて,ノイズ信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調(DiffuSE)モデルを提案する。 提案したDiffuSEモデルの基本構造は、比較的計算コストとフットプリントの低い高品質なオーディオ波形生成モデルであるDiffWaveと似ている。 改良性能を向上させるために,予測音声に各時間ステップに雑音を付加する逆処理を,支援的逆処理と呼ぶ先進的な逆処理法を考案した。 実験の結果、ディフュージョンは音声バンクコーパスseタスクにおける関連する音声生成モデルに匹敵する性能をもたらすことがわかった。 さらに, 提案した全サンプリングスケジュールに対して, 提案した支持逆プロセスは, 特に高速サンプリングを改良し, 従来の全ステップ推論プロセスよりも改善結果を得るために, 数ステップを要した。

Diffusion probabilistic models have demonstrated an outstanding capability to model natural images and raw audio waveforms through a paired diffusion and reverse processes. The unique property of the reverse process (namely, eliminating non-target signals from the Gaussian noise and noisy signals) could be utilized to restore clean signals. Based on this property, we propose a diffusion probabilistic model-based speech enhancement (DiffuSE) model that aims to recover clean speech signals from noisy signals. The fundamental architecture of the proposed DiffuSE model is similar to that of DiffWave--a high-quality audio waveform generation model that has a relatively low computational cost and footprint. To attain better enhancement performance, we designed an advanced reverse process, termed the supportive reverse process, which adds noisy speech in each time-step to the predicted speech. The experimental results show that DiffuSE yields performance that is comparable to related audio generative models on the standardized Voice Bank corpus SE task. Moreover, relative to the generally suggested full sampling schedule, the proposed supportive reverse process especially improved the fast sampling, taking few steps to yield better enhancement results over the conventional full step inference process.
翻訳日:2021-07-27 15:45:02 公開日:2021-07-25
# シークレットリークプラントによるログスペースの低減

Logspace Reducibility From Secret Leakage Planted Clique ( http://arxiv.org/abs/2107.11886v1 )

ライセンス: Link先を確認
Jay Mardia(参考訳) 植えられたクランク問題は、統計的問題に関連する興味深い計算現象を観察、説明、予測するという文脈でよく研究されている。 計算効率を多項式時間アルゴリズムの存在と同一視する場合、(いくつかの変種)植込みクリッド問題の計算硬度は、他の統計問題のホストの計算硬度を推測するために用いられる。 この能力は、計算効率の概念を宇宙効率に変化させるのに頑健な他の統計問題に(ある変種)植民された斜め問題から移すことができるだろうか? 我々は,スパースPCA,サブマトリクス検出,ほぼk-wise独立性テストという,3つの異なる統計問題に対して肯定的に回答する。 鍵となる課題は、空間効率のよいランダム化還元は、使用するランダム性に繰り返しアクセスする必要があることである。 これらの問題の既知の還元はすべてランダム化され、実装には多項式的に多くのランダムビットが必要である。 多項式的に多くのランダムビットをメモリに格納できないため、既存の還元空間を効率的に実装する方法は不明である。 この問題を回避し、これらの問題に対する既知の削減を実装するには、2つの考えがある。 1. 統計的問題を解くとき、入力自体をランダム性として使うことができる。 2. 入力の一部をランダム性として使用したい場合、適切な秘密漏洩を伴う植込みクランク問題の秘密漏洩変種は、通常の植込みクランク問題よりも有用である。 (arxiv制約により短縮)

The planted clique problem is well-studied in the context of observing, explaining, and predicting interesting computational phenomena associated with statistical problems. When equating computational efficiency with the existence of polynomial time algorithms, the computational hardness of (some variant of) the planted clique problem can be used to infer the computational hardness of a host of other statistical problems. Is this ability to transfer computational hardness from (some variant of) the planted clique problem to other statistical problems robust to changing our notion of computational efficiency to space efficiency? We answer this question affirmatively for three different statistical problems, namely Sparse PCA, submatrix detection, and testing almost k-wise independence. The key challenge is that space efficient randomized reductions need to repeatedly access the randomness they use. Known reductions to these problems are all randomized and need polynomially many random bits to implement. Since we can not store polynomially many random bits in memory, it is unclear how to implement these existing reductions space efficiently. There are two ideas involved in circumventing this issue and implementing known reductions to these problems space efficiently. 1. When solving statistical problems, we can use parts of the input itself as randomness. 2. Secret leakage variants of the planted clique problem with appropriate secret leakage can be more useful than the standard planted clique problem when we want to use parts of the input as randomness. (abstract shortened due to arxiv constraints)
翻訳日:2021-07-27 15:42:39 公開日:2021-07-25