このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201220となっている論文です。

PDF登録状況(公開日: 20201220)

TitleAuthorsAbstract論文公表日・翻訳日
# 短距離等尺形状計を用いた二項時系列分類の高速化

Use Short Isometric Shapelets to Accelerate Binary Time Series Classification ( http://arxiv.org/abs/1912.11982v2 )

ライセンス: Link先を確認
Weibo Shu, Yaqiang Yao, Shengfei Lyu, Jinlong Li, and Huanhuan Chen(参考訳) 時系列分類の研究領域では、アンサンブル形状変換アルゴリズムは分類のための最先端アルゴリズムの1つである。 しかし、基本分類子シェープレット変換は距離計算とシェープレット選択の高時間複雑性を含んでいるため、その高時間複雑性は応用を妨げる問題である。 そこで,本稿では,時間複雑性を低減するための2つの戦略を含む,新しいアルゴリズム,すなわち短等尺形状変換を提案する。 SISTの第1戦略は、簡易な距離計算に基づいて形状レットの長さを補正し、形状レット候補の数を大幅に減らし、アンサンブル形状レット変換アルゴリズムにおける距離計算を高速化する。 第2の戦略は、アンサンブル分類器の代わりに単一の線形分類器を特徴空間で訓練することである。 これらの2つの戦略の理論的な証拠は、いくつかの前提条件下でほぼ損失のない精度を保証し、時間の複雑さを低減させる。 さらに,実験により提案アルゴリズムの優れた性能を示す。

In the research area of time series classification, the ensemble shapelet transform algorithm is one of state-of-the-art algorithms for classification. However, its high time complexity is an issue to hinder its application since its base classifier shapelet transform includes a high time complexity of a distance calculation and shapelet selection. Therefore, in this paper we introduce a novel algorithm, i.e. short isometric shapelet transform, which contains two strategies to reduce the time complexity. The first strategy of SIST fixes the length of shapelet based on a simplified distance calculation, which largely reduces the number of shapelet candidates as well as speeds up the distance calculation in the ensemble shapelet transform algorithm. The second strategy is to train a single linear classifier in the feature space instead of an ensemble classifier. The theoretical evidences of these two strategies are presented to guarantee a near-lossless accuracy under some preconditions while reducing the time complexity. Furthermore, empirical experiments demonstrate the superior performance of the proposed algorithm.
翻訳日:2023-06-10 00:03:51 公開日:2020-12-20
# 政府支援型接触追跡アプリの市場レベル分析

Market-level Analysis of Government-backed COVID-19 Contact Tracing Apps ( http://arxiv.org/abs/2012.10866v1 )

ライセンス: Link先を確認
Huiyi Wang, Liu Wang, Haoyu Wang(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を抑制するため、世界中の政府や公衆衛生当局がコンタクトトレーディングアプリをいくつか立ち上げた。 コンタクトトレースアプリは研究コミュニティから広く注目されているが、ユーザによるコンタクトトレースアプリの採用をアプリ市場レベルから評価する作業は行われていない。 本研究では,接触追跡アプリの市場レベルでの最初の分析を行う。 政府の支援する8つの接触追跡アプリの縦断的研究(4ヶ月以上)をiOSアプリストアで実施しています。 私たちはまず、これらのコンタクトトレースアプリの日次メタ情報(アプリの更新、アプリの評価、アプリのコメントなど)を、ローンチから2020-07-31まで収集します。 次に、リリースプラクティス、アプリの人気、モバイルユーザのフィードバックから特徴付けます。 本研究は,ユーザの視点からの接触追跡アプリに関する諸問題を明らかにし,接触追跡アプリの品質向上を図り,高い採用率を達成することを目的としている。

To help curb the spread of the COVID-19 pandemic, governments and public health authorities around the world have launched a number of contact-tracing apps. Although contact tracing apps have received extensive attentions from the research community, no existing work has characterized the users' adoption of contact tracing apps from the app market level. In this work, we perform the first market-level analysis of contact tracing apps. We perform a longitudinal empirical study (over 4 months) of eight government-backed COVID-19 contact tracing apps in iOS app store. We first collect all the daily meta information (e.g., app updates, app rating, app comments, etc.) of these contact tracing apps from their launch to 2020-07-31. Then we characterize them from release practice, app popularity, and mobile users' feedback. Our study reveals various issues related to contact tracing apps from the users' perspective, hoping to help improve the quality of contact tracing apps and thus achieving a high level of adoption in the population.
翻訳日:2023-04-20 02:31:17 公開日:2020-12-20
# 量子エッジ検出アルゴリズム

A Quantum Edge Detection Algorithm ( http://arxiv.org/abs/2012.11036v1 )

ライセンス: Link先を確認
Giacomo Cavalieri, Dario Maio(参考訳) 量子画像表現技術は、エンタングルメントや重ね合わせのような量子特性を利用して、多くの画像処理アルゴリズムが「古典的」アルゴリズムと比較して指数関数的なスピードアップを行うことができることを示す。 本稿では,主要な量子画像表現手法のいくつかを簡潔に議論した後,量子エッジ検出アルゴリズムの改良版を提案する。

The application of quantum computing to the field of image processing has produced several promising applications: quantum image representation techniques have been developed showing how, by taking advantage of quantum properties like entanglement and superposition, many image processing algorithms could have an exponential speed-up in comparison to their "classical" counterparts. In this paper, after briefly discussing some of the main quantum image representation methods, we propose an improved version of a quantum edge detection algorithm.
翻訳日:2023-04-20 02:28:09 公開日:2020-12-20
# 新型コロナウイルス時代のフェイクニュース議題:ファクトチェックコンテンツによるトレンドの特定

Fake news agenda in the era of COVID-19: Identifying trends through fact-checking content ( http://arxiv.org/abs/2012.11004v1 )

ライセンス: Link先を確認
Wilson Ceron, Mathias-Felipe de-Lima-Santos and Marcos G. Quiles(参考訳) ソーシャルメディアの台頭は、我々の社会で前例のない偽情報の流通を引き起こした。 新型コロナウイルス(covid-19)のパンデミックなど、危機の時期はさらに顕著だ。 ファクトチェックの努力は大幅に拡大し、フェイクニュースに対する最も有望な解決策の1つだと言われている。 いくつかの研究は、西欧社会におけるファクトチェック組織の発展を報告しているが、グローバル・サウスにはほとんど注目されていない。 本稿では,このギャップを埋めるために,ツイート中の話題を識別する新しいマルコフに触発された計算手法を提案する。 他のトピックモデリングアプローチとは対照的に、このメソッドはトピックと現在の進化を事前に定義されたタイムウィンドウにまとめます。 これらを通じて、ブラジルの2つのファクトチェック機関のTwitterアカウントからデータを収集し、パンデミック全体で2週間にわたってこれらのイニシアティブによって議論されたトピックを紹介した。 これらの組織を比較することで、彼らが共有したものの類似点と相違点を識別できます。 提案手法は,情報デミックを含むさまざまなシナリオにおいて,トピックをクラスタリングする重要な手法となった。 特にこのデータは、この時期の政治と健康危機の間に複雑な絡み合いがあることを明確に示していた。 最後に,トピックモデリングに適した汎用モデルの提案と,今後の研究の課題について述べる。

The rise of social media has ignited an unprecedented circulation of false information in our society. It is even more evident in times of crises, such as the COVID-19 pandemic. Fact-checking efforts have expanded greatly and have been touted as among the most promising solutions to fake news, especially in times like these. Several studies have reported the development of fact-checking organizations in Western societies, albeit little attention has been given to the Global South. Here, to fill this gap, we introduce a novel Markov-inspired computational method for identifying topics in tweets. In contrast to other topic modeling approaches, our method clusters topics and their current evolution in a predefined time window. Through these, we collected data from Twitter accounts of two Brazilian fact-checking outlets and presented the topics debunked by these initiatives in fortnights throughout the pandemic. By comparing these organizations, we could identify similarities and differences in what was shared by them. Our method resulted in an important technique to cluster topics in a wide range of scenarios, including an infodemic -- a period overabundance of the same information. In particular, the data clearly revealed a complex intertwining between politics and the health crisis during this period. We conclude by proposing a generic model which, in our opinion, is suitable for topic modeling and an agenda for future research.
翻訳日:2023-04-20 02:27:52 公開日:2020-12-20
# Mind the Gap: 行動変化プロセスにおける没入型テクノロジの利用を支援するフレームワーク(BehaveFIT)

Mind the Gap: A Framework (BehaveFIT) Guiding The Use of Immersive Technologies in Behavior Change Processes ( http://arxiv.org/abs/2012.10912v1 )

ライセンス: Link先を確認
Carolin Wienrich, Nina Ines D\"ollinger and Rebecca Hein(参考訳) 行動変化プロセスを支援する支援技術の設計と評価は、人間とコンピュータの相互作用研究の分野、特に没入型介入技術の分野において重要なトピックとなっている。 行動変化技術と介入のメカニズムと成功は心理学の分野で広く研究されている。 しかし、これらの心理的発見を没入型技術の文脈に適応させることは必ずしも容易ではない。 理論的基盤の欠如は、なぜ没入的介入が行動変化プロセスをどのようにサポートするのか、という説明の欠如につながる。 没入的技術行動フレームワーク(behavefit)は、(1)心理的障壁と没入的特徴の理解可能な分類と凝縮を示すこと、(2)没入的技術が障壁を克服する理由と方法を示すマッピングを提案すること、(3)没入的介入の開発と評価のための構造的理論に基づくアプローチを可能にする一般的な予測パスを提案することで、この不足に対処する。 これら3つのステップは、 behaviorfitの使用方法を説明し、各ステップのガイド付き質問と1つの例を含む。 そこで本研究では,没入的介入が行動変容過程をサポートし,「なぜ」と「どのように」没入的介入が意図-行動-ギャップを橋渡しできることを示す,没入的介入設計と評価のためのガイダンスを提供する。

The design and evaluation of assisting technologies to support behavior change processes have become an essential topic within the field of human-computer interaction research in general and the field of immersive intervention technologies in particular. The mechanisms and success of behavior change techniques and interventions are broadly investigated in the field of psychology. However, it is not always easy to adapt these psychological findings to the context of immersive technologies. The lack of theoretical foundation also leads to a lack of explanation as to why and how immersive interventions support behavior change processes. The Behavioral Framework for immersive Technologies (BehaveFIT) addresses this lack by (1) presenting an intelligible categorization and condensation of psychological barriers and immersive features, by (2) suggesting a mapping that shows why and how immersive technologies can help to overcome barriers, and finally by (3) proposing a generic prediction path that enables a structured, theory-based approach to the development and evaluation of immersive interventions. These three steps explain how BehaveFIT can be used, and include guiding questions and one example for each step. Thus, the present paper contributes to guidance for immersive intervention design and evaluation, showing that immersive interventions support behavior change processes and explain and predict 'why' and 'how' immersive interventions can bridge the intention-behavior-gap.
翻訳日:2023-04-20 02:26:10 公開日:2020-12-20
# 繰り返し符号に基づく検証可能な複数パーティ量子鍵分布プロトコル

A verifiable multi-party quantum key distribution protocol based on repetitive codes ( http://arxiv.org/abs/2012.10900v1 )

ライセンス: Link先を確認
Lei Li, Zhi Li(参考訳) 本稿では、繰り返しコードに基づくマルチパーティ量子鍵分散プロトコルを初めて設計する。 まず、参加者のアイデンティティを認証できる古典的(t, n)しきい値プロトコルを確立し、この繰り返しコードに従って古典的キーシーケンスを符号化する。 そして、この(t,n)しきい値プロトコルからのパラメータを用いて、この符号化シーケンスに対応する量子状態列のユニタリ変換を行う。 さらに、受信したシーケンスの測定値を保存するか否かの閾値を2つ導き、この2つのしきい値に対応する測定値から古典的なサブキーシーケンスを抽出する。 このプロトコルは、参加者の身元を認証し、内部および外部の参加者からの攻撃に抵抗し、類似のプロトコルよりも効率的である盗聴器をテストする際に、解凍状態粒子を不要とし、量子資源を節約する。

A multi-party quantum key distribution protocol based on repetitive code is designed for the first time in this paper. First we establish a classical (t, n) threshold protocol which can authenticate the identity of the participants, and encode the classical key sequence in accordance with this repetitive code. Then unitary transformation of the quantum state sequence corresponding to this encoded sequence is carried out by using the parameters from this (t, n) threshold protocol. Furthermore, we derive two thresholds for whether or not reserving the measured values of the received sequence, and extract the classical subkey sequence from the measured values conforming to these two threshold conditions. This protocol can authenticate the identity of the participant, resist the attack from the internal and external participants, and do not need the decoy state particles when testing the eavesdropper, which is more efficient than the similar protocols, and also saves the quantum resources.
翻訳日:2023-04-20 02:25:43 公開日:2020-12-20
# M2m:大小翻訳による不均衡分類

M2m: Imbalanced Classification via Major-to-minor Translation ( http://arxiv.org/abs/2004.00431v2 )

ライセンス: Link先を確認
Jaehyung Kim, Jongheon Jeong, Jinwoo Shin(参考訳) ほとんどの現実のシナリオでは、ラベル付きトレーニングデータセットは高度にクラス不均衡であり、ディープニューラルネットワークは、バランスのとれたテスト基準への一般化に苦しむ。 本稿では,より頻度の低いクラスを,より頻度の低いクラスからサンプル(画像など)を翻訳することで,この問題を緩和する新しい方法を提案する。 この単純なアプローチにより、分類器は多数派の情報の多様性を移し活用することで、マイノリティクラスのより一般化可能な特徴を学ぶことができる。 様々なクラス不均衡データセットを用いた実験の結果,提案手法が既存の再サンプリング法や重み付け法に比べてマイノリティクラスの一般化を著しく改善していることがわかった。 この手法の性能は,従来の非バランスな分類法よりも優れていた。

In most real-world scenarios, labeled training datasets are highly class-imbalanced, where deep neural networks suffer from generalizing to a balanced testing criterion. In this paper, we explore a novel yet simple way to alleviate this issue by augmenting less-frequent classes via translating samples (e.g., images) from more-frequent classes. This simple approach enables a classifier to learn more generalizable features of minority classes, by transferring and leveraging the diversity of the majority information. Our experimental results on a variety of class-imbalanced datasets show that the proposed method improves the generalization on minority classes significantly compared to other existing re-sampling or re-weighting methods. The performance of our method even surpasses those of previous state-of-the-art methods for the imbalanced classification.
翻訳日:2022-12-17 17:41:42 公開日:2020-12-20
# 分子設計のための高速分化dnaとタンパク質配列最適化

Fast differentiable DNA and protein sequence optimization for molecular design ( http://arxiv.org/abs/2005.11275v2 )

ライセンス: Link先を確認
Johannes Linder and Georg Seelig(参考訳) 機能を改善したDNAおよびタンパク質配列の設計は、合成生物学を大幅に加速させる可能性がある。 生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。 アクティベーションの最大化は、微分可能なモデルに対して単純な設計戦略を提供する: 1ホットの符号化シーケンスは、まず連続表現によって近似される。 エレガントではあるが、この方法は勾配の消失に悩まされ、収束不良につながる予測的病理を引き起こす可能性がある。 そこで本研究では, 先行提案のストレートスルー近似法を基礎として, 離散シーケンスサンプルを最適化する。 位置をまたいだヌクレオチドロジットの正規化と適応エントロピー変数の導入により、過度に大きくあるいは歪んだサンプリングパラメータから生じるボトルネックを取り除く。 得られたアルゴリズムはFast SeqPropと呼ばれ、従来のアクティベーションの最大化よりも最大100倍高速収束を実現し、多くのアプリケーションに対する適合度最適化の改善を見出した。 我々は、タンパク質構造予測器を含む6つのディープラーニング予測器のためのdnaとタンパク質配列を設計することで、高速なseqpropを示す。

Designing DNA and protein sequences with improved function has the potential to greatly accelerate synthetic biology. Machine learning models that accurately predict biological fitness from sequence are becoming a powerful tool for molecular design. Activation maximization offers a simple design strategy for differentiable models: one-hot coded sequences are first approximated by a continuous representation which is then iteratively optimized with respect to the predictor oracle by gradient ascent. While elegant, this method suffers from vanishing gradients and may cause predictor pathologies leading to poor convergence. Here, we build on a previously proposed straight-through approximation method to optimize through discrete sequence samples. By normalizing nucleotide logits across positions and introducing an adaptive entropy variable, we remove bottlenecks arising from overly large or skewed sampling parameters. The resulting algorithm, which we call Fast SeqProp, achieves up to 100-fold faster convergence compared to previous versions of activation maximization and finds improved fitness optima for many applications. We demonstrate Fast SeqProp by designing DNA and protein sequences for six deep learning predictors, including a protein structure predictor.
翻訳日:2022-11-30 08:31:18 公開日:2020-12-20
# 教師なしマルチフレーム波面センシングの学習:ブラインドデコンボリューションへの応用

Learning to do multiframe wavefront sensing unsupervisedly: applications to blind deconvolution ( http://arxiv.org/abs/2006.01438v2 )

ライセンス: Link先を確認
A. Asensio Ramos (IAC, ULL), N. Olspert (MPS)(参考訳) 地上の望遠鏡からの観測は、地球大気の存在によって影響を受け、それらがひどく乱れてしまう。 適応光学技術を用いることで、この制限を部分的に打ち負かすことができる。 しかし, 回折限界に達するには, 短い露光画像のバーストに適用した画像選択法やポストファクト画像再構成法が必要となる。 近年,画像再構成の高速化手法としてディープラーニングが提案されている。 現在、これらの深層ニューラルネットワークは、監視によって訓練されているため、標準的なデコンボリューションアルゴリズムを適用するか、トレーニングセットを生成するために太陽磁気対流の複雑なシミュレーションを行う必要がある。 本研究の目的は,マルチフレームブラインドデコンボリューション深層学習システムを単に観察によって訓練できる汎用的な教師なし学習方式を提案することである。 アプローチは、拡張対象と同様に点のような補正にも適用できる。 線形像形成理論とブラインドデコンボリューション問題に対する確率論的アプローチを活用すれば、身体的モチベーション損失関数が得られる。 この損失関数の最適化は、3つのニューラルネットワークからなる機械学習モデルのエンドツーエンドトレーニングを可能にする。 例として、この手順を、FastCam機器からの恒星データのデコンボリューションと、スウェーデンの太陽望遠鏡からの太陽拡張データに適用する。 解析の結果,提案するニューラルモデルは,観察のみを用いて監視することなく,効果的に訓練できることが示された。 これは、修正された画像を標準のデコンボリューション技術を用いて見つけることができる瞬時波面の推定を提供する。 ネットワークモデルは最適化に基づく標準デコンボリューションの適用よりも約3桁高速であり、望遠鏡でのリアルタイム使用の可能性を示している。

Observations from ground based telescopes are affected by the presence of the Earth atmosphere, which severely perturbs them. The use of adaptive optics techniques has allowed us to partly beat this limitation. However, image selection or post-facto image reconstruction methods applied to bursts of short-exposure images are routinely needed to reach the diffraction limit. Deep learning has been recently proposed as an efficient way to accelerate these image reconstructions. Currently, these deep neural networks are trained with supervision, so that either standard deconvolution algorithms need to be applied a-priori or complex simulations of the solar magneto-convection need to be carried out to generate the training sets. Our aim here is to propose a general unsupervised training scheme that allows multiframe blind deconvolution deep learning systems to be trained simply with observations. The approach can be applied for the correction of point-like as well as extended objects. Leveraging the linear image formation theory and a probabilistic approach to the blind deconvolution problem produces a physically-motivated loss function. The optimization of this loss function allows an end-to-end training of a machine learning model composed of three neural networks. As examples, we apply this procedure to the deconvolution of stellar data from the FastCam instrument and to solar extended data from the Swedish Solar Telescope. The analysis demonstrates that the proposed neural model can be successfully trained without supervision using observations only. It provides estimations of the instantaneous wavefronts, from which a corrected image can be found using standard deconvolution technniques. The network model is roughly three orders of magnitude faster than applying standard deconvolution based on optimization and shows potential to be used on real-time at the telescope.
翻訳日:2022-11-26 00:56:00 公開日:2020-12-20
# DSU-net: Dense SegU-netによるMR画像の頭頸部腫瘍分割

DSU-net: Dense SegU-net for automatic head-and-neck tumor segmentation in MR images ( http://arxiv.org/abs/2006.06278v3 )

ライセンス: Link先を確認
Pin Tang, Chen Zu, Mei Hong, Rui Yan, Xingchen Peng, Jianghong Xiao, Xi Wu, Jiliu Zhou, Luping Zhou, and Yan Wang(参考訳) 最も一般的な頭頸部腫瘍である鼻咽頭癌(npc)のmriにおける精密かつ正確な分節は、治療と規制上の決定に光を当てている。 しかし, npcの病変の大きさや形状, 境界曖昧性, 限定的なアノテート標本のばらつきは, mriのnpcセグメンテーションを困難な課題へと導く。 本稿では,MRI における NPC の自動分割のための Dense SegU-net (DSU-net) フレームワークを提案する。 私たちの貢献は3倍です。 まず,upconvolution for upsamlingを用いたu-netの従来のデコーダとは異なり,低分解能特徴から高分解能出力への復元は,正確な境界位置決定に重要な情報を保存することができるべきである。 したがって、アンプールを用いてアンサンプリングし、SegU-netを提案する。 第2に, 潜在的な消滅段階問題に対処するために, 特徴の伝播と再利用を容易にする密集ブロックを導入する。 第3に、損失関数としてクロスエントロピー(CE)のみを用いると、ミス予測などの問題が発生する可能性があるため、ネットワークをトレーニングするためにCE損失とDice損失の両方からなる損失関数を使用することを提案する。 定量的・定性的な比較が社内データセット上で広く行われ,提案手法が既存の最先端セグメンテーションネットワークよりも優れていることを示す実験結果が得られた。

Precise and accurate segmentation of the most common head-and-neck tumor, nasopharyngeal carcinoma (NPC), in MRI sheds light on treatment and regulatory decisions making. However, the large variations in the lesion size and shape of NPC, boundary ambiguity, as well as the limited available annotated samples conspire NPC segmentation in MRI towards a challenging task. In this paper, we propose a Dense SegU-net (DSU-net) framework for automatic NPC segmentation in MRI. Our contribution is threefold. First, different from the traditional decoder in U-net using upconvolution for upsamling, we argue that the restoration from low resolution features to high resolution output should be capable of preserving information significant for precise boundary localization. Hence, we use unpooling to unsample and propose SegU-net. Second, to combat the potential vanishing-gradient problem, we introduce dense blocks which can facilitate feature propagation and reuse. Third, using only cross entropy (CE) as loss function may bring about troubles such as miss-prediction, therefore we propose to use a loss function comprised of both CE loss and Dice loss to train the network. Quantitative and qualitative comparisons are carried out extensively on in-house datasets, the experimental results show that our proposed architecture outperforms the existing state-of-the-art segmentation networks.
翻訳日:2022-11-22 14:25:23 公開日:2020-12-20
# 非薬剤的介入のcovid-19に対する効果はどの程度ロバストか?

How Robust are the Estimated Effects of Nonpharmaceutical Interventions against COVID-19? ( http://arxiv.org/abs/2007.13454v3 )

ライセンス: Link先を確認
Mrinank Sharma, S\"oren Mindermann, Jan Markus Brauner, Gavin Leech, Anna B. Stephenson, Tom\'a\v{s} Gaven\v{c}iak, Jan Kulveit, Yee Whye Teh, Leonid Chindelevitch, Yarin Gal(参考訳) 新型ウイルスに対する非薬剤的介入(npis)の有効性評価は,我々のモデルが作り出す仮定にどの程度影響するか。 そこで本研究では,2つのNPIの有効性モデルについて検討し,構造的仮定の異なる6つの変種を提案する。 特に,NPIの有効性評価が未確認の国にどのように一般化するか,および未観測の要因に対する感受性について検討した。 病気の伝染のノイズを説明するモデルは、好ましく比較される。 さらに,疫学的パラメータとデータの選択に対するロバストな推定値の評価を行った。 送信ノイズを仮定するモデルに焦点をあてた結果, 前報ではこれらの変数に対して極めて堅牢であることがわかった。 最後に、ある共通仮定が成り立たない場合、NPIの有効性推定の解釈を数学的に基礎とする。

To what extent are effectiveness estimates of nonpharmaceutical interventions (NPIs) against COVID-19 influenced by the assumptions our models make? To answer this question, we investigate 2 state-of-the-art NPI effectiveness models and propose 6 variants that make different structural assumptions. In particular, we investigate how well NPI effectiveness estimates generalise to unseen countries, and their sensitivity to unobserved factors. Models that account for noise in disease transmission compare favourably. We further evaluate how robust estimates are to different choices of epidemiological parameters and data. Focusing on models that assume transmission noise, we find that previously published results are remarkably robust across these variables. Finally, we mathematically ground the interpretation of NPI effectiveness estimates when certain common assumptions do not hold.
翻訳日:2022-11-06 08:29:21 公開日:2020-12-20
# 深層学習が速い理由を理解するための深層周波数原理

Deep frequency principle towards understanding why deeper learning is faster ( http://arxiv.org/abs/2007.14313v2 )

ライセンス: Link先を確認
Zhi-Qin John Xu, Hanxu Zhou(参考訳) 深層学習における深度の影響を理解することは重要な問題である。 本研究では,フーリエ解析を用いて,フィードフォワード深層学習が高速である理由を理解するための有望なメカニズムを提供する。 この目的のために、通常の確率勾配降下によって訓練されたディープニューラルネットワークを、前条件成分と学習成分の2つの部分、すなわち、前条件成分の出力が学習成分の入力である分析中に分離する。 フィルタ法を用いて高次元関数の周波数分布を特徴付ける。 深層ネットワークと実データ集合の実験に基づいて,深層層が低周波に偏る場合の有効目標関数である深層周波数原理を提案する。 したがって、事前条件成分がより多くの層を有する場合、学習成分は低周波関数を効果的に学習する。 深層ニューラルネットワークは、よく研究された周波数原理、すなわち、低周波関数をより早く学習するため、深層周波数原理は、深層学習がなぜ速いのかの合理的な説明を提供する。 これらの経験的研究は、深層学習における深層効果の将来の理論的研究に有用であると信じている。

Understanding the effect of depth in deep learning is a critical problem. In this work, we utilize the Fourier analysis to empirically provide a promising mechanism to understand why feedforward deeper learning is faster. To this end, we separate a deep neural network, trained by normal stochastic gradient descent, into two parts during analysis, i.e., a pre-condition component and a learning component, in which the output of the pre-condition one is the input of the learning one. We use a filtering method to characterize the frequency distribution of a high-dimensional function. Based on experiments of deep networks and real dataset, we propose a deep frequency principle, that is, the effective target function for a deeper hidden layer biases towards lower frequency during the training. Therefore, the learning component effectively learns a lower frequency function if the pre-condition component has more layers. Due to the well-studied frequency principle, i.e., deep neural networks learn lower frequency functions faster, the deep frequency principle provides a reasonable explanation to why deeper learning is faster. We believe these empirical studies would be valuable for future theoretical studies of the effect of depth in deep learning.
翻訳日:2022-11-06 01:44:39 公開日:2020-12-20
# グラフニューラルネットワークのためのグラフ正規化再考

Rethinking Graph Regularization for Graph Neural Networks ( http://arxiv.org/abs/2009.02027v2 )

ライセンス: Link先を確認
Han Yang and Kaili Ma and James Cheng(参考訳) グラフラプラシア正規化項は通常、モデル$f(X)$のグラフ構造情報を提供する半教師付き表現学習で使用される。 しかし、グラフニューラルネットワーク(gnns)が最近普及したことにより、モデルに直接グラフ構造$a$をエンコードする、すなわち$f(a, x)$がより一般的なアプローチになっている。 グラフのラプラシアン正規化は既存のGNNにはほとんどメリットがないことを示す一方で、既存のGNNモデルの性能を高めるために、P-reg(Propagation-regularization)と呼ばれる単純なグラフのラプラシアン正規化を提案する。 p-reg は gnn に余分な情報(従来のグラフラプラシアン正規化によってキャプチャされない)を注入するだけでなく、無限深さグラフ畳み込みネットワークと同等の容量を持つことを示す形式的解析を提供する。 P-regはノードレベルのタスクとグラフレベルのタスクの両方において、多くの異なるデータセットで既存のGNNモデルの性能を効果的に向上させることができることを示す。

The graph Laplacian regularization term is usually used in semi-supervised representation learning to provide graph structure information for a model $f(X)$. However, with the recent popularity of graph neural networks (GNNs), directly encoding graph structure $A$ into a model, i.e., $f(A, X)$, has become the more common approach. While we show that graph Laplacian regularization brings little-to-no benefit to existing GNNs, and propose a simple but non-trivial variant of graph Laplacian regularization, called Propagation-regularization (P-reg), to boost the performance of existing GNN models. We provide formal analyses to show that P-reg not only infuses extra information (that is not captured by the traditional graph Laplacian regularization) into GNNs, but also has the capacity equivalent to an infinite-depth graph convolutional network. We demonstrate that P-reg can effectively boost the performance of existing GNN models on both node-level and graph-level tasks across many different datasets.
翻訳日:2022-10-22 01:41:09 公開日:2020-12-20
# 室内環境における初期鳥のループ閉鎖 : 対向的視点から

Early Bird: Loop Closures from Opposing Viewpoints for Perceptually-Aliased Indoor Environments ( http://arxiv.org/abs/2010.01421v3 )

ライセンス: Link先を確認
Satyajit Tourani, Dhagash Desai, Udit Singh Parihar, Sourav Garg, Ravi Kiran Sarvadevabhatla, Michael Milford, K. Madhava Krishna(参考訳) 近年,視覚位置認識(vpr),特徴対応,局所化において,深層学習に基づく手法の普及が著しい進歩を遂げている。 しかし、既存のアプローチは、視点の変化と知覚的エイリアスという2つの主要な課題のうちの1つに対処する傾向があります。 本稿では,地平面上のナビゲーションに関する合理的なドメイン仮定に基づいて,深層学習特徴と幾何変換を組み合わせることにより,両課題を同時に解決するとともに,特殊なハードウェア設定(照明,下向きカメラなど)の要件を除去する。 特に,VPRとSLAMの統合は,深く学習した特徴の堅牢性とホモグラフィに基づく極端な視点不変性を利用して,VPRの性能,特徴対応性,SLAMパイプラインのグラフサブモジュールのポーズを著しく向上させる。 実世界およびシミュレーション実験において,知覚的エイリアスと極端な180度回転の視点変化にもかかわらず,最先端の性能を発揮できるローカライズシステムを示す。 本システムでは,スラム軌跡のドリフトを防止できる早期ループクロージャを実現できる。 また、VPRとディスクリプタマッチングのためのディープアーキテクチャを幅広く比較する。 また, 位置認識とデクリプタマッチングが相反する結果, バックエンドポーズグラフの最適化において, 同様の性能向上をもたらすことを示す。

Significant advances have been made recently in Visual Place Recognition (VPR), feature correspondence, and localization due to the proliferation of deep-learning-based methods. However, existing approaches tend to address, partially or fully, only one of two key challenges: viewpoint change and perceptual aliasing. In this paper, we present novel research that simultaneously addresses both challenges by combining deep-learned features with geometric transformations based on reasonable domain assumptions about navigation on a ground-plane, whilst also removing the requirement for specialized hardware setup (e.g. lighting, downwards facing cameras). In particular, our integration of VPR with SLAM by leveraging the robustness of deep-learned features and our homography-based extreme viewpoint invariance significantly boosts the performance of VPR, feature correspondence, and pose graph submodules of the SLAM pipeline. For the first time, we demonstrate a localization system capable of state-of-the-art performance despite perceptual aliasing and extreme 180-degree-rotated viewpoint change in a range of real-world and simulated experiments. Our system is able to achieve early loop closures that prevent significant drifts in SLAM trajectories. We also compare extensively several deep architectures for VPR and descriptor matching. We also show that superior place recognition and descriptor matching across opposite views results in a similar performance gain in back-end pose graph optimization.
翻訳日:2022-10-11 11:39:49 公開日:2020-12-20
# AdaBelief Optimizer: 観測勾配におけるステップサイズ適応

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients ( http://arxiv.org/abs/2010.07468v5 )

ライセンス: Link先を確認
Juntang Zhuang, Tommy Tang, Yifan Ding, Sekhar Tatikonda, Nicha Dvornek, Xenophon Papademetris, James S. Duncan(参考訳) ディープラーニングの最も一般的な最適化は、適応法(adamなど)と加速スキーム(sgdと運動量による確率勾配降下(sgd)など)に広く分類できる。 畳み込みニューラルネットワーク(CNN)のような多くのモデルでは、適応的手法は一般的にSGDよりも高速に収束するが、より良く一般化する; 生成的敵対的ネットワーク(GAN)のような複雑な設定では、適応的手法は一般にその安定性のためにデフォルトとなるが、適応的手法は3つの目標を同時に達成するためにAdaBeliefを提案する。 AdaBelief の直感は、現在の勾配方向の "belief" に従ってステップ化を適応させることである。 雑音勾配の指数的移動平均(EMA)を次のステップでの勾配の予測として見た場合、観測された勾配が予測から大きくずれた場合には、現在の観測を不信にし、小さなステップを踏む。 画像分類や言語モデリングにおいて,他の手法よりも高速に収束し,高い精度を発揮できることを示すため,adabeliefを広範な実験で検証した。 特にimagenetでは、adabeliefはsgdと同等の精度を実現している。 さらに、Cifar10上でのGANのトレーニングでは、AdaBeliefはAdamオプティマイザと比較して高い安定性を示し、生成したサンプルの品質を向上させる。 コードはhttps://github.com/juntang-zhuang/Adabelief-Optimizerで入手できる。

Most popular optimizers for deep learning can be broadly categorized as adaptive methods (e.g. Adam) and accelerated schemes (e.g. stochastic gradient descent (SGD) with momentum). For many models such as convolutional neural networks (CNNs), adaptive methods typically converge faster but generalize worse compared to SGD; for complex settings such as generative adversarial networks (GANs), adaptive methods are typically the default because of their stability.We propose AdaBelief to simultaneously achieve three goals: fast convergence as in adaptive methods, good generalization as in SGD, and training stability. The intuition for AdaBelief is to adapt the stepsize according to the "belief" in the current gradient direction. Viewing the exponential moving average (EMA) of the noisy gradient as the prediction of the gradient at the next time step, if the observed gradient greatly deviates from the prediction, we distrust the current observation and take a small step; if the observed gradient is close to the prediction, we trust it and take a large step. We validate AdaBelief in extensive experiments, showing that it outperforms other methods with fast convergence and high accuracy on image classification and language modeling. Specifically, on ImageNet, AdaBelief achieves comparable accuracy to SGD. Furthermore, in the training of a GAN on Cifar10, AdaBelief demonstrates high stability and improves the quality of generated samples compared to a well-tuned Adam optimizer. Code is available at https://github.com/juntang-zhuang/Adabelief-Optimizer
翻訳日:2022-10-07 02:39:56 公開日:2020-12-20
# 深部強化学習を用いた粒子加速器の自律制御

Autonomous Control of a Particle Accelerator using Deep Reinforcement Learning ( http://arxiv.org/abs/2010.08141v2 )

ライセンス: Link先を確認
Xiaoying Pang, Sunil Thulasidasan, Larry Rybarcyk(参考訳) 高忠実度物理エンジンを併用した深部強化学習による大規模線形粒子加速器の最適制御則の学習手法について述べる。 このフレームワークは、状態と行動空間の表現にディープニューラルネットワークを使用し、物理学シミュレータが提供する報酬信号を使用して最適なポリシーを学ぶAIコントローラで構成されている。 この作業では、アクセラレータ全体の小さな部分のコントロールにのみ焦点を合わせます。 それにもかかわらず、初期の結果は粒子線電流と分布の観点から、人間よりも優れたレベルの性能を達成できることを示唆している。 この作業の最終的な目標は、そのような設備のチューニング時間を桁違いに削減し、ほぼ自律的な制御を実現することである。

We describe an approach to learning optimal control policies for a large, linear particle accelerator using deep reinforcement learning coupled with a high-fidelity physics engine. The framework consists of an AI controller that uses deep neural nets for state and action-space representation and learns optimal policies using reward signals that are provided by the physics simulator. For this work, we only focus on controlling a small section of the entire accelerator. Nevertheless, initial results indicate that we can achieve better-than-human level performance in terms of particle beam current and distribution. The ultimate goal of this line of work is to substantially reduce the tuning time for such facilities by orders of magnitude, and achieve near-autonomous control.
翻訳日:2022-10-06 20:38:49 公開日:2020-12-20
# 弱い監督下での階層的メタデータ・アウェアドキュメント分類

Hierarchical Metadata-Aware Document Categorization under Weak Supervision ( http://arxiv.org/abs/2010.13556v2 )

ライセンス: Link先を確認
Yu Zhang, Xiusi Chen, Yu Meng, Jiawei Han(参考訳) ドキュメントをラベル階層に分類することは、大量のテキストコーパスにおける階層的トピック構造が普及しているため、直感的に魅力的である。 関連する研究は、完全な教師付き階層的文書分類のパフォーマンスを満足させるが、通常、大量の人間の注釈付きトレーニングデータを必要とし、テキスト情報のみを利用する。 しかし、多くのドメインでは、(1) アノテーションは非常に高価で、非常に少ないトレーニングサンプルが取得でき、(2) ドキュメントにはメタデータ情報が含まれている。 そこで本稿では, 文書分類におけるラベル階層, メタデータ, テキスト信号の統合手法について検討する。 タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。 具体的には,カテゴリー依存,メタデータ情報,テキスト意味の同時モデリングを可能にする新しい統合表現学習モジュールを提案し,学習文書を階層的に合成し,元の小規模学習セットを補完するデータ拡張モジュールを提案する。 本実験は,競合ベースラインに対するhimecatの一貫した改善を示し,表現学習とデータ拡張モジュールの寄与を検証する。

Categorizing documents into a given label hierarchy is intuitively appealing due to the ubiquity of hierarchical topic structures in massive text corpora. Although related studies have achieved satisfying performance in fully supervised hierarchical document classification, they usually require massive human-annotated training data and only utilize text information. However, in many domains, (1) annotations are quite expensive where very few training samples can be acquired; (2) documents are accompanied by metadata information. Hence, this paper studies how to integrate the label hierarchy, metadata, and text signals for document categorization under weak supervision. We develop HiMeCat, an embedding-based generative framework for our task. Specifically, we propose a novel joint representation learning module that allows simultaneous modeling of category dependencies, metadata information and textual semantics, and we introduce a data augmentation module that hierarchically synthesizes training documents to complement the original, small-scale training set. Our experiments demonstrate a consistent improvement of HiMeCat over competitive baselines and validate the contribution of our representation learning and data augmentation modules.
翻訳日:2022-10-02 19:33:37 公開日:2020-12-20
# 意味的人間の移動行動のマイニング・発見・分析手法

Methodology for Mining, Discovering and Analyzing Semantic Human Mobility Behaviors ( http://arxiv.org/abs/2012.04767v2 )

ライセンス: Link先を確認
Clement Moreau and Thomas Devogele and Laurent Etienne and Veronika Peralta and Cyril de Runz(参考訳) 様々な機関が日々の活動や人間の移動に関する情報を含む大規模なセマンティックデータセットを作成している。 このようなデータの分析と理解は、都市計画、社会心理学、政治科学、疫学に不可欠である。 しかし、データマイニングの典型的なプロセスは、セマンティックモビリティシーケンスの徹底的な解析のためにカスタマイズされず、データを理解可能な振る舞いに変換する。 そこで本研究では,情報と行動のコヒーレントを識別するために,意味的モビリティシーケンスをマイニングし分析するための新しい手法であるsimba(semantic indicators for mobility and behavior analysis)を提案する。 相補的な統計指標と視覚ツールを統合したセマンティックシーケンスのモビリティ分析とクラスタリングの可視性を示すフレームワークを実装した。 この手法を検証するために,家庭内旅行調査から得られた実日移動シーケンスを多数使用した。 補足的知識は提案手法で自動的に検出される。

Various institutes produce large semantic datasets containing information regarding daily activities and human mobility. The analysis and understanding of such data are crucial for urban planning, socio-psychology, political sciences, and epidemiology. However, none of the typical data mining processes have been customized for the thorough analysis of semantic mobility sequences to translate data into understandable behaviors. Based on an extended literature review, we propose a novel methodological pipeline called simba (Semantic Indicators for Mobility and Behavior Analysis), for mining and analyzing semantic mobility sequences to identify coherent information and human behaviors. A framework for semantic sequence mobility analysis and clustering explicability based on integrating different complementary statistical indicators and visual tools is implemented. To validate this methodology, we used a large set of real daily mobility sequences obtained from a household travel survey. Complementary knowledge is automatically discovered in the proposed method.
翻訳日:2021-05-16 21:03:24 公開日:2020-12-20
# (参考訳) AdnFM: CTR予測のための注意用DenseNetベースの因子化マシン

AdnFM: An Attentive DenseNet based Factorization Machine for CTR Prediction ( http://arxiv.org/abs/2012.10820v1 )

ライセンス: CC BY 4.0
Kai Wang, Chunxu Shen, Wenye Ma(参考訳) 本稿では,Click-Through-Rate(CTR)予測問題について考察する。 ファクトリゼーションマシンとその変種は、ペアワイズな機能相互作用を考慮しますが、通常は、高速な複雑さのため、FMを使った高次機能相互作用は行いません。 多くの分野でディープニューラルネットワーク(DNN)の成功を考えると、研究者は高次特徴相互作用を学ぶためにいくつかのDNNベースのモデルを提案している。 マルチ層パーセプトロン (MLP) は機能埋め込みから最終ログへの信頼性の高いマッピングを学習するために広く用いられている。 本稿では,これらの高次特徴の相互作用についてより深く検討することを目的とする。 しかし、高次機能相互作用はより注意と更なる開発に値する。 本稿では,コンピュータビジョンにおけるDensely Connected Convolutional Networks (DenseNet) の大きな成果に触発されて,Attentive DenseNet based Factorization Machines (AdnFM) と呼ばれる新しいモデルを提案する。 adnfmは、フィードフォワードニューラルネットワークから隠されたすべてのレイヤを暗黙の高次特徴として使用することで、より包括的な深い特徴を抽出することができる。 また、DNNを用いた暗黙の方法での高次相互作用は、例えばFMのような明示的な方法よりもコスト効率が高い。 2つの実世界のデータセットに対する大規模な実験により、提案モデルがCTR予測の性能を効果的に改善できることが示されている。

In this paper, we consider the Click-Through-Rate (CTR) prediction problem. Factorization Machines and their variants consider pair-wise feature interactions, but normally we won't do high-order feature interactions using FM due to high time complexity. Given the success of deep neural networks (DNNs) in many fields, researchers have proposed several DNN-based models to learn high-order feature interactions. Multi-layer perceptrons (MLP) have been widely employed to learn reliable mappings from feature embeddings to final logits. In this paper, we aim to explore more about these high-order features interactions. However, high-order feature interaction deserves more attention and further development. Inspired by the great achievements of Densely Connected Convolutional Networks (DenseNet) in computer vision, we propose a novel model called Attentive DenseNet based Factorization Machines (AdnFM). AdnFM can extract more comprehensive deep features by using all the hidden layers from a feed-forward neural network as implicit high-order features, then selects dominant features via an attention mechanism. Also, high-order interactions in the implicit way using DNNs are more cost-efficient than in the explicit way, for example in FM. Extensive experiments on two real-world datasets show that the proposed model can effectively improve the performance of CTR prediction.
翻訳日:2021-05-01 09:20:22 公開日:2020-12-20
# (参考訳) 実際のビジュアルストリームを伴わない視覚音声強調

Visual Speech Enhancement Without A Real Visual Stream ( http://arxiv.org/abs/2012.10852v1 )

ライセンス: CC BY 4.0
Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V. Jawahar(参考訳) 本研究では,制約のない実環境における音声強調の課題を再考する。 現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。 唇の動きを付加的な手がかりとして用いた最近の研究は、"audio-only"法よりも生成音声の品質を向上させる。 しかし、これらの方法は、ビジュアルストリームが信頼できない、あるいは完全に欠落しているいくつかのアプリケーションでは使用できない。 音声駆動唇合成における最近のブレークスルーを生かして,音声強調のための新しいパラダイムを提案する。 教師ネットワークのようなモデルを用いて, 学生ネットワークを訓練し, 音を遮蔽する正確な唇運動を生成し, 「視覚ノイズフィルタ」として機能する。 擬似リップアプローチにより強調された音声の明瞭度は, 実唇を用いた場合と比較して 3% 差がある。 これは、実際のビデオストリームがなくても、唇の動きを利用する利点を活用できることを意味している。 定量的指標と人的評価を用いて, 厳密な評価を行った。 さらなるアブレーション研究とwebサイトのデモビデオでは、質的比較と結果が、我々のアプローチの有効性を明確に示しています。 本稿では,提案手法の有効性を,Webサイト上で明らかに示すデモビデオを提供する。 コードとモデルは、将来の研究のためにもリリースされている。

In this work, we re-think the task of speech enhancement in unconstrained real-world environments. Current state-of-the-art methods use only the audio stream and are limited in their performance in a wide range of real-world noises. Recent works using lip movements as additional cues improve the quality of generated speech over "audio-only" methods. But, these methods cannot be used for several applications where the visual stream is unreliable or completely absent. We propose a new paradigm for speech enhancement by exploiting recent breakthroughs in speech-driven lip synthesis. Using one such model as a teacher network, we train a robust student network to produce accurate lip movements that mask away the noise, thus acting as a "visual noise filter". The intelligibility of the speech enhanced by our pseudo-lip approach is comparable (< 3% difference) to the case of using real lips. This implies that we can exploit the advantages of using lip movements even in the absence of a real video stream. We rigorously evaluate our model using quantitative metrics as well as human evaluations. Additional ablation studies and a demo video on our website containing qualitative comparisons and results clearly illustrate the effectiveness of our approach. We provide a demo video which clearly illustrates the effectiveness of our proposed approach on our website: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visu al-stream}. The code and models are also released for future research: \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.
翻訳日:2021-05-01 08:57:36 公開日:2020-12-20
# (参考訳) 歩行者検出のためのマルチモーダル学習

Where, What, Whether: Multi-modal Learning Meets Pedestrian Detection ( http://arxiv.org/abs/2012.10880v1 )

ライセンス: CC BY 4.0
Yan Luo, Chongyang Zhang, Muming Zhao, Hao Zhou, Jun Sun(参考訳) 歩行者検出は深層畳み込みニューラルネットワーク(cnns)から大きな恩恵を受けている。 しかし、CNNが閉塞やスケールの変動がある状況に対処することは本質的に困難である。 本稿では,歩行者検出タスクを<textbf{\textit{w}}hat,<textbf{\textit{w}}hat,<textbf{\textit{w}}hether problem directing against pedestrian localization, scale prediction, and classification basedly)に分解することで,上記の課題に対処しようとするw$^3$netを提案する。 具体的には,歩行者の場合,その特徴を3つのステップで定式化する。 一 閉塞問題のない鳥のビューマップを作成し、その上のすべてのポイントをスキャンして、各歩行者のインスタンスに適した場所を探します。 二 あらかじめ固定したアンカーを利用する代わりに、異なる位置における深度誘導スケールの生成を目的とした深度とスケールの相互依存性をモデル化し、異なる大きさのインスタンスをよりよくマッチングする。 iii)視覚空間とコーパス空間の両方で共有される潜在ベクトルを学習し、同様の垂直構造を持つが人間の部分的特徴を欠いた偽陽性をフィルターアウトする。 広く使われているデータセット(CitypersonsとCaltech)について、最先端の結果を得る。 特に。 ヘビーオクルージョン部分集合の評価では、mr$^{-2}$を49.3$\%$から18.7$\%$に減らし、カルテックでは45.18$$$$$から28.33$\%$に減らした。

Pedestrian detection benefits greatly from deep convolutional neural networks (CNNs). However, it is inherently hard for CNNs to handle situations in the presence of occlusion and scale variation. In this paper, we propose W$^3$Net, which attempts to address above challenges by decomposing the pedestrian detection task into \textbf{\textit{W}}here, \textbf{\textit{W}}hat and \textbf{\textit{W}}hether problem directing against pedestrian localization, scale prediction and classification correspondingly. Specifically, for a pedestrian instance, we formulate its feature by three steps. i) We generate a bird view map, which is naturally free from occlusion issues, and scan all points on it to look for suitable locations for each pedestrian instance. ii) Instead of utilizing pre-fixed anchors, we model the interdependency between depth and scale aiming at generating depth-guided scales at different locations for better matching instances of different sizes. iii) We learn a latent vector shared by both visual and corpus space, by which false positives with similar vertical structure but lacking human partial features would be filtered out. We achieve state-of-the-art results on widely used datasets (Citypersons and Caltech). In particular. when evaluating on heavy occlusion subset, our results reduce MR$^{-2}$ from 49.3$\%$ to 18.7$\%$ on Citypersons, and from 45.18$\%$ to 28.33$\%$ on Caltech.
翻訳日:2021-05-01 08:36:57 公開日:2020-12-20
# (参考訳) ppgn: 表現理解のための句案内提案生成ネットワーク

PPGN: Phrase-Guided Proposal Generation Network For Referring Expression Comprehension ( http://arxiv.org/abs/2012.10890v1 )

ライセンス: CC BY 4.0
Chao Yang, Guoqing Wang, Dongsheng Li, Huawei Shen, Su Feng, Bin Jiang(参考訳) 参照表現理解(reference expression comprehension, REC)は、ある画像中のフレーズが参照する位置を見つけることを目的とする。 提案生成と提案表現は多くの2段階のREC手法において2つの有効な手法である。 しかし、既存の作業の多くは提案表現のみに焦点を当て、提案生成の重要性を無視している。 その結果、これらの手法によって生成される低品質な提案は、RECタスクのパフォーマンスボトルネックとなる。 本稿では,提案生成の問題を再考し,新しいフレーズ誘導提案生成ネットワーク(PPGN)を提案する。 PPGNの主な実装原理は、テキストで視覚的特徴を洗練し、回帰を通じて提案を生成することである。 ベンチマークデータセットにおいて,本手法が有効であることを示す実験を行った。

Reference expression comprehension (REC) aims to find the location that the phrase refer to in a given image. Proposal generation and proposal representation are two effective techniques in many two-stage REC methods. However, most of the existing works only focus on proposal representation and neglect the importance of proposal generation. As a result, the low-quality proposals generated by these methods become the performance bottleneck in REC tasks. In this paper, we reconsider the problem of proposal generation, and propose a novel phrase-guided proposal generation network (PPGN). The main implementation principle of PPGN is refining visual features with text and generate proposals through regression. Experiments show that our method is effective and achieve SOTA performance in benchmark datasets.
翻訳日:2021-05-01 08:23:03 公開日:2020-12-20
# (参考訳) ニューラルネットワークを用いた次元ロバスト関数空間MCMC

Dimension-robust Function Space MCMC With Neural Network Priors ( http://arxiv.org/abs/2012.10943v1 )

ライセンス: CC BY 4.0
Torben Sell, Sumeetpal S. Singh(参考訳) 本稿では,関数領域の次元において,通常のKarhunen-Lo\eve関数空間よりも好意的にスケールする関数空間に対する新たな先行性を導入する。 提案手法では,各重みとバイアスがgaussian preを持つベイズ型ニューラルネットワークが先行するが,分散が和数列を形成し無限幅極限ニューラルネットワークをよく定義するように,ネットワーク幅のばらつきが減少するという重要な違いがある。 その結果得られた未知関数の後方は、ヒルベルト空間マルコフ連鎖モンテカルロ法を用いてサンプリングできることがわかった。 これらのサンプリング法は、メッシュリファインメントの下で安定であり、パラメータがより多く導入されるにつれて、受容確率が0に縮まることはないという意味で好まれる。 我々の優先順位は競争的であり、他の関数空間よりも異なる利点があることを示している。 強化学習へのベイズ的アプローチで連続値関数の適度な確率を定義すると、数値例でその性能と次元ロバスト性を示すために新しい前置法が用いられる。

This paper introduces a new prior on functions spaces which scales more favourably in the dimension of the function's domain compared to the usual Karhunen-Lo\'eve function space prior, a property we refer to as dimension-robustness. The proposed prior is a Bayesian neural network prior, where each weight and bias has an independent Gaussian prior, but with the key difference that the variances decrease in the width of the network, such that the variances form a summable sequence and the infinite width limit neural network is well defined. We show that our resulting posterior of the unknown function is amenable to sampling using Hilbert space Markov chain Monte Carlo methods. These sampling methods are favoured because they are stable under mesh-refinement, in the sense that the acceptance probability does not shrink to 0 as more parameters are introduced to better approximate the well-defined infinite limit. We show that our priors are competitive and have distinct advantages over other function space priors. Upon defining a suitable likelihood for continuous value functions in a Bayesian approach to reinforcement learning, our new prior is used in numerical examples to illustrate its performance and dimension-robustness.
翻訳日:2021-05-01 07:51:55 公開日:2020-12-20
# (参考訳) バイアスドモデルにはバイアスドの説明がある

Biased Models Have Biased Explanations ( http://arxiv.org/abs/2012.10986v1 )

ライセンス: CC BY 4.0
Aditya Jain, Manish Ravula, Joydeep Ghosh(参考訳) 機械学習モデルで生成された属性に基づく説明のレンズを通して,機械学習(fairml)の公平性について検討する。 偏りのあるモデルにはバイアスのある説明があります。 それを確立するために、まず、群フェアネスの既存の統計的概念を翻訳し、モデルから与えられた説明の観点からこれらの概念を定義する。 そこで我々は,ブラックボックスモデルに対して不公平を検出する新しい方法を提案する。 公平性のための後処理技術や、バイアス緩和技術をより個々に公平にするための説明の活用方法についても検討する。 また,グループレベルの公平さを維持しつつ,個別の公正さを高める新しい処理後緩和手法を提案する。

We study fairness in Machine Learning (FairML) through the lens of attribute-based explanations generated for machine learning models. Our hypothesis is: Biased Models have Biased Explanations. To establish that, we first translate existing statistical notions of group fairness and define these notions in terms of explanations given by the model. Then, we propose a novel way of detecting (un)fairness for any black box model. We further look at post-processing techniques for fairness and reason how explanations can be used to make a bias mitigation technique more individually fair. We also introduce a novel post-processing mitigation technique which increases individual fairness in recourse while maintaining group level fairness.
翻訳日:2021-05-01 06:03:42 公開日:2020-12-20
# (参考訳) フィードバックループの回避による公平なパーソナライズに向けて

Towards Fair Personalization by Avoiding Feedback Loops ( http://arxiv.org/abs/2012.12862v1 )

ライセンス: CC BY 4.0
G\"okhan \c{C}apan, \"Ozge Bozal, \.Ilker G\"undo\u{g}du, Ali Taylan Cemgil(参考訳) 自己情報フィードバックループは、インタラクティブなレコメンデーションシステムにおけるコンテンツの過剰および/または過小表示の原因と効果の両方である。 これはユーザの好みの誤った推定、すなわち過剰な表示されたコンテンツの過大評価につながると同時に、各選択肢に対して提示する権利を侵害することになります。 代替案への体系的かつ限定的な露出を明示的に含み、あるいは無視する2つのモデルを検討する。 シミュレーションにより, 体系的なプレゼンテーションを無視して, 推奨選択肢を過大評価し, 検閲された代替案を過小評価することを示す。 単に限定された露出の条件付けは、これらのバイアスの修正である。

Self-reinforcing feedback loops are both cause and effect of over and/or under-presentation of some content in interactive recommender systems. This leads to erroneous user preference estimates, namely, overestimation of over-presented content while violating the right to be presented of each alternative, contrary of which we define as a fair system. We consider two models that explicitly incorporate, or ignore the systematic and limited exposure to alternatives. By simulations, we demonstrate that ignoring the systematic presentations overestimates promoted options and underestimates censored alternatives. Simply conditioning on the limited exposure is a remedy for these biases.
翻訳日:2021-05-01 05:53:33 公開日:2020-12-20
# (参考訳) 臨床結果に対する予測モデルの投票:臨床データから敗血症を早期に予測するためのアルゴリズムのコンセンサスとPhysoryNet/Computing in Cardiology Challenge 2019の分析

Voting of predictive models for clinical outcomes: consensus of algorithms for the early prediction of sepsis from clinical data and an analysis of the PhysioNet/Computing in Cardiology Challenge 2019 ( http://arxiv.org/abs/2012.11013v1 )

ライセンス: CC BY 4.0
Matthew A. Reyna and Gari D. Clifford(参考訳) 弱い学習者の促進に関する研究は盛んに行われているが、強い学習者からの促進に関する研究はほとんど行われていない。 この後者のパラダイムは、学習された重み付き投票の形式である。 本研究では,70個の個別アルゴリズムからアンサンブルアルゴリズムを構築し,臨床データから敗血症の早期予測を行うことについて検討する。 このアンサンブルアルゴリズムは、特にほとんどのアルゴリズムが一般化に失敗した隠れテストセットにおいて、別個のアルゴリズムよりも優れていることがわかった。

Although there has been significant research in boosting of weak learners, there has been little work in the field of boosting from strong learners. This latter paradigm is a form of weighted voting with learned weights. In this work, we consider the problem of constructing an ensemble algorithm from 70 individual algorithms for the early prediction of sepsis from clinical data. We find that this ensemble algorithm outperforms separate algorithms, especially on a hidden test set on which most algorithms failed to generalize.
翻訳日:2021-05-01 05:47:24 公開日:2020-12-20
# (参考訳) 収縮係数を用いたオンライン学習アルゴリズムのプライバシー分析

Privacy Analysis of Online Learning Algorithms via Contraction Coefficients ( http://arxiv.org/abs/2012.11035v1 )

ライセンス: CC BY 4.0
Shahab Asoodeh, Mario Diaz, and Flavio P. Calmon(参考訳) オンラインアルゴリズムのプライバシー保証を分析するための情報理論手法を提案する。 具体的には,f$-divergences に対する強データ処理不等式から導出される縮約係数の直接適用により,反復アルゴリズムの差分プライバシー保証を決定できることを実証する。 本手法は,全変動距離に対するドブルシンの収縮係数を,$E_\gamma$-divergenceとして知られる$f$-divergenceに一般化することに依存する。 すると$E_\gamma$-divergenceは、近似微分プライバシーに相当する。 一例として,勾配降下の差分プライバシーパラメータを導出するために本手法を適用した。 さらに、このフレームワークは、トレーニングデータセットを1回パスするだけで実装できるバッチ学習アルゴリズムに合わせて調整可能であることも示している。

We propose an information-theoretic technique for analyzing privacy guarantees of online algorithms. Specifically, we demonstrate that differential privacy guarantees of iterative algorithms can be determined by a direct application of contraction coefficients derived from strong data processing inequalities for $f$-divergences. Our technique relies on generalizing the Dobrushin's contraction coefficient for total variation distance to an $f$-divergence known as $E_\gamma$-divergence. $E_\gamma$-divergence, in turn, is equivalent to approximate differential privacy. As an example, we apply our technique to derive the differential privacy parameters of gradient descent. Moreover, we also show that this framework can be tailored to batch learning algorithms that can be implemented with one pass over the training dataset.
翻訳日:2021-05-01 05:31:52 公開日:2020-12-20
# ドメインドリフトシナリオに対するポストホック不確実性校正

Post-hoc Uncertainty Calibration for Domain Drift Scenarios ( http://arxiv.org/abs/2012.10988v1 )

ライセンス: Link先を確認
Christian Tomani, Sebastian Gruber, Muhammed Ebrar Erdem, Daniel Cremers, Florian Buettner(参考訳) 不確実性校正の問題に対処する。 標準のディープニューラルネットワークは通常、非校正された予測を生成するが、予測の真の可能性を表す校正された信頼スコアは、ポストホックキャリブレーション法を用いて達成できる。 しかし、これまでこれらのアプローチはドメイン内校正に重点を置いてきた。 私たちの貢献は2倍です。 まず,既存のポストホックキャリブレーション手法が,ドメインシフト下での信頼度の高い予測をもたらすことを示す。 第2に,ポストホックキャリブレーションステップを行う前に,検証セット内のサンプルに摂動を適用する簡単な戦略を提案する。 広範にわたる実験では、この摂動ステップにより、幅広いアーキテクチャやモデリングタスクにおけるドメインシフトのキャリブレーションが大幅に向上することを示した。

We address the problem of uncertainty calibration. While standard deep neural networks typically yield uncalibrated predictions, calibrated confidence scores that are representative of the true likelihood of a prediction can be achieved using post-hoc calibration methods. However, to date the focus of these approaches has been on in-domain calibration. Our contribution is two-fold. First, we show that existing post-hoc calibration methods yield highly over-confident predictions under domain shift. Second, we introduce a simple strategy where perturbations are applied to samples in the validation set before performing the post-hoc calibration step. In extensive experiments, we demonstrate that this perturbation step results in substantially better calibration under domain shift on a wide range of architectures and modelling tasks.
翻訳日:2021-05-01 04:50:24 公開日:2020-12-20
# Transductive Visual Verb Sense Disambiguation

Transductive Visual Verb Sense Disambiguation ( http://arxiv.org/abs/2012.10821v1 )

ライセンス: Link先を確認
Sebastiano Vascon, Sinem Aslan, Gianluca Bigaglia, Lorenzo Giudice, Marcello Pelillo(参考訳) Verb Sense DisambiguationはNLPでよく知られたタスクであり、文中の動詞の正しい感覚を見つけることを目的としている。 近年,不明瞭な動詞のテキスト的特徴と視覚的特徴の両面を活かして,新たな問題となるVisual Verb Sense Disambiguation (VVSD) が提案されている。 ここでは、動詞が現れる文ではなく、それと対になる画像の内容を考慮して動詞の感覚を割り当てる。 なぜなら、<$image, verb$>$のペアに正しい意味を割り当てるには、非自明な言語スキルと視覚スキルの両方が必要であるからです。 本研究は、文献と異なり、VVSDタスクは、少量のラベル付き情報のみを必要とするトランスダクティブ半教師付き学習(SSL)設定で実行され、注釈付きデータの必要性を大幅に低減する。 曖昧化のプロセスは、$<$image, verb$>$ pairsのmonoまたはmultimodal表現を考慮に入れるグラフベースのラベル伝播法に基づいている。 このタスクで唯一利用可能なデータセットである、最近公開されたデータセットVerSeで実験が行われた。 得られた結果は、各感覚ごとにわずかにラベル付けされたサンプルを使用しながら、現在の最先端を大きなマージンで上回る。 コードはhttps://github.com/GiBg1aN/TVVSD。

Verb Sense Disambiguation is a well-known task in NLP, the aim is to find the correct sense of a verb in a sentence. Recently, this problem has been extended in a multimodal scenario, by exploiting both textual and visual features of ambiguous verbs leading to a new problem, the Visual Verb Sense Disambiguation (VVSD). Here, the sense of a verb is assigned considering the content of an image paired with it rather than a sentence in which the verb appears. Annotating a dataset for this task is more complex than textual disambiguation, because assigning the correct sense to a pair of $<$image, verb$>$ requires both non-trivial linguistic and visual skills. In this work, differently from the literature, the VVSD task will be performed in a transductive semi-supervised learning (SSL) setting, in which only a small amount of labeled information is required, reducing tremendously the need for annotated data. The disambiguation process is based on a graph-based label propagation method which takes into account mono or multimodal representations for $<$image, verb$>$ pairs. Experiments have been carried out on the recently published dataset VerSe, the only available dataset for this task. The achieved results outperform the current state-of-the-art by a large margin while using only a small fraction of labeled samples per sense. Code available: https://github.com/GiBg1aN/TVVSD.
翻訳日:2021-05-01 04:50:10 公開日:2020-12-20
# KRISP:オープンドメイン知識に基づくVQAのための暗黙的・象徴的知識の統合

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA ( http://arxiv.org/abs/2012.11014v1 )

ライセンス: Link先を確認
Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus Rohrbach(参考訳) VQAの最も難しい質問タイプの一つは、疑問に答えるには、画像に存在しない外部知識が必要である。 本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。 知識表現と推論には2つのタイプがあります。 まず、教師なし言語から効果的に学習できる暗黙的知識と、トランスフォーマモデルを用いた教師なし学習データ。 第二に、明示的で象徴的な知識が知識ベースで符号化される。 我々のアプローチは、応答予測のためにトランスフォーマーモデルの強力な暗黙的推論を活用し、知識グラフから象徴的表現を統合すると同時に、明示的なセマンティクスを暗黙的埋め込みに決して失うことなく、両方を組み合わせる。 知識に基づく問題解決に必要な多様な知識をカバーするために、多様な知識源を組み合わせる。 我々のアプローチであるKRISP(Knowledge Reasoning with Implicit and Symbolic RePresentations)は、オープンドメイン知識ベースのVQAで利用可能な最大のデータセットであるOK-VQAにおいて、最先端よりも大幅に優れています。 我々のモデルは暗黙的知識推論をうまく活用する一方で、知識グラフと回答語彙を明示的に接続するシンボリック応答モジュールは、我々の手法の性能に欠かせないものであり、稀な解に一般化する。

One of the most challenging question types in VQA is when answering the question requires outside knowledge not present in the image. In this work we study open-domain knowledge, the setting when the knowledge required to answer a question is not given/annotated, neither at training nor test time. We tap into two types of knowledge representations and reasoning. First, implicit knowledge which can be learned effectively from unsupervised language pre-training and supervised training data with transformer-based models. Second, explicit, symbolic knowledge encoded in knowledge bases. Our approach combines both - exploiting the powerful implicit reasoning of transformer models for answer prediction, and integrating symbolic representations from a knowledge graph, while never losing their explicit semantics to an implicit embedding. We combine diverse sources of knowledge to cover the wide variety of knowledge needed to solve knowledge-based questions. We show our approach, KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations), significantly outperforms state-of-the-art on OK-VQA, the largest available dataset for open-domain knowledge-based VQA. We show with extensive ablations that while our model successfully exploits implicit knowledge reasoning, the symbolic answer module which explicitly connects the knowledge graph to the answer vocabulary is critical to the performance of our method and generalizes to rare answers.
翻訳日:2021-05-01 04:49:44 公開日:2020-12-20
# DISCO: ディープニューラルネットワークのための動的かつ不変なチャネル難読化

DISCO: Dynamic and Invariant Sensitive Channel Obfuscation for deep neural networks ( http://arxiv.org/abs/2012.11025v1 )

ライセンス: Link先を確認
Abhishek Singh, Ayush Chopra, Vivek Sharma, Ethan Garza, Emily Zhang, Praneeth Vepakomma, Ramesh Raskar(参考訳) 近年のディープラーニングモデルは画像分類において顕著な性能を示している。 これらのディープラーニングシステムは実用的なデプロイメントに近づいているが、データに関する一般的な仮定は、機密情報を持っていないことだ。 この仮定は、特に医療や顔認識システムなど、個人の個人情報が関与する領域において、多くの実践的なケースには当てはまらない。 この潜伏空間の機能を選択的に削除することで、機密情報を保護し、より優れたプライバシーとユーティリティのトレードオフを提供できると仮定する。 そこで本研究では,動的かつデータ駆動のプルーニングフィルタを学習し,特徴空間内の機密情報を選択的に隠蔽するディスコを提案する。 センシティブ・インプット \&属性に対する多様な攻撃手法を提案し,定量的・質的評価を通じて,最先端手法に対するdiscoの有効性を実証する。 最後に,新規攻撃方式の厳密な探索を促進するため,100万個の機密表現の評価ベンチマークデータセットもリリースした。

Recent deep learning models have shown remarkable performance in image classification. While these deep learning systems are getting closer to practical deployment, the common assumption made about data is that it does not carry any sensitive information. This assumption may not hold for many practical cases, especially in the domain where an individual's personal information is involved, like healthcare and facial recognition systems. We posit that selectively removing features in this latent space can protect the sensitive information and provide a better privacy-utility trade-off. Consequently, we propose DISCO which learns a dynamic and data driven pruning filter to selectively obfuscate sensitive information in the feature space. We propose diverse attack schemes for sensitive inputs \& attributes and demonstrate the effectiveness of DISCO against state-of-the-art methods through quantitative and qualitative evaluation. Finally, we also release an evaluation benchmark dataset of 1 million sensitive representations to encourage rigorous exploration of novel attack schemes.
翻訳日:2021-05-01 04:49:15 公開日:2020-12-20
# CNNと統計指標の融合による画像分類の改善

Fusion of CNNs and statistical indicators to improve image classification ( http://arxiv.org/abs/2012.11049v1 )

ライセンス: Link先を確認
Javier Huertas-Tato, Alejandro Mart\'in, Julian Fierrez, David Camacho(参考訳) 畳み込みネットワークは過去10年間コンピュータビジョンの分野を支配しており、非常に強力な特徴抽出能力と優れた分類性能を示している。 この傾向を長引かせる主な戦略は、ネットワーク規模の拡大によるものだ。 しかし、性能改善が限界となる一方で、コストは急速に上昇する。 我々は、より大規模なネットワークを構築するよりも、異質な情報ソースを追加する方がCNNにとってコスト効率が高いと仮定する。 本稿では,手動で定義した統計指標を用いた畳み込みニューラルネットワークアーキテクチャを用いて,画像の正確な分類のためのアンサンブル手法を提案する。 cnnの予測と統計的特徴を訓練した二次分類器の組み合わせにより、より良い分類性能を安価に達成することができる。 複数の学習アルゴリズムとCNNアーキテクチャをさまざまなデータセットでテストして、提案を検証し、GitHub経由ですべてのコードとデータを公開しています。 以上の結果から,追加指標とアンサンブル分類手法を取り入れることで,9つのデータセットのうち8つのパフォーマンスが向上し,そのうち2つで10%以上の精度が向上した。

Convolutional Networks have dominated the field of computer vision for the last ten years, exhibiting extremely powerful feature extraction capabilities and outstanding classification performance. The main strategy to prolong this trend relies on further upscaling networks in size. However, costs increase rapidly while performance improvements may be marginal. We hypothesise that adding heterogeneous sources of information may be more cost-effective to a CNN than building a bigger network. In this paper, an ensemble method is proposed for accurate image classification, fusing automatically detected features through Convolutional Neural Network architectures with a set of manually defined statistical indicators. Through a combination of the predictions of a CNN and a secondary classifier trained on statistical features, better classification performance can be cheaply achieved. We test multiple learning algorithms and CNN architectures on a diverse number of datasets to validate our proposal, making public all our code and data via GitHub. According to our results, the inclusion of additional indicators and an ensemble classification approach helps to increase the performance in 8 of 9 datasets, with a remarkable increase of more than 10% precision in two of them.
翻訳日:2021-05-01 04:48:58 公開日:2020-12-20
# 潜航コンパス:ナビゲーションによる創造

Latent Compass: Creation by Navigation ( http://arxiv.org/abs/2012.14283v1 )

ライセンス: Link先を確認
Sarah Schwettmann, Hendrik Strobelt, Mauro Martino(参考訳) マリウス・フォン・センデン(Marius von Senden)の『Space and Sight』では、新たに目撃された盲目の患者が、角をレモンのような感じで表現している。 pricklinessは、感覚体験の特徴空間における次元であり、両者が相互作用する場所に存在する知覚者に対する知覚の影響である。 新しく目撃された場合、ある相互作用から慣れ親しんだ効果は、新しい文脈に翻訳される。 知覚は、異なる経験間で共有される効果が、それらの経験に基づく具体的な抽象化を生み出すという、一般化の手段として機能する。 セザンヌとポスト印象派は経験翻訳の言語に精通しており、現実を最もよく反映した具体的な形を描く方法は、彼らが見たものではなく、見るべきものを描くことであることに気付いた。 私たちは、aiを使って創造する未来を想定しています。そこでは、どのように見えるかは、レプリカブル、転送可能、マニピュラブルです - アーティストのパレットの一部で、どちらも特定のコンテキストに基礎を置き、その上に一般化します。 アクティブな研究のラインは、人間の解釈可能な特徴をGAN潜在空間の方向へマッピングする。 予測方向の探索や、組込み空間における画像操作を駆動するオフザシェルフ分類器を用いた教師付きおよび自己監督型のアプローチは、発見できる様々な機能に限られている。 有意義な新しい方向を見つける教師なしのアプローチは、知覚的に有意義な方向の空間が完全にマッピングされるには程遠いことを示している。 この空間は広く創造的な可能性に満ちているため、人間の知覚の豊かさと一般化性を捉える方向発見ツールが求められている。 提案手法は,視覚的に意味のある方向を特定し,その方向に沿って解釈可能な画像翻訳を生成するために,リアルタイムツール使用中の発見ループにクリエーターを配置する。

In Marius von Senden's Space and Sight, a newly sighted blind patient describes the experience of a corner as lemon-like, because corners "prick" sight like lemons prick the tongue. Prickliness, here, is a dimension in the feature space of sensory experience, an effect of the perceived on the perceiver that arises where the two interact. In the account of the newly sighted, an effect familiar from one interaction translates to a novel context. Perception serves as the vehicle for generalization, in that an effect shared across different experiences produces a concrete abstraction grounded in those experiences. Cezanne and the post-impressionists, fluent in the language of experience translation, realized that the way to paint a concrete form that best reflected reality was to paint not what they saw, but what it was like to see. We envision a future of creation using AI where what it is like to see is replicable, transferrable, manipulable - part of the artist's palette that is both grounded in a particular context, and generalizable beyond it. An active line of research maps human-interpretable features onto directions in GAN latent space. Supervised and self-supervised approaches that search for anticipated directions or use off-the-shelf classifiers to drive image manipulation in embedding space are limited in the variety of features they can uncover. Unsupervised approaches that discover useful new directions show that the space of perceptually meaningful directions is nowhere close to being fully mapped. As this space is broad and full of creative potential, we want tools for direction discovery that capture the richness and generalizability of human perception. Our approach puts creators in the discovery loop during real-time tool use, in order to identify directions that are perceptually meaningful to them, and generate interpretable image translations along those directions.
翻訳日:2021-05-01 04:48:41 公開日:2020-12-20
# 畳み込みニューラルネットワークのカラーチャネル摂動攻撃とその防御

Color Channel Perturbation Attacks for Fooling Convolutional Neural Networks and A Defense Against Such Attacks ( http://arxiv.org/abs/2012.14456v1 )

ライセンス: Link先を確認
Jayendra Kantipudi, Shiv Ram Dubey, Soumendu Chakraborty(参考訳) 畳み込みニューラルネットワーク(cnns)は非常に強力なデータ依存階層的特徴抽出手法として出現した。 いくつかのコンピュータビジョン問題で広く使われている。 CNNは、トレーニングサンプルから重要な視覚的特徴を自動で学習する。 ネットワークがトレーニングサンプルを非常に容易に満たしていることが観察される。 オーバーフィッティングを避けるためにいくつかの正規化方法が提案されている。 それにもかかわらず、ネットワークは、既存のアプローチによって無視される画像内の色分布に敏感である。 本稿では,CNNを騙すためにカラーチャネル摂動(CCP)攻撃を提案することで,CNNの色堅牢性の問題を明らかにする。 ccp攻撃では、元のチャネルと確率的重みを組み合わせた新しいチャネルで新しいイメージが生成される。 CIFAR10、Caltech256およびTinyImageNetデータセットを画像分類フレームワークで実験した。 VGG、ResNet、DenseNetモデルは、提案された攻撃の影響をテストするために使用される。 提案したCCP攻撃によりCNNの性能が大幅に低下することが観察された。 その結果、CNN訓練モデルの堅牢性に対する単純なCCP攻撃の効果が示された。 また, 精度低下を評価するために既存のCNN偽造手法と比較した。 また,提案したCCP攻撃を用いてトレーニングデータセットを増強することにより,この問題に対する防御機構を提案する。 CCP攻撃下でのCNNロバスト性の観点から,提案手法を用いた最先端性能を実験的に検証した。 コードは \url{https://github.com/jayendrakantipudi/Color-Channel-Perturbation-Attack} で公開されている。

The Convolutional Neural Networks (CNNs) have emerged as a very powerful data dependent hierarchical feature extraction method. It is widely used in several computer vision problems. The CNNs learn the important visual features from training samples automatically. It is observed that the network overfits the training samples very easily. Several regularization methods have been proposed to avoid the overfitting. In spite of this, the network is sensitive to the color distribution within the images which is ignored by the existing approaches. In this paper, we discover the color robustness problem of CNN by proposing a Color Channel Perturbation (CCP) attack to fool the CNNs. In CCP attack new images are generated with new channels created by combining the original channels with the stochastic weights. Experiments were carried out over widely used CIFAR10, Caltech256 and TinyImageNet datasets in the image classification framework. The VGG, ResNet and DenseNet models are used to test the impact of the proposed attack. It is observed that the performance of the CNNs degrades drastically under the proposed CCP attack. Result show the effect of the proposed simple CCP attack over the robustness of the CNN trained model. The results are also compared with existing CNN fooling approaches to evaluate the accuracy drop. We also propose a primary defense mechanism to this problem by augmenting the training dataset with the proposed CCP attack. The state-of-the-art performance using the proposed solution in terms of the CNN robustness under CCP attack is observed in the experiments. The code is made publicly available at \url{https://github.com/jayendrakantipudi/Color-Channel-Perturbation-Attack}.
翻訳日:2021-05-01 04:48:08 公開日:2020-12-20
# 複雑生化学的エンティティ認識のためのハイブリッドディープラーニングアプローチ

A hybrid deep-learning approach for complex biochemical named entity recognition ( http://arxiv.org/abs/2012.10824v1 )

ライセンス: Link先を確認
Jian Liu, Lei Gao, Sujie Guo, Rui Ding, Xin Huang, Long Ye, Qinghua Meng, Asef Nazari and Dhananjay Thiruvady(参考訳) 化学物質と薬物のエンティティ認識(ner)は生化学研究において重要な情報抽出領域である。 NERは、実体関係抽出、属性抽出、代謝応答関係抽出を含む生化学反応におけるテキストマイニングのサポートを提供する。 しかし, バイオメディカル分野において, ポリセミーや特殊キャラクタといった複雑な命名特性の存在は, NERタスクを非常に困難にしている。 本稿では,NERの認識精度を向上させるためのハイブリッドディープラーニング手法を提案する。 具体的には,変換器 (BERT) モデルを用いてテキストの基本的な特徴を抽出し,BILSTM (Bidirectional Long Short-Term Memory) を通じてテキストのコンテキストの表現を学習し,章レベルの特徴を抽出するためのマルチヘッドアテンション (MHATT) 機構を組み込んだ。 提案手法は,完全テキストラベルにおける不整合問題に効率よく対処するため,略語認識精度の向上を目的としている。 さらに、この確率的手法は厳密な独立性仮定を必要とせず、任意の文脈情報を許容できるため、条件付きランダムフィールド(CRF)を用いてシーケンスタグをラベル付けする。 公開データセットを用いた実験結果から,提案手法が最高の認識性能を発揮すること,特に,最先端のアプローチと比較して,省略,ポリセム,低周波なエンティティの認識性能が著しく向上していることが示唆された。 例えば、BILSTM-CRFアルゴリズムによって生成された低周波天体の認識精度と比較して、2つのエンティティデータセット(MULTIPLEとIDENTIFIER)に対するハイブリッドアプローチによって生成された天体は、それぞれ80%と21.69%増加した。

Named entity recognition (NER) of chemicals and drugs is a critical domain of information extraction in biochemical research. NER provides support for text mining in biochemical reactions, including entity relation extraction, attribute extraction, and metabolic response relationship extraction. However, the existence of complex naming characteristics in the biomedical field, such as polysemy and special characters, make the NER task very challenging. Here, we propose a hybrid deep learning approach to improve the recognition accuracy of NER. Specifically, our approach applies the Bidirectional Encoder Representations from Transformers (BERT) model to extract the underlying features of the text, learns a representation of the context of the text through Bi-directional Long Short-Term Memory (BILSTM), and incorporates the multi-head attention (MHATT) mechanism to extract chapter-level features. In this approach, the MHATT mechanism aims to improve the recognition accuracy of abbreviations to efficiently deal with the problem of inconsistency in full-text labels. Moreover, conditional random field (CRF) is used to label sequence tags because this probabilistic method does not need strict independence assumptions and can accommodate arbitrary context information. The experimental evaluation on a publicly-available dataset shows that the proposed hybrid approach achieves the best recognition performance; in particular, it substantially improves performance in recognizing abbreviations, polysemes, and low-frequency entities, compared with the state-of-the-art approaches. For instance, compared with the recognition accuracies for low-frequency entities produced by the BILSTM-CRF algorithm, those produced by the hybrid approach on two entity datasets (MULTIPLE and IDENTIFIER) have been increased by 80% and 21.69%, respectively.
翻訳日:2021-05-01 04:47:48 公開日:2020-12-20
# eTREE: ツリー構造化の埋め込みを学ぶ

eTREE: Learning Tree-structured Embeddings ( http://arxiv.org/abs/2012.10853v1 )

ライセンス: Link先を確認
Faisal M. Almutairi, Yunlong Wang, Dong Wang, Emily Zhao, Nicholas D. Sidiropoulos(参考訳) マトリックス分解(MF)は、幅広い機械学習とデータマイニングモデルにおいて重要な役割を果たす。 MFは、アイテムの埋め込みや特徴表現を得るのによく使われており、相関や次元間の高次統計的依存関係を捉えることができる。 多くのアプリケーションでは、アイテムのカテゴリは階層的なツリー構造を示す。 例えば、ヒトの疾患は、細菌やウイルスのような粗い分類に分類することができる。 これらの分類はさらに細分化され、例えば、ウイルス感染は呼吸器、消化器、および外来性ウイルス病である。 電子商取引では、商品、映画、書籍等を分類し、例えば、衣料品を性別別に分類し、型別(形式、カジュアル等)する。 ツリー構造と異なるアイテムのカテゴリは、いくつかのアプリケーションで知られているかもしれないが、それらは他の多くの組み込みとともに学ばなければならない。 本研究では,埋め込みの質を高めるために(通常無視される)木構造を組み込んだモデルであるetreeを提案する。 非負のMF(NMF)の特殊特異性を利用して、eTREEの識別可能性を証明する。 提案モデルは,木構造を事前に活用するだけでなく,教師なしのデータ駆動方式で階層クラスタリングを学習する。 我々は、並列コンピューティング、計算キャッシング、ウォームスタート戦略を利用する効率的なアルゴリズムソリューションとスケーラブルなetreeの実装を導出する。 医療,レコメンダシステム,教育など,さまざまなアプリケーション領域の実際のデータに対するeTREEの有効性を示す。 また, etree から得られた木は, ドメインエキスパートによる解釈によって有意性を示す。

Matrix factorization (MF) plays an important role in a wide range of machine learning and data mining models. MF is commonly used to obtain item embeddings and feature representations due to its ability to capture correlations and higher-order statistical dependencies across dimensions. In many applications, the categories of items exhibit a hierarchical tree structure. For instance, human diseases can be divided into coarse categories, e.g., bacterial, and viral. These categories can be further divided into finer categories, e.g., viral infections can be respiratory, gastrointestinal, and exanthematous viral diseases. In e-commerce, products, movies, books, etc., are grouped into hierarchical categories, e.g., clothing items are divided by gender, then by type (formal, casual, etc.). While the tree structure and the categories of the different items may be known in some applications, they have to be learned together with the embeddings in many others. In this work, we propose eTREE, a model that incorporates the (usually ignored) tree structure to enhance the quality of the embeddings. We leverage the special uniqueness properties of Nonnegative MF (NMF) to prove identifiability of eTREE. The proposed model not only exploits the tree structure prior, but also learns the hierarchical clustering in an unsupervised data-driven fashion. We derive an efficient algorithmic solution and a scalable implementation of eTREE that exploits parallel computing, computation caching, and warm start strategies. We showcase the effectiveness of eTREE on real data from various application domains: healthcare, recommender systems, and education. We also demonstrate the meaningfulness of the tree obtained from eTREE by means of domain experts interpretation.
翻訳日:2021-05-01 04:47:17 公開日:2020-12-20
# 強化学習に基づく製品配信頻度制御

Reinforcement Learning-based Product Delivery Frequency Control ( http://arxiv.org/abs/2012.10858v1 )

ライセンス: Link先を確認
Yang Liu, Zhengxing Chen, Kittipat Virochsiri, Juan Wang, Jiahao Wu, Feng Liang(参考訳) 周波数制御は現代のレコメンダシステムにおいて重要な問題である。 製品の品質と効率を維持するための推奨のデリバリ頻度を規定している。 例えば、プロモーション通知の配信頻度は、日々のメトリクスとインフラリソースの消費(例)に影響します。 CPUとメモリ使用量)。 長期的なビジネス価値を表現するために最適化すべき目的と、動的に変動する環境での日々のメトリクスとリソース消費のバランスについて、依然としてオープンな疑問があります。 本研究では,強化学習(rl)を用いた長期的価値最適化と「有効要因」と呼ばれるロバストなボリューム制御手法を組み合わせた周波数制御問題のパーソナライズ手法を提案する。 本手法は,数十億ユーザ規模の通知アプリケーションにおいて,日々のメトリクスと資源効率の統計的に有意な改善を示す。 我々の知る限り、我々の研究はそのような産業規模での周波数制御問題に対する最初の深いRL応用である。

Frequency control is an important problem in modern recommender systems. It dictates the delivery frequency of recommendations to maintain product quality and efficiency. For example, the frequency of delivering promotional notifications impacts daily metrics as well as the infrastructure resource consumption (e.g. CPU and memory usage). There remain open questions on what objective we should optimize to represent business values in the long term best, and how we should balance between daily metrics and resource consumption in a dynamically fluctuating environment. We propose a personalized methodology for the frequency control problem, which combines long-term value optimization using reinforcement learning (RL) with a robust volume control technique we termed "Effective Factor". We demonstrate statistically significant improvement in daily metrics and resource efficiency by our method in several notification applications at a scale of billions of users. To our best knowledge, our study represents the first deep RL application on the frequency control problem at such an industrial scale.
翻訳日:2021-05-01 04:46:54 公開日:2020-12-20
# alphazero に対するモンテカルログラフ探索

Monte-Carlo Graph Search for AlphaZero ( http://arxiv.org/abs/2012.11045v1 )

ライセンス: Link先を確認
Johannes Czech, Patrick Korus, Kristian Kersting(参考訳) AlphaZeroアルゴリズムは様々な独立した領域、特にボードゲームでうまく適用されている。 それは、モンテカルロ木探索の探索を導くために、価値とポリシー関数を学ぶニューラルネットワークを利用する。 モンテカルロ木探索では、過去に多くの探索改善が提案されてきたが、そのほとんどは、計画にポリシーを使用しない木アルゴリズムの高信頼境界の古い変種を参照している。 探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。 これにより、異なるサブツリー間の情報フローが可能になり、メモリ消費を大幅に削減できる。 モンテカルログラフ探索と並行して,epsilon-greedy exploration,修正ターミナルソルバ,制約としてのドメイン知識の統合など,さらに多くの拡張を提案する。 評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。

The AlphaZero algorithm has been successfully applied in a range of discrete domains, most notably board games. It utilizes a neural network, that learns a value and policy function to guide the exploration in a Monte-Carlo Tree Search. Although many search improvements have been proposed for Monte-Carlo Tree Search in the past, most of them refer to an older variant of the Upper Confidence bounds for Trees algorithm that does not use a policy for planning. We introduce a new, improved search algorithm for AlphaZero which generalizes the search tree to a directed acyclic graph. This enables information flow across different subtrees and greatly reduces memory consumption. Along with Monte-Carlo Graph Search, we propose a number of further extensions, such as the inclusion of Epsilon-greedy exploration, a revised terminal solver and the integration of domain knowledge as constraints. In our evaluations, we use the CrazyAra engine on chess and crazyhouse as examples to show that these changes bring significant improvements to AlphaZero.
翻訳日:2021-05-01 04:46:43 公開日:2020-12-20
# 特徴量平均シフトアルゴリズムによる高次元データの自動クラスタリング

Automated Clustering of High-dimensional Data with a Feature Weighted Mean Shift Algorithm ( http://arxiv.org/abs/2012.10929v1 )

ライセンス: Link先を確認
Saptarshi Chakraborty, Debolina Paul and Swagatam Das(参考訳) 平均シフト(Mean shift)は、データポイントを領域内のデータポイントの最も高い密度を示すモードへと徐々にシフトする単純な対話的な手順である。 平均シフトアルゴリズムは、データデノイジング、モード探索、データセット内のクラスタ数の自動検出に効果的に使用されている。 しかし、データ次元が大きくなるにつれて平均シフトの利点は急速に消え、データのクラスタ構造に関する有用な情報を含む特徴はごくわずかである。 本研究では,特徴量の重要性を効率的に学習するために,単純かつエレガントな特徴量シフトの変種を提案し,そのメリットを高次元データに拡張する。 その結果得られたアルゴリズムは、従来の平均シフトクラスタリング手順を上回るだけでなく、計算の単純さを保っている。 さらに,提案手法は,厳密な理論収束保証と少なくとも1立方次収束率を伴っている。 提案手法の有効性は,合成および実世界のデータセットに対するベースライン法と最先端クラスタリング法とを実験的に比較し,徹底的に評価する。

Mean shift is a simple interactive procedure that gradually shifts data points towards the mode which denotes the highest density of data points in the region. Mean shift algorithms have been effectively used for data denoising, mode seeking, and finding the number of clusters in a dataset in an automated fashion. However, the merits of mean shift quickly fade away as the data dimensions increase and only a handful of features contain useful information about the cluster structure of the data. We propose a simple yet elegant feature-weighted variant of mean shift to efficiently learn the feature importance and thus, extending the merits of mean shift to high-dimensional data. The resulting algorithm not only outperforms the conventional mean shift clustering procedure but also preserves its computational simplicity. In addition, the proposed method comes with rigorous theoretical convergence guarantees and a convergence rate of at least a cubic order. The efficacy of our proposal is thoroughly assessed through experimental comparison against baseline and state-of-the-art clustering methods on synthetic as well as real-world datasets.
翻訳日:2021-05-01 04:46:10 公開日:2020-12-20
# ベイジアン半監督型クラウドソーシング

Bayesian Semi-supervised Crowdsourcing ( http://arxiv.org/abs/2012.11048v1 )

ライセンス: Link先を確認
Panagiotis A. Traganitis and Georgios B. Giannakis(参考訳) クラウドソーシング(crowdsourcing)は、巨大なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。 データに関する追加情報が得られると、人間の注釈からラベルを集約する半教師型クラウドソーシングアプローチが動機付けされる。 この研究は、半監督的なクラウドソースの分類を扱うもので、a) データのサブセットに対して基調ラベルを提供するラベル制約と、b) データのペア間の関係を示すインスタンスレベルの制約を得るのが簡単である。 変分推論に基づくベイズアルゴリズムは各制度ごとに開発され、その量的に改善された性能は、監督されていないクラウドソーシングと比較して分析的かつ経験的に複数のクラウドソーシングデータセットで検証される。

Crowdsourcing has emerged as a powerful paradigm for efficiently labeling large datasets and performing various learning tasks, by leveraging crowds of human annotators. When additional information is available about the data, semi-supervised crowdsourcing approaches that enhance the aggregation of labels from human annotators are well motivated. This work deals with semi-supervised crowdsourced classification, under two regimes of semi-supervision: a) label constraints, that provide ground-truth labels for a subset of data; and b) potentially easier to obtain instance-level constraints, that indicate relationships between pairs of data. Bayesian algorithms based on variational inference are developed for each regime, and their quantifiably improved performance, compared to unsupervised crowdsourcing, is analytically and empirically validated on several crowdsourcing datasets.
翻訳日:2021-05-01 04:45:33 公開日:2020-12-20
# メンバーシップクエリによるハーフスペースの学習

Learning Halfspaces With Membership Queries ( http://arxiv.org/abs/2012.10985v1 )

ライセンス: Link先を確認
Ori Kelner(参考訳) アクティブラーニング(active learning)は、機械学習のサブフィールドであり、学習アルゴリズムが学習するデータを選択することができる。 いくつかのケースにおいて、アクティブラーニングは、一般化誤差$\leq \epsilon$に到達するためにアルゴリズムが見る必要のあるサンプル数において指数関数的な利得をもたらすことが示されている。 本研究では,メンバーシップクエリを用いたハーフスペース学習の問題について検討する。 メンバシップクエリのシナリオでは、学習アルゴリズムが入力空間内のすべてのサンプルのラベルを要求できる。 この問題に対して新たなアルゴリズムを提案するとともに,いくつかのケースにおいてラベルの複雑さがほぼ最適であることを示す。 また,本アルゴリズムは実際にうまく動作し,不確実性サンプリングを著しく上回ることを示す。

Active learning is a subfield of machine learning, in which the learning algorithm is allowed to choose the data from which it learns. In some cases, it has been shown that active learning can yield an exponential gain in the number of samples the algorithm needs to see, in order to reach generalization error $\leq \epsilon$. In this work we study the problem of learning halfspaces with membership queries. In the membership query scenario, we allow the learning algorithm to ask for the label of every sample in the input space. We suggest a new algorithm for this problem, and prove it achieves a near optimal label complexity in some cases. We also show that the algorithm works well in practice, and significantly outperforms uncertainty sampling.
翻訳日:2021-05-01 04:45:17 公開日:2020-12-20
# LiDARインテンシティマップを用いたローカライズ学習

Learning to Localize Using a LiDAR Intensity Map ( http://arxiv.org/abs/2012.10902v1 )

ライセンス: Link先を確認
Ioan Andrei B\^arsan, Shenlong Wang, Andrei Pokrovsky, Raquel Urtasun(参考訳) 本稿では,自動運転車のリアルタイム・キャリブレーション非依存・効果的なローカライズシステムを提案する。 提案手法は,オンラインLiDARスイープとインテンシティマップを結合した深層埋め込み空間に埋め込むことを学習する。 ローカライゼーションは、埋め込み間の効率的な畳み込みマッチングによって実行される。 システム全体の動作は15hzで,さまざまなlidarセンサや環境においてセンチメートルレベルの精度を実現しています。 実験では、4000km以上の運転からなる大規模データセットにおける提案手法の性能を示す。

In this paper we propose a real-time, calibration-agnostic and effective localization system for self-driving cars. Our method learns to embed the online LiDAR sweeps and intensity map into a joint deep embedding space. Localization is then conducted through an efficient convolutional matching between the embeddings. Our full system can operate in real-time at 15Hz while achieving centimeter level accuracy across different LiDAR sensors and environments. Our experiments illustrate the performance of the proposed approach over a large-scale dataset consisting of over 4000km of driving.
翻訳日:2021-05-01 04:45:05 公開日:2020-12-20
# 圧縮バイナリマップによる局所化の学習

Learning to Localize Through Compressed Binary Maps ( http://arxiv.org/abs/2012.10942v1 )

ライセンス: Link先を確認
Xinkai Wei, Ioan Andrei B\^arsan, Shenlong Wang, Julieta Martinez, Raquel Urtasun(参考訳) 現在のローカライゼーションシステムを大規模環境にスケールする上で大きな課題の1つは、マップに必要なオンボードストレージである。 本稿では,局所化タスクに最適であるように地図表現を圧縮する学習法を提案する。 その結果、再構成を最適化する標準的な符号化方式と比較して、ローカライズ精度を損なうことなく高い圧縮率を達成することができる。 本研究では,webpなどの汎用コーデックに対して,性能を犠牲にすることなく,ストレージ要求を2桁削減するタスク固有圧縮を学習できることを実証する。

One of the main difficulties of scaling current localization systems to large environments is the on-board storage required for the maps. In this paper we propose to learn to compress the map representation such that it is optimal for the localization task. As a consequence, higher compression rates can be achieved without loss of localization accuracy when compared to standard coding schemes that optimize for reconstruction, thus ignoring the end task. Our experiments show that it is possible to learn a task-specific compression which reduces storage requirements by two orders of magnitude over general-purpose codecs such as WebP without sacrificing performance.
翻訳日:2021-05-01 04:44:57 公開日:2020-12-20
# 単眼ビデオからの高忠実性ニューラルヒューマンモーショントランスファー

High-Fidelity Neural Human Motion Transfer from Monocular Video ( http://arxiv.org/abs/2012.10974v1 )

ライセンス: Link先を確認
Moritz Kappel and Vladislav Golyanik and Mohamed Elgharib and Jann-Ole Henningson and Hans-Peter Seidel and Susana Castillo and Christian Theobalt and Marcus Magnor(参考訳) 映像に基づく人間の動き伝達は、映像のアニメーションを生成する。 現在の方法では, 密着した被験者に顕著な結果が得られた。 しかし、細部や高周波の細部を含む、妥当な衣服力学の時間的一貫性の欠如は、到達可能な視覚品質を著しく制限している。 本稿では,これらの制約に初めて対処し,様々な種類のゆるい衣服に対して,自然のポーズ依存非剛性変形を伴う高忠実かつ時間的に連続した人の動き伝達を行う新しい枠組みを提案する。 従来の手法とは対照的に,人間の形状,構造,外観を合成し,その後の3段階で画像生成を行う。 アクターの単眼的なRGBビデオが与えられた場合、我々は2Dポーズとその時間微分からこれらの中間表現を生成する一連の深層ニューラルネットワークを訓練する。 時間的動きの文脈を認識したサブタスクに難しい動き伝達問題を分割することは、プラウシブルなダイナミクスとポーズ依存の詳細で結果を合成するのに役立ちます。 個々のフレームワークステージを操作することで、結果の芸術的なコントロールも可能になる。 実験結果では,映像リアリズムの観点から,最先端技術よりも優れていた。 私たちのコードとデータは公開されます。

Video-based human motion transfer creates video animations of humans following a source motion. Current methods show remarkable results for tightly-clad subjects. However, the lack of temporally consistent handling of plausible clothing dynamics, including fine and high-frequency details, significantly limits the attainable visual quality. We address these limitations for the first time in the literature and present a new framework which performs high-fidelity and temporally-consistent human motion transfer with natural pose-dependent non-rigid deformations, for several types of loose garments. In contrast to the previous techniques, we perform image generation in three subsequent stages, synthesizing human shape, structure, and appearance. Given a monocular RGB video of an actor, we train a stack of recurrent deep neural networks that generate these intermediate representations from 2D poses and their temporal derivatives. Splitting the difficult motion transfer problem into subtasks that are aware of the temporal motion context helps us to synthesize results with plausible dynamics and pose-dependent detail. It also allows artistic control of results by manipulation of individual framework stages. In the experimental results, we significantly outperform the state-of-the-art in terms of video realism. Our code and data will be made publicly available.
翻訳日:2021-05-01 04:44:47 公開日:2020-12-20
# TSEQPREDICTOR:カリフォルニア南部の時空間地震予測

TSEQPREDICTOR: Spatiotemporal Extreme Earthquakes Forecasting for Southern California ( http://arxiv.org/abs/2012.14336v1 )

ライセンス: Link先を確認
Bo Feng and Geoffrey C. Fox(参考訳) 過去数十年の地震学は、世界規模の地震の観測に最も進んだ技術と機器を活用してきた。 しかし、地震などの災害予知は歴史からはまだ未定の話題である。 時空間予測の最近の研究は、予測の成功の可能性を明らかにしており、多くの科学研究分野において重要な話題となっている。 それらの研究の多くは、ディープニューラルネットワークの応用に成功している。 地質学的研究において、地震予測は世界で最も難しい問題の一つであり、最先端のディープラーニング技術が有用なパターンを発見するのに役立つかもしれない。 本稿では,TSEQPREDICTORという,地震予知のための共同ディープラーニングモデリング手法を提案する。 TSEQPREDICTORでは、地震学におけるドメイン知識を備えた総合的なディープラーニング技術を使用し、エンコーダデコーダと時間畳み込みニューラルネットワークを用いて予測問題を利用する。 最先端のニューラルネットワークと比較し,南カリフォルニアの地震に対する大きな衝撃を予測できることを実証した。

Seismology from the past few decades has utilized the most advanced technologies and equipment to monitor seismic events globally. However, forecasting disasters like earthquakes is still an underdeveloped topic from the history. Recent researches in spatiotemporal forecasting have revealed some possibilities of successful predictions, which becomes an important topic in many scientific research fields. Most studies of them have many successful applications of using deep neural networks. In the geoscience study, earthquake prediction is one of the world's most challenging problems, about which cutting edge deep learning technologies may help to discover some useful patterns. In this project, we propose a joint deep learning modeling method for earthquake forecasting, namely TSEQPREDICTOR. In TSEQPREDICTOR, we use comprehensive deep learning technologies with domain knowledge in seismology and exploit the prediction problem using encoder-decoder and temporal convolutional neural networks. Comparing to some state-of-art recurrent neural networks, our experiments show our method is promising in terms of predicting major shocks for earthquakes in Southern California.
翻訳日:2021-05-01 04:44:28 公開日:2020-12-20
# バイオメディカルテキスト分類のためのブラックボックスモデル

Explaining Black-box Models for Biomedical Text Classification ( http://arxiv.org/abs/2012.10928v1 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) 本稿では,バイオメディカルテキスト分類のためのブラックボックス機械学習モデルのポストホックな説明を目的とした,バイオメディカル信頼項目記述法(BioCIE)を提案する。 ドメイン知識のソースと自信のあるアイテムセットマイニング手法を用いて、biocieはブラックボックスの決定空間を小さなサブスペースに分類し、入力テキストと異なるサブスペースのクラスラベル間の意味関係を抽出する。 自信のある項目セットは、ブラックボックスの決定空間におけるクラスラベルとバイオメディカル概念がどのように関連しているかを発見する。 BioCIEは個々の予測のためにブラックボックスの振る舞いを近似するためにアイテムセットを使用する。 BioCIEは、忠実度、解釈可能性、カバレッジ対策を最適化し、ブラックボックスの決定境界を表すクラスワイドな説明を生成する。 各種バイオメディカルテキスト分類タスクとブラックボックスモデルによる評価の結果,BioCIEは,簡潔で正確かつ解釈可能な説明を提示する上で,摂動と意思決定の手法より優れていることが示された。 BioCIEは、インスタンスワイドとクラスワイドの説明の忠実度をそれぞれ11.6%と7.5%改善した。 また、説明の解釈性も8%向上した。 biocieは、ブラックボックスの生物医学的テキスト分類モデルが入力テキストとクラスラベルを意味的に関連付ける方法について説明するのに効果的に使うことができる。 ソースコードと補足資料はhttps://github.com/mmoradi-iut/BioCIEで入手できる。

In this paper, we propose a novel method named Biomedical Confident Itemsets Explanation (BioCIE), aiming at post-hoc explanation of black-box machine learning models for biomedical text classification. Using sources of domain knowledge and a confident itemset mining method, BioCIE discretizes the decision space of a black-box into smaller subspaces and extracts semantic relationships between the input text and class labels in different subspaces. Confident itemsets discover how biomedical concepts are related to class labels in the black-box's decision space. BioCIE uses the itemsets to approximate the black-box's behavior for individual predictions. Optimizing fidelity, interpretability, and coverage measures, BioCIE produces class-wise explanations that represent decision boundaries of the black-box. Results of evaluations on various biomedical text classification tasks and black-box models demonstrated that BioCIE can outperform perturbation-based and decision set methods in terms of producing concise, accurate, and interpretable explanations. BioCIE improved the fidelity of instance-wise and class-wise explanations by 11.6% and 7.5%, respectively. It also improved the interpretability of explanations by 8%. BioCIE can be effectively used to explain how a black-box biomedical text classification model semantically relates input texts to class labels. The source code and supplementary material are available at https://github.com/mmoradi-iut/BioCIE.
翻訳日:2021-05-01 04:43:48 公開日:2020-12-20
# Geometric Scene Refocusing

Geometric Scene Refocusing ( http://arxiv.org/abs/2012.10856v1 )

ライセンス: Link先を確認
Parikshit Sakurikar, P. J. Narayanan(参考訳) 広角カメラで撮影された画像は、焦点を合わせ、焦点を離したピクセルを持つ有限の深度のフィールドを示す。 コンパクトでロバストなフォーカスとデフォーカスの表現は、そのようなイメージの分析と操作に役立ちます。 本研究は,焦点スタックの文脈における被写界深度が浅い画像の微細特性について検討する。 本稿では,既存の尺度の組み合わせであるフォーカスの複合尺度を提案する。 焦点内画素、二重焦点画素、焦点スライス間のボケと空間的に異なるぼやけたカーネルを示す画素を同定する。 これらを用いて、焦点スタックの操作を容易にする新しい表現を構築する。 幾何的に正しい方法で捕獲後再フォーカスのための包括的アルゴリズムを提案する。 我々のアプローチは、フォーカスとデフォーカスの微妙な側面を保ちながら、シーンを高い忠実度で再フォーカスすることができる。

An image captured with a wide-aperture camera exhibits a finite depth-of-field, with focused and defocused pixels. A compact and robust representation of focus and defocus helps analyze and manipulate such images. In this work, we study the fine characteristics of images with a shallow depth-of-field in the context of focal stacks. We present a composite measure for focus that is a combination of existing measures. We identify in-focus pixels, dual-focus pixels, pixels that exhibit bokeh and spatially-varying blur kernels between focal slices. We use these to build a novel representation that facilitates easy manipulation of focal stacks. We present a comprehensive algorithm for post-capture refocusing in a geometrically correct manner. Our approach can refocus the scene at high fidelity while preserving fine aspects of focus and defocus blur.
翻訳日:2021-05-01 04:43:06 公開日:2020-12-20
# 動的3次元点雲列のためのアンカー型時空間注意畳み込みネットワーク

Anchor-Based Spatial-Temporal Attention Convolutional Networks for Dynamic 3D Point Cloud Sequences ( http://arxiv.org/abs/2012.10860v1 )

ライセンス: Link先を確認
Guangming Wang, Hanwen Liu, Muyao Chen, Yehui Yang, Zhe Liu, Hesheng Wang(参考訳) 近年,画像や映像からのロボット知覚のための学習手法が開発されているが,動的3次元点雲列のディープラーニング手法は未検討である。 LiDARやディープカメラといった3Dセンサーが広く応用されているため、3Dシークエンスデータから3D環境を効率よく正確に認識することは、自動運転やサービスロボットにとって重要な要素である。 本稿では,動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。 提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。 周辺点の特徴は、まず空間的時間的注意機構に基づいて各アンカーに集約される。 次に、アンカーベースのスパース3d畳み込みを採用し、アンカーの特徴をコアポイントに集約する。 提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。 次に,Anchorをベースとした時空間注意畳み込みニューラルネットワーク(ASTACNN)を分類とセグメンテーションタスクとして提案し,アクション認識とセグメンテーションタスクで評価する。 msraction3dとsynthiaデータセットの実験結果から,マルチフレーム融合の新たな戦略により,従来の最先端手法よりも高い精度を実現することができた。

Recently, learning based methods for the robot perception from the image or video have much developed, but deep learning methods for dynamic 3D point cloud sequences are underexplored. With the widespread application of 3D sensors such as LiDAR and depth camera, efficient and accurate perception of the 3D environment from 3D sequence data is pivotal to autonomous driving and service robots. An Anchor-based Spatial-Temporal Attention Convolution operation (ASTAConv) is proposed in this paper to process dynamic 3D point cloud sequences. The proposed convolution operation builds a regular receptive field around each point by setting several virtual anchors around each point. The features of neighborhood points are firstly aggregated to each anchor based on spatial-temporal attention mechanism. Then, anchor-based sparse 3D convolution is adopted to aggregate the features of these anchors to the core points. The proposed method makes better use of the structured information within the local region, and learn spatial-temporal embedding features from dynamic 3D point cloud sequences. Then Anchor-based Spatial-Temporal Attention Convolutional Neural Networks (ASTACNNs) are proposed for classification and segmentation tasks and are evaluated on action recognition and semantic segmentation tasks. The experimental results on MSRAction3D and Synthia datasets demonstrate that the higher accuracy can be achieved than the previous state-of-the-art method by our novel strategy of multi-frame fusion.
翻訳日:2021-05-01 04:42:55 公開日:2020-12-20
# コンピュータビジョンによる自動運転車事故検出

Computer Vision based Accident Detection for Autonomous Vehicles ( http://arxiv.org/abs/2012.10870v1 )

ライセンス: Link先を確認
Dhananjai Chand, Savyasachi Gupta, and Ilaiah Kavati(参考訳) 自動運転車による潜在的な事故を検出するために、多くのディープラーニングとセンサーベースのモデルが開発されている。 しかし、自動運転車は、他の車両間の事故を検知し、減速、停止、関係者への通知といった適切な行動を取る必要がある。 本稿では,ダッシュボードカメラを用いて車両事故を検知する自動運転支援システムを提案する。 このシステムは、車両検出のためのマスクr-cnnフレームワークと、検出された車両を追跡するセンタロイドトラッキングアルゴリズムを利用する。 さらに、このフレームワークは速度、加速度、軌道などの様々なパラメータを計算し、走行中の車両間で事故が発生したかどうかを判定する。 このフレームワークは、ダッシュカム映像のカスタムデータセットでテストされ、低い誤報率を維持しながら高い事故検出率を達成する。

Numerous Deep Learning and sensor-based models have been developed to detect potential accidents with an autonomous vehicle. However, a self-driving car needs to be able to detect accidents between other vehicles in its path and take appropriate actions such as to slow down or stop and inform the concerned authorities. In this paper, we propose a novel support system for self-driving cars that detects vehicular accidents through a dashboard camera. The system leverages the Mask R-CNN framework for vehicle detection and a centroid tracking algorithm to track the detected vehicle. Additionally, the framework calculates various parameters such as speed, acceleration, and trajectory to determine whether an accident has occurred between any of the tracked vehicles. The framework has been tested on a custom dataset of dashcam footage and achieves a high accident detection rate while maintaining a low false alarm rate.
翻訳日:2021-05-01 04:42:31 公開日:2020-12-20
# テキスト認識のためのシーケンスからシーケンスまでのコントラスト学習

Sequence-to-Sequence Contrastive Learning for Text Recognition ( http://arxiv.org/abs/2012.10873v1 )

ライセンス: Link先を確認
Aviad Aberdam, Ron Litman, Shahar Tsiper, Oron Anschel, Ron Slossberg, Shai Mazor, R. Manmatha, Pietro Perona(参考訳) 本稿では,テキスト認識に適用する視覚表現のシーケンス・ツー・シーケンスコントラスト学習(seqclr)フレームワークを提案する。 シーケンス対シーケンス構造を考慮するために、各特徴マップは、コントラスト損失が計算される異なるインスタンスに分割される。 この操作はサブワードレベルでのコントラストを可能にし、各画像から複数の正のペアと複数の負の例を抽出する。 テキスト認識に有効な視覚表現を与えるために,新たな拡張ヒューリスティック,異なるエンコーダアーキテクチャ,カスタムプロジェクションヘッドを提案する。 手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。 さらに, 教師付きトレーニングと比較して, 監督の量を減らすと, SeqCLR は性能を著しく向上し, ラベルの100%を微調整すると, 標準的な手書きテキスト認識ベンチマークの最先端結果が得られる。

We propose a framework for sequence-to-sequence contrastive learning (SeqCLR) of visual representations, which we apply to text recognition. To account for the sequence-to-sequence structure, each feature map is divided into different instances over which the contrastive loss is computed. This operation enables us to contrast in a sub-word level, where from each image we extract several positive pairs and multiple negative examples. To yield effective visual representations for text recognition, we further suggest novel augmentation heuristics, different encoder architectures and custom projection heads. Experiments on handwritten text and on scene text show that when a text decoder is trained on the learned representations, our method outperforms non-sequential contrastive methods. In addition, when the amount of supervision is reduced, SeqCLR significantly improves performance compared with supervised training, and when fine-tuned with 100% of the labels, our method achieves state-of-the-art results on standard handwritten text recognition benchmarks.
翻訳日:2021-05-01 04:42:20 公開日:2020-12-20
# コンピュータビジョンによる自動運転車の動物衝突回避フレームワーク

Computer Vision based Animal Collision Avoidance Framework for Autonomous Vehicles ( http://arxiv.org/abs/2012.10878v1 )

ライセンス: Link先を確認
Savyasachi Gupta, Dhananjai Chand, and Ilaiah Kavati(参考訳) 動物はインドの道路でよく目撃されており、毎年自動車と自動車の事故が多発している。 これにより、このような事故の防止を支援するドライバーレス車両支援システムの開発が不可欠となる。 本稿では,ダシュカムビデオ上での深層学習とコンピュータビジョン技術を用いて,高速道路上での動物検出のための効率的なアプローチを開発することにより,車両と動物との衝突を避ける新奇な枠組みを提案する。 本手法では,マスクr-cnnモデルを用いて各種動物を検出・同定する。 そして車線検出を行い、検出された動物が車線上にあるか否かを推定し、遠心性物体追跡アルゴリズムを用いてその位置と移動方向を追跡する。 このアプローチは、動物が自律走行車の経路を妨害しているかどうかを判断し、その動きを予測し、それに応じてフィードバックを与えるのに効果的であることを保証する。 このシステムは様々な照明や気象条件下でテストされ、比較的良好な性能を示すことが観測され、インドの道路で動物と車両の衝突をリアルタイムに回避するための、著名な無人車のサポートシステムへと繋がった。

Animals have been a common sighting on roads in India which leads to several accidents between them and vehicles every year. This makes it vital to develop a support system for driverless vehicles that assists in preventing these forms of accidents. In this paper, we propose a neoteric framework for avoiding vehicle-to-animal collisions by developing an efficient approach for the detection of animals on highways using deep learning and computer vision techniques on dashcam video. Our approach leverages the Mask R-CNN model for detecting and identifying various commonly found animals. Then, we perform lane detection to deduce whether a detected animal is on the vehicle's lane or not and track its location and direction of movement using a centroid based object tracking algorithm. This approach ensures that the framework is effective at determining whether an animal is obstructing the path or not of an autonomous vehicle in addition to predicting its movement and giving feedback accordingly. This system was tested under various lighting and weather conditions and was observed to perform relatively well, which leads the way for prominent driverless vehicle's support systems for avoiding vehicular collisions with animals on Indian roads in real-time.
翻訳日:2021-05-01 04:42:02 公開日:2020-12-20
# ビデオキャプションのための誘導モジュールネットワーク

Guidance Module Network for Video Captioning ( http://arxiv.org/abs/2012.10930v1 )

ライセンス: Link先を確認
Xiao Zhang, Chunsheng Liu, Faliang Chang(参考訳) ビデオキャプションは、ビデオクリップの内容を単一の文で記述する、困難で重要なタスクである。 ビデオキャプションのモデルは、通常エンコーダデコーダである。 抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。 エンコーダ・デコーダモデルは通常、教師強化戦略を用いて訓練され、各単語の確率を0-1分布に近づけ、他の単語を無視する。 本稿では,エンコーダ・デコーダモデルを用いて,過去と未来に関連する単語をキャプション内で生成するためのガイダンスモジュールを提案する。 正規化および誘導モジュールに基づいて、ガイダンスモジュールネット(gmnet)が構築される。 一般的なデータセットMSVDによる実験結果から、GMNetの提案により、ビデオキャプションタスクにおけるエンコーダデコーダモデルの性能が向上することが示された。

Video captioning has been a challenging and significant task that describes the content of a video clip in a single sentence. The model of video captioning is usually an encoder-decoder. We find that the normalization of extracted video features can improve the final performance of video captioning. Encoder-decoder model is usually trained using teacher-enforced strategies to make the prediction probability of each word close to a 0-1 distribution and ignore other words. In this paper, we present a novel architecture which introduces a guidance module to encourage the encoder-decoder model to generate words related to the past and future words in a caption. Based on the normalization and guidance module, guidance module net (GMNet) is built. Experimental results on commonly used dataset MSVD show that proposed GMNet can improve the performance of the encoder-decoder model on video captioning tasks.
翻訳日:2021-05-01 04:41:20 公開日:2020-12-20
# グラフクラスタリング畳み込みネットワークを用いた半教師付きハイパースペクトル画像分類

Semi-supervised Hyperspectral Image Classification with Graph Clustering Convolutional Networks ( http://arxiv.org/abs/2012.10932v1 )

ライセンス: Link先を確認
Hao Zeng and Qingjie Liu and Mingming Zhang and Xiaoqing Han and Yunhong Wang(参考訳) ハイパースペクトラル画像分類(hic)は重要ではあるが困難な課題であり、この分野におけるアルゴリズム開発を制限する問題は、ハイパースペクトラル画像(hsis)の基底的真理を得ることが極めて難しいことである。 近年,グラフ畳み込みネットワーク(GCN)に基づくHIC手法が開発され,深層学習に基づくHIC手法においてラベル付きデータの不足を効果的に軽減している。 分類性能をさらに高めるために,HSI分類のためのグラフ畳み込みネットワーク(GCN)ベースのフレームワークを提案する。 特に、類似のスペクトル特徴を持つ画素をスーパーピクセルにまずクラスターし、入力したhsiのスーパーピクセルに基づいてグラフを構築する。 そして、この超画素グラフ上で畳み込みを行う代わりに、エッジを弱い重みで刈り上げ、高い類似性を持つノードの相関を強化することにより、さらにいくつかの部分グラフに分割する。 この第2ラウンドのクラスタリングは、グラフのサイズをさらに削減し、グラフ畳み込みの計算負荷を削減する。 3つのベンチマークデータセットにおける実験結果から,提案フレームワークの有効性が実証された。

Hyperspectral image classification (HIC) is an important but challenging task, and a problem that limits the algorithmic development in this field is that the ground truths of hyperspectral images (HSIs) are extremely hard to obtain. Recently a handful of HIC methods are developed based on the graph convolution networks (GCNs), which effectively relieves the scarcity of labeled data for deep learning based HIC methods. To further lift the classification performance, in this work we propose a graph convolution network (GCN) based framework for HSI classification that uses two clustering operations to better exploit multi-hop node correlations and also effectively reduce graph size. In particular, we first cluster the pixels with similar spectral features into a superpixel and build the graph based on the superpixels of the input HSI. Then instead of performing convolution over this superpixel graph, we further partition it into several sub-graphs by pruning the edges with weak weights, so as to strengthen the correlations of nodes with high similarity. This second round of clustering also further reduces the graph size, thus reducing the computation burden of graph convolution. Experimental results on three widely used benchmark datasets well prove the effectiveness of our proposed framework.
翻訳日:2021-05-01 04:41:06 公開日:2020-12-20
# マルチセンサ3次元物体検出のための深部連続融合

Deep Continuous Fusion for Multi-Sensor 3D Object Detection ( http://arxiv.org/abs/2012.10992v1 )

ライセンス: Link先を確認
Ming Liang, Bin Yang, Shenlong Wang, Raquel Urtasun(参考訳) 本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。 この目標に向けて,連続畳み込みを利用して画像とlidar特徴マップを解像度の異なるレベルで融合する,エンドツーエンドの学習可能なアーキテクチャを設計する。 提案する連続融合層は離散状態画像の特徴と連続幾何情報の両方を符号化する。 これにより、複数のセンサに基づいて、新しい、信頼性が高く、効率的な学習可能な3Dオブジェクト検出器を設計できる。 KITTIと大規模3Dオブジェクト検出ベンチマークを併用した実験により,技術状況に対する大幅な改善が示された。

In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
翻訳日:2021-05-01 04:40:45 公開日:2020-12-20
# deep bingham networks: ポーズ推定における不確実性とあいまいさを扱う

Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose Estimation ( http://arxiv.org/abs/2012.11002v1 )

ライセンス: Link先を確認
Haowen Deng, Mai Bui, Nassir Navab, Leonidas Guibas, Slobodan Ilic, Tolga Birdal(参考訳) 本研究では,3Dデータに関するほぼすべての実生活アプリケーションにおいて,ポーズ関連の不確実性や曖昧性を自然に処理できる汎用フレームワークであるDeep Bingham Networks(DBN)を紹介する。 既存の研究はポーズ推定問題に対する単一の解を見つけようとしているが、どの解が最良の解であるかという不確実性を引き起こす曖昧さと和らげる。 代わりに、解空間の性質を捉える一連のポーズを報告します。 DBNは, (i) 異なる分布モードを生成可能な多仮説予測ヘッド, (ii) 回転におけるビンガム分布の恩恵を受ける新しい損失関数により, 直接ポーズ回帰ネットワークの状態を拡張する。 このように、dbnは不確実性情報を提供する曖昧なケースと、モードごとの不確実性が要求される曖昧なシーンの両方で動作する。 技術面では,連続したビンガム混合モデルをレグレッシブし,画像などの2次元データとポイントクラウドなどの3次元データの両方に適用する。 我々は,訓練中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案した。 i)画像からの6dカメラ再局在化,および(ii)3dポイントクラウドからのオブジェクトポーズ推定の2つの異なるアプリケーションに対して徹底的にテストを行い,その技術に対する適度な優位性を示した。 前者については、一意に識別できないビューに対応するイメージをキャプチャできない5つの屋内シーンからなる独自のデータセットを寄贈しました。 後者については、特にModelNetデータセットの対称オブジェクトの上位結果を得る。

In this work, we introduce Deep Bingham Networks (DBN), a generic framework that can naturally handle pose-related uncertainties and ambiguities arising in almost all real life applications concerning 3D data. While existing works strive to find a single solution to the pose estimation problem, we make peace with the ambiguities causing high uncertainty around which solutions to identify as the best. Instead, we report a family of poses which capture the nature of the solution space. DBN extends the state of the art direct pose regression networks by (i) a multi-hypotheses prediction head which can yield different distribution modes; and (ii) novel loss functions that benefit from Bingham distributions on rotations. This way, DBN can work both in unambiguous cases providing uncertainty information, and in ambiguous scenes where an uncertainty per mode is desired. On a technical front, our network regresses continuous Bingham mixture models and is applicable to both 2D data such as images and to 3D data such as point clouds. We proposed new training strategies so as to avoid mode or posterior collapse during training and to improve numerical stability. Our methods are thoroughly tested on two different applications exploiting two different modalities: (i) 6D camera relocalization from images; and (ii) object pose estimation from 3D point clouds, demonstrating decent advantages over the state of the art. For the former we contributed our own dataset composed of five indoor scenes where it is unavoidable to capture images corresponding to views that are hard to uniquely identify. For the latter we achieve the top results especially for symmetric objects of ModelNet dataset.
翻訳日:2021-05-01 04:40:35 公開日:2020-12-20
# Lexicographic Logic: 参照表現のための多値論理

Lexicographic Logic: a Many-valued Logic for Preference Representation ( http://arxiv.org/abs/2012.10940v1 )

ライセンス: Link先を確認
Angelos Charalambidis, Giorgos Papadimitriou, Panos Rondogiannis, Antonis Troumpoukis(参考訳) 論理形式は、嗜好を特定し、推論するための自然で簡潔な手段を提供する。 本稿では,古典命題論理の拡張であるlexicographic logicを提案する。 提案した論理は、意味論を真理値の有限リストの観点で定義できる単純な新しい接続性をサポートする。 我々は、語彙的嗜好の定量的表現に障壁をもたらすよく知られた理論的な制限にもかかわらず、提案された新しい接続が自然に定義できる有理数のサブセットが存在することを示した。 lexicographic logic は "$a$ や "if possible $b$" や "$a$ or fail that $b$" といった有名な優先演算子を単純な方法で定義するのに使うことができる。 さらに、他の階層的優越作用素は体系的なアプローチで定義することができる。 ユーザの嗜好の満足度に応じてクエリ結果のランク付けを行う上で,新しい論理は有効な形式である,と我々は主張する。

Logical formalisms provide a natural and concise means for specifying and reasoning about preferences. In this paper, we propose lexicographic logic, an extension of classical propositional logic that can express a variety of preferences, most notably lexicographic ones. The proposed logic supports a simple new connective whose semantics can be defined in terms of finite lists of truth values. We demonstrate that, despite the well-known theoretical limitations that pose barriers to the quantitative representation of lexicographic preferences, there exists a subset of the rational numbers over which the proposed new connective can be naturally defined. Lexicographic logic can be used to define in a simple way some well-known preferential operators, like "$A$ and if possible $B$", and "$A$ or failing that $B$". Moreover, many other hierarchical preferential operators can be defined using a systematic approach. We argue that the new logic is an effective formalism for ranking query results according to the satisfaction level of user preferences.
翻訳日:2021-05-01 04:40:06 公開日:2020-12-20
# 薄雲除去のためのマルチヘッド線形注意生成逆ネットワーク

Multi-Head Linear Attention Generative Adversarial Network for Thin Cloud Removal ( http://arxiv.org/abs/2012.10898v1 )

ライセンス: Link先を確認
Chenxi Duan, Rui Li(参考訳) リモートセンシング画像では、薄い雲の存在は必然的でユビキタスな現象であり、画像の品質を著しく低下させ、アプリケーションのシナリオを制限する。 そのため,薄雲除去はリモートセンシング画像の利用を促進させるには不可欠である。 一般的には、薄い雲で汚染されたとしても、ピクセルは表面情報を多かれ少なかれ保持する。 したがって、厚い雲の除去とは異なり、薄い雲の除去アルゴリズムは通常、雲に汚染されたピクセルの代わりに雲の影響を抑えることに集中する。 一方、雲によって隠された表面の特徴は通常隣接した領域と類似しているため、入力の各ピクセル間の依存性は汚染領域の再構成に有用である。 本稿では,画像の画素間の依存性を最大限に活用するために,雲の薄層除去のためのマルチヘッド線形注意生成逆ネットワーク(mlagan)を提案する。 MLA-GANは、複数の注意層と非畳み込み層からなる符号化・復号化フレームワークに基づいている。 6つのディープラーニングベースの薄雲除去ベンチマークと比較すると、 rice1 と rice2 データセットの実験結果から、提案フレームワークである mla-gan が薄雲除去において優勢であることが分かる。

In remote sensing images, the existence of the thin cloud is an inevitable and ubiquitous phenomenon that crucially reduces the quality of imageries and limits the scenarios of application. Therefore, thin cloud removal is an indispensable procedure to enhance the utilization of remote sensing images. Generally, even though contaminated by thin clouds, the pixels still retain more or less surface information. Hence, different from thick cloud removal, thin cloud removal algorithms normally concentrate on inhibiting the cloud influence rather than substituting the cloud-contaminated pixels. Meanwhile, considering the surface features obscured by the cloud are usually similar to adjacent areas, the dependency between each pixel of the input is useful to reconstruct contaminated areas. In this paper, to make full use of the dependencies between pixels of the image, we propose a Multi-Head Linear Attention Generative Adversarial Network (MLAGAN) for Thin Cloud Removal. The MLA-GAN is based on the encoding-decoding framework consisting of multiple attention-based layers and deconvolutional layers. Compared with six deep learning-based thin cloud removal benchmarks, the experimental results on the RICE1 and RICE2 datasets demonstrate that the proposed framework MLA-GAN has dominant advantages in thin cloud removal.
翻訳日:2021-05-01 04:39:31 公開日:2020-12-20
# MA-Unet:医療画像セグメンテーションのためのマルチスケール・アテンション機構に基づくUnetの改良版

MA-Unet: An improved version of Unet based on multi-scale and attention mechanism for medical image segmentation ( http://arxiv.org/abs/2012.10952v1 )

ライセンス: Link先を確認
Yutong Cai, Yong Wang(参考訳) 畳み込みニューラルネットワーク(cnns)は医用画像セマンティクスセグメンテーションの開発を促進するが、標準モデルにはいくつかの欠点がある。 まず、スキップ接続動作におけるエンコーダとデコーダのサブネットワークからの特徴マッピングは、意味的差異が大きい。 第二に、リモート機能依存は効果的にモデル化されない。 第3に、異なるスケールのグローバルコンテキスト情報は無視される。 本稿では,アテンションゲート (ags) を付加し,アテンション機構を用いて局所特徴と対応するグローバル依存性を結合し,チャネル間の依存関係を明示的にモデル化し,マルチスケール予測融合を用いて異なるスケールでグローバル情報を活用することにより,スキップ接続操作における意味的曖昧さを解消する。 他の最先端セグメンテーションネットワークと比較して、より少ないパラメータを導入しながら、より優れたセグメンテーション性能が得られる。

Although convolutional neural networks (CNNs) are promoting the development of medical image semantic segmentation, the standard model still has some shortcomings. First, the feature mapping from the encoder and decoder sub-networks in the skip connection operation has a large semantic difference. Second, the remote feature dependence is not effectively modeled. Third, the global context information of different scales is ignored. In this paper, we try to eliminate semantic ambiguity in skip connection operations by adding attention gates (AGs), and use attention mechanisms to combine local features with their corresponding global dependencies, explicitly model the dependencies between channels and use multi-scale predictive fusion to utilize global information at different scales. Compared with other state-of-the-art segmentation networks, our model obtains better segmentation performance while introducing fewer parameters.
翻訳日:2021-05-01 04:39:10 公開日:2020-12-20
# deep adversarial trainingを用いたドメイン適応転倒検出

Domain-adaptive Fall Detection Using Deep Adversarial Training ( http://arxiv.org/abs/2012.10911v1 )

ライセンス: Link先を確認
Kai-Chun Liu, Michael Chan, Chia-Yeh Hsieh, Hsiang-Yun Huang, Chia-Tai Chan and Yu Tsao(参考訳) 転倒検出(FD)システムは、緊急転倒イベントを検知し、介護者を警告する医療支援技術である。 しかし, 高精度FDシステムの実装において, 様々なセンサやセンサ位置の仕様で大規模な降雨イベントを得るのは容易ではない。 さらに、機械学習によって得られた知識は、同じドメインのタスクに制限されている。 異なるドメイン間のミスマッチは、FDシステムの性能を損なう可能性がある。 クロスドメインな知識伝達は、機械学習に基づくFDシステムにとって、新しい環境で十分にラベル付けされたデータで信頼性の高いFDモデルをトレーニングする上で非常に有益である。 本研究では,deep adversarial training (dat) を用いて,クロスポジションやクロスコンフィグレーションなどのクロスドメイン問題に対処するドメイン適応転倒検出(dafd)を提案する。 提案したDAFDは、ミスマッチ問題を避けるために、ドメインの矛盾を最小限に抑えて、ソースドメインからターゲットドメインに知識を転送することができる。 実験の結果,DAFDを用いた場合の平均F1スコア改善率は,クロスポジションシナリオでは1.5%から7%,クロスコンフィグレーションシナリオでは3.5%から12%であった。 その結果,提案するdafdはクロスドメイン問題への対処に成功し,検出性能が向上した。

Fall detection (FD) systems are important assistive technologies for healthcare that can detect emergency fall events and alert caregivers. However, it is not easy to obtain large-scale annotated fall events with various specifications of sensors or sensor positions, during the implementation of accurate FD systems. Moreover, the knowledge obtained through machine learning has been restricted to tasks in the same domain. The mismatch between different domains might hinder the performance of FD systems. Cross-domain knowledge transfer is very beneficial for machine-learning based FD systems to train a reliable FD model with well-labeled data in new environments. In this study, we propose domain-adaptive fall detection (DAFD) using deep adversarial training (DAT) to tackle cross-domain problems, such as cross-position and cross-configuration. The proposed DAFD can transfer knowledge from the source domain to the target domain by minimizing the domain discrepancy to avoid mismatch problems. The experimental results show that the average F1score improvement when using DAFD ranges from 1.5% to 7% in the cross-position scenario, and from 3.5% to 12% in the cross-configuration scenario, compared to using the conventional FD model without domain adaptation training. The results demonstrate that the proposed DAFD successfully helps to deal with cross-domain problems and to achieve better detection performance.
翻訳日:2021-05-01 04:38:24 公開日:2020-12-20
# 粗量子信号を用いた高効率分散RSS学習に関する研究

Study of Energy-Efficient Distributed RLS-based Learning with Coarsely Quantized Signals ( http://arxiv.org/abs/2012.10939v1 )

ライセンス: Link先を確認
A. Danaee, R. C. de Lamare and V. H. Nascimento(参考訳) 本研究では,モノのインターネット(IoT)ネットワークのための粗い量子化信号を用いたエネルギー効率の高い分散学習フレームワークを提案する。 特に、数ビットの量子化信号を用いてエネルギー効率の良い方法でパラメータを学習できる分散量子化・再帰的最小二乗法(dqa-rls)アルゴリズムを開発した。 DQA-RLSアルゴリズムは、IoTデバイスがピアツーピアモードで動作する分散パラメータ推定タスクにおいて、既存の手法と比較して評価する。

In this work, we present an energy-efficient distributed learning framework using coarsely quantized signals for Internet of Things (IoT) networks. In particular, we develop a distributed quantization-aware recursive least squares (DQA-RLS) algorithm that can learn parameters in an energy-efficient fashion using signals quantized with few bits while requiring a low computational cost. Numerical results assess the DQA-RLS algorithm against existing techniques for a distributed parameter estimation task where IoT devices operate in a peer-to-peer mode.
翻訳日:2021-05-01 04:38:02 公開日:2020-12-20
# 動的不均一グラフニューラルネットワークによる疑わしい大量登録検出

Suspicious Massive Registration Detection via Dynamic Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2012.10831v1 )

ライセンス: Link先を確認
Susie Xi Rao, Shuai Zhang, Zhichao Han, Zitao Zhang, Wei Min, Mo Cheng, Yinan Shan, Yang Zhao, Ce Zhang(参考訳) 大規模なアカウント登録は、eコマース企業のリスク管理、特に短期間で登録数が急増した場合の懸念を招いた。 これらの登録を継続的に監視し、発生する可能性のある損失を最小限に抑えるためには、大規模な登録の検出とリスクの予測が必要である。 本稿では,疑わしい大規模登録(dhgreg)をキャプチャする動的ヘテロジニアスグラフニューラルネットワークフレームワークを提案する。 まず,構造的部分グラフと時間的部分グラフからなる登録データから動的不均一グラフを構築する。 そして、疑わしい/良心的なアカウントを予測する効率的なアーキテクチャを設計する。 提案モデルはベースラインモデルより優れ,実世界のデータセットから構築した動的不均一グラフの処理に計算効率が高い。 実際には、DHGRegフレームワークは、早期に不審な登録行動を検出するのに役立つだろう。

Massive account registration has raised concerns on risk management in e-commerce companies, especially when registration increases rapidly within a short time frame. To monitor these registrations constantly and minimize the potential loss they might incur, detecting massive registration and predicting their riskiness are necessary. In this paper, we propose a Dynamic Heterogeneous Graph Neural Network framework to capture suspicious massive registrations (DHGReg). We first construct a dynamic heterogeneous graph from the registration data, which is composed of a structural subgraph and a temporal subgraph. Then, we design an efficient architecture to predict suspicious/benign accounts. Our proposed model outperforms the baseline models and is computationally efficient in processing a dynamic heterogeneous graph constructed from a real-world dataset. In practice, the DHGReg framework would benefit the detection of suspicious registration behaviors at an early stage.
翻訳日:2021-05-01 04:37:44 公開日:2020-12-20
# デジタル製作のためのパラメータ同定:ガウス過程学習アプローチ

Parameter Identification for Digital Fabrication: A Gaussian Process Learning Approach ( http://arxiv.org/abs/2012.11022v1 )

ライセンス: Link先を確認
Yvonne R. St\"urz, Mohammad Khosravi, Roy S. Smith(参考訳) 張力のあるケーブルネットは、薄いコンクリートシェル構造のような軽量建築要素の効率的な構築を支援する構造として使用できる。 後者の重要な機械的特性を保証するため, 張力のあるケーブルネット形状と目標形状とのずれに対する耐性は, 極めて密接である。 そのため、工事現場でフォームを調整する必要がある。 モデルに基づく最適化手法を採用するためには,ケーブルネットシステムの重要な不確実性パラメータの正確な同定が必要である。 本稿では,ガウス過程の回帰を用いて,ケーブル網形状を不確実なパラメータにマッピングする関数を学習する。 従来の提案手法とは対照的に,本手法ではケーブルネットモデルパラメータの同定に単一形状の計測しか必要としない。 建設現場のケーブルネット形状の計測は非常に高価であるため、これは有益である。 ガウス過程のトレーニングでは、シミュレーションされたデータは凸プログラミングによって効率的に計算される。 提案手法の有効性とパラメータの正確な同定がケーブルネットの形状に及ぼす影響を, 屋上構造物の4分の1の試作実験で実証した。

Tensioned cable nets can be used as supporting structures for the efficient construction of lightweight building elements, such as thin concrete shell structures. To guarantee important mechanical properties of the latter, the tolerances on deviations of the tensioned cable net geometry from the desired target form are very tight. Therefore, the form needs to be readjusted on the construction site. In order to employ model-based optimization techniques, the precise identification of important uncertain model parameters of the cable net system is required. This paper proposes the use of Gaussian process regression to learn the function that maps the cable net geometry to the uncertain parameters. In contrast to previously proposed methods, this approach requires only a single form measurement for the identification of the cable net model parameters. This is beneficial since measurements of the cable net form on the construction site are very expensive. For the training of the Gaussian processes, simulated data is efficiently computed via convex programming. The effectiveness of the proposed method and the impact of the precise identification of the parameters on the form of the cable net are demonstrated in numerical experiments on a quarter-scale prototype of a roof structure.
翻訳日:2021-05-01 04:37:32 公開日:2020-12-20