このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210803となっている論文です。

PDF登録状況(公開日: 20210803)

TitleAuthorsAbstract論文公表日・翻訳日
# ミリ波ネットワークにおけるチャネルチャート型IoTローカライゼーションのための半教師付き学習

Semi-Supervised Learning for Channel Charting-Aided IoT Localization in Millimeter Wave Networks ( http://arxiv.org/abs/2108.08241v1 )

ライセンス: Link先を確認
Qianqian Zhang and Walid Saad(参考訳) 本稿では,ミリ波ネットワークにおけるチャネルチャート(CC)支援の新たな枠組みを提案する。 特に,異なる基地局から受信したマルチパスチャネル状態情報(CSI)に基づいて,無線ユーザ機器(UE)の3次元位置を推定するために,畳み込みオートエンコーダモデルを提案する。 無線測位マップを学習し、各UEの相対位置を捉えるために、物理空間内の隣接するUEがチャネルチャートに近づき続けるように、オートエンコーダベースのチャネルチャートを教師なしで構築する。 次に、チャネルチャートモデルを半教師付きフレームワークに拡張し、オートエンコーダをエンコーダとデコーダの2つのコンポーネントに分割し、各コンポーネントを個別に最適化し、ラベル付きCSIデータセットと関連する位置情報を用いて位置決め精度を向上させる。 シミュレーションの結果,提案したCC支援半教師付きローカライゼーションは,既存の教師付き位置決めや従来の教師なしCCアプローチと比較して精度が高いことがわかった。

In this paper, a novel framework is proposed for channel charting (CC)-aided localization in millimeter wave networks. In particular, a convolutional autoencoder model is proposed to estimate the three-dimensional location of wireless user equipment (UE), based on multipath channel state information (CSI), received by different base stations. In order to learn the radio-geometry map and capture the relative position of each UE, an autoencoder-based channel chart is constructed in an unsupervised manner, such that neighboring UEs in the physical space will remain close in the channel chart. Next, the channel charting model is extended to a semi-supervised framework, where the autoencoder is divided into two components: an encoder and a decoder, and each component is optimized individually, using the labeled CSI dataset with associated location information, to further improve positioning accuracy. Simulation results show that the proposed CC-aided semi-supervised localization yields a higher accuracy, compared with existing supervised positioning and conventional unsupervised CC approaches.
翻訳日:2021-08-22 14:36:34 公開日:2021-08-03
# シミュレーションによるマルチモーダル言語学習の一般化

Generalization in Multimodal Language Learning from Simulation ( http://arxiv.org/abs/2108.02319v1 )

ライセンス: Link先を確認
Aaron Eisermann, Jae Hee Lee, Cornelius Weber, Stefan Wermter(参考訳) ニューラルネットワークは強力な関数近似器であり、ターゲット分布から引き出されたサンプルのサブセットから高次元の特徴分布をモデル化することができる。 当然、ターゲット関数の限界内で一般化するが、明示的に学習された機能空間の外部では一般化できないことが多い。 したがって、ニューラルネットワークベースのアーキテクチャが、体系的な推論のためにどのようにデプロイされるかは、オープンな研究トピックである。 多くの研究は一般化が不十分な証拠を示しているが、しばしば抽象データを扱うか、単一チャネルの入力に限定されている。 しかし、人間は複数の感覚的モダリティを組み合わせることで学習し、相互作用する。 マルチモーダル設定における合成一般化を検討するために,マルチモーダル入力列を持つ拡張可能なデータセットをシミュレーションから生成する。 教師付き連続環境下で学習した最小限のLSTMネットワークにおいて,基礎となるトレーニングデータ分布が構成一般化に与える影響について検討する。 構成一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善される。 さらに、純視覚モデルが一般化に苦しむ設定において、多モード性は構成一般化を強く改善する。

Neural networks can be powerful function approximators, which are able to model high-dimensional feature distributions from a subset of examples drawn from the target distribution. Naturally, they perform well at generalizing within the limits of their target function, but they often fail to generalize outside of the explicitly learned feature space. It is therefore an open research topic whether and how neural network-based architectures can be deployed for systematic reasoning. Many studies have shown evidence for poor generalization, but they often work with abstract data or are limited to single-channel input. Humans, however, learn and interact through a combination of multiple sensory modalities, and rarely rely on just one. To investigate compositional generalization in a multimodal setting, we generate an extensible dataset with multimodal input sequences from simulation. We investigate the influence of the underlying training data distribution on compostional generalization in a minimal LSTM-based network trained in a supervised, time continuous setting. We find compositional generalization to fail in simple setups while improving with the number of objects, actions, and particularly with a lot of color overlaps between objects. Furthermore, multimodality strongly improves compositional generalization in settings where a pure vision model struggles to generalize.
翻訳日:2021-08-06 14:53:36 公開日:2021-08-03
# SINGA-Easy: マルチモーダル分析のための使いやすいフレームワーク

SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis ( http://arxiv.org/abs/2108.02572v1 )

ライセンス: Link先を確認
Naili Xing, Sai Ho Yeung, Chenghao Cai, Teck Khim Ng, Wei Wang, Kaiyuan Yang, Nan Yang, Meihui Zhang, Gang Chen, Beng Chin Ooi(参考訳) ディープラーニングは、画像分類、自然言語処理、マルチモーダルデータ分析など、幅広いマルチメディアアプリケーションにおいて大きな成功を収めている。 近年,モデルの設計やトレーニング,推論のデプロイを行うための高度なプログラミングインターフェースを提供する,多くのディープラーニングフレームワークが開発されている。 しかし、既存のほとんどのフレームワークで効率的なエンドツーエンドのマルチメディアアプリケーションを構築するのは難しい。 具体的には、ユーザビリティの観点からは、非専門家にはディープラーニングモデルの実装、マシンラーニングパイプライン全体の適切な設定の取得、モデルとデータセットの管理、外部データソースの活用が求められている。 さらに、適応性の観点からは、実際のサービス負荷が常に変動し、変動するワークロードを扱うためにハードウェアリソースをスケールすることが通常不可能であるため、弾性計算ソリューションが必要とされる。 これらの課題に対処するために、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークであるSINGA-Easyを紹介した。 マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。 我々は,Apache SINGA上にSINGA-Easyを実装し,機械学習ライフサイクル全体の実演を行う。

Deep learning has achieved great success in a wide spectrum of multimedia applications such as image classification, natural language processing and multimodal data analysis. Recent years have seen the development of many deep learning frameworks that provide a high-level programming interface for users to design models, conduct training and deploy inference. However, it remains challenging to build an efficient end-to-end multimedia application with most existing frameworks. Specifically, in terms of usability, it is demanding for non-experts to implement deep learning models, obtain the right settings for the entire machine learning pipeline, manage models and datasets, and exploit external data sources all together. Further, in terms of adaptability, elastic computation solutions are much needed as the actual serving workload fluctuates constantly, and scaling the hardware resources to handle the fluctuating workload is typically infeasible. To address these challenges, we introduce SINGA-Easy, a new deep learning framework that provides distributed hyper-parameter tuning at the training stage, dynamic computational cost control at the inference stage, and intuitive user interactions with multimedia contents facilitated by model explanation. Our experiments on the training and deployment of multi-modality data analysis applications show that the framework is both usable and adaptable to dynamic inference loads. We implement SINGA-Easy on top of Apache SINGA and demonstrate our system with the entire machine learning life cycle.
翻訳日:2021-08-06 14:52:59 公開日:2021-08-03
# ニューラルネットワーク-QFT対応のための非摂動的再正規化

Nonperturbative renormalization for the neural network-QFT correspondence ( http://arxiv.org/abs/2108.01403v1 )

ライセンス: Link先を確認
Harold Erbin, Vincent Lahoche and Dine Ousmane Samary(参考訳) 近年のarXiv:2008.08601で、ハルバーソン、マイティ、ストーナーはウィルソン効果場の理論の観点からニューラルネットワークの説明を提案した。 無限幅の極限は自由場の理論に写像され、有限の$N$補正は相互作用(作用における非ガウス項)によって考慮される。 本稿では,この対応の2つの関連点について検討する。 まず、この文脈における局所性とパワーカウントの概念について述べる。 実際、これらの通常の時空の概念はニューラルネットワークには当てはまらない(入力は任意である)が、再正規化群は局所性とスケーリングの自然な概念を提供する。 さらに、例えば、データ成分は置換対称性を持っていないかもしれないという微妙な点についてもコメントしている: その場合、確率テンソル場理論は自然な一般化をもたらすことができる。 第2に、ウェッテリッチ・モリス方程式を用いた非摂動再正規化群の解析を提供することにより、arxiv:2008.08601から摂動ウィルソン再正規化を改善する。 通常の非摂動的RG分析との重要な違いは、効果的な(IR)2点関数のみが知られており、注意を要することである。 我々の目的は、大きな幅制限(すなわちガウス限界から遠く離れた)を超えて、非摂動的な方法でニューラルネットワークの動作を研究するのに有用なフォーマリズムを提供することである。 解析の結果,ニューラルネットワークの重み分布の標準偏差の変化は,ネットワーク空間における再正規化流れとして解釈できることがわかった。 我々は、不変カーネルの翻訳に焦点を当て、予備的な数値結果を提供する。

In a recent work arXiv:2008.08601, Halverson, Maiti and Stoner proposed a description of neural networks in terms of a Wilsonian effective field theory. The infinite-width limit is mapped to a free field theory, while finite $N$ corrections are taken into account by interactions (non-Gaussian terms in the action). In this paper, we study two related aspects of this correspondence. First, we comment on the concepts of locality and power-counting in this context. Indeed, these usual space-time notions may not hold for neural networks (since inputs can be arbitrary), however, the renormalization group provides natural notions of locality and scaling. Moreover, we comment on several subtleties, for example, that data components may not have a permutation symmetry: in that case, we argue that random tensor field theories could provide a natural generalization. Second, we improve the perturbative Wilsonian renormalization from arXiv:2008.08601 by providing an analysis in terms of the nonperturbative renormalization group using the Wetterich-Morris equation. An important difference with usual nonperturbative RG analysis is that only the effective (IR) 2-point function is known, which requires setting the problem with care. Our aim is to provide a useful formalism to investigate neural networks behavior beyond the large-width limit (i.e.~far from Gaussian limit) in a nonperturbative fashion. A major result of our analysis is that changing the standard deviation of the neural network weight distribution can be interpreted as a renormalization flow in the space of networks. We focus on translations invariant kernels and provide preliminary numerical results.
翻訳日:2021-08-06 14:46:52 公開日:2021-08-03
# (参考訳) 公開つぶやきの機械学習モデルを用いた米国大都市圏におけるZip Code-Level Vaccine Hesitancyの予測 [全文訳有]

Predicting Zip Code-Level Vaccine Hesitancy in US Metropolitan Areas Using Machine Learning Models on Public Tweets ( http://arxiv.org/abs/2108.01699v1 )

ライセンス: CC BY 4.0
Sara Melotte and Mayank Kejriwal(参考訳) 米国での新型コロナウイルスワクチンの最近の増加と普及は奨励されているが、成人人口の様々な地理的・人口的集団において、重要なワクチンヘシタシーが続いている。 ギャラップが過去1年間に実施した調査は、ワクチンの耐久性を決定するのに有用であるが、実行には高価であり、リアルタイムデータを提供しない。 同時に、ソーシャルメディアの出現は、公開されている情報源から機械学習モデルと社会経済的(およびその他の)機能を使用することで、ワクチンのヒューシタンシー信号を(zipコードのような)集約レベルで得ることができることを示唆している。 現時点では、そのような取り組みが実現可能かどうか、また、一定の事前しか使用していないベースラインと比較してどうかは明らかではない。 また,実データを用いた適切な方法論や評価結果も提示されていない。 本稿では,昨年収集した公開twitterデータを用いて,このような方法論と実験研究について述べる。 我々のゴールは、新しい機械学習アルゴリズムを考案することではなく、既存のモデルと確立されたモデルを比較フレームワークで評価することである。 最良モデルが一定の事前性能を大幅に上回っており、オープンソースツールを使って設定できることを示す。

Although the recent rise and uptake of COVID-19 vaccines in the United States has been encouraging, there continues to be significant vaccine hesitancy in various geographic and demographic clusters of the adult population. Surveys, such as the one conducted by Gallup over the past year, can be useful in determining vaccine hesitancy, but can be expensive to conduct and do not provide real-time data. At the same time, the advent of social media suggests that it may be possible to get vaccine hesitancy signals at an aggregate level (such as at the level of zip codes) by using machine learning models and socioeconomic (and other) features from publicly available sources. It is an open question at present whether such an endeavor is feasible, and how it compares to baselines that only use constant priors. To our knowledge, a proper methodology and evaluation results using real data has also not been presented. In this article, we present such a methodology and experimental study, using publicly available Twitter data collected over the last year. Our goal is not to devise novel machine learning algorithms, but to evaluate existing and established models in a comparative framework. We show that the best models significantly outperform constant priors, and can be set up using open-source tools.
翻訳日:2021-08-06 01:25:09 公開日:2021-08-03
# (参考訳) コントラスト学習による音楽演奏評価の改善 [全文訳有]

Improving Music Performance Assessment with Contrastive Learning ( http://arxiv.org/abs/2108.01711v1 )

ライセンス: CC BY 4.0
Pavan Seshadri, Alexander Lerch(参考訳) これまで,MPA(Objective Music Performance Assessment)に対するいくつかの自動的アプローチが提案されてきたが,既存のシステムでは,専門家の判断と同等の精度で評価を確実に予測することはできない。 本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。 コントラスト学習は、複数のクラスを別々にクラスタリングできる構造化潜在空間を学ぶために、表現学習において広く使われる手法である。 画像に基づく分類問題に対する技術結果の状態を提示することが示されている。 本稿では,畳み込みニューラルネットワークに適用した回帰タスクに適した重み付きコントラスト損失を導入し,比較損失がmpaの回帰タスクの性能向上をもたらすことを示す。 提案手法は,ニューラルネットワークの潜在空間内によりよいクラスクラスタを作成することで,mpa回帰タスクのsoma性能と一致し,その性能を上回ることができることを示す。

Several automatic approaches for objective music performance assessment (MPA) have been proposed in the past, however, existing systems are not yet capable of reliably predicting ratings with the same accuracy as professional judges. This study investigates contrastive learning as a potential method to improve existing MPA systems. Contrastive learning is a widely used technique in representation learning to learn a structured latent space capable of separately clustering multiple classes. It has been shown to produce state of the art results for image-based classification problems. We introduce a weighted contrastive loss suitable for regression tasks applied to a convolutional neural network and show that contrastive loss results in performance gains in regression tasks for MPA. Our results show that contrastive-based methods are able to match and exceed SoTA performance for MPA regression tasks by creating better class clusters within the latent space of the neural networks.
翻訳日:2021-08-06 01:09:51 公開日:2021-08-03
# (参考訳) 大規模シナリオにおける分散型インセンティブサリエンスの適用 ニューラルネットワークを用いた表現学習手法 [全文訳有]

Approximating Attributed Incentive Salience In Large Scale Scenarios. A Representation Learning Approach Based on Artificial Neural Networks ( http://arxiv.org/abs/2108.01724v1 )

ライセンス: CC BY 4.0
Valerio Bonometti, Mathieu J. Ruiz, Anders Drachen, Alex Wade(参考訳) インセンティブ・サリエンス帰属(Incentive salience attribution)は、潜在的な報酬や行動との関連性を示す心理学的プロセスとして理解することができる。 日々の行動を導く動機づけプロセスの重要な要素であるにもかかわらず、自然主義的な文脈での研究は単純ではない。 本稿では,大量の行動データが利用可能だが,厳密な実験制御ができない状況において,この過程によって生じる潜在状態を近似する人工ニューラルネットワーク(anns)に基づく手法を提案する。 インセンティブ・サリエンス属性の理論的および計算的な説明から得られた知識を活用して,大規模(N>3 \times 10^6$)長大なデータセットにおいて,個人と一連のビデオゲームの相互作用の持続時間と強度を推定するANNを設計した。 モデル比較と検査により,本手法は競合する手法よりも優れており,属性付インセンティブ・サリエンスの機能をよく近似した表現を生成する。 本研究は理論・計算の枠組みを参考にし,提案手法が大規模行動研究における帰結的インセンティブ・サリエンスを推定するための第一歩となる可能性を示唆する。

Incentive salience attribution can be understood as a psychobiological process ascribing relevance to potentially rewarding objects and actions. Despite being an important component of the motivational process guiding our everyday behaviour its study in naturalistic contexts is not straightforward. Here we propose a methodology based on artificial neural networks (ANNs) for approximating latent states produced by this process in situations where large volumes of behavioural data are available but no strict experimental control is possible. Leveraging knowledge derived from theoretical and computational accounts of incentive salience attribution we designed an ANN for estimating duration and intensity of future interactions between individuals and a series of video games in a large-scale ($N> 3 \times 10^6$) longitudinal dataset. Through model comparison and inspection we show that our approach outperforms competing ones while also generating a representation that well approximate some of the functions of attributed incentive salience. We discuss our findings with reference to the adopted theoretical and computational frameworks and suggest how our methodology could be an initial step for estimating attributed incentive salience in large scale behavioural studies.
翻訳日:2021-08-06 00:56:28 公開日:2021-08-03
# (参考訳) Q-Pain: 痛み管理における社会的バイアス測定データセット [全文訳有]

Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain Management ( http://arxiv.org/abs/2108.01764v1 )

ライセンス: CC BY 4.0
C\'ecile Log\'e, Emily Ross, David Yaw Amoah Dadey, Saahil Jain, Adriel Saporta, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 近年の自然言語処理(NLP)や,特に自動質問応答システム(QA)の進歩は,印象的な言語拡散と社会的偏見を反映する悪習の両方を示している。 そこで本研究では,Q-Painについて紹介する。Q-PainはQAのバイアスを評価するためのデータセットであり,Q-Painは臨床意思決定において最も困難である。 データセットとともに、治療決定を行う際の潜在的なバイアスを測定するために、サンプル実験設計を含む新しい厳格なフレームワークを提案する。 2つの基準質問応答システムであるGPT-2とGPT-3を評価し、交差するレースジェンダーサブグループ間の治療における統計的に有意な差異を見出した結果、医療環境におけるAIによるリスクを再確認し、医療用AIアプリケーションがデプロイされる前に、我々のようなデータセットが安全であることを確認した。

Recent advances in Natural Language Processing (NLP), and specifically automated Question Answering (QA) systems, have demonstrated both impressive linguistic fluency and a pernicious tendency to reflect social biases. In this study, we introduce Q-Pain, a dataset for assessing bias in medical QA in the context of pain management, one of the most challenging forms of clinical decision-making. Along with the dataset, we propose a new, rigorous framework, including a sample experimental design, to measure the potential biases present when making treatment decisions. We demonstrate its use by assessing two reference Question-Answering systems, GPT-2 and GPT-3, and find statistically significant differences in treatment between intersectional race-gender subgroups, thus reaffirming the risks posed by AI in medical settings, and the need for datasets like ours to ensure safety before medical AI applications are deployed.
翻訳日:2021-08-06 00:22:40 公開日:2021-08-03
# (参考訳) エンド・ツー・エンドポリフォニック光音楽認識の実証評価 [全文訳有]

An Empirical Evaluation of End-to-End Polyphonic Optical Music Recognition ( http://arxiv.org/abs/2108.01769v1 )

ライセンス: CC BY 4.0
Sachinda Edirisooriya, Hao-Wen Dong, Julian McAuley, Taylor Berg-Kirkpatrick(参考訳) これまでの研究では、ニューラルアーキテクチャーは高い精度でモノフォニックおよびホモフォニック音楽上で光学音楽認識(OMR)を行うことができることが示されている。 しかし、ピアノと管弦楽の楽譜は多音節をしばしば演奏し、これはタスクに第2次元を加える。 モノフォニック音楽とホモフォニック音楽は、ホモリズム、あるいは単一の音楽リズムを持つと説明できる。 一方、ポリフォニック音楽は、複数のリズミカルなシーケンスまたは声を同時に持つと見なすことができる。 まず,MuseScoreフォーラムで公開されている楽譜からエンドツーエンドの認識に適した大規模多声データセットを作成するワークフローを紹介する。 次に、終端ポリフォニックOMRの2つの新しい定式化を提案し、その1つは問題をマルチタスクバイナリ分類の一種として扱い、もう1つはマルチシーケンス検出として扱う。 エンコーダ-デコーダアーキテクチャと,従来のエンドツーエンドOMRの研究で提案されたイメージエンコーダに基づいて,FragDecoderとRNNDecoderという2つの新しいデコーダモデルを提案する。 最後に、ポリフォニックOMRに対するこれらのエンドツーエンドアプローチの実証的な性能を比較し、新しい最先端性能をマルチシーケンス検出デコーダRNNDecoderと比較する。

Previous work has shown that neural architectures are able to perform optical music recognition (OMR) on monophonic and homophonic music with high accuracy. However, piano and orchestral scores frequently exhibit polyphonic passages, which add a second dimension to the task. Monophonic and homophonic music can be described as homorhythmic, or having a single musical rhythm. Polyphonic music, on the other hand, can be seen as having multiple rhythmic sequences, or voices, concurrently. We first introduce a workflow for creating large-scale polyphonic datasets suitable for end-to-end recognition from sheet music publicly available on the MuseScore forum. We then propose two novel formulations for end-to-end polyphonic OMR -- one treating the problem as a type of multi-task binary classification, and the other treating it as multi-sequence detection. Building upon the encoder-decoder architecture and an image encoder proposed in past work on end-to-end OMR, we propose two novel decoder models -- FlagDecoder and RNNDecoder -- that correspond to the two formulations. Finally, we compare the empirical performance of these end-to-end approaches to polyphonic OMR and observe a new state-of-the-art performance with our multi-sequence detection decoder, RNNDecoder.
翻訳日:2021-08-06 00:05:14 公開日:2021-08-03
# (参考訳) 非凸分解と多様体定式化は低ランク行列最適化においてほぼ同値である

Nonconvex Factorization and Manifold Formulations are Almost Equivalent in Low-rank Matrix Optimization ( http://arxiv.org/abs/2108.01772v1 )

ライセンス: CC BY-SA 4.0
Yuetian Luo and Xudong Li and Anru R. Zhang(参考訳) 本稿では, 広範に研究されている多様体の幾何学的ランドスケープ結合と, 低ランク正半定義(psd)および一般行列最適化における因子化定式化について考察する。 多様体と分解式の間の一階定常点(FOSP)と二階定常点(SOSP)の集合に同値性を確立する。 さらに FOSP においてリーマンおよびユークリッド・ヘッセンのスペクトルにサンドイッチの不等式を与え、ある定式化から別の定式化へより幾何学的性質を移すのに使うことができる。 PSDの場合と一般の場合のランドスケープ接続の類似点と相違点について論じる。 我々の知る限りでは、これは階数制約を扱うための多様体と分解公式の間の最初の幾何学的ランドスケープ接続である。 一般的な低ランク行列最適化では、2つの分解式(非正規化および正規化)のランドスケープ接続も提供される。 これらの幾何学的ランドスケープ接続を適用することで、文学における未解決の課題を解き、位相検索の幾何学的解析、よく条件づけされた低ランク行列最適化、機械学習と信号処理から生じる因子化における正規化の役割において、より強固な結果が得られる。

In this paper, we consider the geometric landscape connection of the widely studied manifold and factorization formulations in low-rank positive semidefinite (PSD) and general matrix optimization. We establish an equivalence on the set of first-order stationary points (FOSPs) and second-order stationary points (SOSPs) between the manifold and the factorization formulations. We further give a sandwich inequality on the spectrum of Riemannian and Euclidean Hessians at FOSPs, which can be used to transfer more geometric properties from one formulation to another. Similarities and differences on the landscape connection under the PSD case and the general case are discussed. To the best of our knowledge, this is the first geometric landscape connection between the manifold and the factorization formulations for handling rank constraints. In the general low-rank matrix optimization, the landscape connection of two factorization formulations (unregularized and regularized ones) is also provided. By applying these geometric landscape connections, we are able to solve unanswered questions in literature and establish stronger results in the applications on geometric analysis of phase retrieval, well-conditioned low-rank matrix optimization, and the role of regularization in factorization arising from machine learning and signal processing.
翻訳日:2021-08-05 23:54:07 公開日:2021-08-03
# (参考訳) armour:視覚トランスフォーマーのための汎用コンパクトセルフアテンション [全文訳有]

Armour: Generalizable Compact Self-Attention for Vision Transformers ( http://arxiv.org/abs/2108.01778v1 )

ライセンス: CC BY 4.0
Lingchuan Meng(参考訳) 注意に基づくトランスフォーマーネットワークは、アプリケーションが自然言語処理からビジョンへと広がるにつれて、有望な可能性を実証している。 しかし、サブクアドラルな注意近似や様々なトレーニング強化といった最近の改善にもかかわらず、通常の注意を用いたコンパクトビジョントランスフォーマーは、convnetのものと比べ、 \textit{accuracy,} \textit{model size}, \textit{and} \textit{throughput} という点で比べれば、まだ不足している。 本稿では,基本かつ高一般化したコンパクトな自己着脱機構を提案する。 提案手法は冗長性を低減し,既存の注意最適化に加えて効率を向上させる。 本稿では,視覚変換器における通常の注意機構と最近の変種の両方に適用可能性を示す。 その結果、我々は同じまたはより良い精度でより小さくより高速なモデルを作成しました。

Attention-based transformer networks have demonstrated promising potential as their applications extend from natural language processing to vision. However, despite the recent improvements, such as sub-quadratic attention approximation and various training enhancements, the compact vision transformers to date using the regular attention still fall short in comparison with its convnet counterparts, in terms of \textit{accuracy,} \textit{model size}, \textit{and} \textit{throughput}. This paper introduces a compact self-attention mechanism that is fundamental and highly generalizable. The proposed method reduces redundancy and improves efficiency on top of the existing attention optimizations. We show its drop-in applicability for both the regular attention mechanism and some most recent variants in vision transformers. As a result, we produced smaller and faster models with the same or better accuracies.
翻訳日:2021-08-05 23:52:53 公開日:2021-08-03
# (参考訳) 弱教師付き位置検出のための弱教師付き前景学習 [全文訳有]

Weakly Supervised Foreground Learning for Weakly Supervised Localization and Detection ( http://arxiv.org/abs/2108.01785v1 )

ライセンス: CC BY 4.0
Chen-Lin Zhang, Yin Li, Jianxin Wu(参考訳) 現代のディープラーニングモデルは、大量の正確な注釈データを必要とするため、満足するのは難しい。 したがって、弱教師付きオブジェクトローカライゼーション~(WSOL)と検出〜(WSOD)を含む弱い教師付きタスクは、コンピュータビジョンコミュニティで最近注目を集めている。 本稿では,WSOL と WSOD のどちらも,基礎となる前景マスクが利用可能であれば大幅に改善可能であることを示すことにより,弱教師付き前景学習(WSFL)タスクのモチベーションと提案を行う。 さらに,疑似ボックスを生成し,前景マスクを学習し,ローカライズアノテーションを必要としない,計算コストの低い完全WSFLパイプラインを提案する。 我々は,WSFLモデルにより予測される前景マスクを用いて,WSOLのCUBにおける72.97%,WSODにおけるVOC07の平均精度55.7%を実現し,両タスクの新たな最先端性を確立する。 当社のWSFLモデルも優れた転送能力を示している。

Modern deep learning models require large amounts of accurately annotated data, which is often difficult to satisfy. Hence, weakly supervised tasks, including weakly supervised object localization~(WSOL) and detection~(WSOD), have recently received attention in the computer vision community. In this paper, we motivate and propose the weakly supervised foreground learning (WSFL) task by showing that both WSOL and WSOD can be greatly improved if groundtruth foreground masks are available. More importantly, we propose a complete WSFL pipeline with low computational cost, which generates pseudo boxes, learns foreground masks, and does not need any localization annotations. With the help of foreground masks predicted by our WSFL model, we achieve 72.97% correct localization accuracy on CUB for WSOL, and 55.7% mean average precision on VOC07 for WSOD, thereby establish new state-of-the-art for both tasks. Our WSFL model also shows excellent transfer ability.
翻訳日:2021-08-05 23:42:23 公開日:2021-08-03
# 入力空間変換によるマルチモーダル目標知覚分類のためのBERTのエクスプロイト

Exploiting BERT For Multimodal Target SentimentClassificat ion Through Input Space Translation ( http://arxiv.org/abs/2108.01682v1 )

ライセンス: Link先を確認
Zaid Khan and Yun Fu(参考訳) マルチモーダル・ターゲット/アスペクト感情分類は、マルチモーダル感情分析とアスペクト/ターゲット感情分類を組み合わせる。 タスクの目標は、視覚と言語を組み合わせて、文中の対象エンティティに対する感情を理解することである。 Twitterは、本質的にマルチモーダルであり、感情的であり、現実世界のイベントに影響を与えるため、このタスクに理想的な設定である。 しかし、マルチモーダルなつぶやきは短く、複雑で、おそらく無関係な画像を伴う。 本稿では,オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。 次に、この翻訳を利用して、言語モデルにマルチモーダル情報を提供する補助文を構築する。 我々のアプローチは言語モデルで利用可能なテキスト量を増やし、複雑な画像のオブジェクトレベルの情報を蒸留する。 マルチモーダルデータを受け入れる言語モデルの内部を変更することなく,2つのマルチモーダルtwitterデータセットで最先端のパフォーマンスを実現し,翻訳の有効性を実証した。 さらに、つぶやきに適用した場合のアスペクト感情分析に対する一般的なアプローチの失敗モードについて説明する。 私たちのコードは、textcolor{blue}{\url{https://github.com/c odezakh/exploiting-B ERT-thru-translation }}で利用可能です。

Multimodal target/aspect sentiment classification combines multimodal sentiment analysis and aspect/target sentiment classification. The goal of the task is to combine vision and language to understand the sentiment towards a target entity in a sentence. Twitter is an ideal setting for the task because it is inherently multimodal, highly emotional, and affects real world events. However, multimodal tweets are short and accompanied by complex, possibly irrelevant images. We introduce a two-stream model that translates images in input space using an object-aware transformer followed by a single-pass non-autoregressive text generation approach. We then leverage the translation to construct an auxiliary sentence that provides multimodal information to a language model. Our approach increases the amount of text available to the language model and distills the object-level information in complex images. We achieve state-of-the-art performance on two multimodal Twitter datasets without modifying the internals of the language model to accept multimodal data, demonstrating the effectiveness of our translation. In addition, we explain a failure mode of a popular approach for aspect sentiment analysis when applied to tweets. Our code is available at \textcolor{blue}{\url{https://github.com/c odezakh/exploiting-B ERT-thru-translation }}.
翻訳日:2021-08-05 13:26:45 公開日:2021-08-03
# 音声機械学習パイプラインの悪用事例への適用性について

On the Exploitability of Audio Machine Learning Pipelines to Surreptitious Adversarial Examples ( http://arxiv.org/abs/2108.02010v1 )

ライセンス: Link先を確認
Adelin Travers, Lorna Licollari, Guanghan Wang, Varun Chandrasekaran, Adam Dziedzic, David Lie, Nicolas Papernot(参考訳) 機械学習(ML)モデルは、敵の例に弱いことが知られている。 MLの音声生体認証への応用は例外ではない。 しかし、ほとんどの研究は、オーディオサンプルしか聴けない限定的なディフェンダーをターゲットにしているため、現実のシステムにおけるオーディオ敵の例の影響はよく分かっていない。 攻撃の検知可能性と人間の知覚可能性とを融合させる研究は、人間が対応する良性サンプルと区別できない、知覚できない敵の例を作成する方法に焦点を当てている。 この観点は2つの理由により粗いと我々は主張する。 受聴者の訓練、機器、音量、耳の感度、背景雑音の種類、そして2.3のバリエーションを包含する実験プロセスが必要となる。 現実的なディフェンダーが利用するパイプラインベースの検出ヒントは無視する。 この結果は、知識に富んだ守備兵の存在において効果のない敵の例をもたらす。 したがって、敵は、人間に当てはまるような音声サンプルしか必要としない。 そこで本研究では,人間とパイプラインの制御を回避した新たな攻撃方法を提案する。 ホワイトボックス設定では、このクラスを複数ステージの同時最適化攻撃でインスタンス化する。 アマゾン・メカニカル・トルコのユーザー・スタディを用いて、この攻撃は従来の攻撃よりも過酷な音声サンプルを発生させることがわかりました。 最後に、過度な敵の例がブラックボックス設定で開発が難しいことを示します。

Machine learning (ML) models are known to be vulnerable to adversarial examples. Applications of ML to voice biometrics authentication are no exception. Yet, the implications of audio adversarial examples on these real-world systems remain poorly understood given that most research targets limited defenders who can only listen to the audio samples. Conflating detectability of an attack with human perceptibility, research has focused on methods that aim to produce imperceptible adversarial examples which humans cannot distinguish from the corresponding benign samples. We argue that this perspective is coarse for two reasons: 1. Imperceptibility is impossible to verify; it would require an experimental process that encompasses variations in listener training, equipment, volume, ear sensitivity, types of background noise etc, and 2. It disregards pipeline-based detection clues that realistic defenders leverage. This results in adversarial examples that are ineffective in the presence of knowledgeable defenders. Thus, an adversary only needs an audio sample to be plausible to a human. We thus introduce surreptitious adversarial examples, a new class of attacks that evades both human and pipeline controls. In the white-box setting, we instantiate this class with a joint, multi-stage optimization attack. Using an Amazon Mechanical Turk user study, we show that this attack produces audio samples that are more surreptitious than previous attacks that aim solely for imperceptibility. Lastly we show that surreptitious adversarial examples are challenging to develop in the black-box setting.
翻訳日:2021-08-05 13:24:05 公開日:2021-08-03
# ducn:医療診断のためのデュアルチャイルドネットワークとcovid-19に対する類似のケースレコメンデーション

DuCN: Dual-children Network for Medical Diagnosis and Similar Case Recommendation towards COVID-19 ( http://arxiv.org/abs/2108.01997v1 )

ライセンス: Link先を確認
Chengtao Peng, Yunfei Long, Senhua Zhu, Dandan Tu, Bin Li(参考訳) 新型コロナウイルス感染症(COVID-19)の早期発見は、患者をタイムリーに治療し、治療率を高めるのに役立つ。 本研究では,この流行を抑えるために,新たな深層学習に基づく検出と類似事例推薦ネットワークを提案する。 提案するネットワークは2段階あり,第1段階は肺領域の分節段階であり,第2段階は検出・推薦段階である。 本枠組みでは,第2段階において,事前に訓練したResNet-18をベースとしたデュアルチャイルドレンネットワーク(DuCN)を開発し,疾患の診断と同様のケースレコメンデーションを実現する。 さらに,検出を支援するために三重項損失と肺内距離マップを用い,2つの画像の小さな違いを取り入れ,診断精度の向上に寄与する。 確認された各症例について、同様の症例を放射線科医に診断・治療基準を提供する。 我々は、大規模な公開データセット(CC-CCII)で実験を行い、提案モデルと最先端のCOVID-19検出手法を比較した。 その結果,本モデルでは有望な臨床成績が得られた。

Early detection of the coronavirus disease 2019 (COVID-19) helps to treat patients timely and increase the cure rate, thus further suppressing the spread of the disease. In this study, we propose a novel deep learning based detection and similar case recommendation network to help control the epidemic. Our proposed network contains two stages: the first one is a lung region segmentation step and is used to exclude irrelevant factors, and the second is a detection and recommendation stage. Under this framework, in the second stage, we develop a dual-children network (DuCN) based on a pre-trained ResNet-18 to simultaneously realize the disease diagnosis and similar case recommendation. Besides, we employ triplet loss and intrapulmonary distance maps to assist the detection, which helps incorporate tiny differences between two images and is conducive to improving the diagnostic accuracy. For each confirmed COVID-19 case, we give similar cases to provide radiologists with diagnosis and treatment references. We conduct experiments on a large publicly available dataset (CC-CCII) and compare the proposed model with state-of-the-art COVID-19 detection methods. The results show that our proposed model achieves a promising clinical performance.
翻訳日:2021-08-05 13:22:01 公開日:2021-08-03
# プログレッシブサンプリングを用いたビジョントランス

Vision Transformer with Progressive Sampling ( http://arxiv.org/abs/2108.01684v1 )

ライセンス: Link先を確認
Xiaoyu Yue, Shuyang Sun, Zhanghui Kuang, Meng Wei, Philip Torr, Wayne Zhang, Dahua Lin(参考訳) 近年,基本的なコンピュータビジョンタスクに強力なグローバルリレーショナルモデリング能力を持つトランスフォーマーが導入された。 典型的な例として、ViT(Vision Transformer)は画像分類に純粋なトランスフォーマーアーキテクチャを適用し、画像を固定長のトークンに分割し、これらのトークン間の関係を学習するためにトランスフォーマーを使用する。 しかし、そのような単純トークン化は、オブジェクト構造を分解し、背景のような興味のない領域にグリッドを割り当て、干渉信号を導入する。 上記の問題を緩和するため,本論文では,識別領域を特定するための反復的かつ漸進的なサンプリング戦略を提案する。 各イテレーションにおいて、現在のサンプリングステップの埋め込みを変圧器エンコーダ層に供給し、サンプリングオフセットのグループを予測して次のステップのサンプリングロケーションを更新する。 プログレッシブサンプリングは微分可能である。 Vision Transformerと組み合わせると、取得したPS-ViTネットワークは、どこを見るべきかを適応的に学習することができる。 提案したPS-ViTは効率的かつ効率的である。 ImageNetでスクラッチからトレーニングすると、PS-ViTはベニラ ViT よりも3.8%高い精度で、パラメータが約4ドル、FLOPが約10ドルである。 コードはhttps://github.com/y uexy/PS-ViT.comで入手できる。

Transformers with powerful global relation modeling abilities have been introduced to fundamental computer vision tasks recently. As a typical example, the Vision Transformer (ViT) directly applies a pure transformer architecture on image classification, by simply splitting images into tokens with a fixed length, and employing transformers to learn relations between these tokens. However, such naive tokenization could destruct object structures, assign grids to uninterested regions such as background, and introduce interference signals. To mitigate the above issues, in this paper, we propose an iterative and progressive sampling strategy to locate discriminative regions. At each iteration, embeddings of the current sampling step are fed into a transformer encoder layer, and a group of sampling offsets is predicted to update the sampling locations for the next step. The progressive sampling is differentiable. When combined with the Vision Transformer, the obtained PS-ViT network can adaptively learn where to look. The proposed PS-ViT is both effective and efficient. When trained from scratch on ImageNet, PS-ViT performs 3.8% higher than the vanilla ViT in terms of top-1 accuracy with about $4\times$ fewer parameters and $10\times$ fewer FLOPs. Code is available at https://github.com/y uexy/PS-ViT.
翻訳日:2021-08-05 13:20:40 公開日:2021-08-03
# Solo-learn:視覚表現学習のための自己教師型手法のライブラリ

Solo-learn: A Library of Self-supervised Methods for Visual Representation Learning ( http://arxiv.org/abs/2108.01775v1 )

ライセンス: Link先を確認
Victor G. Turrisi da Costa and Enrico Fini and Moin Nabi and Nicu Sebe and Elisa Ricci(参考訳) 本稿では,視覚表現学習のための自己教師あり手法のライブラリであるsolo-learnを提案する。 Pythonで実装されたこのライブラリは、PytorchとPytorch Lightningを使用して、分散トレーニングパイプラインと混合精度、Nvidia DALIによる高速なデータ読み込み、より優れたプロトタイピングのためのオンライン線形評価、その他多くのトレーニングトリックを特徴とする、研究と産業のニーズの両方に適合する。 私たちの目標は,ssl(self-supervised learning)メソッドを多用し,コミュニティによる拡張や微調整が容易な,使いやすいライブラリを提供することです。 solo-learnは、安価で小さなインフラで大予算のSSLソリューションを利用するための道を開き、SSLを誰でもアクセスできるようにすることで民主化しようとしている。 ソースコードはhttps://github.com/v turrisi/solo-learnで入手できる。

This paper presents solo-learn, a library of self-supervised methods for visual representation learning. Implemented in Python, using Pytorch and Pytorch lightning, the library fits both research and industry needs by featuring distributed training pipelines with mixed-precision, faster data loading via Nvidia DALI, online linear evaluation for better prototyping, and many additional training tricks. Our goal is to provide an easy-to-use library comprising a large amount of Self-supervised Learning (SSL) methods, that can be easily extended and fine-tuned by the community. solo-learn opens up avenues for exploiting large-budget SSL solutions on inexpensive smaller infrastructures and seeks to democratize SSL by making it accessible to all. The source code is available at https://github.com/v turrisi/solo-learn.
翻訳日:2021-08-05 13:20:17 公開日:2021-08-03
# フェアヘイト音声検出のための対物生成の改善

Improving Counterfactual Generation for Fair Hate Speech Detection ( http://arxiv.org/abs/2108.01721v1 )

ライセンス: Link先を確認
Aida Mostafazadeh Davani, Ali Omrani, Brendan Kennedy, Mohammad Atari, Xiang Ren, Morteza Dehghani(参考訳) バイアス緩和アプローチは、ソーシャルグループトークン(SGT)のようなデータのセンシティブな特徴に対するモデルの依存を減らす。 しかし、ヘイトスピーチ検出においては、各SGTに特有のステレオタイプ言語を含むことができるため、モデル予測の等化は、対象とする社会グループ間の重要な違いを無視する可能性がある。 ここでは、各SGTに関する特定の言語を考慮に入れるために、SGTの変更によって生成される対実的公正性と、対実的公正性の等化に依存する。 提案手法は,SGTを交換可能な文脈内でのみ等しく扱うために,文の類似度(事前学習言語モデルによる)を評価する。 本研究では,各インスタンスの限定された反事実集合に対する結果の等化にロジットペアを適用することにより,ヘイトスピーチ検出におけるモデル性能を保ちながら,公正度を向上する。

Bias mitigation approaches reduce models' dependence on sensitive features of data, such as social group tokens (SGTs), resulting in equal predictions across the sensitive features. In hate speech detection, however, equalizing model predictions may ignore important differences among targeted social groups, as hate speech can contain stereotypical language specific to each SGT. Here, to take the specific language about each SGT into account, we rely on counterfactual fairness and equalize predictions among counterfactuals, generated by changing the SGTs. Our method evaluates the similarity in sentence likelihoods (via pre-trained language models) among counterfactuals, to treat SGTs equally only within interchangeable contexts. By applying logit pairing to equalize outcomes on the restricted set of counterfactuals for each instance, we improve fairness metrics while preserving model performance on hate speech detection.
翻訳日:2021-08-05 13:15:52 公開日:2021-08-03
# 生成逆ネットを用いたカテゴリー的EHRインプット

Categorical EHR Imputation with Generative Adversarial Nets ( http://arxiv.org/abs/2108.01701v1 )

ライセンス: Link先を確認
Yinchong Yang, Zhiilang Wu, Volker Tresp, Peter A. Fasching(参考訳) 電子健康記録は、しばしばデータ不足に苦しむため、臨床や臨床研究において大きな問題となる。 欠落データを扱うための新しいアプローチとして、画像生成と変換に多大な関心を寄せているgan(generative adversarial nets)がある。 近年、研究者はデータ生成の欠如とEHRデータの計算にGANを適用しようと試みている。 GANベースのカテゴリデータ生成に対する最先端のソリューションは、強化学習か、カテゴリと実際の潜在機能空間の間の双方向マッピングを学習することを含む。 しかし,これらの手法は機能不足の部分集合のみを命令するのではなく,完全な特徴ベクトルを生成するように設計されている。 本稿では,データインプテーションのためのgansに関するこれまでの研究に基づいて,単純かつ効果的なアプローチを提案する。 まず、分類的特徴がある場合、敵対的トレーニングが失敗する理由を議論することで、ソリューションを動機付けます。 そして, カテゴリー的特徴を再コードし, 敵対的訓練を安定させる新しい手法を導出する。 複数の設定を持つ2つの実世界のehrデータを用いた実験に基づいて,従来のデータインプテーション手法に比べて予測精度が大幅に向上することを示す。

Electronic Health Records often suffer from missing data, which poses a major problem in clinical practice and clinical studies. A novel approach for dealing with missing data are Generative Adversarial Nets (GANs), which have been generating huge research interest in image generation and transformation. Recently, researchers have attempted to apply GANs to missing data generation and imputation for EHR data: a major challenge here is the categorical nature of the data. State-of-the-art solutions to the GAN-based generation of categorical data involve either reinforcement learning, or learning a bidirectional mapping between the categorical and the real latent feature space, so that the GANs only need to generate real-valued features. However, these methods are designed to generate complete feature vectors instead of imputing only the subsets of missing features. In this paper we propose a simple and yet effective approach that is based on previous work on GANs for data imputation. We first motivate our solution by discussing the reason why adversarial training often fails in case of categorical features. Then we derive a novel way to re-code the categorical features to stabilize the adversarial training. Based on experiments on two real-world EHR data with multiple settings, we show that our imputation approach largely improves the prediction accuracy, compared to more traditional data imputation approaches.
翻訳日:2021-08-05 13:15:33 公開日:2021-08-03
# onconet: weakly supervised siamese network による縦型fdg pet/ct検査における癌治療反応評価の自動化

OncoNet: Weakly Supervised Siamese Network to automate cancer treatment response assessment between longitudinal FDG PET/CT examinations ( http://arxiv.org/abs/2108.02016v1 )

ライセンス: Link先を確認
Anirudh Joshi, Sabri Eyuboglu, Shih-Cheng Huang, Jared Dunnmon, Arjun Soin, Guido Davidzon, Akshay Chaudhari, Matthew P Lungren(参考訳) FDG PET/CT画像検査は悪性疾患の診断に重要であり,特に治療中の縦断的評価において重要である。 長期分析を自動化するアプローチには、利用可能な縦型データセットの欠如、複雑な大規模マルチモーダル画像検査の管理、従来の教師あり機械学習のための詳細なアノテーションの必要性など、多くの課題がある。 本研究は,1,954対の連続FDG PET/CT検診の処理応答を,関連する放射線学報告における標準取り込み値(SUVmax)を用いて,弱い監視により評価する新しい機械学習アルゴリズムであるOncoNetを開発する。 OncoNetは、内部および外部の機関試験セットでそれぞれ0.86と0.84のAUROCを示し、スキャン間の変化を判定すると同時に、Kappaスコア0.8の臨床スコアシステムと強い一致を示した。 また,医療研究コミュニティの広範な機械学習に対する応答評価のために設計された1,954組のfdg pet/ct試験データセットを収集した。 OncoNetによるFDG PET/CTからのX線学的反応の自動評価は, 経時的マルチモーダル画像検査において, 経時的変化を迅速かつ一貫的に解釈する貴重なツールを提供する可能性がある。

FDG PET/CT imaging is a resource intensive examination critical for managing malignant disease and is particularly important for longitudinal assessment during therapy. Approaches to automate longtudinal analysis present many challenges including lack of available longitudinal datasets, managing complex large multimodal imaging examinations, and need for detailed annotations for traditional supervised machine learning. In this work we develop OncoNet, novel machine learning algorithm that assesses treatment response from a 1,954 pairs of sequential FDG PET/CT exams through weak supervision using the standard uptake values (SUVmax) in associated radiology reports. OncoNet demonstrates an AUROC of 0.86 and 0.84 on internal and external institution test sets respectively for determination of change between scans while also showing strong agreement to clinical scoring systems with a kappa score of 0.8. We also curated a dataset of 1,954 paired FDG PET/CT exams designed for response assessment for the broader machine learning in healthcare research community. Automated assessment of radiographic response from FDG PET/CT with OncoNet could provide clinicians with a valuable tool to rapidly and consistently interpret change over time in longitudinal multi-modal imaging exams.
翻訳日:2021-08-05 13:13:00 公開日:2021-08-03
# 機械学習予測による2重ロバスト推定

Doubly Robust Estimation with Machine Learning Predictions ( http://arxiv.org/abs/2108.01768v1 )

ライセンス: Link先を確認
Mehdi Rostami, Olli Saarela, Michael Escobar(参考訳) 因果パラメータとして平均処理効果(ate)を推定し、第1ステップ、処理、成果をモデル化して、潜在的な共同創設者を取り込み、第2ステップでは、拡張逆確率重み(aipw)推定子などのate推定器に予測を挿入する。 共同創設者間の非線形的あるいは未知の関係と治療と成果に関する懸念から、機械学習(ML)アルゴリズムのような非パラメトリックな手法を適用することへの関心が高まっている。 \cite{farrell2018deep}は、NNの最適化でSGD(Stochastic Gradient Descent)を除いて、ネットワークのパラメータを正規化しない2つの別個のニューラルネットワーク(NN)を使用することを提案した。 シミュレーションの結果, 正規化がなければAIPW推定器は広範囲に劣化することが示された。 本稿では,いくつかのシナリオにおいて有効なAIPW(nAIPW)の正規化を提案する。 nAIPW は AIPW と同じ性質を持ち、これは二重ロマンス性および直交性 \citep{chernozhukov2018doub le} である。 さらに、最初のステップアルゴリズムが十分に高速に収束し、規制条件下では、naipwは漸近的に正常である。

The estimation of Average Treatment Effect (ATE) as a causal parameter is carried out in two steps, wherein the first step, the treatment, and outcome are modeled to incorporate the potential confounders, and in the second step, the predictions are inserted into the ATE estimators such as the Augmented Inverse Probability Weighting (AIPW) estimator. Due to the concerns regarding the nonlinear or unknown relationships between confounders and the treatment and outcome, there has been an interest in applying non-parametric methods such as Machine Learning (ML) algorithms instead. \cite{farrell2018deep} proposed to use two separate Neural Networks (NNs) where there's no regularization on the network's parameters except the Stochastic Gradient Descent (SGD) in the NN's optimization. Our simulations indicate that the AIPW estimator suffers extensively if no regularization is utilized. We propose the normalization of AIPW (referred to as nAIPW) which can be helpful in some scenarios. nAIPW, provably, has the same properties as AIPW, that is double-robustness and orthogonality \citep{chernozhukov2018doub le}. Further, if the first step algorithms converge fast enough, under regulatory conditions \citep{chernozhukov2018doub le}, nAIPW will be asymptotically normal.
翻訳日:2021-08-05 13:10:15 公開日:2021-08-03
# 深層強化学習を用いた株式市場における因子表現と意思決定

Factor Representation and Decision Making in Stock Markets Using Deep Reinforcement Learning ( http://arxiv.org/abs/2108.01758v1 )

ライセンス: Link先を確認
Zhaolu Dong, Shan Huang, Simiao Ma, Yining Qian(参考訳) 深層強化学習は教師なし学習の一分野であり、エージェントはその報酬を最大化するために環境状態に基づいて行動することを学ぶ。 深層強化学習は、深層ニューラルネットワークの強力な表現を利用して、高次元およびデータ駆動環境におけるポートフォリオ選択の複雑さをモデル化する良い機会を提供する。 本稿では,直接深層強化学習を用いたポートフォリオ管理システムを構築し,適切な因子表現(入力として)を学習することにより,s\&p500系株式の最適ポートフォリオ選択を定期的に行う。 その結果、市場条件と最適ポートフォリオ割り当ての効果的な学習は、平均的市場を著しく上回ることを示した。

Deep Reinforcement learning is a branch of unsupervised learning in which an agent learns to act based on environment state in order to maximize its total reward. Deep reinforcement learning provides good opportunity to model the complexity of portfolio choice in high-dimensional and data-driven environment by leveraging the powerful representation of deep neural networks. In this paper, we build a portfolio management system using direct deep reinforcement learning to make optimal portfolio choice periodically among S\&P500 underlying stocks by learning a good factor representation (as input). The result shows that an effective learning of market conditions and optimal portfolio allocations can significantly outperform the average market.
翻訳日:2021-08-05 13:09:53 公開日:2021-08-03
# HTTP2vec: 異常トラフィック検出のためのHTTPリクエストの埋め込み

HTTP2vec: Embedding of HTTP Requests for Detection of Anomalous Traffic ( http://arxiv.org/abs/2108.01763v1 )

ライセンス: Link先を確認
Mateusz Gniewkowski, Henryk Maciejewski, Tomasz R. Surmacz, Wiktor Walentynowicz(参考訳) hypertext transfer protocol(http)は、インターネットで最も広く使われているプロトコルの1つである。 その結果、ほとんどの攻撃(SQLインジェクション、XSS)はトランスポートメカニズムとしてHTTPを使用する。 したがって、HTTPトラフィックの異常を効果的に検出し、フィルタリングできるインテリジェントなソリューションを開発することが不可欠である。 現在、ほとんどの異常検出システムはルールベースか手動で選択した機能を使って訓練されている。 本稿では,最新の教師なし言語表現モデルを用いてhttpリクエストを埋め込み,トラフィックの異常を分類する手法を提案する。 このソリューションは、Doc2Vecのような自然言語処理(NLP)で使われている手法によって動機付けられ、HTTPメッセージの真の理解を捉え、侵入検知システムの効率を向上する可能性がある。 本研究では, 適切な埋め込み空間を生成するだけでなく, 提案したモデルの解釈可能性についても検討する。 私たちは現在最先端のRoBERTaを使うことを決めました。 実際の単語条件でどのようにソリューションが機能するかを検証するために、正規のトラフィックのみを使用してモデルをトレーニングする。 また,ベクトル化された要求空間で発生するクラスタと単純なロジスティック回帰分類器に基づいて,結果を説明する。 我々はこのアプローチを以前提案していた手法と比較した。 CSIC2010, CSE-CIC-IDS2018, そして, 自分たちで作成した3つのデータセットに対して, 本手法の有効性を評価する。 私たちが示した結果は、他と同等か、より良く、そして最も重要な ― 解釈可能である。

Hypertext transfer protocol (HTTP) is one of the most widely used protocols on the Internet. As a consequence, most attacks (i.e., SQL injection, XSS) use HTTP as the transport mechanism. Therefore, it is crucial to develop an intelligent solution that would allow to effectively detect and filter out anomalies in HTTP traffic. Currently, most of the anomaly detection systems are either rule-based or trained using manually selected features. We propose utilizing modern unsupervised language representation model for embedding HTTP requests and then using it to classify anomalies in the traffic. The solution is motivated by methods used in Natural Language Processing (NLP) such as Doc2Vec which could potentially capture the true understanding of HTTP messages, and therefore improve the efficiency of Intrusion Detection System. In our work, we not only aim at generating a suitable embedding space, but also at the interpretability of the proposed model. We decided to use the current state-of-the-art RoBERTa, which, as far as we know, has never been used in a similar problem. To verify how the solution would work in real word conditions, we train the model using only legitimate traffic. We also try to explain the results based on clusters that occur in the vectorized requests space and a simple logistic regression classifier. We compared our approach with the similar, previously proposed methods. We evaluate the feasibility of our method on three different datasets: CSIC2010, CSE-CIC-IDS2018 and one that we prepared ourselves. The results we show are comparable to others or better, and most importantly - interpretable.
翻訳日:2021-08-05 13:09:42 公開日:2021-08-03
# 地球観測とサップフロー計測のリンク

Linking Sap Flow Measurements with Earth Observations ( http://arxiv.org/abs/2108.01290v1 )

ライセンス: Link先を確認
Enrico Tomelleri, Giustino Tonon(参考訳) 単木蒸散は地球観測と比較するのは難しいが、天蓋スケールのデータはこの目的に適している。 第2のアプローチの可能性を試すために,林内の樹液流センサを用いた2つの測定場において,木を配置した。 地形は対照的である。 測定期間は2020年6月から2021年1月までである。 プロットスケールの蒸散を地球観測と結びつけるために,センチネル-2と局所気象データを用いた。 機械学習フレームワーク内では、天蓋呼吸をモデル化するための地球観測の適合性を検証した。 測定地点におけるクロスバリデートトレーニングモデルのr2は0.57から0.80であった。 これらの結果は,sapフローデータを用いて,sentinel-2データによる生態系フラックスのスケールアップの妥当性を示す。 より広い地域と気候条件のネットワークに適用すれば、変化する気候の競争において、森林の弾力性と抵抗能力が強化された水文循環に対して、前例のない可能性をもたらす可能性がある。

While single-tree transpiration is challenging to compare with earth observation, canopy scale data are suitable for this purpose. To test the potentialities of the second approach, we equipped the trees at two measurement sites with sap flow sensors in spruce forests. The sites have contrasting topography. The measurement period covered the months between June 2020 and January 2021. To link plot scale transpiration with earth observations, we utilized Sentinel-2 and local meteorological data. Within a machine learning framework, we have tested the suitability of earth observations for modelling canopy transpiration. The R2 of the cross-validated trained models at the measurement sites was between 0.57 and 0.80. These results demonstrate the relevance of Sentinel-2 data for the data-driven upscaling of ecosystem fluxes from plot scale sap flow data. If applied to a broader network of sites and climatic conditions, such an approach could offer unprecedented possibilities for investigating our forests' resilience and resistance capacity to an intensified hydrological cycle in the contest of a changing climate.
翻訳日:2021-08-05 13:07:50 公開日:2021-08-03
# (参考訳) gtnet:guided transformer network for detection human-object interaction [全文訳有]

GTNet:Guided Transformer Network for Detecting Human-Object Interactions ( http://arxiv.org/abs/2108.00596v2 )

ライセンス: CC BY 4.0
A S M Iftekhar, Satish Kumar, R. Austin McEver, Suya You, B.S. Manjunath(参考訳) human-object interaction (hoi) 検出タスクは、人間をローカライズし、オブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測することを指す。 HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと考えられている。 hoiの検出には、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の突出した空間領域を見つけることが重要である。 この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。 GTNetは、V-COCOとHICO-DETの両方のデータセットにおいて、この空間的コンテキスト情報を自己注意を介して人間とオブジェクトの視覚的特徴にエンコードし、過去の技術結果よりも4%-6%改善する。 コードはオンラインで入手できる。

The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the proposed self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving a 4%-6% improvement over previous state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online.
翻訳日:2021-08-05 11:14:04 公開日:2021-08-03
# (参考訳) Speech2Affective Gestures: 対人感情表現学習による音声合成 [全文訳有]

Speech2AffectiveGest ures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning ( http://arxiv.org/abs/2108.00262v2 )

ライセンス: CC BY 4.0
Uttaran Bhattacharya and Elizabeth Childs and Nicholas Rewkowski and Dinesh Manocha(参考訳) そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。 本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。 我々は,入力音声から出力されるメル周波数ケプストラム係数とテキストの書き起こしを利用して,所望の感情と関連する感情の手がかりを学習する。 マルチスケール空間時間グラフ畳み込みを用いた情緒的エンコーダを設計し,3次元ポーズ列を潜在ポーズに基づく情緒的特徴に変換する。 私たちは、私たちのジェネレータの両方で、感情エンコーダを使って、種子のポーズから感情的な特徴を学び、ジェスチャー合成をガイドし、私たちの識別器は、適切な感情的な表現を含むように、合成されたジェスチャーを強制します。 音声からのジェスチャー合成のための2つのベンチマークデータセット、TED Gesture DatasetとGENEA Challenge 2020 Datasetについて広範な評価を行った。 最良ベースラインと比較して,平均絶対関節誤差を10~33%,平均加速度差を8~58%,Fr'echet Gesture Distanceを21~34%改善した。 また, 被験者の約15.28%が, 合成したジェスチャーの方が分かりやすいと回答し, 被験者の約16.32%は, ジェスチャーが発話に合った感情表現を持っていると感じた。

We present a generative adversarial network to synthesize 3D pose sequences of co-speech upper-body gestures with appropriate affective expressions. Our network consists of two components: a generator to synthesize gestures from a joint embedding space of features encoded from the input speech and the seed poses, and a discriminator to distinguish between the synthesized pose sequences and real 3D pose sequences. We leverage the Mel-frequency cepstral coefficients and the text transcript computed from the input speech in separate encoders in our generator to learn the desired sentiments and the associated affective cues. We design an affective encoder using multi-scale spatial-temporal graph convolutions to transform 3D pose sequences into latent, pose-based affective features. We use our affective encoder in both our generator, where it learns affective features from the seed poses to guide the gesture synthesis, and our discriminator, where it enforces the synthesized gestures to contain the appropriate affective expressions. We perform extensive evaluations on two benchmark datasets for gesture synthesis from the speech, the TED Gesture Dataset and the GENEA Challenge 2020 Dataset. Compared to the best baselines, we improve the mean absolute joint error by 10--33%, the mean acceleration difference by 8--58%, and the Fr\'echet Gesture Distance by 21--34%. We also conduct a user study and observe that compared to the best current baselines, around 15.28% of participants indicated our synthesized gestures appear more plausible, and around 16.32% of participants felt the gestures had more appropriate affective expressions aligned with the speech.
翻訳日:2021-08-05 02:21:31 公開日:2021-08-03
# (参考訳) 変分アクター臨界アルゴリズム [全文訳有]

Variational Actor-Critic Algorithms ( http://arxiv.org/abs/2108.01215v1 )

ライセンス: CC BY 4.0
Yuhua Zhu, Lexing Ying(参考訳) 本稿では,値関数とポリシーの両方に対する変分定式化に基づく変分的アクタ-批判的アルゴリズムのクラスを提案する。 変分定式化の目的関数は、値関数を最大化する部分とベルマン残基を最小化する部分の2つの部分からなる。 値関数とポリシ更新を併用したバニラ勾配降下に加えて,収束を高速化するために,クリッピング法とフリップ法という2つの変種を提案する。 また,ベルマン残差の原因子が十分大きい場合には,アルゴリズムの不動点が最適方針に近いことも証明する。

We introduce a class of variational actor-critic algorithms based on a variational formulation over both the value function and the policy. The objective function of the variational formulation consists of two parts: one for maximizing the value function and the other for minimizing the Bellman residual. Besides the vanilla gradient descent with both the value function and the policy updates, we propose two variants, the clipping method and the flipping method, in order to speed up the convergence. We also prove that, when the prefactor of the Bellman residual is sufficiently large, the fixed point of the algorithm is close to the optimal policy.
翻訳日:2021-08-04 20:32:59 公開日:2021-08-03
# (参考訳) OVERT:非線形システムのためのニューラルネットワーク制御ポリシーの安全性検証アルゴリズム

OVERT: An Algorithm for Safety Verification of Neural Network Control Policies for Nonlinear Systems ( http://arxiv.org/abs/2108.01220v1 )

ライセンス: CC BY 4.0
Chelsea Sidrane, Amir Maleki, Ahmed Irfan, Mykel J. Kochenderfer(参考訳) 深層学習法は制御ポリシーの作成に使用できるが、安全性の確認は困難である。 結果として生じるネットワークは非線形であり、しばしば非常に大きい。 そこで本研究では,非線形離散時間閉ループ力学系のニューラルネットワーク制御ポリシーによる安全性検証のための音響アルゴリズムであるovertを提案する。 overtの斬新さは、古典的形式的手法文学のアイデアと、新しいニューラルネットワーク検証文学のアイデアを組み合わせることにある。 OVERT の中心的な概念は、最適にきつく片方向の線形境界を持つ非線形関数を抽象化することである。 このような分割線形境界は、reluニューラルネットワーク検証ツールへのシームレスな統合のために設計されている。 OVERTは、到達可能なセットを計算したり、実行可能性クエリを直接解決することで、バウンダリタイムの安全性を証明できる。 いくつかの古典的ベンチマーク例に対する安全性検証の様々な例を示す。 overtは、計算時間と到達可能な集合のタイト性の両方において、既存の方法と好適に比較できる。

Deep learning methods can be used to produce control policies, but certifying their safety is challenging. The resulting networks are nonlinear and often very large. In response to this challenge, we present OVERT: a sound algorithm for safety verification of nonlinear discrete-time closed loop dynamical systems with neural network control policies. The novelty of OVERT lies in combining ideas from the classical formal methods literature with ideas from the newer neural network verification literature. The central concept of OVERT is to abstract nonlinear functions with a set of optimally tight piecewise linear bounds. Such piecewise linear bounds are designed for seamless integration into ReLU neural network verification tools. OVERT can be used to prove bounded-time safety properties by either computing reachable sets or solving feasibility queries directly. We demonstrate various examples of safety verification for several classical benchmark examples. OVERT compares favorably to existing methods both in computation time and in tightness of the reachable set.
翻訳日:2021-08-04 20:06:16 公開日:2021-08-03
# (参考訳) リソースの異なるタスクに対する弾性的アーキテクチャ探索 [全文訳有]

Elastic Architecture Search for Diverse Tasks with Different Resources ( http://arxiv.org/abs/2108.01224v1 )

ライセンス: CC BY 4.0
Jing Liu, Bohan Zhuang, Mingkui Tan, Xu Liu, Dinh Phung, Yuanqing Li, Jianfei Cai(参考訳) テスト時にクラス群に対応するリソース制約と関心のあるタスクを動的に指定する,リソースの異なるタスクに対する効率的な配置という新たな課題について検討する。 以前のnasアプローチでは、すべてのクラスのアーキテクチャを同時に設計することを目指している。 簡単な解決策は、各デプロイメントシナリオのスクラッチからアーキテクチャを検索することだが、計算集約的で実用的ではない。 これを解決するために、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。 この目的のために,まず,タスクドロップアウト戦略を用いてオーバーパラメータネットワークを効果的にトレーニングし,トレーニング中にタスクをアンタングルする手法を提案する。 このようにして、結果のモデルは推論時に次のタスクが落ちるのに頑健です。 十分に訓練された過パラメータネットワークに基づいて、単一のフォワードパス内で最適なアーキテクチャを得るための効率的なアーキテクチャジェネレータを提案する。 2つの画像分類データセットでの実験では、easは最先端のnasメソッドよりも桁違いに速い性能でよりコンパクトなネットワークを見つけることができる。 例えば、提案したEASは、50のデプロイメントシナリオに対して0.1秒以内でコンパクトアーキテクチャを見つけます。

We study a new challenging problem of efficient deployment for diverse tasks with different resources, where the resource constraint and task of interest corresponding to a group of classes are dynamically specified at testing time. Previous NAS approaches seek to design architectures for all classes simultaneously, which may not be optimal for some individual tasks. A straightforward solution is to search an architecture from scratch for each deployment scenario, which however is computation-intensiv e and impractical. To address this, we present a novel and general framework, called Elastic Architecture Search (EAS), permitting instant specializations at runtime for diverse tasks with various resource constraints. To this end, we first propose to effectively train the over-parameterized network via a task dropout strategy to disentangle the tasks during training. In this way, the resulting model is robust to the subsequent task dropping at inference time. Based on the well-trained over-parameterized network, we then propose an efficient architecture generator to obtain optimal architectures within a single forward pass. Experiments on two image classification datasets show that EAS is able to find more compact networks with better performance while remarkably being orders of magnitude faster than state-of-the-art NAS methods. For example, our proposed EAS finds compact architectures within 0.1 second for 50 deployment scenarios.
翻訳日:2021-08-04 20:05:17 公開日:2021-08-03
# (参考訳) 混合音声入力における注意に基づくニューラルASRの性能評価 [全文訳有]

The Performance Evaluation of Attention-Based Neural ASR under Mixed Speech Input ( http://arxiv.org/abs/2108.01245v1 )

ライセンス: CC BY 4.0
Bradley He, Martin Radfar(参考訳) 雑音条件下でのアテンションベースニューラルASRの性能を評価するため、現在の傾向は、様々なノイズのある音声データをモデルに提示し、全体的な単語/音素誤り率(W/PER)を測定することである。 一般に、2人以上の話者が活動するカクテルパーティーのセットアップでこれらのモデルがどのように機能するかは不明である。 本稿では、音声信号の混合を、リステン、アテンド、スペル(LAS)として知られる一般的な注目に基づくニューラルネットワークに、異なるターゲット対干渉比(TIR)で提示し、音素誤り率を測定する。 特に、2つの音素がいつ混合され、予測される音素になるのかを詳細に調べ、この方法では、音素の最も可能性の高い予測が与えられるモデルを構築します。 TIR = 0 dB で LAS を混合音声信号で提示すると,PER は 65% 増加し,その性能は TIR = 30 dB で未混合シナリオに近づいた。 その結果,混合音素信号で提示されたモデルでは,元の音素信号の評価において高い確率を持つモデルが予測される傾向がみられた。

In order to evaluate the performance of the attention based neural ASR under noisy conditions, the current trend is to present hours of various noisy speech data to the model and measure the overall word/phoneme error rate (W/PER). In general, it is unclear how these models perform when exposed to a cocktail party setup in which two or more speakers are active. In this paper, we present the mixtures of speech signals to a popular attention-based neural ASR, known as Listen, Attend, and Spell (LAS), at different target-to-interferen ce ratio (TIR) and measure the phoneme error rate. In particular, we investigate in details when two phonemes are mixed what will be the predicted phoneme; in this fashion we build a model in which the most probable predictions for a phoneme are given. We found a 65% relative increase in PER when LAS was presented with mixed speech signals at TIR = 0 dB and the performance approaches the unmixed scenario at TIR = 30 dB. Our results show the model, when presented with mixed phonemes signals, tend to predict those that have higher accuracies during evaluation of original phoneme signals.
翻訳日:2021-08-04 19:48:09 公開日:2021-08-03
# (参考訳) CanvasVAE: ベクトルグラフ文書の生成を学ぶ

CanvasVAE: Learning to Generate Vector Graphic Documents ( http://arxiv.org/abs/2108.01249v1 )

ライセンス: CC BY 4.0
Kota Yamaguchi(参考訳) ベクトルグラフィック文書は解像度のないコンパクトなフォーマットで視覚要素を提示し、クリエイティブなアプリケーションでよく見られる。 本研究では,ベクトルグラフィック文書の生成モデルを学習しようと試みる。 ベクトルグラフィック文書を,キャンバスに関連付けられた属性と形状,画像,テキストなどの視覚要素の列によって定義し,文書の表現を学習するための変分自動エンコーダを訓練する。 私たちは、occluded要素を含む完全なドキュメント構造を備えたオンラインサービスからデザインテンプレートの新しいデータセットを収集します。 実験では、canvasvae というモデルがベクトル図形文書の生成的モデリングにおいて強力なベースラインとなっていることを示す。

Vector graphic documents present visual elements in a resolution free, compact format and are often seen in creative applications. In this work, we attempt to learn a generative model of vector graphic documents. We define vector graphic documents by a multi-modal set of attributes associated to a canvas and a sequence of visual elements such as shapes, images, or texts, and train variational auto-encoders to learn the representation of the documents. We collect a new dataset of design templates from an online service that features complete document structure including occluded elements. In experiments, we show that our model, named CanvasVAE, constitutes a strong baseline for generative modeling of vector graphic documents.
翻訳日:2021-08-04 19:39:58 公開日:2021-08-03
# (参考訳) m2h2:会話におけるユーモア認識のためのマルチモーダルヒンディー語データセット [全文訳有]

M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in Conversations ( http://arxiv.org/abs/2108.01260v1 )

ライセンス: CC BY-SA 4.0
Dushyant Singh Chauhan, Gopendra Vikram Singh, Navonil Majumder, Amir Zadeh, Asif Ekbal, Pushpak Bhattacharyya, Louis-philippe Morency, and Soujanya Poria(参考訳) 会話における感情認識は、多モーダルなセッティング(テキスト、音響、視覚など)を含む対話理解の重要性から、近年人気を集めている課題である。 ユーモアのデータセットはほとんど英語で書かれている。 しかし、多言語コンテンツが著しく伸びているため、多言語情報アクセスをサポートするモデルやシステムの構築には大きな需要がある。 そこで本研究では,テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティHindi Humor(M2H2)認識データセットを提案する。 それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。 本稿では,会話におけるユーモア認識のためのコンテキスト情報とマルチモーダル情報の重要性を示す。 M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。 データセットとベースラインはhttp://www.iitp.ac.i n/~ai-nlp-ml/resourc es.htmlとhttps://github.com/d eclare-lab/M2H2-data setで入手できる。

Humor recognition in conversations is a challenging task that has recently gained popularity due to its importance in dialogue understanding, including in multimodal settings (i.e., text, acoustics, and visual). The few existing datasets for humor are mostly in English. However, due to the tremendous growth in multilingual content, there is a great demand to build models and systems that support multilingual information access. To this end, we propose a dataset for Multimodal Multiparty Hindi Humor (M2H2) recognition in conversations containing 6,191 utterances from 13 episodes of a very popular TV series "Shrimaan Shrimati Phir Se". Each utterance is annotated with humor/non-humor labels and encompasses acoustic, visual, and textual modalities. We propose several strong multimodal baselines and show the importance of contextual and multimodal information for humor recognition in conversations. The empirical results on M2H2 dataset demonstrate that multimodal information complements unimodal information for humor recognition. The dataset and the baselines are available at http://www.iitp.ac.i n/~ai-nlp-ml/resourc es.html and https://github.com/d eclare-lab/M2H2-data set.
翻訳日:2021-08-04 19:39:07 公開日:2021-08-03
# (参考訳) 麻痺性イレウス患者の死亡予測のためのプロセスマイニングモデル [全文訳有]

Process Mining Model to Predict Mortality in Paralytic Ileus Patients ( http://arxiv.org/abs/2108.01267v1 )

ライセンス: CC BY 4.0
Maryam Pishgar, Martha Razo, Julian Theis, and Houshang Darabi(参考訳) 麻痺性イレウス (PI) 患者は集中治療室 (ICU) に入院すると死亡リスクが高く, 死亡率は40%である。 PI患者の死亡予測に関する最小限の研究がある。 piと診断されたicu患者のより正確な予測モデルが必要である。 当科では入院24時間後のICU患者の死亡率予測におけるパフォーマンス改善について検討した。 PMPI(Process Mining Model, Process Mining Model to predict death of PI patients)は,糖尿病ICU患者の院内死亡の予測に用いる作業の修正である。 PMPIは、既存の文献の最良の結果と比較すると、ROC曲線(AUC)スコアが0.82であるエリアと類似している。 PMPIは、患者の医療履歴、イベントに関連する時間、および予測のための人口統計情報を使用する。 PMPI予測フレームワークは、医療チームがPIのICU患者に対する治療とケアのより良い決定をし、寿命を延ばすのに役立つ可能性がある。

Paralytic Ileus (PI) patients are at high risk of death when admitted to the Intensive care unit (ICU), with mortality as high as 40\%. There is minimal research concerning PI patient mortality prediction. There is a need for more accurate prediction modeling for ICU patients diagnosed with PI. This paper demonstrates performance improvements in predicting the mortality of ICU patients diagnosed with PI after 24 hours of being admitted. The proposed framework, PMPI(Process Mining Model to predict mortality of PI patients), is a modification of the work used for prediction of in-hospital mortality for ICU patients with diabetes. PMPI demonstrates similar if not better performance with an Area under the ROC Curve (AUC) score of 0.82 compared to the best results of the existing literature. PMPI uses patient medical history, the time related to the events, and demographic information for prediction. The PMPI prediction framework has the potential to help medical teams in making better decisions for treatment and care for ICU patients with PI to increase their life expectancy.
翻訳日:2021-08-04 19:27:32 公開日:2021-08-03
# (参考訳) カザフ語・ロシア語・英語における多言語エンドツーエンド音声認識の検討 [全文訳有]

A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English ( http://arxiv.org/abs/2108.01280v1 )

ライセンス: CC BY 4.0
Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol(参考訳) 我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。 まず,トランスフォーマーネットワークに基づく多言語e2e asrの開発について述べるとともに,上記の言語について広範な評価を行った。 また,出力グラフ集合の構成の2つの変種を比較した。 さらに,多言語E2E ASRの認識性能に及ぼすLMとデータ拡張技術の影響を評価した。 さらに,トレーニングや評価のためのデータセットをいくつか提示する。 実験結果から,多言語モデルでは,同じ数のパラメータを持つ単言語ベースラインに匹敵する性能が得られた。 最善の単言語モデルと多言語モデルはそれぞれ20.9%と20.5%の単語誤り率を達成した。 実験と結果の再現性を確保するため、トレーニングレシピ、データセット、トレーニング済みモデルを共有します。

We study training a single end-to-end (E2E) automatic speech recognition (ASR) model for three languages used in Kazakhstan: Kazakh, Russian, and English. We first describe the development of multilingual E2E ASR based on Transformer networks and then perform an extensive assessment on the aforementioned languages. We also compare two variants of output grapheme set construction: combined and independent. Furthermore, we evaluate the impact of LMs and data augmentation techniques on the recognition performance of the multilingual E2E ASR. In addition, we present several datasets for training and evaluation purposes. Experiment results show that the multilingual models achieve comparable performances to the monolingual baselines with a similar number of parameters. Our best monolingual and multilingual models achieved 20.9% and 20.5% average word error rates on the combined test set, respectively. To ensure the reproducibility of our experiments and results, we share our training recipes, datasets, and pre-trained models.
翻訳日:2021-08-04 19:20:23 公開日:2021-08-03
# (参考訳) 弱教師付きセマンティクスセグメンテーションのための適応的親和性損失と誤った擬似ラベル細分化 [全文訳有]

Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.01344v1 )

ライセンス: CC BY 4.0
Xiangrong Zhang, Zelin Peng, Peng Zhu, Tianyang Zhang, Chen Li, Huiyu Zhou, Licheng Jiao(参考訳) セマンティックセグメンテーションは過去10年間で継続的に研究され、確立された技術の大部分は教師付きモデルに基づいている。 近年、画像レベルの弱い教師付きセマンティックセグメンテーション(wsss)がデータラベリング効率により注目されている。 本稿では,多段階アプローチの親和性学習を単段モデルに組み込むことを提案する。 具体的には,局所的なペアワイズ親和性を徹底的に学習するために適応親和性損失を導入する。 このように、深層ニューラルネットワークを使用して、最終予測モジュールの性能を改善しながら、トレーニングフェーズで包括的な意味情報を提供する。 一方,疑似ラベルに誤りが存在することを考慮し,オーバーフィッティングを緩和する新しいラベル再割り当て損失を提案する。 pascal voc 2012データセットでは、提案手法の有効性を評価するために、他の標準の単段法よりも優れ、複数の多段法と同等の性能を達成している。

Semantic segmentation has been continuously investigated in the last ten years, and majority of the established technologies are based on supervised models. In recent years, image-level weakly supervised semantic segmentation (WSSS), including single- and multi-stage process, has attracted large attention due to data labeling efficiency. In this paper, we propose to embed affinity learning of multi-stage approaches in a single-stage model. To be specific, we introduce an adaptive affinity loss to thoroughly learn the local pairwise affinity. As such, a deep neural network is used to deliver comprehensive semantic information in the training phase, whilst improving the performance of the final prediction module. On the other hand, considering the existence of errors in the pseudo labels, we propose a novel label reassign loss to mitigate over-fitting. Extensive experiments are conducted on the PASCAL VOC 2012 dataset to evaluate the effectiveness of our proposed approach that outperforms other standard single-stage methods and achieves comparable performance against several multi-stage methods.
翻訳日:2021-08-04 19:08:23 公開日:2021-08-03
# (参考訳) 反事実的説明によるループ型強化学習の収束の促進 [全文訳有]

Accelerating the Convergence of Human-in-the-Loop Reinforcement Learning with Counterfactual Explanations ( http://arxiv.org/abs/2108.01358v1 )

ライセンス: CC BY 4.0
Jakob Karalus, Felix Lindner(参考訳) 人間のフィードバックから対話的に学習する能力は、新しい社会的設定でロボットを可能にする。 例えば、初心者のユーザーは、新しいタスクでサービスロボットを自然とインタラクティブに訓練することができる。 Human-in-the-loop Reinforcement Learning (HRL)は、人間のフィードバックと強化学習(RL)技術を組み合わせてこの問題に対処する。 最先端のインタラクティブな学習技術は、収束が遅いため、人間にとってイライラする経験が生まれる。 この研究は、既存のTAMERフレームワークを拡張して、2つの異なる種類の反現実的説明で人間からのフィードバックを強化することでこの問題に対処する。 我々は、特にトレーニングの重要な初期段階において、収束を改善するための拡張の成功を実証する。

The capability to interactively learn from human feedback would enable robots in new social settings. For example, novice users could train service robots in new tasks naturally and interactively. Human-in-the-loop Reinforcement Learning (HRL) addresses this issue by combining human feedback and reinforcement learning (RL) techniques. State-of-the-art interactive learning techniques suffer from slow convergence, thus leading to a frustrating experience for the human. This work approaches this problem by extending the existing TAMER Framework with the possibility to enhance human feedback with two different types of counterfactual explanations. We demonstrate our extensions' success in improving the convergence, especially in the crucial early phases of the training.
翻訳日:2021-08-04 18:55:09 公開日:2021-08-03
# (参考訳) 深部生成予備因子を用いたロバスト圧縮MRI

Robust Compressed Sensing MRI with Deep Generative Priors ( http://arxiv.org/abs/2108.01368v1 )

ライセンス: CC BY 4.0
Ajil Jalal and Marius Arvinte and Giannis Daras and Eric Price and Alexandros G. Dimakis and Jonathan I. Tamir(参考訳) CSGMフレームワーク(Bora-Jalal-Price-Di makis'17)は,逆問題解決のための強力なツールであることを示す。 しかしながら、これまでこのフレームワークは、特定のデータセット(例えば、人間の顔やmnist桁)でのみ実証的に成功しており、分散サンプルでは性能が低下していることが知られている。 本稿では,臨床mriデータに対するcsgmフレームワークの初めて成功した応用について述べる。 我々は、高速MRIデータセットから脳スキャンに先立って生成をトレーニングし、Langevin dynamicsによる後部サンプリングが高品質な再構成を実現することを示す。 さらに, 実験と理論により, 後方サンプリングは地中分布および測定過程の変化に頑健であることが示された。 私たちのコードとモデルは、 \url{https://github.com/u tcsilab/csgm-mri-lan gevin} で利用可能です。

The CSGM framework (Bora-Jalal-Price-Di makis'17) has shown that deep generative priors can be powerful tools for solving inverse problems. However, to date this framework has been empirically successful only on certain datasets (for example, human faces and MNIST digits), and it is known to perform poorly on out-of-distribution samples. In this paper, we present the first successful application of the CSGM framework on clinical MRI data. We train a generative prior on brain scans from the fastMRI dataset, and show that posterior sampling via Langevin dynamics achieves high quality reconstructions. Furthermore, our experiments and theory show that posterior sampling is robust to changes in the ground-truth distribution and measurement process. Our code and models are available at: \url{https://github.com/u tcsilab/csgm-mri-lan gevin}.
翻訳日:2021-08-04 18:41:32 公開日:2021-08-03
# (参考訳) 身体リハビリテーションにおける行動の正しさの分類 [全文訳有]

Classifying action correctness in physical rehabilitation exercises ( http://arxiv.org/abs/2108.01375v1 )

ライセンス: CC BY-SA 4.0
Alina Miron and Crina Grosan(参考訳) 本稿では,人間の動作や行動の正しさを評価する上で,機械学習が果たす役割に焦点を当てる。 このタスクはジェスチャーやアクション認識よりも難しいことが証明されている。 最近のデータセットでの一連の実験を通じて、機械学習アルゴリズムは特定のアクションに対して良い結果をもたらすことができるが、アクションの誤った実行を別のアクションの正しい実行として分類する罠に陥る可能性があることを実証する。

The work in this paper focuses on the role of machine learning in assessing the correctness of a human motion or action. This task proves to be more challenging than the gesture and action recognition ones. We will demonstrate, through a set of experiments on a recent dataset, that machine learning algorithms can produce good results for certain actions, but can also fall into the trap of classifying an incorrect execution of an action as a correct execution of another action.
翻訳日:2021-08-04 18:40:02 公開日:2021-08-03
# (参考訳) ニューラルマシン翻訳のための動的頭部重要度計算機構 [全文訳有]

A Dynamic Head Importance Computation Mechanism for Neural Machine Translation ( http://arxiv.org/abs/2108.01377v1 )

ライセンス: CC BY 4.0
Akshay Goindani and Manish Shrivastava(参考訳) 複数のアテンションヘッドを使用するマルチパラレルアテンション機構は、ニューラルネットワーク翻訳(nmt)やテキスト分類など、様々な用途においてトランスフォーマーモデルの性能を高める。 マルチヘッドアテンション機構では、異なるヘッドが入力の異なる部分に参加する。 しかし、制限は、複数のヘッドが入力の同じ部分に参加する可能性があり、結果として複数のヘッドが冗長になる。 したがって、モデルリソースは未利用である。 これを避けるための1つのアプローチは、特定の重要度スコアに基づいて、最小の重要度を推定することである。 本研究では,入力に対する頭部の重要性を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点を当てる。 我々の洞察は、多視点の注意と共に追加の注意層を設計し、入力とともに多視点の注意の出力を利用して、各頭部の重要度を計算することである。 さらに、モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、性能を即興的に向上させる。 異なる言語を用いたNMTにおけるDHICMの性能解析を行った。 異なるデータセットの実験によると、DHICMは従来のTransformerベースのアプローチよりも、特にトレーニングデータが少ない場合には、大きなマージンでパフォーマンスが向上する。

Multiple parallel attention mechanisms that use multiple attention heads facilitate greater performance of the Transformer model for various applications e.g., Neural Machine Translation (NMT), text classification. In multi-head attention mechanism, different heads attend to different parts of the input. However, the limitation is that multiple heads might attend to the same part of the input, resulting in multiple heads being redundant. Thus, the model resources are under-utilized. One approach to avoid this is to prune least important heads based on certain importance score. In this work, we focus on designing a Dynamic Head Importance Computation Mechanism (DHICM) to dynamically calculate the importance of a head with respect to the input. Our insight is to design an additional attention layer together with multi-head attention, and utilize the outputs of the multi-head attention along with the input, to compute the importance for each head. Additionally, we add an extra loss function to prevent the model from assigning same score to all heads, to identify more important heads and improvise performance. We analyzed performance of DHICM for NMT with different languages. Experiments on different datasets show that DHICM outperforms traditional Transformer-based approach by large margin, especially, when less training data is available.
翻訳日:2021-08-04 18:34:20 公開日:2021-08-03
# (参考訳) MixMicrobleedNet: nnU-Netを用いた脳微小血腫のセグメンテーション [全文訳有]

MixMicrobleedNet: segmentation of cerebral microbleeds using nnU-Net ( http://arxiv.org/abs/2108.01389v1 )

ライセンス: CC BY 4.0
Hugo J. Kuijf(参考訳) 脳微小血腫は、MRI(MRI)で視認できる小さな低濃度病変であり、勾配エコー、T2*、感受性強調画像(SWI)を呈する。 脳微小出血の評価は主に視覚検査によって行われる。 過去10年間、評価を助けるセミオートマチックなツールが登場し、最近ではマイクロ出血検出のための完全に自動化されたツールが登場した。 本研究では,マイクロブラインドセグメンテーションのための完全自動化ツールとして,nnU-Netの利用について検討する。 データは ``where is valdo''' によって提供された。 MICCAI 2021の挑戦。 最後のメソッドは、すべてのデータ(fold = `all')でトレーニングされた ``3D full resolution U-Net'' 構成の nnU-Net で構成されている。 nnu-netのポストプロセッシングオプションは使用されなかった。 トレーニングデータに対する自己評価の結果,推定サイクリングは0.80,偽発見率は0.16,偽陰性率は0.15であった。 VALDOチャレンジのテストセットに関する最終評価が保留されています。 結果の視覚検査では、報告された偽陽性のほとんどは、視覚評価中に見逃されたかもしれない実際の微血である可能性が示された。 ソースコードはhttps://github.com/h jkuijf/mixmicrobleed net。 dockerコンテナhjkuijf/mixmicroblee dnetはhttps://hub.docker.c om/r/hjkuijf/mixmicr obleednetからプルできる。

Cerebral microbleeds are small hypointense lesions visible on magnetic resonance imaging (MRI) with gradient echo, T2*, or susceptibility weighted (SWI) imaging. Assessment of cerebral microbleeds is mostly performed by visual inspection. The past decade has seen the rise of semi-automatic tools to assist with rating and more recently fully automatic tools for microbleed detection. In this work, we explore the use of nnU-Net as a fully automated tool for microbleed segmentation. Data was provided by the ``Where is VALDO?'' challenge of MICCAI 2021. The final method consists of nnU-Net in the ``3D full resolution U-Net'' configuration trained on all data (fold = `all'). No post-processing options of nnU-Net were used. Self-evaluation on the training data showed an estimated Dice of 0.80, false discovery rate of 0.16, and false negative rate of 0.15. Final evaluation on the test set of the VALDO challenge is pending. Visual inspection of the results showed that most of the reported false positives could be an actual microbleed that might have been missed during visual rating. Source code is available at: https://github.com/h jkuijf/MixMicrobleed Net . The docker container hjkuijf/mixmicroblee dnet can be pulled from https://hub.docker.c om/r/hjkuijf/mixmicr obleednet .
翻訳日:2021-08-04 18:23:36 公開日:2021-08-03
# (参考訳) evo-vit: ダイナミックビジョントランスフォーマーのための低速トークン進化 [全文訳有]

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer ( http://arxiv.org/abs/2108.01390v1 )

ライセンス: CC0 1.0
Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun(参考訳) 視覚変換器は最近爆発的な人気を得たが、計算コストは依然として深刻な問題である。 視覚トランスフォーマーの最近の効率的な設計は、2つのパイプライン、すなわち局所空間前置および非構造トークンプラニングに基づく構造的圧縮に従う。 しかしながら、ラフトークンの刈り取りは、局所空間に必要不可欠な空間構造を壊す。 2つのパイプラインの利点を生かすために、この研究は、各インスタンスのインフォーマティブなトークンを動的に識別し、完全な空間構造と情報フローを維持しながら、トレーニングと推論の複雑さを縮小することを目指している。 この目的を達成するために,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。 具体的には,視覚トランスフォーマー特有のグローバルクラスの注意を生かして,非構造化インスタンス単位のトークン選択を行う。 そこで本稿では,情報トークンとプレースホルダトークンの更新を提案する。 情報の流れと空間構造を保証する低速な更新機構のおかげで、evo-vitはトレーニングプロセスの初期段階から、フラット構造とディープナロー構造のバニラトランスフォーマを加速することができる。 実験により,提案手法は画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減できることを示した。 例えば,0.4%のtop-1精度を犠牲にしながら,deit-sを60%以上のスループットで高速化する。

Vision transformers have recently received explosive popularity, but huge computational cost is still a severe issue. Recent efficient designs for vision transformers follow two pipelines, namely, structural compression based on local spatial prior and non-structural token pruning. However, rough token pruning breaks the spatial structure that is indispensable for local spatial prior. To take advantage of both two pipelines, this work seeks to dynamically identify uninformative tokens for each instance and trim down both the training and inference complexity while maintain complete spatial structure and information flow. To achieve this goal, we propose Evo-ViT, a self-motivated slow-fast token evolution method for vision transformers. Specifically, we conduct unstructured instance-wise token selection by taking advantage of the global class attention that is unique to vision transformers. Then, we propose to update information tokens and placeholder tokens that contribute little to the final prediction with different computational properties, namely, slow-fast updating. Thanks to the slow-fast updating mechanism that guarantees information flow and spatial structure, our Evo-ViT can accelerate vanilla transformers of both flat and deep-narrow structures from the very beginning of the training process. Experimental results demonstrate that the proposed method can significantly reduce the computational costs of vision transformers while maintaining comparable performance on image classification. For example, our method accelerates DeiT-S by over 60% throughput while only sacrificing 0.4% top-1 accuracy.
翻訳日:2021-08-04 18:10:08 公開日:2021-08-03
# (参考訳) 確率型インスタンスフィルタを用いた雑音耐性深度学習 [全文訳有]

Noise-Resistant Deep Metric Learning with Probabilistic Instance Filtering ( http://arxiv.org/abs/2108.01431v1 )

ライセンス: CC BY 4.0
Chang Liu, Han Yu, Boyang Li, Zhiqi Shen, Zhanning Gao, Peiran Ren, Xuansong Xie, Lizhen Cui, Chunyan Miao(参考訳) ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。 データを手動で掃除することは労働集約的で時間を要する。 従来の研究は主にノイズラベルに対する分類モデルの強化に重点を置いていたが、ディープ・メトリック・ラーニング(DML)のノイズラベルに対する堅牢性はいまだによく研究されていない。 本稿では,DMLに対する確率的ランク付けに基づくインスタンス選択(PRISM)手法を提案することにより,この重要なギャップを埋める。 PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。 具体的には,(1)潜在的にノイズの多いデータとクリーンデータの平均的類似度を計算する平均的類似度法(avgsim),2)avgsimが維持するセンターをプロキシベースで訓練されたプロキシで置き換えるプロキシ類似度法(proxysim),3)各データクラスに対するvon mises-fisher分布類似度を推定するvon mises-fisher distribution similarity(vmf-sim)の3つの方法を提案する。 このような設計により、提案手法は、サンプルの大多数がノイズの多いdmlの困難な状況に対処することができる。 合成および実世界のノイズデータセットの大規模な実験により、提案手法は適切なトレーニング時間内に、最高の最先端ベースラインアプローチと比較して最大8.37%精度が達成されている。

Noisy labels are commonly found in real-world data, which cause performance degradation of deep neural networks. Cleaning data manually is labour-intensive and time-consuming. Previous research mostly focuses on enhancing classification models against noisy labels, while the robustness of deep metric learning (DML) against noisy labels remains less well-explored. In this paper, we bridge this important gap by proposing Probabilistic Ranking-based Instance Selection with Memory (PRISM) approach for DML. PRISM calculates the probability of a label being clean, and filters out potentially noisy samples. Specifically, we propose three methods to calculate this probability: 1) Average Similarity Method (AvgSim), which calculates the average similarity between potentially noisy data and clean data; 2) Proxy Similarity Method (ProxySim), which replaces the centers maintained by AvgSim with the proxies trained by proxy-based method; and 3) von Mises-Fisher Distribution Similarity (vMF-Sim), which estimates a von Mises-Fisher distribution for each data class. With such a design, the proposed approach can deal with challenging DML situations in which the majority of the samples are noisy. Extensive experiments on both synthetic and real-world noisy dataset show that the proposed approach achieves up to 8.37% higher Precision@1 compared with the best performing state-of-the-art baseline approaches, within reasonable training time.
翻訳日:2021-08-04 17:54:50 公開日:2021-08-03
# (参考訳) ロボットグラスピング・マニピュレーションコンペティションの課題と進展 [全文訳有]

Research Challenges and Progress in Robotic Grasping and Manipulation Competitions ( http://arxiv.org/abs/2108.01483v1 )

ライセンス: CC BY 4.0
Yu Sun, Joe Falco, Maximo A. Roa, and Berk Calli(参考訳) 本稿では,ロボットグリップ・マニピュレーション・コンペティション(RGMC)におけるロボットの把握と操作に関する最近の研究動向について述べる。 まず,ロボット操作分野に関する過去のベンチマークとコンペの概要について述べる。 次に,RGMCにおける操作タスク設計の方法論について議論する。 近年,各タスクの主要な課題を詳細に分析し,競合するチームのパフォーマンスに基づいて最も困難な側面を特定している。 このような分析は、ロボット操作領域の今後の研究方向を決定する洞察に富んでいると信じている。

This paper discusses recent research progress in robotic grasping and manipulation in the light of the latest Robotic Grasping and Manipulation Competitions (RGMCs). We first provide an overview of past benchmarks and competitions related to the robotics manipulation field. Then, we discuss the methodology behind designing the manipulation tasks in RGMCs. We provide a detailed analysis of key challenges for each task and identify the most difficult aspects based on the competing teams' performance in recent years. We believe that such an analysis is insightful to determine the future research directions for the robotic manipulation domain.
翻訳日:2021-08-04 17:29:39 公開日:2021-08-03
# (参考訳) 貯留層計算のためのタスク非依存メトリクス [全文訳有]

Task Agnostic Metrics for Reservoir Computing ( http://arxiv.org/abs/2108.01512v1 )

ライセンス: CC BY 4.0
Jake Love, Jeroen Mulkers, George Bourianoff, Jonathan Leliaert and Karin Everschor-Sitte(参考訳) 物理貯水池計算は時間的パターン認識を物理的に直接行うことができる計算パラダイムである。 非線形力学系をエキサイティングにし、状態の変化を線形に分類することで、シナプスで相互接続された数百万のニューロンからなるモジュラーシステムを構築することなく、機械学習タスクを解くことができる高エネルギー効率デバイスを作成できる。 選択力学系は、非線形性、複雑性、フェージングメモリという3つの望ましい性質を持ち、効果的な貯水池として機能する必要がある。 これら3つの要件のそれぞれについてタスク非依存の定量的測定を行い、エコー状態ネットワークと模擬磁気スカイミオンベース貯水池の2つの貯水池を例示する。 一般に, 減衰率の低いシステムは, 3つの指標すべてにおいて高い値に達することを示す。 入力信号強度については、メモリ容量と貯水池の挙動の非線形性との間に自然なトレードオフがある。 典型的なタスク依存型貯水池計算ベンチマークとは対照的に、これらのメトリクスは単一の入力信号から並列に評価することができ、パラメータ探索を劇的に高速化し、効率的で高性能な貯水池を設計することができる。

Physical reservoir computing is a computational paradigm that enables temporal pattern recognition to be performed directly in physical matter. By exciting non-linear dynamical systems and linearly classifying their changes in state, we can create highly energy-efficient devices capable of solving machine learning tasks without the need to build a modular system consisting of millions of neurons interconnected by synapses. The chosen dynamical system must have three desirable properties: non-linearity, complexity, and fading memory to act as an effective reservoir. We present task agnostic quantitative measures for each of these three requirements and exemplify them for two reservoirs: an echo state network and a simulated magnetic skyrmion-based reservoir. We show that, in general, systems with lower damping reach higher values in all three performance metrics. Whilst for input signal strength, there is a natural trade-off between memory capacity and non-linearity of the reservoir's behaviour. In contrast to typical task-dependent reservoir computing benchmarks, these metrics can be evaluated in parallel from a single input signal, drastically speeding up the parameter search to design efficient and high-performance reservoirs.
翻訳日:2021-08-04 17:08:44 公開日:2021-08-03
# (参考訳) 対脚把持検出のためのダブルドットネットワーク [全文訳有]

Double-Dot Network for Antipodal Grasp Detection ( http://arxiv.org/abs/2108.01527v1 )

ライセンス: CC BY 4.0
Yao Wang, Yangtao Zheng, Boyang Gao and Di Huang(参考訳) 本論文では,ダブルドットネットワーク(dd-net)と呼ばれる対脚把持検出のための新しい深層学習手法を提案する。 これは最近のアンカーフリーオブジェクト検出フレームワークに準拠しており、経験的な事前セットアンカーに依存しないため、見えないオブジェクトに対してより一般化し柔軟な予測を可能にする。 具体的には、広く使われている5次元矩形とは異なり、グリッパー配置は指先の一対として定義される。 このような指先をローカライズするために効果的なCNNアーキテクチャを導入し、改良のための補助センターの助けを借りて、把握候補を正確かつ堅牢に推測する。 さらに,把持の質を測定するための特殊損失関数の設計を行い,対象検出に採用される境界ボックスのiouスコアとは対照的に,把持検出タスクに一貫性があることを示す。 シミュレーションとロボット実験の両方が実行され、dd-netは目に見えない物体の処理においてより優れていることを示している。

This paper proposes a new deep learning approach to antipodal grasp detection, named Double-Dot Network (DD-Net). It follows the recent anchor-free object detection framework, which does not depend on empirically pre-set anchors and thus allows more generalized and flexible prediction on unseen objects. Specifically, unlike the widely used 5-dimensional rectangle, the gripper configuration is defined as a pair of fingertips. An effective CNN architecture is introduced to localize such fingertips, and with the help of auxiliary centers for refinement, it accurately and robustly infers grasp candidates. Additionally, we design a specialized loss function to measure the quality of grasps, and in contrast to the IoU scores of bounding boxes adopted in object detection, it is more consistent to the grasp detection task. Both the simulation and robotic experiments are executed and state of the art accuracies are achieved, showing that DD-Net is superior to the counterparts in handling unseen objects.
翻訳日:2021-08-04 16:56:51 公開日:2021-08-03
# (参考訳) 階層的ビジョンモデルにおけるスパース符号化による推論

Inference via Sparse Coding in a Hierarchical Vision Model ( http://arxiv.org/abs/2108.01548v1 )

ライセンス: CC BY 4.0
Joshua Bowren, Luis Sanchez-Giraldo, and Odelia Schwartz(参考訳) スパースコーディングは、計算の利点と生物学とのつながりのために、視覚野のモデルに取り入れられている。 しかし、空間性のレベルが視覚的タスクのパフォーマンスにどのように貢献するかはよく理解されていない。 本研究では、スパース符号化を既存の階層型v2モデル(hosoya and hyv\"arinen, 2015)に統合しているが、独立成分分析(ica)をスパース度を制御する明示的なスパース符号化に置き換えている。 トレーニング後、スパース符号化基底は、曲線やコーナーのような質的に異なる構造に類似した高いスパース度で機能する。 モデルの寄与度は,物体の分類を含む画像分類タスクと,図形の分類,テクスチャの分類,二線刺激間の角度予測を含む中レベルの視覚に関連するタスクで評価した。 さらに,v2 (freeman et al., 2013) で報告されたテクスチャ感度尺度と,削除された領域推定タスクとの比較検討を行った。 実験の結果,スパース符号化は画像の分類においてICAよりも悪い結果を示したが,スパース符号化の疎度を増大させることで,V2のテクスチャ感度レベルと削除画像領域の推測に適合できるのはスパース符号化のみであった。 より大きな削除画像領域に対する推論が可能になった。 スパース符号化におけるこの推論機能を実現するメカニズムを以下に説明する。

Sparse coding has been incorporated in models of the visual cortex for its computational advantages and connection to biology. But how the level of sparsity contributes to performance on visual tasks is not well understood. In this work, sparse coding has been integrated into an existing hierarchical V2 model (Hosoya and Hyv\"arinen, 2015), but replacing the Independent Component Analysis (ICA) with an explicit sparse coding in which the degree of sparsity can be controlled. After training, the sparse coding basis functions with a higher degree of sparsity resembled qualitatively different structures, such as curves and corners. The contributions of the models were assessed with image classification tasks, including object classification, and tasks associated with mid-level vision including figure-ground classification, texture classification, and angle prediction between two line stimuli. In addition, the models were assessed in comparison to a texture sensitivity measure that has been reported in V2 (Freeman et al., 2013), and a deleted-region inference task. The results from the experiments show that while sparse coding performed worse than ICA at classifying images, only sparse coding was able to better match the texture sensitivity level of V2 and infer deleted image regions, both by increasing the degree of sparsity in sparse coding. Higher degrees of sparsity allowed for inference over larger deleted image regions. The mechanism that allows for this inference capability in sparse coding is described here.
翻訳日:2021-08-04 16:42:58 公開日:2021-08-03
# (参考訳) ハイパースペクトル画像認識のためのドメインアダプタネットワーク [全文訳有]

Domain Adaptor Networks for Hyperspectral Image Recognition ( http://arxiv.org/abs/2108.01555v1 )

ライセンス: CC BY 4.0
Gustavo Perez and Subhransu Maji(参考訳) 本研究では,3チャンネルカラー画像に訓練されたネットワークを,多数のチャネルを有する超スペクトル領域に適用する問題を考える。 そこで本稿では,ImageNetなどの大規模カラー画像データセットでトレーニングされたネットワークと互換性のある入力をマップするドメインアダプタネットワークを提案する。 アダプタは、スクラッチからネットワークをトレーニングすることが効果的でない小さなハイパースペクトルデータセットで学習することができる。 適応者を訓練するためのアーキテクチャや戦略を調査し、複数のハイパースペクトルデータセットからなるベンチマークで評価する。 線形射影や部分集合選択のような単純なスキームは、しばしば最も効果的であるが、場合によっては性能が低下する可能性がある。 また,ネットワークの中間層に新たなマルチビューアダプタを組み込むことにより,さらなる改善を実現する。 これらの適応子が提供する精度と計算トレードオフを特徴付けるために,ベンチマークのトレーニング例の数を変えることで,広範な実験を行う。

We consider the problem of adapting a network trained on three-channel color images to a hyperspectral domain with a large number of channels. To this end, we propose domain adaptor networks that map the input to be compatible with a network trained on large-scale color image datasets such as ImageNet. Adaptors enable learning on small hyperspectral datasets where training a network from scratch may not be effective. We investigate architectures and strategies for training adaptors and evaluate them on a benchmark consisting of multiple hyperspectral datasets. We find that simple schemes such as linear projection or subset selection are often the most effective, but can lead to a loss in performance in some cases. We also propose a novel multi-view adaptor where of the inputs are combined in an intermediate layer of the network in an order invariant manner that provides further improvements. We present extensive experiments by varying the number of training examples in the benchmark to characterize the accuracy and computational trade-offs offered by these adaptors.
翻訳日:2021-08-04 16:40:52 公開日:2021-08-03
# (参考訳) トランジェントに基づく離散力学系の分類 [全文訳有]

Classification of Discrete Dynamical Systems Based on Transients ( http://arxiv.org/abs/2108.01573v1 )

ライセンス: CC BY 4.0
Barbora Hudcov\'a and Tom\'a\v{s} Mikolov(参考訳) 人工進化が可能なシステムを開発するためには、どのシステムが複雑な振る舞いを生成できるかを特定する必要がある。 決定論的離散空間と時間力学系の任意のクラスに適用可能な新しい分類法を提案する。 この方法は、ループに入る前に、所定のシステムにおける平均計算時間の漸近挙動を分類することに基づいている。 動的システムの様々なクラスにわたる順序づけられた振る舞いからカオスへの相転移に対応する行動の臨界領域を特定することができた。 本手法が様々な計算システムに適用可能であることを示すために,セルオートマトン,チューリングマシン,ランダムブールネットワークの分類結果を示す。 さらに, この手法を用いて2次元セルオートマトンを分類し, 興味深く複雑なダイナミックスを持つ人を自動的に見つける。 私たちは、複雑な構造が出現するシステムを設計するために、我々の仕事が使えると信じています。 また、open-ended evolution (ray (1991), ofria et al のモデル化の試みの様々なバージョンを比較するのに使うことができる。 (2004年)、チャノン(2006年)。

In order to develop systems capable of artificial evolution, we need to identify which systems can produce complex behavior. We present a novel classification method applicable to any class of deterministic discrete space and time dynamical systems. The method is based on classifying the asymptotic behavior of the average computation time in a given system before entering a loop. We were able to identify a critical region of behavior that corresponds to a phase transition from ordered behavior to chaos across various classes of dynamical systems. To show that our approach can be applied to many different computational systems, we demonstrate the results of classifying cellular automata, Turing machines, and random Boolean networks. Further, we use this method to classify 2D cellular automata to automatically find those with interesting, complex dynamics. We believe that our work can be used to design systems in which complex structures emerge. Also, it can be used to compare various versions of existing attempts to model open-ended evolution (Ray (1991), Ofria et al. (2004), Channon (2006)).
翻訳日:2021-08-04 16:24:48 公開日:2021-08-03
# (参考訳) SPG-VTON:多目的仮想試行のための意味予測ガイダンス [全文訳有]

SPG-VTON: Semantic Prediction Guidance for Multi-pose Virtual Try-on ( http://arxiv.org/abs/2108.01578v1 )

ライセンス: CC BY 4.0
Bingwen Hu, Ping Liu, Zhedong Zheng, and Mingwu Ren(参考訳) イメージベースの仮想試着は、多様な人間のポーズの下で、ターゲットのインショップ服を基準人物に適合させることが難しい。 以前の作品では、特定のポーズで対象人物に希望の服を移す際に、衣料品の詳細(テクスチャ、ロゴ、パターンなど)を保存することに焦点を当てていた。 しかし、既存のメソッドをマルチ目的仮想トライオンに拡張する際、既存のメソッドのパフォーマンスは大幅に低下した。 本稿では,目的の衣服を任意のポーズで基準人物に適合させることができる,エンドツーエンド意味予測ガイダンスマルチポステッド仮想試着ネットワーク(spg-vton)を提案する。 具体的には、SPG-VTONは3つのサブモジュールから構成される。 まず、意味予測モジュール(SPM)が所望のセマンティックマップを生成する。 予測されたセマンティックマップは、望ましい衣服領域を特定し、粗い試着画像を生成するためのより豊富なガイダンスを提供する。 第二に、CWM(Crothes Warping Module)は、予測されたセマンティックマップと所望のポーズに従って、洋服を所望の形状にワープする。 具体的には, 衣服の反りを緩和するために, 導電性サイクル一貫性の損失を導入する。 第3に、試着合成モジュール(TSM)は、粗い結果と歪んだ服を組み合わせ、最終的な仮想試着画像を生成し、所望の服の詳細と所望のポーズで保存する。 さらに,顔の外観を洗練し,最終的な仮想トライオン結果の同一性を維持するために,顔のアイデンティティ損失を導入する。 提案手法を,最大規模の多目的データセット(MPV)とDeepFashionデータセットで評価する。 定性的かつ定量的な実験は、SPG-VTONが最先端の手法よりも優れており、背景やアクセサリの変更、すなわち帽子やハンドバッグなどのデータノイズに対して堅牢であり、現実のシナリオに優れたスケーラビリティを示すことを示している。

Image-based virtual try-on is challenging in fitting a target in-shop clothes into a reference person under diverse human poses. Previous works focus on preserving clothing details ( e.g., texture, logos, patterns ) when transferring desired clothes onto a target person under a fixed pose. However, the performances of existing methods significantly dropped when extending existing methods to multi-pose virtual try-on. In this paper, we propose an end-to-end Semantic Prediction Guidance multi-pose Virtual Try-On Network (SPG-VTON), which could fit the desired clothing into a reference person under arbitrary poses. Concretely, SPG-VTON is composed of three sub-modules. First, a Semantic Prediction Module (SPM) generates the desired semantic map. The predicted semantic map provides more abundant guidance to locate the desired clothes region and produce a coarse try-on image. Second, a Clothes Warping Module (CWM) warps in-shop clothes to the desired shape according to the predicted semantic map and the desired pose. Specifically, we introduce a conductible cycle consistency loss to alleviate the misalignment in the clothes warping process. Third, a Try-on Synthesis Module (TSM) combines the coarse result and the warped clothes to generate the final virtual try-on image, preserving details of the desired clothes and under the desired pose. Besides, we introduce a face identity loss to refine the facial appearance and maintain the identity of the final virtual try-on result at the same time. We evaluate the proposed method on the most massive multi-pose dataset (MPV) and the DeepFashion dataset. The qualitative and quantitative experiments show that SPG-VTON is superior to the state-of-the-art methods and is robust to the data noise, including background and accessory changes, i.e., hats and handbags, showing good scalability to the real-world scenario.
翻訳日:2021-08-04 16:02:17 公開日:2021-08-03
# (参考訳) ExBERT: 自然言語推論のための外部知識強化BERT [全文訳有]

ExBERT: An External Knowledge Enhanced BERT for Natural Language Inference ( http://arxiv.org/abs/2108.01589v1 )

ライセンス: CC BY-SA 4.0
Amit Gajbhiye, Noura Al Moubayed, Steven Bradley(参考訳) BERTのようなニューラルネットワーク表現モデルは、大規模非構造化コーパスで事前訓練されており、現実世界のコモンセンス知識に明確な根拠がなく、推論や推論に必要な事実を記憶できないことが多い。 自然言語推論(英: natural language inference、nli)は、言語と現実世界の常識知識の共通理解に依存する難しい推論タスクである。 我々は,外部知識源からの実世界のコモンセンス知識による文脈表現を強化し,BERTの言語理解と推論能力を向上させるために,external Knowledge Enhanced BERT (ExBERT) と呼ばれるNLIの新しいモデルを導入する。 ExBERTは、BERTから得られた文脈表現を最大限に活用し、知識グラフから関連する外部知識を取得し、検索した外部知識を符号化する。 我々のモデルは、入力に対する推論に必要な外部知識コンテキストを適応的に組み込む。 挑戦的なSciTailとSNLIベンチマークに関する大規模な実験では、ExBERTの有効性が示され、従来の最先端技術と比較して、SciTailでは95.9%、SNLIでは91.5%の精度が得られた。

Neural language representation models such as BERT, pre-trained on large-scale unstructured corpora lack explicit grounding to real-world commonsense knowledge and are often unable to remember facts required for reasoning and inference. Natural Language Inference (NLI) is a challenging reasoning task that relies on common human understanding of language and real-world commonsense knowledge. We introduce a new model for NLI called External Knowledge Enhanced BERT (ExBERT), to enrich the contextual representation with real-world commonsense knowledge from external knowledge sources and enhance BERT's language understanding and reasoning capabilities. ExBERT takes full advantage of contextual word representations obtained from BERT and employs them to retrieve relevant external knowledge from knowledge graphs and to encode the retrieved external knowledge. Our model adaptively incorporates the external knowledge context required for reasoning over the inputs. Extensive experiments on the challenging SciTail and SNLI benchmarks demonstrate the effectiveness of ExBERT: in comparison to the previous state-of-the-art, we obtain an accuracy of 95.9% on SciTail and 91.5% on SNLI.
翻訳日:2021-08-04 15:36:07 公開日:2021-08-03
# (参考訳) 人工知能のソフトウェア工学への応用 : 従来の知恵に挑戦するレビュー

The application of artificial intelligence in software engineering: a review challenging conventional wisdom ( http://arxiv.org/abs/2108.01591v1 )

ライセンス: CC BY 4.0
Feras A. Batarseh, Rasika Mohod, Abhinav Kumar, Justin Bui(参考訳) 人工知能(AI)の分野は、最近の研究、ツール開発、アプリケーションのデプロイの急増を目撃している。 複数のソフトウェア企業が、インテリジェントなシステム開発に重点を移しており、他の多くの企業は、既存のプロセスにAIパラダイムをデプロイしている。 並行して、学術研究コミュニティは、従来のエンジニアリング問題に対するソリューションを提供するために、AIパラダイムを注入している。 同様に、AIは明らかにソフトウェア工学(SE)に有用であることが証明されている。 seフェーズ(要求、設計、開発、テスト、リリース、メンテナンス)を観察すると、複数のaiパラダイム(ニューラルネットワーク、機械学習、知識ベースシステム、自然言語処理など)がプロセスを改善するために適用され、se分野が直面している多くの大きな課題を取り除けることが明らかになります。 この調査章は、SEに適用されるAIの最も一般的な方法のレビューである。 このレビューでは、要件フェーズの1975~2017年、46のAI駆動メソッド、設計のための19、開発のための15、テストのための68、リリースとメンテナンスのための15の方法を取り上げている。 さらに、この章の目的は3つある: まず、以下の質問に答える: seライフサイクルには十分な知性があるか? SEにAIを適用するには、何が必要ですか? 次に、SEフェーズとAIの規律の重複を計測し、フォーミュライズし、評価する。 最後に、この章は、現在の伝統的な知恵(すなわち、最先端技術)に挑戦し、行動を呼び起こし、進路を再定義するために真剣な質問を行うことを目的とする。

The field of artificial intelligence (AI) is witnessing a recent upsurge in research, tools development, and deployment of applications. Multiple software companies are shifting their focus to developing intelligent systems; and many others are deploying AI paradigms to their existing processes. In parallel, the academic research community is injecting AI paradigms to provide solutions to traditional engineering problems. Similarly, AI has evidently been proved useful to software engineering (SE). When one observes the SE phases (requirements, design, development, testing, release, and maintenance), it becomes clear that multiple AI paradigms (such as neural networks, machine learning, knowledge-based systems, natural language processing) could be applied to improve the process and eliminate many of the major challenges that the SE field has been facing. This survey chapter is a review of the most commonplace methods of AI applied to SE. The review covers methods between years 1975-2017, for the requirements phase, 46 major AI-driven methods are found, 19 for design, 15 for development, 68 for testing, and 15 for release and maintenance. Furthermore, the purpose of this chapter is threefold; firstly, to answer the following questions: is there sufficient intelligence in the SE lifecycle? What does applying AI to SE entail? Secondly, to measure, formulize, and evaluate the overlap of SE phases and AI disciplines. Lastly, this chapter aims to provide serious questions to challenging the current conventional wisdom (i.e., status quo) of the state-of-the-art, craft a call for action, and to redefine the path forward.
翻訳日:2021-08-04 15:24:23 公開日:2021-08-03
# (参考訳) 拡張顕微鏡から位相トランスフォーマーへ : アルツハイマー病研究のための細胞画像解析の新しいアプローチ

From augmented microscopy to the topological transformer: a new approach in cell image analysis for Alzheimer's research ( http://arxiv.org/abs/2108.01625v1 )

ライセンス: CC BY 4.0
Wooseok Jung(参考訳) 細胞画像解析はアルツハイマー病の研究において、細胞機能を抑制するa$\beta$タンパク質の存在を検出するのに不可欠である。 ディープラーニングは、低レベルのデータのみを実りある検査に十分なものにすることで、プロセスをスピードアップする。 Unetは,マルチクラスセマンティックスセグメンテーションの性能を比較することで,拡張顕微鏡に最も適していることがわかった。 我々は,Unetモデルを用いて,光電場画像中の原子核を捕捉する拡張顕微鏡法を開発し,入力画像を位相情報列に変換する。 画像の前処理と地中生成の選択に関して, 交点オーバー結合に関する性能は一致している。 特定の細胞型のデータを用いたトレーニングモデルでは、ある程度の転送学習が適用される。 トポロジカルトランスフォーマーは、与えられた細胞の画像の幾何学的情報を含む永続シルエットまたはランドスケープシグネチャを抽出することを目的としている。 この特徴抽出は、画像を1次元データの集合として研究し、計算コストを大幅に削減する。 トランスフォーマを用いて, 位相的特徴のみに依存するセルタイプによるセルイメージのグルーピングを試みる。 SVM, XGBoost, LGBM, および単純な畳み込みニューラルネットワーク分類器の性能は, 従来の画像分類より劣る。 しかし,本研究では,画像解析のための深層学習とトポロジーを組み合わせることで,生体医学研究における新たな視点を開拓する。

Cell image analysis is crucial in Alzheimer's research to detect the presence of A$\beta$ protein inhibiting cell function. Deep learning speeds up the process by making only low-level data sufficient for fruitful inspection. We first found Unet is most suitable in augmented microscopy by comparing performance in multi-class semantics segmentation. We develop the augmented microscopy method to capture nuclei in a brightfield image and the transformer using Unet model to convert an input image into a sequence of topological information. The performance regarding Intersection-over-Un ion is consistent concerning the choice of image preprocessing and ground-truth generation. Training model with data of a specific cell type demonstrates transfer learning applies to some extent. The topological transformer aims to extract persistence silhouettes or landscape signatures containing geometric information of a given image of cells. This feature extraction facilitates studying an image as a collection of one-dimensional data, substantially reducing computational costs. Using the transformer, we attempt grouping cell images by their cell type relying solely on topological features. Performances of the transformers followed by SVM, XGBoost, LGBM, and simple convolutional neural network classifiers are inferior to the conventional image classification. However, since this research initiates a new perspective in biomedical research by combining deep learning and topology for image analysis, we speculate follow-up investigation will reinforce our genuine regime.
翻訳日:2021-08-04 15:23:17 公開日:2021-08-03
# (参考訳) the devil is in the gan: defending deep generative models against backdoor attack (英語)

The Devil is in the GAN: Defending Deep Generative Models Against Backdoor Attacks ( http://arxiv.org/abs/2108.01644v1 )

ライセンス: CC BY 4.0
Ambrish Rawat, Killian Levacher, Mathieu Sinn(参考訳) Deep Generative Models (DGM) は、複雑な高次元多様体からデータを合成することができる。 dgmsの業界応用には、(半)教師付き機械学習のパフォーマンス向上や公平さやプライバシーの懸念を軽減するためのデータ拡張が含まれている。 大規模なdgmは訓練が難しいことで悪名高く、専門的なスキル、大量のデータ、膨大な計算リソースを必要とする。 したがって、多くの企業が、未検証のサードパーティ(例えばオープンソースモデルリポジトリ)から事前訓練済みのDGMをソーシングすることに頼ることが期待できる。 本稿で示すように、そのようなデプロイメントシナリオは新たな攻撃面を生じさせ、敵が犠牲者組織内の機械学習開発パイプライン全体の完全性を損なう可能性がある。 具体的には,正規操作下で正規データを合成する破壊型dgmと,トリガー分布からサンプリングされた入力に対して指定された目標出力を生成する新たなトレーニング時間攻撃について述べる。 敵が乱数生成を克服する制御によって、有害なデータが機械学習開発パイプラインに入る様々なリスクを課し、被害者組織に物質的または評判的なダメージを与える可能性がある。 我々の攻撃は、攻撃ステルスと忠実性の二重目的を組み合わせた敵の損失関数に基づいている。 本稿では,GAN(Generative Adversarial Networks)やVAE(VAE),データドメイン(イメージ,オーディオ)など,さまざまなDGMアーキテクチャの有効性を示す。 我々の実験は、大規模産業レベルのDGMであっても、我々の攻撃は控えめな計算努力で実施できることを示している。 また,異なる防衛手法(静的・動的モデルと出力検査に基づく)の有効性について検討し,DGMの安全な使用方法を示す実用的な防衛戦略を定めている。

Deep Generative Models (DGMs) allow users to synthesize data from complex, high-dimensional manifolds. Industry applications of DGMs include data augmentation to boost performance of (semi-)supervised machine learning, or to mitigate fairness or privacy concerns. Large-scale DGMs are notoriously hard to train, requiring expert skills, large amounts of data and extensive computational resources. Thus, it can be expected that many enterprises will resort to sourcing pre-trained DGMs from potentially unverified third parties, e.g.~open source model repositories. As we show in this paper, such a deployment scenario poses a new attack surface, which allows adversaries to potentially undermine the integrity of entire machine learning development pipelines in a victim organization. Specifically, we describe novel training-time attacks resulting in corrupted DGMs that synthesize regular data under normal operations and designated target outputs for inputs sampled from a trigger distribution. Depending on the control that the adversary has over the random number generation, this imposes various degrees of risk that harmful data may enter the machine learning development pipelines, potentially causing material or reputational damage to the victim organization. Our attacks are based on adversarial loss functions that combine the dual objectives of attack stealth and fidelity. We show its effectiveness for a variety of DGM architectures (Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs)) and data domains (images, audio). Our experiments show that - even for large-scale industry-grade DGMs - our attack can be mounted with only modest computational efforts. We also investigate the effectiveness of different defensive approaches (based on static/dynamic model and output inspections) and prescribe a practical defense strategy that paves the way for safe usage of DGMs.
翻訳日:2021-08-04 15:21:36 公開日:2021-08-03
# (参考訳) 統計的検査による接地表現の類似性 [全文訳有]

Grounding Representation Similarity with Statistical Testing ( http://arxiv.org/abs/2108.01661v1 )

ライセンス: CC BY 4.0
Frances Ding, Jean-Stanislas Denain, Jacob Steinhardt(参考訳) ニューラルネットワークの振る舞いを理解するために、最近の研究は、正準相関分析(cca)、中心核アライメント(cka)、その他の相似性尺度を用いて、異なるネットワークの学習表現を定量的に比較している。 残念なことに、これらの広く使われている尺度は、例えば、ランダムな初期化でのみ異なるディープネットワークが同様の表現を学ぶなど、基本的な観測に異を唱えることが多い。 これらの意見の相違は、どちらが、もし、この相違策を信じるべきかという疑問を提起する。 具体的なテストを通じて、この問題を根拠にするためのフレームワークを提供する: 測定は機能的振る舞いに影響を与える変化や、そうでない変化に対する特異性に敏感でなければならない。 我々は,分布シフトに対する精度の検証や頑健性,ランダム初期化の変化や主成分の削除など,様々な機能的動作を通じてこれを定量化する。 現在のメトリクスにはさまざまな弱点があることに気付き、古典的なベースラインが驚くほどうまく機能していることに気付き、すべてのメトリクスが失敗しているように見える設定を強調します。

To understand neural network behavior, recent works quantitatively compare different networks' learned representations using canonical correlation analysis (CCA), centered kernel alignment (CKA), and other dissimilarity measures. Unfortunately, these widely used measures often disagree on fundamental observations, such as whether deep networks differing only in random initialization learn similar representations. These disagreements raise the question: which, if any, of these dissimilarity measures should we believe? We provide a framework to ground this question through a concrete test: measures should have sensitivity to changes that affect functional behavior, and specificity against changes that do not. We quantify this through a variety of functional behaviors including probing accuracy and robustness to distribution shift, and examine changes such as varying random initialization and deleting principal components. We find that current metrics exhibit different weaknesses, note that a classical baseline performs surprisingly well, and highlight settings where all metrics appear to fail, thus providing a challenge set for further improvement.
翻訳日:2021-08-04 15:20:16 公開日:2021-08-03
# (参考訳) エピソード困難に対する一様サンプリング [全文訳有]

Uniform Sampling over Episode Difficulty ( http://arxiv.org/abs/2108.01662v1 )

ライセンス: CC BY 4.0
S\'ebastien M. R. Arnold, Guneet S. Dhillon, Avinash Ravichandran, Stefano Soatto(参考訳) エピソディクストレーニングは、限定されたラベル付きデータを持つタスクでモデルをトレーニングするための、数少ない学習の中核となる要素である。 その成功にもかかわらず、エピソディクスのトレーニングはほとんど未熟であり、エピソードをサンプリングする最良の方法は何ですか? 本稿では,まず,その難易度に基づいてエピソードサンプリング分布を近似する手法を提案する。 本手法を用いて, エピソード難易度を均一にサンプリングすることで, カリキュラムや簡単な, ハードマイニングなど, 他のサンプリング手法よりも優れた結果が得られる。 提案手法はアルゴリズム非依存であるので,これらの知見を活用し,多くのエピソディック学習アルゴリズムにおける数発学習精度を向上させることができる。 提案手法の有効性を,一般的な数ショット学習データセット,アルゴリズム,ネットワークアーキテクチャ,プロトコルで実証する。

Episodic training is a core ingredient of few-shot learning to train models on tasks with limited labelled data. Despite its success, episodic training remains largely understudied, prompting us to ask the question: what is the best way to sample episodes? In this paper, we first propose a method to approximate episode sampling distributions based on their difficulty. Building on this method, we perform an extensive analysis and find that sampling uniformly over episode difficulty outperforms other sampling schemes, including curriculum and easy-/hard-mining. As the proposed sampling method is algorithm agnostic, we can leverage these insights to improve few-shot learning accuracies across many episodic training algorithms. We demonstrate the efficacy of our method across popular few-shot learning datasets, algorithms, network architectures, and protocols.
翻訳日:2021-08-04 14:35:21 公開日:2021-08-03
# sphereface2: 顔認識に必要なのはバイナリ分類のみ

SphereFace2: Binary Classification is All You Need for Deep Face Recognition ( http://arxiv.org/abs/2108.01513v1 )

ライセンス: Link先を確認
Yandong Wen, Weiyang Liu, Adrian Weller, Bhiksha Raj, Rita Singh(参考訳) 最先端のディープフェイス認識手法は、ソフトマックスベースのマルチクラス分類フレームワークで主に訓練されている。 人気があり効果があるにもかかわらず、これらの手法には経験的性能を制限するいくつかの欠点がある。 本稿では,まず,既存のマルチクラス分類フレームワークにおける学習と評価の相違を同定し,ソフトマックス正規化の「競合的」性質に起因する潜在的な限界について考察する。 これらの制約により,SphereFace2と呼ばれる新しいバイナリ分類学習フレームワークを提案する。 既存の方法とは対照的に、SphereFace2はソフトマックス正規化と対応する閉集合仮定を回避している。 これにより、トレーニングと評価のギャップを効果的に埋め、各バイナリ分類タスクによって表現を個別に改善することができる。 特定のパフォーマンスのよい損失関数を設計するだけでなく、この"one-vs-all"バイナリ分類フレームワークの一般的な原則をいくつか要約して、現在の競合メソッドよりも優れています。 sphereface2が最先端のディープ顔認識手法を一貫して上回ることを証明するため,人気のあるベンチマークを総合的に実験した。

State-of-the-art deep face recognition methods are mostly trained with a softmax-based multi-class classification framework. Despite being popular and effective, these methods still have a few shortcomings that limit empirical performance. In this paper, we first identify the discrepancy between training and evaluation in the existing multi-class classification framework and then discuss the potential limitations caused by the "competitive" nature of softmax normalization. Motivated by these limitations, we propose a novel binary classification training framework, termed SphereFace2. In contrast to existing methods, SphereFace2 circumvents the softmax normalization, as well as the corresponding closed-set assumption. This effectively bridges the gap between training and evaluation, enabling the representations to be improved individually by each binary classification task. Besides designing a specific well-performing loss function, we summarize a few general principles for this "one-vs-all" binary classification framework so that it can outperform current competitive methods. We conduct comprehensive experiments on popular benchmarks to demonstrate that SphereFace2 can consistently outperform current state-of-the-art deep face recognition methods.
翻訳日:2021-08-04 14:10:43 公開日:2021-08-03
# RAIN: モーション予測のための強化ハイブリッドアテンション推論ネットワーク

RAIN: Reinforced Hybrid Attention Inference Network for Motion Forecasting ( http://arxiv.org/abs/2108.01316v1 )

ライセンス: Link先を確認
Jiachen Li and Fan Yang and Hengbo Ma and Srikanth Malla and Masayoshi Tomizuka and Chiho Choi(参考訳) 動き予測は、様々な領域(例えば、自律運転、人間とロボットの相互作用)において重要な役割を果たす。 しかし、観察された要素は異なるレベルの重要性を持つ。 いくつかの情報は、特定の状況における予測に無関係または気を散らすかもしれない。 この問題に対処するために,ハイブリットアテンション機構に基づく動的キー情報の選択とランク付けを行う汎用動作予測フレームワーク(RAIN)を提案する。 汎用フレームワークは、多エージェント軌道予測と人間の動き予測タスクをそれぞれ処理するためにインスタンス化される。 前者のタスクでは、モデルがグラフ表現を持つエージェント間の関係を認識し、それらの相対的重要性を決定する。 後者のタスクでは、モデルが人間の運動の時間的近接と依存を捉えることを学ぶ。 また、フレームワークの異なるモジュールのパラメータを最適化するための交互トレーニング戦略を備えた効果的な2段階トレーニングパイプラインを提案する。 本手法は,様々な領域における合成シミュレーションと運動予測ベンチマークの両方の枠組みを検証し,最先端の予測性能を実現するだけでなく,解釈可能かつ合理的なハイブリッド注意重み付けも提供することを実証した。

Motion forecasting plays a significant role in various domains (e.g., autonomous driving, human-robot interaction), which aims to predict future motion sequences given a set of historical observations. However, the observed elements may be of different levels of importance. Some information may be irrelevant or even distracting to the forecasting in certain situations. To address this issue, we propose a generic motion forecasting framework (named RAIN) with dynamic key information selection and ranking based on a hybrid attention mechanism. The general framework is instantiated to handle multi-agent trajectory prediction and human motion forecasting tasks, respectively. In the former task, the model learns to recognize the relations between agents with a graph representation and to determine their relative significance. In the latter task, the model learns to capture the temporal proximity and dependency in long-term human motions. We also propose an effective double-stage training pipeline with an alternating training strategy to optimize the parameters in different modules of the framework. We validate the framework on both synthetic simulations and motion forecasting benchmarks in different domains, demonstrating that our method not only achieves state-of-the-art forecasting performance, but also provides interpretable and reasonable hybrid attention weights.
翻訳日:2021-08-04 14:10:25 公開日:2021-08-03
# より正確: 多様性とエンティティ改訂医療反応の生成

More but Correct: Generating Diversified and Entity-revised Medical Response ( http://arxiv.org/abs/2108.01266v1 )

ライセンス: Link先を確認
Bin Li, Encheng Chen, Hongru Liu, Yixuan Weng, Bin Sun, Shutao Li, Yongping Bai and Meiling Hu(参考訳) 医療対話生成 (MDG) は, 患者とリアルタイムにコミュニケーションし, 幅広い応用可能性で臨床診断の効率化を図る, インテリジェントコンサルティングのための医療対話システムを構築することを目的としている。 本稿では,2021年中国知識グラフ・意味コンピューティングコンペティション(ccks)コンペティションにおいて,対話履歴に基づいてコンテキスト一貫性と医学的意味のある応答を生成するための枠組みを提案する。 本稿では,対話モデルに予測されたエンティティを融合機構で付加し,異なる情報源からの情報を活用することによって,エンティティ予測とエンティティ認識対話生成からなるパイプラインシステムを提案する。 復号段階では,エンティティ修正横ビームサーチ(EDBS)と呼ばれる新しい復号機構を提案し,エンティティの正しさを向上し,最終応答の長さと品質を向上する。 提案手法は,CCKS と International Conference on Learning Representations (ICLR) 2021 Workshop Machine Learning for Preventing and Combating Pandemics (MLPCP) Track 1 Entity-Aware MED competitions に勝つ。

Medical Dialogue Generation (MDG) is intended to build a medical dialogue system for intelligent consultation, which can communicate with patients in real-time, thereby improving the efficiency of clinical diagnosis with broad application prospects. This paper presents our proposed framework for the Chinese MDG organized by the 2021 China conference on knowledge graph and semantic computing (CCKS) competition, which requires generating context-consistent and medically meaningful responses conditioned on the dialogue history. In our framework, we propose a pipeline system composed of entity prediction and entity-aware dialogue generation, by adding predicted entities to the dialogue model with a fusion mechanism, thereby utilizing information from different sources. At the decoding stage, we propose a new decoding mechanism named Entity-revised Diverse Beam Search (EDBS) to improve entity correctness and promote the length and quality of the final response. The proposed method wins both the CCKS and the International Conference on Learning Representations (ICLR) 2021 Workshop Machine Learning for Preventing and Combating Pandemics (MLPCP) Track 1 Entity-aware MED competitions, which demonstrate the practicality and effectiveness of our method.
翻訳日:2021-08-04 14:10:05 公開日:2021-08-03
# アラビア語ツイートにおける皮肉の検出と定量化

sarcasm detection and quantification in arabic tweets ( http://arxiv.org/abs/2108.01425v1 )

ライセンス: Link先を確認
Bashar Talafha, Muhy Eddin Za'ter, Samer Suleiman, Mahmoud Al-Ayyoub, Mohammed N. Al-Kabi(参考訳) テキスト中のサーカズムを予測する役割は、自動サーカズム検出(automatic sarcasm detection)として知られている。 感傷的テキストにおけるサルカズムの有病率と課題を考えると、ほとんどの感情分析タスクにおいてこれは重要な段階である。 世界中のユーザーの間で、さまざまなソーシャルメディアプラットフォームの人気と利用が高まり、人々は日々の会話やソーシャルメディアの投稿、ツイートでますます皮肉を使い続けており、特定の話題や問題に対する感情を表現する手段として考えられている。 人気が高まった結果、研究者は様々な言語、特に英語のテキストからサルカズムを検出する研究に焦点を合わせ始めた。 しかし, サルカシックテキストの性質から, サルカシム検出の課題は難しい課題であり, 話題, 地域, ユーザの精神性, その他の要因によって, 相対的に, 他者とは大きく異なる場合がある。 これらの課題に加えて、アラビア語におけるサルカズム検出は、形態学的に豊かであるなど、アラビア語の複雑さによって独自の課題を抱えており、多くの方言は互いに大きく異なるが、低資源である。 近年では、コーパスの作成と収集、ワークショップの編成、ベースラインモデルの確立など、アラビア語におけるサルカム検出の課題に取り組む研究の試みはごくわずかである。 本稿は,ツイートから収集したサーカズム検出のための新しい人文注釈付きアラビア語コーパスの作成と,アラビア語ツイートにおけるサーカズム検出と定量化のための新しいアプローチの実現を目的としている。 提案手法は,分類ではなく回帰問題としてこの問題に取り組み,二項分類の代わりにサルカズムのレベルを予測しようとする。

The role of predicting sarcasm in the text is known as automatic sarcasm detection. Given the prevalence and challenges of sarcasm in sentiment-bearing text, this is a critical phase in most sentiment analysis tasks. With the increasing popularity and usage of different social media platforms among users around the world, people are using sarcasm more and more in their day-to-day conversations, social media posts and tweets, and it is considered as a way for people to express their sentiment about some certain topics or issues. As a result of the increasing popularity, researchers started to focus their research endeavors on detecting sarcasm from a text in different languages especially the English language. However, the task of sarcasm detection is a challenging task due to the nature of sarcastic texts; which can be relative and significantly differs from one person to another depending on the topic, region, the user's mentality and other factors. In addition to these challenges, sarcasm detection in the Arabic language has its own challenges due to the complexity of the Arabic language, such as being morphologically rich, with many dialects that significantly vary between each other, while also being lowly resourced. In recent years, only few research attempts started tackling the task of sarcasm detection in Arabic, including creating and collecting corpora, organizing workshops and establishing baseline models. This paper intends to create a new humanly annotated Arabic corpus for sarcasm detection collected from tweets, and implementing a new approach for sarcasm detection and quantification in Arabic tweets. The annotation technique followed in this paper is unique in sarcasm detection and the proposed approach tackles the problem as a regression problem instead of classification; i.e., the model attempts to predict the level of sarcasm instead of binary classification.
翻訳日:2021-08-04 14:09:42 公開日:2021-08-03
# eva:大規模生成事前学習を伴うオープンドメイン中国語対話システム

EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training ( http://arxiv.org/abs/2108.01547v1 )

ライセンス: Link先を確認
Hao Zhou, Pei Ke, Zheng Zhang, Yuxian Gu, Yinhe Zheng, Chujie Zheng, Yida Wang, Chen Henry Wu, Hao Sun, Xiaocong Yang, Bosi Wen, Xiaoyan Zhu, Minlie Huang, Jie Tang(参考訳) 事前学習された言語モデルは対話システムの生成能力を大幅に向上させたが、オープンドメインの中国語対話システムは英語の対話データやモデルサイズによって制限されている。 本稿では,2.8Bパラメータを持つ中国最大の事前学習対話モデルを含む中国語対話システムであるEVAを提案する。 このモデルを構築するために、様々なソーシャルメディアからWDC-Dialogueという名前の中国語対話データセットを収集する。 このデータセットは1.4Bコンテキスト応答ペアを含み、EVAの事前学習コーパスとして使用される。 自動評価と人間の評価に関する広範囲な実験は、evaが他の中国語の事前学習された対話モデル、特に人間のボット会話のマルチターン対話モデルよりも優れていることを示している。

Although pre-trained language models have remarkably enhanced the generation ability of dialogue systems, open-domain Chinese dialogue systems are still limited by the dialogue data and the model size compared with English ones. In this paper, we propose EVA, a Chinese dialogue system that contains the largest Chinese pre-trained dialogue model with 2.8B parameters. To build this model, we collect the largest Chinese dialogue dataset named WDC-Dialogue from various public social media. This dataset contains 1.4B context-response pairs and is used as the pre-training corpus of EVA. Extensive experiments on automatic and human evaluation show that EVA outperforms other Chinese pre-trained dialogue models especially in the multi-turn interaction of human-bot conversations.
翻訳日:2021-08-04 14:09:13 公開日:2021-08-03
# 時空間グラフ畳み込みネットワークのためのスケルトン分割戦略

Skeleton Split Strategies for Spatial Temporal Graph Convolution Networks ( http://arxiv.org/abs/2108.01309v1 )

ライセンス: Link先を確認
Motasem S. Alsawadi and Miguel Rio(参考訳) 人体の骨格表現は、この作業に有効であることが証明されている。 骨格はグラフ形式で表現される。 しかし、グラフのトポロジーはユークリッドベースのデータのように構成されない。 そこで,スケルトングラフ上で畳み込み演算を行う新しい手法を提案する。 我々の提案はYanらによって提案されたST-GCNフレームワークに基づいている。 [1]. 本研究では,ST-GCNフレームワークにおけるラベルマッピング手法の改良について述べる。 畳み込み操作の代替手法として,3つの分割プロセス(完全距離分割,接続分割,インデックス分割)を導入する。 評価のために,NTU-RGB+DとKineeticsの2つのベンチマークデータセットを用いて実験を行った。 以上の結果から, 分割プロセスはすべて従来の分割戦略より優れており, 付加的なトレーニングパラメータの重み付けを伴わずに, トレーニング中により安定であることが示唆された。 そこで本提案手法は,屋内環境を対象とした日常生活認識システムを中心としたリアルタイムアプリケーションに,より現実的なソリューションを提供する。

A skeleton representation of the human body has been proven to be effective for this task. The skeletons are presented in graphs form-like. However, the topology of a graph is not structured like Euclidean-based data. Therefore, a new set of methods to perform the convolution operation upon the skeleton graph is presented. Our proposal is based upon the ST-GCN framework proposed by Yan et al. [1]. In this study, we present an improved set of label mapping methods for the ST-GCN framework. We introduce three split processes (full distance split, connection split, and index split) as an alternative approach for the convolution operation. To evaluate the performance, the experiments presented in this study have been trained using two benchmark datasets: NTU-RGB+D and Kinetics. Our results indicate that all of our split processes outperform the previous partition strategies and are more stable during training without using the edge importance weighting additional training parameter. Therefore, our proposal can provide a more realistic solution for real-time applications centred on daily living recognition systems activities for indoor environments.
翻訳日:2021-08-04 14:09:00 公開日:2021-08-03
# 30日間にわたる画像の人気予測

Predicting Popularity of Images Over 30 Days ( http://arxiv.org/abs/2108.01326v1 )

ライセンス: Link先を確認
Amartya Dutta, Ferdous Ahmed Barbhuiya(参考訳) 現在の作品は、アップロードされる前に画像の人気を予測しようとする問題に対処している。 この方法はFlickrの画像に特化している。 各画像の社会的特徴とアップロードしたユーザーの特徴が記録されている。 また、データセットは、30日間にわたって各画像によって得られたビューの基底真理値である各画像のエンゲージメントスコアも含む。 この研究は、ユーザーと画像の社会的特徴と画像の視覚的特徴を用いて、Flickr上の画像の人気を30日間にわたって予測することを目的としている。 この方法では、画像のエンゲージメントシーケンスは、画像のスケールと形状の2つの独立した量に依存すると言える。 画像の形状とスケールが予測されると、それらを組み合わせて、30日以上にわたる画像の予測シーケンスを得る。 現在の作業は、ある憶測と改善の提案を持って、同じ方向に進めた以前の作業に続くものだ。

The current work deals with the problem of attempting to predict the popularity of images before even being uploaded. This method is specifically focused on Flickr images. Social features of each image as well as that of the user who had uploaded it, have been recorded. The dataset also includes the engagement score of each image which is the ground truth value of the views obtained by each image over a period of 30 days. The work aims to predict the popularity of images on Flickr over a period of 30 days using the social features of the user and the image, as well as the visual features of the images. The method states that the engagement sequence of an image can be said to depend on two independent quantities, namely scale and shape of an image. Once the shape and scale of an image have been predicted, combining them the predicted sequence of an image over 30 days is obtained. The current work follows a previous work done in the same direction, with certain speculations and suggestions of improvement.
翻訳日:2021-08-04 14:08:46 公開日:2021-08-03
# your fairness: group fairness of pretrained language models in toxic text classification (英語)

Your fairness may vary: Group fairness of pretrained language models in toxic text classification ( http://arxiv.org/abs/2108.01250v1 )

ライセンス: Link先を確認
Ioana Baldini, Dennis Wei, Karthikeyan Natesan Ramamurthy, Mikhail Yurochkin, Moninder Singh(参考訳) 有毒テキスト分類のための10種以上の微調整LMにおける性能・公正トレードオフについて検討した。 大規模モデルと正規モデルと圧縮モデルとの偏りに関して,ブランケット文は作成できないことを実証的に示す。 さらに,公平性に依存しないパフォーマンス指標に注目することで,公平性特性の異なるモデルに繋がる可能性が示唆された。

We study the performance-fairness trade-off in more than a dozen fine-tuned LMs for toxic text classification. We empirically show that no blanket statement can be made with respect to the bias of large versus regular versus compressed models. Moreover, we find that focusing on fairness-agnostic performance metrics can lead to models with varied fairness characteristics.
翻訳日:2021-08-04 14:07:54 公開日:2021-08-03
# AdvRush: 逆ロバストなニューラルネットワークの検索

AdvRush: Searching for Adversarially Robust Neural Architectures ( http://arxiv.org/abs/2108.01289v1 )

ライセンス: Link先を確認
Jisoo Mok, Byunggook Na, Hyeokjun Choe, Sungroh Yoon(参考訳) 深層ニューラルネットワークは、その驚くべきパフォーマンスで世界を喜ばせ続けている。 しかし、その予測は、人間には受け入れられない敵の例によって腐敗する傾向がある。 敵の例に対するニューラルネットワークの堅牢性を改善するための現在の取り組みは、より堅牢な方向にニューラルネットワークの重みを更新する堅牢なトレーニング手法の開発に焦点を当てている。 本研究では、重みパラメータのトレーニングを超えて、本質的な頑健性を持つ対向的に堅牢なニューラルアーキテクチャを設計する問題を考察する。 本稿では, ニューラルネットワークの本質的な頑健性は, 入力ロスランドスケープの滑らかさによって表現できることを, トレーニング手法によらず, 新たな対向的ロバスト性を考慮したニューラルアーキテクチャ探索アルゴリズムAdvRushを提案する。 入力損失のスムースなランドスケープを持つ候補アーキテクチャを好むレギュラライザを通じて、advrushは、敵対的にロバストなニューラルネットワークアーキテクチャをうまく発見する。 AdvRushの包括的な理論的モチベーションとともに、さまざまなベンチマークデータセットに対するAdvRushの有効性を示すために、多数の実験を行っている。 特に、CIFAR-10では、AdvRushは標準訓練後のFGSM攻撃で55.91%の堅牢な精度を達成し、7段階のPGD攻撃訓練後にAutoAttackで50.04%の堅牢な精度を達成した。

Deep neural networks continue to awe the world with their remarkable performance. Their predictions, however, are prone to be corrupted by adversarial examples that are imperceptible to humans. Current efforts to improve the robustness of neural networks against adversarial examples are focused on developing robust training methods, which update the weights of a neural network in a more robust direction. In this work, we take a step beyond training of the weight parameters and consider the problem of designing an adversarially robust neural architecture with high intrinsic robustness. We propose AdvRush, a novel adversarial robustness-aware neural architecture search algorithm, based upon a finding that independent of the training method, the intrinsic robustness of a neural network can be represented with the smoothness of its input loss landscape. Through a regularizer that favors a candidate architecture with a smoother input loss landscape, AdvRush successfully discovers an adversarially robust neural architecture. Along with a comprehensive theoretical motivation for AdvRush, we conduct an extensive amount of experiments to demonstrate the efficacy of AdvRush on various benchmark datasets. Notably, on CIFAR-10, AdvRush achieves 55.91% robust accuracy under FGSM attack after standard training and 50.04% robust accuracy under AutoAttack after 7-step PGD adversarial training.
翻訳日:2021-08-04 14:07:44 公開日:2021-08-03
# リフト型適応グラフウェーブレットを用いたスペクトルグラフ畳み込みネットワーク

Spectral Graph Convolutional Networks WithLifting-based Adaptive Graph Wavelets ( http://arxiv.org/abs/2108.01660v1 )

ライセンス: Link先を確認
Mingxing Xu, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong and Pascal Frossard(参考訳) スペクトルグラフ畳み込みネットワーク(SGCN)は、確立されたグラフ信号処理フレームワークのプリズムを通じて、その解釈可能性から、グラフ表現学習において注目を集めている。 しかし、既存のSGCNは、手前のグラフやタスク上の信号に適応できない厳密な変換を持つグラフ畳み込みの実装に限られている。 本稿では,適応グラフウェーブレットを用いたグラフ畳み込みを実装した新しいスペクトルグラフ畳み込みネットワークを提案する。 具体的には、適応グラフウェーブレットをニューラルネットワークパラメータ化昇降構造で学習し、グラフ構造とノードの特徴を共同で考慮するために、構造認識注意型昇降操作が開発される。 拡散ウェーブレットに基づき,非二部グラフ分割による構造的情報損失の軽減を図る。 設計により、結果のウェーブレット変換の局所性と空間性が保証され、大小のグラフに対する昇降構造のスケーラビリティが保証される。 さらに,学習したウェーブレットを用いてスパースグラフ表現を学習し,その拡張性と解釈性を向上し,局所的で効率的でスケーラブルなスペクトルグラフ畳み込みを実現する。 学習したグラフ表現がノードの置換に不変であることを保証するため、ネットワークの入力時にレイヤを使用し、そのローカルなトポロジ情報に基づいてノードを並べ替える。 ベンチマーク引用およびバイオインフォマティクスグラフデータセットにおけるノードレベルおよびグラフレベルの表現学習タスクにおける提案ネットワークを評価する。 大規模な実験は、既存のSGCNよりも精度、効率、スケーラビリティの点で提案されたネットワークの優位性を実証している。

Spectral graph convolutional networks (SGCNs) have been attracting increasing attention in graph representation learning partly due to their interpretability through the prism of the established graph signal processing framework. However, existing SGCNs are limited in implementing graph convolutions with rigid transforms that could not adapt to signals residing on graphs and tasks at hand. In this paper, we propose a novel class of spectral graph convolutional networks that implement graph convolutions with adaptive graph wavelets. Specifically, the adaptive graph wavelets are learned with neural network-parameterize d lifting structures, where structure-aware attention-based lifting operations are developed to jointly consider graph structures and node features. We propose to lift based on diffusion wavelets to alleviate the structural information loss induced by partitioning non-bipartite graphs. By design, the locality and sparsity of the resulting wavelet transform as well as the scalability of the lifting structure for large and varying-size graphs are guaranteed. We further derive a soft-thresholding filtering operation by learning sparse graph representations in terms of the learned wavelets, which improves the scalability and interpretablity, and yield a localized, efficient and scalable spectral graph convolution. To ensure that the learned graph representations are invariant to node permutations, a layer is employed at the input of the networks to reorder the nodes according to their local topology information. We evaluate the proposed networks in both node-level and graph-level representation learning tasks on benchmark citation and bioinformatics graph datasets. Extensive experiments demonstrate the superiority of the proposed networks over existing SGCNs in terms of accuracy, efficiency and scalability.
翻訳日:2021-08-04 14:07:19 公開日:2021-08-03
# アンサンブル特徴セレクタの安定性の高速推定法

Fast Estimation Method for the Stability of Ensemble Feature Selectors ( http://arxiv.org/abs/2108.01485v1 )

ライセンス: Link先を確認
Rina Onda, Zhengyan Gao, Masaaki Kotera, Kenta Oono(参考訳) より良い解釈と堅牢な予測のために、機能セレクタは \textit{stable} であることが望ましい。 ensemblingは機能セレクタの安定性向上に有効であることが知られている。 アンサンブルは時間を要するため、アンサンブル特徴セレクタの安定性を推定するために計算コストを削減することが望ましい。 本稿では,特徴セレクタのシミュレータを提案し,アンサンブル特徴セレクタの安定性を高速に推定する。 我々の知る限りでは、アンサンブル特徴セレクタの安定性を推定し、理論的かつ経験的に計算時間を短縮する最初の研究である。

It is preferred that feature selectors be \textit{stable} for better interpretabity and robust prediction. Ensembling is known to be effective for improving the stability of feature selectors. Since ensembling is time-consuming, it is desirable to reduce the computational cost to estimate the stability of the ensemble feature selectors. We propose a simulator of a feature selector, and apply it to a fast estimation of the stability of ensemble feature selectors. To the best of our knowledge, this is the first study that estimates the stability of ensemble feature selectors and reduces the computation time theoretically and empirically.
翻訳日:2021-08-04 14:06:43 公開日:2021-08-03
# 空間的偏りのない生成モデルに向けて

Toward Spatially Unbiased Generative Models ( http://arxiv.org/abs/2108.01285v1 )

ライセンス: Link先を確認
Jooyoung Choi, Jungbeom Lee, Yonghyun Jeong, Sungroh Yoon(参考訳) 最近の画像生成モデルは顕著な生成性能を示している。 しかしそれらは、私たちが空間バイアスと呼ぶデータセットの強い位置選好を反映している。 そのため、発電機は見えない場所やスケールでサンプルをレンダリングする。 生成者は空間的コンテンツを描画するために暗黙的な位置エンコーディングに頼る。 我々の観測から、発電機の暗黙的な位置符号化は翻訳変種であり、発電機は空間的に偏っている。 この問題に対処するために、生成器の各スケールで明示的な位置エンコーディングを注入することを提案する。 空間的偏りのないジェネレータを学習することにより,ganインバージョン,マルチスケール生成,任意のサイズの生成,アスペクト比など,複数のタスクにおけるジェネレータの堅牢な使用が促進される。 さらに,本手法は拡散確率モデルのデノベーションにも適用可能であることを示す。

Recent image generation models show remarkable generation performance. However, they mirror strong location preference in datasets, which we call spatial bias. Therefore, generators render poor samples at unseen locations and scales. We argue that the generators rely on their implicit positional encoding to render spatial content. From our observations, the generator's implicit positional encoding is translation-variant, making the generator spatially biased. To address this issue, we propose injecting explicit positional encoding at each scale of the generator. By learning the spatially unbiased generator, we facilitate the robust use of generators in multiple tasks, such as GAN inversion, multi-scale generation, generation of arbitrary sizes and aspect ratios. Furthermore, we show that our method can also be applied to denoising diffusion probabilistic models.
翻訳日:2021-08-04 14:06:34 公開日:2021-08-03
# モデルはどこへ行くのか? 説明可能性のためのパラメータ空間塩分マップ

Where do Models go Wrong? Parameter-Space Saliency Maps for Explainability ( http://arxiv.org/abs/2108.01335v1 )

ライセンス: Link先を確認
Roman Levin, Manli Shu, Eitan Borgnia, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) 従来のサリエンシーマップは、ニューラルネットワークの予測が高感度な入力特徴を強調している。 私たちは、ネットワークパラメータを入力ではなく識別し、分析し、誤った決定に責任を負うという、サリエンシーに対する別のアプローチを取ります。 類似したパラメータを誤動作させるサンプルは意味的に類似していることがわかった。 また、間違った分類されたサンプルに対して最も健全なパラメータをプルーニングすることは、しばしばモデルの振る舞いを改善することを示す。 さらに、1つのサンプルで最も有望なパラメータを微調整すると、同様の理由で誤分類された他のサンプルでエラー訂正が行われる。 提案手法では,画像特徴がどのように特定のネットワークコンポーネントの動作不良を引き起こすかを明らかにするインプットスペースサリエンシー手法も導入する。 さらに、データセットとケーススタディレベルの両方において、サリエンシマップの意義を厳格に検証する。

Conventional saliency maps highlight input features to which neural network predictions are highly sensitive. We take a different approach to saliency, in which we identify and analyze the network parameters, rather than inputs, which are responsible for erroneous decisions. We find that samples which cause similar parameters to malfunction are semantically similar. We also show that pruning the most salient parameters for a wrongly classified sample often improves model behavior. Furthermore, fine-tuning a small number of the most salient parameters on a single sample results in error correction on other samples that are misclassified for similar reasons. Based on our parameter saliency method, we also introduce an input-space saliency technique that reveals how image features cause specific network components to malfunction. Further, we rigorously validate the meaningfulness of our saliency maps on both the dataset and case-study levels.
翻訳日:2021-08-04 14:06:22 公開日:2021-08-03
# 深層学習検出のための微生物コロニーデータセットAGAR

AGAR a microbial colony dataset for deep learning detection ( http://arxiv.org/abs/2108.01234v1 )

ライセンス: Link先を確認
Sylwia Majchrowska, Jaros{\l}aw Paw{\l}owski, Grzegorz Gu{\l}a, Tomasz Bonus, Agata Hanas, Adam Loch, Agnieszka Pawlak, Justyna Roszkowiak, Tomasz Golan, and Zuzanna Drulis-Kawa(参考訳) Annotated Germs for Automated Recognition (AGAR)データセットは、寒天板上に培養された微生物コロニーの画像データベースである。 5つの異なる微生物の18万枚の写真を単一または混合培養し、2つの異なるカメラで様々な照明条件下で撮影する。 全ての画像は「可算」、「非可算」、そして「空」に分類され、コロニーの位置と種同定(合計336442コロニー)を持つ微生物学者によって「可算」クラスに分類される。 本研究では,データセット自体とその開発過程について述べる。 第2部では,オブジェクト検出のためのディープニューラルネットワークアーキテクチャ,すなわち高速r-cnnとカスケードr-cnnの性能をagarデータセットで評価した。 その結果,ペトリ皿写真に基づく微生物の局在と分類のプロセスを自動化する深層学習の可能性が確認された。 さらに、AGARはこの種のデータセットとサイズの最初の公開データセットであり、将来の機械学習モデルの開発を促進する。 これらの研究で使用されるデータはhttps://agar.neurosy s.com/で見ることができる。

The Annotated Germs for Automated Recognition (AGAR) dataset is an image database of microbial colonies cultured on agar plates. It contains 18000 photos of five different microorganisms as single or mixed cultures, taken under diverse lighting conditions with two different cameras. All the images are classified into "countable", "uncountable", and "empty", with the "countable" class labeled by microbiologists with colony location and species identification (336442 colonies in total). This study describes the dataset itself and the process of its development. In the second part, the performance of selected deep neural network architectures for object detection, namely Faster R-CNN and Cascade R-CNN, was evaluated on the AGAR dataset. The results confirmed the great potential of deep learning methods to automate the process of microbe localization and classification based on Petri dish photos. Moreover, AGAR is the first publicly available dataset of this kind and size and will facilitate the future development of machine learning models. The data used in these studies can be found at https://agar.neurosy s.com/.
翻訳日:2021-08-04 14:06:10 公開日:2021-08-03
# 大規模微分プライベートベルト

Large-Scale Differentially Private BERT ( http://arxiv.org/abs/2108.01624v1 )

ライセンス: Link先を確認
Rohan Anil, Badih Ghazi, Vineet Gupta, Ravi Kumar, Pasin Manurangsi(参考訳) 本研究では,DP-SGDを用いたBERT-Largeの大規模事前学習について検討する。 本稿では, バッチサイズを数百万(メガバッチ)にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上し, バッチサイズの増加による効率の向上が図られている。 我々の実装は、XLAコンパイラ[XLA17]と協調してJAX[BFH+18, FJL18]プリミティブを有効利用することにより、DP-SGDステップのオーバーヘッドが最小化されることを実証した最近の[SVK20]の成果に基づいている。 実装では2mのバッチサイズで60.5%のマスキング言語モデル精度を実現し,$\epsilon = 5.36$ で実装した。 この数を観点で見ると、非プライベートなBERTモデルは$\sim$70%の精度が得られる。

In this work, we study the large-scale pretraining of BERT-Large with differentially private SGD (DP-SGD). We show that combined with a careful implementation, scaling up the batch size to millions (i.e., mega-batches) improves the utility of the DP-SGD step for BERT; we also enhance its efficiency by using an increasing batch size schedule. Our implementation builds on the recent work of [SVK20], who demonstrated that the overhead of a DP-SGD step is minimized with effective use of JAX [BFH+18, FJL18] primitives in conjunction with the XLA compiler [XLA17]. Our implementation achieves a masked language model accuracy of 60.5% at a batch size of 2M, for $\epsilon = 5.36$. To put this number in perspective, non-private BERT models achieve an accuracy of $\sim$70%.
翻訳日:2021-08-04 14:05:51 公開日:2021-08-03
# GTSNEによるデータの可視化

Visualizing Data using GTSNE ( http://arxiv.org/abs/2108.01301v1 )

ライセンス: Link先を確認
Songting Shi(参考訳) 本稿では,2次元地図における高次元データポイントを可視化する新しいGTSNEを提案する。 この手法は、データ内の局所的な近傍構造とマクロ構造の両方をキャプチャすることで、よりよく視覚化できるt-SNEのバリエーションである。 これは連続な低次元多様体上の高次元データにとって特に重要である。 本稿では,様々なデータセット上でのGTSNEの性能を概説し,t-SNEやUMAPなどのアート手法と比較する。 GTSNEが生成した可視化は、マクロ構造保存に関するほぼすべてのデータセットで生成された他の技術よりも優れている。

We present a new method GTSNE to visualize high-dimensional data points in the two dimensional map. The technique is a variation of t-SNE that produces better visualizations by capturing both the local neighborhood structure and the macro structure in the data. This is particularly important for high-dimensional data that lie on continuous low-dimensional manifolds. We illustrate the performance of GTSNE on a wide variety of datasets and compare it the state of art methods, including t-SNE and UMAP. The visualizations produced by GTSNE are better than those produced by the other techniques on almost all of the datasets on the macro structure preservation.
翻訳日:2021-08-04 14:04:10 公開日:2021-08-03
# 共同活動認識と動き予測のための非局所グラフ畳み込みネットワーク

Non-local Graph Convolutional Network for joint Activity Recognition and Motion Prediction ( http://arxiv.org/abs/2108.01518v1 )

ライセンス: Link先を確認
Dianhao Zhang, Ngo Anh Vien, Mien Van, Sean McLoone(参考訳) 3次元骨格に基づく運動予測と行動認識は、人間の行動分析における2つの中間課題である。 本研究では,グラフ畳み込みニューラルネットワークと連続ニューラルネットワークの利点を融合した動き文脈モデリング手法を提案する。 本研究では、LSTMエンコーダデコーダと非局所特徴抽出アテンション機構を用いて、人間の骨格データの空間的相関と運動フレーム間の時間的相関をモデル化する。 提案するネットワークは,動作認識のための2つの出力分岐と,性能向上のための協調訓練を行うFuture Motion Predictionの1つを含むことができる。 また,Human 3.6M,CMU Mocap,NTU RGB-Dデータセットによる実験結果から,提案手法はベースラインLSTM法で最高の予測能力を提供するとともに,他の最先端手法と同等の性能を実現する。

3D skeleton-based motion prediction and activity recognition are two interwoven tasks in human behaviour analysis. In this work, we propose a motion context modeling methodology that provides a new way to combine the advantages of both graph convolutional neural networks and recurrent neural networks for joint human motion prediction and activity recognition. Our approach is based on using an LSTM encoder-decoder and a non-local feature extraction attention mechanism to model the spatial correlation of human skeleton data and temporal correlation among motion frames. The proposed network can easily include two output branches, one for Activity Recognition and one for Future Motion Prediction, which can be jointly trained for enhanced performance. Experimental results on Human 3.6M, CMU Mocap and NTU RGB-D datasets show that our proposed approach provides the best prediction capability among baseline LSTM-based methods, while achieving comparable performance to other state-of-the-art methods.
翻訳日:2021-08-04 14:04:00 公開日:2021-08-03
# 勾配手術による領域一般化

Domain Generalization via Gradient Surgery ( http://arxiv.org/abs/2108.01621v1 )

ライセンス: Link先を確認
Lucas Mansilla, Rodrigo Echeveste, Diego H. Milone, Enzo Ferrante(参考訳) 実生活のアプリケーションでは、トレーニングとテストドメイン間でデータ分散が変化するシナリオに機械学習モデルが直面することが多い。 トレーニングで見たものとは異なる分布の予測を行うことを目的としている場合、ドメインの一般化問題が発生する。 この問題に対処するメソッドは、複数のソースドメインのデータを使用してモデルを学び、このモデルを対象とする未認識ドメインに適用する。 私たちの仮説は、複数のドメインでトレーニングする場合、各ミニバッチ内の矛盾する勾配には、テストドメインを含む他のドメインと無関係な個々のドメイン特有の情報が含まれているということです。 放置された場合、そのような不一致は一般化性能を低下させる可能性がある。 本稿では、ドメインシフトシナリオに現れる矛盾する勾配を特徴付け、その効果を緩和するための勾配手術に基づく新しい勾配合意戦略を考案する。 提案手法を3つの多領域データセットを用いて画像分類タスクにおいて検証し,提案する合意戦略の価値を示し,ドメインシフトシナリオにおけるディープラーニングモデルの一般化能力を高める。

In real-life applications, machine learning models often face scenarios where there is a change in data distribution between training and test domains. When the aim is to make predictions on distributions different from those seen at training, we incur in a domain generalization problem. Methods to address this issue learn a model using data from multiple source domains, and then apply this model to the unseen target domain. Our hypothesis is that when training with multiple domains, conflicting gradients within each mini-batch contain information specific to the individual domains which is irrelevant to the others, including the test domain. If left untouched, such disagreement may degrade generalization performance. In this work, we characterize the conflicting gradients emerging in domain shift scenarios and devise novel gradient agreement strategies based on gradient surgery to alleviate their effect. We validate our approach in image classification tasks with three multi-domain datasets, showing the value of the proposed agreement strategy in enhancing the generalization capability of deep learning models in domain shift scenarios.
翻訳日:2021-08-04 14:03:43 公開日:2021-08-03
# 電気的ピーク需要予測

Electrical peak demand forecasting- A review ( http://arxiv.org/abs/2108.01393v1 )

ライセンス: Link先を確認
Shuang Dai, Fanlin Meng, Hongsheng Dai, Qian Wang and Xizhong Chen(参考訳) 電力システムは、高度測定インフラとローカルエネルギー応用(例)のロールアウトによって急速に進化している。 送電・配電両レベルで断続的再生可能エネルギーの浸透が増加することに加え、高いランダム性と予測可能性の低いピーク負荷需要を特徴付けるため、電力網のセキュリティに脅威をもたらす。 負荷負荷を満たすために大量の電力を蓄えておくことは経済的にも環境的にも適さないため、電力系統の運用を最適化するためには、効率的なピーク需要管理戦略と信頼性の高いピーク負荷予測手法が不可欠である。 この目的のために本論文では,ピーク負荷需要予測手法について,タイムリーかつ包括的に概観する。 私たちの知る限りでは、このようなトピックに関する包括的なレビューはこれが初めてです。 本稿では,まずピーク負荷需要予測の正確かつ統一的な問題定義を行う。 第2に,ピーク負荷予測手法に関する139の論文を体系的にレビューし,その手法を時系列に基づいて異なるステージに分類した。 第3に,ピーク負荷予測手法の比較分析を要約し,予測性能を改善するための最適化手法について述べる。 論文は,レビュー論文の包括的要約と今後の研究方向性に関する議論で締めくくられる。

The power system is undergoing rapid evolution with the roll-out of advanced metering infrastructure and local energy applications (e.g. electric vehicles) as well as the increasing penetration of intermittent renewable energy at both transmission and distribution level, which characterizes the peak load demand with stronger randomness and less predictability and therefore poses a threat to the power grid security. Since storing large quantities of electricity to satisfy load demand is neither economically nor environmentally friendly, effective peak demand management strategies and reliable peak load forecast methods become essential for optimizing the power system operations. To this end, this paper provides a timely and comprehensive overview of peak load demand forecast methods in the literature. To our best knowledge, this is the first comprehensive review on such topic. In this paper we first give a precise and unified problem definition of peak load demand forecast. Second, 139 papers on peak load forecast methods were systematically reviewed where methods were classified into different stages based on the timeline. Thirdly, a comparative analysis of peak load forecast methods are summarized and different optimizing methods to improve the forecast performance are discussed. The paper ends with a comprehensive summary of the reviewed papers and a discussion of potential future research directions.
翻訳日:2021-08-04 14:03:26 公開日:2021-08-03
# 重み付けによる条件モーメント条件からの因果関係の学習

Learning Causal Relationships from Conditional Moment Conditions by Importance Weighting ( http://arxiv.org/abs/2108.01312v1 )

ライセンス: Link先を確認
Masahiro Kato and Haruo Kakehi and Kenichiro McAlinn and Shota Yasui(参考訳) 条件付きモーメント条件下での因果関係の学習を検討する。 非条件モーメント条件での因果推論とは異なり、条件モーメント条件は因果推論、特に複雑で高次元の設定において深刻な問題を引き起こす。 そこで本稿では,条件密度比を用いた重み付けにより条件のモーメント条件を非条件のモーメント条件に変換する手法を提案する。 そして,この変換を用いて条件付きモーメント条件をうまく近似する手法を提案する。 提案手法により,無条件モーメント条件,例えば一般化モーメント法などの因果パラメータを簡便に推定する手法を採用することができる。 実験では,提案手法が既存手法とよく比較できることを確認した。

We consider learning causal relationships under conditional moment conditions. Unlike causal inference under unconditional moment conditions, conditional moment conditions pose serious challenges for causal inference, especially in complex, high-dimensional settings. To address this issue, we propose a method that transforms conditional moment conditions to unconditional moment conditions through importance weighting using the conditional density ratio. Then, using this transformation, we propose a method that successfully approximates conditional moment conditions. Our proposed approach allows us to employ methods for estimating causal parameters from unconditional moment conditions, such as generalized method of moments, adequately in a straightforward manner. In experiments, we confirm that our proposed method performs well compared to existing methods.
翻訳日:2021-08-04 14:03:08 公開日:2021-08-03
# saber: 不均一ロボットの自律走行のためのデータ駆動モーションプランナー

SABER: Data-Driven Motion Planner for Autonomously Navigating Heterogeneous Robots ( http://arxiv.org/abs/2108.01262v1 )

ライセンス: Link先を確認
Alexander Schperberg, Stephanie Tsuei, Stefano Soatto, Dennis Hong(参考訳) 我々は,異種ロボットチームをグローバル目標に向かって移動させながら,不確定な環境での障害を回避するためのデータ駆動アプローチを用いた,エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。 まず,確率モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。 第二に、リカレントニューラルネットワークはSMPC有限時間地平線解における将来の不確かさを素早く推定するために用いられ、様々な同時局所化およびマッピングアルゴリズムの不確実性出力に基づいて訓練される。 2つ以上のロボットが通信範囲内にある場合、これらの不確実性は分散カルマンフィルタリングアプローチによって更新される。 最後に、ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。 本手法は地上と空中のロボットで同時に実証される(コード:https://github.com/ AlexS28/SABER)。

We present an end-to-end online motion planning framework that uses a data-driven approach to navigate a heterogeneous robot team towards a global goal while avoiding obstacles in uncertain environments. First, we use stochastic model predictive control (SMPC) to calculate control inputs that satisfy robot dynamics, and consider uncertainty during obstacle avoidance with chance constraints. Second, recurrent neural networks are used to provide a quick estimate of future state uncertainty considered in the SMPC finite-time horizon solution, which are trained on uncertainty outputs of various simultaneous localization and mapping algorithms. When two or more robots are in communication range, these uncertainties are then updated using a distributed Kalman filtering approach. Lastly, a Deep Q-learning agent is employed to serve as a high-level path planner, providing the SMPC with target positions that move the robots towards a desired global goal. Our complete methods are demonstrated on a ground and aerial robot simultaneously (code available at: https://github.com/A lexS28/SABER).
翻訳日:2021-08-04 14:02:55 公開日:2021-08-03
# 発話フローモデリングと事実正規化を支援する対話要約

Dialogue Summarization with Supporting Utterance Flow Modeling and Fact Regularization ( http://arxiv.org/abs/2108.01268v1 )

ライセンス: Link先を確認
Wang Chen, Piji Li, Hou Pong Chan, Irwin King(参考訳) 対話要約は、与えられた対話の要点を示す要約を生成することを目的としている。 本研究では,2つの新しいモジュール,すなわち,emph{ supporting utterance flow modeling module} と \emph{fact regularization module} との対話要約のためのエンドツーエンドニューラルネットワークを提案する。 支援発話フローモデリングは、フォーカスを前者から後者へスムーズにシフトさせることにより、コヒーレントな要約を生成するのに役立つ。 事実正則化は、生成した要約がモデルトレーニング中の基幹的要約と現実的に整合することを奨励し、生成した要約の推論時間における事実的正当性を改善するのに役立つ。 さらに,対話要約のためのベンチマークデータセットも新たに導入する。 既存のデータセットと新しく導入されたデータセットの両方に対する大規模な実験は、我々のモデルの有効性を実証している。

Dialogue summarization aims to generate a summary that indicates the key points of a given dialogue. In this work, we propose an end-to-end neural model for dialogue summarization with two novel modules, namely, the \emph{supporting utterance flow modeling module} and the \emph{fact regularization module}. The supporting utterance flow modeling helps to generate a coherent summary by smoothly shifting the focus from the former utterances to the later ones. The fact regularization encourages the generated summary to be factually consistent with the ground-truth summary during model training, which helps to improve the factual correctness of the generated summary in inference time. Furthermore, we also introduce a new benchmark dataset for dialogue summarization. Extensive experiments on both existing and newly-introduced datasets demonstrate the effectiveness of our model.
翻訳日:2021-08-04 14:02:38 公開日:2021-08-03
# 対話モデルの評価方法:アプローチのレビュー

How to Evaluate Your Dialogue Models: A Review of Approaches ( http://arxiv.org/abs/2108.01369v1 )

ライセンス: Link先を確認
Xinmeng Li, Wansen Wu, Long Qin and Quanjun Yin(参考訳) 対話システムの品質評価は未検討の問題である。 評価手法の最近の進化は,既存手法の明示的かつ包括的分析を求める調査の動機となった。 まず,評価手法を,自動評価,人間主導評価,ユーザシミュレータに基づく評価という3つのクラスに分けた。 そして、各クラスは主要な特徴と関連する評価指標で覆われています。 また,対話手法の評価に適したベンチマークの存在についても詳細に述べる。 最後に,評価手法を新たなフロンティアに導くために,いくつかのオープンイシューが指摘されている。

Evaluating the quality of a dialogue system is an understudied problem. The recent evolution of evaluation method motivated this survey, in which an explicit and comprehensive analysis of the existing methods is sought. We are first to divide the evaluation methods into three classes, i.e., automatic evaluation, human-involved evaluation and user simulator based evaluation. Then, each class is covered with main features and the related evaluation metrics. The existence of benchmarks, suitable for the evaluation of dialogue techniques are also discussed in detail. Finally, some open issues are pointed out to bring the evaluation method into a new frontier.
翻訳日:2021-08-04 14:02:23 公開日:2021-08-03
# リンク不足は予測可能か? 知識グラフ補完のための推論ベンチマーク

Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion ( http://arxiv.org/abs/2108.01387v1 )

ライセンス: Link先を確認
Yixin Cao, Kuang Jun, Ming Gao, Aoying Zhou, Yonggang Wen and Tat-Seng Chua(参考訳) inferwikiは知識グラフ補完(kgc)データセットで、推論能力、仮定、パターンにおいて既存のベンチマークを改善します。 まず、各テストサンプルはトレーニングセットの支持データで予測可能である。 そこで本研究では,従来のランダムスプリットではなく,ルール誘導型列車/テスト生成の利用を提案する。 第二に、InferWikiは、オープンワールドの仮定に従って評価を開始し、手動で注釈付けされた負と未知のトリプルを提供することで、クローズドワールドの仮定の推論困難を改善する。 第3に、包括的評価のための様々な推論パターン(例えば、経路長と型)を含める。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。 結果と実証分析によりinferwikiの必要性と品質が示された。 それにもかかわらず、様々な仮定とパターン間の性能ギャップは、その難しさを示し、将来の研究方向性を刺激する。 私たちのデータセットはhttps://github.com/T aoMiner/inferwikiにある。

We present InferWiki, a Knowledge Graph Completion (KGC) dataset that improves upon existing benchmarks in inferential ability, assumptions, and patterns. First, each testing sample is predictable with supportive data in the training set. To ensure it, we propose to utilize rule-guided train/test generation, instead of conventional random split. Second, InferWiki initiates the evaluation following the open-world assumption and improves the inferential difficulty of the closed-world assumption, by providing manually annotated negative and unknown triples. Third, we include various inference patterns (e.g., reasoning path length and types) for comprehensive evaluation. In experiments, we curate two settings of InferWiki varying in sizes and structures, and apply the construction process on CoDEx as comparative datasets. The results and empirical analyses demonstrate the necessity and high-quality of InferWiki. Nevertheless, the performance gap among various inferential assumptions and patterns presents the difficulty and inspires future research direction. Our datasets can be found in https://github.com/T aoMiner/inferwiki
翻訳日:2021-08-04 14:02:16 公開日:2021-08-03
# 低解像度顔認識のための深層競争型ペナルティ学習

Deep Rival Penalized Competitive Learning for Low-resolution Face Recognition ( http://arxiv.org/abs/2108.01286v1 )

ライセンス: Link先を確認
Peiying Li, Shikui Tu, Lei Xu(参考訳) 現在の顔認識タスクは、通常高品質な顔画像で実行されるが、実際には、ほとんどの顔画像は、例えばビデオ監視によって、制約のない条件下で撮影される。 既存の方法は、ノイズ過収を避けるためにデータ不確実性を学習したり、正規化ソフトマックス損失のアングルまたはコサイン空間にマージンを追加してターゲットロジットをペナルティ化することで、クラス内コンパクト性とクラス間不一致を強制する。 本稿では,低分解能(LR)画像における深層顔認識のための深部Rival Penalized Competitive Learning (RPCL)を提案する。 RPCLのアイデアにインスパイアされた本手法は,入力画像に対する最大の非ターゲットロジットとして定義される競合ロジットの規制をさらに強化する。 対象のロジットに対するペナル化のみを考慮した既存の手法とは異なり,本手法は対象のラベルに対する学習を強化するだけでなく,逆方向,すなわち非学習を競合のラベルから遠ざけている。 総合的な実験により,本手法は既存の最先端手法を改良し,LR顔認識に非常に堅牢であることを示す。

Current face recognition tasks are usually carried out on high-quality face images, but in reality, most face images are captured under unconstrained or poor conditions, e.g., by video surveillance. Existing methods are featured by learning data uncertainty to avoid overfitting the noise, or by adding margins to the angle or cosine space of the normalized softmax loss to penalize the target logit, which enforces intra-class compactness and inter-class discrepancy. In this paper, we propose a deep Rival Penalized Competitive Learning (RPCL) for deep face recognition in low-resolution (LR) images. Inspired by the idea of the RPCL, our method further enforces regulation on the rival logit, which is defined as the largest non-target logit for an input image. Different from existing methods that only consider penalization on the target logit, our method not only strengthens the learning towards the target label, but also enforces a reverse direction, i.e., becoming de-learning, away from the rival label. Comprehensive experiments demonstrate that our method improves the existing state-of-the-art methods to be very robust for LR face recognition.
翻訳日:2021-08-04 14:01:30 公開日:2021-08-03
# 弱教師付き意味セグメンテーションに対する動的特徴正規化損失

Dynamic Feature Regularized Loss for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.01296v1 )

ライセンス: Link先を確認
Bingfeng Zhang, Jimin Xiao, Yao Zhao(参考訳) 我々は、スクリブルレベルのアノテーションで弱教師付きセマンティックセグメンテーションに取り組むことに注力する。 正規化損失は、このタスクの効果的な解決策であることが証明されている。 しかし、ほとんどの既存の正規化損失は、静的な浅い特徴(色、空間情報)を利用して正規化されたカーネルを計算し、このような静的な浅い特徴は複雑なケースでペアワイズピクセルの関係を記述できないため、最終的な性能を制限する。 本稿では,異なる画素間の関係を表現するのに十分な情報を集約するために,浅層と深層の両方の機能を利用して動的に更新する新しい正規化損失を提案する。 さらに,正確な深層機能を提供するため,視覚トランスフォーマーをバックボーンとして採用し,機能一貫性ヘッドの設計を行い,対方向の特徴関係を訓練する。 多くの鐘や笛で多段階のトレーニング戦略を採用するほとんどのアプローチとは異なり、私たちのアプローチはエンドツーエンドで直接トレーニングすることができる。 大規模な実験により,本手法は新たな最先端性能を実現し,他の手法よりも6倍以上のmIoU増加率で優れていた。

We focus on tackling weakly supervised semantic segmentation with scribble-level annotation. The regularized loss has been proven to be an effective solution for this task. However, most existing regularized losses only leverage static shallow features (color, spatial information) to compute the regularized kernel, which limits its final performance since such static shallow features fail to describe pair-wise pixel relationship in complicated cases. In this paper, we propose a new regularized loss which utilizes both shallow and deep features that are dynamically updated in order to aggregate sufficient information to represent the relationship of different pixels. Moreover, in order to provide accurate deep features, we adopt vision transformer as the backbone and design a feature consistency head to train the pair-wise feature relationship. Unlike most approaches that adopt multi-stage training strategy with many bells and whistles, our approach can be directly trained in an end-to-end manner, in which the feature consistency head and our regularized loss can benefit from each other. Extensive experiments show that our approach achieves new state-of-the-art performances, outperforming other approaches by a significant margin with more than 6\% mIoU increase.
翻訳日:2021-08-04 14:01:10 公開日:2021-08-03
# I3CL:任意型シーンテキスト検出のための事例間協調学習

I3CL:Intra- and Inter-Instance Collaborative Learning for Arbitrary-shaped Scene Text Detection ( http://arxiv.org/abs/2108.01343v1 )

ライセンス: Link先を確認
Jian Ye, Jing Zhang, Juhua Liu, Bo Du and Dacheng Tao(参考訳) 自然シーンにおける任意の形状のテキスト検出手法は,(1)テキストインスタンスの隙間における破壊検出,(2)背景コンテキストの異なる任意型テキストインスタンスの不正確な検出という2つの重要な課題に直面している。 これらの課題に対処するため,事例間協調学習(I3CL)と呼ばれる新しい手法を提案する。 具体的には,テキストインスタンス内の局所的および長い範囲で,より優れたキャラクタ表現とギャップ特徴表現を協調的に学習できる,複数の受容場を持つ効果的な畳み込みモジュールを設計した。 2つ目の課題に対処するために、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールと、共有背景からグローバルコンテキストを活用するピクセルベースのトランスフォーマーモジュールを考案し、より差別的なテキスト特徴表現を協調的に学習する。 このようにして、I3CLは、統合されたエンドツーエンドのトレーニング可能なフレームワークにおいて、インスタンス内およびインスタンス間依存関係を効果的に活用できる。 実験の結果、提案されたi3clは3つの挑戦的な公開ベンチマーク(icdar2019-artではf-測定値76.4%、全テキストでは86.2%、ctw-1500では85.8%)で新しい最先端のパフォーマンスを設定できることがわかった。 さらに、ResNeSt-101バックボーンを持つI3CLは、ICDAR2019-ArTのリーダーボードで1位となった。 ソースコードは一般公開される予定だ。

Existing methods for arbitrary-shaped text detection in natural scenes face two critical issues, i.e., 1) fracture detections at the gaps in a text instance; and 2) inaccurate detections of arbitrary-shaped text instances with diverse background context. To address these issues, we propose a novel method named Intra- and Inter-Instance Collaborative Learning (I3CL). Specifically, to address the first issue, we design an effective convolutional module with multiple receptive fields, which is able to collaboratively learn better character and gap feature representations at local and long ranges inside a text instance. To address the second issue, we devise an instance-based transformer module to exploit the dependencies between different text instances and a pixel-based transformer module to exploit the global context from the shared background, which are able to collaboratively learn more discriminative text feature representations. In this way, I3CL can effectively exploit the intra- and inter-instance dependencies together in a unified end-to-end trainable framework. Experimental results show that the proposed I3CL sets new state-of-the-art performances on three challenging public benchmarks, i.e., an F-measure of 76.4% on ICDAR2019-ArT, 86.2% on Total-Text, and 85.8% on CTW-1500. Besides, I3CL with ResNeSt-101 backbone ranked 1st place on the ICDAR2019-ArT leaderboard. The source code will be made publicly available.
翻訳日:2021-08-04 14:00:50 公開日:2021-08-03
# テキスト・画像合成のためのサイクル一貫性逆GAN

Cycle-Consistent Inverse GAN for Text-to-Image Synthesis ( http://arxiv.org/abs/2108.01361v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 本稿では,テキスト記述から画像を自動的に生成・操作するためのテキスト対画像合成のオープン研究課題について検討する。 一般的な方法は、主にgan生成の条件としてテキストを使用し、テキスト誘導画像生成および操作タスクの異なるモデルを訓練する。 本稿では,テキスト対画像生成タスクとテキスト誘導画像操作タスクの両方に対して,周期整合逆gan(ci-gan)の新たな統一フレームワークを提案する。 具体的には、まずテキスト入力なしでGANモデルをトレーニングし、高い多様性と品質の画像を生成する。 そして、GAN変換モデルを学び、画像をGAN潜在空間に変換し、各画像の反転潜時符号を取得し、より堅牢で一貫した逆潜時符号を学習するためのサイクル一貫性トレーニングを導入する。 さらに,テキスト表現と潜在コード間の類似性モデルを学習することにより,学習したganモデルの潜在空間意味を明らかにする。 テキスト誘導最適化モジュールでは,逆潜在符号を最適化することにより,所望の意味属性を持つ画像を生成する。 Recipe1MとCUBデータセットの大規模な実験により,提案手法の有効性が検証された。

This paper investigates an open research task of text-to-image synthesis for automatically generating or manipulating images from text descriptions. Prevailing methods mainly use the text as conditions for GAN generation, and train different models for the text-guided image generation and manipulation tasks. In this paper, we propose a novel unified framework of Cycle-consistent Inverse GAN (CI-GAN) for both text-to-image generation and text-guided image manipulation tasks. Specifically, we first train a GAN model without text input, aiming to generate images with high diversity and quality. Then we learn a GAN inversion model to convert the images back to the GAN latent space and obtain the inverted latent codes for each image, where we introduce the cycle-consistency training to learn more robust and consistent inverted latent codes. We further uncover the latent space semantics of the trained GAN model, by learning a similarity model between text representations and the latent codes. In the text-guided optimization module, we generate images with the desired semantic attributes by optimizing the inverted latent codes. Extensive experiments on the Recipe1M and CUB datasets validate the efficacy of our proposed framework.
翻訳日:2021-08-04 14:00:23 公開日:2021-08-03
# サーモラピッドコンポジションを用いたAI型廃棄物分類器

AI Based Waste classifier with Thermo-Rapid Composting ( http://arxiv.org/abs/2108.01394v1 )

ライセンス: Link先を確認
Saswati kumari behera, Aouthithiye Barathwaj SR Y, Vasundhara L, Saisudha G, Haariharan N C(参考訳) 廃棄物処理は、特に大都市では、非常に複雑で難しいプロセスである。 巨大な人力を必要とし、電気や燃料など他の資源も利用している。 これにより、最新の技術の助けを借りて新しい方法を使う必要が生じる。 本稿では,コンピュータビジョン (CV) と深層学習 (DL) を用いた新しい廃棄物分類手法を提案する。 廃棄物分類能力をさらに向上するため、サポートマシンベクトル(SVM)が使用される。 また, コンポスト化による分解性廃棄物の分解も行う。 本稿では, 都市ごみの分別について主に研究してきた。 このモデルでは、機械学習(ML)ベースのツールである畳み込みニューラルネットワーク(CNN)に基づいて開発されたオブジェクトを、コンピュータビジョンベースのアルゴリズムであるYOLOv3(You Only Look Once)を用いて検出する。 それらは、特に画像指向データから特徴を抽出するために広く使用される。 本稿では, より迅速かつ効率的な廃棄物分類手法を提案する。 bkc (brkley method of composting) により生分解性廃棄物を分解する。

Waste management is a certainly a very complex and difficult process especially in very large cities. It needs immense man power and also uses up other resources such as electricity and fuel. This creates a need to use a novel method with help of latest technologies. Here in this article we present a new waste classification technique using Computer Vision (CV) and deep learning (DL). To further improve waste classification ability, support machine vectors (SVM) are used. We also decompose the degradable waste with help of rapid composting. In this article we have mainly worked on segregation of municipal solid waste (MSW). For this model, we use YOLOv3 (You Only Look Once) a computer vision-based algorithm popularly used to detect objects which is developed based on Convolution Neural Networks (CNNs) which is a machine learning (ML) based tool. They are extensively used to extract features from a data especially image-oriented data. In this article we propose a waste classification technique which will be faster and more efficient. And we decompose the biodegradable waste by Berkley Method of composting (BKC)
翻訳日:2021-08-04 14:00:05 公開日:2021-08-03
# 学習境界ボックスアジャスタによる弱教師付き物体検出の促進

Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters ( http://arxiv.org/abs/2108.01499v1 )

ライセンス: Link先を確認
Bowen Dong and Zitong Huang and Yuelin Guo and Qilong Wang and Zhenxing Niu and Wangmeng Zuo(参考訳) 高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervis ed Object Detection)が最近の話題として登場した。 しかし、既存のほとんどのWSODメソッドのバウンディングボックスは、主に事前計算された提案によって決定され、したがって正確なオブジェクトローカライゼーションにおいて制限される。 本稿では,よくアノテーションされた補助データセットから境界ボックス回帰知識を活用し,ローカライズ性能を向上させるための問題設定を擁護する。 まず,学習可能なバウンディングボックスアジャスタ(lbbas)をクラスに依存しない多段階のトレーニング方法で探索するために,注釈付き補助データセットを用いた。 そして、LBBAをベースとしたWSODのトレーニングには、LBBAと非オーバーラップクラス付き弱アノテーションデータセットのみを使用する。 そのため,我々のLBBAは,補助的注釈付きデータセットの漏洩を回避しつつ,実装に便利で経済的である。 特に,二段階最適化問題として学習境界ボックス調整器を定式化し,EMのような多段階学習アルゴリズムを提案する。 次に、LBBAボイスされたWSODに対して、さらに多段階のスキームを示す。 さらに、提案分類を改善するためにマスキング戦略を採用する。 本手法の有効性を実験的に検証した。 提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。 コードは \url{https://github.com/D ongSky/lbba_boosted_ wsod} で公開されている。

Weakly-supervised object detection (WSOD) has emerged as an inspiring recent topic to avoid expensive instance-level object annotations. However, the bounding boxes of most existing WSOD methods are mainly determined by precomputed proposals, thereby being limited in precise object localization. In this paper, we defend the problem setting for improving localization performance by leveraging the bounding box regression knowledge from a well-annotated auxiliary dataset. First, we use the well-annotated auxiliary dataset to explore a series of learnable bounding box adjusters (LBBAs) in a multi-stage training manner, which is class-agnostic. Then, only LBBAs and a weakly-annotated dataset with non-overlapped classes are used for training LBBA-boosted WSOD. As such, our LBBAs are practically more convenient and economical to implement while avoiding the leakage of the auxiliary well-annotated dataset. In particular, we formulate learning bounding box adjusters as a bi-level optimization problem and suggest an EM-like multi-stage training algorithm. Then, a multi-stage scheme is further presented for LBBA-boosted WSOD. Additionally, a masking strategy is adopted to improve proposal classification. Experimental results verify the effectiveness of our method. Our method performs favorably against state-of-the-art WSOD methods and knowledge transfer model with similar problem setting. Code is publicly available at \url{https://github.com/D ongSky/lbba_boosted_ wsod}.
翻訳日:2021-08-04 13:59:51 公開日:2021-08-03
# ディープganを用いたクロススペクトルクロスレゾリューション虹彩認識

Deep GAN-Based Cross-Spectral Cross-Resolution Iris Recognition ( http://arxiv.org/abs/2108.01569v1 )

ライセンス: Link先を確認
Moktari Mostofa, Salman Mohamadi, Jeremy Dawson, and Nasser M. Nasrabadi(参考訳) 近年、クロススペクトル虹彩認識は、個人のアイデンティティを確立するための有望なバイオメトリックアプローチとして現れている。 しかし、異なるスペクトル帯域で取得した虹彩画像(すなわち、可視(VIS)虹彩プローブと近赤外(NIR)虹彩画像のギャラリーとのマッチング)は、帯域内NIRマッチングと比較して顕著な性能劣化を示す。 そこで本研究では,クロススペクトルiris認識の精度をさらに高めるために,dcgan(deep convolutional generative adversarial network)アーキテクチャについて検討した。 さらに,従来の文献と異なり,古典的クロススペクトルマッチング問題領域に分解能差を導入する。 我々は,条件付き生成対向ネットワーク(cGAN)をバックボーンアーキテクチャとして用いた2つの異なる手法を開発した。 第1のアプローチでは、クロスレゾリューションとクロススペクトルマッチングの問題を、クロスレゾリューションとクロススペクトルタスクを同一の解像度と同一のスペクトルに共同で翻訳するcGANを訓練することで同時に解決する。 第2のアプローチでは、VISとNIRのアイリス像を低次元の埋め込み領域に投影する一対のcGANモジュールからなる合成逆数ネットワーク(cpGAN)アーキテクチャを設計し、同一対象の2つのアイリスモードから特徴ベクトル間の最大一対の類似性を確保する。

In recent years, cross-spectral iris recognition has emerged as a promising biometric approach to establish the identity of individuals. However, matching iris images acquired at different spectral bands (i.e., matching a visible (VIS) iris probe to a gallery of near-infrared (NIR) iris images or vice versa) shows a significant performance degradation when compared to intraband NIR matching. Hence, in this paper, we have investigated a range of deep convolutional generative adversarial network (DCGAN) architectures to further improve the accuracy of cross-spectral iris recognition methods. Moreover, unlike the existing works in the literature, we introduce a resolution difference into the classical cross-spectral matching problem domain. We have developed two different techniques using the conditional generative adversarial network (cGAN) as a backbone architecture for cross-spectral iris matching. In the first approach, we simultaneously address the cross-resolution and cross-spectral matching problem by training a cGAN that jointly translates cross-resolution as well as cross-spectral tasks to the same resolution and within the same spectrum. In the second approach, we design a coupled generative adversarial network (cpGAN) architecture consisting of a pair of cGAN modules that project the VIS and NIR iris images into a low-dimensional embedding domain to ensure maximum pairwise similarity between the feature vectors from the two iris modalities of the same subject.
翻訳日:2021-08-04 13:59:29 公開日:2021-08-03
# 一般化されたソースフリードメイン適応

Generalized Source-free Domain Adaptation ( http://arxiv.org/abs/2108.01614v1 )

ライセンス: Link先を確認
Shiqi Yang, Yaxing Wang, Joost van de Weijer, Luis Herranz, Shangling Jui(参考訳) ドメイン適応(da)は、ソースドメインから学んだ知識をラベルなしのターゲットドメインに転送することを目的としている。 最近の研究はソースフリードメイン適応(SFDA)に取り組み、ソース事前学習モデルのみがターゲットドメインへの適応に利用できる。 しかし、これらの手法は実際のアプリケーションにおいて高い実用的価値を持つソース性能を維持することを考慮していない。 本稿では,学習モデルが対象領域と対象領域の両方で良好に動作し,適応中に現在のラベルなしのターゲットデータのみにアクセスする必要がある,一般化されたソースフリードメイン適応 (g-sfda) と呼ばれる新しいドメイン適応パラダイムを提案する。 まず,提案するローカル構造クラスタリング (LSC) は,ソースデータがない場合に,そのモデルが対象領域に適応する,意味的に類似した特徴をクラスタリングすることを目的としている。 第2に、スパースドメインアテンション(SDA)を提案し、異なるドメインの異なる特徴チャネルを活性化するためにバイナリドメイン固有のアテンションを生成し、一方、ドメインアテンションは、ソース情報を保持するために順応中の勾配を調整するために利用される。 実験では,本手法は既存の DA 法や SFDA 法と同等以上の精度で,特に VisDA の最先端性能 (85.4%) を達成でき,本手法は単一ないし複数のターゲットドメインに適応した後,すべてのドメインで有効である。 コードはhttps://github.com/A lbert0147/G-SFDAで入手できる。

Domain adaptation (DA) aims to transfer the knowledge learned from a source domain to an unlabeled target domain. Some recent works tackle source-free domain adaptation (SFDA) where only a source pre-trained model is available for adaptation to the target domain. However, those methods do not consider keeping source performance which is of high practical value in real world applications. In this paper, we propose a new domain adaptation paradigm called Generalized Source-free Domain Adaptation (G-SFDA), where the learned model needs to perform well on both the target and source domains, with only access to current unlabeled target data during adaptation. First, we propose local structure clustering (LSC), aiming to cluster the target features with its semantically similar neighbors, which successfully adapts the model to the target domain in the absence of source data. Second, we propose sparse domain attention (SDA), it produces a binary domain specific attention to activate different feature channels for different domains, meanwhile the domain attention will be utilized to regularize the gradient during adaptation to keep source information. In the experiments, for target performance our method is on par with or better than existing DA and SFDA methods, specifically it achieves state-of-the-art performance (85.4%) on VisDA, and our method works well for all domains after adapting to single or multiple target domains. Code is available in https://github.com/A lbert0147/G-SFDA.
翻訳日:2021-08-04 13:59:01 公開日:2021-08-03
# Del-Net:モバイルカメラISPのためのシングルステージネットワーク

Del-Net: A Single-Stage Network for Mobile Camera ISP ( http://arxiv.org/abs/2108.01623v1 )

ライセンス: Link先を確認
Saumya Gupta, Diplav Srivastava, Umang Chaturvedi, Anurag Jain, Gaurav Khandelwal(参考訳) スマートフォンがプライマリキャプチャーデバイスとして普及しているため、スマートフォンで撮影された画像の品質は重要な仕様である。 スマートフォンカメラにおける従来の画像信号処理(ISP)パイプラインは、原センサーデータから高品質のsRGBイメージを逐次再構成する複数の画像処理ステップで構成されている。 これらのステップは、デモサイシング、デノージング、ホワイトバランス、ガンマ補正、カラーエンハンスメントなどで構成される。 それぞれ手作りのアルゴリズムを用いて順次実行されるので、各処理モジュールからの残差は最終再構成信号に蓄積される。 このように、従来のispパイプラインは、画像をキャプチャしながら異なる照明条件と関連するノイズレベルにまたがる一般化性の観点から、再構成品質が限られている。 畳み込みニューラルネットワーク(cnn)を用いた深層学習手法は,画像のデノイジングやコントラスト強調,スーパーレゾリューション,デブラリングなど,画像関連課題の解決に広く利用されている。 さらに, 深層学習手法を用いたsRGB変換へのRAWの最近のアプローチも発表されているが, メモリ要求やMult-Addの多さからすると, モバイルカメラISPには適さない。 本稿では,スマートフォンの展開に適した複雑さでISPパイプライン全体を学ぶために,単一のエンドツーエンドディープラーニングモデルであるDelNetを提案する。 del-netは、色のようなグローバルな特徴を捉えるために空間的およびチャネル的注意力を利用するマルチスケールアーキテクチャである。 検証のために提案したDel-Netが魅力的な再構成品質を実現することを示す。

The quality of images captured by smartphones is an important specification since smartphones are becoming ubiquitous as primary capturing devices. The traditional image signal processing (ISP) pipeline in a smartphone camera consists of several image processing steps performed sequentially to reconstruct a high quality sRGB image from the raw sensor data. These steps consist of demosaicing, denoising, white balancing, gamma correction, colour enhancement, etc. Since each of them are performed sequentially using hand-crafted algorithms, the residual error from each processing module accumulates in the final reconstructed signal. Thus, the traditional ISP pipeline has limited reconstruction quality in terms of generalizability across different lighting conditions and associated noise levels while capturing the image. Deep learning methods using convolutional neural networks (CNN) have become popular in solving many image-related tasks such as image denoising, contrast enhancement, super resolution, deblurring, etc. Furthermore, recent approaches for the RAW to sRGB conversion using deep learning methods have also been published, however, their immense complexity in terms of their memory requirement and number of Mult-Adds make them unsuitable for mobile camera ISP. In this paper we propose DelNet - a single end-to-end deep learning model - to learn the entire ISP pipeline within reasonable complexity for smartphone deployment. Del-Net is a multi-scale architecture that uses spatial and channel attention to capture global features like colour, as well as a series of lightweight modified residual attention blocks to help with denoising. For validation, we provide results to show the proposed Del-Net achieves compelling reconstruction quality.
翻訳日:2021-08-04 13:58:33 公開日:2021-08-03
# トリガー障害:セマンティクスセグメンテーションにおける局所敵攻撃からの学習によるアウトオブディストリビューション検出

Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation ( http://arxiv.org/abs/2108.01634v1 )

ライセンス: Link先を確認
Victor Besnier, Andrei Bursuc, David Picard, Alexandre Briot(参考訳) 本稿では,セマンティクスセグメンテーションにおけるout-of-distribution( ood)オブジェクトの検出に取り組む。 文献を解析した結果、現在の手法は正確か高速かのどちらかであり、実世界のアプリケーションでは使い勝手が制限されないことがわかった。 そこで我々は,OOD検出をセグメント化タスクから切り離し,単に出力ではなくセグメント化ネットワーク全体を観察し,セグメント化ネットワークの盲点を利用してOOD検出のためのトレーニングデータを生成し,画像内の局所化領域に生成したデータに集中してOODオブジェクトをシミュレートする,という4つの設計原則に従って,共通的な欠点を軽減することを提案する。 我々の主な貢献は、Local Adversarial Attacks (LAA)に基づく専用トレーニングスキームに関連するObsNetと呼ばれる新しいOOD検出アーキテクチャである。 我々は,多数のアブレーション研究を通して,アプローチの健全性を検証する。 また,3つの異なるデータセットの文献の10種類の手法と比較して,速度と精度の両面で最高の性能が得られることを示す。

In this paper, we tackle the detection of out-of-distribution (OOD) objects in semantic segmentation. By analyzing the literature, we found that current methods are either accurate or fast but not both which limits their usability in real world applications. To get the best of both aspects, we propose to mitigate the common shortcomings by following four design principles: decoupling the OOD detection from the segmentation task, observing the entire segmentation network instead of just its output, generating training data for the OOD detector by leveraging blind spots in the segmentation network and focusing the generated data on localized regions in the image to simulate OOD objects. Our main contribution is a new OOD detection architecture called ObsNet associated with a dedicated training scheme based on Local Adversarial Attacks (LAA). We validate the soundness of our approach across numerous ablation studies. We also show it obtains top performances both in speed and accuracy when compared to ten recent methods of the literature on three different datasets.
翻訳日:2021-08-04 13:58:07 公開日:2021-08-03
# MBDP:ダブルドロップアウト計画によるロバストネスとサンプル効率の両立に向けたモデルベースアプローチ

MBDP: A Model-based Approach to Achieve both Robustness and Sample Efficiency via Double Dropout Planning ( http://arxiv.org/abs/2108.01295v1 )

ライセンス: Link先を確認
Wanpeng Zhang, Xi Xiao, Yao Yao, Mingzhe Chen, Dijun Luo(参考訳) モデルに基づく強化学習は、過剰なサンプル要求を解決するための広く受け入れられているソリューションである。 しかし、ダイナミクスモデルの予測は、しばしば十分に正確ではなく、結果として生じるバイアスは、不十分な堅牢性のために壊滅的な決定を引き起こす可能性がある。 したがって,高いサンプリング効率を維持しつつモデルベースrlアルゴリズムのロバスト性を向上させる方法について検討することが望まれる。 本稿では,ロバスト性と効率のバランスをとるために,モデルベースダブルドロップアウト計画(MBDP)を提案する。 MBDPは2種類のドロップアウト機構から構成されており、ロールアウト・ドロップアウトは少量のサンプル効率でロバスト性を改善することを目的としており、モデル・ドロップアウトはロバスト性をわずかに犠牲にして損失効率を補うように設計されている。 相補的な方法で組み合わせることで、MBDPは、2つの対応するドロップアウト比を調整することによって、異なる堅牢性と効率性の要求を満たす柔軟な制御機構を提供する。 MBDPは理論的にも実験的にも有効である。

Model-based reinforcement learning is a widely accepted solution for solving excessive sample demands. However, the predictions of the dynamics models are often not accurate enough, and the resulting bias may incur catastrophic decisions due to insufficient robustness. Therefore, it is highly desired to investigate how to improve the robustness of model-based RL algorithms while maintaining high sampling efficiency. In this paper, we propose Model-Based Double-dropout Planning (MBDP) to balance robustness and efficiency. MBDP consists of two kinds of dropout mechanisms, where the rollout-dropout aims to improve the robustness with a small cost of sample efficiency, while the model-dropout is designed to compensate for the lost efficiency at a slight expense of robustness. By combining them in a complementary way, MBDP provides a flexible control mechanism to meet different demands of robustness and efficiency by tuning two corresponding dropout ratios. The effectiveness of MBDP is demonstrated both theoretically and experimentally.
翻訳日:2021-08-04 13:57:22 公開日:2021-08-03
# GalaxAI:宇宙船テレメトリデータの解釈解析のための機械学習ツールボックス

GalaxAI: Machine learning toolbox for interpretable analysis of spacecraft telemetry data ( http://arxiv.org/abs/2108.01407v1 )

ライセンス: Link先を確認
Ana Kostovska, Matej Petkovic\'c, Toma\v{z} Stepi\v{s}nik, Luke Lucas, Timothy Finn, Jos\'e Mart\'inez-Heras, Pan\v{c}e Panov, Sa\v{s}o D\v{z}eroski, Alessandro Donati, Nikola Simidjievski, Dragi Kocev(参考訳) 宇宙船テレメトリデータの効率的かつ解釈可能なエンドツーエンド分析のための汎用機械学習ツールボックスであるGalaxAIを提案する。 GalaxAIは、多変量時系列解析、分類、回帰、構造化された出力予測に様々な機械学習アルゴリズムを使用し、高スループットの異種データを扱うことができる。 これらの手法は、堅牢で正確な予測モデルの構築を可能にし、宇宙船の監視と運用計画の異なるタスクに適用される。 さらに重要なのは、モデルの正確な構築に加えて、GalaxAIは可視化レイヤを実装し、ミッションスペシャリストやオペレータに、データ分析プロセスの完全な詳細かつ解釈可能なビューを提供する。 2つの異なる宇宙船に関する2つのユースケースにおけるガラクシーの有用性と汎用性を示す: i)マーズが熱エネルギーを消費する解析と計画、ii)ヴァン・アレンベルトを通る積分の交差を予測する。

We present GalaxAI - a versatile machine learning toolbox for efficient and interpretable end-to-end analysis of spacecraft telemetry data. GalaxAI employs various machine learning algorithms for multivariate time series analyses, classification, regression and structured output prediction, capable of handling high-throughput heterogeneous data. These methods allow for the construction of robust and accurate predictive models, that are in turn applied to different tasks of spacecraft monitoring and operations planning. More importantly, besides the accurate building of models, GalaxAI implements a visualisation layer, providing mission specialists and operators with a full, detailed and interpretable view of the data analysis process. We show the utility and versatility of GalaxAI on two use-cases concerning two different spacecraft: i) analysis and planning of Mars Express thermal power consumption and ii) predicting of INTEGRAL's crossings through Van Allen belts.
翻訳日:2021-08-04 13:57:07 公開日:2021-08-03
# デスク組織:空間関係学習におけるマルチモーダル入力の効果

Desk Organization: Effect of Multimodal Inputs on Spatial Relational Learning ( http://arxiv.org/abs/2108.01254v1 )

ライセンス: Link先を確認
Ryan Rowe, Shivam Singhal, Daqing Yi, Tapomayukh Bhattacharjee and Siddhartha S. Srinivasa(参考訳) ロボットが3次元の世界で操作し、人間と対話するには、周囲の物体間の空間的関係を学習する必要がある。 世界の状況に関する推論には、視覚(V$)や触覚(H$)など、さまざまな感覚モダリティからの入力が必要となる。 そこで我々は, 空間的対象を平面上にどのように配置するかを, 組織的「推奨」に従って学習する。 我々は、視覚と触覚のモダリティから受ける複数の特徴を人間がどう配置するかを調べることで、この問題をモデル化する。 しかし、組織的習慣は、構造と定着の両方において大きく異なる。 ユーザの組織的好みに対処するために、与えられたオブジェクトの特定の人間の認識された有用性を知らせる追加のモダリティ ''utility' (u$)を追加します。 モデルは、一般化(多くの異なる人々)または調整(一人あたり)として訓練された。 我々は、マルチタスクの正確な分類に焦点を当てたランダムフォレストと、組織的習慣に対する理解しやすい洞察を提供するマルコフ論理ネットワークの2つのモデルを使用している。 このモデルは, 固定的な組織制約を用いて学習可能な合成データと, 90%以上の精度でランダム林が達成された人為的データの両方に適用された。 組織にとって、$\{h, u, v\}$ modalities, $uv$ と $huv$ のすべての組み合わせが最も有益であった。 フォローアップ研究では,ランダムな森林組織とランダムなモデルで比較し,デスク組織の選好を推定した。 平均して、参加者はランダムな森林モデルを5ポイント様のスケールで4.15とし、ランダムなモデルでは1.84とした。

For robots to operate in a three dimensional world and interact with humans, learning spatial relationships among objects in the surrounding is necessary. Reasoning about the state of the world requires inputs from many different sensory modalities including vision ($V$) and haptics ($H$). We examine the problem of desk organization: learning how humans spatially position different objects on a planar surface according to organizational ''preference''. We model this problem by examining how humans position objects given multiple features received from vision and haptic modalities. However, organizational habits vary greatly between people both in structure and adherence. To deal with user organizational preferences, we add an additional modality, ''utility'' ($U$), which informs on a particular human's perceived usefulness of a given object. Models were trained as generalized (over many different people) or tailored (per person). We use two types of models: random forests, which focus on precise multi-task classification, and Markov logic networks, which provide an easily interpretable insight into organizational habits. The models were applied to both synthetic data, which proved to be learnable when using fixed organizational constraints, and human-study data, on which the random forest achieved over 90% accuracy. Over all combinations of $\{H, U, V\}$ modalities, $UV$ and $HUV$ were the most informative for organization. In a follow-up study, we gauged participants preference of desk organizations by a generalized random forest organization vs. by a random model. On average, participants rated the random forest models as 4.15 on a 5-point Likert scale compared to 1.84 for the random model
翻訳日:2021-08-04 13:56:26 公開日:2021-08-03
# エネルギーシステム最適化アルゴリズムにおける分散ヒューリスティックスのための動的通信トポロジ

Dynamic communication topologies for distributed heuristics in energy system optimization algorithms ( http://arxiv.org/abs/2108.01380v1 )

ライセンス: Link先を確認
Stefanie Holly and Astrid Nie{\ss}e(参考訳) 通信トポロジは分散最適化ヒューリスティックの設計において重要な側面である。 これは、探索空間の探索と利用に影響し、エネルギーシステムにおいて重要なインフラを運用するアプリケーションにおいて、ソリューションの品質、収束速度、コラボレーションコストといった面での最適化性能に影響を与える可能性がある。 本研究では,シミュレート・アニーリングの原理に基づいて,実行時の通信トポロジーを適用する手法を提案する。 我々は、模範的な分散最適化ヒューリスティックの性能に関する一般的な静的トポロジと比較する。 最後に,フィットネスランドスケープ特性と性能指標の相関について検討した。

The communication topology is an essential aspect in designing distributed optimization heuristics. It can influence the exploration and exploitation of the search space and thus the optimization performance in terms of solution quality, convergence speed and collaboration costs, all relevant aspects for applications operating critical infrastructure in energy systems. In this work, we present an approach for adapting the communication topology during runtime, based on the principles of simulated annealing. We compare the approach to common static topologies regarding the performance of an exemplary distributed optimization heuristic. Finally, we investigate the correlations between fitness landscape properties and defined performance metrics.
翻訳日:2021-08-04 13:55:57 公開日:2021-08-03
# 3次元SLAMにおけるセグメントベースループ閉鎖のためのLiDAR強度画像の記述力について

On the descriptive power of LiDAR intensity images for segment-based loop closing in 3-D SLAM ( http://arxiv.org/abs/2108.01383v1 )

ライセンス: Link先を確認
Jan Wietrzykowski and Piotr Skrzypczy\'nski(参考訳) 本稿では,セグメントの視覚的文脈を考慮した記述子を用いたlidar slamのセグメントベースグローバルローカライズ手法の拡張を提案する。 合成LiDAR強度画像から得られる視覚的コンテキストを学習するディープニューラルネットワークの新しいアーキテクチャを提案する。 このアプローチにより、単一のマルチビームLiDARがリッチで記述性の高いロケーションシグネチャを生成することができる。 この手法は2つの公開データセットでテストされ、新しい記述子の記述性の向上とSLAMでのより信頼性の高いループクロージャ検出を示す。 ネットワークの注意分析は,3次元セグメントのみに限らず,より広い文脈に焦点を絞ることの重要性を示す。

We propose an extension to the segment-based global localization method for LiDAR SLAM using descriptors learned considering the visual context of the segments. A new architecture of the deep neural network is presented that learns the visual context acquired from synthetic LiDAR intensity images. This approach allows a single multi-beam LiDAR to produce rich and highly descriptive location signatures. The method is tested on two public datasets, demonstrating an improved descriptiveness of the new descriptors, and more reliable loop closure detection in SLAM. Attention analysis of the network is used to show the importance of focusing on the broader context rather than only on the 3-D segment.
翻訳日:2021-08-04 13:55:47 公開日:2021-08-03
# 都市空調計画における航空車両のスケジューリング

Scheduling Aerial Vehicles in an Urban Air Mobility Scheme ( http://arxiv.org/abs/2108.01608v1 )

ライセンス: Link先を確認
Emmanouil S. Rigas, Panayiotis Kolios, Georgios Ellinas(参考訳) 人口の多い都市はいくつかの困難に直面しており、そのうちの1つは交通渋滞である。 近年では、この問題に対処する手段として、大企業や組織によって、都市空気移動の概念が進められており、このアプローチが急速に定着している。 このディスラプティブな技術は、顧客が大都市内の場所を移動できるよりも、雇用のための航空車両(avs)である。 このコンセプトは、一般的にバッテリーを動力とする電動モーターを使用するため、交通渋滞を劇的に減らし、大気汚染を減らす可能性がある。 本研究は、顧客へのAVの割り当てを計画し、最低限の高度で飛行させることで、サービスされた顧客を最大化し、AVのエネルギー消費を最小限にすることを目的としている。 当初、Integer Linear Program (ILP) の定式化が提示され、オフラインで最適に解決され、続いてほぼ最適アルゴリズムによって、一度に1つのAVを段階的に解決し、スケーラビリティの問題に対処し、多数のロケーション、AV、顧客要求を含む問題のスケジューリングを可能にする。

Highly populated cities face several challenges, one of them being the intense traffic congestion. In recent years, the concept of Urban Air Mobility has been put forward by large companies and organizations as a way to address this problem, and this approach has been rapidly gaining ground. This disruptive technology involves aerial vehicles (AVs) for hire than can be utilized by customers to travel between locations within large cities. This concept has the potential to drastically decrease traffic congestion and reduce air pollution, since these vehicles typically use electric motors powered by batteries. This work studies the problem of scheduling the assignment of AVs to customers, having as a goal to maximize the serviced customers and minimize the energy consumption of the AVs by forcing them to fly at the lowest possible altitude. Initially, an Integer Linear Program (ILP) formulation is presented, that is solved offline and optimally, followed by a near-optimal algorithm, that solves the problem incrementally, one AV at a time, to address scalability issues, allowing scheduling in problems involving large numbers of locations, AVs, and customer requests.
翻訳日:2021-08-04 13:55:35 公開日:2021-08-03
# 音響フュージョン:動的環境における音源定位と視覚SLAM

AcousticFusion: Fusing Sound Source Localization to Visual SLAM in Dynamic Environments ( http://arxiv.org/abs/2108.01246v1 )

ライセンス: Link先を確認
Tianwei Zhang, Huayan Zhang, Xiaofei Li, Junfeng Chen, Tin Lun Lam and Sethu Vijayakumar(参考訳) 人や他のエージェントのような環境内の動的オブジェクトは、既存の同時ローカライゼーションとマッピング(SLAM)アプローチの課題を引き起こす。 動的環境に対処するために、コンピュータビジョン研究者は通常、これらの動的物体を除去するために学習に基づく物体検出器を適用する。 しかし、これらの物体検出器は、移動ロボットのオンボード処理には計算コストが高すぎる。 実運用においては,車載音源定位により効果的に検出できる騒音音を発生する。 音源オブジェクトの方向情報は、音の到着方向(DoA)推定によって効率よく得ることができるが、深さ推定は困難である。 そこで,本稿では,音源方向をrgb-d画像に融合し,マルチロボットslamシステムにおける動的障害物の影響を解消する,新しい音声・視覚融合手法を提案する。 異なる動的環境におけるマルチロボットSLAMの実験結果から,提案手法は非常に小さな計算資源を用いて,非常に安定した自己局所化結果が得られることが示された。

Dynamic objects in the environment, such as people and other agents, lead to challenges for existing simultaneous localization and mapping (SLAM) approaches. To deal with dynamic environments, computer vision researchers usually apply some learning-based object detectors to remove these dynamic objects. However, these object detectors are computationally too expensive for mobile robot on-board processing. In practical applications, these objects output noisy sounds that can be effectively detected by on-board sound source localization. The directional information of the sound source object can be efficiently obtained by direction of sound arrival (DoA) estimation, but depth estimation is difficult. Therefore, in this paper, we propose a novel audio-visual fusion approach that fuses sound source direction into the RGB-D image and thus removes the effect of dynamic obstacles on the multi-robot SLAM system. Experimental results of multi-robot SLAM in different dynamic environments show that the proposed method uses very small computational resources to obtain very stable self-localization results.
翻訳日:2021-08-04 13:54:55 公開日:2021-08-03
# 生体画像分割のための領域的損失

Region-wise Loss for Biomedical Image Segmentation ( http://arxiv.org/abs/2108.01405v1 )

ライセンス: Link先を確認
Juan Miguel Valverde, Jussi Tohka(参考訳) バイオメディカルイメージセグメンテーションのための領域ワイド(RW)ロスを提案する。 領域的損失は多様であり、クラス不均衡と画素の重要性を同時に考慮することができ、ソフトマックス出力とrwマップとの画素的乗算として容易に実装できる。 提案した地域的損失フレームワークでは,アクティブ・コンターや境界損失といった特定の損失関数を適切なRWマップと同様に再構成し,それらの類似点と,それらの損失関数を理解するための新たな視点を明らかにする。 本研究では,境界損失距離マップなどの特定のRWマップによる観測された最適化不安定性について検討し,そのような不安定性を回避するために数学的に座屈した原理を導入する。 この原理は、任意のデータセットに優れた適応性を提供し、余分な正規化項や最適化のトリックなしで、事実上収束を保証する。 この原理に従うと、直交RW写像と呼ばれる境界距離写像の単純なバージョンを提案し、Dice、Focal、Bundaryの3つの異なるセグメンテーションタスクにおいて、Dice係数やHausdorff距離と類似あるいはより良いDice係数で最先端の性能を達成する。 境界損失距離マップによって提供される最適化の不安定性を定量化し、修正されたRWマップが安定して最適化できることを実証的に示す。 すべての実験を実行するコードは、https://github.com/j mlipman/regionwiselo ssで公開されています。

We propose Region-wise (RW) loss for biomedical image segmentation. Region-wise loss is versatile, can simultaneously account for class imbalance and pixel importance, and it can be easily implemented as the pixel-wise multiplication between the softmax output and a RW map. We show that, under the proposed Region-wise loss framework, certain loss functions, such as Active Contour and Boundary loss, can be reformulated similarly with appropriate RW maps, thus revealing their underlying similarities and a new perspective to understand these loss functions. We investigate the observed optimization instability caused by certain RW maps, such as Boundary loss distance maps, and we introduce a mathematically-groun ded principle to avoid such instability. This principle provides excellent adaptability to any dataset and practically ensures convergence without extra regularization terms or optimization tricks. Following this principle, we propose a simple version of boundary distance maps called rectified RW maps that, as we demonstrate in our experiments, achieve state-of-the-art performance with similar or better Dice coefficients and Hausdorff distances than Dice, Focal, and Boundary losses in three distinct segmentation tasks. We quantify the optimization instability provided by Boundary loss distance maps, and we empirically show that our rectified RW maps are stable to optimize. The code to run all our experiments is publicly available at: https://github.com/j mlipman/RegionWiseLo ss.
翻訳日:2021-08-04 13:54:37 公開日:2021-08-03
# hypercolor:ゲームシーン人口のための自動カラー3dモデル合成のためのハイパーネットワークアプローチ

HyperColor: A HyperNetwork Approach for Synthesizing Auto-colored 3D Models for Game Scenes Population ( http://arxiv.org/abs/2108.01411v1 )

ライセンス: Link先を確認
Ivan Kostiuk, Przemys{\l}aw Stachura, S{\l}awomir K. Tadeja, Tomasz Trzci\'nski, Przemys{\l}aw Spurek(参考訳) 3Dゲームシーンをデザインするのは面倒な作業で、かなりの作業が必要になります。 通常、このタスクはゲームシーン内の3Dモデルの合成、着色、配置を含む。 この作業量を減らすために、ゲームシーン開発の一部の側面を自動化するために機械学習を適用することができる。 初期の研究では、機械学習によるゲームシーンの背景の自動生成にすでに取り組んでいた。 しかし、モデル自動着色は未熟な問題である。 3dモデルの自動着色は、特にカラフルなマルチパートオブジェクトのデジタル表現を扱う場合、難しい課題である。 そのような場合、各部分のオブジェクトの構成と着色スキームを ‘understand' しなければならない。 既存のシングルステージメソッドには、オブジェクトのセグメンテーションの必要性や、最終的なモデルを生成するために組み立てなければならない個々のパーツの生成など、独自の注意点がある。 自動カラー3dモデルを合成するための2段階のトレーニングアプローチを提案することで,これらの制限に対処する。 第1段階では、3Dオブジェクトを表す3D点雲を得るが、第2段階では、そのような雲内の点に色を割り当てる。 次に、いわゆる三角測量トリックを利用して、与えられたメッシュ三角形の頂点を表す彩色点の補間に基づいて、表面を彩色した3次元メッシュを生成する。 このアプローチにより、スムーズなカラー化スキームが生成できます。 実験により, 従来の単段階技術と比較して, 形状復元と色付けの両面で良好な結果が得られた。

Designing a 3D game scene is a tedious task that often requires a substantial amount of work. Typically, this task involves synthesis, coloring, and placement of 3D models within the game scene. To lessen this workload, we can apply machine learning to automate some aspects of the game scene development. Earlier research has already tackled automated generation of the game scene background with machine learning. However, model auto-coloring remains an underexplored problem. The automatic coloring of a 3D model is a challenging task, especially when dealing with the digital representation of a colorful, multipart object. In such a case, we have to ``understand'' the object's composition and coloring scheme of each part. Existing single-stage methods have their own caveats such as the need for segmentation of the object or generating individual parts that have to be assembled together to yield the final model. We address these limitations by proposing a two-stage training approach to synthesize auto-colored 3D models. In the first stage, we obtain a 3D point cloud representing a 3D object, whilst in the second stage, we assign colors to points within such cloud. Next, by leveraging the so-called triangulation trick, we generate a 3D mesh in which the surfaces are colored based on interpolation of colored points representing vertices of a given mesh triangle. This approach allows us to generate a smooth coloring scheme. Experimental evaluation shows that our two-stage approach gives better results in terms of shape reconstruction and coloring when compared to traditional single-stage techniques.
翻訳日:2021-08-04 13:54:11 公開日:2021-08-03
# 高ダイナミックレンジイメージングのためのウェーブレットネットワーク

Wavelet-Based Network For High Dynamic Range Imaging ( http://arxiv.org/abs/2108.01434v1 )

ライセンス: Link先を確認
Tianhong Dai, Wei Li, Xilei Cao, Jianzhuang Liu, Xu Jia, Ales Leonardis, Youliang Yan, Shanxin Yuan(参考訳) high dynamic range (hdr) imaging from multiple low dynamic range (ldr) images シーンやオブジェクトの動きによって引き起こされるゴーストアーティファクトに悩まされている。 オプティカルフローベースやエンドツーエンドのディープラーニングベースのソリューションといった既存の手法は、詳細な復元やゴーストアーティファクトの削除といったエラーが発生しやすい。 総合的な実証的証拠は、大きな前景運動によって引き起こされるゴーストアーティファクトが主に低周波信号であり、詳細は主として高周波信号であることを示している。 本研究では、周波数領域でHDR融合を行うための新しい周波数誘導エンドツーエンドディープニューラルネットワーク(FHDRNet)を提案し、離散ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。 低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。 U-Netをバックボーンとして用いることで,モジュールのマージと周波数誘導アップサンプリングモジュールの2つの新しいモジュールを提案する。 マージモジュールは、低周波成分にアテンション機構を適用して、大きな前景運動によるゴーストに対処する。 周波数ガイドアップサンプリングモジュールは、複数の周波数固有のコンポーネントから詳細をリッチに再構成する。 さらに、RAW領域におけるマルチフレームHDRイメージングアルゴリズムのトレーニングと評価のために、新しいRAWデータセットを作成する。 公開データセットとRAWデータセットを用いて大規模な実験を行い、提案したFHDRNetが最先端の性能を達成することを示す。

High dynamic range (HDR) imaging from multiple low dynamic range (LDR) images has been suffering from ghosting artifacts caused by scene and objects motion. Existing methods, such as optical flow based and end-to-end deep learning based solutions, are error-prone either in detail restoration or ghosting artifacts removal. Comprehensive empirical evidence shows that ghosting artifacts caused by large foreground motion are mainly low-frequency signals and the details are mainly high-frequency signals. In this work, we propose a novel frequency-guided end-to-end deep neural network (FHDRNet) to conduct HDR fusion in the frequency domain, and Discrete Wavelet Transform (DWT) is used to decompose inputs into different frequency bands. The low-frequency signals are used to avoid specific ghosting artifacts, while the high-frequency signals are used for preserving details. Using a U-Net as the backbone, we propose two novel modules: merging module and frequency-guided upsampling module. The merging module applies the attention mechanism to the low-frequency components to deal with the ghost caused by large foreground motion. The frequency-guided upsampling module reconstructs details from multiple frequency-specific components with rich details. In addition, a new RAW dataset is created for training and evaluating multi-frame HDR imaging algorithms in the RAW domain. Extensive experiments are conducted on public datasets and our RAW dataset, showing that the proposed FHDRNet achieves state-of-the-art performance.
翻訳日:2021-08-04 13:53:49 公開日:2021-08-03
# ロボティクスにおける人間検出のクロスモーダル解析--産業ケーススタディ

Cross-Modal Analysis of Human Detection for Robotics: An Industrial Case Study ( http://arxiv.org/abs/2108.01495v1 )

ライセンス: Link先を確認
Timm Linder, Narunas Vaskevicius, Robert Schirmer, Kai O. Arras(参考訳) センサーと学習アルゴリズムの進歩は、特に自動運転車の歩行者検出や消費者設定での近距離人検出など、ロボットによる人間の検出に対するソリューションの成熟に繋がった。 この進歩にもかかわらず、単純な質問は「人検出タスクに最適なセンサーとアルゴリズムの組み合わせはどれか? 答えるのは難しい 本稿では,ロボット工学で一般的に使用されるセンサとアルゴリズムの組み合わせの系統的相互モーダル分析を行うことにより,この問題に対処する。 本研究では,2Dレンジデータ,3Dライダー,RGB-Dデータに対する最先端の人体検知器の性能と,その選択した組み合わせを比較した。 産業目標領域におけるデータ不足の関連問題をさらに解決し、3Dポイントクラウドにおける人間の検出に関する最近の研究は、主に自動運転シナリオに焦点を当てている。 これらの手法をロボット工学への応用に活用するために,強力な画像ベースRGB-D検出器を拡張して,弱い3次元境界ボックスラベルの形でライダー検出器の相互監視を行う,シンプルかつ効果的なマルチセンサ転送学習戦略を利用する。 その結果, 検出性能, 一般化, フレームレート, 計算要求の点で, 異なるアプローチの差異が大きいことがわかった。 当社のユースケースには、幅広いサービスロボットアプリケーションの代表的課題が含まれているため、これらの結果は、さらなる研究のための関連するオープンな課題を示し、ロボットシステムの設計を実践者に価値ある支援を提供すると信じています。

Advances in sensing and learning algorithms have led to increasingly mature solutions for human detection by robots, particularly in selected use-cases such as pedestrian detection for self-driving cars or close-range person detection in consumer settings. Despite this progress, the simple question "which sensor-algorithm combination is best suited for a person detection task at hand?" remains hard to answer. In this paper, we tackle this issue by conducting a systematic cross-modal analysis of sensor-algorithm combinations typically used in robotics. We compare the performance of state-of-the-art person detectors for 2D range data, 3D lidar, and RGB-D data as well as selected combinations thereof in a challenging industrial use-case. We further address the related problems of data scarcity in the industrial target domain, and that recent research on human detection in 3D point clouds has mostly focused on autonomous driving scenarios. To leverage these methodological advances for robotics applications, we utilize a simple, yet effective multi-sensor transfer learning strategy by extending a strong image-based RGB-D detector to provide cross-modal supervision for lidar detectors in the form of weak 3D bounding box labels. Our results show a large variance among the different approaches in terms of detection performance, generalization, frame rates and computational requirements. As our use-case contains difficulties representative for a wide range of service robot applications, we believe that these results point to relevant open challenges for further research and provide valuable support to practitioners for the design of their robot system.
翻訳日:2021-08-04 13:53:24 公開日:2021-08-03
# 2つの新しい冠動脈造影検査法

Two New Stenoses Detection Methods of Coronary Angiograms ( http://arxiv.org/abs/2108.01516v1 )

ライセンス: Link先を確認
Yaofang Liu, Xinyue Zhang, Wenlong Wan, Shaoyu Liu, Yingdi Liu, Hu Liu, Xueying Zeng, Qing Zhang(参考訳) 冠動脈造影は冠動脈疾患の診断における「ゴールドスタンダード」である。 冠状動脈病変の検出法と冠動脈造影法における冠動脈病変の程度の評価は, 主観的, 効果的でないのが現状である。 冠動脈造影検査では2つの血管病変検出法が提案されている。 1つ目は、冠動脈全体を自動的に分割し、ステノシーをマークする自動的方法である。 2つ目はインタラクティブな方法です。 この方法では、ユーザは、特定の血管セグメントのステノシスを検出するために、開始点と終了点を与えるだけでよい。 提案手法は血管構造の異なる血管造影にロバストであることが判明した。 本発明の自動検出方法は、血管の直径を効果的に測定し、異なる血管造影でステンドースをマークすることができる。 さらに,対話型検出法の結果が真のステンス状態を正確に反映できることを示す。 提案手法は各種血管造影に有効であり,臨床実践において相互に補完することができる。 第1の方法は予備スクリーニングに使用することができ、第2の方法はさらなる定量分析に使用することができる。 冠動脈疾患の臨床診断のレベルを向上させる可能性がある。

Coronary angiography is the "gold standard" for the diagnosis of coronary heart disease. At present, the methods for detecting coronary artery stenoses and evaluating the degree of it in coronary angiograms are either subjective or not efficient enough. Two vascular stenoses detection methods in coronary angiograms are proposed to assist the diagnosis. The first one is an automatic method, which can automatically segment the entire coronary vessels and mark the stenoses. The second one is an interactive method. With this method, the user only needs to give a start point and an end point to detect the stenoses of a certain vascular segment. We have shown that the proposed tracking methods are robust for angiograms with various vessel structure. The automatic detection method can effectively measure the diameter of the vessel and mark the stenoses in different angiograms. Further investigation proves that the results of interactive detection method can accurately reflect the true stenoses situation. The proposed automatic method and interactive method are effective in various angiograms and can complement each other in clinical practice. The first method can be used for preliminary screening and the second method can be used for further quantitative analysis. It has the potential to improve the level of clinical diagnosis of coronary heart disease.
翻訳日:2021-08-04 13:52:56 公開日:2021-08-03
# 現代のオープンソースのビジュアルSLAM手法の比較

Comparison of modern open-source visual SLAM approaches ( http://arxiv.org/abs/2108.01654v1 )

ライセンス: Link先を確認
Dinar Sharafutdinov, Mark Griguletskii, Pavel Kopanev, Mikhail Kurenkov, Gonzalo Ferrer, Aleksey Burkov, Aleksei Gonnochenko, Dzmitry Tsetserukou(参考訳) SLAMはロボット工学とコンピュータビジョンにおける最も基本的な研究分野の1つである。 最先端のソリューションは精度と安定性の観点から大きく進歩している。 残念ながら、すべてのアプローチがオープンソースソリューションとして利用でき、無料で利用できるわけではない。 それらのいくつかの結果は再現が困難であり、共通のデータセットの比較が欠如している。 本研究では,最先端のオープンソース手法の比較分析を行う。 精度,計算性能,堅牢性,耐故障性に基づくアルゴリズムの評価を行った。 さらに,実践的な観点から,データセットの比較,およびアルゴリズムの分析について述べる。 この研究の結果は、SLAM研究者にいくつかの重要な疑問を提起している。

SLAM is one of the most fundamental areas of research in robotics and computer vision. State of the art solutions has advanced significantly in terms of accuracy and stability. Unfortunately, not all the approaches are available as open-source solutions and free to use. The results of some of them are difficult to reproduce, and there is a lack of comparison on common datasets. In our work, we make a comparative analysis of state of the art open-source methods. We assess the algorithms based on accuracy, computational performance, robustness, and fault tolerance. Moreover, we present a comparison of datasets as well as an analysis of algorithms from a practical point of view. The findings of the work raise several crucial questions for SLAM researchers.
翻訳日:2021-08-04 13:52:37 公開日:2021-08-03
# 脳MRIの年齢推定のためのタスクガイド付きジェネレータネットワークを用いた画像強調

Image Augmentation Using a Task Guided Generative Adversarial Network for Age Estimation on Brain MRI ( http://arxiv.org/abs/2108.01659v1 )

ライセンス: Link先を確認
Ruizhe Li, Matteo Bastiani, Dorothee Auer, Christian Wagner, and Xin Chen(参考訳) MRI(MRI)に基づく脳年齢推定は、神経変性疾患の早期診断において活発な研究領域である。 アルツハイマー、パーキンソン、ハンティントンなど) 若いグループのために 高齢者や脳の未発達者のためにです 深層学習法は、脳年齢推定を含む多くの医療画像解析タスクにおいて最先端のパフォーマンスを達成した。 しかし、ディープラーニングモデルの性能と一般性は、トレーニングデータセットの量と品質に大きく依存している。 脳MRIデータの収集と注釈付けはどちらも非常に時間がかかる。 本稿では,データ不足問題を解決するため,gan(generative adversarial network)に基づく画像合成手法を提案する。 既存のganベースの手法とは異なり、ganのジェネレータの終端にタスク誘導分岐(年齢推定のための回帰モデル)を統合する。 従来のGAN損失にタスク誘導損失を加えることで、学習された低次元の潜在空間と合成画像はよりタスク固有となる。 合成画像と実画像を組み合わせてモデルトレーニングを行うことで、ダウンストリームタスクのパフォーマンス向上を支援する。 提案手法は, 年齢推定のためのパブリック脳MRIデータセットを用いて評価した。 提案手法は, 深層畳み込みニューラルネットワークに基づく回帰モデルと, タスク誘導分岐を伴わないgan画像合成法を上回った(統計的に有意な)。 さらに重要なのは、画像空間内の年齢関連脳領域の識別を可能にすることだ。 コードはgithubで入手できる(https://github.com/ ruizhe-l/tgb-gan)。

Brain age estimation based on magnetic resonance imaging (MRI) is an active research area in early diagnosis of some neurodegenerative diseases (e.g. Alzheimer, Parkinson, Huntington, etc.) for elderly people or brain underdevelopment for the young group. Deep learning methods have achieved the state-of-the-art performance in many medical image analysis tasks, including brain age estimation. However, the performance and generalisability of the deep learning model are highly dependent on the quantity and quality of the training data set. Both collecting and annotating brain MRI data are extremely time-consuming. In this paper, to overcome the data scarcity problem, we propose a generative adversarial network (GAN) based image synthesis method. Different from the existing GAN-based methods, we integrate a task-guided branch (a regression model for age estimation) to the end of the generator in GAN. By adding a task-guided loss to the conventional GAN loss, the learned low-dimensional latent space and the synthesised images are more task-specific. It helps to boost the performance of the down-stream task by combining the synthesised images and real images for model training. The proposed method was evaluated on a public brain MRI data set for age estimation. Our proposed method outperformed (statistically significant) a deep convolutional neural network based regression model and the GAN-based image synthesis method without the task-guided branch. More importantly, it enables the identification of age-related brain regions in the image space. The code is available on GitHub (https://github.com/ ruizhe-l/tgb-gan).
翻訳日:2021-08-04 13:52:31 公開日:2021-08-03
# 認知を真剣に考える:認知の一般物理学

Taking Cognition Seriously: A generalised physics of cognition ( http://arxiv.org/abs/2108.01229v1 )

ライセンス: Link先を確認
Sophie Alyx Taylor, Son Cao Tran, and Dan V. Nicolau Jr(参考訳) 圏論のレンズによる複素系の研究は、一貫して強力なアプローチであることが証明されている。 認知は同一のカテゴリー論的治療にふさわしいと提案する。 高い計算能力を有する認知システムを考えることで,実用上の問題を生じさせる基本的な物理的トレードオフが存在することを示す。 次に,これを体系的に行う方法について検討し,概念空間上のゲージ場における位相的欠陥の現象を調べる前に,「認知圏」に対するいくつかの要件を提案する。

The study of complex systems through the lens of category theory consistently proves to be a powerful approach. We propose that cognition deserves the same category-theoretic treatment. We show that by considering a highly-compact cognitive system, there are fundamental physical trade-offs resulting in a utility problem. We then examine how to do this systematically, and propose some requirements for "cognitive categories", before investigating the phenomenona of topological defects in gauge fields over conceptual spaces.
翻訳日:2021-08-04 13:52:10 公開日:2021-08-03
# 脳信号による人間の読み理解

Understanding Human Reading Comprehension with brain signals ( http://arxiv.org/abs/2108.01360v1 )

ライセンス: Link先を確認
Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang, Shaoping Ma(参考訳) 読解は、多くの人間の脳活動を伴う複雑な認知過程である。 多くの研究が読解過程における読解パターンと注意割当機構を研究している。 しかし、人間の脳が理解している時に何が起こるかは分かっておらず、情報取得性能を高めるために、この情報を暗黙のフィードバックとして活用する方法も分かっていない。 脳波などの脳イメージング技術の進歩により、ほぼリアルタイムで高精度な脳信号を収集することができる。 神経イメージング技術を用いて,脳活動の理解度を調査するための実験室ベースのユーザスタディを慎重に設計する。 本研究は,ユーザの情報ニーズを満足できる内容や,不可能な内容など,さまざまなタイプのコンテンツによって神経応答が変化することを示す。 本研究は, 認知的負荷, 意味論的理解, 推論処理などの認知活動が, 読解時のマイクロスケールにおいて, 神経反応の基盤となることを示唆する。 認知活動におけるこれらの検出可能な違いに着想を得て,脳波の特徴に基づく教師あり学習モデルを構築した。 その結果,脳信号による性能向上が期待できることがわかった。 これらの結果から,脳信号は読解時の人間とコンピュータの相互作用を高める上で有用なフィードバックであることが示唆された。

Reading comprehension is a complex cognitive process involving many human brain activities. Plenty of works have studied the reading patterns and attention allocation mechanisms in the reading process. However, little is known about what happens in human brain during reading comprehension and how we can utilize this information as implicit feedback to facilitate information acquisition performance. With the advances in brain imaging techniques such as EEG, it is possible to collect high-precision brain signals in almost real time. With neuroimaging techniques, we carefully design a lab-based user study to investigate brain activities during reading comprehension. Our findings show that neural responses vary with different types of contents, i.e., contents that can satisfy users' information needs and contents that cannot. We suggest that various cognitive activities, e.g., cognitive loading, semantic-thematic understanding, and inferential processing, at the micro-time scale during reading comprehension underpin these neural responses. Inspired by these detectable differences in cognitive activities, we construct supervised learning models based on EEG features for two reading comprehension tasks: answer sentence classification and answer extraction. Results show that it is feasible to improve their performance with brain signals. These findings imply that brain signals are valuable feedback for enhancing human-computer interactions during reading comprehension.
翻訳日:2021-08-04 13:52:02 公開日:2021-08-03
# memorize, factorize, be na\"ive: ctr予測のための最適特徴間相互作用法

Memorize, Factorize, or be Na\"ive: Learning Optimal Feature Interaction Methods for CTR Prediction ( http://arxiv.org/abs/2108.01265v1 )

ライセンス: Link先を確認
Fuyuan Lyu, Xing Tang, Huifeng Guo, Ruiming Tang, Xiuqiang He, Rui Zhang, Xue Liu(参考訳) クリックスルー率予測は、商用レコメンデータシステムにおける中核的なタスクの1つである。 ユーザが特定の項目をクリックした確率と,その項目の特徴を予測することを目的としている。 特徴相互作用は非線形性をもたらすため、CTR予測モデルの性能向上のために広く採用されている。 したがって、機能相互作用を効果的にモデル化することは、研究と産業の両方において大きな注目を集めている。 現在の手法は,(1)特徴の相互作用をモデル化せず,原特徴のみを使用せず,(2)特徴の相互作用を明示的に認識し,トレーニング可能な埋め込みを割り当てることで特徴の相互作用を記憶する記憶的手法,(3)原特徴の潜伏ベクトルを学習し,因子化関数を通じて暗黙的に特徴の相互作用をモデル化する分解的手法,の3つのクラスに分類される。 研究により、これらの方法の1つだけで特徴的相互作用のモデリングは、異なる特徴的相互作用の独特な特徴のために準最適であることが示されている。 この問題に対処するため,まずOptInterというフレームワークを提案し,各機能間相互作用に最適なモデリング手法を提案する。 最先端の深部CTRモデルはOptInterのインスタンスと見なすことができる。 また,OptInterの機能を実現するために,最適なモデリング手法を自動検索する学習アルゴリズムを導入する。 4つの大きなデータセットについて広範な実験を行う。 実験の結果,OptInterは最先端のベースライン深部CTRモデルを最大2.21%改善することがわかった。 また,ベースラインよりも優れた暗記法と比較して,最大91%のパラメータを削減した。 また,オプトインターの異なる成分の影響を調べるため,いくつかのアブレーション研究を行った。 最後に optinter の結果について解釈可能な議論を行う。

Click-through rate prediction is one of the core tasks in commercial recommender systems. It aims to predict the probability of a user clicking a particular item given user and item features. As feature interactions bring in non-linearity, they are widely adopted to improve the performance of CTR prediction models. Therefore, effectively modelling feature interactions has attracted much attention in both the research and industry field. The current approaches can generally be categorized into three classes: (1) na\"ive methods, which do not model feature interactions and only use original features; (2) memorized methods, which memorize feature interactions by explicitly viewing them as new features and assigning trainable embeddings; (3) factorized methods, which learn latent vectors for original features and implicitly model feature interactions through factorization functions. Studies have shown that modelling feature interactions by one of these methods alone are suboptimal due to the unique characteristics of different feature interactions. To address this issue, we first propose a general framework called OptInter which finds the most suitable modelling method for each feature interaction. Different state-of-the-art deep CTR models can be viewed as instances of OptInter. To realize the functionality of OptInter, we also introduce a learning algorithm that automatically searches for the optimal modelling method. We conduct extensive experiments on four large datasets. Our experiments show that OptInter improves the best performed state-of-the-art baseline deep CTR models by up to 2.21%. Compared to the memorized method, which also outperforms baselines, we reduce up to 91% parameters. In addition, we conduct several ablation studies to investigate the influence of different components of OptInter. Finally, we provide interpretable discussions on the results of OptInter.
翻訳日:2021-08-04 13:50:50 公開日:2021-08-03
# Fashion Recommendationの解決 - the Farfetch Challenge

Solving Fashion Recommendation -- The Farfetch Challenge ( http://arxiv.org/abs/2108.01314v1 )

ライセンス: Link先を確認
Manish Pathak, Aditya Jain(参考訳) 推奨エンジンは、売り手とエンドユーザーの両方にとって、現代のeコマース体験に不可欠なものだ。 正確な推奨は収益の向上とユーザエクスペリエンスの向上につながる。 本稿では,ecml pkdd farfetch ファッションレコメンデーションチャレンジの解決策を提示する。この課題の目的は,ユーザがファッションアイテムのセットを提示した場合にクリックする確率を最大化することである。 我々は二項分類問題としてこの問題にアプローチした。 我々の勝利解は、超パラメータチューニングのための分類器としてCatboostとベイズ最適化を利用する。 我々のベースラインモデルは検証セットで0.5153のMRRを達成した。 ハイパーパラメータのベイズ最適化は、検証セットのmrrを0.5240に改善した。 テストセットの最終提案は 0.5257 の mrr を達成した。

Recommendation engines are integral to the modern e-commerce experience, both for the seller and the end user. Accurate recommendations lead to higher revenue and better user experience. In this paper, we are presenting our solution to ECML PKDD Farfetch Fashion Recommendation Challenge.The goal of this challenge is to maximize the chances of a click when the users are presented with set of fashion items. We have approached this problem as a binary classification problem. Our winning solution utilizes Catboost as the classifier and Bayesian Optimization for hyper parameter tuning. Our baseline model achieved MRR of 0.5153 on the validation set. Bayesian optimization of hyper parameters improved the MRR to 0.5240 on the validation set. Our final submission on the test set achieved a MRR of 0.5257.
翻訳日:2021-08-04 13:50:22 公開日:2021-08-03
# 入射チャネル推定を用いたFDD質量MIMOのスケーラブルビームフォーミングのためのニューラルキャリブレーション

Neural Calibration for Scalable Beamforming in FDD Massive MIMO with Implicit Channel Estimation ( http://arxiv.org/abs/2108.01529v1 )

ライセンス: Link先を確認
Yifan Ma, Yifei Shen, Xianghao Yu, Jun Zhang, S.H. Song, Khaled B. Letaief(参考訳) 周波数分割多重化 (fdd) 多重入力多重出力 (mimo) システムではチャネル推定とビームフォーミングが重要な役割を果たす。 しかし、これら2つのモジュールは2つのスタンドアロンコンポーネントとして扱われており、グローバルシステムの最適性を達成するのが困難である。 本稿では,基地局のビームフォーマーを,受信したアップリンクパイロットに従って直接最適化し,明示的なチャネル推定をバイパスする深層学習に基づく手法を提案する。 すべてのモジュールをディープニューラルネットワーク(DNN)に置き換える、既存の完全なデータ駆動アプローチとは異なり、エンドツーエンドの設計のスケーラビリティを向上させるために、ニューラルキャリブレーション法が提案されている。 特に、従来の時間効率アルゴリズム、すなわち最小二乗(LS)チャネル推定器とゼロ強制(ZF)ビームフォーマのバックボーンを保存し、DNNを用いて入力をキャリブレーションして性能を向上させる。 次に、定式化資源割り当て問題の置換同値性を特定し、低複雑さニューラルネットワークアーキテクチャを設計する。 シミュレーションの結果,大規模無線ネットワークにおけるスペクトル効率とスケーラビリティの両面から,提案手法がベンチマーク方式よりも優れていることを示す。

Channel estimation and beamforming play critical roles in frequency-division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems. However, these two modules have been treated as two stand-alone components, which makes it difficult to achieve a global system optimality. In this paper, we propose a deep learning-based approach that directly optimizes the beamformers at the base station according to the received uplink pilots, thereby, bypassing the explicit channel estimation. Different from the existing fully data-driven approach where all the modules are replaced by deep neural networks (DNNs), a neural calibration method is proposed to improve the scalability of the end-to-end design. In particular, the backbone of conventional time-efficient algorithms, i.e., the least-squares (LS) channel estimator and the zero-forcing (ZF) beamformer, is preserved and DNNs are leveraged to calibrate their inputs for better performance. The permutation equivariance property of the formulated resource allocation problem is then identified to design a low-complexity neural network architecture. Simulation results will show the superiority of the proposed neural calibration method over benchmark schemes in terms of both the spectral efficiency and scalability in large-scale wireless networks.
翻訳日:2021-08-04 13:50:09 公開日:2021-08-03
# 線形畳み込みネットワークの幾何学

Geometry of Linear Convolutional Networks ( http://arxiv.org/abs/2108.01538v1 )

ライセンス: Link先を確認
Kathl\'en Kohn, Thomas Merkh, Guido Mont\'ufar, Matthew Trager(参考訳) 本稿では,線形畳み込みニューラルネットワーク(LCN)で表される関数群について検討する。 これらの函数は、入力空間から出力空間への線型写像の集合の半代数部分集合を形成する。 対照的に、完全連結線型ネットワークで表される函数の族は代数集合を形成する。 LCNで表される関数は、ある分解を許容する多項式と同一視できることを観察し、この視点を用いて、ネットワークのアーキテクチャが結果の関数空間の幾何学に与える影響を記述する。 さらに, lcn上の対象関数の最適化, 関数空間およびパラメータ空間における臨界点の解析, 勾配降下に対する動的不変量の記述について検討した。 全体として、LCNの最適化されたパラメータは、しばしば層をまたいだ繰り返しフィルタや、繰り返しフィルタとして分解できるフィルタに対応すると予測する。 また,この結果を示す数値的および記号的実験を行い,小建築の景観を詳細に分析した。

We study the family of functions that are represented by a linear convolutional neural network (LCN). These functions form a semi-algebraic subset of the set of linear maps from input space to output space. In contrast, the families of functions represented by fully-connected linear networks form algebraic sets. We observe that the functions represented by LCNs can be identified with polynomials that admit certain factorizations, and we use this perspective to describe the impact of the network's architecture on the geometry of the resulting function space. We further study the optimization of an objective function over an LCN, analyzing critical points in function space and in parameter space, and describing dynamical invariants for gradient descent. Overall, our theory predicts that the optimized parameters of an LCN will often correspond to repeated filters across layers, or filters that can be decomposed as repeated filters. We also conduct numerical and symbolic experiments that illustrate our results and present an in-depth analysis of the landscape for small architectures.
翻訳日:2021-08-04 13:49:48 公開日:2021-08-03
# 最適スライス配置のための深部強化学習

Controlled Deep Reinforcement Learning for Optimized Slice Placement ( http://arxiv.org/abs/2108.01544v1 )

ライセンス: Link先を確認
Jose Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin, Pierre Sens(参考訳) 本稿では,ネットワークスライス配置最適化の課題を解決するために,階層型深層強化学習(HA-DRL)と呼ぶハイブリッドMLヒューリスティックアプローチを提案する。 提案手法は,スライス配置と仮想ネットワーク埋め込み(vne)のための最近の深層強化学習(drl)の成果を活用し,効率的なヒューリスティックアルゴリズムが示す信頼性の高い動作に優先順位を与えることで,行動空間の探索を最適化するヒューリスティック関数を用いる。 評価結果から, HA-DRLアルゴリズムは, 強化学習のみに基づく最先端手法と比較して, スライス受入率を向上させる効率的なスライス配置ポリシーの学習を促進できることが示唆された。

We present a hybrid ML-heuristic approach that we name "Heuristically Assisted Deep Reinforcement Learning (HA-DRL)" to solve the problem of Network Slice Placement Optimization. The proposed approach leverages recent works on Deep Reinforcement Learning (DRL) for slice placement and Virtual Network Embedding (VNE) and uses a heuristic function to optimize the exploration of the action space by giving priority to reliable actions indicated by an efficient heuristic algorithm. The evaluation results show that the proposed HA-DRL algorithm can accelerate the learning of an efficient slice placement policy improving slice acceptance ratio when compared with state-of-the-art approaches that are based only on reinforcement learning.
翻訳日:2021-08-04 13:49:32 公開日:2021-08-03
# 信号時間論理仕様のためのネットワーク遅延を用いた深層強化学習に基づくネットワーク制御

Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications ( http://arxiv.org/abs/2108.01317v1 )

ライセンス: Link先を確認
Junya Ikemoto and Toshimitsu Ushio(参考訳) 本稿では,信号時相論理(stl)仕様のためのネットワーク遅延を考慮したネットワーク制御系の設計について述べる。 システムダイナミクスとネットワーク遅延の両方が未知である場合を考える。 stlの公式の満足度は現在の状態だけでなくシステムの挙動にも基づいているため、マルコフ決定過程(英語版)(mdp)の拡張を提案し、これは$\tau\delta$-mdpと呼ばれ、$\tau\delta$-mdpを用いてネットワーク遅延下でstlの公式の満足度を評価することができる。 その後,$\tau\delta$-MDPに基づくディープニューラルネットワークを構築し,学習アルゴリズムを提案する。 また,シミュレーションにより,提案アルゴリズムの学習性能を実証する。

We present a novel deep reinforcement learning (DRL)-based design of a networked controller with network delays for signal temporal logic (STL) specifications. We consider the case in which both the system dynamics and network delays are unknown. Because the satisfaction of an STL formula is based not only on the current state but also on the behavior of the system, we propose an extension of the Markov decision process (MDP), which is called a $\tau\delta$-MDP, such that we can evaluate the satisfaction of the STL formula under the network delays using the $\tau\delta$-MDP. Thereafter, we construct deep neural networks based on the $\tau\delta$-MDP and propose a learning algorithm. Through simulations, we also demonstrate the learning performance of the proposed algorithm.
翻訳日:2021-08-04 13:48:59 公開日:2021-08-03
# ランダム射影ニューラルネットワークを用いた剛常微分方程式の数値解法

Numerical Solution of Stiff Ordinary Differential Equations with Random Projection Neural Networks ( http://arxiv.org/abs/2108.01584v1 )

ライセンス: Link先を確認
Evangelos Galaris, Francesco Calabr\`o, Daniela di Serafino, Constantinos Siettos(参考訳) 本稿では,ランダム射影ニューラルネットワーク(rpnn)に基づく数値スキームを提案し,厳密な問題に着目した常微分方程式(odes)の解法を提案する。 特に,単一隠れ層フィードフォワードニューラルネットワークであるExtreme Learning Machineを用いて,幅が一様分布の確率変数であり,入力と隠蔽層の間の重みの値が1に等しいように設定した。 数値解は、ガウス・ニュートン法を用いて出力重みに関して解く非線形代数方程式の系を構築することにより得られる。 For our illustrations, we apply the proposed machine learning approach to solve two benchmark stiff problems, namely the Rober and the van der Pol ones (the latter with large values of the stiffness parameter), and we perform a comparison with well-established methods such as the adaptive Runge-Kutta method based on the Dormand-Prince pair, and a variable-step variable-order multistep solver based on numerical differentiation formulas, as implemented in the \texttt{ode45} and \texttt{ode15s} MATLAB functions, respectively. 提案手法は剛性に影響されずに良好な数値近似精度が得られることを示し,同様に \texttt{ode45} と \texttt{ode15s} 関数を上回った。 重要なことに、固定数のコロケーションポイントを用いたトレーニングでは、古典的時間積分法とは対照的に、提案手法は領域全体の解を近似する。

We propose a numerical scheme based on Random Projection Neural Networks (RPNN) for the solution of Ordinary Differential Equations (ODEs) with a focus on stiff problems. In particular, we use an Extreme Learning Machine, a single-hidden layer Feedforward Neural Network with Radial Basis Functions which widths are uniformly distributed random variables, while the values of the weights between the input and the hidden layer are set equal to one. The numerical solution is obtained by constructing a system of nonlinear algebraic equations, which is solved with respect to the output weights using the Gauss-Newton method. For our illustrations, we apply the proposed machine learning approach to solve two benchmark stiff problems, namely the Rober and the van der Pol ones (the latter with large values of the stiffness parameter), and we perform a comparison with well-established methods such as the adaptive Runge-Kutta method based on the Dormand-Prince pair, and a variable-step variable-order multistep solver based on numerical differentiation formulas, as implemented in the \texttt{ode45} and \texttt{ode15s} MATLAB functions, respectively. We show that our proposed scheme yields good numerical approximation accuracy without being affected by the stiffness, thus outperforming in same cases the \texttt{ode45} and \texttt{ode15s} functions. Importantly, upon training using a fixed number of collocation points, the proposed scheme approximates the solution in the whole domain in contrast to the classical time integration methods.
翻訳日:2021-08-04 13:48:45 公開日:2021-08-03
# 深層学習法による楕円二元星の自動分類

Automatic classification of eclipsing binary stars using deep learning methods ( http://arxiv.org/abs/2108.01640v1 )

ライセンス: Link先を確認
Michal \v{C}okina, Viera Maslej-Kre\v{s}\v{n}\'akov\'a, Peter Butka, \v{S}tefan Parimucha(参考訳) 過去数十年の間に、ロボット望遠鏡の開発において大きな進歩が達成され、結果として、地上と宇宙の両方のスカイサーベイが、膨大な量の新しい観測データの源となっている。 これらのデータは、光度曲線に隠された連星に関する多くの情報を含んでいる。 膨大な量の天文データが集められているため、すべてのデータが手作業で処理され分析されることを期待するのは合理的ではない。 そこで本研究では,深層学習手法を用いて,黄道2重星の自動分類に注目する。 我々の分類器は二元星の光曲線を2つのクラスに分類するためのツールを提供する。 ELISaソフトウェアを用いて合成データを取得し,それを分類器の訓練に利用した。 評価のために、観測された連星の100光度曲線を収集し、複数の分類器を評価した。 半分解した2重星を分離した。 最高の性能の分類器は、双方向長短期記憶(LSTM)と1次元畳み込みニューラルネットワークを組み合わせて、評価セットで98%の精度を達成した。 半脱離した二元星を省略すると、100%の精度で分類できる。

In the last couple of decades, tremendous progress has been achieved in developing robotic telescopes and, as a result, sky surveys (both terrestrial and space) have become the source of a substantial amount of new observational data. These data contain a lot of information about binary stars, hidden in their light curves. With the huge amount of astronomical data gathered, it is not reasonable to expect all the data to be manually processed and analyzed. Therefore, in this paper, we focus on the automatic classification of eclipsing binary stars using deep learning methods. Our classifier provides a tool for the categorization of light curves of binary stars into two classes: detached and over-contact. We used the ELISa software to obtain synthetic data, which we then used for the training of the classifier. For evaluation purposes, we collected 100 light curves of observed binary stars, in order to evaluate a number of classifiers. We evaluated semi-detached eclipsing binary stars as detached. The best-performing classifier combines bidirectional Long Short-Term Memory (LSTM) and a one-dimensional convolutional neural network, which achieved 98% accuracy on the evaluation set. Omitting semi-detached eclipsing binary stars, we could obtain 100% accuracy in classification.
翻訳日:2021-08-04 13:48:24 公開日:2021-08-03
# (参考訳) いつ辞めるかを知る:リアルタイム顔アライメントのためのパッチアライメントによる選択的カスケード回帰 [全文訳有]

Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face Alignment ( http://arxiv.org/abs/2108.00377v2 )

ライセンス: CC0 1.0
Gil Shapira, Noga Levy, Ishay Goldin, Roy J. Jevnisek(参考訳) 顔のランドマーク(FLM)推定は多くの顔関連アプリケーションにおいて重要な要素である。 本研究では,精度と速度の両方を最適化し,両者のトレードオフを探究する。 私たちの重要な観察は、すべての顔が等しく作られるわけではないということです。 中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束する。 サンプルを区別するために、各反復後の回帰誤差を予測するためにモデルを訓練する。 現在のイテレーションが十分に正確であれば、反復をやめ、冗長なイテレーションを節約し、精度を保ちます。 また、隣り合うパッチが重なるにつれて、少数のパッチしか持たないすべての顔ランドマーク(flm)を、大きな正確さを犠牲にすることなく推測できることも観察した。 アーキテクチャ的には,パッチ自体の情報に応じてパッチ重み付けを計算し,パッチ機能の表現力を高める,細粒度の局所パッチアテンションモジュールを備えた,マルチスケールでパッチベース,軽量な機能抽出器を提供する。 本研究は,顔のランドマークを回帰する際に,モデルがどこに出席しているかを推定するためにパッチアテンションデータを解析し,人間の顔アテンションと比較する。 我々のモデルはモバイルデバイスGPU上でリアルタイムに動作し、95Mega Multiply-Add(MMA)演算で1000MMA未満の最先端メソッドをすべて上回り、300W挑戦データセットでは平均エラーが8.16である。

Facial landmarks (FLM) estimation is a critical component in many face-related applications. In this work, we aim to optimize for both accuracy and speed and explore the trade-off between them. Our key observation is that not all faces are created equal. Frontal faces with neutral expressions converge faster than faces with extreme poses or expressions. To differentiate among samples, we train our model to predict the regression error after each iteration. If the current iteration is accurate enough, we stop iterating, saving redundant iterations while keeping the accuracy in check. We also observe that as neighboring patches overlap, we can infer all facial landmarks (FLMs) with only a small number of patches without a major accuracy sacrifice. Architecturally, we offer a multi-scale, patch-based, lightweight feature extractor with a fine-grained local patch attention module, which computes a patch weighting according to the information in the patch itself and enhances the expressive power of the patch features. We analyze the patch attention data to infer where the model is attending when regressing facial landmarks and compare it to face attention in humans. Our model runs in real-time on a mobile device GPU, with 95 Mega Multiply-Add (MMA) operations, outperforming all state-of-the-art methods under 1000 MMA, with a normalized mean error of 8.16 on the 300W challenging dataset.
翻訳日:2021-08-04 11:47:29 公開日:2021-08-03
# (参考訳) FAQ回答のためのConveRT [全文訳有]

ConveRT for FAQ Answering ( http://arxiv.org/abs/2108.00719v2 )

ライセンス: CC BY 4.0
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) 知識豊富なfaqチャットボットは、あらゆる組織にとって貴重なリソースです。 従来のコールセンタやFAQ Webページとは異なり、インスタントレスポンスを提供し、常に利用できる。 COVID19チャットボットを運用した経験から、英語以外の言語でFAQに答えるリソースが不足していることが分かりました。 英語には強力で効率的な検索ベースモデルが存在するが、同じ量のトレーニングデータを持っていない他の言語ではまれである。 本研究では、英語のSOTA会話エージェントであるConveRTを、トレーニングデータが少ない他の言語に適応させる、新しい保持手順を提案する。 これを初めて、オランダのfaqがcovid-19ワクチンに関する質問に答えるタスクに適用しました。 低データ体制と高データ体制におけるオープンソースの代替手段よりも優れた性能を示す。

Knowledgeable FAQ chatbots are a valuable resource to any organization. Unlike traditional call centers or FAQ web pages, they provide instant responses and are always available. Our experience running a COVID19 chatbot revealed the lack of resources available for FAQ answering in non-English languages. While powerful and efficient retrieval-based models exist for English, it is rarely the case for other languages which do not have the same amount of training data available. In this work, we propose a novel pretaining procedure to adapt ConveRT, an English SOTA conversational agent, to other languages with less training data available. We apply it for the first time to the task of Dutch FAQ answering related to the COVID19 vaccine. We show it performs better than an open-source alternative in a low-data regime and high-data regime.
翻訳日:2021-08-04 11:34:47 公開日:2021-08-03
# (参考訳) クロスドメインオブジェクト検出のための多レベル知識転送 [全文訳有]

Multilevel Knowledge Transfer for Cross-Domain Object Detection ( http://arxiv.org/abs/2108.00977v2 )

ライセンス: CC BY 4.0
Botos Csaba, Xiaojuan Qi, Arslan Chaudhry, Puneet Dokania, Philip Torr(参考訳) ドメインシフトはよく知られた問題であり、特定のドメイン(ソース)でトレーニングされたモデルは、異なるドメイン(ターゲット)のサンプルに公開してもうまく機能しない。 ドメインシフトに適応できる教師なしの方法は、ターゲットから追加の注釈付きトレーニングデータを必要とせずに、ソースデータの有効活用を可能にするため、非常に望ましい。 実際、対象領域から十分な量の注釈付きデータを取得することは、実現不可能かつ極めて高価である。 本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。 我々のアプローチは、ソースとターゲットドメインの間のドメインシフトを徐々に取り除くことに依存している。 このアプローチの重要な要素は, (a) 画素レベルでソースをターゲットドメインにマッピングすること, (b) 教師ネットワークをマップしたソースと無注釈のターゲットドメインで訓練すること, (c) 教師から得られた擬似ラベルを用いて学生ネットワークを訓練することである。 実験的に、ドメインシフトを含む挑戦的なシナリオをテストすると、さまざまな最先端技術に対して、一貫して大きなパフォーマンス向上が得られる。

Domain shift is a well known problem where a model trained on a particular domain (source) does not perform well when exposed to samples from a different domain (target). Unsupervised methods that can adapt to domain shift are highly desirable as they allow effective utilization of the source data without requiring additional annotated training data from the target. Practically, obtaining sufficient amount of annotated data from the target domain can be both infeasible and extremely expensive. In this work, we address the domain shift problem for the object detection task. Our approach relies on gradually removing the domain shift between the source and the target domains. The key ingredients to our approach are -- (a) mapping the source to the target domain on pixel-level; (b) training a teacher network on the mapped source and the unannotated target domain using adversarial feature alignment; and (c) finally training a student network using the pseudo-labels obtained from the teacher. Experimentally, when tested on challenging scenarios involving domain shift, we consistently obtain significantly large performance gains over various recent state of the art approaches.
翻訳日:2021-08-04 11:28:39 公開日:2021-08-03
# licHEE:多粒化による言語モデル事前学習の改善

LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization ( http://arxiv.org/abs/2108.00801v2 )

ライセンス: Link先を確認
Weidong Guo, Mingjun Zhao, Lusheng Zhang, Di Niu, Jinwen Luo, Zhenhua Liu, Zhenyang Li and Jianbo Tang(参考訳) 大規模コーパスに基づく言語モデルの事前学習は、豊富な文脈表現の構築において大きな成功を収め、様々な自然言語理解(NLU)タスクにおいて大きなパフォーマンス向上をもたらした。 この成功にもかかわらず、BERTのような現在の事前訓練された言語モデルのほとんどは、単一の粒度のトークン化に基づいて訓練されており、通常は粒度の細かい文字やサブワードで訓練されている。 本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。 本手法は,様々な事前学習言語モデルに適用でき,表現能力を向上させることができる。 CLUE と SuperGLUE で行った大規模な実験により,提案手法は中国語と英語の多種多様な NLU タスクに対して,余分な推論コストを伴わずに包括的な改善を実現し,また,我々の最高のアンサンブルモデルがCLUE ベンチマーク競争における最先端性能を達成することを示した。

Language model pre-training based on large corpora has achieved tremendous success in terms of constructing enriched contextual representations and has led to significant performance gains on a diverse range of Natural Language Understanding (NLU) tasks. Despite the success, most current pre-trained language models, such as BERT, are trained based on single-grained tokenization, usually with fine-grained characters or sub-words, making it hard for them to learn the precise meaning of coarse-grained words and phrases. In this paper, we propose a simple yet effective pre-training method named LICHEE to efficiently incorporate multi-grained information of input text. Our method can be applied to various pre-trained language models and improve their representation capability. Extensive experiments conducted on CLUE and SuperGLUE demonstrate that our method achieves comprehensive improvements on a wide variety of NLU tasks in both Chinese and English with little extra inference cost incurred, and that our best ensemble model achieves the state-of-the-art performance on CLUE benchmark competition.
翻訳日:2021-08-04 11:07:52 公開日:2021-08-03
# 複雑物体相互作用下におけるニューラルな自由視点性能レンダリング

Neural Free-Viewpoint Performance Rendering under Complex Human-object Interactions ( http://arxiv.org/abs/2108.00362v2 )

ライセンス: Link先を確認
Guoxing Sun, Xin Chen, Yizhang Chen, Anqi Pang, Pei Lin, Yuheng Jiang, Lan Xu, Jingya Wang, Jingyi Yu(参考訳) 人間と物体のインタラクションの4次元再構築は没入型vr/ar体験と人間の活動理解に不可欠である。 近年の進歩は、細かなRGB入力から細かな幾何学やテクスチャ結果の回復には至っていない。 本稿では,粗いRGBストリームのみから,任意の斬新な視点での対話シナリオにおいて,人間と物体の高画質な形状と写真リアルなテクスチャの両方を生成するニューラルヒューマンパフォーマンスキャプチャ・レンダリングシステムを提案する。 人間とオブジェクトの相互作用によって引き起こされる複雑なオクルージョンに対処するために、階層的なシーン分離戦略を採用し、人間とオブジェクトのボリュームリコンストラクションとニューラルレンダリングを行う。 具体的には、幾何学的再構成のために、人間の再構成とオブジェクトの再構成を相関関係と共同で検討する、対話型オブジェクトキャプチャー方式を提案する。 4次元オブジェクトダイナミックリコンストラクションのために, 咬合認識型ヒューマンリコンストラクションとロバストなヒューマンアウェアオブジェクトトラッキングを提案する。 ニューラルネットワークのテクスチャレンダリングのために,方向認識型ニューラルブレンディング重み学習と時空間テクスチャ補完を組み合わせた階層的ヒューマンオブジェクトレンダリング手法を提案する。 大規模な実験により,人間と物体の相互作用に挑戦する自由視点で高品質な幾何学とテクスチャ再構築を実現する手法の有効性が示された。

4D reconstruction of human-object interaction is critical for immersive VR/AR experience and human activity understanding. Recent advances still fail to recover fine geometry and texture results from sparse RGB inputs, especially under challenging human-object interactions scenarios. In this paper, we propose a neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of both human and objects under challenging interaction scenarios in arbitrary novel views, from only sparse RGB streams. To deal with complex occlusions raised by human-object interactions, we adopt a layer-wise scene decoupling strategy and perform volumetric reconstruction and neural rendering of the human and object. Specifically, for geometry reconstruction, we propose an interaction-aware human-object capture scheme that jointly considers the human reconstruction and object reconstruction with their correlations. Occlusion-aware human reconstruction and robust human-aware object tracking are proposed for consistent 4D human-object dynamic reconstruction. For neural texture rendering, we propose a layer-wise human-object rendering scheme, which combines direction-aware neural blending weight learning and spatial-temporal texture completion to provide high-resolution and photo-realistic texture results in the occluded scenarios. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and texture reconstruction in free viewpoints for challenging human-object interactions.
翻訳日:2021-08-04 11:07:30 公開日:2021-08-03
# SSPU-Net: 微分レンダリングによる自己監視ポイントクラウドアップサンプリング

SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable Rendering ( http://arxiv.org/abs/2108.00454v2 )

ライセンス: Link先を確認
Yifan Zhao, Le Hui, Jin Xie(参考訳) 3dセンサーから得られる点雲は通常は希薄である。 既存の手法は主に、密度の高い真理点雲を用いて監督された方法でスパース点雲をサンプリングすることに焦点を当てている。 本稿では,地中真理を使わずに高密度の点雲を生成する自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。 そこで我々は,入力スパース点雲と高密度点雲との整合性を利用して形状と描画画像を生成する。 具体的には、まず、スパース点雲の局所的な幾何学的構造を利用して点補間のための重みを学習する、スパース点雲を増幅する隣の膨張ユニット(NEU)を提案する。 そこで我々は,DRU(Dariable Point Cloud rendering Unit)をネットワークのエンドツーエンドモジュールとして開発し,ポイントクラウドをマルチビュー画像にレンダリングする。 最後に, 形状不連続損失と画像不一致損失を定式化してネットワークをトレーニングし, スパースと高密度点雲の形状が可能な限り一貫するようにした。 CADおよびスキャンしたデータセットの大規模な結果から,本手法が自己教師型で優れた結果を得られることを示す。 コードはhttps://github.com/f pthink/SSPU-Netで入手できる。

Point clouds obtained from 3D sensors are usually sparse. Existing methods mainly focus on upsampling sparse point clouds in a supervised manner by using dense ground truth point clouds. In this paper, we propose a self-supervised point cloud upsampling network (SSPU-Net) to generate dense point clouds without using ground truth. To achieve this, we exploit the consistency between the input sparse point cloud and generated dense point cloud for the shapes and rendered images. Specifically, we first propose a neighbor expansion unit (NEU) to upsample the sparse point clouds, where the local geometric structures of the sparse point clouds are exploited to learn weights for point interpolation. Then, we develop a differentiable point cloud rendering unit (DRU) as an end-to-end module in our network to render the point cloud into multi-view images. Finally, we formulate a shape-consistent loss and an image-consistent loss to train the network so that the shapes of the sparse and dense point clouds are as consistent as possible. Extensive results on the CAD and scanned datasets demonstrate that our method can achieve impressive results in a self-supervised manner. Code is available at https://github.com/f pthink/SSPU-Net.
翻訳日:2021-08-04 11:07:04 公開日:2021-08-03
# Sequoia: 継続的な学習研究を統合するソフトウェアフレームワーク

Sequoia: A Software Framework to Unify Continual Learning Research ( http://arxiv.org/abs/2108.01005v2 )

ライセンス: Link先を確認
Fabrice Normandin, Florian Golemo, Oleksiy Ostapenko, Pau Rodriguez, Matthew D Riemer, Julio Hurtado, Khimya Khetarpal, Dominic Zhao, Ryan Lindeborg, Timoth\'ee Lesort, Laurent Charlin, Irina Rish, Massimo Caccia(参考訳) 連続学習(cl)の分野は、非定常環境とデータ分散とのインタラクションを通じて、時間とともに知識とスキルを蓄積するアルゴリズムの開発を目指している。 CLの進行度を測定することは、CL問題に関する多くの評価手順(セット)とアルゴリズム解(メソッド)が出現し、それぞれがCL問題に関して潜在的に不連続な仮定を持つため困難である。 本研究では,各設定を仮定の集合として捉える。 次に、CLにおける研究環境のツリー型階層を作成し、より一般的な設定がより制限的な仮定を持つ人の親となる。 これにより、遺伝を利用して研究を共有、再利用することが可能となり、与えられた設定の方法を開発することで、子供にも直接適用することができる。 私たちはこのアイデアをSequoiaという,CSL(Continuous Supervised Learning)ドメインとCRL(Continuous Reinforcement Learning)ドメインの両方のさまざまな設定を備えた,公開可能なソフトウェアフレームワークとしてインスタンス化しています。 sequoiaには、拡張やカスタマイズが容易なメソッドスイートや、サードパーティライブラリのより専門的なメソッドも含まれている。 我々は,この新たなパラダイムとその最初の実装が,CLにおける研究の統合と加速の基礎となることを願っている。 www.github.com/lebri ce/Sequoia.comを訪問すれば、木を育てられる。

The field of Continual Learning (CL) seeks to develop algorithms that accumulate knowledge and skills over time through interaction with non-stationary environments and data distributions. Measuring progress in CL can be difficult because a plethora of evaluation procedures (ettings) and algorithmic solutions (methods) have emerged, each with their own potentially disjoint set of assumptions about the CL problem. In this work, we view each setting as a set of assumptions. We then create a tree-shaped hierarchy of the research settings in CL, in which more general settings become the parents of those with more restrictive assumptions. This makes it possible to use inheritance to share and reuse research, as developing a method for a given setting also makes it directly applicable onto any of its children. We instantiate this idea as a publicly available software framework called Sequoia, which features a variety of settings from both the Continual Supervised Learning (CSL) and Continual Reinforcement Learning (CRL) domains. Sequoia also includes a growing suite of methods which are easy to extend and customize, in addition to more specialized methods from third-party libraries. We hope that this new paradigm and its first implementation can serve as a foundation for the unification and acceleration of research in CL. You can help us grow the tree by visiting www.github.com/lebri ce/Sequoia.
翻訳日:2021-08-04 11:06:41 公開日:2021-08-03
# (参考訳) 有限ポジション選択関数によるSticky-Datalog+/-の拡張:トラクタビリティ、アルゴリズム、最適化

Extending Sticky-Datalog+/- via Finite-Position Selection Functions: Tractability, Algorithms, and Optimization ( http://arxiv.org/abs/2108.00903v2 )

ライセンス: CC BY 4.0
Leopoldo Bertossi, Mostafa Milani(参考訳) weakly-sticky(ws) datalog+/-は、粘着性と非循環性の条件に基づいて定義されるdatalog+/-プログラムクラスの表現力のあるメンバーである。 WS プログラム上での接続型クエリ応答 (QA) について検討し,データ複雑性のトラクタビリティを確立した。 しかし,実効的なQAアルゴリズムの設計と実装とその最適化は未完成である。 このギャップを埋めるために、私たちはまず、追跡手順の振る舞いの観点から、StickyとWSプログラムを研究します。 我々は、チェイスのスティッキネス特性を、チェイス中に有限の値が現れる述語位置を選択する(そして提供する)オラクルの一般化されたスティッキネス(gsch)モジュロに拡張する。 これらの位置のサブセットのみを提供する選択関数 S の粘度変調は、GSCh のセマンティックサブクラス sch(S) を定義する。 選択関数を持つプログラムクラスには、Sticky と WS と、WS を含むジョイント弱スティックプログラムの導入と特徴付けを行う別の構文クラス、すなわち JWS がある。 これら3つのクラスの選択関数は計算可能であり、外部の計算不可能なオラクルは必要ない。 本稿では,一般選択関数 s に対するクラス sch(s) におけるプログラムのボトムアップ qa アルゴリズムを提案する。 WSと異なり、JWSはマジックセットのクエリ最適化の下でクローズされている。 その結果、一般的な多項式時間QAアルゴリズムとマジックセット最適化の両方を具体化し、WSに適用することができる。

Weakly-Sticky(WS) Datalog+/- is an expressive member of the family of Datalog+/- program classes that is defined on the basis of the conditions of stickiness and weak-acyclicity. Conjunctive query answering (QA) over the WS programs has been investigated, and its tractability in data complexity has been established. However, the design and implementation of practical QA algorithms and their optimizations have been open. In order to fill this gap, we first study Sticky and WS programs from the point of view of the behavior of the chase procedure. We extend the stickiness property of the chase to that of generalized stickiness of the chase (GSCh) modulo an oracle that selects (and provides) the predicate positions where finitely values appear during the chase. Stickiness modulo a selection function S that provides only a subset of those positions defines sch(S), a semantic subclass of GSCh. Program classes with selection functions include Sticky and WS, and another syntactic class that we introduce and characterize, namely JWS, of jointly-weakly-stick y programs, which contains WS. The selection functions for these last three classes are computable, and no external, possibly non-computable oracle is needed. We propose a bottom-up QA algorithm for programs in the class sch(S), for a general selection function S. As a particular case, we obtain a polynomial-time QA algorithm for JWS and weakly-sticky programs. Unlike WS, JWS turns out to be closed under magic-sets query optimization. As a consequence, both the generic polynomial-time QA algorithm and its magic-set optimization can be particularized and applied to WS.
翻訳日:2021-08-04 09:17:31 公開日:2021-08-03
# トランスファーラーニング手法を用いた地盤構造データ付き変圧器マップマッチングモデル

Transformer-based Map Matching Model with Limited Ground-Truth Data using Transfer-Learning Approach ( http://arxiv.org/abs/2108.00439v2 )

ライセンス: Link先を確認
Zhixiong Jin, Seongjin Choi, Hwasoo Yeo(参考訳) 多くの軌道ベースのアプリケーションでは、生のgpsトラジェクタをデジタルマップの道路網にマッピングする必要がある。 従来のマップマッチング手法では,マップマッチング問題に対処するためにルールベースのアルゴリズムが用いられてきたが,本論文ではデータの観点からマップマッチングの課題を考察し,深層学習に基づくマップマッチングモデルを提案する。 トランスフォーマーを用いた地図マッチングモデルを構築し,トランスファー学習手法を提案する。 合成軌道データを生成して変圧器モデルの事前学習を行い, モデル開発コストを最小化し, 実物間ギャップを低減した。 3つの指標(平均ハミング距離、f-score、bleu)を2つのレベル(ポイントとセグメントレベル)で測定し、モデルの性能を評価する。 その結果,提案モデルが既存モデルを上回ることがわかった。 さらに、マップマッチングプロセスをプロットするためにトランスの注意重みを使用し、モデルがどのように道路セグメントと正しく一致しているかを見出す。

In many trajectory-based applications, it is necessary to map raw GPS trajectories onto road networks in digital maps, which is commonly referred to as a map-matching process. While most previous map-matching methods have focused on using rule-based algorithms to deal with the map-matching problems, in this paper, we consider the map-matching task from the data perspective, proposing a deep learning-based map-matching model. We build a Transformer-based map-matching model with a transfer learning approach. We generate synthetic trajectory data to pre-train the Transformer model and then fine-tune the model with a limited number of ground-truth data to minimize the model development cost and reduce the real-to-virtual gap. Three metrics (Average Hamming Distance, F-score, and BLEU) at two levels (point and segment level) are used to evaluate the model performance. The results indicate that the proposed model outperforms existing models. Furthermore, we use the attention weights of the Transformer to plot the map-matching process and find how the model matches the road segments correctly.
翻訳日:2021-08-04 09:16:28 公開日:2021-08-03