このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211028となっている論文です。

PDF登録状況(公開日: 20211028)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 属性ベースニューラルネットワークとコンテキスト情報を用いた人間活動認識 [全文訳有]

Human Activity Recognition using Attribute-Based Neural Networks and Context Information ( http://arxiv.org/abs/2111.04564v1 )

ライセンス: CC BY 4.0
Stefan L\"udtke and Fernando Moya Rueda and Waqas Ahmed and Gernot A. Fink and Thomas Kirste(参考訳) 倉庫のオーダーピッキングなどの作業プロセスにおいて,ウェアラブルセンサデータからヒューマンアクティビティ認識(har)を検討する。 このような構造化ドメインは、パッケージングや輸送など、異なるプロセスステップに分割されることが多い。 各プロセスステップは、立ち上がりや歩行など、アクティビティクラス上の異なる事前分布と、異なるシステムダイナミクスを持つことができる。 本稿では,このようなコンテキスト情報をディープニューラルネットワークに基づくharシステムに体系的に統合する方法を示す。 具体的には、生センサデータから高レベルな動き記述子、属性を推定するディープニューラルネットワークと、現在実行中のプロセスステップのように、推定属性と(オプション)コンテキスト情報からアクティビティクラスを予測する浅層分類器を組み合わせたハイブリッドアーキテクチャを提案する。 提案したアーキテクチャは,最先端手法と比較してHAR性能が向上することを示す。 さらに,プロセスステップに関する情報が組み込まれた場合,その情報が部分的に正しい場合であっても,har性能をさらに向上できることを示す。

We consider human activity recognition (HAR) from wearable sensor data in manual-work processes, like warehouse order-picking. Such structured domains can often be partitioned into distinct process steps, e.g., packaging or transporting. Each process step can have a different prior distribution over activity classes, e.g., standing or walking, and different system dynamics. Here, we show how such context information can be integrated systematically into a deep neural network-based HAR system. Specifically, we propose a hybrid architecture that combines a deep neural network-that estimates high-level movement descriptors, attributes, from the raw-sensor data-and a shallow classifier, which predicts activity classes from the estimated attributes and (optional) context information, like the currently executed process step. We empirically show that our proposed architecture increases HAR performance, compared to state-of-the-art methods. Additionally, we show that HAR performance can be further increased when information about process steps is incorporated, even when that information is only partially correct.
翻訳日:2021-11-14 16:44:32 公開日:2021-10-28
# 合成トランザクションプロファイルの生成

Generating synthetic transactional profiles ( http://arxiv.org/abs/2111.01531v1 )

ライセンス: Link先を確認
Hadrien Lautraite, Patrick Mesana(参考訳) 金融機関は、多数の銀行アプリケーションで顧客の支払いトランザクションを使用する。 トランザクションは非常に個人的であり、行動パターンに富み、しばしば個人特有のものであり、場合によっては個人を特定する情報と同等である。 本稿では,データユーティリティとプライバシの両立を目標として,機械学習技術を用いて合成トランザクションプロファイルを作成する。 私たちが直面した課題は、クライアントが利用可能なすべてのものに比較して使用する支出カテゴリが少なからぬため、スパースベクターに対処することでした。 原データと合成データの両方で、銀行業界が使用する共通洞察を計算し、データユーティリティを測定した。 我々のアプローチは、ニューラルネットワークモデルがそのような文脈で貴重な合成データを生成できることを示します。 最後に,プライバシ保護手法を試行し,モデルの性能への影響を調べた。

Financial institutions use clients' payment transactions in numerous banking applications. Transactions are very personal and rich in behavioural patterns, often unique to individuals, which make them equivalent to personally identifiable information in some cases. In this paper, we generate synthetic transactional profiles using machine learning techniques with the goal to preserve both data utility and privacy. A challenge we faced was to deal with sparse vectors due to the few spending categories a client uses compared to all the ones available. We measured data utility by calculating common insights used by the banking industry on both the original and the synthetic data-set. Our approach shows that neural network models can generate valuable synthetic data in such context. Finally, we tried privacy-preserving techniques and observed its effect on models' performances.
翻訳日:2021-11-07 11:08:22 公開日:2021-10-28
# (参考訳) クリックベース学生のパフォーマンス予測:クラスタリング指導型メタラーニングアプローチ [全文訳有]

Click-Based Student Performance Prediction: A Clustering Guided Meta-Learning Approach ( http://arxiv.org/abs/2111.00901v1 )

ライセンス: CC BY 4.0
Yun-Wei Chu, Elizabeth Tenorio, Laura Cruz, Kerrie Douglas, Andrew S. Lan, Christopher G. Brinton(参考訳) クリックストリーム行動からオンライン授業における学生の知識獲得を予測する問題について検討する。 eラーニングによる講義配信の急増に動機づけられ,講義ビデオにおける学生のインビデオ活動に焦点をあてた。 ビデオ内クイズ性能を予測する手法は,3つの重要なアイデアに基づいている。 まず、クリックシーケンスに埋め込まれた重要な情報を失う可能性のある既存のアプローチのように手作りの機能を定義するのではなく、生のイベントデータで動作する時系列学習アーキテクチャを通じて学生のクリック動作をモデル化する。 第2に,予測モデルを効果的に初期化できるクリックストリームイベントの情報表現を学習するために,自己教師付きクリックストリーム事前学習を開発した。 第3に,予測モデルを最適化し,学生クリックストリームにおける頻繁なパターンのクラスタを利用するクラスタリング誘導型メタラーニングベーストレーニングを提案する。 3つの実世界のデータセットを用いた実験により,本手法は2つのベースラインモデルに対して,映像内クイズ性能の予測において有意な改善が得られた。 さらに,このフレームワークの事前学習とメタ学習の重要性をアブレーション研究を通して検証する。 最後に,本手法が,知識獲得に伴う映像視聴行動に関する知見を,有用な学習分析のためにどのように示すかを示す。

We study the problem of predicting student knowledge acquisition in online courses from clickstream behavior. Motivated by the proliferation of eLearning lecture delivery, we specifically focus on student in-video activity in lectures videos, which consist of content and in-video quizzes. Our methodology for predicting in-video quiz performance is based on three key ideas we develop. First, we model students' clicking behavior via time-series learning architectures operating on raw event data, rather than defining hand-crafted features as in existing approaches that may lose important information embedded within the click sequences. Second, we develop a self-supervised clickstream pre-training to learn informative representations of clickstream events that can initialize the prediction model effectively. Third, we propose a clustering guided meta-learning-based training that optimizes the prediction model to exploit clusters of frequent patterns in student clickstream sequences. Through experiments on three real-world datasets, we demonstrate that our method obtains substantial improvements over two baseline models in predicting students' in-video quiz performance. Further, we validate the importance of the pre-training and meta-learning components of our framework through ablation studies. Finally, we show how our methodology reveals insights on video-watching behavior associated with knowledge acquisition for useful learning analytics.
翻訳日:2021-11-05 05:51:47 公開日:2021-10-28
# ニューラルネットワークによる量子重力の理論に向けて

Towards a theory of quantum gravity from neural networks ( http://arxiv.org/abs/2111.00903v1 )

ライセンス: Link先を確認
Vitaly Vanchurin(参考訳) ニューラルネットワークは、学習不能な変数(ニューロンの状態など)と、学習可能な変数(重みやバイアスなど)の2つの異なる自由度によって記述される力学系である。 学習可能な変数の非平衡ダイナミクスは,ニューロン数が固定されている場合,およびシュロディンガー方程式により,学習系がニューロン数,ステップサイズ,ミニバッチサイズなどのパラメータを調節できる場合,マデルング方程式によって記述できる。 ローレンツ対称性と湾曲時空は、確率的エントロピー生成と学習によるエントロピー破壊の間の相互作用から生じると我々は主張する。 学習不能変数の非平衡力学は、ニューロンの局所状態に対する測地線方程式(創発時空)と、ネットワーク全体に対するアインシュタイン方程式(宇宙定数を持つ)によって記述できることを示す。 学習可能変数の量子的記述と非学習可能変数の重力的記述は、ニューラルネットワークとして微視的に定義される同じ学習システムの別のマクロ的記述を提供するという意味で双対である。

Neural network is a dynamical system described by two different types of degrees of freedom: fast-changing non-trainable variables (e.g. state of neurons) and slow-changing trainable variables (e.g. weights and biases). We show that the non-equilibrium dynamics of trainable variables can be described by the Madelung equations, if the number of neurons is fixed, and by the Schrodinger equation, if the learning system is capable of adjusting its own parameters such as the number of neurons, step size and mini-batch size. We argue that the Lorentz symmetries and curved space-time can emerge from the interplay between stochastic entropy production and entropy destruction due to learning. We show that the non-equilibrium dynamics of non-trainable variables can be described by the geodesic equation (in the emergent space-time) for localized states of neurons, and by the Einstein equations (with cosmological constant) for the entire network. We conclude that the quantum description of trainable variables and the gravitational description of non-trainable variables are dual in the sense that they provide alternative macroscopic descriptions of the same learning system, defined microscopically as a neural network.
翻訳日:2021-11-02 18:00:56 公開日:2021-10-28
# sans学習の獲得--ギグエコノミープラットフォームにおける騒がしい意思決定と労働供給

Earning Sans Learning: Noisy Decision-Making and Labor Supply on Gig Economy Platforms ( http://arxiv.org/abs/2111.00002v1 )

ライセンス: Link先を確認
Daniel Freund and Chamsi Hssaine(参考訳) ギグエコノミー・プラットフォームにおける、収益に関する限られた情報に基づいて参加決定を下す労働者に対して、最適な報酬スキームを求める問題について検討する。 私たちが考えるスタイル化されたモデルは、オンデマンドサービスプラットフォームの運用に関する以前の作業から欠落している2つの重要な、関連する特徴をキャプチャする。 (i)収益の引出先に関する情報の不足、及び (二)収益の変動に敏感な労働者の決定 その構造的性質にもかかわらず, 本モデルは, 自然流体の緩和が優先的かつ難解な複雑な確率的最適化問題を引き起こす。 それにもかかわらず、公平性特性を満たすすべてのポリシーの空間において漸近的に最適である、扱いやすい、高速に収束するヒューリスティックなポリシーを設計することができる緩和の驚くべき構造的性質を明らかにする。 そうすることで、理論と広範なシミュレーションの両方を通じて、ギグエコノミーのプラットフォームで、経験的文献とデータ駆動型観測の両方が普及している可能性を示唆するので、収益が不安定で予測が難しい場合に生じる現象を明らかにすることができる。

We study a gig economy platform's problem of finding optimal compensation schemes when faced with workers who myopically base their participation decisions on limited information with respect to their earnings. The stylized model we consider captures two key, related features absent from prior work on the operations of on-demand service platforms: (i) workers' lack of information regarding the distribution from which their earnings are drawn and (ii) worker decisions that are sensitive to variability in earnings. Despite its stylized nature, our model induces a complex stochastic optimization problem whose natural fluid relaxation is also a priori intractable. Nevertheless, we uncover a surprising structural property of the relaxation that allows us to design a tractable, fast-converging heuristic policy that is asymptotically optimal amongst the space of all policies that fulfill a fairness property. In doing so, via both theory and extensive simulations, we uncover phenomena that may arise when earnings are volatile and hard to predict, as both the empirical literature and our own data-driven observations suggest may be prevalent on gig economy platforms.
翻訳日:2021-11-02 18:00:25 公開日:2021-10-28
# HyperPINN:物理インフォームドハイパーネットを用いたパラメータ化微分方程式の学習

HyperPINN: Learning parameterized differential equations with physics-informed hypernetworks ( http://arxiv.org/abs/2111.01008v1 )

ライセンス: Link先を確認
Filipe de Avila Belbute-Peres, Yi-fan Chen, Fei Sha(参考訳) 近年、微分方程式の解を学習するためのアプローチとして、物理学インフォームドニューラルネットワークモデルが数多く提案されている。 特定のタスクが複数のパラメータ化で微分方程式を解く必要がある場合、モデルを再訓練するか、パラメータ化を含むために表現能力を拡大するかのどちらかが必要となる。 本研究では,ハイパーネットワークを用いて与えられたパラメータ化から微分方程式を解くニューラルネットワークを生成するハイパーピンを提案する。 我々はPDEとODEの両方で実験を行い、パラメータ空間上の解の族を学習しても、このタイプのモデルは小さなサイズを維持する微分方程式に対するニューラルネットワークの解をもたらすことを実証した。

Many types of physics-informed neural network models have been proposed in recent years as approaches for learning solutions to differential equations. When a particular task requires solving a differential equation at multiple parameterizations, this requires either re-training the model, or expanding its representation capacity to include the parameterization -- both solution that increase its computational cost. We propose the HyperPINN, which uses hypernetworks to learn to generate neural networks that can solve a differential equation from a given parameterization. We demonstrate with experiments on both a PDE and an ODE that this type of model can lead to neural network solutions to differential equations that maintain a small size, even when learning a family of solutions over a parameter space.
翻訳日:2021-11-02 17:28:31 公開日:2021-10-28
# 同変コントラスト学習

Equivariant Contrastive Learning ( http://arxiv.org/abs/2111.00899v1 )

ライセンス: Link先を確認
Rumen Dangovski, Li Jing, Charlotte Loh, Seungwook Han, Akash Srivastava, Brian Cheung, Pulkit Agrawal and Marin Solja\v{c}i\'c(参考訳) 最先端の自己教師型学習(SSL)では、人間の知識から規定された意味のある変換の下で意味論的に優れた表現を奨励することで、意味論的に優れた表現を生み出す。 実際、不変性の性質は同値性と呼ばれるより広いクラスの自明な例であり、入力の変換方法に従って表現が変換される性質として直感的に理解することができる。 ここでは,不変性のみを用いるのではなく,ある変換に対する非自明な同値性を促進する事前学習が,他の変換に対する不変性を維持しながら,表現の意味的品質を改善するために有効であることを示す。 具体的には、一般的なSSLメソッドを、Equivariant Self-Supervised Learning (E-SSL)と名付けたより一般的なフレームワークに拡張する。 E-SSLでは、単純な事前学習目的が入力に適用される変換を予測することによって同値性を促進する。 いくつかのコンピュータビジョンベンチマークにおいてE-SSLの有効性を実証的に示す。 さらに,コンピュータビジョン以外の応用におけるE-SSLの有用性を実証し,特にフォトニクス科学における回帰問題に対するその有用性を示す。 私たちはコードを公開します。

In state-of-the-art self-supervised learning (SSL) pre-training produces semantically good representations by encouraging them to be invariant under meaningful transformations prescribed from human knowledge. In fact, the property of invariance is a trivial instance of a broader class called equivariance, which can be intuitively understood as the property that representations transform according to the way the inputs transform. Here, we show that rather than using only invariance, pre-training that encourages non-trivial equivariance to some transformations, while maintaining invariance to other transformations, can be used to improve the semantic quality of representations. Specifically, we extend popular SSL methods to a more general framework which we name Equivariant Self-Supervised Learning (E-SSL). In E-SSL, a simple additional pre-training objective encourages equivariance by predicting the transformations applied to the input. We demonstrate E-SSL's effectiveness empirically on several popular computer vision benchmarks. Furthermore, we demonstrate usefulness of E-SSL for applications beyond computer vision; in particular, we show its utility on regression problems in photonics science. We will release our code.
翻訳日:2021-11-02 15:02:00 公開日:2021-10-28
# 分散GAN制御のためのマルチ属性バランスサンプリング

Multi-Attribute Balanced Sampling for Disentangled GAN Controls ( http://arxiv.org/abs/2111.00909v1 )

ライセンス: Link先を確認
Perla Doubinsky (CEDRIC - VERTIGO, CNAM), Nicolas Audebert (CEDRIC - VERTIGO, CNAM), Michel Crucianu (CEDRIC - VERTIGO, CNAM), Herv\'e Le Borgne (LIST)(参考訳) トレーニングデータのセマンティクスを暗黙的にエンコードするので、生成されたデータに対する様々な制御は、事前訓練されたGANの潜在空間から抽出することができる。 検出されたコントロールは、生成された画像のセマンティック属性を変更できるが、通常、複数の属性に同時に影響する絡み合った編集につながる。 監視されたアプローチは典型的には潜伏コードの集合をサンプリングして注釈付けし、次に潜伏空間の分類器を訓練して制御を識別する。 GANによって生成されたデータは、元のデータセットのバイアスを反映するので、結果として生じるセマンティックコントロールも行う。 生成したデータをサブサンプリングして、過剰に表現された共起属性を除去し、分類器を訓練する前にデータセットのセマンティクスのバランスをとることで、歪みに対処することを提案する。 PGGANとStyleGANという2つの一般的なGANアーキテクチャと,CelebAHQとFFHQという2つのデータセットに対して,顔操作のための不整合線形方向を抽出することにより,このアプローチの有効性を示す。 本手法は,非絡み付き後処理の必要性を回避しつつ,最先端の分類器に基づく手法よりも優れていることを示す。

Various controls over the generated data can be extracted from the latent space of a pre-trained GAN, as it implicitly encodes the semantics of the training data. The discovered controls allow to vary semantic attributes in the generated images but usually lead to entangled edits that affect multiple attributes at the same time. Supervised approaches typically sample and annotate a collection of latent codes, then train classifiers in the latent space to identify the controls. Since the data generated by GANs reflects the biases of the original dataset, so do the resulting semantic controls. We propose to address disentanglement by subsampling the generated data to remove over-represented co-occuring attributes thus balancing the semantics of the dataset before training the classifiers. We demonstrate the effectiveness of this approach by extracting disentangled linear directions for face manipulation on two popular GAN architectures, PGGAN and StyleGAN, and two datasets, CelebAHQ and FFHQ. We show that this approach outperforms state-of-the-art classifier-based methods while avoiding the need for disentanglement-enfo rcing post-processing.
翻訳日:2021-11-02 14:34:19 公開日:2021-10-28
# Smart Fashion: ファッション&アパレル産業におけるAIアプリケーションのレビュー

Smart Fashion: A Review of AI Applications in the Fashion & Apparel Industry ( http://arxiv.org/abs/2111.00905v1 )

ライセンス: Link先を確認
Seyed Omid Mohammadi, Ahmad Kalhor (University of Tehran, College of Engineering, School of Electrical and Computer Engineering, Tehran, Iran)(参考訳) ファッション業界は前例のない変化に近づいている。 ファッションアプリケーションにおける機械学習、コンピュータビジョン、人工知能(AI)の実装は、この業界に多くの新しい機会をもたらしている。 本稿では,580件以上の関連記事から,22件のファッション関連タスクに分類し,包括的調査を行う。 このような構造化タスクに基づくファッション研究論文のマルチラベル分類は、研究者に明示的な研究の方向性を与え、関連する研究へのアクセスを促進し、同時に研究の可視性を向上させる。 各タスクについて、経年変化を分析するためのタイムチャートが提供される。 さらに,提案するアプリケーションのリストと追加情報とともに,86のパブリックファッションデータセットのリストを提供する。

The fashion industry is on the verge of an unprecedented change. The implementation of machine learning, computer vision, and artificial intelligence (AI) in fashion applications is opening lots of new opportunities for this industry. This paper provides a comprehensive survey on this matter, categorizing more than 580 related articles into 22 well-defined fashion-related tasks. Such structured task-based multi-label classification of fashion research articles provides researchers with explicit research directions and facilitates their access to the related studies, improving the visibility of studies simultaneously. For each task, a time chart is provided to analyze the progress through the years. Furthermore, we provide a list of 86 public fashion datasets accompanied by a list of suggested applications and additional information for each.
翻訳日:2021-11-02 12:56:59 公開日:2021-10-28
# (参考訳) 消費者イベント原因抽出のための新しいシーケンスタグ付けフレームワーク [全文訳有]

A Novel Sequence Tagging Framework for Consumer Event-Cause Extraction ( http://arxiv.org/abs/2110.15722v1 )

ライセンス: CC0 1.0
Congqing He, Jie Zhang, Xiangyu Zhu, Huan Liu and Yukun Huang(参考訳) テキスト中の特定のイベントの背後にある潜在的な原因を抽出するタスクであるConsumer Event-Cause extractは、その幅広い応用により近年注目を集めている。 icdm 2020カンファレンスは、特定の主題(ブランドまたは製品)で抽出されたイベントのイベントと原因を抽出することを目的とした評価コンペティションを組織する。 このタスクでは、主にエンドツーエンドモデルの構築方法に注目し、複数のイベントタイプとイベント原因を同時に抽出する。 そこで本稿では,イベントタイプやイベント原因を別々に抽出する代わりに,リレーショナルイベント原因抽出タスクを再検討する新たな視点を導入し,新しいシーケンスタギングフレームワークを提案する。 実験では,初期化事前学習したbertエンコーダを使用しても,このフレームワークがベースラインメソッドよりも優れており,新しいタグ付けフレームワークのパワーを示している。 この大会では,私たちのチームが第1ステージのリーダーボードで1位,最終ステージのリーダーボードで3位を獲得しました。

Consumer Event-Cause Extraction, the task aimed at extracting the potential causes behind certain events in the text, has gained much attention in recent years due to its wide applications. The ICDM 2020 conference sets up an evaluation competition that aims to extract events and the causes of the extracted events with a specified subject (a brand or product). In this task, we mainly focus on how to construct an end-to-end model, and extract multiple event types and event-causes simultaneously. To this end, we introduce a fresh perspective to revisit the relational event-cause extraction task and propose a novel sequence tagging framework, instead of extracting event types and events-causes separately. Experiments show our framework outperforms baseline methods even when its encoder module uses an initialized pre-trained BERT encoder, showing the power of the new tagging framework. In this competition, our team achieved 1st place in the first stage leaderboard, and 3rd place in the final stage leaderboard.
翻訳日:2021-11-02 02:22:09 公開日:2021-10-28
# (参考訳) RGBDセンサを用いた物体追跡のためのリアルタイムマルチビューデータ融合 [全文訳有]

Real-time multiview data fusion for object tracking with RGBD sensors ( http://arxiv.org/abs/2110.15815v1 )

ライセンス: CC BY 4.0
Abdenour Amamra, Nabil Aouf(参考訳) 本稿では,赤緑色深度カメラ(RGBD)のマルチビュー設定により,移動体を正確に追跡する新しい手法を提案する。 まず,装着時に深度センサに発生する変化を除去する補正法を提案する。 この問題は通常の校正手順では修正できなかった。 次に,未知の車両の動きを補正するセンサワイズフィルタリングシステムを提案する。 データ融合アルゴリズムは、センサ単位で推定された軌道を最適にマージするために使用される。 私たちはグラフィックプロセッサにソリューションのほとんどを実装しています。 そのため、システム全体の動作速度は最大25フレーム/秒で、5台のカメラが設定できる。 実験の結果, 測定とモデリングにおける不確実性を克服するための解の正確性と頑健性が示された。

This paper presents a new approach to accurately track a moving vehicle with a multiview setup of red-green-blue depth (RGBD) cameras. We first propose a correction method to eliminate a shift, which occurs in depth sensors when they become worn. This issue could not be otherwise corrected with the ordinary calibration procedure. Next, we present a sensor-wise filtering system to correct for an unknown vehicle motion. A data fusion algorithm is then used to optimally merge the sensor-wise estimated trajectories. We implement most parts of our solution in the graphic processor. Hence, the whole system is able to operate at up to 25 frames per second with a configuration of five cameras. Test results show the accuracy we achieved and the robustness of our solution to overcome uncertainties in the measurements and the modelling.
翻訳日:2021-11-02 02:16:22 公開日:2021-10-28
# (参考訳) 交通シミュレーションのためのGISデータリアル道路生成手法 [全文訳有]

A GIS Data Realistic Road Generation Approach for Traffic Simulation ( http://arxiv.org/abs/2110.15814v1 )

ライセンス: CC BY 4.0
Yacine Amara, Abdenour Amamra, Yasmine Daheur, Lamia Saichi(参考訳) 道路網はGISデータベース内の属性を持つポリラインの形で存在する。 このような表現は、3次元道路交通シミュレーションでは実現不可能な地理データを描画する。 本研究では,生GISデータをリアルタイム道路交通シミュレーションのための実運用モデルに変換する手法を提案する。 例えば、提案した生からシミュレーション可能なデータ変換は、いくつかの曲率推定、補間/近似、クラスタリングスキームによって達成される。 その結果,本手法の性能が示され,本ビデオ1に示すような実際の交通シミュレーションシナリオに対する妥当性が証明された。

Road networks exist in the form of polylines with attributes within the GIS databases. Such a representation renders the geographic data impracticable for 3D road traffic simulation. In this work, we propose a method to transform raw GIS data into a realistic, operational model for real-time road traffic simulation. For instance, the proposed raw to simulation ready data transformation is achieved through several curvature estimation, interpolation/approx imation, and clustering schemes. The obtained results show the performance of our approach and prove its adequacy to real traffic simulation scenario as can be seen in this video 1 .
翻訳日:2021-11-02 01:58:09 公開日:2021-10-28
# (参考訳) NxM Transformer:ADMMによる自然言語理解のための半構造化スカラー化 [全文訳有]

NxMTransformer: Semi-Structured Sparsification for Natural Language Understanding via ADMM ( http://arxiv.org/abs/2110.15766v1 )

ライセンス: CC BY 4.0
Connor Holmes, Minjia Zhang, Yuxiong He, and Bo Wu(参考訳) 自然言語処理(NLP)は、最近、巨大なトレーニング済みトランスフォーマーネットワークを使用することで成功している。 しかしながら、これらのモデルには数億ないし数十億のパラメータが含まれており、レイテンシの制約によるオンラインデプロイメントに課題をもたらすことが多い。 近年、ハードウェアメーカーは、非構造化プラニングの柔軟性と構造化アプローチのランタイム効率を提供するため、nxm sparsity専用のハードウェアを導入した。 NxM 空間性は、密度表現における N の連続群から M のパラメータを任意に選択することができる。 しかし、事前訓練されたモデルの非常に高い複雑さのため、標準のスパース微調整技術は、データリソースが限られている下流のタスクをうまく一般化できないことが多い。 このような問題に対処するために,自然言語理解のための事前学習された言語モデルにnxm半構造化スパーシティを誘導し,よりよい性能を得るための新しい学習フレームワークnxmtransformerを導入する。 特に,制約付き最適化問題としてnxmのスパーシティを定式化し,ハードウェア制約を考慮しつつ下流タスクを最適化するために乗算器の交互方向法(admm)を用いることを提案する。 admmはnxmのスパーシフィケーション問題を2つのサブプロブレムに分解し、シーケンシャルに解決し、新しくリリースされたハードウェア上で効果的に実行できながら精度の高いスパーシフィケーショントランスフォーマーネットワークを生成する。 提案手法は幅広いnlpタスクに適用可能であり,提案手法は接着剤スコアにおいて,従来の手法よりも1.7ポイント高い精度が得られる。 さらに,提案手法の詳細な解析を行い,admmが下流タスクの微調整精度に与える影響を明らかにした。 最後に,NxMTransformerの知識蒸留による性能向上について述べる。

Natural Language Processing (NLP) has recently achieved success by using huge pre-trained Transformer networks. However, these models often contain hundreds of millions or even billions of parameters, bringing challenges to online deployment due to latency constraints. Recently, hardware manufacturers have introduced dedicated hardware for NxM sparsity to provide the flexibility of unstructured pruning with the runtime efficiency of structured approaches. NxM sparsity permits arbitrarily selecting M parameters to retain from a contiguous group of N in the dense representation. However, due to the extremely high complexity of pre-trained models, the standard sparse fine-tuning techniques often fail to generalize well on downstream tasks, which have limited data resources. To address such an issue in a principled manner, we introduce a new learning framework, called NxMTransformer, to induce NxM semi-structured sparsity on pretrained language models for natural language understanding to obtain better performance. In particular, we propose to formulate the NxM sparsity as a constrained optimization problem and use Alternating Direction Method of Multipliers (ADMM) to optimize the downstream tasks while taking the underlying hardware constraints into consideration. ADMM decomposes the NxM sparsification problem into two sub-problems that can be solved sequentially, generating sparsified Transformer networks that achieve high accuracy while being able to effectively execute on newly released hardware. We apply our approach to a wide range of NLP tasks, and our proposed method is able to achieve 1.7 points higher accuracy in GLUE score than current practices. Moreover, we perform detailed analysis on our approach and shed light on how ADMM affects fine-tuning accuracy for downstream tasks. Finally, we illustrate how NxMTransformer achieves performance improvement with knowledge distillation.
翻訳日:2021-11-02 01:49:01 公開日:2021-10-28
# (参考訳) Pixelからジャンプすることを学ぶ [全文訳有]

Learning to Jump from Pixels ( http://arxiv.org/abs/2110.15344v1 )

ライセンス: CC BY 4.0
Gabriel B. Margolis, Tao Chen, Kartik Paigwar, Xiang Fu, Donghyun Kim, Sangbae Kim, Pulkit Agrawal(参考訳) 今日のロボット四足歩行システムは、地形の標高が徐々に変化する様々な荒地でも連続した地形をロバストに歩くことができる。 隙間や障害物などの不連続な地形での移動は、相補的な課題の集合を示す。 不連続な環境では、視覚的な入力を使用して計画し、ジャンプのような堅牢な歩行を超えたアジャイルの振る舞いを実行する必要がある。 このようなダイナミックな動きは搭載センサーの大きな動きをもたらし、リアルタイムの視覚処理に新たな課題をもたらす。 この環境でのアジリティと地形認識の必要性は、堅牢なコントロールの必要性を補強します。 本研究では,高度にアジャイルな視覚誘導ロコモーション動作を合成する奥行きベースインパルス制御(dic)を提案する。 dicはモデルフリー学習の柔軟性を与えるが、反応力の明示的なモデルに基づく最適化によって振る舞いを規則化する。 提案手法をシミュレーションと実世界の両方で評価する。

Today's robotic quadruped systems can robustly walk over a diverse range of rough but continuous terrains, where the terrain elevation varies gradually. Locomotion on discontinuous terrains, such as those with gaps or obstacles, presents a complementary set of challenges. In discontinuous settings, it becomes necessary to plan ahead using visual inputs and to execute agile behaviors beyond robust walking, such as jumps. Such dynamic motion results in significant motion of onboard sensors, which introduces a new set of challenges for real-time visual processing. The requirement for agility and terrain awareness in this setting reinforces the need for robust control. We present Depth-based Impulse Control (DIC), a method for synthesizing highly agile visually-guided locomotion behaviors. DIC affords the flexibility of model-free learning but regularizes behavior through explicit model-based optimization of ground reaction forces. We evaluate the proposed method both in simulation and in the real world.
翻訳日:2021-11-02 01:31:43 公開日:2021-10-28
# (参考訳) ローレンツ支配によるランクの両面公正性

Two-sided fairness in rankings via Lorenz dominance ( http://arxiv.org/abs/2110.15781v1 )

ライセンス: CC BY 4.0
Virginie Do, Sam Corbett-Davies, Jamal Atif, Nicolas Usunier(参考訳) 我々は,レコメンダシステムにおいて,ユーザとアイテム生産者の両方に対して公平なランキング生成の問題を考える。 通常の推薦(音楽や映画など)と相互推薦(デートなど)の両方に対処します。 福祉経済学における分散正義の概念に従い、公平性の概念は、ローレンツ効率の基準を用いて定式化する、劣悪な個人の有用性を高めることを目的としています。 ランキングはパレート効率が良く、ユーティリティーをより良いものから悪いものへと最大限に再分配することを保証します。 コンケーブ型福祉関数の最大化によるランキング生成と,フランク・ウルフアルゴリズムに基づく効率的な推論手法の開発を提案する。 公平性制約に基づく既存のアプローチとは異なり、我々のアプローチは常に公平なランキングを生成する。 また,本実験により, コストの低減により, 全体の実用性の向上が図られた。

We consider the problem of generating rankings that are fair towards both users and item producers in recommender systems. We address both usual recommendation (e.g., of music or movies) and reciprocal recommendation (e.g., dating). Following concepts of distributive justice in welfare economics, our notion of fairness aims at increasing the utility of the worse-off individuals, which we formalize using the criterion of Lorenz efficiency. It guarantees that rankings are Pareto efficient, and that they maximally redistribute utility from better-off to worse-off, at a given level of overall utility. We propose to generate rankings by maximizing concave welfare functions, and develop an efficient inference procedure based on the Frank-Wolfe algorithm. We prove that unlike existing approaches based on fairness constraints, our approach always produces fair rankings. Our experiments also show that it increases the utility of the worse-off at lower costs in terms of overall utility.
翻訳日:2021-11-02 01:10:24 公開日:2021-10-28
# (参考訳) YOLOに基づく新しいSAR目標認識と深層多カノニカル相関解析 [全文訳有]

New SAR target recognition based on YOLO and very deep multi-canonical correlation analysis ( http://arxiv.org/abs/2110.15383v1 )

ライセンス: CC BY 4.0
Moussa Amrani, Abdelatif Bey, Abdenour Amamra(参考訳) 合成開口レーダ(SAR)画像はノイズによって汚染されやすいため、SAR画像のターゲット認識は非常に困難である。 超深層畳み込みニューラルネットワーク(cnns)の成功に触発されて,異なるcnn層からの有効特徴を適応的に融合することにより,sar画像ターゲット分類のためのロバスト特徴抽出法を提案する。 まず、各MF SARターゲット画像からターゲットを検出するよう、YOLOv4ネットワークを微調整する。 第二に、非常に深いCNNは、ネット全体にわたって小さなフィルタを用いて、移動および静止目標取得および認識(MSTAR)データベースをスクラッチから訓練し、スペックルノイズを低減する。 また、小型畳み込みフィルタを用いることで各層のパラメータ数が減少し、cnnがより深くなるにつれて計算コストが削減される。 得られたCNNモデルは、ノイズフィルタリングや前処理を行うことなく、ターゲット画像から非常に深い特徴を抽出することができる。 第3に,マルチカノニカル相関解析 (MCCA) を用いて異なる層からCNNの特徴を適応的に学習し,その結果の表現が線形に高い相関性を持ち,単純な線形支援ベクトルマシンを用いてもより優れた分類精度を実現することを提案する。 MSTARデータセットの実験結果から,提案手法は最先端の手法よりも優れていることが示された。

Synthetic Aperture Radar (SAR) images are prone to be contaminated by noise, which makes it very difficult to perform target recognition in SAR images. Inspired by great success of very deep convolutional neural networks (CNNs), this paper proposes a robust feature extraction method for SAR image target classification by adaptively fusing effective features from different CNN layers. First, YOLOv4 network is fine-tuned to detect the targets from the respective MF SAR target images. Second, a very deep CNN is trained from scratch on the moving and stationary target acquisition and recognition (MSTAR) database by using small filters throughout the whole net to reduce the speckle noise. Besides, using small-size convolution filters decreases the number of parameters in each layer and, therefore, reduces computation cost as the CNN goes deeper. The resulting CNN model is capable of extracting very deep features from the target images without performing any noise filtering or pre-processing techniques. Third, our approach proposes to use the multi-canonical correlation analysis (MCCA) to adaptively learn CNN features from different layers such that the resulting representations are highly linearly correlated and therefore can achieve better classification accuracy even if a simple linear support vector machine is used. Experimental results on the MSTAR dataset demonstrate that the proposed method outperforms the state-of-the-art methods.
翻訳日:2021-11-02 01:09:21 公開日:2021-10-28
# (参考訳) RF指紋と秘密鍵の生成におけるCSIの利用について [全文訳有]

On the Use of CSI for the Generation of RF Fingerprints and Secret Keys ( http://arxiv.org/abs/2110.15415v1 )

ライセンス: CC BY 4.0
Muralikrishnan Srinivasan, Sotiris Skaperas and Arsenia Chorti(参考訳) 本稿では,物理層セキュリティ(PLS)のための認証および秘密鍵蒸留にチャネル状態情報を使用する方式を提案する。 一般的な機械学習(ml)手法と信号処理に基づく手法を用いて,大規模フェーディングを分離し,共有エントロピー秘密鍵生成(skg)の源として扱うために,小規模フェーディングからユニークさの源として用いる。 MLベースのアプローチは完全に教師なしであるため、徹底的な測定キャンペーンを避けることができる。 また, ヒルベルト・シュミット独立基準(hsic)を用いることを提案し, チャネル状態情報(csi)ベクトルの抽出された確率的部分は統計的に独立であることを示した。

This paper presents a systematic approach to use channel state information for authentication and secret key distillation for physical layer security (PLS). We use popular machine learning (ML) methods and signal processing-based approaches to disentangle the large scale fading and be used as a source of uniqueness, from the small scale fading, to be treated as a source of shared entropy secret key generation (SKG). The ML-based approaches are completely unsupervised and hence avoid exhaustive measurement campaigns. We also propose using the Hilbert Schmidt independence criterion (HSIC); our simulation results demonstrate that the extracted stochastic part of the channel state information (CSI) vectors are statistically independent.
翻訳日:2021-11-02 00:57:54 公開日:2021-10-28
# (参考訳) 音声再構成によるコントラスト表現学習の雑音ロバスト性向上 [全文訳有]

Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction ( http://arxiv.org/abs/2110.15430v1 )

ライセンス: CC BY 4.0
Heming Wang, Yao Qian, Xiaofei Wang, Yiming Wang, Chengyi Wang, Shujie Liu, Takuya Yoshioka, Jinyu Li and DeLiang Wang(参考訳) 自動音声認識(asr)システムを実環境に展開するには,ノイズロバスト性が不可欠である。 雑音干渉の影響を低減する1つの方法は、音声強調を行う前処理モジュールを使用して、拡張された音声をasrバックエンドに供給することである。 本研究では,従来のカスケードパイプラインでは背景雑音を抑圧する代わりに,ノイズロバスト表現を雑音音声認識のための改良された自己教師付きフレームワークで学習する。 コントラスト学習と再構成モジュールを組み合わせることで,雑音データに対するマルチタスク連続事前学習を実現する。 レコンストラクションモジュールは、学習表現の雑音ロバスト性を改善するために補助学習に使用され、推論の間は不要である。 提案手法の有効性を示す実験を行った。 本モデルは,合成雑音リブリスピーチテストセットの単語誤り率(wer)を実質的に低減し,データ拡張に比べてノイズクリーン/その他テストセットの約4.1/7.5%低減する。 また,CHiME-4チャレンジ(1チャンネルトラック)による実環境雑音音声に対して,最先端の雑音を伴わずに,アートASR演奏の状態を把握した。 さらに,ラベル付きデータのわずか16%で報告された最善の教師付きアプローチと同等の性能を達成できた。

Noise robustness is essential for deploying automatic speech recognition (ASR) systems in real-world environments. One way to reduce the effect of noise interference is to employ a preprocessing module that conducts speech enhancement, and then feed the enhanced speech to an ASR backend. In this work, instead of suppressing background noise with a conventional cascaded pipeline, we employ a noise-robust representation learned by a refined self-supervised framework for noisy speech recognition. We propose to combine a reconstruction module with contrastive learning and perform multi-task continual pre-training on noisy data. The reconstruction module is used for auxiliary learning to improve the noise robustness of the learned representation and thus is not required during inference. Experiments demonstrate the effectiveness of our proposed method. Our model substantially reduces the word error rate (WER) for the synthesized noisy LibriSpeech test sets, and yields around 4.1/7.5% WER reduction on noisy clean/other test sets compared to data augmentation. For the real-world noisy speech from the CHiME-4 challenge (1-channel track), we have obtained the state of the art ASR performance without any denoising front-end. Moreover, we achieve comparable performance to the best supervised approach reported with only 16% of labeled data.
翻訳日:2021-11-02 00:47:23 公開日:2021-10-28
# (参考訳) 制約付きマルチタスク学習のためのスケーラブルな一方向パレート最適性 [全文訳有]

Scalable Uni-directional Pareto Optimality for Multi-Task Learning with Constraints ( http://arxiv.org/abs/2110.15442v1 )

ライセンス: CC BY 4.0
Soumyajit Gupta, Gurpreet Singh, Matthew Lease(参考訳) 制約下での最適化を含む多目的最適化(MOO)問題に対するスケーラブルなParetoソルバを提案する。 この解法の重要な応用は、moo分類タスクのための高次元ニューラルモデルの推定である。 提案手法は,提案手法を用いた実行時と空間の大幅な改善を実証し,MTL(Multi-Task Learning, Multi-Task Learning, MTL)による既知の非凸MOO問題のベンチマークセット上で,真にParetoが最適であることを示す。

We propose a scalable Pareto solver for Multi-Objective Optimization (MOO) problems, including support for optimization under constraints. An important application of this solver is to estimate high-dimensional neural models for MOO classification tasks. We demonstrate significant runtime and space improvement using our solver \vs prior methods, verify that solutions found are truly Pareto optimal on a benchmark set of known non-convex MOO problems from {\em operations research}, and provide a practical evaluation against prior methods for Multi-Task Learning (MTL).
翻訳日:2021-11-02 00:35:30 公開日:2021-10-28
# (参考訳) 自己監督学習におけるセキュリティとプライバシの問題10 [全文訳有]

10 Security and Privacy Problems in Self-Supervised Learning ( http://arxiv.org/abs/2110.15444v1 )

ライセンス: CC BY 4.0
Jinyuan Jia, Hongbin Liu, Neil Zhenqiang Gong(参考訳) 自己教師型学習はここ数年で革命的な進歩を遂げており、汎用AIにとって有望なアプローチだと考えられている。 特に、自己教師付き学習は、大量のラベルなしデータを使用してエンコーダを事前学習することを目的としている。 事前トレーニングされたエンコーダは、AIエコシステムの"運用システム"のように見えます。 特に、エンコーダは、ラベル付きトレーニングデータが少なく、あるいは全くない多くのダウンストリームタスクの機能抽出器として使用できる。 自己教師付き学習に関する既存の研究は、非敵設定における下流タスクのパフォーマンスを改善するために、より良いエンコーダを事前学習することに集中しており、そのセキュリティとプライバシは、ほとんど探索されていない。 事前訓練されたエンコーダのセキュリティやプライバシの問題は、AIエコシステムの単一障害点につながる。 本章では、6つの秘密性問題、3つの完全性問題、1つの可用性問題を含む、自己教師付き学習における事前学習されたエンコーダの基本的なセキュリティとプライバシの問題10について論じる。 それぞれの問題に対して、潜在的な機会と課題について話し合う。 私たちは本章が,自己監督学習のセキュリティとプライバシに関する今後の研究を刺激することを期待しています。

Self-supervised learning has achieved revolutionary progress in the past several years and is commonly believed to be a promising approach for general-purpose AI. In particular, self-supervised learning aims to pre-train an encoder using a large amount of unlabeled data. The pre-trained encoder is like an "operating system" of the AI ecosystem. In particular, the encoder can be used as a feature extractor for many downstream tasks with little or no labeled training data. Existing studies on self-supervised learning mainly focused on pre-training a better encoder to improve its performance on downstream tasks in non-adversarial settings, leaving its security and privacy in adversarial settings largely unexplored. A security or privacy issue of a pre-trained encoder leads to a single point of failure for the AI ecosystem. In this book chapter, we discuss 10 basic security and privacy problems for the pre-trained encoders in self-supervised learning, including six confidentiality problems, three integrity problems, and one availability problem. For each problem, we discuss potential opportunities and challenges. We hope our book chapter will inspire future research on the security and privacy of self-supervised learning.
翻訳日:2021-11-02 00:18:26 公開日:2021-10-28
# (参考訳) FAST:確率ラウンドリングによる可変精度ブロック浮動点下でのDNNトレーニング [全文訳有]

FAST: DNN Training Under Variable Precision Block Floating Point with Stochastic Rounding ( http://arxiv.org/abs/2110.15456v1 )

ライセンス: CC BY 4.0
Sai Qian Zhang, Bradley McDanel, H.T. Kung(参考訳) ブロック浮動小数点(bfp)は、複数の値の共有指数を介して広いダイナミックレンジを提供することにより、ディープニューラルネットワーク(dnn)トレーニングの量子化を効率的に支援することができる。 本稿では,重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。 FASTは、可変精度のBFP入力オペランドによる行列乗算をサポートし、トレーニングを通してDNN精度の漸増を可能にする。 トレーニングイテレーションとDNNレイヤの両方でBFP精度を向上することにより、FASTは、ハードウェアリソース全体の使用量を削減しながら、トレーニング時間を大幅に短縮することができる。 FAST Multir-Accumulator (fMAC) は複数のBFP精度でドット積計算をサポートする。 異なるデータセットを持つ複数のdnn上で高速システムを検証し、検証精度で同様の性能を達成しながら、以前の作業よりもシングルチッププラットフォーム上でのトレーニングにおける2-6$\times$ speedupを実証した。

Block Floating Point (BFP) can efficiently support quantization for Deep Neural Network (DNN) training by providing a wide dynamic range via a shared exponent across a group of values. In this paper, we propose a Fast First, Accurate Second Training (FAST) system for DNNs, where the weights, activations, and gradients are represented in BFP. FAST supports matrix multiplication with variable precision BFP input operands, enabling incremental increases in DNN precision throughout training. By increasing the BFP precision across both training iterations and DNN layers, FAST can greatly shorten the training time while reducing overall hardware resource usage. Our FAST Multipler-Accumulato r (fMAC) supports dot product computations under multiple BFP precisions. We validate our FAST system on multiple DNNs with different datasets, demonstrating a 2-6$\times$ speedup in training on a single-chip platform over prior work based on \textbf{mixed-precision or block} floating point number systems while achieving similar performance in validation accuracy.
翻訳日:2021-11-01 23:57:01 公開日:2021-10-28
# (参考訳) オープン・イシュー:RKHS要素のオンライン信頼区間を厳格化 [全文訳有]

Open Problem: Tight Online Confidence Intervals for RKHS Elements ( http://arxiv.org/abs/2110.15458v1 )

ライセンス: CC BY 4.0
Sattar Vakili, Jonathan Scarlett, Tara Javidi(参考訳) 信頼区間は、様々なオンライン学習問題の分析において重要な構成要素である。 カーネルベースの帯域幅と強化学習問題の解析は、再生カーネルヒルベルト空間(RKHS)の要素に適用可能な信頼区間を利用する。 しかし、既存の信頼境界は厳密でないようで、最適でない後悔境界となる。 実際、いくつかのカーネル化された帯域幅アルゴリズム(例えば、GP-UCB、GP-TS、およびそれらの変種)の既存の後悔境界は、サブ線形でないかもしれない。 準最適後悔境界がこれらのアルゴリズムの根本的な欠点なのか、あるいは証明の成果なのかは不明であり、主な課題は観察点のオンライン的(逐次的な)性質に由来すると思われる。 RKHS設定におけるオンライン信頼区間の質問を形式化し、既存の結果を概観する。

Confidence intervals are a crucial building block in the analysis of various online learning problems. The analysis of kernel based bandit and reinforcement learning problems utilize confidence intervals applicable to the elements of a reproducing kernel Hilbert space (RKHS). However, the existing confidence bounds do not appear to be tight, resulting in suboptimal regret bounds. In fact, the existing regret bounds for several kernelized bandit algorithms (e.g., GP-UCB, GP-TS, and their variants) may fail to even be sublinear. It is unclear whether the suboptimal regret bound is a fundamental shortcoming of these algorithms or an artifact of the proof, and the main challenge seems to stem from the online (sequential) nature of the observation points. We formalize the question of online confidence intervals in the RKHS setting and overview the existing results.
翻訳日:2021-11-01 23:22:09 公開日:2021-10-28
# 過パラメータ化からの導出性:負のパーセプトロンの例

Tractability from overparametrization: The example of the negative perceptron ( http://arxiv.org/abs/2110.15824v1 )

ライセンス: Link先を確認
Andrea Montanari, Yiqiao Zhong, Kangjie Zhou(参考訳) 負のパーセプトロン問題では、$n$ data points $({\boldsymbol x}_i,y_i)$、ただし${\boldsymbol x}_i$は$d$-dimensional vector、$y_i\in\{+1,-1\}$はバイナリラベルである。 データは線形分離可能ではなく、従って、最大の可能な 'emph{ negative} マージンを持つ線形分類器を見つけるのに満足する。 言い換えれば、単位ノルムベクトル ${\boldsymbol \theta}$ を見つけて、$\min_{i\le n}y_i\langle {\boldsymbol \theta},{\boldsymbol x}_i\rangle$ を最大化する。 これは非凸最適化問題(ポリトープ内の最大ノルムベクトルを見つけるのと同値)であり、データに対する2つのランダムモデルの下でその典型的な性質を調べる。 我々は、$n,d\to \infty$と$n/d\to\delta$の比例漸近を考慮し、その逆関数 $\delta_{\text{s}}(\kappa)$ の最大辺 $\kappa_{\text{s}}(\delta)$ あるいは -- 等価に) の上と下の境界を証明している。 言い換えると、$\delta_{\text{s}}(\kappa)$はオーバーパラメトリゼーションしきい値である: for $n/d\le \delta_{\text{s}}(\kappa)-\varepsilon $ a classifier 消滅するトレーニングエラーを達成することは高い確率で存在し、$n/d\ge \delta_{\text{s}}(\kappa)+\varepsilon$はそうではない。 我々の$\delta_{\text{s}}(\kappa)$は、先頭の順序に$\kappa\to -\infty$と一致します。 次に線形計画アルゴリズムを解析して解を見つけ、対応するしきい値 $\delta_{\text{lin}}(\kappa)$ を特徴付ける。 我々は補間しきい値 $\delta_{\text{s}}(\kappa)$ と線形計画しきい値 $\delta_{\text{lin}}(\kappa)$ の間のギャップを観察し、他のアルゴリズムの振る舞いの問題を提起する。

In the negative perceptron problem we are given $n$ data points $({\boldsymbol x}_i,y_i)$, where ${\boldsymbol x}_i$ is a $d$-dimensional vector and $y_i\in\{+1,-1\}$ is a binary label. The data are not linearly separable and hence we content ourselves to find a linear classifier with the largest possible \emph{negative} margin. In other words, we want to find a unit norm vector ${\boldsymbol \theta}$ that maximizes $\min_{i\le n}y_i\langle {\boldsymbol \theta},{\boldsymbol x}_i\rangle$. This is a non-convex optimization problem (it is equivalent to finding a maximum norm vector in a polytope), and we study its typical properties under two random models for the data. We consider the proportional asymptotics in which $n,d\to \infty$ with $n/d\to\delta$, and prove upper and lower bounds on the maximum margin $\kappa_{\text{s}}(\delta)$ or -- equivalently -- on its inverse function $\delta_{\text{s}}(\kappa)$. In other words, $\delta_{\text{s}}(\kappa)$ is the overparametrization threshold: for $n/d\le \delta_{\text{s}}(\kappa)-\varepsilon $ a classifier achieving vanishing training error exists with high probability, while for $n/d\ge \delta_{\text{s}}(\kappa)+\varepsilon$ it does not. Our bounds on $\delta_{\text{s}}(\kappa)$ match to the leading order as $\kappa\to -\infty$. We then analyze a linear programming algorithm to find a solution, and characterize the corresponding threshold $\delta_{\text{lin}}(\kappa)$. We observe a gap between the interpolation threshold $\delta_{\text{s}}(\kappa)$ and the linear programming threshold $\delta_{\text{lin}}(\kappa)$, raising the question of the behavior of other algorithms.
翻訳日:2021-11-01 15:32:25 公開日:2021-10-28
# 確率的ミラー降下:ミラー確率的ポリアックステップによる収束解析と適応的変種

Stochastic Mirror Descent: Convergence Analysis and Adaptive Variants via the Mirror Stochastic Polyak Stepsize ( http://arxiv.org/abs/2110.15412v1 )

ライセンス: Link先を確認
Ryan D'Orazio, Nicolas Loizou, Issam Laradji, Ioannis Mitliagkas(参考訳) 比較的滑らかで滑らかな凸最適化における確率ミラー降下(SMD)の収束について検討した。 比較的滑らかな凸最適化では、一定ステップのsmdに対する新しい収束保証を提供する。 滑らかな凸最適化のために、我々は新しい適応ステップ化スキーム -- ミラー確率的polyak stepize (msps) を提案する。 特に、両方の設定における収束結果は、有界勾配の仮定や有界分散の仮定を作らず、補間の下で消滅する近傍への収束を示す。 mSPSは、最近提案された確率的Polyak Stepize (SPS) をミラー降下に一般化し(Loizou et al., 2021)、ミラー降下の利点を継承しながら、現代の機械学習アプリケーションに実用的で効率的である。 我々は,様々な教師付き学習タスクとsmdの異なるインスタンスで実験を行い,mspsの有効性を実証した。

We investigate the convergence of stochastic mirror descent (SMD) in relatively smooth and smooth convex optimization. In relatively smooth convex optimization we provide new convergence guarantees for SMD with a constant stepsize. For smooth convex optimization we propose a new adaptive stepsize scheme -- the mirror stochastic Polyak stepsize (mSPS). Notably, our convergence results in both settings do not make bounded gradient assumptions or bounded variance assumptions, and we show convergence to a neighborhood that vanishes under interpolation. mSPS generalizes the recently proposed stochastic Polyak stepsize (SPS) (Loizou et al., 2021) to mirror descent and remains both practical and efficient for modern machine learning applications while inheriting the benefits of mirror descent. We complement our results with experiments across various supervised learning tasks and different instances of SMD, demonstrating the effectiveness of mSPS.
翻訳日:2021-11-01 15:06:07 公開日:2021-10-28
# 動的トモグラフィにおける密度再構成のためのWasserstein GANの物理駆動学習

Physics-Driven Learning of Wasserstein GAN for Density Reconstruction in Dynamic Tomography ( http://arxiv.org/abs/2110.15424v1 )

ライセンス: Link先を確認
Zhishen Huang, Marc Klasky, Trevor Wilcox, Saiprasad Ravishankar(参考訳) 散乱放射とノイズを含む投影体からの物体密度再構成は多くの応用において重要である。 既存の散乱補正および密度再構成法は、多くのアプリケーションで必要とされる高い精度を提供しておらず、非モデル化または異常な散乱やその他の実験的な成果物の存在下で分解することができる。 機械学習モデルの導入は、特に動的イメージングにおいて、密度場の時間進化を偏微分方程式や流体力学シミュレーションから学ぶことによって捉えることができる正確な密度再構成に有用である。 本研究では,ノイズを不完全に特徴付ける雑音密度再構成法において,学習した深層ニューラルネットワークがアーティファクト除去を行う能力を示す。 我々はwasserstein generative adversarial network (wgan) を用いて,従来の再構成アルゴリズムから得られた密度のアーティファクトを除去するデノイザーとして,ジェネレータが機能する。 我々は,大規模時系列データセットからネットワークをトレーニングし,実験でノイズを模倣するパラメトリックなランダム分布に従って雑音をシミュレートする。 WGANは、発電機出力をシミュレーションからクリーン密度(時系列)の分布と一致するように、ノイズ密度フレームをジェネレータ入力として訓練する。 トレーニングには教師付き損失も含まれており、それによって密度回復性能が向上する。 さらに,ネットワークトレーニングにおける質量保存などの物理に基づく制約を適用し,高精度な密度再構成を実現する。 予備的な数値結果から,我々のフレームワークで訓練したモデルは,密度時系列データにおいて未知のノイズのかなりの部分を除去できることがわかった。

Object density reconstruction from projections containing scattered radiation and noise is of critical importance in many applications. Existing scatter correction and density reconstruction methods may not provide the high accuracy needed in many applications and can break down in the presence of unmodeled or anomalous scatter and other experimental artifacts. Incorporating machine-learned models could prove beneficial for accurate density reconstruction particularly in dynamic imaging, where the time-evolution of the density fields could be captured by partial differential equations or by learning from hydrodynamics simulations. In this work, we demonstrate the ability of learned deep neural networks to perform artifact removal in noisy density reconstructions, where the noise is imperfectly characterized. We use a Wasserstein generative adversarial network (WGAN), where the generator serves as a denoiser that removes artifacts in densities obtained from traditional reconstruction algorithms. We train the networks from large density time-series datasets, with noise simulated according to parametric random distributions that may mimic noise in experiments. The WGAN is trained with noisy density frames as generator inputs, to match the generator outputs to the distribution of clean densities (time-series) from simulations. A supervised loss is also included in the training, which leads to improved density restoration performance. In addition, we employ physics-based constraints such as mass conservation during network training and application to further enable highly accurate density reconstructions. Our preliminary numerical results show that the models trained in our frameworks can remove significant portions of unknown noise in density time-series data.
翻訳日:2021-11-01 15:05:51 公開日:2021-10-28
# HD-cos Networks: セキュアなマルチパーティ計算のための効率的なニューラルネットワーク

HD-cos Networks: Efficient Neural Architectures for Secure Multi-Party Computation ( http://arxiv.org/abs/2110.15440v1 )

ライセンス: Link先を確認
Wittawat Jitkrittum, Michal Lukasik, Ananda Theertha Suresh, Felix Yu, Gang Wang(参考訳) マルチパーティ計算 (multi-party computation, mpc) は暗号学の一分野であり、複数の非コレーディングパーティが関数をセキュアに計算するためのよく設計されたプロトコルを実行する。 非解決パーティの仮定により、MPCは、当事者が計算プロセスから機密情報を学習しないことを保証し、プライバシに敏感なユーザーデータを含むアプリケーションにとって魅力的なフレームワークとなる。 本稿では,MPC設定下でのニューラルネットワークのトレーニングと推論について検討する。 reluアクティベーション関数やマトリックスベクトル乗算といったニューラルネットワークの基本的な操作は、マルチパーティ通信のオーバーヘッドの増加によって計算に非常に費用がかかるため、これは難しい。 これに対処するために,我々はhd-cosネットワークを提案する。 1)活性化機能としてのコサイン 2) アダマール対角変換は非構造線型変換を置き換える。 いずれの手法も,mpc 環境下での強力な理論的動機付けと効率的な計算を享受できることを示す。 hd-cosがより高価なベースラインの品質に合致する、複数のパブリックデータセットで実証する。

Multi-party computation (MPC) is a branch of cryptography where multiple non-colluding parties execute a well designed protocol to securely compute a function. With the non-colluding party assumption, MPC has a cryptographic guarantee that the parties will not learn sensitive information from the computation process, making it an appealing framework for applications that involve privacy-sensitive user data. In this paper, we study training and inference of neural networks under the MPC setup. This is challenging because the elementary operations of neural networks such as the ReLU activation function and matrix-vector multiplications are very expensive to compute due to the added multi-party communication overhead. To address this, we propose the HD-cos network that uses 1) cosine as activation function, 2) the Hadamard-Diagonal transformation to replace the unstructured linear transformations. We show that both of the approaches enjoy strong theoretical motivations and efficient computation under the MPC setup. We demonstrate on multiple public datasets that HD-cos matches the quality of the more expensive baselines.
翻訳日:2021-11-01 15:05:26 公開日:2021-10-28
# 医学論文のコーパスから有意義な洞察を得るためのテキスト分析の利用

Using Text Analytics for Health to Get Meaningful Insights from a Corpus of COVID Scientific Papers ( http://arxiv.org/abs/2110.15453v1 )

ライセンス: Link先を確認
Dmitry Soshnikov and Vickie Soshnikova(参考訳) 新型コロナウイルスのパンデミックの開始以来、約70万件の科学論文が公表されている。 人間の研究者は、このような巨大なテキストコーパスを知ることは不可能であり、そのため、このコーパスをナビゲートし、そこから有用な洞察を得るのに役立つAIベースのツールを開発する必要がある。 本稿では,学術論文からいくつかの知識を抽出し,洞察を得て,研究者が有意義な方法で論文コレクションをナビゲートするツールを構築するために,Text Analytics for Healthとクラウドツールを併用する。

Since the beginning of COVID pandemic, there have been around 700000 scientific papers published on the subject. A human researcher cannot possibly get acquainted with such a huge text corpus -- and therefore developing AI-based tools to help navigating this corpus and deriving some useful insights from it is highly needed. In this paper, we will use Text Analytics for Health pre-trained service together with some cloud tools to extract some knowledge from scientific papers, gain insights, and build a tool to help researcher navigate the paper collection in a meaningful way.
翻訳日:2021-11-01 14:41:18 公開日:2021-10-28
# 任意分解能ステレオのためのニューラルディファリティリファインメント

Neural Disparity Refinement for Arbitrary Resolution Stereo ( http://arxiv.org/abs/2110.15367v1 )

ライセンス: Link先を確認
Filippo Aleotti, Fabio Tosi, Pierluigi Zama Ramirez, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) 携帯電話などの安価で広範な消費者デバイスへの3Dコンピュータビジョンの展開を容易にすることを目的とした,ニューラルディファリティ改善のための新しいアーキテクチャを提案する。 我々のアプローチは任意の出力解像度で洗練された不均一写像を推定できる連続的な定式化に依存している。 これにより、現在の携帯電話の典型的なアンバランスカメラの設定を効果的に処理することができ、同じデバイス内に高解像度と低解像度のrgbセンサーを搭載している。 さらに、ニューラルネットワークは様々なステレオ手法の出力をシームレスに処理することができ、SGMのような従来のマッチングアルゴリズムによって計算される不均一マップを精細化することにより、最先端のステレオモデルと比較してゼロショット一般化性能を損なうことができる。

We introduce a novel architecture for neural disparity refinement aimed at facilitating deployment of 3D computer vision on cheap and widespread consumer devices, such as mobile phones. Our approach relies on a continuous formulation that enables to estimate a refined disparity map at any arbitrary output resolution. Thereby, it can handle effectively the unbalanced camera setup typical of nowadays mobile phones, which feature both high and low resolution RGB sensors within the same device. Moreover, our neural network can process seamlessly the output of a variety of stereo methods and, by refining the disparity maps computed by a traditional matching algorithm like SGM, it can achieve unpaired zero-shot generalization performance compared to state-of-the-art end-to-end stereo models.
翻訳日:2021-11-01 14:34:32 公開日:2021-10-28
# GPRデータからAs-Built BIMへの残響情報の自動翻訳:ディープラーニングによるアプローチ

Automated Translation of Rebar Information from GPR Data into As-Built BIM: A Deep Learning-based Approach ( http://arxiv.org/abs/2110.15448v1 )

ライセンス: Link先を確認
Zhongming Xiang, Ge Ou, Abbas Rashidi(参考訳) 建設業界ではビル情報モデリング(BIM)がますます使われているが、既存の研究は組み込まれたリバーを無視していることが多い。 地中貫入レーダ(GPR)は、表面要素とリバーを備えたBIMを開発するための潜在的なソリューションを提供する。 しかしながら、GPRがスキャンされた要素に関する情報を一切提供できないため、GPRからBIMへの自動翻訳は困難である。 そこで我々は,Faster R-CNNによるGPRデータとBIMをリンクする手法を提案する。 gprがスキャンした各要素にラベルを付けてラベル付き画像をキャプチャし、他の画像とともに3dモデルを構築する。 一方、ラベルを識別するためにより高速なR-CNNを導入し、画像とモデルの間の投影関係を利用してスキャンした要素を3Dモデルにローカライズする。 提案手法を評価するために2つのコンクリート構造物を選定し, 本手法により, GPRデータからBIMの対応する要素への正確な変換が可能となった。

Building Information Modeling (BIM) is increasingly used in the construction industry, but existing studies often ignore embedded rebars. Ground Penetrating Radar (GPR) provides a potential solution to develop as-built BIM with surface elements and rebars. However, automatically translating rebars from GPR into BIM is challenging since GPR cannot provide any information about the scanned element. Thus, we propose an approach to link GPR data and BIM according to Faster R-CNN. A label is attached to each element scanned by GPR for capturing the labeled images, which are used with other images to build a 3D model. Meanwhile, Faster R-CNN is introduced to identify the labels, and the projection relationship between images and the model is used to localize the scanned elements in the 3D model. Two concrete buildings is selected to evaluate the proposed approach, and the results reveal that our method could accurately translate the rebars from GPR data into corresponding elements in BIM with correct distributions.
翻訳日:2021-11-01 14:34:16 公開日:2021-10-28
# 指数族分布学習のための計算効率の良い方法

A Computationally Efficient Method for Learning Exponential Family Distributions ( http://arxiv.org/abs/2110.15397v1 )

ライセンス: Link先を確認
Abhin Shah, Devavrat Shah, Gregory W. Wornell(参考訳) 我々は,i.i.d.サンプルからk$パラメータ最小指数関数ファミリの自然パラメータを計算的かつ統計的に効率的な方法で学習する問題を考える。 我々は、サポートと自然なパラメータが適切に境界付けられた設定に焦点を当てる。 この指数関数族に対する従来の最大確率推定器は一貫性があり、漸近的に正規であり、漸近的に効率が良いが、計算学的に難しい。 本研究では,温和な条件下で漸近的に正常な計算効率の高い推定器を提案する。 我々は、サンプル複雑性$O(\mathrm{poly}(k/\alpha))$と計算複雑性${O}(\mathrm{poly}(k/\alpha))$でパラメータ推定において$\alpha$の$\ell_2$)誤差を達成するための有限サンプル保証を提供する。 これらの結果を確立するために,本手法は,個体群レベルでは,同じ指数関数族に属する再パラメータ分布の最大推定値と見なすことができることを示した。

We consider the question of learning the natural parameters of a $k$ parameter minimal exponential family from i.i.d. samples in a computationally and statistically efficient manner. We focus on the setting where the support as well as the natural parameters are appropriately bounded. While the traditional maximum likelihood estimator for this class of exponential family is consistent, asymptotically normal, and asymptotically efficient, evaluating it is computationally hard. In this work, we propose a computationally efficient estimator that is consistent as well as asymptotically normal under mild conditions. We provide finite sample guarantees to achieve an ($\ell_2$) error of $\alpha$ in the parameter estimation with sample complexity $O(\mathrm{poly}(k/\alpha))$ and computational complexity ${O}(\mathrm{poly}(k/\alpha))$. To establish these results, we show that, at the population level, our method can be viewed as the maximum likelihood estimation of a re-parameterized distribution belonging to the same class of exponential family.
翻訳日:2021-11-01 14:30:06 公開日:2021-10-28
# InfoGCL:情報対応グラフコントラスト学習

InfoGCL: Information-Aware Graph Contrastive Learning ( http://arxiv.org/abs/2110.15438v1 )

ライセンス: Link先を確認
Dongkuan Xu, Wei Cheng, Dongsheng Luo, Haifeng Chen, Xiang Zhang(参考訳) 近年,グラフデータセット上での学習タスクの性能向上のために,様々なグラフコントラスト学習モデルが提案されている。 効果的で普及しているが、これらのモデルは通常慎重にカスタマイズされる。 特に、最近のすべての研究は2つの対照的な見解を生み出しているが、ビュー拡張、アーキテクチャ、目的において大きく異なる。 特定のグラフ学習タスクやデータセットをスクラッチからグラフコントラスト学習モデルを構築するには、依然としてオープンな疑問である。 本研究では,コントラスト学習過程におけるグラフ情報の変換と変換の方法と,InfoGCLと呼ばれる情報対応グラフコントラスト学習フレームワークを提案することによって,このギャップを埋めることを目的とする。 グラフ表現学習における情報損失を最小限に抑えるため、各モジュールのレベルとフレームワーク全体の双方でタスク関連情報を維持しつつ、コントラスト部分間の相互情報を減少させるインフォメーション・ボトルネックの原則に従うことが鍵となる。 我々は,最近のグラフコントラスト学習手法をフレームワークによって統一できることを初めて示す。 我々は,ノード分類とグラフ分類のベンチマークデータセットの理論的解析を実証的に検証し,アルゴリズムが最先端のアルゴリズムよりも優れていることを示す。

Various graph contrastive learning models have been proposed to improve the performance of learning tasks on graph datasets in recent years. While effective and prevalent, these models are usually carefully customized. In particular, although all recent researches create two contrastive views, they differ greatly in view augmentations, architectures, and objectives. It remains an open question how to build your graph contrastive learning model from scratch for particular graph learning tasks and datasets. In this work, we aim to fill this gap by studying how graph information is transformed and transferred during the contrastive learning process and proposing an information-aware graph contrastive learning framework called InfoGCL. The key point of this framework is to follow the Information Bottleneck principle to reduce the mutual information between contrastive parts while keeping task-relevant information intact at both the levels of the individual module and the entire framework so that the information loss during graph representation learning can be minimized. We show for the first time that all recent graph contrastive learning methods can be unified by our framework. We empirically validate our theoretical analysis on both node and graph classification benchmark datasets, and demonstrate that our algorithm significantly outperforms the state-of-the-arts.
翻訳日:2021-11-01 14:29:45 公開日:2021-10-28
# 公平性基準に基づく選択的回帰

Selective Regression Under Fairness Criteria ( http://arxiv.org/abs/2110.15403v1 )

ライセンス: Link先を確認
Abhin Shah, Yuheng Bu, Joshua Ka-Wing Lee, Subhro Das, Rameswar Panda, Prasanna Sattigeri, Gregory W. Wornell(参考訳) 正確な予測を行う自信が不十分であれば、選択的回帰は予測を回避できる。 一般に、拒絶オプションを許すことで、回帰モデルの性能はカバレッジを減少させるコスト(つまりより少ないサンプルを予測することによって)で向上することを期待する。 しかし、この研究で示されているように、一部のケースでは、カバー範囲を減らしながら少数群の性能が低下し、選択回帰は異なる感度群間の格差を増大させることができる。 十分性基準を満たす特徴を構築でき、平均予測と関連する不確実性が全てのグループにわたって校正されるようにすれば、このような望ましくない行動は避けられることを示す。 さらに,グループ間の性能の格差を緩和するために,このキャリブレーション基準に基づくアプローチを2つ紹介する。 (a) ガウス的前提の下で条件付き相互情報の上限を規則化し、 (b) 平均及び不確実性予測に対する対照的な損失を規則化する。 これらの手法の有効性は、合成および実世界のデータセット上で実証される。

Selective regression allows abstention from prediction if the confidence to make an accurate prediction is not sufficient. In general, by allowing a reject option, one expects the performance of a regression model to increase at the cost of reducing coverage (i.e., by predicting fewer samples). However, as shown in this work, in some cases, the performance of minority group can decrease while we reduce the coverage, and thus selective regression can magnify disparities between different sensitive groups. We show that such an unwanted behavior can be avoided if we can construct features satisfying the sufficiency criterion, so that the mean prediction and the associated uncertainty are calibrated across all the groups. Further, to mitigate the disparity in the performance across groups, we introduce two approaches based on this calibration criterion: (a) by regularizing an upper bound of conditional mutual information under a Gaussian assumption and (b) by regularizing a contrastive loss for mean and uncertainty prediction. The effectiveness of these approaches are demonstrated on synthetic as well as real-world datasets.
翻訳日:2021-11-01 14:24:32 公開日:2021-10-28
# VigDet:ソーシャルメディア上でのコーディネーション検出のための知識インフォームドニューラルテンポラルポイントプロセス

VigDet: Knowledge Informed Neural Temporal Point Process for Coordination Detection on Social Media ( http://arxiv.org/abs/2110.15454v1 )

ライセンス: Link先を確認
Yizhou Zhang, Karishma Sharma, Yan Liu(参考訳) 近年、ソーシャルメディア上でのコーディネートアカウントの利用が増加し、世論に影響を及ぼし社会的成果を操作する偽情報キャンペーンによって運営されている。 その結果,ソーシャルメディア上の誤情報に対処する効果的なグループ検出手法を開発する必要がある。 しかし、既存の作品は、調整の事前定義された署名に極度の依存による限られたパフォーマンス、あるいは、有用な事前ドメイン知識を持つソーシャルメディア上の会計活動の自然な分散に対処できないなど、様々な欠点に悩まされている。 そこで,本稿では,時間論理や事前定義されたフィルタリング関数といった事前知識を用いて,ニューラル時間点過程を組み込んだ協調検出フレームワークを提案する。 具体的には,ソーシャル・メディアから得られた観測データをニューラル・テンポラリ・ポイント・プロセスでモデル化する際に,(1)アカウント埋め込み空間と(2)事前知識との整合性に基づいて,グループ割り当てのgibbs的分布を協調的に学習する。 分布を効率よく計算し、サンプル化することの難しさに対処するために、平均場近似を学習するための理論的に保証された変分推論アプローチを設計する。 実世界のデータセットにおける実験結果は,教師なし設定と半教師なし設定の両方において,提案手法の有効性を示す。 当社のモデルは、COVID-19 Vaccine Tweetsデータセットにも適用しています。 検出結果は、新型コロナウイルスワクチンに関する誤った情報を拡散する不審な協力的な取り組みの存在を示唆している。

Recent years have witnessed an increasing use of coordinated accounts on social media, operated by misinformation campaigns to influence public opinion and manipulate social outcomes. Consequently, there is an urgent need to develop an effective methodology for coordinated group detection to combat the misinformation on social media. However, existing works suffer from various drawbacks, such as, either limited performance due to extreme reliance on predefined signatures of coordination, or instead an inability to address the natural sparsity of account activities on social media with useful prior domain knowledge. Therefore, in this paper, we propose a coordination detection framework incorporating neural temporal point process with prior knowledge such as temporal logic or pre-defined filtering functions. Specifically, when modeling the observed data from social media with neural temporal point process, we jointly learn a Gibbs-like distribution of group assignment based on how consistent an assignment is to (1) the account embedding space and (2) the prior knowledge. To address the challenge that the distribution is hard to be efficiently computed and sampled from, we design a theoretically guaranteed variational inference approach to learn a mean-field approximation for it. Experimental results on a real-world dataset show the effectiveness of our proposed method compared to the SOTA model in both unsupervised and semi-supervised settings. We further apply our model on a COVID-19 Vaccine Tweets dataset. The detection result suggests the presence of suspicious coordinated efforts on spreading misinformation about COVID-19 vaccines.
翻訳日:2021-11-01 14:17:28 公開日:2021-10-28
# 好奇心をそそる理由は? オープンドメイン質問のコーパスの分析

What makes us curious? analysis of a corpus of open-domain questions ( http://arxiv.org/abs/2110.15409v1 )

ライセンス: Link先を確認
Zhaozhen Xu, Amelia Howarth, Nicole Briggs, Nello Cristianini(参考訳) 毎日、スマートデバイスやオンラインフォーラムを通じて短い質問をして、あらゆる種類の質問に対する答えを求めます。 収集された質問の数が増えると、各質問に対する回答の提供が難しくなるため、自動質問応答への関心が高まっている理由の1つである。 一部の質問は、既に答えられた既存の質問と似ており、他の質問はウィキペディアのような外部の知識ソースによって答えられる。 重要な質問は、大量の質問を分析して何を明らかにするかである。 2017年、ブリストルの"we the curious"科学センターはブリストル市民の好奇心を捉えるプロジェクトを開始した。 コレクション中にルールが与えられていないため、質問は本当にオープンドメインであり、さまざまなトピックにまたがっている。 科学センターの重要な目的の1つは、訪問者が科学、特に社会問題や文化問題にどのような関心を抱いていたかを理解することだった。 我々は,質問の同値性の検出,話題と型の検出,質問への回答など,さまざまな処理タスクの実行に使用できる人工知能ツールを開発することで,この問題に対処した。 ジェネラリスト”ツールの開発に注力する中で、さまざまなデータセットのラベル付きデータを使ってトレーニングしました。 結果のモデルをQBERTと呼びました。 本稿では,オープンドメイン質問のwtcコーパスの自動分析から抽出した情報について述べる。

Every day people ask short questions through smart devices or online forums to seek answers to all kinds of queries. With the increasing number of questions collected it becomes difficult to provide answers to each of them, which is one of the reasons behind the growing interest in automated question answering. Some questions are similar to existing ones that have already been answered, while others could be answered by an external knowledge source such as Wikipedia. An important question is what can be revealed by analysing a large set of questions. In 2017, "We the Curious" science centre in Bristol started a project to capture the curiosity of Bristolians: the project collected more than 10,000 questions on various topics. As no rules were given during collection, the questions are truly open-domain, and ranged across a variety of topics. One important aim for the science centre was to understand what concerns its visitors had beyond science, particularly on societal and cultural issues. We addressed this question by developing an Artificial Intelligence tool that can be used to perform various processing tasks: detection of equivalence between questions; detection of topic and type; and answering of the question. As we focused on the creation of a "generalist" tool, we trained it with labelled data from different datasets. We called the resulting model QBERT. This paper describes what information we extracted from the automated analysis of the WTC corpus of open-domain questions.
翻訳日:2021-11-01 13:43:21 公開日:2021-10-28
# RadBERT-CL:放射線医学レポート分類のための相互対応型コントラスト学習

RadBERT-CL: Factually-Aware Contrastive Learning For Radiology Report Classification ( http://arxiv.org/abs/2110.15426v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Liyan Tang, Meheli Ghosh, Justin Rousseau, Yifan Peng, Ying Ding(参考訳) 放射線学報告は非構造化されており、臨床事実や否定的または不確実な声明を含む放射線医によって転写された画像所見とそれに対応する診断を含んでいる。 病理所見の抽出と放射線検査からの診断は, 品質管理, 人口健康, 疾患進展のモニタリングに重要である。 既存の研究は、主にルールベースのシステムやトランスフォーマーベースの事前訓練されたモデル微調整に頼っているが、事実や不確実な情報を考慮に入れることができず、したがって偽陽性の出力を生成する。 本研究では,コントラスト学習のための強化を生成しつつ,事実情報と批判情報を保持できる3つの巧妙な拡張手法を提案する。 RadBERT-CLを導入し,これら情報をBlueBertに注入する。 mimic-cxr実験により,マルチクラスマルチラベルレポート分類におけるradbert-clの微調整性能が向上した。 ラベル付きデータが少ない場合、RadBERT-CLは従来のSOTA変換器(BERT/BlueBert)よりもはるかに大きなマージン(6-11%)で性能を向上する。 また,RadBERT-CLが学習した表現は,潜伏空間において重要な医療情報を捉えることができることを示す。

Radiology reports are unstructured and contain the imaging findings and corresponding diagnoses transcribed by radiologists which include clinical facts and negated and/or uncertain statements. Extracting pathologic findings and diagnoses from radiology reports is important for quality control, population health, and monitoring of disease progress. Existing works, primarily rely either on rule-based systems or transformer-based pre-trained model fine-tuning, but could not take the factual and uncertain information into consideration, and therefore generate false-positive outputs. In this work, we introduce three sedulous augmentation techniques which retain factual and critical information while generating augmentations for contrastive learning. We introduce RadBERT-CL, which fuses these information into BlueBert via a self-supervised contrastive loss. Our experiments on MIMIC-CXR show superior performance of RadBERT-CL on fine-tuning for multi-class, multi-label report classification. We illustrate that when few labeled data are available, RadBERT-CL outperforms conventional SOTA transformers (BERT/BlueBert) by significantly larger margins (6-11%). We also show that the representations learned by RadBERT-CL can capture critical medical information in the latent space.
翻訳日:2021-11-01 13:38:55 公開日:2021-10-28
# ユニバーサル決定モデル

Universal Decision Models ( http://arxiv.org/abs/2110.15431v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 人間は普遍的な意思決定者であり、我々は世界を慎重に理解し、商業、ゲーム、戦争で優位に立つために競争的に行動し、試行錯誤を通じてより良い決定を下すことができる。 本稿では,圏論に基づく数学的形式論であるユニバーサル決定モデル(UDM)を提案する。 udmの意思決定オブジェクトは、決定タスクのインスタンスに対応しており、マルコフ決定プロセスや予測状態表現のような因果モデルや動的システムから、ネットワークマルチプレイヤーゲームやウィッツェンハウゼンの固有モデルまで、これら全ての以前の形式を一般化している。 UDMは、決定対象、観察対象、解決対象を含むオブジェクトのカテゴリである。 Bisimulation morphism は構造保存抽象化をキャプチャする決定オブジェクト間をマッピングする。 我々は、情報統合、決定可解性、階層的抽象化を含むUDMの普遍的性質を定式化する。 本稿では,UDMの普遍的函手表現について述べるとともに,代数的トポロジーを用いたUDMにおける最小オブジェクトの計算アルゴリズムを提案する。 我々は,ネットワーク経済学における因果推論へのudmの応用を,複雑なマルチプレイヤープロデューサ・コンシューマー・ツーサイド・マーケットプレースを用いてスケッチする。

Humans are universal decision makers: we reason causally to understand the world; we act competitively to gain advantage in commerce, games, and war; and we are able to learn to make better decisions through trial and error. In this paper, we propose Universal Decision Model (UDM), a mathematical formalism based on category theory. Decision objects in a UDM correspond to instances of decision tasks, ranging from causal models and dynamical systems such as Markov decision processes and predictive state representations, to network multiplayer games and Witsenhausen's intrinsic models, which generalizes all these previous formalisms. A UDM is a category of objects, which include decision objects, observation objects, and solution objects. Bisimulation morphisms map between decision objects that capture structure-preserving abstractions. We formulate universal properties of UDMs, including information integration, decision solvability, and hierarchical abstraction. We describe universal functorial representations of UDMs, and propose an algorithm for computing the minimal object in a UDM using algebraic topology. We sketch out an application of UDMs to causal inference in network economics, using a complex multiplayer producer-consumer two-sided marketplace.
翻訳日:2021-11-01 13:37:48 公開日:2021-10-28
# (参考訳) テンソルネットワークを用いたラデマチャーランダム射影 [全文訳有]

Rademacher Random Projections with Tensor Networks ( http://arxiv.org/abs/2110.13970v2 )

ライセンス: CC BY 4.0
Beheshteh T. Rakhshan and Guillaume Rabusseau(参考訳) ランダム・プロジェクション(RP)は、最近、超高次元テンソルの次元を縮小する能力のために、機械学習コミュニティで人気のテクニックとして登場した。 29] の作業に続いて, コアテンソルの各要素がラデマッハ分布から引き出されるテンソルトレイン(TT)分解に依存するテンソル化ランダム射影を考える。 我々の理論は、[29] の圧縮フォルミンTT形式で表されるガウスの低ランクテンソルを、同じ埋め込みサイズでラデマッハ分布から引き出されたコア要素を持つTTテンソルに置き換えることができることを示した。 合成データの実験により、テンソル化ラデマッハrpは[29]で研究されたテンソル化ガウスrpよりも優れることが示された。 さらに, 行列積作用素 (mpo) のテンソル化 rp が[5] で提案されている大きな行列上でのsvd は, ジョンソン・リンデンシュトラウス変換 (jlt) ではなく, 適当なランダム射影写像ではないことを理論的に実験的に示す。

Random projection (RP) have recently emerged as popular techniques in themachine learning community for their ability in reducing the dimension of veryhigh-dimensional tensors. Following the work in [29], we consider a tensorizedrandom projection relying on Tensor Train (TT) decomposition where each elementof the core tensors is drawn from a Rademacher distribution. Our theoreticalresults reveal that the Gaussian low-rank tensor represented in compressed formin TT format in [29] can be replaced by a TT tensor with core elements drawnfrom a Rademacher distribution with the same embedding size. Experiments onsynthetic data demonstrate that tensorized Rademacher RP can outperform thetensorized Gaussian RP studied in [29]. In addition, we show both theoreticallyand experimentally, that the tensorized RP in the Matrix Product Operator (MPO)format proposed in [5] for performing SVD on large matrices is not a Johnson-Lindenstraus s transform (JLT) and therefore not a well-suited random projectionmap
翻訳日:2021-10-31 12:18:04 公開日:2021-10-28
# (参考訳) eigencurve:歪ヘッシアンスペクトルを持つ二次目的に対するsgdの最適学習率スケジュール

Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic Objectives with Skewed Hessian Spectrums ( http://arxiv.org/abs/2110.14109v2 )

ライセンス: CC BY 4.0
Rui Pan, Haishan Ye, Tong Zhang(参考訳) 学習速度スケジューラはディープニューラルネットワークのトレーニングに広く採用されている。 その実践的重要性にもかかわらず、その実践と理論分析の間には相違点がある。 例えば、二次目的の最適化のような単純な問題であっても、sgdのスケジュールが最良の収束を達成するかは分かっていない。 これまでのところ、ステップ減衰はこの設定下で最も強力な候補の1つであり、$\mathcal{o}(\log t)$ gap とほぼ最適であることが証明されている。 しかし、我々の分析によれば、このギャップは幅広い設定で$\omega(\log t)$であることが判明し、スケジュールの最適性の問題が再びオープン質問になってしまう。 そこで本稿では,2次対象に対するsgdの最適収束率(定数まで)を最小化できる最初の学習率スケジュールであるeigencurveを提案する。 その状態は実際は非常に一般的です。 実験の結果,特にエポック数が少ない場合には,CIFAR-10上の画像分類タスクにおいて,Eigencurveはステップ崩壊を著しく上回ることがわかった。 さらに、この理論はEigencurveを近似できる実用的な応用のための2つの単純な学習率スケジューラを刺激する。 いくつかの問題に対して、提案されたスケジューラの最適形状はコサイン崩壊の形状に似ており、コサイン崩壊の成功に光を当てている。 他の状況では、提案したスケジューラはコサイン崩壊よりも優れている。

Learning rate schedulers have been widely adopted in training deep neural networks. Despite their practical importance, there is a discrepancy between its practice and its theoretical analysis. For instance, it is not known what schedules of SGD achieve best convergence, even for simple problems such as optimizing quadratic objectives. So far, step decay has been one of the strongest candidates under this setup, which is proved to be nearly optimal with a $\mathcal{O}(\log T)$ gap. However, according to our analysis, this gap turns out to be $\Omega(\log T)$ in a wide range of settings, which throws the schedule optimality problem into an open question again. Towards answering this reopened question, in this paper, we propose Eigencurve, the first family of learning rate schedules that can achieve minimax optimal convergence rates (up to a constant) for SGD on quadratic objectives when the eigenvalue distribution of the underlying Hessian matrix is skewed. The condition is quite common in practice. Experimental results show that Eigencurve can significantly outperform step decay in image classification tasks on CIFAR-10, especially when the number of epochs is small. Moreover, the theory inspires two simple learning rate schedulers for practical applications that can approximate Eigencurve. For some problems, the optimal shape of the proposed schedulers resembles that of cosine decay, which sheds light to the success of cosine decay for such situations. For other situations, the proposed schedulers are superior to cosine decay.
翻訳日:2021-10-31 09:29:33 公開日:2021-10-28
# (参考訳) ゲージ同変射影核によるリーマン多様体上のベクトル値ガウス過程 [全文訳有]

Vector-valued Gaussian Processes on Riemannian Manifolds via Gauge Equivariant Projected Kernels ( http://arxiv.org/abs/2110.14423v2 )

ライセンス: CC BY 4.0
Michael Hutchinson, Alexander Terenin, Viacheslav Borovitskiy, So Takao, Yee Whye Teh, Marc Peter Deisenroth(参考訳) ガウス過程は未知の関数を不確実性を表す方法で学習し、最適な意思決定システムの構築を容易にする機械学習モデルである。 科学の新たな領域にガウス過程を展開したいという願望によって、急速に成長する研究のラインは、球面やトーラスのようなリーマン多様体を含む非ユークリッド領域を扱うためにこれらのモデルを建設的に拡張することに焦点を当てている。 このクラスをリーマン多様体上のベクトル場をモデル化するために一般化する手法を提案する。 そこで本稿では,ガウスベクトル場,すなわちスカラー値リーマン核から幾何学と整合するベクトル値ガウス過程を誘導するゲージ同変核の構成法を提案する。 我々は,変分推論などの標準ガウスプロセストレーニング手法を,この設定に拡張する。 これにより、リーマン多様体上のベクトル値ガウス過程を標準手法で訓練することができ、機械学習の実践者が利用できる。

Gaussian processes are machine learning models capable of learning unknown functions in a way that represents uncertainty, thereby facilitating construction of optimal decision-making systems. Motivated by a desire to deploy Gaussian processes in novel areas of science, a rapidly-growing line of research has focused on constructively extending these models to handle non-Euclidean domains, including Riemannian manifolds, such as spheres and tori. We propose techniques that generalize this class to model vector fields on Riemannian manifolds, which are important in a number of application areas in the physical sciences. To do so, we present a general recipe for constructing gauge equivariant kernels, which induce Gaussian vector fields, i.e. vector-valued Gaussian processes coherent with geometry, from scalar-valued Riemannian kernels. We extend standard Gaussian process training methods, such as variational inference, to this setting. This enables vector-valued Gaussian processes on Riemannian manifolds to be trained using standard methods and makes them accessible to machine learning practitioners.
翻訳日:2021-10-31 07:41:55 公開日:2021-10-28
# (参考訳) 不確かさ誘導型ソフトアップデートによる時間差値推定 [全文訳有]

Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates ( http://arxiv.org/abs/2110.14818v1 )

ライセンス: CC BY 4.0
Litian Liang, Yaosheng Xu, Stephen McAleer, Dailin Hu, Alexander Ihler, Pieter Abbeel, Roy Fox(参考訳) 時間変化(td)学習法(q-learning)は、制御タスクを実行するポリシーの学習に有効であることが証明されている。 Q-Learningのような手法の1つの問題は、値更新が不慣れな状態のTDターゲットを予測するときにバイアスをもたらすことである。 評価ノイズは、政策改善ステップにおける最大演算子の後バイアスとなり、他の状態の値推定に受け継がれ、Q-LearningはQ値を過大評価する。 ソフトqラーニング(sql)のようなアルゴリズムは、トレーニングの初期段階におけるソフトアップデートによる推定バイアスを減らすソフトグリーディポリシの概念を導入している。 しかし、更新の柔らかさを制御する逆温度$\beta$は、通常手設計のヒューリスティックによって設定される。 Entropy Regularized Q-Learning (EQL)は、$\beta$が(状態依存)モデルの不確実性と密接に関連しているという信念の下で、モデルの不確実性を特徴づけるモデルのパラメータの集合を維持することによって、$\beta$の原則的なスケジューリングを導入する。 本稿では,Unbiased Soft Q-Learning (UQL)を提案する。これは,EQLの動作を2つの作用,有限状態空間から多作用,無限状態空間,マルコフ決定過程まで拡張する。 また、最適化プロセス中にsqlから拡張されモデル不確実性を使用する$\beta$の原則付き数値スケジューリングも提供します。 いくつかの個別制御環境における実験において,この更新手法の理論的保証と有効性を示す。

Temporal-Difference (TD) learning methods, such as Q-Learning, have proven effective at learning a policy to perform control tasks. One issue with methods like Q-Learning is that the value update introduces bias when predicting the TD target of a unfamiliar state. Estimation noise becomes a bias after the max operator in the policy improvement step, and carries over to value estimations of other states, causing Q-Learning to overestimate the Q value. Algorithms like Soft Q-Learning (SQL) introduce the notion of a soft-greedy policy, which reduces the estimation bias via soft updates in early stages of training. However, the inverse temperature $\beta$ that controls the softness of an update is usually set by a hand-designed heuristic, which can be inaccurate at capturing the uncertainty in the target estimate. Under the belief that $\beta$ is closely related to the (state dependent) model uncertainty, Entropy Regularized Q-Learning (EQL) further introduces a principled scheduling of $\beta$ by maintaining a collection of the model parameters that characterizes model uncertainty. In this paper, we present Unbiased Soft Q-Learning (UQL), which extends the work of EQL from two action, finite state spaces to multi-action, infinite state space Markov Decision Processes. We also provide a principled numerical scheduling of $\beta$, extended from SQL and using model uncertainty, during the optimization process. We show the theoretical guarantees and the effectiveness of this update method in experiments on several discrete control environments.
翻訳日:2021-10-30 08:37:19 公開日:2021-10-28
# (参考訳) SIM-ECG: マスク駆動ECG分類システム [全文訳有]

SIM-ECG: A Signal Importance Mask-driven ECGClassification System ( http://arxiv.org/abs/2110.14835v1 )

ライセンス: CC BY 4.0
Dharma KC, Chicheng Zhang, Chris Gniady, Parth Sandeep Agarwal, Sushil Sharma(参考訳) 心疾患は1番のキラーであり、心電図は致命的な結果の早期診断と予防を助けることができる。 正確な心電図の解釈は心臓疾患の検出には重要であるが、訓練の欠如や微小な異常の検出に要する時間不足のために誤解されることが多い。 その後、研究者たちは機械学習を使って分析を支援した。 しかし、既存のシステムは熟練したECGリーダーほど正確ではなく、診断を提供するブラックボックスアプローチは、特定の診断において医療従事者による信頼の欠如をもたらす。 これらの課題に対処するために,フィードバックを継続的に受け取り,精度を向上し,その結果の診断を除外する信号重要マスフィードバックに基づく機械学習システムを提案する。 これにより、医療関係者はすぐにアウトプットを視認し、結果を受け入れ、説明と診断を検証したり、誤解の領域を素早く修正したり、改善のためのフィードバックをシステムに与えることができる。 健康および病原性を示すサンプルからなる公開データセットを用いて,本システムを試験した。 f-score や macroauc などの標準性能尺度では,通常のトレーニングベースライン(フィードバックなし)よりもアルゴリズムが優れていることを実証的に示すとともに,モデルがよりよい解釈可能性マップを生成することを示す。

Heart disease is the number one killer, and ECGs can assist in the early diagnosis and prevention of deadly outcomes. Accurate ECG interpretation is critical in detecting heart diseases; however, they are often misinterpreted due to a lack of training or insufficient time spent to detect minute anomalies. Subsequently, researchers turned to machine learning to assist in the analysis. However, existing systems are not as accurate as skilled ECG readers, and black-box approaches to providing diagnosis result in a lack of trust by medical personnel in a given diagnosis. To address these issues, we propose a signal importance mask feedback-based machine learning system that continuously accepts feedback, improves accuracy, and ex-plains the resulting diagnosis. This allows medical personnel to quickly glance at the output and either accept the results, validate the explanation and diagnosis, or quickly correct areas of misinterpretation, giving feedback to the system for improvement. We have tested our system on a publicly available dataset consisting of healthy and disease-indicating samples. We empirically show that our algorithm is better in terms of standard performance measures such as F-score and MacroAUC compared to normal training baseline (without feedback); we also show that our model generates better interpretability maps.
翻訳日:2021-10-30 08:17:16 公開日:2021-10-28
# (参考訳) ダイアログから複数の製品名エンティティを抽出するシーケンスツーシーケンスモデル [全文訳有]

A Sequence to Sequence Model for Extracting Multiple Product Name Entities from Dialog ( http://arxiv.org/abs/2110.14843v1 )

ライセンス: CC BY 4.0
Praneeth Gubbala, Xuan Zhang(参考訳) eコマース音声注文システムは、注文発話から複数の商品名エンティティを認識する必要がある。 Amazon Alexaのような既存の音声注文システムは、単一の製品名エンティティのみをキャプチャできる。 これにより、ユーザーは1つの発話で複数のアイテムを注文することを抑える。 近年では、BERTやGPT-2といった事前訓練された言語モデルは、Super-GLUEのようなNLPベンチマークで有望な結果を示している。 しかし、音声注文発話のあいまいさのため、このMPNER(Multiple Product Name Entity Recognition)タスクに完全には適用できない。 この研究のギャップを埋めるために,最大10項目の発話を認識するエンティティトランスフォーマ(et)ニューラルネットワークアーキテクチャを提案する。 評価では, ベストETモデル(conveRT + ngram + ET)は, 非神経モデルと比較してテストセットで12%向上し, ETではBERTよりも優れていた。 これによって顧客は音声ダイアログでショッピングカートを仕上げることができ、ショッピングの効率とエクスペリエンスが向上する。

E-commerce voice ordering systems need to recognize multiple product name entities from ordering utterances. Existing voice ordering systems such as Amazon Alexa can capture only a single product name entity. This restrains users from ordering multiple items with one utterance. In recent years, pre-trained language models, e.g., BERT and GPT-2, have shown promising results on NLP benchmarks like Super-GLUE. However, they can't perfectly generalize to this Multiple Product Name Entity Recognition (MPNER) task due to the ambiguity in voice ordering utterances. To fill this research gap, we propose Entity Transformer (ET) neural network architectures which recognize up to 10 items in an utterance. In our evaluation, the best ET model (conveRT + ngram + ET) has a performance improvement of 12% on our test set compared to the non-neural model, and outperforms BERT with ET as well. This helps customers finalize their shopping cart via voice dialog, which improves shopping efficiency and experience.
翻訳日:2021-10-30 08:07:40 公開日:2021-10-28
# (参考訳) 弱相関スピン偏極系上の微分可能プログラミングから得られる密度汎関数の一般化可能性 [全文訳有]

Generalizability of density functionals learned from differentiable programming on weakly correlated spin-polarized systems ( http://arxiv.org/abs/2110.14846v1 )

ライセンス: CC BY 4.0
Bhupalee Kalita, Ryan Pederson, Li Li, Kieron Burke(参考訳) Kohn-Sham regularizer (KSR) は、微分可能なKohn-Sham密度汎関数理論フレームワーク内で、物理インフォームド交換相関関数を最適化する機械学習手法である。 原子系のトレーニングと平衡分子のテストにより, ksrの一般化性を評価する。 交換相関関数に対する局所的,半局所的,非局所的近似を用いたスピン偏極型KSRを提案する。 半局所近似からの一般化誤差は他の微分可能なアプローチに匹敵する。 我々の非局所関数は、テストシステムの基底状態エネルギーを平均絶対誤差2.7ミリ-ハーツリーで予測することで、既存の機械学習機能より優れている。

Kohn-Sham regularizer (KSR) is a machine learning approach that optimizes a physics-informed exchange-correlation functional within a differentiable Kohn-Sham density functional theory framework. We evaluate the generalizability of KSR by training on atomic systems and testing on molecules at equilibrium. We propose a spin-polarized version of KSR with local, semilocal, and nonlocal approximations for the exchange-correlation functional. The generalization error from our semilocal approximation is comparable to other differentiable approaches. Our nonlocal functional outperforms any existing machine learning functionals by predicting the ground-state energies of the test systems with a mean absolute error of 2.7 milli-Hartrees.
翻訳日:2021-10-30 08:04:18 公開日:2021-10-28
# (参考訳) プルーニング深層ニューラルネットワークにおけるオペレータ理論の展望 [全文訳有]

An Operator Theoretic Perspective on Pruning Deep Neural Networks ( http://arxiv.org/abs/2110.14856v1 )

ライセンス: CC BY 4.0
William T. Redman, Maria Fonoberova, Ryan Mohr, Ioannis G. Kevrekidis, Igor Mezic(参考訳) 完全なモデルと同様に実行できるスパースサブネットワークの発見は、広く応用され、理論的な関心を集めている。 この目的のために多くのプルーニング法が開発されているが、その大きさに基づいてパラメータを除去する「経験的」アプローチは、より複雑で最先端のアルゴリズムと同じくらい堅牢であることがわかった。 マグニチュード・プルーニングの成功の背後にある理論の欠如、特にプレコンバージェンス、およびグラデーション・ベースのプルーニングのような他のプルーニング法との関係は、対処する必要のある分野における未解決の問題である。 我々は、動的システム理論、すなわちクープマン作用素理論の最近の進歩を利用して、理論上動機付けられたプルーニングアルゴリズムの新しいクラスを定義する。 これらのアルゴリズムは, 等級と勾配に基づくプルーニングと等価であり, 異なるように見える手法を統一し, 早期訓練におけるプルーニングの性能を照らすのに有効であることを示す。

The discovery of sparse subnetworks that are able to perform as well as full models has found broad applied and theoretical interest. While many pruning methods have been developed to this end, the na\"ive approach of removing parameters based on their magnitude has been found to be as robust as more complex, state-of-the-art algorithms. The lack of theory behind magnitude pruning's success, especially pre-convergence, and its relation to other pruning methods, such as gradient based pruning, are outstanding open questions in the field that are in need of being addressed. We make use of recent advances in dynamical systems theory, namely Koopman operator theory, to define a new class of theoretically motivated pruning algorithms. We show that these algorithms can be equivalent to magnitude and gradient based pruning, unifying these seemingly disparate methods, and that they can be used to shed light on magnitude pruning's performance during early training.
翻訳日:2021-10-30 07:52:22 公開日:2021-10-28
# (参考訳) 群衆における異常事象検出のための視聴覚表現学習 [全文訳有]

Audio-visual Representation Learning for Anomaly Events Detection in Crowds ( http://arxiv.org/abs/2110.14862v1 )

ライセンス: CC BY 4.0
Junyu Gao, Maoguo Gong, Xuelong Li(参考訳) 近年,群衆シーンにおける異常事象の検出は,公衆の安全の重要性から,多くの研究者の注意を惹きつけている。 既存の手法は通常、視覚情報を利用して、視覚センサのみによる異常事象が一般に公共の場所で発生しているかどうかを分析する。 しかし, 群集に異常が発生した場合, 音響情報を識別して, 群集分析システムに異常があるかどうかを判断する。 難易度の高い視覚情報と比較すると、音声信号の浸透度は一定である。 そこで本稿では,音声と視覚信号の同時モデリングにマルチモーダル学習を活用する。 具体的には,異なるタイプの情報をモデル化する2分岐ネットワークを設計する。 1つ目は、ビデオクリップから時間的外観特徴を抽出する典型的な3D CNNモデルである。 2つ目は、音声信号のログメルスペクトログラムを符号化するオーディオcnnである。 最後に、上記の特徴を融合させることで、より正確な予測が生成される。 監視シーンにおける合成音声視覚データセットであるSHADEデータセットを用いて実験を行い、音声信号の導入により異常事象の検出性能が向上し、他の最先端手法よりも優れることを示す。 さらに、できるだけ早く、コードと事前訓練されたモデルをリリースします。

In recent years, anomaly events detection in crowd scenes attracts many researchers' attention, because of its importance to public safety. Existing methods usually exploit visual information to analyze whether any abnormal events have occurred due to only visual sensors are generally equipped in public places. However, when an abnormal event in crowds occurs, sound information may be discriminative to assist the crowd analysis system to determine whether there is an abnormality. Compare with vision information that is easily occluded, audio signals have a certain degree of penetration. Thus, this paper attempt to exploit multi-modal learning for modeling the audio and visual signals simultaneously. To be specific, we design a two-branch network to model different types of information. The first is a typical 3D CNN model to extract temporal appearance features from video clips. The second is an audio CNN for encoding Log Mel-Spectrogram of audio signals. Finally, by fusing the above features, a more accurate prediction will be produced. We conduct the experiments on SHADE dataset, a synthetic audio-visual dataset in surveillance scenes, and find introducing audio signals effectively improves the performance of anomaly events detection and outperforms other state-of-the-art methods. Furthermore, we will release the code and the pre-trained models as soon as possible.
翻訳日:2021-10-30 07:37:12 公開日:2021-10-28
# (参考訳) グラフコミュニティコントラスト学習 [全文訳有]

Graph Communal Contrastive Learning ( http://arxiv.org/abs/2110.14863v1 )

ライセンス: CC BY 4.0
Bolian Li, Baoyu Jing and Hanghang Tong(参考訳) グラフ表現学習は多くの実世界のアプリケーション(例えば社会的関係解析)にとって不可欠である。 グラフ表現学習の基本的な問題は、人間がラベルを付けることなく表現を効果的に学習する方法である。 グラフコントラスト学習(GCL)は、負のノードペア(または類似ノード)を表現空間内で分割しながら、正のノードペア(または類似ノード)を近づけることでこの問題に対処する。 既存のGCL手法の成功にもかかわらず、主にノードレベルの近接性に基づいてノードペアをサンプリングするが、コミュニティ構造が考慮されることはめったにない。 その結果、同じコミュニティから2つのノードが負のペアとしてサンプリングされる可能性がある。 コミュニティ情報は、内部ノードが意味的に類似している同じコミュニティ内のノードペアを識別するために考慮すべきである。 この問題に対処するために,コミュニティ分割を共同で学習し,ノード表現をエンドツーエンドで学習する新しいグラフコミュニティコントラスト学習(gCooL)フレームワークを提案する。 具体的には、コミュニティ検出のためのDense Community Aggregation(DeCA)アルゴリズムと、コミュニティ情報を利用するReweighted Self-supervised Cross-Contrastive(Re SC)トレーニングスキームの2つのコンポーネントで構成されている。 さらに、現実世界のグラフは複雑で、しばしば複数のビューで構成される。 本稿では,提案したgCooLが自然に多重グラフに適応可能であることを示す。 最後に,提案するgcoolを様々な実世界グラフ上で包括的に評価する。 実験の結果,gCooLは最先端手法よりも優れていた。

Graph representation learning is crucial for many real-world applications (e.g. social relation analysis). A fundamental problem for graph representation learning is how to effectively learn representations without human labeling, which is usually costly and time-consuming. Graph contrastive learning (GCL) addresses this problem by pulling the positive node pairs (or similar nodes) closer while pushing the negative node pairs (or dissimilar nodes) apart in the representation space. Despite the success of the existing GCL methods, they primarily sample node pairs based on the node-level proximity yet the community structures have rarely been taken into consideration. As a result, two nodes from the same community might be sampled as a negative pair. We argue that the community information should be considered to identify node pairs in the same communities, where the nodes insides are semantically similar. To address this issue, we propose a novel Graph Communal Contrastive Learning (gCooL) framework to jointly learn the community partition and learn node representations in an end-to-end fashion. Specifically, the proposed gCooL consists of two components: a Dense Community Aggregation (DeCA) algorithm for community detection and a Reweighted Self-supervised Cross-contrastive (ReSC) training scheme to utilize the community information. Additionally, the real-world graphs are complex and often consist of multiple views. In this paper, we demonstrate that the proposed gCooL can also be naturally adapted to multiplex graphs. Finally, we comprehensively evaluate the proposed gCooL on a variety of real-world graphs. The experimental results show that the gCooL outperforms the state-of-the-art methods.
翻訳日:2021-10-30 07:17:37 公開日:2021-10-28
# (参考訳) $\ell^p$に基づくカーネル条件独立性試験 [全文訳有]

An $\ell^p$-based Kernel Conditional Independence Test ( http://arxiv.org/abs/2110.14868v1 )

ライセンス: CC BY 4.0
Meyer Scetbon, Laurent Meunier, Yaniv Romano(参考訳) そこで本稿では,好適な分布の2つのカーネルベース代表者間の距離を$L^{p}$とする条件独立性テストを提案する。 これら2つの代表の差分を有限個の位置で評価することにより、l^{p}$計量の有限次元近似を導出し、条件付き独立性のヌル仮説の下で漸近分布を求め、それから単純な統計テストを設計する。 得られたテストは一貫性があり、計算効率が高い。 我々は,新しいテストの性能が,高次元設定においても統計的パワーとタイプi誤差の両方において最先端の手法を上回っていることを示す一連の実験を行った。

We propose a new computationally efficient test for conditional independence based on the $L^{p}$ distance between two kernel-based representatives of well suited distributions. By evaluating the difference of these two representatives at a finite set of locations, we derive a finite dimensional approximation of the $L^{p}$ metric, obtain its asymptotic distribution under the null hypothesis of conditional independence and design a simple statistical test from it. The test obtained is consistent and computationally efficient. We conduct a series of experiments showing that the performance of our new tests outperforms state-of-the-art methods both in term of statistical power and type-I error even in the high dimensional setting.
翻訳日:2021-10-30 07:00:50 公開日:2021-10-28
# (参考訳) シミュレーションにおける自律走行行動予測モデルテストのためのシナリオベースプラットフォーム [全文訳有]

A Scenario-Based Platform for Testing Autonomous Vehicle Behavior Prediction Models in Simulation ( http://arxiv.org/abs/2110.14870v1 )

ライセンス: CC BY 4.0
Francis Indaheng, Edward Kim, Kesav Viswanadha, Jay Shenoy, Jinkyu Kim, Daniel J. Fremont, Sanjit A. Seshia(参考訳) 行動予測は、自動運転車(AV)ソフトウェアスタックにおいて最も困難なタスクの1つです。 近くのエージェントの将来の軌道を予測することは、avsに安全な経路計画に必要な情報を提供するため、道路安全を確保する上で重要な役割を担っている。 しかし、これらの予測モデルはデータ駆動であり、実生活で収集されたデータに基づいて訓練されている。 したがって、これらの予測モデルは、デプロイ前にインタラクティブな振る舞いを含む様々なテストシナリオで広範囲にテストされることが重要である。 そこで本論文では,(1)Scenicと呼ばれる確率的プログラミング言語を用いた直感的なシナリオモデリング,(2)部分的な優先順位付けによる多目的評価指標の指定,(3)提案した指標のファルシフィケーション,(4)スケーラブルなテストのためのシミュレーションの並列化を支援するシミュレーションベーステストプラットフォームを提案する。 プラットフォームの一部として、インタラクティブなトラフィック参加者の振る舞いを含むテストシナリオをモデル化する25のSenseicプログラムのライブラリを提供する。 学習した行動予測モデルをテストし,障害シナリオを探索することで,プラットフォームの有効性とスケーラビリティを実証する。

Behavior prediction remains one of the most challenging tasks in the autonomous vehicle (AV) software stack. Forecasting the future trajectories of nearby agents plays a critical role in ensuring road safety, as it equips AVs with the necessary information to plan safe routes of travel. However, these prediction models are data-driven and trained on data collected in real life that may not represent the full range of scenarios an AV can encounter. Hence, it is important that these prediction models are extensively tested in various test scenarios involving interactive behaviors prior to deployment. To support this need, we present a simulation-based testing platform which supports (1) intuitive scenario modeling with a probabilistic programming language called Scenic, (2) specifying a multi-objective evaluation metric with a partial priority ordering, (3) falsification of the provided metric, and (4) parallelization of simulations for scalable testing. As a part of the platform, we provide a library of 25 Scenic programs that model challenging test scenarios involving interactive traffic participant behaviors. We demonstrate the effectiveness and the scalability of our platform by testing a trained behavior prediction model and searching for failure scenarios.
翻訳日:2021-10-30 06:31:35 公開日:2021-10-28
# (参考訳) 機械学習とディープラーニングを用いた新型コロナウイルスの診断 [全文訳有]

Diagnosis of COVID-19 Using Machine Learning and Deep Learning: A review ( http://arxiv.org/abs/2110.14910v1 )

ライセンス: CC BY 4.0
M. Rubaiyat Hossain Mondal, Subrato Bharati and Prajoy Podder(参考訳) 背景: 新型コロナウイルス(COVID-19)に対する機械学習(ML)および深層学習(DL)技術を用いた人工知能(AI)の応用について, 系統的な検討を行った。 目的と方法: 組織的レビューとメタ分析(prisma)ガイドラインの推奨報告項目を使用して、covid-19のaiに関するスキャピングレビューを行う。 文献調査は2020年1月1日から2021年3月27日まで行われた。 評判の出版社で利用可能な4050の研究論文のうち、440記事の全文レビューがAI、COVID-19、ML、予測、DL、X線、CT(Computed Tomography)のキーワードに基づいて行われた。 最後に,本論文の合成結果に52項目を収録した。 レビューの一環として,確認症例数と死亡事例数を予測するため,まず異なるML回帰法について検討した。 第2に、新型コロナウイルス患者の分類におけるMLの使用に関する総合的な調査を行った。 第3に、画像数、陽性サンプル数、データセットのクラス数について、医療画像における異なるデータセットを比較した。 また,前処理,セグメンテーション,特徴抽出を含む診断の異なる段階についても検討した。 第4に、異なる研究論文の性能評価結果を比較し、異なるデータセットにおけるDL法の有効性を評価した。 その結果,残差ニューラルネットワーク(ResNet-18)と密結合畳み込みネットワーク(DenseNet 169)はX線画像の分類精度に優れ,DenseNet-201はCTスキャン画像の分類精度が最大であることがわかった。 これは、MLとDLが、研究者や医療専門家が新型コロナウイルスを予測、スクリーニング、検出するのに役立つツールであることを示している。

Background: This paper provides a systematic review of the application of Artificial Intelligence (AI) in the form of Machine Learning (ML) and Deep Learning (DL) techniques in fighting against the effects of novel coronavirus disease (COVID-19). Objective & Methods: The objective is to perform a scoping review on AI for COVID-19 using preferred reporting items of systematic reviews and meta-analysis (PRISMA) guidelines. A literature search was performed for relevant studies published from 1 January 2020 till 27 March 2021. Out of 4050 research papers available in reputed publishers, a full-text review of 440 articles was done based on the keywords of AI, COVID-19, ML, forecasting, DL, X-ray, and Computed Tomography (CT). Finally, 52 articles were included in the result synthesis of this paper. As part of the review, different ML regression methods were reviewed first in predicting the number of confirmed and death cases. Secondly, a comprehensive survey was carried out on the use of ML in classifying COVID-19 patients. Thirdly, different datasets on medical imaging were compared in terms of the number of images, number of positive samples and number of classes in the datasets. The different stages of the diagnosis, including preprocessing, segmentation and feature extraction were also reviewed. Fourthly, the performance results of different research papers were compared to evaluate the effectiveness of DL methods on different datasets. Results: Results show that residual neural network (ResNet-18) and densely connected convolutional network (DenseNet 169) exhibit excellent classification accuracy for X-ray images, while DenseNet-201 has the maximum accuracy in classifying CT scan images. This indicates that ML and DL are useful tools in assisting researchers and medical professionals in predicting, screening and detecting COVID-19.
翻訳日:2021-10-30 06:21:16 公開日:2021-10-28
# (参考訳) メタサブスペース最適化 [全文訳有]

Meta Subspace Optimization ( http://arxiv.org/abs/2110.14920v1 )

ライセンス: CC BY 4.0
Yoni Choukroun and Michael Katz(参考訳) 部分空間最適化法は、大規模最適化問題を低次元部分空間最適化問題の列に還元する魅力的な性質を持つ。 しかし、既存のサブスペース最適化フレームワークは、サブスペースの固定更新ポリシーを採用しており、したがって、サブ最適であるように見える。 本稿では,大規模な最適化問題に対して,各最適化イテレーションでサブスペース行列を決定するための新しい 'emph{Meta Subspace Optimization} (MSO) フレームワークを提案する。 最適化問題の次元に不変性を保ちながら、非常に低次元の部分空間最適化係数に基づく効率的なメタオプティマイザを設計し、性能を大幅に向上できるルールベースエージェントを誘導する。 最後に,学習方針が既存の部分空間最適化手法を上回る部分空間最適化ダイナミクスに基づいて強化学習手順を設計・解析する。

Subspace optimization methods have the attractive property of reducing large-scale optimization problems to a sequence of low-dimensional subspace optimization problems. However, existing subspace optimization frameworks adopt a fixed update policy of the subspace, and therefore, appear to be sub-optimal. In this paper we propose a new \emph{Meta Subspace Optimization} (MSO) framework for large-scale optimization problems, which allows to determine the subspace matrix at each optimization iteration. In order to remain invariant to the optimization problem's dimension, we design an efficient meta optimizer based on very low-dimensional subspace optimization coefficients, inducing a rule-based agent that can significantly improve performance. Finally, we design and analyze a reinforcement learning procedure based on the subspace optimization dynamics whose learnt policies outperform existing subspace optimization methods.
翻訳日:2021-10-30 05:52:37 公開日:2021-10-28
# (参考訳) トランスを用いた3次元物体追跡 [全文訳有]

3D Object Tracking with Transformer ( http://arxiv.org/abs/2110.14921v1 )

ライセンス: CC BY 4.0
Yubo Cui, Zheng Fang, Jiayao Shan, Zuoxu Gu, Sifan Zhou(参考訳) 特徴融合と類似性計算は、特にスパースと乱れ点雲を用いた物体追跡における3次元物体追跡における2つの主要な問題である。 特徴融合は、対象のオブジェクト情報を含めることで、類似性コンピューティングをより効率的にする。 しかし、既存のLiDARベースのアプローチのほとんどは、抽出したポイントクラウド機能を直接使用して類似性を計算し、トラッキング中のオブジェクト領域の注意変化を無視している。 本稿では,変圧器アーキテクチャに基づく機能融合ネットワークを提案する。 自己着脱機構の利点により、トランスコーダは点雲の異なる領域間の相互関係と内部関係をキャプチャする。 クロスアテンションを使用することで、transformerデコーダは機能を融合し、現在のpoint cloud機能により多くのターゲットヒントを追加して、リージョンの注目度を計算し、類似性コンピューティングをより効率的にする。 この特徴融合ネットワークに基づいて,ポイントクラウドを用いた3次元オブジェクト追跡のための簡易かつ効果的な手法であるエンドツーエンドのクラウドオブジェクト追跡フレームワークを提案する。 KITTIデータセットの総合的な実験結果から,本手法が新たな最先端性能を実現することを示す。 コードはhttps://github.com/3 bobo/lttr.com/。

Feature fusion and similarity computation are two core problems in 3D object tracking, especially for object tracking using sparse and disordered point clouds. Feature fusion could make similarity computing more efficient by including target object information. However, most existing LiDAR-based approaches directly use the extracted point cloud feature to compute similarity while ignoring the attention changes of object regions during tracking. In this paper, we propose a feature fusion network based on transformer architecture. Benefiting from the self-attention mechanism, the transformer encoder captures the inter- and intra- relations among different regions of the point cloud. By using cross-attention, the transformer decoder fuses features and includes more target cues into the current point cloud feature to compute the region attentions, which makes the similarity computing more efficient. Based on this feature fusion network, we propose an end-to-end point cloud object tracking framework, a simple yet effective method for 3D object tracking using point clouds. Comprehensive experimental results on the KITTI dataset show that our method achieves new state-of-the-art performance. Code is available at: https://github.com/3 bobo/lttr.
翻訳日:2021-10-30 05:38:52 公開日:2021-10-28
# (参考訳) 3次元登録のための再帰的ロバストフィルタリング手法 [全文訳有]

A recursive robust filtering approach for 3D registration ( http://arxiv.org/abs/2110.14932v1 )

ライセンス: CC BY 4.0
Abdenour Amamra, Nabil Aouf, Dowling Stuart, Mark Richardson(参考訳) 本稿では,機能ベースの3d登録のための新しい再帰的ロバストフィルタ手法を提案する。 一般的な最先端アライメントアルゴリズムとは違って,提案手法には,これまでのソリューションでは実現されていない4つの利点がある。 例えば、固有ノイズ汚染センサデータを扱うことができ、ノイズの特徴的局所化による不確実性に対して頑健であり、また、より高い性能とより予測的な局所最小値防止のための(Formulaが提示)規範と(Formulaが提示)規範の両方の利点を組み合わせている。 その結果、正確で安定した剛体変換となる。 後者は、アライメントに関する収束の徹底的な制御と、登録の質の正確な評価を可能にする。 提案手法の数学的理論的根拠を解説し, 実データおよび合成データを用いて検証した。

This work presents a new recursive robust filtering approach for feature-based 3D registration. Unlike the common state-of-the-art alignment algorithms, the proposed method has four advantages that have not yet occurred altogether in any previous solution. For instance, it is able to deal with inherent noise contaminating sensory data; it is robust to uncertainties caused by noisy feature localisation; it also combines the advantages of both (Formula presented.) and (Formula presented.) norms for a higher performance and a more prospective prevention of local minima. The result is an accurate and stable rigid body transformation. The latter enables a thorough control over the convergence regarding the alignment as well as a correct assessment of the quality of registration. The mathematical rationale behind the proposed approach is explained, and the results are validated on physical and synthetic data.
翻訳日:2021-10-30 05:26:37 公開日:2021-10-28
# (参考訳) gpuを用いたkinectデータのgmmセグメンテーション [全文訳有]

GPU based GMM segmentation of kinect data ( http://arxiv.org/abs/2110.14934v1 )

ライセンス: CC BY 4.0
Abdenour Amamra, Tarek Mouats, Nabil Aouf(参考訳) 本稿では,ガウス混合モデル(gmm)を用いたrgbdデータのバックグラウンド/フォアグラウンドセグメンテーションに関する新しいアプローチを提案する。 まず背景画像から色と深度を別々に抽出することから始める。 両方のストリームから生じる前景は、より正確な検出のために融合される。 セグメンテーションソリューションはGPU上に実装されています。 これにより、センサーの全フレームレート(30fps)で動作します。 実験の結果,照明変化,影,反射に対するロバスト性が示された。

This paper presents a novel approach for background/foregroun d segmentation of RGBD data with the Gaussian Mixture Models (GMM). We first start by the background subtraction from the colour and depth images separately. The foregrounds resulting from both streams are then fused for a more accurate detection. Our segmentation solution is implemented on the GPU. Thus, it works at the full frame rate of the sensor (30fps). Test results show its robustness against illumination change, shadows and reflections.
翻訳日:2021-10-30 05:11:10 公開日:2021-10-28
# (参考訳) Bitcoin市場におけるアルゴリズム取引戦略の探索 [全文訳有]

Exploration of Algorithmic Trading Strategies for the Bitcoin Market ( http://arxiv.org/abs/2110.14936v1 )

ライセンス: CC BY 4.0
Nathan Crone, Eoin Brophy, Tomas Ward(参考訳) Bitcoinは、われわれのグローバルな社会におけるメインストリームの資産になりつつある。 その非常に不安定な性質は、トレーダーや投機家が市場に入り込み、利益を期待する価格変動を生かしている。 この取り組みは、Bitcoin市場にアルゴリズムによるトレーディングアプローチをもたらし、その方向性の分類を通じて、日々の価格の変動性を活用する。 本稿では,従来の研究に基づいて,Bitcoinネットワークの内部機能と外部機能の両方を利用して,さまざまな機械学習モデルの予測を行う。 実証実験として,2021年第1四半期を通じて収集したデータに対して,実世界の取引戦略を用いて評価を行った。 3ヶ月のトレーディング期間の終わりには、バイナリ予測のみを使用して、当社のモデルの平均利益は86%で、従来型の買い取り戦略の結果と一致しました。 しかし、モデルの予測信頼度を利用して、トレーディング戦略にリスク寛容スコアを組み込んだ後、私たちのモデルは、単純な買い取り戦略よりも12.5\%利益があった。 これらの結果は、機械学習モデルがbitcoin市場から利益を抽出し、現実世界のbitcoin取引に関するさらなる研究の最前線として働く可能性を示している。

Bitcoin is firmly becoming a mainstream asset in our global society. Its highly volatile nature has traders and speculators flooding into the market to take advantage of its significant price swings in the hope of making money. This work brings an algorithmic trading approach to the Bitcoin market to exploit the variability in its price on a day-to-day basis through the classification of its direction. Building on previous work, in this paper, we utilise both features internal to the Bitcoin network and external features to inform the prediction of various machine learning models. As an empirical test of our models, we evaluate them using a real-world trading strategy on completely unseen data collected throughout the first quarter of 2021. Using only a binary predictor, at the end of our three-month trading period, our models showed an average profit of 86\%, matching the results of the more traditional buy-and-hold strategy. However, after incorporating a risk tolerance score into our trading strategy by utilising the model's prediction confidence scores, our models were 12.5\% more profitable than the simple buy-and-hold strategy. These results indicate the credible potential that machine learning models have in extracting profit from the Bitcoin market and act as a front-runner for further research into real-world Bitcoin trading.
翻訳日:2021-10-30 05:04:35 公開日:2021-10-28
# (参考訳) 次世代エッジ対応産業用IoTのための計算インテリジェンスとディープラーニング [全文訳有]

Computational Intelligence and Deep Learning for Next-Generation Edge-Enabled Industrial IoT ( http://arxiv.org/abs/2110.14937v1 )

ライセンス: CC BY 4.0
Shunpu Tang, Lunyuan Chen, Ke HeJunjuan Xia, Lisheng Fan, Arumugam Nallanathan(参考訳) 本稿では,エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。 このシステムでは、IoTデバイスはデータのプライバシを損なうことなく、共同で共有モデルをトレーニングすることができる。 しかし、計算能力、帯域幅、チャネル状態などの産業用IoTネットワークのリソースが限られているため、多くのデバイスがローカルトレーニングを達成し、エッジサーバに重みをアップロードすることは困難である。 この問題に対処するため、我々は、深度が異なる複数のサブモデルに分割し、対応するサブモデルの出口から出力予測を行うことができる、新しいマルチエクイットベースフェデレーションエッジラーニング(ME-FEEL)フレームワークを提案する。 このように、計算能力の不足したデバイスは、早期の出口を選択して、完全なモデルをトレーニングすることを避けることができ、計算遅延を減らし、デバイスがレイテンシ閾値内で可能な限りアグリゲーションに参加することができる。 さらに,各通信ラウンドにおける出口総数を最大化するために,グリージーアプローチによる出口選択と帯域幅割り当てアルゴリズムを提案する。 非独立かつ同一分散(非iid)設定下での古典的なファッション・マンニストデータセット上でシミュレーション実験を行い,提案手法が従来のflよりも優れていることを示す。 特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、32.7%の精度を達成できる。

In this paper, we investigate how to deploy computational intelligence and deep learning (DL) in edge-enabled industrial IoT networks. In this system, the IoT devices can collaboratively train a shared model without compromising data privacy. However, due to limited resources in the industrial IoT networks, including computational power, bandwidth, and channel state, it is challenging for many devices to accomplish local training and upload weights to the edge server in time. To address this issue, we propose a novel multi-exit-based federated edge learning (ME-FEEL) framework, where the deep model can be divided into several sub-models with different depths and output prediction from the exit in the corresponding sub-model. In this way, the devices with insufficient computational power can choose the earlier exits and avoid training the complete model, which can help reduce computational latency and enable devices to participate into aggregation as much as possible within a latency threshold. Moreover, we propose a greedy approach-based exit selection and bandwidth allocation algorithm to maximize the total number of exits in each communication round. Simulation experiments are conducted on the classical Fashion-MNIST dataset under a non-independent and identically distributed (non-IID) setting, and it shows that the proposed strategy outperforms the conventional FL. In particular, the proposed ME-FEEL can achieve an accuracy gain up to 32.7% in the industrial IoT networks with the severely limited resources.
翻訳日:2021-10-30 04:54:44 公開日:2021-10-28
# (参考訳) 教師なしドメイン適応のための分散トランスネットワーク [全文訳有]

Dispensed Transformer Network for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2110.14944v1 )

ライセンス: CC BY 4.0
Yunxiang Li, Jingxiong Li, Ruilong Dan, Shuai Wang, Kai Jin, Guodong Zeng, Jun Wang, Xiangji Pan, Qianni Zhang, Huiyu Zhou, Qun Jin, Li Wang, Yaqi Wang(参考訳) 正確なセグメンテーションは、医療画像解析において重要なステップであり、臓器や病変のセグメンテーションに教師あり機械学習を適用することは効果的である。 しかし、教師付きアルゴリズムをトレーニングするための根拠真理ラベルを提供するデータアノテーションを実行するのはコストがかかり、異なるドメインから来るデータの分散度が高いため、クロスサイトやクロスモダリティデータセットよりもシステムパフォーマンスが著しく低下する傾向がある。 そこで本稿では,この問題を解決するために,unsupervised domain adaptation (uda) method, dispensed transformer network (dtnet)を提案する。 私たちの新しいDTNetには3つのモジュールがあります。 まず, インターリーブ操作によるグローバルな注目度を実現し, 過大な計算コストとGPUメモリ使用量に対処する残差変圧器ブロックを設計する。 第二に、低解像度出力における詳細の損失を軽減し、機能アライメントを改善するため、マルチスケールの整合性正規化を提案する。 最後に、異なる重みをドメインギャップ特徴に自動的に割り当てて特徴分布距離を小さくし、2つのドメインのパフォーマンスシフトを低減する特徴ランキング判別器を導入する。 提案手法は676枚の画像とMM-WHSチャレンジから得られた広範囲なクロスモダリティデータセットを用いて,大型フルオレセイン血管造影(FA)網膜非灌流(RNP)クロスサイトデータセットを用いて評価した。 広範な結果から,提案ネットワークは最先端技術と比較し,最高の性能を得ることができた。

Accurate segmentation is a crucial step in medical image analysis and applying supervised machine learning to segment the organs or lesions has been substantiated effective. However, it is costly to perform data annotation that provides ground truth labels for training the supervised algorithms, and the high variance of data that comes from different domains tends to severely degrade system performance over cross-site or cross-modality datasets. To mitigate this problem, a novel unsupervised domain adaptation (UDA) method named dispensed Transformer network (DTNet) is introduced in this paper. Our novel DTNet contains three modules. First, a dispensed residual transformer block is designed, which realizes global attention by dispensed interleaving operation and deals with the excessive computational cost and GPU memory usage of the Transformer. Second, a multi-scale consistency regularization is proposed to alleviate the loss of details in the low-resolution output for better feature alignment. Finally, a feature ranking discriminator is introduced to automatically assign different weights to domain-gap features to lessen the feature distribution distance, reducing the performance shift of two domains. The proposed method is evaluated on large fluorescein angiography (FA) retinal nonperfusion (RNP) cross-site dataset with 676 images and a wide used cross-modality dataset from the MM-WHS challenge. Extensive results demonstrate that our proposed network achieves the best performance in comparison with several state-of-the-art techniques.
翻訳日:2021-10-30 04:34:49 公開日:2021-10-28
# (参考訳) マルチタスクプロセス

Multi-Task Processes ( http://arxiv.org/abs/2110.14953v1 )

ライセンス: CC BY 4.0
Donggyun Kim, Seongwoong Cho, Wonkwang Lee, Seunghoon Hong(参考訳) ニューラル・プロセス(NP)は、あるタスクを確率的プロセスから実現された関数とみなし、関数の推論を通じて目に見えないタスクに柔軟に適応する。 しかし、単純NPは単一の確率過程からのみデータをモデル化することができ、それぞれのタスクを独立に推測するように設計されている。 多くの実世界のデータは、複数のソース(例えば、複数の属性とマルチセンサーデータ)からの相関したタスクの集合を表すため、それらを共同で推論し、基礎となる相関を利用して予測性能を改善することは有益である。 そこで本稿では,複数の確率過程から実現されるタスクを共同で推測するnpsの拡張であるマルチタスクプロセス(mtps)を提案する。 我々は,1つのグローバル潜在変数に対して,すべてのタスクごとの潜在変数を条件付けることによって,タスク間相関を考慮した階層的なMPPを構築する。 さらに,マルチタスクの設定を不完全なデータ(つまり,すべてのタスクが同じ入力ポイントを共有するわけではない)で処理できるように,mtpを設計しています。 実験により、MSPは、時系列の天気特性や画素対応の視覚的モダリティなど、様々な実世界のデータから相関関係を発見し、活用することで、複数のタスクを共同でモデル化できることが示された。

Neural Processes (NPs) consider a task as a function realized from a stochastic process and flexibly adapt to unseen tasks through inference on functions. However, naive NPs can model data from only a single stochastic process and are designed to infer each task independently. Since many real-world data represent a set of correlated tasks from multiple sources (e.g., multiple attributes and multi-sensor data), it is beneficial to infer them jointly and exploit the underlying correlation to improve the predictive performance. To this end, we propose Multi-Task Processes (MTPs), an extension of NPs designed to jointly infer tasks realized from multiple stochastic processes. We build our MTPs in a hierarchical manner such that inter-task correlation is considered by conditioning all per-task latent variables on a single global latent variable. In addition, we further design our MTPs so that they can address multi-task settings with incomplete data (i.e., not all tasks share the same set of input points), which has high practical demands in various applications. Experiments demonstrate that MTPs can successfully model multiple tasks jointly by discovering and exploiting their correlations in various real-world data such as time series of weather attributes and pixel-aligned visual modalities.
翻訳日:2021-10-30 04:16:28 公開日:2021-10-28
# (参考訳) 実例のない実情足歩行学習への適応的アプローチ [全文訳有]

An Adaptable Approach to Learn Realistic Legged Locomotion without Examples ( http://arxiv.org/abs/2110.14998v1 )

ライセンス: CC BY 4.0
Daniel Felipe Ordo\~nez Apraez, Antonio Agudo, Francesc Moreno-Noguer and Mario Martin(参考訳) 足の歩行を自然に再現する学習コントローラーは、ロボット工学とコンピュータグラフィックスの長年の目標だった。 有望な結果が得られる一方で、近年のアプローチは、異なる形態の脚系に適用できるほど柔軟ではない。 これは、しばしば、出現する歩行の自然性を保証するが一般化を防ぎながら、正確なモーションキャプチャ参照や精巧な学習環境に依存するためである。 本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。 強化学習(RL)の探索能力を活用して,安定かつ周期的な移動を維持するために必要なテンプレートモデルとフルボディダイナミックスとの間の情報ギャップを埋める制御ポリシーを学習する。 提案手法は大きさや形態の異なるロボットに適用でき、任意のRL技術や制御アーキテクチャに適用できる。 本研究は,モデルフリーの環境においても,2足歩行ロボットと4足歩行ロボットに対して,現実的でエネルギー効率のよい移動歩行を生成できることを実験的に示す。 そして最も重要なことは、これはモーションキャプチャやロボットの力学や運動学における強い制約、手足の調整を規定しないことだ。 学習歩行の自然性の質的分析のための補足ビデオを提供する。

Learning controllers that reproduce legged locomotion in nature have been a long-time goal in robotics and computer graphics. While yielding promising results, recent approaches are not yet flexible enough to be applicable to legged systems of different morphologies. This is partly because they often rely on precise motion capture references or elaborate learning environments that ensure the naturality of the emergent locomotion gaits but prevent generalization. This work proposes a generic approach for ensuring realism in locomotion by guiding the learning process with the spring-loaded inverted pendulum model as a reference. Leveraging on the exploration capacities of Reinforcement Learning (RL), we learn a control policy that fills in the information gap between the template model and full-body dynamics required to maintain stable and periodic locomotion. The proposed approach can be applied to robots of different sizes and morphologies and adapted to any RL technique and control architecture. We present experimental results showing that even in a model-free setup and with a simple reactive control architecture, the learned policies can generate realistic and energy-efficient locomotion gaits for a bipedal and a quadrupedal robot. And most importantly, this is achieved without using motion capture, strong constraints in the dynamics or kinematics of the robot, nor prescribing limb coordination. We provide supplemental videos for qualitative analysis of the naturality of the learned gaits.
翻訳日:2021-10-30 04:15:16 公開日:2021-10-28
# (参考訳) 軌道予測のための社会性を考慮した時間変化を考慮したスライディングシーケンシャルcvae [全文訳有]

Sliding Sequential CVAE with Time Variant Socially-aware Rethinking for Trajectory Prediction ( http://arxiv.org/abs/2110.15016v1 )

ライセンス: CC BY 4.0
Hao Zhou, Dongchun Ren, Xu Yang, Mingyu Fan, Hai Huang(参考訳) 歩行者の軌道予測は、ビデオ監視、社会ロボットナビゲーション、自動運転など、多くのアプリケーションにおいて重要な技術であり、この研究トピックでは大きな進歩を遂げている。 しかし、以前の研究には2つの限界がある。 第一に、時間の継続に伴い、各時点における予測誤差が著しく増加し、最終的な変位誤差を無視することができない。 第二に、複数の歩行者の予測結果は予測地平線では非現実的であり、予測された軌道が互いに衝突する可能性がある。 これらの限界を克服するため,本研究では,カスケード条件変分オートエンコーダ(cvae)モジュールと社会的に認識された回帰モジュールからなるcsrと呼ばれる新しい軌道予測手法を提案する。 CVAEモジュールはまず、将来の軌道をシーケンシャルなパターンで推定する。 具体的には、各CVAEは過去の軌跡と予測点を入力まで連結し、次のステップで位置を予測する。 そして、社会的に認識された回帰モジュールは、推定された将来の軌道からオフセットを生成し、社会的に準拠した最終予測を生成する。 さらに、カスケードCVAEモジュールの大きなモデルパラメータを考慮すると、スライドCVAEモジュールをさらに活用して、1つの共有CVAEを用いたモデル効率を向上させる。 実験の結果,本手法はstanford drone dataset (sdd) における最先端法と約38.0%および22.2%のeth/ucy法に比較して改善がみられた。

Pedestrian trajectory prediction is a key technology in many applications such as video surveillance, social robot navigation, and autonomous driving, and significant progress has been made in this research topic. However, there remain two limitations of previous studies. First, with the continuation of time, the prediction error at each time step increases significantly, causing the final displacement error to be impossible to ignore. Second, the prediction results of multiple pedestrians might be impractical in the prediction horizon, i.e., the predicted trajectories might collide with each other. To overcome these limitations, this work proposes a novel trajectory prediction method called CSR, which consists of a cascaded conditional variational autoencoder (CVAE) module and a socially-aware regression module. The cascaded CVAE module first estimates the future trajectories in a sequential pattern. Specifically, each CVAE concatenates the past trajectories and the predicted points so far as the input and predicts the location at the following time step. Then, the socially-aware regression module generates offsets from the estimated future trajectories to produce the socially compliant final predictions, which are more reasonable and accurate results than the estimated trajectories. Moreover, considering the large model parameters of the cascaded CVAE module, a slide CVAE module is further exploited to improve the model efficiency using one shared CVAE, in a slidable manner. Experiments results demonstrate that the proposed method exhibits improvements over state-of-the-art method on the Stanford Drone Dataset (SDD) and ETH/UCY of approximately 38.0% and 22.2%, respectively.
翻訳日:2021-10-30 04:02:33 公開日:2021-10-28
# (参考訳) 韓国公立AIハブ並列コーパスの実証分析とLIWCを用いた深度解析 [全文訳有]

Empirical Analysis of Korean Public AI Hub Parallel Corpora and in-depth Analysis using LIWC ( http://arxiv.org/abs/2110.15023v1 )

ライセンス: CC BY 4.0
Chanjun Park, Midan Shim, Sugyeong Eo, Seolhwa Lee, Jaehyung Seo, Hyeonseok Moon, Heuiseok Lim(参考訳) 機械翻訳(mt)システムは、ソース言語を対象言語に変換することを目的としている。 MTシステムに関する最近の研究は、主にニューラルマシン翻訳(NMT)に焦点を当てている。 NMTの性能に大きな影響を与える要因の1つは、高品質な並列コーパスの可用性である。 しかし、韓国語に関する高品質な並列コーパスは、ドイツ語やイタリア語のような他の高リソース言語と比べれば比較的少ない。 この問題に対処するため、AI Hubは韓国向けの7種類の並列コーパスをリリースした。 本研究では,Lingistic Inquiry and Word Count(LIWC)およびいくつかの関連する実験を通じて,対応する並列コーパスの品質を詳細に検証する。 LIWCは、コーパスを複数の方法で分析し、言語的特徴を辞書ベースとして抽出するワードカウントソフトウェアプログラムである。 我々の知る限り、この研究はNMT分野における並列コーパスの分析にLIWCを使った最初のものである。 LIWCとNMTの相関解析により,改良された並列コーパスの獲得に向けたさらなる研究の方向性が示唆された。

Machine translation (MT) system aims to translate source language into target language. Recent studies on MT systems mainly focus on neural machine translation (NMT). One factor that significantly affects the performance of NMT is the availability of high-quality parallel corpora. However, high-quality parallel corpora concerning Korean are relatively scarce compared to those associated with other high-resource languages, such as German or Italian. To address this problem, AI Hub recently released seven types of parallel corpora for Korean. In this study, we conduct an in-depth verification of the quality of corresponding parallel corpora through Linguistic Inquiry and Word Count (LIWC) and several relevant experiments. LIWC is a word-counting software program that can analyze corpora in multiple ways and extract linguistic features as a dictionary base. To the best of our knowledge, this study is the first to use LIWC to analyze parallel corpora in the field of NMT. Our findings suggest the direction of further research toward obtaining the improved quality parallel corpora through our correlation analysis in LIWC and NMT performance.
翻訳日:2021-10-30 03:41:18 公開日:2021-10-28
# (参考訳) ハイブリッド損失による脳MR画像の変形性レジストレーション [全文訳有]

Deformable Registration of Brain MR Images via a Hybrid Loss ( http://arxiv.org/abs/2110.15027v1 )

ライセンス: CC BY 4.0
Luyi Han, Haoran Dou, Yunzhi Huang, Pew-Thian Yap(参考訳) T1重み付きMR画像の変形可能な登録モデルについて,ハイブリッド損失により複数の画像特性を考慮し学習する。 変形の滑らかさを保ちながら,OASISデータセットを高精度に登録する。

We learn a deformable registration model for T1-weighted MR images by considering multiple image characteristics via a hybrid loss. Our method registers the OASIS dataset with high accuracy while preserving deformation smoothness.
翻訳日:2021-10-30 03:13:04 公開日:2021-10-28
# (参考訳) OneFlow: Scratchから分散ディープラーニングフレームワークを再設計 [全文訳有]

OneFlow: Redesign the Distributed Deep Learning Framework from Scratch ( http://arxiv.org/abs/2110.15032v1 )

ライセンス: CC BY 4.0
Jinhui Yuan and Xinqi Li and Cheng Cheng and Juncheng Liu and Ran Guo and Shenghang Cai and Chi Yao and Fei Yang and Xiaodong Yi and Chuan Wu and Haoran Zhang and Jie Zhao(参考訳) TensorFlowやPyTorchといったディープラーニングフレームワークは、単一のデバイス上でのディープニューラルネットワーク(DNN)モデルの表現とトレーニング、あるいはデータ並列性を使用するための生産的なインターフェースを提供する。 それでも、データ並列性以上の高度な並列性を必要とする分散デバイス上で、新興の大規模モデルをトレーニングする上で、柔軟性や効率が十分でない場合もあります。 モデルやパイプライン並列性のためのこれらのフレームワークを強化するためにプラグインやラッパーが開発されたが、分散ディープラーニングの使用と実装は複雑である。 並列処理パラダイムの分散ディープラーニングフレームワークをシンプルに再設計することを目的としたOneFlowは,SBP(split, broadcast, partial-value)抽象化とアクタモデルに基づく,新たな分散トレーニングフレームワークである。 sbpは、既存のフレームワークよりもはるかに簡単にデータ並列処理とモデル並列処理のプログラミングを可能にし、アクターモデルは、分散ディープラーニングでリソース制約、データ移動、計算によって課される複雑な依存関係を管理するための簡潔なランタイムメカニズムを提供する。 ケーススタディと広範囲な実験による大規模DNNモデルのトレーニングにおいて,OneFlowの汎用性と効率性を示す。 その結果、OneFlowは最先端フレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。 oneflowのコードは、https://github.com/o neflow-inc/oneflowで入手できる。

Deep learning frameworks such as TensorFlow and PyTorch provide a productive interface for expressing and training a deep neural network (DNN) model on a single device or using data parallelism. Still, they may not be flexible or efficient enough in training emerging large models on distributed devices, which require more sophisticated parallelism beyond data parallelism. Plugins or wrappers have been developed to strengthen these frameworks for model or pipeline parallelism, but they complicate the usage and implementation of distributed deep learning. Aiming at a simple, neat redesign of distributed deep learning frameworks for various parallelism paradigms, we present OneFlow, a novel distributed training framework based on an SBP (split, broadcast and partial-value) abstraction and the actor model. SBP enables much easier programming of data parallelism and model parallelism than existing frameworks, and the actor model provides a succinct runtime mechanism to manage the complex dependencies imposed by resource constraints, data movement and computation in distributed deep learning. We demonstrate the general applicability and efficiency of OneFlow for training various large DNN models with case studies and extensive experiments. The results show that OneFlow outperforms many well-known customized libraries built on top of the state-of-the-art frameworks. The code of OneFlow is available at: https://github.com/O neflow-Inc/oneflow.
翻訳日:2021-10-30 03:09:36 公開日:2021-10-28
# (参考訳) 部分空間クラスタリングのためのエネルギーに基づく自己表現による深部表現の学習 [全文訳有]

Learning Deep Representation with Energy-Based Self-Expressiveness for Subspace Clustering ( http://arxiv.org/abs/2110.15037v1 )

ライセンス: CC BY 4.0
Yanming Li, Changsheng Li, Shiye Wang, Ye Yuan, Guoren Wang(参考訳) 近年,ディープサブスペースクラスタリングが注目されている。 ディープラーニングのフレームワークで自己表現係数を学ぶために、トレーニングデータ全体をひとつのバッチにロードするには、既存の作業のほとんどすべてが必要になります。 これらの手法は有望な結果をもたらすが、そのような学習手法はより深いニューラルネットワークアーキテクチャ(例えばResNet)の使用を著しく妨げ、モデルの表現能力が制限される。 本稿では,エネルギーベースモデルに動機づけられた,新しい深部部分空間クラスタリングフレームワークを提案する。 自己表現係数として完全連結層の重みを取る従来のアプローチとは対照的に,ミニバッチ訓練により自己表現係数を得るためのエネルギーベースネットワークの学習を提案する。 これにより、学習のためにすべてのデータをひとつのバッチにロードする必要がなくなり、サブスペースクラスタリングにより深いニューラルネットワークモデルを使用することが現実になる。 近年普及している自己教師あり学習の強力な表現能力を考慮して,自己教師あり表現学習を用いて辞書の学習を試みる。 最後に,自己表現係数と辞書を同時に学習し,エンドツーエンドでモデルを訓練するための統合フレームワークを提案する。 実験は3つのデータセット上で実施され,本手法が他の手法を大きく上回ることを示す実験結果が得られた。 例えば、この3つのデータセットでは、非常に最近提案されたSENetよりも平均13.8.%、15.4.%、20.8.%の改善を達成でき、実験で2番目に良い結果が得られる。

Deep subspace clustering has attracted increasing attention in recent years. Almost all the existing works are required to load the whole training data into one batch for learning the self-expressive coefficients in the framework of deep learning. Although these methods achieve promising results, such a learning fashion severely prevents from the usage of deeper neural network architectures (e.g., ResNet), leading to the limited representation abilities of the models. In this paper, we propose a new deep subspace clustering framework, motivated by the energy-based models. In contrast to previous approaches taking the weights of a fully connected layer as the self-expressive coefficients, we propose to learn an energy-based network to obtain the self-expressive coefficients by mini-batch training. By this means, it is no longer necessary to load all data into one batch for learning, and it thus becomes a reality that we can utilize deeper neural network models for subspace clustering. Considering the powerful representation ability of the recently popular self-supervised learning, we attempt to leverage self-supervised representation learning to learn the dictionary. Finally, we propose a joint framework to learn both the self-expressive coefficients and dictionary simultaneously, and train the model in an end-to-end manner. The experiments are performed on three publicly available datasets, and extensive experimental results demonstrate our method can significantly outperform the other related approaches. For instance, on the three datasets, our method can averagely achieve $13.8\%$, $15.4\%$, $20.8\%$ improvements in terms of Accuracy, NMI, and ARI over SENet which is proposed very recently and obtains the second best results in the experiments.
翻訳日:2021-10-30 02:23:42 公開日:2021-10-28
# (参考訳) スパースリワード環境におけるリプレイバッファの隠れゴールランキング [全文訳有]

Hindsight Goal Ranking on Replay Buffer for Sparse Reward Environment ( http://arxiv.org/abs/2110.15043v1 )

ライセンス: CC BY 4.0
Tung M. Luu, Chang D. Yoo(参考訳) 本稿では,一様サンプリングに基づく隠れ目標を生成するHER(Hindsight Experience Replay)の限界を克服するために,HGR(Hindsight Goal Ranking)と呼ばれるリプレイ体験の優先順位付け手法を提案する。 HGRサンプルは、RLエージェントが経験から学べる量のプロキシ尺度である時間差(TD)誤差が大きいエピソードに訪れた状態に対して高い確率でサンプリングされる。 大規模なTDエラーの実際のサンプリングは、まず、その経験の平均的なTDエラーに従ってリレーバッファからエピソードをサンプリングし、次に、サンプル化されたエピソードに対して、将来の訪問状態からより大きなTDエラーにつながる後見目標をより高い確率でサンプリングする。 提案手法は,非政治モデルフリーのアクタ批判アルゴリズムであるddpg(deep deterministic policy gradient)と組み合わさって,4つのロボット操作課題の優先順位付けを行わずに学習を高速化する。 実験の結果、HGRは全てのタスクで以前の方法よりも効率的にサンプルを使用することがわかった。

This paper proposes a method for prioritizing the replay experience referred to as Hindsight Goal Ranking (HGR) in overcoming the limitation of Hindsight Experience Replay (HER) that generates hindsight goals based on uniform sampling. HGR samples with higher probability on the states visited in an episode with larger temporal difference (TD) error, which is considered as a proxy measure of the amount which the RL agent can learn from an experience. The actual sampling for large TD error is performed in two steps: first, an episode is sampled from the relay buffer according to the average TD error of its experiences, and then, for the sampled episode, the hindsight goal leading to larger TD error is sampled with higher probability from future visited states. The proposed method combined with Deep Deterministic Policy Gradient (DDPG), an off-policy model-free actor-critic algorithm, accelerates learning significantly faster than that without any prioritization on four challenging simulated robotic manipulation tasks. The empirical results show that HGR uses samples more efficiently than previous methods across all tasks.
翻訳日:2021-10-30 02:10:42 公開日:2021-10-28
# (参考訳) LF-YOLO:X線画像の溶接欠陥検出のための軽量で高速なYOLO [全文訳有]

LF-YOLO: A Lighter and Faster YOLO for Weld Defect Detection of X-ray Image ( http://arxiv.org/abs/2110.15045v1 )

ライセンス: CC BY 4.0
Moyun Liu, Youping Chen, Lei He, Yang Zhang, Jingming Xie(参考訳) X線画像は溶接部の内部状態を反映できるため,品質保証のための製造において重要な役割を担っている。 しかし、異なる欠陥の種類の形状と規模は大きく異なり、モデルが溶接欠陥を検出することは困難である。 本稿では,畳み込みニューラルネットワーク(CNN)に基づく溶接欠陥検出手法,すなわちLighter and Faster YOLO(LF-YOLO)を提案する。 特に、拡張マルチスケール機能(EMF)モジュールは、パラメータベースおよびパラメータフリーなマルチスケール情報抽出操作を実装するように設計されている。 emfは、優れた階層的融合構造によって達成される、より豊富な情報を表現できる抽出された特徴マップを可能にする。 検出ネットワークの性能向上のために,効率的な特徴抽出(EFE)モジュールを提案する。 EFEは入力データを極めて少ない消費で処理し、実際の産業におけるネットワーク全体の実践性を向上させる。 実験の結果, 溶接欠陥ネットワークは性能と消費のバランスが良好であり, 61.5fpsで92.9 map50に達した。 提案手法の有効性をさらに証明するため, 公開データセットMS COCOを用いてテストを行い, LF-YOLOは優れた汎用性検出性能を有することを示した。 コードはhttps://github.com/l momoy/LF-YOLOで公開されている。

X-ray image plays an important role in manufacturing for quality assurance, because it can reflect the internal condition of weld region. However, the shape and scale of different defect types vary greatly, which makes it challenging for model to detect weld defects. In this paper, we propose a weld defect detection method based on convolution neural network (CNN), namely Lighter and Faster YOLO (LF-YOLO). In particularly, an enhanced multiscale feature (EMF) module is designed to implement both parameter-based and parameter-free multi-scale information extracting operation. EMF enables the extracted feature map capable to represent more plentiful information, which is achieved by superior hierarchical fusion structure. To improve the performance of detection network, we propose an efficient feature extraction (EFE) module. EFE processes input data with extremely low consumption, and improve the practicability of whole network in actual industry. Experimental results show that our weld defect network achieves satisfactory balance between performance and consumption, and reaches 92.9 mAP50 with 61.5 FPS. To further prove the ability of our method, we test it on public dataset MS COCO, and the results show that our LF-YOLO has a outstanding versatility detection performance. The code is available at https://github.com/l momoy/LF-YOLO.
翻訳日:2021-10-30 01:49:36 公開日:2021-10-28
# (参考訳) ニューラルネットワークを用いた重み付き回帰推定器の因果効果推定の改善 [全文訳有]

Improving Causal Effect Estimation of Weighted RegressionBased Estimator using Neural Networks ( http://arxiv.org/abs/2110.15075v1 )

ライセンス: CC0 1.0
Plabon Shaha, Talha Islam Zadid, Ismat Rahman, Md. Mosaddek Khan(参考訳) 観察データから因果効果を推定することで、自律システムにおいてどの要因が重要であるかが分かり、より良い意思決定が可能になる。 これは、医療システムにおける治療の選択、産業におけるより良い戦略の策定、政府や社会に対するより良い政策の策定に応用できるためである。 完全データの有効性は、データの高濃度性と相まって、この推定タスクを計算的に難解にする。 近年, ある問題の有界サンプルを用いて解を生成可能な回帰型重み付き推定器が導入された。 しかし、データ次元が大きくなるにつれて、回帰法によって生成される解は劣化する。 このような背景から,サンプルの非線形および有限性の場合の解品質を改善するニューラルネットワークに基づく推定器を導入する。 最後に、我々の経験的評価は、最先端の予測装置と比較して、ソリューションの品質が最大で55%向上したことを示している。

Estimating causal effects from observational data informs us about which factors are important in an autonomous system, and enables us to take better decisions. This is important because it has applications in selecting a treatment in medical systems or making better strategies in industries or making better policies for our government or even the society. Unavailability of complete data, coupled with high cardinality of data, makes this estimation task computationally intractable. Recently, a regression-based weighted estimator has been introduced that is capable of producing solution using bounded samples of a given problem. However, as the data dimension increases, the solution produced by the regression-based method degrades. Against this background, we introduce a neural network based estimator that improves the solution quality in case of non-linear and finitude of samples. Finally, our empirical evaluation illustrates a significant improvement of solution quality, up to around $55\%$, compared to the state-of-the-art estimators.
翻訳日:2021-10-30 01:33:33 公開日:2021-10-28
# (参考訳) MOOMIN:抗癌剤併用療法のためのディープ分子オミクスネットワーク [全文訳有]

MOOMIN: Deep Molecular Omics Network for Anti-Cancer Drug Combination Therapy ( http://arxiv.org/abs/2110.15087v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Anna Gogleva and Sebastian Nilsson and Gavin Edwards and Andriy Nikolov and Eliseo Papa(参考訳) 本稿では,分子オミクスネットワーク(moomin)を用いて,がん治療における薬物組み合わせの相乗効果を予測するマルチモーダルグラフニューラルネットワークを提案する。 本モデルでは,薬物とタンパク質の相互作用ネットワークとメタデータに基づいて,薬物のコンテキストを複数スケールで表現する。 化合物とタンパク質の構造特性をコード化して、二部間相互作用グラフで動作するメッセージ通過スキームの頂点特徴を生成する。 プロパゲートメッセージは、薬物対記述子を作成するために使用したマルチレゾリューションドラッグ表現を形成する。 がん細胞型に薬物の組み合わせ表現を条件づけることにより、見当たらない薬物の対を誘導的に得点できる相乗的スコアリング機能を定義する。 シナジースコアリングタスクの実験結果から、MOOMINは最先端のグラフフィンガープリント、近接保存ノード埋め込み、および既存のディープラーニングアプローチより優れていることが示された。 以上の結果から,モデル予測性能はハイパーパラメータ変化にロバストであることが判明した。 本モデルでは, がん細胞株の幅広い組織に対して高品質な予測を行い, 外部シナジーデータベースを用いてサンプル外予測を検証し, 提案モデルが学習においてデータ効率が高いことを示す。

We propose the molecular omics network (MOOMIN) a multimodal graph neural network that can predict the synergistic effect of drug combinations for cancer treatment. Our model captures the representation based on the context of drugs at multiple scales based on a drug-protein interaction network and metadata. Structural properties of the compounds and proteins are encoded to create vertex features for a message-passing scheme that operates on the bipartite interaction graph. Propagated messages form multi-resolution drug representations which we utilized to create drug pair descriptors. By conditioning the drug combination representations on the cancer cell type we define a synergy scoring function that can inductively score unseen pairs of drugs. Experimental results on the synergy scoring task demonstrate that MOOMIN outperforms state-of-the-art graph fingerprinting, proximity preserving node embedding, and existing deep learning approaches. Further results establish that the predictive performance of our model is robust to hyperparameter changes. We demonstrate that the model makes high-quality predictions over a wide range of cancer cell line tissues, out-of-sample predictions can be validated with external synergy databases, and that the proposed model is data-efficient at learning.
翻訳日:2021-10-30 01:20:24 公開日:2021-10-28
# (参考訳) D2RLIR : 深層強化学習に基づく対話型推薦システムにおける改良された多様化されたランキング機能 [全文訳有]

D2RLIR : an improved and diversified ranking function in interactive recommendation systems based on deep reinforcement learning ( http://arxiv.org/abs/2110.15089v1 )

ライセンス: CC BY 4.0
Vahid Baghi, Seyed Mohammad Seyed Motehayeri, Ali Moeini, Rooholah Abedian(参考訳) 近年,強化学習に基づく対話型レコメンデーションシステムは,リコメンデーション手順を動的プロセスとして,また従来の手法では無視されていた即時フィードバックに基づくレコメンデーションモデルを更新するため,研究者が参加している。 現存する作品は2つの大きな欠点がある。 まず、Top-Nレコメンデーションリストを生成する非効率なランキング関数。 第2に、レコメンデーションの正確さと多様性などの他の評価指標への不注意に注目します。 本稿では,Actor-Criticアーキテクチャを用いて,推薦エージェントとの動的インタラクションをモデル化し,期待される長期報酬を最大化する深層強化学習に基づく推薦システムを提案する。 さらに,spotify の annoy アルゴリズムを用いて,アクタネットワークによる生成動作と最も類似した項目を見つけることを提案する。 その後、全多様性効果ランキングアルゴリズムを用いて、関連性と多様性に関する勧告を生成する。 さらに、配列整列型リカレントニューラルネットワークを用いることなく、ユーザのインタラクションシーケンスの表現に位置符号化を適用する。 movielensデータセットに関する広範囲な実験により,提案モデルがユーザの好みに基づいて,多様かつ関連性のあるレコメンデーションリストを生成できることが証明された。

Recently, interactive recommendation systems based on reinforcement learning have been attended by researchers due to the consider recommendation procedure as a dynamic process and update the recommendation model based on immediate user feedback, which is neglected in traditional methods. The existing works have two significant drawbacks. Firstly, inefficient ranking function to produce the Top-N recommendation list. Secondly, focusing on recommendation accuracy and inattention to other evaluation metrics such as diversity. This paper proposes a deep reinforcement learning based recommendation system by utilizing Actor-Critic architecture to model dynamic users' interaction with the recommender agent and maximize the expected long-term reward. Furthermore, we propose utilizing Spotify's ANNoy algorithm to find the most similar items to generated action by actor-network. After that, the Total Diversity Effect Ranking algorithm is used to generate the recommendations concerning relevancy and diversity. Moreover, we apply positional encoding to compute representations of the user's interaction sequence without using sequence-aligned recurrent neural networks. Extensive experiments on the MovieLens dataset demonstrate that our proposed model is able to generate a diverse while relevance recommendation list based on the user's preferences.
翻訳日:2021-10-30 00:53:21 公開日:2021-10-28
# (参考訳) 一般化異常検出 [全文訳有]

Generalized Anomaly Detection ( http://arxiv.org/abs/2110.15108v1 )

ライセンス: CC BY 4.0
Suresh Singh, Minwei Luo, and Yu Li(参考訳) 本研究は,通常クラスが複数の対象カテゴリからなる場合の異常検出について検討する。 これは標準の1クラス異常検出問題の明らかな一般化である。 しかし, この問題を解決するために複数の一級異常検出器を共同で使用すると, 通常の対象物に対して1つの一級異常検出器を同時に訓練するよりも, 結果が劣ることがわかった。 さらに,複数の正規オブジェクトカテゴリを活用し,コンパクトな識別特徴を学習する,deepmadと呼ばれる新しい異常検出器の開発を行った。 このアルゴリズムは、各通常のオブジェクトカテゴリでトレーニングされたり、通常のオブジェクトカテゴリで共同訓練された2つの上位1クラスアルゴリズムと比較して、データセットのAUC値が高い。 理論的結果に加えて,CIFAR-10,fMNIST,CIF AR-100,RECYCLEという新たなデータセットを用いて実験結果を示す。

We study anomaly detection for the case when the normal class consists of more than one object category. This is an obvious generalization of the standard one-class anomaly detection problem. However, we show that jointly using multiple one-class anomaly detectors to solve this problem yields poorer results as compared to training a single one-class anomaly detector on all normal object categories together. We further develop a new anomaly detector called DeepMAD that learns compact distinguishing features by exploiting the multiple normal objects categories. This algorithm achieves higher AUC values for different datasets compared to two top performing one-class algorithms that either are trained on each normal object category or jointly trained on all normal object categories combined. In addition to theoretical results we present empirical results using the CIFAR-10, fMNIST, CIFAR-100, and a new dataset we developed called RECYCLE.
翻訳日:2021-10-30 00:37:09 公開日:2021-10-28
# (参考訳) フェイクレビュー検出における問題点と過大評価--製品オーナシップとデータオーグリンの実験的制御 [全文訳有]

Confounds and Overestimations in Fake Review Detection: Experimentally Controlling for Product-Ownership and Data-Origin ( http://arxiv.org/abs/2110.15130v1 )

ライセンス: CC BY 4.0
Felix Soldner, Bennett Kleinberg, Shane Johnson(参考訳) オンラインショッピングの人気は着実に高まっている。 同時に、偽の製品レビューが広く出版され、消費者の購買行動に影響を与える可能性がある。 これに対し, 先進的な研究は, 偽商品レビューの自動検出手法を開発してきたが, 分類性能, 潜在的な欠点を含むデータが多く, 妥当性の判断が困難である。 data-origin(すなわち、データセットは複数のソースから構成されている)とproduct ownership(すなわち、レビュー済みの製品を所有または所有していない個人によるレビュー)の2つがある。 本研究では,両コンファウンドが偽レビュー検出に与える影響について検討した。 データオリジン、プロダクトオーナシップ、レビューポーラリティ、veracityを操作する。教師付き学習分析によると、レビューveracity (60.26 - 69.87%) はある程度検出可能であるが、製品オーナシップ (66.19 - 74.17%) やデータオリジン (84.4486.94%) と組み合わせたレビューは分類が容易である。 レビューの妥当性は、製品オーナーシップとデータオリジンの組み合わせ(87.78 - 88.12%)を組み合わせれば最も容易に分類できる。 これらの結果は、レビューの極性によって中和される。

The popularity of online shopping is steadily increasing. At the same time, fake product reviewsare published widely and have the potential to affect consumer purchasing behavior. In response,previous work has developed automated methods for the detection of deceptive product reviews.However, studies vary considerably in terms of classification performance, and many use data thatcontain potential confounds, which makes it difficult to determine their validity. Two possibleconfounds are data-origin (i.e., the dataset is composed of more than one source) and productownership (i.e., reviews written by individuals who own or do not own the reviewed product). Inthe present study, we investigate the effect of both confounds for fake review detection. Using anexperimental design, we manipulate data-origin, product ownership, review polarity, and veracity.Supervised learning analysis suggests that review veracity (60.26 - 69.87%) is somewhat detectablebut reviews additionally confounded with product-ownership (66.19 - 74.17%), or with data-origin(84.44 - 86.94%) are easier to classify. Review veracity is most easily classified if confounded withproduct-ownershi p and data-origin combined (87.78 - 88.12%), suggesting overestimations of thetrue performance in other work. These findings are moderated by review polarity.
翻訳日:2021-10-30 00:20:59 公開日:2021-10-28
# (参考訳) テーブルベクトル表現の生成 [全文訳有]

Generating Table Vector Representations ( http://arxiv.org/abs/2110.15132v1 )

ライセンス: CC BY 4.0
Aneta Koleva, Martin Ringsquandl, Mitchell Joblin, Volker Tresp(参考訳) 高品質なwebテーブルは、知識グラフ(kg)の投入に使用できる豊富な情報ソースである。 本稿では,表解釈(ti)のサブタスクである表からクラスへのアノテーション手法の評価を行う。 機械学習タスクとして,テーブル分類の形式的定義を提案する。 実験的な設定を提案し,ベクトルテーブル表現を生成する最良の方法を見つけるために,基本的に異なる5つのアプローチを評価する。 提案手法は, 表分類作業において高いF1スコアを達成するが, よりリッチなセマンティクスを捉えるために, 専用テーブル符号化モデルは有望な方向であることが示唆された。

High-quality Web tables are rich sources of information that can be used to populate Knowledge Graphs (KG). The focus of this paper is an evaluation of methods for table-to-class annotation, which is a sub-task of Table Interpretation (TI). We provide a formal definition for table classification as a machine learning task. We propose an experimental setup and we evaluate 5 fundamentally different approaches to find the best method for generating vector table representations. Our findings indicate that although transfer learning methods achieve high F1 score on the table classification task, dedicated table encoding models are a promising direction as they appear to capture richer semantics.
翻訳日:2021-10-30 00:08:51 公開日:2021-10-28
# (参考訳) 教師なし学習としての集合とその評価 [全文訳有]

Aggregation as Unsupervised Learning and its Evaluation ( http://arxiv.org/abs/2110.15136v1 )

ライセンス: CC BY 4.0
Maria Ulan, Welf L\"owe, Morgan Ericsson, Anna Wingkvist(参考訳) レグレッションでは、教師付き機械学習を使用して、複数の独立変数を組み合わせて、基底真理(ラベル付き)データ、すなわち独立変数と依存変数(ラベル)のタプルに基づいて依存変数を予測するモデルを見つける。 同様に、アグリゲーションはいくつかの独立変数と依存変数を結合する。 従属変数は独立変数(例えば、独立変数タプルのランクや相対距離)のプロパティを保持し、/またはこれらの独立変数の関数である潜在基底真理を表現する。 しかし、集合モデルを見つけるには基底真理データは利用できない。 その結果、集約モデルはデータに依存しない、あるいは教師なし機械学習アプローチでのみ導出できる。 本研究では,単一独立変数の累積確率分布とその相互依存など,ラベル付きトレーニングデータの固有特性に基づく新しい教師なしアグリゲーション手法を提案する。 提案手法と他のアグリゲーションアプローチを2つの観点から評価できる実証評価フレームワークを提案する。 i)アグリゲーション出力が入力タプルの特性をどのように表現するか、そして (ii) 集約された出力が潜在基底真理をいかにうまく予測できるか。 この目的のために、我々は、明確な基底真理ラベルを含む教師付き回帰アプローチを評価するためにデータセットを使用する。 しかし,集合モデルの導出には基礎的真理は用いられないが,視点からの評価が可能となる。 (ii) より具体的には、uci機械学習リポジトリの回帰データセットを使用して、私たちに対するアグリゲーションのためのデータ非依存で教師なしのアプローチをいくつかベンチマークします。 ベンチマークの結果、我々のアプローチは、他のデータ非依存で教師なしのアグリゲーションアプローチよりも優れています。 これは線形回帰にほぼ匹敵する。

Regression uses supervised machine learning to find a model that combines several independent variables to predict a dependent variable based on ground truth (labeled) data, i.e., tuples of independent and dependent variables (labels). Similarly, aggregation also combines several independent variables to a dependent variable. The dependent variable should preserve properties of the independent variables, e.g., the ranking or relative distance of the independent variable tuples, and/or represent a latent ground truth that is a function of these independent variables. However, ground truth data is not available for finding the aggregation model. Consequently, aggregation models are data agnostic or can only be derived with unsupervised machine learning approaches. We introduce a novel unsupervised aggregation approach based on intrinsic properties of unlabeled training data, such as the cumulative probability distributions of the single independent variables and their mutual dependencies. We present an empirical evaluation framework that allows assessing the proposed approach against other aggregation approaches from two perspectives: (i) how well the aggregation output represents properties of the input tuples, and (ii) how well can aggregated output predict a latent ground truth. To this end, we use data sets for assessing supervised regression approaches that contain explicit ground truth labels. However, the ground truth is not used for deriving the aggregation models, but it allows for the assessment from a perspective (ii). More specifically, we use regression data sets from the UCI machine learning repository and benchmark several data-agnostic and unsupervised approaches for aggregation against ours. The benchmark results indicate that our approach outperforms the other data-agnostic and unsupervised aggregation approaches. It is almost on par with linear regression.
翻訳日:2021-10-29 23:59:48 公開日:2021-10-28
# (参考訳) 表現に対する確率を持つ2元活性化ニューラルネットワークの学習集約 [全文訳有]

Learning Aggregations of Binary Activated Neural Networks with Probabilities over Representations ( http://arxiv.org/abs/2110.15137v1 )

ライセンス: CC BY 4.0
Louis Fortier-Dubois, Ga\"el Letarte, Benjamin Leblanc, Fran\c{c}ois Laviolette, Pascal Germain(参考訳) パラメータの確率分布を考慮することは、非微分アクティベーション関数を持つニューラルネットワークを学習するための効率的な戦略として知られている。 本研究では,確率的ニューラルネットワークの予測器としての期待について検討し,実値重みの正規分布を用いた2値活性化ニューラルネットワークの集約に着目した。 我々の研究は、解析式で与えられるような集約の期待出力値に対して、厳密な一般化境界と学習手順を導出するPAC-Bayesianフレームワークに由来する最近の分析を活用している。 後者の組合せの性質は、従来の研究で近似によって回避されてきたが、動的プログラミングのアプローチのおかげで、深いが狭いニューラルネットワークでは正確な計算が計算可能であることを示す。 これにより、フォワードパスは、アクティベーション値の代わりに表現よりも確率を伝搬するバイナリ活性化ニューラルネットワークのための特異な境界最小化学習アルゴリズムが得られる。 より広いアーキテクチャにスケールする、この新しいニューラルネットワークトレーニングスキームの確率的対応が提案されている。

Considering a probability distribution over parameters is known as an efficient strategy to learn a neural network with non-differentiable activation functions. We study the expectation of a probabilistic neural network as a predictor by itself, focusing on the aggregation of binary activated neural networks with normal distributions over real-valued weights. Our work leverages a recent analysis derived from the PAC-Bayesian framework that derives tight generalization bounds and learning procedures for the expected output value of such an aggregation, which is given by an analytical expression. While the combinatorial nature of the latter has been circumvented by approximations in previous works, we show that the exact computation remains tractable for deep but narrow neural networks, thanks to a dynamic programming approach. This leads us to a peculiar bound minimization learning algorithm for binary activated neural networks, where the forward pass propagates probabilities over representations instead of activation values. A stochastic counterpart of this new neural networks training scheme that scales to wider architectures is proposed.
翻訳日:2021-10-29 23:44:05 公開日:2021-10-28
# (参考訳) レガシーデータセットにおける心臓MRIの深層学習解析 : 動脈硬化のマルチエスニック研究 [全文訳有]

Deep Learning Analysis of Cardiac MRI in Legacy Datasets: Multi-Ethnic Study of Atherosclerosis ( http://arxiv.org/abs/2110.15144v1 )

ライセンス: CC BY 4.0
Avan Suinesiaputra, Charlene A Mauger, Bharath Ambale-Venkatesh, David A Bluemke, Josefine Dam Gade, Kathleen Gilbert, Mark Janse, Line Sofie Hald, Conrad Werkhoven, Colin Wu, Joao A Lima, Alistair A Young(参考訳) 心臓の形状と運動は、心血管疾患のメカニズムを理解するための重要な手がかりとなる。 大規模心画像データの出現に伴い、統計アトラスは、患者固有の心臓形状を、基準人口に関して自動的かつ正確に定量化するための強力なツールとなる。 2000年に開始されたMulti-Ethnic Study of Atherosclerosis (MESA)は、5000人以上の参加者に心臓血管MRIを取り入れた最初の大規模なコホート研究であり、現在では20年以上にわたる追跡データが豊富である。 機械学習に基づく自動解析の構築は、オリジナルの手動解析を拡張するために必要な追加の撮像情報を抽出する必要がある。 しかし、異なるパルスシーケンスを持つMRIデータセットでトレーニングされた機械学習ツールは、そのようなレガシーデータセットでは失敗する。 本稿では,MESAのレガシー心MRIデータに適用したディープラーニングを用いた自動アトラス構築パイプラインについて述べる。 VGGNet畳み込みニューラルネットワークアーキテクチャは, 解剖学的特徴点を検出するために, 2チャンバー, 4チャンバー, 短軸MRIビュー間の伝達学習シーケンスと併用した。 短軸画像における心内膜および心外膜境界の検出にU-Netアーキテクチャを用いた。 両方のネットワークアーキテクチャは、サーバ間のバリエーションに比べてセグメンテーションとランドマーク検出の精度が良い。 リスクファクターの統計的関係は,自動アノテーションと手動アノテーションから得られたアトラスに類似していた。 自動アトラスは、心形態学と将来の事象の関係を調べるために将来の研究に使用できる。

The shape and motion of the heart provide essential clues to understanding the mechanisms of cardiovascular disease. With the advent of large-scale cardiac imaging data, statistical atlases become a powerful tool to provide automated and precise quantification of the status of patient-specific heart geometry with respect to reference populations. The Multi-Ethnic Study of Atherosclerosis (MESA), begun in 2000, was the first large cohort study to incorporate cardiovascular MRI in over 5000 participants, and there is now a wealth of follow-up data over 20 years. Building a machine learning based automated analysis is necessary to extract the additional imaging information necessary for expanding original manual analyses. However, machine learning tools trained on MRI datasets with different pulse sequences fail on such legacy datasets. Here, we describe an automated atlas construction pipeline using deep learning methods applied to the legacy cardiac MRI data in MESA. For detection of anatomical cardiac landmark points, a modified VGGNet convolutional neural network architecture was used in conjunction with a transfer learning sequence between two-chamber, four-chamber, and short-axis MRI views. A U-Net architecture was used for detection of the endocardial and epicardial boundaries in short axis images. Both network architectures resulted in good segmentation and landmark detection accuracies compared with inter-observer variations. Statistical relationships with common risk factors were similar between atlases derived from automated vs manual annotations. The automated atlas can be employed in future studies to examine the relationships between cardiac morphology and future events.
翻訳日:2021-10-29 23:24:08 公開日:2021-10-28
# (参考訳) 文法的誤り訂正のための多様性駆動組合せ [全文訳有]

Diversity-Driven Combination for Grammatical Error Correction ( http://arxiv.org/abs/2110.15149v1 )

ライセンス: CC BY 4.0
Wenjuan Han, Hwee Tou Ng(参考訳) 文法的誤り訂正(英: Grammatical error correction, GEC)は、テキスト中の誤りを検出し、訂正するタスクである。 複数のシステム出力を組み合わせるというアイデアは、GECでうまく使われてきた。 システムの組み合わせを成功させるためには、複数のコンポーネントシステムが多様かつ同等の品質の修正文を生成する必要がある。 しかしながら、既存の最先端のGECアプローチは、類似のシーケンス対シーケンスニューラルネットワークに基づいているため、互いに類似したコンポーネントシステムの出力の組み合わせによる利得が制限される。 本稿では,コンポーネントシステム間の多様性を促進するシステム組み合わせ戦略であるgecのための多様性駆動結合(ddc)を提案する。 我々は,conll-2014共有タスクとbea-2019共有タスクのシステム組み合わせ戦略を評価する。 両方のベンチマークでは、DDCは少数のトレーニング例で大幅なパフォーマンス向上を実現し、コンポーネントシステムよりも大きなマージンでパフォーマンスを向上している。 ソースコードはhttps://github.com/n usnlp/gec-ddcで入手できます。

Grammatical error correction (GEC) is the task of detecting and correcting errors in a written text. The idea of combining multiple system outputs has been successfully used in GEC. To achieve successful system combination, multiple component systems need to produce corrected sentences that are both diverse and of comparable quality. However, most existing state-of-the-art GEC approaches are based on similar sequence-to-sequence neural networks, so the gains are limited from combining the outputs of component systems similar to one another. In this paper, we present Diversity-Driven Combination (DDC) for GEC, a system combination strategy that encourages diversity among component systems. We evaluate our system combination strategy on the CoNLL-2014 shared task and the BEA-2019 shared task. On both benchmarks, DDC achieves significant performance gain with a small number of training examples and outperforms the component systems by a large margin. Our source code is available at https://github.com/n usnlp/gec-ddc.
翻訳日:2021-10-29 23:07:25 公開日:2021-10-28
# (参考訳) 視覚変換器へのアンチエイリアシング [全文訳有]

Blending Anti-Aliasing into Vision Transformer ( http://arxiv.org/abs/2110.15156v1 )

ライセンス: CC BY 4.0
Shengju Qian, Hao Shao, Yi Zhu, Mu Li, Jiaya Jia(参考訳) 自己着脱機構と畳み込みフリー設計に基づくトランスフォーマーアーキテクチャは、最近コンピュータビジョンにおいて優れた性能とブームアプリケーションを見出した。 しかしながら、不連続なパッチワイズトークン化プロセスは暗黙的にジャグリングされたアーティファクトをアテンションマップに導入し、従来の視覚トランスフォーマーのエイリアス問題の原因となっている。 エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。 近年の研究では、現代の畳み込みネットワークは依然としてこの現象に悩まされている。 本研究では,視覚変換器のエイリアス化問題を分析し,アンチエイリアス特性を取り入れようと試みる。 具体的には、上記の問題を緩和するAliasing-Reduction Module(ARM)を提案する。 提案手法の有効性と一般化について,複数のタスクと様々な視覚変換器ファミリーで検討する。 この軽量設計は、いくつかの有名な構造物に対して一貫して明確な強化を達成している。 さらに、我々のモジュールは、視覚変換器のデータ効率とロバスト性も向上する。

The transformer architectures, based on self-attention mechanism and convolution-free design, recently found superior performance and booming applications in computer vision. However, the discontinuous patch-wise tokenization process implicitly introduces jagged artifacts into attention maps, arising the traditional problem of aliasing for vision transformers. Aliasing effect occurs when discrete patterns are used to produce high frequency or continuous information, resulting in the indistinguishable distortions. Recent researches have found that modern convolution networks still suffer from this phenomenon. In this work, we analyze the uncharted problem of aliasing in vision transformer and explore to incorporate anti-aliasing properties. Specifically, we propose a plug-and-play Aliasing-Reduction Module(ARM) to alleviate the aforementioned issue. We investigate the effectiveness and generalization of the proposed method across multiple tasks and various vision transformer families. This lightweight design consistently attains a clear boost over several famous structures. Furthermore, our module also improves data efficiency and robustness of vision transformers.
翻訳日:2021-10-29 22:50:25 公開日:2021-10-28
# (参考訳) 太陽系外惑星の大気進化:ランダム森林によるエミュレーション [全文訳有]

Exoplanet atmosphere evolution: emulation with random forests ( http://arxiv.org/abs/2110.15162v1 )

ライセンス: CC BY 4.0
James G. Rogers, Cl\`audia Jan\'o Mu\~noz, James E. Owen and Richard A. Booth(参考訳) 大気の質量損失は、小さな、密接な太陽系外惑星の人口動態を彫刻する上で重要な役割を果たしている。 このような質量損失による進化の影響を理解するには、観測された太陽系外惑星の分布と比較して、多数の惑星群をモデル化する必要がある。 惑星の観測の質が上がるにつれて、それらを理解するために使われたモデルの精度も高くなる。 しかし、高精度な惑星の集団のモデル化には高い計算コストが要求されるため、これまでは単純な半解析モデルのみがこのような比較に用いられてきた。 これに対処するために、私たちは機械学習に目を向ける。 我々は、xuv光蒸発を含む大気進化モデルに基づいて訓練されたランダムな森林を実装し、惑星の最終半径と大気質量を予測する。 この進化エミュレータは、元のモデルから RMS の分数半径誤差が 1$\%$ であり、評価の速度は $\sim 400$ である。 テストケースでは、エミュレータを用いてケプラー36bとcの初期特性を推定し、その構造が大気の質量損失と一致していることを確認する。 私たちの新しいアプローチは、人口統計分析で使われている高度に洗練された大気進化のモデルへの扉を開き、惑星の形成と進化に関するさらなる洞察を与えます。

Atmospheric mass-loss is known to play a leading role in sculpting the demographics of small, close-in exoplanets. Understanding the impact of such mass-loss driven evolution requires modelling large populations of planets to compare with the observed exoplanet distributions. As the quality of planet observations increases, so should the accuracy of the models used to understand them. However, to date, only simple semi-analytic models have been used in such comparisons since modelling populations of planets with high accuracy demands a high computational cost. To address this, we turn to machine learning. We implement random forests trained on atmospheric evolution models, including XUV photoevaporation, to predict a given planet's final radius and atmospheric mass. This evolution emulator is found to have an RMS fractional radius error of 1$\%$ from the original models and is $\sim 400$ times faster to evaluate. As a test case, we use the emulator to infer the initial properties of Kepler-36b and c, confirming that their architecture is consistent with atmospheric mass loss. Our new approach opens the door to highly sophisticated models of atmospheric evolution being used in demographic analysis, which will yield further insight into planet formation and evolution.
翻訳日:2021-10-29 22:30:31 公開日:2021-10-28
# (参考訳) 投影型Cancelable Biometric Schemesにおける認証攻撃 [全文訳有]

Authentication Attacks on Projection-based Cancelable Biometric Schemes ( http://arxiv.org/abs/2110.15163v1 )

ライセンス: CC BY 4.0
Axel Durbet, Pascal Lafourcade, Denis Migdal, Kevin Thiry-Atighehchi and Paul-Marie Grollemund(参考訳) Cancelable Biometric schemesは、パスワード、ストアドシークレット、ソルトといったユーザ固有のトークンとバイオメトリックデータを組み合わせることで、安全なバイオメトリックテンプレートを生成することを目的としている。 このタイプの変換は、特徴抽出アルゴリズムを用いた生体変換の合成として構成される。 キャンセル可能なバイオメトリックスキームのセキュリティ要件は、比較の精度を失うことなく、テンプレートの不可逆性、非リンク性、無効性を懸念する。 これらの要件に関して、最近いくつかのスキームが攻撃されたが、このような構成の完全な可逆性は、衝突するバイオメトリック特性、特にプレゼンテーションアタックを生み出すために、我々の知識を最大限に発揮することはなかった。 本稿では,整数線形計画 (ilp) と二次制約付き二次計画 (qcqp) を用いて,従来のキャンセルスキームに対する攻撃を形式化する。 これらの最適化問題を解決することで、敵は個人を偽装するために指紋画像をわずかに変更することができる。 さらに、さらに厳しいシナリオでは、複数の個人を同時に同一視することができる。

Cancelable biometric schemes aim at generating secure biometric templates by combining user specific tokens, such as password, stored secret or salt, along with biometric data. This type of transformation is constructed as a composition of a biometric transformation with a feature extraction algorithm. The security requirements of cancelable biometric schemes concern the irreversibility, unlinkability and revocability of templates, without losing in accuracy of comparison. While several schemes were recently attacked regarding these requirements, full reversibility of such a composition in order to produce colliding biometric characteristics, and specifically presentation attacks, were never demonstrated to the best of our knowledge. In this paper, we formalize these attacks for a traditional cancelable scheme with the help of integer linear programming (ILP) and quadratically constrained quadratic programming (QCQP). Solving these optimization problems allows an adversary to slightly alter its fingerprint image in order to impersonate any individual. Moreover, in an even more severe scenario, it is possible to simultaneously impersonate several individuals.
翻訳日:2021-10-29 22:16:55 公開日:2021-10-28
# (参考訳) 解釈可能なモデリングによる臨床医の目標抽出 [全文訳有]

Extracting Clinician's Goals by What-if Interpretable Modeling ( http://arxiv.org/abs/2110.15165v1 )

ライセンス: CC BY 4.0
Chun-Hao Chang, George Alexandru Adam, Rich Caruana, Anna Goldenberg(参考訳) 強化学習(RL)は多くの分野で大きな成功を収めているが、報酬の特定が困難で探索が許されていない場合、医療などの現実的な環境にRLを適用することは困難である。 本研究は,患者の治療における臨床医の報酬回復に焦点を当てる。 今後の成果に基づいて臨床医の行動を説明するために, 根拠を取り入れた。 一般化加法モデル(GAMs)は、精度の高い解釈可能なモデルのクラスであり、報酬を回復するために用いられる。 シミュレーションと実世界の病院データセットの両方で、我々のモデルがベースラインを上回ることを示している。 最後に, 従来使用されていたリニアモデルと矛盾する症例が多い中, 患者を治療する際の臨床ガイドラインに一致した。

Although reinforcement learning (RL) has tremendous success in many fields, applying RL to real-world settings such as healthcare is challenging when the reward is hard to specify and no exploration is allowed. In this work, we focus on recovering clinicians' rewards in treating patients. We incorporate the what-if reasoning to explain clinician's actions based on future outcomes. We use generalized additive models (GAMs) - a class of accurate, interpretable models - to recover the reward. In both simulation and a real-world hospital dataset, we show our model outperforms baselines. Finally, our model's explanations match several clinical guidelines when treating patients while we found the previously-used linear model often contradicts them.
翻訳日:2021-10-29 22:03:22 公開日:2021-10-28
# (参考訳) トレーニンググラフ畳み込みネットワークにおける深さの有益性について

On Provable Benefits of Depth in Training Graph Convolutional Networks ( http://arxiv.org/abs/2110.15174v1 )

ライセンス: CC BY 4.0
Weilin Cong, Morteza Ramezani, Mehrdad Mahdavi(参考訳) グラフ畳み込みネットワーク(GCN)は、通常オーバースムーシングに起因するレイヤの数が増えるにつれて、パフォーマンス低下に悩まされることが知られている。 明らかなコンセンサスにもかかわらず、オーバースムーシングの理論的理解とGCNの実用能力の間には相違があることが観察されている。 具体的には,より深いモデルが表現可能であり,線形収束率でグローバルに最適に収束し,適切なトレーニングを行う限り,非常に高いトレーニング精度を達成できる,という主張がある。 高いトレーニング精度を達成できたにもかかわらず、実験の結果、より深いモデルはテスト段階において不十分に一般化しており、そのような振る舞いに関する既存の理論的理解はいまだに解明されていない。 そこで我々は,GCNの一般化能力を慎重に分析し,高いトレーニング精度を達成するためのトレーニング戦略がGCNの一般化能力を著しく劣化させることを示す。 本研究の目的は,GCNの重み行列を特徴伝搬から切り離して表現力を保ち,優れた一般化性能を確保できる疎結合構造を提案することである。 我々は,様々な合成データと実世界のデータセットについて経験的評価を行い,理論の正確性を検証する。

Graph Convolutional Networks (GCNs) are known to suffer from performance degradation as the number of layers increases, which is usually attributed to over-smoothing. Despite the apparent consensus, we observe that there exists a discrepancy between the theoretical understanding of over-smoothing and the practical capabilities of GCNs. Specifically, we argue that over-smoothing does not necessarily happen in practice, a deeper model is provably expressive, can converge to global optimum with linear convergence rate, and achieve very high training accuracy as long as properly trained. Despite being capable of achieving high training accuracy, empirical results show that the deeper models generalize poorly on the testing stage and existing theoretical understanding of such behavior remains elusive. To achieve better understanding, we carefully analyze the generalization capability of GCNs, and show that the training strategies to achieve high training accuracy significantly deteriorate the generalization capability of GCNs. Motivated by these findings, we propose a decoupled structure for GCNs that detaches weight matrices from feature propagation to preserve the expressive power and ensure good generalization performance. We conduct empirical evaluations on various synthetic and real-world datasets to validate the correctness of our theory.
翻訳日:2021-10-29 21:45:53 公開日:2021-10-28
# (参考訳) 室内3次元シーン登録アルゴリズムにおける粗さの比較検討 [全文訳有]

A Comparative Study of Coarse to Dense 3D Indoor Scene Registration Algorithms ( http://arxiv.org/abs/2110.15179v1 )

ライセンス: CC BY 4.0
Abdenour Amamra and Khalid Boumaza(参考訳) 3Dアライメントは3Dスキャン技術の重要な部分となっている。 例えば、アライメントプロセスをキーポイント検出、キーポイント記述、初期ポーズ推定、アライメント改善の4つのステップに分けることができます。 研究者は各段階の文献にいくつかのアプローチを提供しており、より適切な選択のための比較研究の自然な必要性を示唆している。 そこで本研究では,RGB-Dデータに特化して,室内シーンの完全かつ高精度な3次元再構成と安価な奥行きカメラを実現するための,RGB-Dデータに着目した3次元登録手法の解説と評価を行う。

3D alignment has become a very important part of 3D scanning technology. For instance, we can divide the alignment process into four steps: key point detection, key point description, initial pose estimation, and alignment refinement. Researchers have contributed several approaches to the literature for each step, which suggests a natural need for a comparative study for an educated more appropriate choice. In this work, we propose a description and an evaluation of the different methods used for 3D registration with special focus on RGB-D data to find the best combinations that permit a complete and more accurate 3D reconstruction of indoor scenes with cheap depth cameras.
翻訳日:2021-10-29 21:43:34 公開日:2021-10-28
# (参考訳) URLB: 教師なし強化学習ベンチマーク [全文訳有]

URLB: Unsupervised Reinforcement Learning Benchmark ( http://arxiv.org/abs/2110.15191v1 )

ライセンス: CC BY 4.0
Michael Laskin, Denis Yarats, Hao Liu, Kimin Lee, Albert Zhan, Kevin Lu, Catherine Cang, Lerrel Pinto, Pieter Abbeel(参考訳) deep reinforcement learning(rl)は、複雑な特定の制御タスクを解決する強力なパラダイムとして登場した。 しかし、新しいタスクに迅速に適応できる訓練用ジェネラリストエージェントは、いまだに優れた課題である。 教師なしRLの最近の進歩は、自己教師付き固有の報酬を持つ事前訓練されたRLエージェントが効率よく適応できることを示している。 しかし、これらのアルゴリズムは、ベンチマークが統一されていないため、比較と開発が難しい。 そこで本研究では,unsupervised reinforcement learning benchmark (urlb)を提案する。 urlbは、報酬のない事前トレーニングと、外部報酬を伴うダウンストリームタスク適応の2つのフェーズで構成されている。 deepmindコントロールスイートに基づいて、3つのドメインから12の連続制御タスクを提供し、評価と8つの非教師なしrlメソッドのためのオープンソースコードを提供します。 実装されたベースラインは進展するが、URLBを解くことができず、今後の研究の方向性を提案する。

Deep Reinforcement Learning (RL) has emerged as a powerful paradigm to solve a range of complex yet specific control tasks. Yet training generalist agents that can quickly adapt to new tasks remains an outstanding challenge. Recent advances in unsupervised RL have shown that pre-training RL agents with self-supervised intrinsic rewards can result in efficient adaptation. However, these algorithms have been hard to compare and develop due to the lack of a unified benchmark. To this end, we introduce the Unsupervised Reinforcement Learning Benchmark (URLB). URLB consists of two phases: reward-free pre-training and downstream task adaptation with extrinsic rewards. Building on the DeepMind Control Suite, we provide twelve continuous control tasks from three domains for evaluation and open-source code for eight leading unsupervised RL methods. We find that the implemented baselines make progress but are not able to solve URLB and propose directions for future research.
翻訳日:2021-10-29 21:32:27 公開日:2021-10-28
# (参考訳) 深部生成モデルを用いた受容体結合部位の3次元分子生成 [全文訳有]

Generating 3D Molecules Conditional on Receptor Binding Sites with Deep Generative Models ( http://arxiv.org/abs/2110.15200v1 )

ライセンス: CC BY-SA 4.0
Matthew Ragoza, Tomohide Masuda, David Ryan Koes(参考訳) 構造に基づく創薬の目標は、特定の標的タンパク質に結合する小さな分子を見つけることである。 深層学習は特定の化学工学的性質を持つ薬物様分子の生成に用いられてきたが、タンパク質-リガンド結合相互作用の条件的分布をサンプリングすることでタンパク質と結合すると予測される3d分子の生成にはまだ適用されていない。 本稿では,受容体結合部位に条件付けられた3次元分子構造を生成するための深層学習システムについて述べる。 クロスドッキングしたタンパク質リガンド構造の原子密度グリッド表現を訓練した条件付き変分オートエンコーダを用いてこの問題にアプローチする。 生成原子密度から有効な分子コンフォメーションを構築するために原子適合法と結合推論法を適用する。 生成分子の特性を評価し, 変異受容体を条件づけた場合, それらが著しく変化することを示した。 また,サンプリングと補間技術を用いて生成モデルから学習した潜時空間についても検討する。 この研究は、ディープラーニングによるタンパク質構造からの安定な生物活性分子のエンドツーエンド予測の扉を開く。

The goal of structure-based drug discovery is to find small molecules that bind to a given target protein. Deep learning has been used to generate drug-like molecules with certain cheminformatic properties, but has not yet been applied to generating 3D molecules predicted to bind to proteins by sampling the conditional distribution of protein-ligand binding interactions. In this work, we describe for the first time a deep learning system for generating 3D molecular structures conditioned on a receptor binding site. We approach the problem using a conditional variational autoencoder trained on an atomic density grid representation of cross-docked protein-ligand structures. We apply atom fitting and bond inference procedures to construct valid molecular conformations from generated atomic densities. We evaluate the properties of the generated molecules and demonstrate that they change significantly when conditioned on mutated receptors. We also explore the latent space learned by our generative model using sampling and interpolation techniques. This work opens the door for end-to-end prediction of stable bioactive molecules from protein structures with deep learning.
翻訳日:2021-10-29 21:06:06 公開日:2021-10-28
# (参考訳) 分布外データの検出と校正のための共変量と概念シフトの探索 [全文訳有]

Exploring Covariate and Concept Shift for Detection and Calibration of Out-of-Distribution Data ( http://arxiv.org/abs/2110.15231v1 )

ライセンス: CC BY 4.0
Junjiao Tian, Yen-Change Hsu, Yilin Shen, Hongxia Jin, Zsolt Kira(参考訳) アウト・オブ・ディストリビューション(OOD)検出で動作するイン・ディストリビューションデータのテストを超えて、最近人気が高まっている。 OODデータを分類する最近の試みは、OODの近距離検出の概念を導入している。 具体的には,OODデータの特徴を検出困難度の観点から定義する。 共変量シフト(covariate shift)と概念シフト(concept shift)の2つのタイプの分布シフト(covariate shift)を用いて、oodデータのスペクトルを特徴付けることを提案する。 この特徴は,oodデータの検出と信頼性校正において,各シフトに対する感度が重要であることを示す。 その結果、各種類のデータセットシフトに対する感度を捉えるスコア関数と、それを改善する方法について検討した。 この目的のために,両スコアのkl-divergence分解に基づく,ood検出のための2つのスコア関数,共変量シフトスコアと概念シフトスコアを理論的に導出し,分布データのみを用いて両シフトにおけるood検出を改善するための幾何学的インスパイア手法(geometric odin)を提案する。 さらに,提案手法は,分散データと分散データの両方において最先端のキャリブレーション性能をもたらす表現的ポストホックキャリブレーション関数を自然に導く。 我々は,OOD検出とキャリブレーションの両面で,異なるタイプのシフトの下でうまく機能する手法を最初に提案する。 具体的には、CIFAR100とSVHNのAUROCによる従来のOOD検出を比較的7%改善し、劣化したCIFAR100Cデータセット上で0.084のキャリブレーション誤差を最高のキャリブレーション性能を達成する。 プロジェクトページはhttps://sites.google .com/view/geometric- decomposition。

Moving beyond testing on in-distribution data works on Out-of-Distribution (OOD) detection have recently increased in popularity. A recent attempt to categorize OOD data introduces the concept of near and far OOD detection. Specifically, prior works define characteristics of OOD data in terms of detection difficulty. We propose to characterize the spectrum of OOD data using two types of distribution shifts: covariate shift and concept shift, where covariate shift corresponds to change in style, e.g., noise, and concept shift indicates a change in semantics. This characterization reveals that sensitivity to each type of shift is important to the detection and confidence calibration of OOD data. Consequently, we investigate score functions that capture sensitivity to each type of dataset shift and methods that improve them. To this end, we theoretically derive two score functions for OOD detection, the covariate shift score and concept shift score, based on the decomposition of KL-divergence for both scores, and propose a geometrically-inspir ed method (Geometric ODIN) to improve OOD detection under both shifts with only in-distribution data. Additionally, the proposed method naturally leads to an expressive post-hoc calibration function which yields state-of-the-art calibration performance on both in-distribution and out-of-distribution data. We are the first to propose a method that works well across both OOD detection and calibration and under different types of shifts. Specifically, we improve the previous state-of-the-art OOD detection by relatively 7% AUROC on CIFAR100 vs. SVHN and achieve the best calibration performance of 0.084 Expected Calibration Error on the corrupted CIFAR100C dataset. View project page at https://sites.google .com/view/geometric- decomposition.
翻訳日:2021-10-29 20:25:38 公開日:2021-10-28
# (参考訳) ニューラルアーキテクチャ探索のためのガイド付き進化 [全文訳有]

Guided Evolution for Neural Architecture Search ( http://arxiv.org/abs/2110.15232v1 )

ライセンス: CC BY 4.0
Vasco Lopes, Miguel Santos, Bruno Degardin, Lu\'is A. Alexandre(参考訳) ニューラルアーキテクチャサーチ(NAS)法は優れた結果を得た画像処理に成功している。 しかし、NAS法はしばしば複雑であり、生成したアーキテクチャが良い結果をもたらすとすぐに局所的なミニマに収束する傾向がある。 本稿では、誘導進化型NASの新しいアプローチであるG-EAを提案する。 G-EAの背後にある理論的根拠は、ゼロプロキシ推定器を用いて初期化段階で各世代で複数のアーキテクチャを生成し評価することで探索空間を探索することである。 この初期化段階での評価により、計算量を増やすことなく探索空間からの知識の連続抽出が可能となり、探索を効率的に導くことができる。 さらに、G-EAは子孫世代による最も優れたネットワークの活用を強要し、同時に親の突然変異による探索を強要し、より若いアーキテクチャーを古いネットワークの破壊に好んだ。 CIFAR-10, CIFAR-100, ImageNet16-120のNAS-Bench-201探索空間において, 平均精度は93.98%, 72.12%, 45.94%であった。

Neural Architecture Search (NAS) methods have been successfully applied to image tasks with excellent results. However, NAS methods are often complex and tend to converge to local minima as soon as generated architectures seem to yield good results. In this paper, we propose G-EA, a novel approach for guided evolutionary NAS. The rationale behind G-EA, is to explore the search space by generating and evaluating several architectures in each generation at initialization stage using a zero-proxy estimator, where only the highest-scoring network is trained and kept for the next generation. This evaluation at initialization stage allows continuous extraction of knowledge from the search space without increasing computation, thus allowing the search to be efficiently guided. Moreover, G-EA forces exploitation of the most performant networks by descendant generation while at the same time forcing exploration by parent mutation and by favouring younger architectures to the detriment of older ones. Experimental results demonstrate the effectiveness of the proposed method, showing that G-EA achieves state-of-the-art results in NAS-Bench-201 search space in CIFAR-10, CIFAR-100 and ImageNet16-120, with mean accuracies of 93.98%, 72.12% and 45.94% respectively.
翻訳日:2021-10-29 19:59:54 公開日:2021-10-28
# (参考訳) ロバスト3Dポイントクラウド登録のための部分置換行列のエンドツーエンド学習 [全文訳有]

End-to-end Learning the Partial Permutation Matrix for Robust 3D Point Cloud Registration ( http://arxiv.org/abs/2110.15250v1 )

ライセンス: CC BY 4.0
Zhiyuan Zhang, Jiadai Sun, Yuchao Dai, Dingfu Zhou, Xibin Song, and Mingyi He(参考訳) ディープラーニングベースの3dポイントクラウド処理では相当な進歩があったが,既存のハード代入手法では異常値の処理が自然にできないため,堅牢な登録のための正確な対応を得る方法が依然として大きな課題である。 あるいは、ハード代入よりもマッチング確率を学習するために、ソフトマッチングベースの手法が提案されている。 しかし,本論文では,これらの手法に固有の曖昧さがあることが証明されている。 上記の課題に対処するために,対応する点を外れ値に割り当てず,曖昧さを防止するためにハード代入を実装する部分置換マッチング行列を学習することを提案する。 しかし、この提案は2つの新しい問題、すなわち既存のハード代入アルゴリズムは部分置換行列ではなく全ランク置換行列のみを解くことができ、この所望の行列は微分不能な離散空間で定義される。 そこで我々は,ソフトマッチング行列 (s-step) の解法と,このソフトマトリックスを部分置換行列 (h-step) に投影する2ステップからなる登録パイプライン内の専用ソフト・トゥ・ハード (s2h) マッチング手順を設計する。 具体的には, 最終的な部分置換行列を達成するために, 拡張置換行列を解くために, ハード代入の前に利益行列を補強する。 さらに、エンドツーエンドの学習を保証するため、学習した部分置換行列を監督するが、代わりにソフトマトリックスへの勾配を伝播する。 我々のS2Hマッチング手順は既存の登録フレームワークと容易に統合でき、DCP、RPMNet、DGRなどの代表的なフレームワークで検証されている。 大規模実験により本手法が検証され,頑健な3dポイントクラウド登録のための最新性能が得られた。 コードは公開されます。

Even though considerable progress has been made in deep learning-based 3D point cloud processing, how to obtain accurate correspondences for robust registration remains a major challenge because existing hard assignment methods cannot deal with outliers naturally. Alternatively, the soft matching-based methods have been proposed to learn the matching probability rather than hard assignment. However, in this paper, we prove that these methods have an inherent ambiguity causing many deceptive correspondences. To address the above challenges, we propose to learn a partial permutation matching matrix, which does not assign corresponding points to outliers, and implements hard assignment to prevent ambiguity. However, this proposal poses two new problems, i.e., existing hard assignment algorithms can only solve a full rank permutation matrix rather than a partial permutation matrix, and this desired matrix is defined in the discrete space, which is non-differentiable. In response, we design a dedicated soft-to-hard (S2H) matching procedure within the registration pipeline consisting of two steps: solving the soft matching matrix (S-step) and projecting this soft matrix to the partial permutation matrix (H-step). Specifically, we augment the profit matrix before the hard assignment to solve an augmented permutation matrix, which is cropped to achieve the final partial permutation matrix. Moreover, to guarantee end-to-end learning, we supervise the learned partial permutation matrix but propagate the gradient to the soft matrix instead. Our S2H matching procedure can be easily integrated with existing registration frameworks, which has been verified in representative frameworks including DCP, RPMNet, and DGR. Extensive experiments have validated our method, which creates a new state-of-the-art performance for robust 3D point cloud registration. The code will be made public.
翻訳日:2021-10-29 19:47:29 公開日:2021-10-28
# (参考訳) エンコーダ-デコーダアーキテクチャの理解 [全文訳有]

Understanding How Encoder-Decoder Architectures Attend ( http://arxiv.org/abs/2110.15253v1 )

ライセンス: CC BY 4.0
Kyle Aitken, Vinay V Ramasesh, Yuan Cao, Niru Maheswaranathan(参考訳) 注意深いエンコーダ-デコーダネットワークは、多くのシーケンス-シーケンスタスクを解決する強力な方法であることが証明されている。 これらのネットワークでは、注意はエンコーダとデコーダの状態に一致し、しばしばネットワークの振る舞いを可視化するために使用される。 しかし、適切な注意行列を生成するためにネットワークが使用するメカニズムはまだ謎である。 さらに、これらのメカニズムがエンコーダやデコーダ(リカレント、フィードフォワードなど)に使用される特定のアーキテクチャによってどのように異なるかもよく分かっていない。 本研究では,エンコーダ-デコーダネットワークが異なるシーケンス-シーケンスタスクをどのように解決するかを検討する。 本研究では,シーケンス上の隠れた状態を時間的(入力非依存)と入力駆動(シーケンス位置非依存)に分解する方法を提案する。 タスクの要求に応じて、ネットワークは時間的または入力駆動のコンポーネントに依存します。 これらの知見は、時間成分の形成に違いがあるにもかかわらず、繰り返しおよびフィードフォワードアーキテクチャの両方にまたがる。 全体として,注意に基づくエンコーダ・デコーダネットワークの内部動作に関する新たな知見を提供する。

Encoder-decoder networks with attention have proven to be a powerful way to solve many sequence-to-sequence tasks. In these networks, attention aligns encoder and decoder states and is often used for visualizing network behavior. However, the mechanisms used by networks to generate appropriate attention matrices are still mysterious. Moreover, how these mechanisms vary depending on the particular architecture used for the encoder and decoder (recurrent, feed-forward, etc.) are also not well understood. In this work, we investigate how encoder-decoder networks solve different sequence-to-sequence tasks. We introduce a way of decomposing hidden states over a sequence into temporal (independent of input) and input-driven (independent of sequence position) components. This reveals how attention matrices are formed: depending on the task requirements, networks rely more heavily on either the temporal or input-driven components. These findings hold across both recurrent and feed-forward architectures despite their differences in forming the temporal components. Overall, our results provide new insight into the inner workings of attention-based encoder-decoder networks.
翻訳日:2021-10-29 19:27:48 公開日:2021-10-28
# (参考訳) グループ表現を特徴とする自己教師付き学習

Self-Supervised Learning Disentangled Group Representation as Feature ( http://arxiv.org/abs/2110.15255v1 )

ライセンス: CC BY 4.0
Tan Wang, Zhongqi Yue, Jianqiang Huang, Qianru Sun, Hanwang Zhang(参考訳) よい視覚的表現は観察(画像)から特徴(ベクトル)への推論写像であり、隠れたモジュラー化生成因子(理論)を忠実に反映する。 本稿では,Higinsの非交叉表現の定義を用いてグループ理論的な視点から「良い」表現の概念を定式化し,既存の自己監督学習(SSL)が回転や色化などの単純な拡張特徴のみを解き、残りの意味論をモジュール化することができないことを示す。 そこで本研究では,抽象的意味論とそれらに作用する群を具体的コントラスト学習にうまく基礎づける反復的分割型不変リスク最小化 (ip-irm) という反復的sslアルゴリズムを提案する。 各イテレーションにおいて、IP-IRMはまずトレーニングサンプルを、絡み合ったグループ要素に対応する2つのサブセットに分割する。 そして、群要素をアンタングル化することが保証される部分集合不変のコントラスト損失を最小化する。 我々は、IP-IRMが完全に不整合表現に収束していることを示し、その効果を様々なベンチマークで示す。 コードはhttps://github.com/W angt-CN/IP-IRMで入手できる。

A good visual representation is an inference map from observations (images) to features (vectors) that faithfully reflects the hidden modularized generative factors (semantics). In this paper, we formulate the notion of "good" representation from a group-theoretic view using Higgins' definition of disentangled representation, and show that existing Self-Supervised Learning (SSL) only disentangles simple augmentation features such as rotation and colorization, thus unable to modularize the remaining semantics. To break the limitation, we propose an iterative SSL algorithm: Iterative Partition-based Invariant Risk Minimization (IP-IRM), which successfully grounds the abstract semantics and the group acting on them into concrete contrastive learning. At each iteration, IP-IRM first partitions the training samples into two subsets that correspond to an entangled group element. Then, it minimizes a subset-invariant contrastive loss, where the invariance guarantees to disentangle the group element. We prove that IP-IRM converges to a fully disentangled representation and show its effectiveness on various benchmarks. Codes are available at https://github.com/W angt-CN/IP-IRM.
翻訳日:2021-10-29 18:57:11 公開日:2021-10-28
# (参考訳) 時系列クラスタリングのためのコアセット [全文訳有]

Coresets for Time Series Clustering ( http://arxiv.org/abs/2110.15263v1 )

ライセンス: CC BY 4.0
Lingxiao Huang, K. Sudhir, Nisheeth K. Vishnoi(参考訳) 時系列データを用いたクラスタリング問題に対するコアセット構築の問題について検討する。 この問題は、リアルタイム測定やストレージコストの急激な低下を促進するセンサーの急増により、生物学、医学、経済学など多くの分野において重要になっている。 特に、$n$エンティティの時系列データが$k$クラスタ上の自己相関を持つガウス混合モデルから$n$エンティティの時系列データが$\mathbb{r}^d$で生成されるような設定を考える。 我々の主な貢献は、この混合モデルにおける最大確率目的のためにコアセットを構築するアルゴリズムである。 我々のアルゴリズムは効率的であり、基礎となるガウスの共分散行列に対する穏やかな有界性仮定の下では、コアセットのサイズは各エンティティのエンティティ数と観察数とは独立であり、多項式的に$k$, $d$, $1/\varepsilon$に依存し、ここで$\varepsilon$がエラーパラメータである。 我々は合成データを用いてコアセットの性能を実証的に評価する。

We study the problem of constructing coresets for clustering problems with time series data. This problem has gained importance across many fields including biology, medicine, and economics due to the proliferation of sensors facilitating real-time measurement and rapid drop in storage costs. In particular, we consider the setting where the time series data on $N$ entities is generated from a Gaussian mixture model with autocorrelations over $k$ clusters in $\mathbb{R}^d$. Our main contribution is an algorithm to construct coresets for the maximum likelihood objective for this mixture model. Our algorithm is efficient, and under a mild boundedness assumption on the covariance matrices of the underlying Gaussians, the size of the coreset is independent of the number of entities $N$ and the number of observations for each entity, and depends only polynomially on $k$, $d$ and $1/\varepsilon$, where $\varepsilon$ is the error parameter. We empirically assess the performance of our coreset with synthetic data.
翻訳日:2021-10-29 18:56:01 公開日:2021-10-28
# (参考訳) cognitive network scienceは、自殺の手紙やredditのメンタルヘルスコミュニティで表現された感情を定量化する [全文訳有]

Cognitive network science quantifies feelings expressed in suicide letters and Reddit mental health communities ( http://arxiv.org/abs/2110.15269v1 )

ライセンス: CC BY 4.0
Simmi Marina Joseph, Salvatore Citraro, Virginia Morini, Giulio Rossetti, Massimo Stella(参考訳) メッセージを書くことは感情を表現するための鍵です。 本研究は,認知ネットワーク科学を応用し,自殺ノートやメンタルヘルスポストなどの臨床物語における個人の感情の報告方法を再構築する。 本研究では,感情データに富んだ共著として,概念テキスト間の構文・意味関係を再構築することでこれを実現する。 r/anxiety、r/depression、r/schizophrenia、r/do-it-your-own(r/d iy)フォーラムから、142の自殺ノートと77,000のreddit投稿を、5つのコグニティブネットワークに変換しました。 これらのネットワークは \textit{feel} を囲む意味的枠組みを再構築し、感情に焦点をあてた顕著な関連や感情を定量化する。 すべての臨床Redditボードに悲しみの強い感情があり、恐怖のr/抑うつに加えられ、r/DIYでの喜び/期待に置き換わる。 セマンティクスコミュニティとトピックモデリングは、どちらも、 \textit{regret}, \textit{unhealthy lifestyle}, \textit{low mental well-being} の重要なナラティブトピックを強調する。 重要なことは、信頼/肯定的な言語と共存するネガティブな関連と感情は、より良くテキストに焦点を合わせたものである。 この感情分極は、オンライン臨床ボードが複雑な構造を持っているという定量的証拠を提供する。 この二分法は、r/diyリファレンスボードや自殺ノートには存在せず、後悔と痛みに関するネガティブな感情的な関連は持続するが、愛する人に対処するポジティブなジャーゴンに圧倒される。 われわれの定量的比較は、自殺メモがオンラインRedditの掲示板と比べて感情を表現するさまざまな方法をカプセル化していることを示す強力な証拠だ。 本研究は、デジタルおよび臨床環境での人間の感情の心理的調査を支援するための、解釈可能な定量的支援を提供する。

Writing messages is key to expressing feelings. This study adopts cognitive network science to reconstruct how individuals report their feelings in clinical narratives like suicide notes or mental health posts. We achieve this by reconstructing syntactic/semantic associations between conceptsin texts as co-occurrences enriched with affective data. We transform 142 suicide notes and 77,000 Reddit posts from the r/anxiety, r/depression, r/schizophrenia, and r/do-it-your-own (r/DIY) forums into 5 cognitive networks, each one expressing meanings and emotions as reported by authors. These networks reconstruct the semantic frames surrounding \textit{feel}, enabling a quantification of prominent associations and emotions focused around feelings. We find strong feelings of sadness across all clinical Reddit boards, added to fear r/depression, and replaced by joy/anticipation in r/DIY. Semantic communities and topic modelling both highlight key narrative topics of \textit{regret}, \textit{unhealthy lifestyle} and \textit{low mental well-being}. Importantly, negative associations and emotions co-existed with trustful/positive language, focused on \textit{getting better}. This emotional polarisation provides quantitative evidence that online clinical boards possess a complex structure, where users mix both positive and negative outlooks. This dichotomy is absent in the r/DIY reference board and in suicide notes, where negative emotional associations about regret and pain persist but are overwhelmed by positive jargon addressing loved ones. Our quantitative comparisons provide strong evidence that suicide notes encapsulate different ways of expressing feelings compared to online Reddit boards, the latter acting more like personal diaries and relief valve. Our findings provide an interpretable, quantitative aid for supporting psychological inquiries of human feelings in digital and clinical settings.
翻訳日:2021-10-29 18:19:20 公開日:2021-10-28
# (参考訳) OMASGAN: 境界領域におけるサンプル生成のための最小分布最小スコアGAN [全文訳有]

OMASGAN: Out-of-Distribution Minimum Anomaly Score GAN for Sample Generation on the Boundary ( http://arxiv.org/abs/2110.15273v1 )

ライセンス: CC BY 4.0
Nikolaos Dionelis(参考訳) 教師なしの方法で訓練された生成モデルは、out-of-distribution (ood) サンプルに対して高い確率と低い再構成損失を設定できる。 これにより、タイプIIエラーが増加し、異常が発生し、全体的なAnomaly Detection (AD)パフォーマンスが低下する。 さらに、ADモデルは異常の出現率によって性能が低下する。 これらの制約に対処するため,OoD Minimum Anomaly Score GAN (OMASGAN)を提案する。 OMASGANは、負のデータ増大方法で、推定分布境界上の異常サンプルを生成する。 これらのサンプルはADモデルを洗練するために使用され、非接続モードのマルチモーダルサポートを含む基礎となるデータ分布をより正確に推定する。 OMASGANは、分布境界上に発生する異常最小値のOoDサンプルを自己教師付き学習方法で含み、再訓練を行う。 推論のために、ADに対して、負のサンプルと正のサンプルを生成(負または正)または実(正のみ)で訓練する判別器を考案する。 OMASGANは, 正規クラスデータのみを用いて分布境界上の強・逆OODサンプルを生成し, モード崩壊に効果的に対処する。 本モデルの重要な特徴は, 可逆性を必要とせず, 変分表現において任意のf-ダイバージェンス分布計量を用いる点である。 OMASGANは機能工学を使わず、データ分散について仮定しない。 画像データに対するOMASGANの評価は,AUROCのMNISTおよびCIFAR-10データセットの平均0.24点と0.07点の改善を,他のベンチマークとADの最先端モデルに対して達成していることを示している。

Generative models trained in an unsupervised manner may set high likelihood and low reconstruction loss to Out-of-Distribution (OoD) samples. This increases Type II errors and leads to missed anomalies, overall decreasing Anomaly Detection (AD) performance. In addition, AD models underperform due to the rarity of anomalies. To address these limitations, we propose the OoD Minimum Anomaly Score GAN (OMASGAN). OMASGAN generates, in a negative data augmentation manner, anomalous samples on the estimated distribution boundary. These samples are then used to refine an AD model, leading to more accurate estimation of the underlying data distribution including multimodal supports with disconnected modes. OMASGAN performs retraining by including the abnormal minimum-anomaly-scor e OoD samples generated on the distribution boundary in a self-supervised learning manner. For inference, for AD, we devise a discriminator which is trained with negative and positive samples either generated (negative or positive) or real (only positive). OMASGAN addresses the rarity of anomalies by generating strong and adversarial OoD samples on the distribution boundary using only normal class data, effectively addressing mode collapse. A key characteristic of our model is that it uses any f-divergence distribution metric in its variational representation, not requiring invertibility. OMASGAN does not use feature engineering and makes no assumptions about the data distribution. The evaluation of OMASGAN on image data using the leave-one-out methodology shows that it achieves an improvement of at least 0.24 and 0.07 points in AUROC on average on the MNIST and CIFAR-10 datasets, respectively, over other benchmark and state-of-the-art models for AD.
翻訳日:2021-10-29 18:05:38 公開日:2021-10-28
# (参考訳) 画像フィードバックを用いた制御の学習 [全文訳有]

Learning to Control using Image Feedback ( http://arxiv.org/abs/2110.15290v1 )

ライセンス: CC0 1.0
Krishnan Raghavan, Vignesh Narayanan, Jagannathan Saraangapani(参考訳) スナップショットイメージのような非伝統的なフィードバックを使って複雑なシステムを制御するための学習は、ロボティクス、神経科学、生物学(細胞システム)といった様々な領域で遭遇する重要なタスクである。 本稿では、画像の形でフィードバックを生成するシステムの制御ポリシーを設計するための2つのニューラルネットワーク(NN)ベースのフィードバック制御フレームワークを提案する。 特に,現在の状態に関連する情報をエンコードし,システムの制御動作を制御するスナップショット画像から,一連の制御入力を合成する,深い$q$-network (dqn) 駆動学習制御戦略を開発した。 さらに、ネットワークのトレーニングには、NNトレーニングエラーの一連の線形変換を利用して各レイヤのNN重みを更新するダイレクトエラー駆動学習(EDL)アプローチを採用する。 数値例を用いて,提案手法の有効性を検証する。

Learning to control complex systems using non-traditional feedback, e.g., in the form of snapshot images, is an important task encountered in diverse domains such as robotics, neuroscience, and biology (cellular systems). In this paper, we present a two neural-network (NN)-based feedback control framework to design control policies for systems that generate feedback in the form of images. In particular, we develop a deep $Q$-network (DQN)-driven learning control strategy to synthesize a sequence of control inputs from snapshot images that encode the information pertaining to the current state and control action of the system. Further, to train the networks we employ a direct error-driven learning (EDL) approach that utilizes a set of linear transformations of the NN training error to update the NN weights in each layer. We verify the efficacy of the proposed control strategy using numerical examples.
翻訳日:2021-10-29 17:38:00 公開日:2021-10-28
# (参考訳) 分布外データ検出のためのクラスワイズThresholding [全文訳有]

Class-wise Thresholding for Detecting Out-of-Distribution Data ( http://arxiv.org/abs/2110.15292v1 )

ライセンス: CC BY-SA 4.0
Matteo Guarrera, Baihong Jin, Tung-Wei Lin, Maria Zuluaga, Yuxin Chen, Alberto Sangiovanni-Vincente lli(参考訳) 本稿では,ディープニューラルネットワークを用いたood(out-of-distribut ion)入力データ検出の問題点について考察し,ラベルシフトに対するood検出手法のロバスト性を改善するための簡易かつ効果的な手法を提案する。 私たちの研究は、既存のood検出アルゴリズムのほとんどが、どのクラス入力がアクティベートするか(クラス間の違い)に関わらず、すべてのトレーニング/テストデータ全体を考慮していることに動機づけられています。 広範な実験を通じて,ラベルシフトに敏感で脆弱な検出器が,このような手法によって実現されることが判明した。 そこで本研究では,既存のood検出アルゴリズムのほとんどに適用でき,テスト分布にラベルシフトが存在する場合でも同様のood検出性能を維持できるクラス単位のしきい値設定方式を提案する。

We consider the problem of detecting OoD(Out-of-Distribut ion) input data when using deep neural networks, and we propose a simple yet effective way to improve the robustness of several popular OoD detection methods against label shift. Our work is motivated by the observation that most existing OoD detection algorithms consider all training/test data as a whole, regardless of which class entry each input activates (inter-class differences). Through extensive experimentation, we have found that such practice leads to a detector whose performance is sensitive and vulnerable to label shift. To address this issue, we propose a class-wise thresholding scheme that can apply to most existing OoD detection algorithms and can maintain similar OoD detection performance even in the presence of label shift in the test distribution.
翻訳日:2021-10-29 17:20:32 公開日:2021-10-28
# V2iFi:小型RFセンシングによる車載バイタルサインモニタリング

V2iFi: in-Vehicle Vital Sign Monitoring via Compact RF Sensing ( http://arxiv.org/abs/2110.14848v1 )

ライセンス: Link先を確認
Tianyue Zheng, Zhe Chen, Chao Cai, Jun Luo, Xu Zhang(参考訳) 人々が自動車に費やすかなりの時間を考えると、運転条件下の健康問題が大きな関心事となっている。 このような問題は、疲労、喘息、脳卒中、さらには心臓発作まで様々であるが、バイタルサインや異常な活動によって適切に示される。 したがって、車内バイタルサインモニタリングは、これらの問題を予測し、予防するのに役立ちます。 既存のセンサーベースの(カメラを含む)手法がこれらの指標を検出するのに使用できるのに対して、プライバシの懸念とシステムの複雑さはどちらも便利で効果的で堅牢な代替手段を求める。 本研究の目的は、フロントガラスに搭載されたCOTSインパルスラジオを用いて監視タスクを実行するインテリジェントシステムであるV2iFiを開発することである。 V2iFiは運転状態と乗客の存在下で運転者のバイタルサインを確実に検出できるため、対応する健康問題を推測することができる。 Wi-Fi CSIに基づく以前の作業と比較すると、V2iFiは複数のユーザの反射信号を識別することができ、よりリアルな設定でよりきめ細かい測定が可能になる。 実験室環境と実生活道路試験の両方でV2iFiを評価し, 呼吸速度, 心拍数, 心拍変動を正確に推定できることを示した。 これらの推定結果に基づいて,V2iFi上に機械学習モデルを適用することにより,運転環境における生理的・心理的健康状態を改善する方法について検討する。

Given the significant amount of time people spend in vehicles, health issues under driving condition have become a major concern. Such issues may vary from fatigue, asthma, stroke, to even heart attack, yet they can be adequately indicated by vital signs and abnormal activities. Therefore, in-vehicle vital sign monitoring can help us predict and hence prevent these issues. Whereas existing sensor-based (including camera) methods could be used to detect these indicators, privacy concern and system complexity both call for a convenient yet effective and robust alternative. This paper aims to develop V2iFi, an intelligent system performing monitoring tasks using a COTS impulse radio mounted on the windshield. V2iFi is capable of reliably detecting driver's vital signs under driving condition and with the presence of passengers, thus allowing for potentially inferring corresponding health issues. Compared with prior work based on Wi-Fi CSI, V2iFi is able to distinguish reflected signals from multiple users, and hence provide finer-grained measurements under more realistic settings. We evaluate V2iFi both in lab environments and during real-life road tests; the results demonstrate that respiratory rate, heart rate, and heart rate variability can all be estimated accurately. Based on these estimation results, we further discuss how machine learning models can be applied on top of V2iFi so as to improve both physiological and psychological wellbeing in driving environments.
翻訳日:2021-10-29 16:54:05 公開日:2021-10-28
# 心臓カテーテル化ロボットにおけるPID制御のためのエピソードポリシー伝達を用いた新しいサンプル効率深い強化学習

A Novel Sample-efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Cardiac Catheterization Robots ( http://arxiv.org/abs/2110.14941v1 )

ライセンス: Link先を確認
Olatunji Mumini Omisore, Toluwanimi Akinyemi, Wenke Duan, Wenjing Du, and Lei Wang(参考訳) 近年、経皮的冠動脈インターベンションの手術にロボットカテーテルが用いられており、冠動脈の閉塞を開放するために柔軟な血管内工具を操る。 本研究では, 適応型PIDチューニング戦略を用いたロボットカテーテルの動作制御において, エピソード政策伝達を用いた試料効率の高い深部強化学習を初めて行った。 強化モデルは、エージェントがその環境における相互作用から継続的に学習し、血管内工具の軸方向ナビゲーションのためのPID制御ゲインを適応的に調整するのに役立つ。 このモデルは血管内カテーテル用に設計されたロボットシステムの軸方向運動制御のために検証された。 モデルの適用性を検証するためのシミュレーションと実験実験を行い,ロボットカテーテルの動作制御に適した自己チューニング型PIDゲインが得られた。 平均10回の試験で従来の方法と比較すると、エージェントは0.003mmの誤差でゲインを良くチューニングする。 したがって、提案モデルはより安定したセットポイントモーションコントロールロボットカテーテルを提供する。

Robotic catheterization is typically used for percutaneous coronary intervention procedures nowadays and it involves steering flexible endovascular tools to open up occlusion in the coronaries. In this study, a sample-efficient deep reinforcement learning with episodic policy transfer is, for the first time, used for motion control during robotic catheterization with fully adaptive PID tuning strategy. The reinforcement model aids the agent to continuously learn from its interactions in its environment and adaptively tune PID control gains for axial navigation of endovascular tool. The model was validated for axial motion control of a robotic system designed for intravascular catheterization. Simulation and experimental trials were done to validate the application of the model, and results obtained shows it could self-tune PID gains appropriately for motion control of a robotic catheter system. Performance comparison with conventional methods in average of 10 trials shows the agent tunes the gain better with error of 0.003 mm. Thus, the proposed model would offer more stable set-point motion control robotic catheterization.
翻訳日:2021-10-29 16:53:42 公開日:2021-10-28
# 進化の熱力学と生命の起源

Thermodynamics of Evolution and the Origin of Life ( http://arxiv.org/abs/2110.15066v1 )

ライセンス: Link先を確認
Vitaly Vanchurin, Yuri I. Wolf, Eugene V. Koonin, Mikhail I. Katsnelson(参考訳) 古典熱力学の定式化と統計的学習の記述を組み合わせることで、進化と生命の起源の現象論的理論を概説する。 損失関数の最小化要件に制約される最大エントロピー原理を用いて、生物の標準アンサンブル(集団)、対応するパーティション関数(フィットネスのマクロ的相)、自由エネルギー(フィットネスのマクロ的相)を導出する。 さらに、進化過程の確率性の尺度として温度(生物温度)と化学的ポテンシャル(進化ポテンシャル)を、進化系に新しい訓練可能な変数(追加遺伝子など)を追加するために必要な進化の量として定義する。 次に、生物の温度と進化のポテンシャルの関数として大ポテンシャルをモデル化する進化の記述に対する現象論的アプローチを開発する。 この現象学的アプローチが進化の「理想的突然変異」モデルとその一般化の研究にどのように役立つかを示す。 最後に、この熱力学の枠組みにおいて、分子のアンサンブルから生物のアンサンブルへの遷移、すなわち生命の起源のような進化の大きな遷移は、新しい種類のグランド・カノニカル・アンサンブルの出現とそれに対応する新しい記述の出現と関連するボナ・フェイド物理相転移の特別なケースとしてモデル化できることを示す。

We outline a phenomenological theory of evolution and origin of life by combining the formalism of classical thermodynamics with a statistical description of learning. The maximum entropy principle constrained by the requirement for minimization of the loss function is employed to derive a canonical ensemble of organisms (population), the corresponding partition function (macroscopic counterpart of fitness) and free energy (macroscopic counterpart of additive fitness). We further define the biological counterparts of temperature (biological temperature) as the measure of stochasticity of the evolutionary process and of chemical potential (evolutionary potential) as the amount of evolutionary work required to add a new trainable variable (such as an additional gene) to the evolving system. We then develop a phenomenological approach to the description of evolution, which involves modeling the grand potential as a function of the biological temperature and evolutionary potential. We demonstrate how this phenomenological approach can be used to study the "ideal mutation" model of evolution and its generalizations. Finally, we show that, within this thermodynamics framework, major transitions in evolution, such as the transition from an ensemble of molecules to an ensemble of organisms, that is, the origin of life, can be modeled as a special case of bona fide physical phase transitions that are associated with the emergence of a new type of grand canonical ensemble and the corresponding new level of description
翻訳日:2021-10-29 16:52:27 公開日:2021-10-28
# 非線形因果モデルによる南東太平洋のエアロゾル-雲相互作用の研究

Using Non-Linear Causal Models to Study Aerosol-Cloud Interactions in the Southeast Pacific ( http://arxiv.org/abs/2110.15084v1 )

ライセンス: Link先を確認
Andrew Jesson and Peter Manshausen and Alyson Douglas and Duncan Watson-Parris and Yarin Gal and Philip Stier(参考訳) エアロゾルと雲の相互作用は、エアロゾルが雲に入り、雲凝縮核(CCN)として働くときに始まる無数の効果を含む。 CCNの増加は、平均雲滴サイズの減少をもたらす(r$_{e}$)。 滴の大きさが小さくなれば、より明るく、膨張し、より長く続く雲がより多くの日光を反射し、地球を冷却する。 地球全体では、エアロゾルと雲の相互作用は地球を冷やすが、その効果の強さは異なる気象条件に対して不均一である。 エアロゾルと雲の相互作用をローカル環境の機能としてどのように発展させるかを理解することは、地球系モデルにおけるエラーの原因を理解するのに役立つ。 本研究では、最近の非線形因果機械学習手法を用いて、エアロゾルの雲滴半径に対する不均一効果を研究する。

Aerosol-cloud interactions include a myriad of effects that all begin when aerosol enters a cloud and acts as cloud condensation nuclei (CCN). An increase in CCN results in a decrease in the mean cloud droplet size (r$_{e}$). The smaller droplet size leads to brighter, more expansive, and longer lasting clouds that reflect more incoming sunlight, thus cooling the earth. Globally, aerosol-cloud interactions cool the Earth, however the strength of the effect is heterogeneous over different meteorological regimes. Understanding how aerosol-cloud interactions evolve as a function of the local environment can help us better understand sources of error in our Earth system models, which currently fail to reproduce the observed relationships. In this work we use recent non-linear, causal machine learning methods to study the heterogeneous effects of aerosols on cloud droplet radius.
翻訳日:2021-10-29 16:52:00 公開日:2021-10-28
# 配向マトロイド錯体に対するラベル付きサンプル圧縮スキーム

Labeled sample compression schemes for complexes of oriented matroids ( http://arxiv.org/abs/2110.15168v1 )

ライセンス: Link先を確認
Victor Chepoi, Kolja Knauer, Manon Philibert(参考訳) vc-dimension $d$ の向き付けされたマトロイド(略して com)の複合体の頂点は、適切なラベル付きサンプル圧縮スキームを$d$ で認める。 これはモランとウォーマスと著者の結果をかなり拡張し、サンプル圧縮予想への一歩であり、計算学習理論における最も古い開放の1つである。 一方,本手法では,配向マトロイド理論を用いてCOMのリッチなコンビネータセル構造を利用する。 一方、COMを部分立方体として見たトープグラフは、計量グラフ理論と実りあるリンクを作る

We show that the topes of a complex of oriented matroids (abbreviated COM) of VC-dimension $d$ admit a proper labeled sample compression scheme of size $d$. This considerably extends results of Moran and Warmuth and the authors and is a step towards the sample compression conjecture -- one of the oldest open in computational learning theory. On the one hand, our approach exploits the rich combinatorial cell structure of COMs via oriented matroid theory. On the other hand viewing tope graphs of COMs as partial cubes creates a fruitful link to metric graph theory
翻訳日:2021-10-29 16:51:44 公開日:2021-10-28
# (参考訳) 画像フィードバックを提供する環境のための協調型深層学習フレームワーク [全文訳有]

Cooperative Deep $Q$-learning Framework for Environments Providing Image Feedback ( http://arxiv.org/abs/2110.15305v1 )

ライセンス: CC0 1.0
Krishnan Raghavan and Vignesh Narayanan and Jagannathan Sarangapani(参考訳) 本稿では,深層強化学習設定における2つの課題,サンプル非効率性と低速学習について,nn-driven learningアプローチを用いて論じる。 提案手法では,画像入力の存在下での動作値関数をロバストに近似するために,独立初期化を持つ2つの深層nnを用いる。 特に,td(temporal difference)エラー駆動学習手法を開発し,tdエラーの線形変換のセットを導入し,深層nnの各レイヤのパラメータを直接更新する。 本研究では,誤り駆動学習(EDL)によるコスト最小化は経験的コストの近似であり,学習が進むにつれてネットワークのサイズに関係なく近似誤差が減少することを示す。 シミュレーション解析により,提案手法はより高速な学習と収束を可能にし,バッファサイズの削減(サンプル効率の向上)が必要であることを示す。

In this paper, we address two key challenges in deep reinforcement learning setting, sample inefficiency and slow learning, with a dual NN-driven learning approach. In the proposed approach, we use two deep NNs with independent initialization to robustly approximate the action-value function in the presence of image inputs. In particular, we develop a temporal difference (TD) error-driven learning approach, where we introduce a set of linear transformations of the TD error to directly update the parameters of each layer in the deep NN. We demonstrate theoretically that the cost minimized by the error-driven learning (EDL) regime is an approximation of the empirical cost and the approximation error reduces as learning progresses, irrespective of the size of the network. Using simulation analysis, we show that the proposed methods enables faster learning and convergence and requires reduced buffer size (thereby increasing the sample efficiency).
翻訳日:2021-10-29 16:50:43 公開日:2021-10-28
# 心電図に基づくコンポーネントの近似分解可能部分モジュラー関数最小化

Approximate Decomposable Submodular Function Minimization for Cardinality-Based Components ( http://arxiv.org/abs/2110.14859v1 )

ライセンス: Link先を確認
Nate Veldt, Austin R. Benson, Jon Kleinberg(参考訳) 限られたサポートの単純部分モジュラー関数の和を最小化することは、機械学習で多くの応用が見られた一般部分モジュラー関数最小化の特別な場合である。 我々は、和の成分が濃度ベースである場合の高速な手法を開発し、入力集合のサイズにのみ依存する。 この変種は、画像分割や最近の一般化されたハイパーグラフ切断関数に生じる共通のエネルギー関数など、実際に最も広く適用されているものの一つである。 本研究では,この問題に対する最初の近似アルゴリズムを開発し,その近似アルゴリズムをスパースグラフカット問題に還元することで近似を高速に計算し,所望の近似係数でグラフスパーシティを制御する。 提案手法は,スパースグラフの削減手法と,凹凸関数に対する分割線形近似との新たな接続に依存する。 我々のスパース低減技術は, 画像分割タスクからハイパーグラフクラスタリング問題に至るまで, 理論的ランタイムの大幅な改善と, 実質的な向上をもたらす。

Minimizing a sum of simple submodular functions of limited support is a special case of general submodular function minimization that has seen numerous applications in machine learning. We develop fast techniques for instances where components in the sum are cardinality-based, meaning they depend only on the size of the input set. This variant is one of the most widely applied in practice, encompassing, e.g., common energy functions arising in image segmentation and recent generalized hypergraph cut functions. We develop the first approximation algorithms for this problem, where the approximations can be quickly computed via reduction to a sparse graph cut problem, with graph sparsity controlled by the desired approximation factor. Our method relies on a new connection between sparse graph reduction techniques and piecewise linear approximations to concave functions. Our sparse reduction technique leads to significant improvements in theoretical runtimes, as well as substantial practical gains in problems ranging from benchmark image segmentation tasks to hypergraph clustering problems.
翻訳日:2021-10-29 16:27:16 公開日:2021-10-28
# 不均一エッジコンピューティングの推論のためのパイプライン並列性

Pipeline Parallelism for Inference on Heterogeneous Edge Computing ( http://arxiv.org/abs/2110.14895v1 )

ライセンス: Link先を確認
Yang Hu, Connor Imes, Xuanang Zhao, Souvik Kundu, Peter A. Beerel, Stephen P. Crago, John Paul N. Walters(参考訳) 大きなモデルサイズを持つディープニューラルネットワークは、コンピュータビジョン(CV)と自然言語処理(NLP)におけるタスクの最先端の結果を達成する。 しかし、これらの大規模モデルは、リソース制約のあるエッジデバイスには計算集約的あるいはメモリ集約的すぎる。 並列実行と分散実行に先行する作業は、主にデータセンターで均質なアクセラレータを使用する推論ではなく、トレーニングに重点を置いている。 これは、パイプライン並列性を使用して推論を高速化し、単一エッジデバイスには適用できないより大きな(そしてより正確な)モデルの実行を可能にするエッジシステムのための分散フレームワークである。 edgepipeは、計算、メモリ、ネットワーク帯域の異質性を考慮した最適な分割戦略を用いて、これらの結果を達成する。 実験により、EdgePipeはViT-LargeモデルとViT-Hugeモデルでそれぞれ16のエッジデバイスを使用して10.59\times$と188\times$のスピードアップを達成した。 同様にEdgePipeは、ViT-Hugeスループットを16のエッジデバイスを使用して4ノードベースラインで$3.93\times$で改善している。 最後に、異種デバイスのセットを使用する場合、最先端のPipeDreamよりも4.16\times$スループットが改善される。

Deep neural networks with large model sizes achieve state-of-the-art results for tasks in computer vision (CV) and natural language processing (NLP). However, these large-scale models are too compute- or memory-intensive for resource-constrained edge devices. Prior works on parallel and distributed execution primarily focus on training -- rather than inference -- using homogeneous accelerators in data centers. We propose EdgePipe, a distributed framework for edge systems that uses pipeline parallelism to both speed up inference and enable running larger (and more accurate) models that otherwise cannot fit on single edge devices. EdgePipe achieves these results by using an optimal partition strategy that considers heterogeneity in compute, memory, and network bandwidth. Our empirical evaluation demonstrates that EdgePipe achieves $10.59\times$ and $11.88\times$ speedup using 16 edge devices for the ViT-Large and ViT-Huge models, respectively, with no accuracy loss. Similarly, EdgePipe improves ViT-Huge throughput by $3.93\times$ over a 4-node baseline using 16 edge devices, which independently cannot fit the model in memory. Finally, we show up to $4.16\times$ throughput improvement over the state-of-the-art PipeDream when using a heterogeneous set of devices.
翻訳日:2021-10-29 16:26:57 公開日:2021-10-28
# 選択的分類による取引

Trading via Selective Classification ( http://arxiv.org/abs/2110.14914v1 )

ライセンス: Link先を確認
Nestoras Chalkidis, Rahul Savani(参考訳) 資産の価格が上昇または低下するかどうかを予測しようとする二分分類器は、その予測に従う取引戦略を自然に生じ、したがって常に市場での地位を持つ。 選択的分類は、バイナリまたは多クラス分類器を拡張して、特定の入力に対する予測を行わないようにし、その結果の選択的分類器の精度と入力特徴空間の範囲とのトレードオフを可能にする。 選択型分類器は、その分類器が停止したときの取引位置を取らない取引戦略を引き起こす。 取引戦略設計における二元および三元選択分類の適用について検討する。 三次分類では、価格の上昇または下降のクラスに加えて、どちらの方向にも比較的小さな価格移動に対応する三次クラスを含み、分類器に方向予測を避ける別の方法を与える。 我々は、ロジスティック回帰、ランダム森林、フィードフォワード、リカレントニューラルネットワークの4つの分類アプローチに基づいて、二進法、三進法、選択法、選択法、非選択型分類器の評価と比較を行う。 次に、これらの分類器を商品先物市場でバックテストを行う取引戦略に変換する。 実験の結果,取引の選択的分類の可能性が示された。

A binary classifier that tries to predict if the price of an asset will increase or decrease naturally gives rise to a trading strategy that follows the prediction and thus always has a position in the market. Selective classification extends a binary or many-class classifier to allow it to abstain from making a prediction for certain inputs, thereby allowing a trade-off between the accuracy of the resulting selective classifier against coverage of the input feature space. Selective classifiers give rise to trading strategies that do not take a trading position when the classifier abstains. We investigate the application of binary and ternary selective classification to trading strategy design. For ternary classification, in addition to classes for the price going up or down, we include a third class that corresponds to relatively small price moves in either direction, and gives the classifier another way to avoid making a directional prediction. We use a walk-forward train-validate-test approach to evaluate and compare binary and ternary, selective and non-selective classifiers across several different feature sets based on four classification approaches: logistic regression, random forests, feed-forward, and recurrent neural networks. We then turn these classifiers into trading strategies for which we perform backtests on commodity futures markets. Our empirical results demonstrate the potential of selective classification for trading.
翻訳日:2021-10-29 16:26:33 公開日:2021-10-28
# 関係特異的双曲円錐を用いた不均質階層のモデル化

Modeling Heterogeneous Hierarchies with Relation-specific Hyperbolic Cones ( http://arxiv.org/abs/2110.14923v1 )

ライセンス: Link先を確認
Yushi Bai, Rex Ying, Hongyu Ren, Jure Leskovec(参考訳) 階層的関係は、知識グラフ(KG)が捉えた人間の知識を整理するために必要不可欠である。 階層関係の鍵となる性質は、階層的推論を可能にするためにモデル化される必要がある実体を部分的に順序付けすることである。 しかし、現在のkg埋め込みは単一のグローバル階層(単一のグローバル部分順序付け)のみをモデル化することができ、単一のkgに存在する複数の異種階層をモデル化できない。 ここでは、知識グラフにおける複数の階層的および非階層的関係を同時にモデル化できるKG埋め込みモデルであるConE(Cone Embedding)を紹介する。 ConEは、エンティティを双曲円錐に埋め込み、円錐間の変換として関係をモデル化する。 特に、ConEは双曲埋め込み空間の異なる部分空間における円錐包含制約を用いて、複数の異種階層をキャプチャする。 標準的な知識グラフベンチマークの実験では、ConEは階層的推論タスクの最先端のパフォーマンスと階層的グラフの知識グラフ補完タスクを得る。 具体的には,WN18RRで45.3%,DDB14で16.1%,最先端のHits@1を新たに生成する。 階層的推論タスクに関しては,3つの階層的データセットにおいて,従来の最善の結果を平均20%上回っている。

Hierarchical relations are prevalent and indispensable for organizing human knowledge captured by a knowledge graph (KG). The key property of hierarchical relations is that they induce a partial ordering over the entities, which needs to be modeled in order to allow for hierarchical reasoning. However, current KG embeddings can model only a single global hierarchy (single global partial ordering) and fail to model multiple heterogeneous hierarchies that exist in a single KG. Here we present ConE (Cone Embedding), a KG embedding model that is able to simultaneously model multiple hierarchical as well as non-hierarchical relations in a knowledge graph. ConE embeds entities into hyperbolic cones and models relations as transformations between the cones. In particular, ConE uses cone containment constraints in different subspaces of the hyperbolic embedding space to capture multiple heterogeneous hierarchies. Experiments on standard knowledge graph benchmarks show that ConE obtains state-of-the-art performance on hierarchical reasoning tasks as well as knowledge graph completion task on hierarchical graphs. In particular, our approach yields new state-of-the-art Hits@1 of 45.3% on WN18RR and 16.1% on DDB14 (0.231 MRR). As for hierarchical reasoning task, our approach outperforms previous best results by an average of 20% across three hierarchical datasets.
翻訳日:2021-10-29 16:26:11 公開日:2021-10-28
# 次元の呪いと戦う:グローバル・オプティマを見つけるための機械学習アプローチ

Fighting the curse of dimensionality: A machine learning approach to finding global optima ( http://arxiv.org/abs/2110.14985v1 )

ライセンス: Link先を確認
Julian F. Schumann, Alejandro M. Arag\'on(参考訳) 高次元最適化問題における大域的最適性の発見は、設計空間を十分に探索するために必要な関数評価の数が、その次元とともに指数関数的に増加するため、極めて困難である。 さらに,非凸コスト関数は局所勾配に基づく探索技術では有効ではない。 このような課題を克服するために,我々は機械学習を用いて大域的ミニマを探索し,探索空間の次元を劇的に減少させるオートエンコーダを用い,低次元の潜在空間を探索することでオプティマを求める。 本手法をベンチマーク関数と構造最適化問題を用いて検証し, 一定のコスト関数の挙動を生かして, 最善のグローバル最適化を得るか, 確立した最適化手法と比較して最悪な結果を得るかを示す。

Finding global optima in high-dimensional optimization problems is extremely challenging since the number of function evaluations required to sufficiently explore the design space increases exponentially with its dimensionality. Furthermore, non-convex cost functions render local gradient-based search techniques ineffective. To overcome these difficulties, here we demonstrate the use of machine learning to find global minima, whereby autoencoders are used to drastically reduce the search space dimensionality, and optima are found by surveying the lower-dimensional latent spaces. The methodology is tested on benchmark functions and on a structural optimization problem, where we show that by exploiting the behavior of certain cost functions we either obtain the global optimum at best or obtain superior results at worst when compared to established optimization procedures.
翻訳日:2021-10-29 16:25:50 公開日:2021-10-28
# リーマン多様体上の方向確率的運動プリミティブ

Orientation Probabilistic Movement Primitives on Riemannian Manifolds ( http://arxiv.org/abs/2110.15036v1 )

ライセンス: Link先を確認
Leonel Rozo and Vedant Dave(参考訳) 複雑なロボットの動きを学習するには、タスクが運用空間で定義されたときに、完全な軌道を符号化し、取得できるモデルが必要である。 確率的運動プリミティブ(ProMP)は、実験から学んだ軌道分布をモデル化する原則的アプローチとして際立っている。 ProMPは軌道変調とブレンディングを可能にし、新しい状況へのより良い一般化を実現する。 しかし、ProMPが運用空間で使用される場合、元の定式化は四元数で表される回転軌道を含む完全な運動には直接適用されない。 本稿では,四元軌道の符号化と検索を可能にするRiemann的ProMPの定式化を提案する。 本手法はリーマン多様体理論を基礎とし,多線形測地線回帰を用いてprompsパラメータを推定する。 この新しいアプローチにより、ProMPsは複雑な完全なロボットの動きパターンを学習するのに適したモデルとなる。 Riemannian ProMPは、彼らのワークフローを説明するためのおもちゃの例や、実習実験でテストされている。

Learning complex robot motions necessarily demands to have models that are able to encode and retrieve full-pose trajectories when tasks are defined in operational spaces. Probabilistic movement primitives (ProMPs) stand out as a principled approach that models trajectory distributions learned from demonstrations. ProMPs allow for trajectory modulation and blending to achieve better generalization to novel situations. However, when ProMPs are employed in operational space, their original formulation does not directly apply to full-pose movements including rotational trajectories described by quaternions. This paper proposes a Riemannian formulation of ProMPs that enables encoding and retrieving of quaternion trajectories. Our method builds on Riemannian manifold theory, and exploits multilinear geodesic regression for estimating the ProMPs parameters. This novel approach makes ProMPs a suitable model for learning complex full-pose robot motion patterns. Riemannian ProMPs are tested on toy examples to illustrate their workflow, and on real learning-from-demons tration experiments.
翻訳日:2021-10-29 16:25:34 公開日:2021-10-28
# 両世界のベストを選ぶ:多目的強化学習による多様性と新しい勧告

Choosing the Best of Both Worlds: Diverse and Novel Recommendations through Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2110.15097v1 )

ライセンス: Link先を確認
Dusan Stamenkovic, Alexandros Karatzoglou, Ioannis Arapakis, Xin Xin, Kleomenis Katevas(参考訳) Recommender Systems (RS) の登場以来、RSアルゴリズムの品質を評価する上では、関連性の観点からの推奨の正確さが黄金の基準となっている。 ユーザが"フィルタバブル"で立ち往生し、オプションの配列が大幅に削減されるため、ユーザエクスペリエンスの品質が低下し、混乱に陥ります。 勧告、特にセッションベース/シーケンスレコメンデーションは、既存の最先端アプローチが対処できない、複数の、そしてしばしば矛盾する目標を持つ複雑なタスクである。 本稿では,上記の課題を取り上げ,多目的レコメンデーションタスクを効果的に処理可能な新しい強化学習(rl)フレームワークであるrs設定のためのsmorl(sscalarized multi-objective reinforcement learning)を導入する。 提案されたSMORLエージェントは、推奨の正確性、多様性、新規性の3つの主要な目的を同時に満たすためにRL層を追加して標準レコメンデーションモデルを強化する。 このフレームワークを4つの最先端セッションベースレコメンデーションモデルと統合し、精度のみに焦点を当てた単目的RLエージェントと比較する。 実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。

Since the inception of Recommender Systems (RS), the accuracy of the recommendations in terms of relevance has been the golden criterion for evaluating the quality of RS algorithms. However, by focusing on item relevance, one pays a significant price in terms of other important metrics: users get stuck in a "filter bubble" and their array of options is significantly reduced, hence degrading the quality of the user experience and leading to churn. Recommendation, and in particular session-based/sequen tial recommendation, is a complex task with multiple - and often conflicting objectives - that existing state-of-the-art approaches fail to address. In this work, we take on the aforementioned challenge and introduce Scalarized Multi-Objective Reinforcement Learning (SMORL) for the RS setting, a novel Reinforcement Learning (RL) framework that can effectively address multi-objective recommendation tasks. The proposed SMORL agent augments standard recommendation models with additional RL layers that enforce it to simultaneously satisfy three principal objectives: accuracy, diversity, and novelty of recommendations. We integrate this framework with four state-of-the-art session-based recommendation models and compare it with a single-objective RL agent that only focuses on accuracy. Our experimental results on two real-world datasets reveal a substantial increase in aggregate diversity, a moderate increase in accuracy, reduced repetitiveness of recommendations, and demonstrate the importance of reinforcing diversity and novelty as complementary objectives.
翻訳日:2021-10-29 16:25:19 公開日:2021-10-28
# 利子率モデルの深い校正

Deep Calibration of Interest Rates Model ( http://arxiv.org/abs/2110.15133v1 )

ライセンス: Link先を確認
Mohamed Ben Alaya and Ahmed Kebaier and Djibril Sarr(参考訳) あらゆる金融機関にとって、金利の振舞いを把握できることが必要である。 ディープラーニングの利用は急速に増加しているが、CIRやガウス家といった古典的なレートモデルが広く使われている多くの理由(専門知識、使いやすさ、...)により、依然として広く使われている。 本稿ではニューラルネットワークを用いてG2++モデルの5つのパラメータを校正する。 そこで我々は,市場から校正されたパラメータの参照集合から一様に引き出されたパラメータの合成データセットを構築する。 これらのパラメータからゼロクーポンとフォワード率とその共分散と相関を計算する。 最初のモデルは完全連結ニューラルネットワークで、共分散と相関のみを使用する。 相関よりも共分散が問題に適していることを示す。 第2のモデルは、変換なしでゼロクーポンレートのみを使用する畳み込みニューラルネットワークである。 提案手法は非常に高速(2万キャリブレーションで0.3秒未満)で,エラーが少なく,適合性が良好である。

For any financial institution it is a necessity to be able to apprehend the behavior of interest rates. Despite the use of Deep Learning that is growing very fastly, due to many reasons (expertise, ease of use, ...) classic rates models such as CIR, or the Gaussian family are still being used widely. We propose to calibrate the five parameters of the G2++ model using Neural Networks. To achieve that, we construct synthetic data sets of parameters drawn uniformly from a reference set of parameters calibrated from the market. From those parameters, we compute Zero-Coupon and Forward rates and their covariances and correlations. Our first model is a Fully Connected Neural network and uses only covariances and correlations. We show that covariances are more suited to the problem than correlations. The second model is a Convulutional Neural Network using only Zero-Coupon rates with no transformation. The methods we propose perform very quickly (less than 0.3 seconds for 2 000 calibrations) and have low errors and good fitting.
翻訳日:2021-10-29 16:24:52 公開日:2021-10-28
# ダイナミクスの異なるイミネートデモレータの学習可能性

Learning Feasibility to Imitate Demonstrators with Different Dynamics ( http://arxiv.org/abs/2110.15142v1 )

ライセンス: Link先を確認
Zhangjie Cao, Yilun Hao, Mengxi Li, Dorsa Sadigh(参考訳) 実演から学ぶ目標は、実演の動作を模倣してエージェント(模倣者)の政策を学ぶことである。 デモから学ぶための先行研究は、デモは模倣者と同じダイナミクスを持つデモストレーターによって集められていると仮定している。 しかし、多くの現実世界のアプリケーションでは、この仮定は制限されている -- ロボット工学におけるデータの欠如の問題を改善するために、異なるダイナミクスを持つエージェントから収集されたデモを活用したい。 デモは模倣者にとって実現不可能かもしれないので、これは難しい。 私たちの洞察は、イミテータによって実現可能なデモの可能性を捉えた実現可能性メトリクスを学習できるということです。 実現可能性MDP(f-MDP)を開発し、f-MDPの最適ポリシーを学習することで実現可能性スコアを導出する。 提案した実現可能性尺度は、模倣者がより情報的な実演から学ぶことを奨励し、実演から遠ざかる。 4つの模擬環境と実際のロボットを用いた実験により,本手法で学んだ方針は,従来よりも期待されたリターンを達成できた。 実際のロボットアーム実験のビデオはWebサイト(https://sites.googl e.com/view/learning- feasibility)で公開しています。

The goal of learning from demonstrations is to learn a policy for an agent (imitator) by mimicking the behavior in the demonstrations. Prior works on learning from demonstrations assume that the demonstrations are collected by a demonstrator that has the same dynamics as the imitator. However, in many real-world applications, this assumption is limiting -- to improve the problem of lack of data in robotics, we would like to be able to leverage demonstrations collected from agents with different dynamics. This can be challenging as the demonstrations might not even be feasible for the imitator. Our insight is that we can learn a feasibility metric that captures the likelihood of a demonstration being feasible by the imitator. We develop a feasibility MDP (f-MDP) and derive the feasibility score by learning an optimal policy in the f-MDP. Our proposed feasibility measure encourages the imitator to learn from more informative demonstrations, and disregard the far from feasible demonstrations. Our experiments on four simulated environments and on a real robot show that the policy learned with our approach achieves a higher expected return than prior works. We show the videos of the real robot arm experiments on our website (https://sites.googl e.com/view/learning- feasibility).
翻訳日:2021-10-29 16:23:50 公開日:2021-10-28
# 局所的滑らか性への適応性を持つ1次原始双対法

A first-order primal-dual method with adaptivity to local smoothness ( http://arxiv.org/abs/2110.15148v1 )

ライセンス: Link先を確認
Maria-Luiza Vladarean, Yura Malitsky, Volkan Cevher(参考訳) 我々は、凸対対象 $\min_x \max_y f の鞍点を求める問題を考える。 (x) + \langle ax, y\rangle - g^* (y)$、ただし$f$ は局所リプシッツ勾配を持つ凸函数であり、$g$ は凸であり、おそらく非スムースである。 主勾配ステップと二重近位ステップを交互に行うCondat-V\~uアルゴリズムの適応バージョンを提案する。 この方法は、$\|a\|$ と最近計算された$f$ の勾配のノルムを含む単純な規則によって順応性を実現する。 標準的な仮定の下では、$\mathcal{o}(k^{-1})$ エルゴード収束率を証明できる。 さらに、$f$ が局所的に強凸であり、$A$ が全行ランクを持つとき、我々の方法が線形レートで収束することを示す。 本アルゴリズムの実用性能を示すための数値実験を行った。

We consider the problem of finding a saddle point for the convex-concave objective $\min_x \max_y f(x) + \langle Ax, y\rangle - g^*(y)$, where $f$ is a convex function with locally Lipschitz gradient and $g$ is convex and possibly non-smooth. We propose an adaptive version of the Condat-V\~u algorithm, which alternates between primal gradient steps and dual proximal steps. The method achieves stepsize adaptivity through a simple rule involving $\|A\|$ and the norm of recently computed gradients of $f$. Under standard assumptions, we prove an $\mathcal{O}(k^{-1})$ ergodic convergence rate. Furthermore, when $f$ is also locally strongly convex and $A$ has full row rank we show that our method converges with a linear rate. Numerical experiments are provided for illustrating the practical performance of the algorithm.
翻訳日:2021-10-29 16:23:29 公開日:2021-10-28
# dist2cycle:ホモロジー局在のための単純ニューラルネットワーク

Dist2Cycle: A Simplicial Neural Network for Homology Localization ( http://arxiv.org/abs/2110.15182v1 )

ライセンス: Link先を確認
Alexandros Dimitrios Keros, Vidit Nanda, Kartic Subr(参考訳) 単純複体は、それぞれ異なる解像度で頂点間の多方向順序関係を明示的にエンコードするグラフの高次元一般化と見なすことができる。 この概念は、グラフがペア関係のみを符号化する特徴であるデータの高次元トポロジ的特徴の検出の中心である。 グラフニューラルネットワーク(GNN)を単純な複雑な設定に拡張する試みは試みられているが、これらの手法は本質的にネットワークの基盤となるトポロジ構造を利用していない。 単体錯体の$k$-homological特徴によってパラメータ化された関数のグラフ畳み込みモデルを提案する。 k$-次元ホッジラプラシアンをスペクトル的に操作することにより、提案されたモデルは、基礎となる単純複体の位相的特徴、特に最も近い「最適」なk$-thホモロジー生成器からの各k$-simplexの距離を学習することができ、ホモロジー局在の代替となる。

Simplicial complexes can be viewed as high dimensional generalizations of graphs that explicitly encode multi-way ordered relations between vertices at different resolutions, all at once. This concept is central towards detection of higher dimensional topological features of data, features to which graphs, encoding only pairwise relationships, remain oblivious. While attempts have been made to extend Graph Neural Networks (GNNs) to a simplicial complex setting, the methods do not inherently exploit, or reason about, the underlying topological structure of the network. We propose a graph convolutional model for learning functions parametrized by the $k$-homological features of simplicial complexes. By spectrally manipulating their combinatorial $k$-dimensional Hodge Laplacians, the proposed model enables learning topological features of the underlying simplicial complexes, specifically, the distance of each $k$-simplex from the nearest "optimal" $k$-th homology generator, effectively providing an alternative to homology localization.
翻訳日:2021-10-29 16:23:12 公開日:2021-10-28
# 機械学習からロボティクスへ: 身体的知性への挑戦と機会

From Machine Learning to Robotics: Challenges and Opportunities for Embodied Intelligence ( http://arxiv.org/abs/2110.15245v1 )

ライセンス: Link先を確認
Nicholas Roy, Ingmar Posner, Tim Barfoot, Philippe Beaudoin, Yoshua Bengio, Jeannette Bohg, Oliver Brock, Isabelle Depatie, Dieter Fox, Dan Koditschek, Tomas Lozano-Perez, Vikash Mansinghka, Christopher Pal, Blake Richards, Dorsa Sadigh, Stefan Schaal, Gaurav Sukhatme, Denis Therien, Marc Toussaint and Michiel Van de Panne(参考訳) 機械学習は、長い間キーストーン技術となり、幅広い分野の科学と応用を加速してきた。 したがって、特定の問題集合に学習法を適用するという概念は、特定の分野を前進させるために確立され価値あるモダス・オペランディ(modus operandi)となった。 本稿では,ロボット工学への直接的なアプローチではなく,より一般的に知性を具現化するアプローチである,エネルギーと情報を物理的環境と客観的に交換するシステムである,と論じる。 特に、具体化されたインテリジェントエージェントのパービューは、典型的にはメインストリーム機械学習アプローチの典型的な考慮を超えている。 (i)訓練中に遭遇したものと状況が著しく異なるものについては考慮しない。 (ii) 学習や展開中の相互作用の実質的かつ長期的かつ潜在的に安全に重要な性質を考慮しない。 三 新規な業務への適応を同時に必要としないこと (iv)目的的かつ意図的な行動を通じて、効果的かつ効率的に世界のモデルをキュレートし、拡張すること。 したがって、実際にはこれらの制限は、明確に定義され、運用範囲が狭いロボットにデプロイされた場合、従来のエンジニアリングベースのアプローチと多くの運用上の欠点に苦しむ学習ベースのシステムをもたらす。 インテリジェンスを機械学習の別の応用分野と見なすのとは対照的に、ここでは機械学習技術の進歩の鍵を握っていると論じる。 本稿では,インテリジェンスを具体化する課題と機会を強調し,ロボット学習の最先端を著しく前進させる研究の方向性を提案する。

Machine learning has long since become a keystone technology, accelerating science and applications in a broad range of domains. Consequently, the notion of applying learning methods to a particular problem set has become an established and valuable modus operandi to advance a particular field. In this article we argue that such an approach does not straightforwardly extended to robotics -- or to embodied intelligence more generally: systems which engage in a purposeful exchange of energy and information with a physical environment. In particular, the purview of embodied intelligent agents extends significantly beyond the typical considerations of main-stream machine learning approaches, which typically (i) do not consider operation under conditions significantly different from those encountered during training; (ii) do not consider the often substantial, long-lasting and potentially safety-critical nature of interactions during learning and deployment; (iii) do not require ready adaptation to novel tasks while at the same time (iv) effectively and efficiently curating and extending their models of the world through targeted and deliberate actions. In reality, therefore, these limitations result in learning-based systems which suffer from many of the same operational shortcomings as more traditional, engineering-based approaches when deployed on a robot outside a well defined, and often narrow operating envelope. Contrary to viewing embodied intelligence as another application domain for machine learning, here we argue that it is in fact a key driver for the advancement of machine learning technology. In this article our goal is to highlight challenges and opportunities that are specific to embodied intelligence and to propose research directions which may significantly advance the state-of-the-art in robot learning.
翻訳日:2021-10-29 16:22:50 公開日:2021-10-28
# ニューラルネットワーク近似空間に対するソボレフ型埋め込み

Sobolev-type embeddings for neural network approximation spaces ( http://arxiv.org/abs/2110.15304v1 )

ライセンス: Link先を確認
Philipp Grohs, Felix Voigtlaender(参考訳) 本稿では,ReLUニューラルネットワークの係数の増大による誤差(L^p$)を近似できる速度に応じて関数を分類するニューラルネットワーク近似空間について考察する。 p$の異なる値に対して、これらの空間間の埋め込み定理を証明する。 Furthermore, we derive sharp embeddings of these approximation spaces into H\"older spaces. We find that, analogous to the case of classical function spaces (such as Sobolev spaces, or Besov spaces) it is possible to trade "smoothness" (i.e., approximation rate) for increased integrability. Combined with our earlier results in [arXiv:2104.02746], our embedding theorems imply a somewhat surprising fact related to "learning" functions from a given neural network space based on point samples: if accuracy is measured with respect to the uniform norm, then an optimal "learning" algorithm for reconstructing functions that are well approximable by ReLU neural networks is simply given by piecewise constant interpolation on a tensor product grid.

We consider neural network approximation spaces that classify functions according to the rate at which they can be approximated (with error measured in $L^p$) by ReLU neural networks with an increasing number of coefficients, subject to bounds on the magnitude of the coefficients and the number of hidden layers. We prove embedding theorems between these spaces for different values of $p$. Furthermore, we derive sharp embeddings of these approximation spaces into H\"older spaces. We find that, analogous to the case of classical function spaces (such as Sobolev spaces, or Besov spaces) it is possible to trade "smoothness" (i.e., approximation rate) for increased integrability. Combined with our earlier results in [arXiv:2104.02746], our embedding theorems imply a somewhat surprising fact related to "learning" functions from a given neural network space based on point samples: if accuracy is measured with respect to the uniform norm, then an optimal "learning" algorithm for reconstructing functions that are well approximable by ReLU neural networks is simply given by piecewise constant interpolation on a tensor product grid.
翻訳日:2021-10-29 16:22:25 公開日:2021-10-28
# e-ffective:印象的発話の感情と効果を探索する視覚分析システム

E-ffective: A Visual Analytic System for Exploring the Emotion and Effectiveness of Inspirational Speeches ( http://arxiv.org/abs/2110.14908v1 )

ライセンス: Link先を確認
Kevin Maher, Zeyuan Huang, Jiancheng Song, Xiaoming Deng, Yu-Kun Lai, Cuixia Ma, Hao Wang, Yong-Jin Liu, Hongan Wang(参考訳) スピーチを効果的にする理由は長い間議論の対象とされてきたが、今日まで公の講演の専門家の間では、スピーチを効果的にする要因と、これらの要因がスピーチにおいて果たす役割について幅広い議論が交わされている。 また,効果的な発話戦略を理解するための定量的分析手法が欠如している。 本稿では,話し手や初心者が発話要因の役割と効果的な発話への寄与の両方を分析できる視覚分析システムであるE-ffectiveを提案する。 ドメインエキスパートへのインタビューや既存文献の調査から、インスピレーションのあるスピーチで考慮すべき重要な要素を抽出した。 実効性データと関係のあるマルチモーダルデータから生成した因子を得た。 本システムは,新たな可視化手法とインタラクションによる感情の影響を含む,インスピレーション音声における臨界因子の迅速な理解を支援する。 E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化手法である。 評価では,言語要因に関する専門家のドメイン知識に対するシステムの影響を検討した。 さらに,刺激的発話効果の分析支援を行う初心者・専門家を対象に,システムのユーザビリティについて検討した。

What makes speeches effective has long been a subject for debate, and until today there is broad controversy among public speaking experts about what factors make a speech effective as well as the roles of these factors in speeches. Moreover, there is a lack of quantitative analysis methods to help understand effective speaking strategies. In this paper, we propose E-ffective, a visual analytic system allowing speaking experts and novices to analyze both the role of speech factors and their contribution in effective speeches. From interviews with domain experts and investigating existing literature, we identified important factors to consider in inspirational speeches. We obtained the generated factors from multi-modal data that were then related to effectiveness data. Our system supports rapid understanding of critical factors in inspirational speeches, including the influence of emotions by means of novel visualization methods and interaction. Two novel visualizations include E-spiral (that shows the emotional shifts in speeches in a visually compact way) and E-script (that connects speech content with key speech delivery information). In our evaluation we studied the influence of our system on experts' domain knowledge about speech factors. We further studied the usability of the system by speaking novices and experts on assisting analysis of inspirational speech effectiveness.
翻訳日:2021-10-29 16:22:11 公開日:2021-10-28
# (参考訳) オートエンコーダの強化は? [全文訳有]

How to boost autoencoders? ( http://arxiv.org/abs/2110.15307v1 )

ライセンス: CC BY 4.0
Sai Krishna, Thulasi Tholeti, Sheetal Kalyani(参考訳) オートエンコーダは、多くのドメインのアプリケーションを持つニューラルネットワークのカテゴリであり、そのパフォーマンスの改善は機械学習コミュニティから大きな関心を集めている。 ブーピングのようなアンサンブル法は、通常のニューラルネットワークの性能を高めるためにしばしば用いられる。 本稿では,オートエンコーダの高速化に伴う課題について議論し,その克服のためのフレームワークを提案する。 提案手法は, 出力(エンコードまたは再構成)が使用される場合に, ブースティングの利点を実現する。 ブーストアンサンブルの有用性は,オートエンコーダを広く採用する2つのアプリケーション (異常検出とクラスタリング) で実証された。

Autoencoders are a category of neural networks with applications in numerous domains and hence, improvement of their performance is gaining substantial interest from the machine learning community. Ensemble methods, such as boosting, are often adopted to enhance the performance of regular neural networks. In this work, we discuss the challenges associated with boosting autoencoders and propose a framework to overcome them. The proposed method ensures that the advantages of boosting are realized when either output (encoded or reconstructed) is used. The usefulness of the boosted ensemble is demonstrated in two applications that widely employ autoencoders: anomaly detection and clustering.
翻訳日:2021-10-29 16:20:00 公開日:2021-10-28
# モデル特性予測のためのニューラルネットワーク重み付き自己教師あり表現学習

Self-Supervised Representation Learning on Neural Network Weights for Model Characteristic Prediction ( http://arxiv.org/abs/2110.15288v1 )

ライセンス: Link先を確認
Konstantin Sch\"urholt, Dimche Kostadinov, Damian Borth(参考訳) 自己監視学習(SSL)は有用な情報保存表現を学習する。 ニューラルネットワーク(NN)は広く応用されているが、その重量空間は未だ完全には理解されていない。 そこで我々は,NNの人口重みのニューラルネットワーク表現をSSLを用いて学習することを提案する。 そのために、ドメイン固有のデータ拡張と適応型アテンションアーキテクチャを導入します。 この領域における自己教師あり表現学習は多様なnnモデル特性を回復できることを示す。 さらに,超パラメータ予測,テスト精度,一般化ギャップの予測,分布外設定への転送などにおいて,提案手法が先行研究よりも優れていることを示す。

Self-Supervised Learning (SSL) has been shown to learn useful and information-preservi ng representations. Neural Networks (NNs) are widely applied, yet their weight space is still not fully understood. Therefore, we propose to use SSL to learn neural representations of the weights of populations of NNs. To that end, we introduce domain specific data augmentations and an adapted attention architecture. Our empirical evaluation demonstrates that self-supervised representation learning in this domain is able to recover diverse NN model characteristics. Further, we show that the proposed learned representations outperform prior work for predicting hyper-parameters, test accuracy, and generalization gap as well as transfer to out-of-distribution settings.
翻訳日:2021-10-29 16:07:26 公開日:2021-10-28
# 通信効率の高いadmmベース連合学習

Communication-Effici ent ADMM-based Federated Learning ( http://arxiv.org/abs/2110.15318v1 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) フェデレーション学習はここ数年で進歩を見せているが、アルゴリズムがコミュニケーションリソースを節約する方法、計算コストの削減方法、収束するかどうかなど、多くの課題に直面している。 これらの課題に対処するために,ADMMに基づく連邦学習を正確にかつ不正確に行うことを提案する。 これらは通信効率だけでなく、凸性フリーやデータ分布と無関係といった非常に穏やかな条件下で線形に収束する。 さらに、不正確なバージョンは計算複雑性が低く、計算負担を大幅に軽減する。

Federated learning has shown its advances over the last few years but is facing many challenges, such as how algorithms save communication resources, how they reduce computational costs, and whether they converge. To address these issues, this paper proposes exact and inexact ADMM-based federated learning. They are not only communication-effici ent but also converge linearly under very mild conditions, such as convexity-free and irrelevance to data distributions. Moreover, the inexact version has low computational complexity, thereby alleviating the computational burdens significantly.
翻訳日:2021-10-29 16:07:16 公開日:2021-10-28
# Scatterbrain: スパースと低ランクアテンション近似の統合

Scatterbrain: Unifying Sparse and Low-rank Attention Approximation ( http://arxiv.org/abs/2110.15343v1 )

ライセンス: Link先を確認
Beidi Chen, Tri Dao, Eric Winsor, Zhao Song, Atri Rudra, Christopher R\'e(参考訳) 効率的なトランスフォーマーの最近の進歩は、長いシーケンスをモデル化する際の計算と記憶のボトルネックを軽減するために、注意行列のスパーシリティまたはローランク特性を利用する。 しかし、モデル品質と効率のトレードオフをバランスさせ、異なるタスクに対して一大の近似を実行することは依然として困難である。 このトレードオフをよりよく理解するために、スパースとローランクの近似が、注意のソフトマックス温度によって決定される異なるレジームにおいて優れていること、スパース+ローランクがそれぞれを上回ることができることを観察する。 古典的ロバスト-pcaアルゴリズムに着想を得て,局所性に敏感なハッシュによる)スパースと(カーネル特徴マップによる)ローランクの注意を(正確かつ効率的な近似のために)統一する新しい手法であるscatterbrainを提案する。 推定値は明らかに低い誤差でバイアスを受けない。 Scatterbrain は BigGAN 画像生成と 事前訓練した T2T-ViT のドロップイン置換において, ベースラインの2.1倍の誤差を達成できることを実証的に示す。 トレーニング済みのT2Tビジョントランスでは、微調整がなくても、Scatterbrainは1%の精度で注意メモリの98%を削減できる。 我々は,言語モデリングや長距離作業において,分散あるいは低ランクの効率的なトランスフォーマーよりも,最大4点高いパープレキシティと5点高い平均精度を持つエンドツーエンドトレーニングのための散乱脳を実演する。

Recent advances in efficient Transformers have exploited either the sparsity or low-rank properties of attention matrices to reduce the computational and memory bottlenecks of modeling long sequences. However, it is still challenging to balance the trade-off between model quality and efficiency to perform a one-size-fits-all approximation for different tasks. To better understand this trade-off, we observe that sparse and low-rank approximations excel in different regimes, determined by the softmax temperature in attention, and sparse + low-rank can outperform each individually. Inspired by the classical robust-PCA algorithm for sparse and low-rank decomposition, we propose Scatterbrain, a novel way to unify sparse (via locality sensitive hashing) and low-rank (via kernel feature map) attention for accurate and efficient approximation. The estimation is unbiased with provably low error. We empirically show that Scatterbrain can achieve 2.1x lower error than baselines when serving as a drop-in replacement in BigGAN image generation and pre-trained T2T-ViT. On a pre-trained T2T Vision transformer, even without fine-tuning, Scatterbrain can reduce 98% of attention memory at the cost of only 1% drop in accuracy. We demonstrate Scatterbrain for end-to-end training with up to 4 points better perplexity and 5 points better average accuracy than sparse or low-rank efficient transformers on language modeling and long-range-arena tasks.
翻訳日:2021-10-29 16:07:07 公開日:2021-10-28
# 内在から非現実へ:文脈化されたレコメンダシステムの説明可能性について

From Intrinsic to Counterfactual: On the Explainability of Contextualized Recommender Systems ( http://arxiv.org/abs/2110.14844v1 )

ライセンス: Link先を確認
Yao Zhou, Haonan Wang, Jingrui He, Haixun Wang(参考訳) ディープラーニングベースの埋め込みアプローチの普及に伴い、レコメンダシステムは様々な情報フィルタリングアプリケーションにおいて、証明され、不可欠のツールとなっている。 しかし、それらの多くは、ディープモデルの入力のどの側面が最終ランク決定を導くかの診断が難しいため、人間の利害関係者によって理解できないことが多い。 本稿では,レコメンデーションと説明可能性のジレンマについて検討し,コンテキスト的特徴(例えばユーザからの項目レビュー)を活用することで,その性能を犠牲にすることなく,一連のレコメンデーションシステムを設計可能であることを示す。 特に,ホワイトボックス,グレーボックス,ブラックボックスという,モデルの透明性を段階的に変更した3種類の推奨戦略を提案する。 それぞれの戦略は、注意重み、敵の摂動、反事実の摂動という異なるメカニズムによってランキング決定を説明する。 ユーザとアイテムが明示的なインタラクションを持つコンテキスト化された設定の下で,これら説明可能なモデルを5つの実世界のデータセットに適用する。 実験結果から,本モデルは高い競争力を持つランキング性能を達成し,定量的指標と質的可視化の観点で,正確かつ効果的な説明が得られた。

With the prevalence of deep learning based embedding approaches, recommender systems have become a proven and indispensable tool in various information filtering applications. However, many of them remain difficult to diagnose what aspects of the deep models' input drive the final ranking decision, thus, they cannot often be understood by human stakeholders. In this paper, we investigate the dilemma between recommendation and explainability, and show that by utilizing the contextual features (e.g., item reviews from users), we can design a series of explainable recommender systems without sacrificing their performance. In particular, we propose three types of explainable recommendation strategies with gradual change of model transparency: whitebox, graybox, and blackbox. Each strategy explains its ranking decisions via different mechanisms: attention weights, adversarial perturbations, and counterfactual perturbations. We apply these explainable models on five real-world data sets under the contextualized setting where users and items have explicit interactions. The empirical results show that our model achieves highly competitive ranking performance, and generates accurate and effective explanations in terms of numerous quantitative metrics and qualitative visualizations.
翻訳日:2021-10-29 16:06:20 公開日:2021-10-28
# SIMCNN -- ハードウェアにおけるCNNトレーニングの高速化と計算的類似性の爆発

SIMCNN -- Exploiting Computational Similarity to Accelerate CNN Training in Hardware ( http://arxiv.org/abs/2110.14904v1 )

ライセンス: Link先を確認
Vahid Janfaza, Kevin Weston, Moein Razavi, Shantanu Mandal, Abdullah Muzahid(参考訳) 畳み込みニューラルネットワーク(cnn)は、トレーニングに集約的な計算を行う。 これは多くのカーネルと入力の間のかなりの数の多次元ドット積からなる。 入力ベクトル(すなわち入力ベクトル)から抽出されたベクトルには顕著な類似性がある。 ある入力ベクトルが他方のベクトルと類似している場合、そのカーネルとの計算も他方のベクトルと類似しているため、既に計算済みの結果を再利用することでスキップすることができる。 そこで本研究では,ハードウェアアクセラレーションにおけるCNNトレーニングにおける計算の類似性を生かした局所性感度ハッシュ(LSH)に基づく新しい手法を提案する。 提案方式はSIMCNNと呼ばれ、キャッシュ(SIMCACHE)を用いて最近の入力ベクトルのLSHシグネチャを計算結果とともに格納する。 新しい入力ベクトルのLSHシグネチャがSIMCACHEの既存のベクトルのシグネチャと一致する場合、既に計算済みの結果が新しいベクトルに対して再利用される。 SIMCNNは、ハードウェアにおけるCNNトレーニングの加速に計算的類似性を利用する最初の作品である。 本稿では,SIMCNNの設計,ワークフロー,実装について述べる。 4つの異なるディープラーニングモデルによる実験結果から,SIMCNNは大量の計算を省き,学習時間を最大43%改善することがわかった。

Convolution neural networks (CNN) are computation intensive to train. It consists of a substantial number of multidimensional dot products between many kernels and inputs. We observe that there are notable similarities among the vectors extracted from inputs (i.e., input vectors). If one input vector is similar to another one, its computations with the kernels are also similar to those of the other and therefore, can be skipped by reusing the already-computed results. Based on this insight, we propose a novel scheme based on locality sensitive hashing (LSH) to exploit the similarity of computations during CNN training in a hardware accelerator. The proposed scheme, called SIMCNN, uses a cache (SIMCACHE) to store LSH signatures of recent input vectors along with the computed results. If the LSH signature of a new input vector matches with that of an already existing vector in the SIMCACHE, the already-computed result is reused for the new vector. SIMCNN is the first work that exploits computational similarity for accelerating CNN training in hardware. The paper presents a detailed design, workflow, and implementation of SIMCNN. Our experimental evaluation with four different deep learning models shows that SIMCNN saves a significant number of computations and therefore, improves training time up to 43%.
翻訳日:2021-10-29 16:04:35 公開日:2021-10-28
# オートグルーダ導入前後のプログラミングコース評価の分析

An Analysis of Programming Course Evaluations Before and After the Introduction of an Autograder ( http://arxiv.org/abs/2110.15134v1 )

ライセンス: Link先を確認
Gerhard Hagerer, Laura Lahesoo, Miriam Ansch\"utz, Stephan Krusche, Georg Groh(参考訳) 一般的に、高等教育機関の入門プログラミングコースには、何百人もの学生がプログラムを学びたがっている。 提出されたソースコードをレビューし、フィードバックを提供するための手作業はもはや管理できない。 提出された宿題を手作業でレビューするのは主観的で不公平である。 異なるオートグラファーは、この状況に役立てることができるが、プログラミングクラスや教育に対する学生の全体的な認識に、オートグラファーがどのように影響を与えるかについての知識は乏しい。 これは、学生の増加に対応しながらプログラミングコースを魅力的に保つためのコース主催者や機関にとって重要である。 本稿では,最近自己評価を導入した大規模コンピュータ科学科目における大学評価の標準化に対する回答について検討する。 この介入前後の違いを分析する。 追加の観察を取り入れることで,教師と学生の対話性の向上,コース全体の品質向上,学習成功の改善,使用時間の増加,難易度低減など,データに大きな変化が,自動学習者がどのように貢献したのかを仮定した。 この質的研究は、定量的調査とデータ分析を定義するための仮説を提供することを目的としている。 オートグレーダ技術は、プログラミングコースにおける生徒の満足度を向上させるための教育方法として検証することができる。

Commonly, introductory programming courses in higher education institutions have hundreds of participating students eager to learn to program. The manual effort for reviewing the submitted source code and for providing feedback can no longer be managed. Manually reviewing the submitted homework can be subjective and unfair, particularly if many tutors are responsible for grading. Different autograders can help in this situation; however, there is a lack of knowledge about how autograders can impact students' overall perception of programming classes and teaching. This is relevant for course organizers and institutions to keep their programming courses attractive while coping with increasing students. This paper studies the answers to the standardized university evaluation questionnaires of multiple large-scale foundational computer science courses which recently introduced autograding. The differences before and after this intervention are analyzed. By incorporating additional observations, we hypothesize how the autograder might have contributed to the significant changes in the data, such as, improved interactions between tutors and students, improved overall course quality, improved learning success, increased time spent, and reduced difficulty. This qualitative study aims to provide hypotheses for future research to define and conduct quantitative surveys and data analysis. The autograder technology can be validated as a teaching method to improve student satisfaction with programming courses.
翻訳日:2021-10-29 16:03:32 公開日:2021-10-28
# 劣化基準画像品質評価

Degraded Reference Image Quality Assessment ( http://arxiv.org/abs/2110.14899v1 )

ライセンス: Link先を確認
Shahrukh Athar, Zhou Wang(参考訳) 現実的なメディア配信システムでは、ビジュアルコンテンツは通常、デリバリーチェーンに沿って品質劣化の複数の段階を経るが、プライスタンスソースコンテンツは、チェーンに沿ったほとんどの品質監視ポイントで利用でき、品質評価の基準となることは滅多にない。 その結果、フル参照(FR)およびリダクション参照(RR)画像品質評価(IQA)手法は一般的に実現不可能である。 no-reference(NR)メソッドは容易に適用できるが、その性能は信頼できないことが多い。 一方,ビデオトランスコーダの入力などでは,劣化品質の中間的参照がしばしば見られるが,適切な方法でそれらを最大限に利用する方法については深く検討されていない。 ここでは、分解参照IQA(DR IQA)という新しいパラダイムを確立するための最初の試みの1つである。 具体的には、DR IQAのアーキテクチャをレイアウトし、構成の選択を示す6ビットコードを導入する。 DR IQA専用の最初の大規模データベースを構築し,公開する。 我々は,5つの多重歪み組合せを包括的に解析することにより,多段歪みパイプラインの歪み挙動を観察する。 これらの結果に基づき,新しいdr iqaモデルを開発し,frおよびnrモデルから得られた一連のベースラインモデルとの比較を行った。 その結果、DR IQAは複数の歪み環境において顕著な性能向上をもたらすことが示唆され、DR IQAはさらなる探索に値する有効なIQAパラダイムとして確立された。

In practical media distribution systems, visual content usually undergoes multiple stages of quality degradation along the delivery chain, but the pristine source content is rarely available at most quality monitoring points along the chain to serve as a reference for quality assessment. As a result, full-reference (FR) and reduced-reference (RR) image quality assessment (IQA) methods are generally infeasible. Although no-reference (NR) methods are readily applicable, their performance is often not reliable. On the other hand, intermediate references of degraded quality are often available, e.g., at the input of video transcoders, but how to make the best use of them in proper ways has not been deeply investigated. Here we make one of the first attempts to establish a new paradigm named degraded-reference IQA (DR IQA). Specifically, we lay out the architectures of DR IQA and introduce a 6-bit code to denote the choices of configurations. We construct the first large-scale databases dedicated to DR IQA and will make them publicly available. We make novel observations on distortion behavior in multi-stage distortion pipelines by comprehensively analyzing five multiple distortion combinations. Based on these observations, we develop novel DR IQA models and make extensive comparisons with a series of baseline models derived from top-performing FR and NR models. The results suggest that DR IQA may offer significant performance improvement in multiple distortion environments, thereby establishing DR IQA as a valid IQA paradigm that is worth further exploration.
翻訳日:2021-10-29 16:01:50 公開日:2021-10-28
# ウェーブレットを用いたサブピクセルオブジェクト分割と多分解能解析

Subpixel object segmentation using wavelets and multi resolution analysis ( http://arxiv.org/abs/2110.15233v1 )

ライセンス: Link先を確認
Ray Sheombarsing, Nikita Moriakov, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 本稿では,ウェーブレットとMRAを用いた2次元単純連結領域の境界の高速予測のための新しいディープラーニングフレームワークを提案する。 境界はウェーブレットといわゆるピラミッドアルゴリズムを用いて(部分的に)滑らかな閉曲線としてモデル化される。 我々のネットワークアーキテクチャはU-Netのハイブリッドアナログであり、ダウンサンプリングパスは学習可能なフィルタを持つ2次元エンコーダであり、アップサンプリングパスは1次元デコーダであり、低解像度から高解像度の曲線を構築する。 MRAによって誘導される任意のウェーブレット基底を使用することができる。 この柔軟性により、曲線の滑らかさに事前を組み込むことができる。 提案手法の有効性は,debauches waveletsを用いた医療画像における単連結ドメイン(organs)の境界を画定し,u-netベースラインとの比較により実証された。 我々のモデルは、DiceスコアとHausdorff距離の点で同様の性能を維持しながら、U-Netと比較して最大5倍高速な推論速度を示す。

We propose a novel deep learning framework for fast prediction of boundaries of two-dimensional simply connected domains using wavelets and Multi Resolution Analysis (MRA). The boundaries are modelled as (piecewise) smooth closed curves using wavelets and the so-called Pyramid Algorithm. Our network architecture is a hybrid analog of the U-Net, where the down-sampling path is a two-dimensional encoder with learnable filters, and the upsampling path is a one-dimensional decoder, which builds curves up from low to high resolution levels. Any wavelet basis induced by a MRA can be used. This flexibility allows for incorporation of priors on the smoothness of curves. The effectiveness of the proposed method is demonstrated by delineating boundaries of simply connected domains (organs) in medical images using Debauches wavelets and comparing performance with a U-Net baseline. Our model demonstrates up to 5x faster inference speed compared to the U-Net, while maintaining similar performance in terms of Dice score and Hausdorff distance.
翻訳日:2021-10-29 16:00:47 公開日:2021-10-28
# 一般化線形モデルに対する分散特徴分散最適化

Decentralized Feature-Distributed Optimization for Generalized Linear Models ( http://arxiv.org/abs/2110.15283v1 )

ライセンス: Link先を確認
Brighton Ancelin, Sohail Bahmani, Justin Romberg(参考訳) 一般化線形モデルに対する"オール・フォー・ワン"分散学習問題を考える。 各サンプルの特徴は、ネットワーク内の複数の協調エージェントに分割されるが、応答変数を観察するエージェントは1つだけである。 この分散環境での正規化経験的リスク最小化を解決するために,Chambolle-Pock法を等価なサドル点定式化に適用する。 原始および双対の反復は閉形式か、スカラー凸関数の座標的最小化に還元される。 損失関数 (lipschitz と square root lipschitz) の2つの異なる仮定の下で経験的リスク最小化の収束率を確立し, ネットワークの設計行列とラプラシアンの特性にどのように依存するかを示す。

We consider the "all-for-one" decentralized learning problem for generalized linear models. The features of each sample are partitioned among several collaborating agents in a connected network, but only one agent observes the response variables. To solve the regularized empirical risk minimization in this distributed setting, we apply the Chambolle--Pock primal--dual algorithm to an equivalent saddle-point formulation of the problem. The primal and dual iterations are either in closed-form or reduce to coordinate-wise minimization of scalar convex functions. We establish convergence rates for the empirical risk minimization under two different assumptions on the loss function (Lipschitz and square root Lipschitz), and show how they depend on the characteristics of the design matrix and the Laplacian of the network.
翻訳日:2021-10-29 15:59:44 公開日:2021-10-28
# (参考訳) MEGAN: 時空間ビデオ超解法のためのメモリ拡張グラフアテンションネットワーク [全文訳有]

MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video Super-Resolution ( http://arxiv.org/abs/2110.15327v1 )

ライセンス: CC BY 4.0
Chenyu You, Lianyi Han, Aosong Feng, Ruihan Zhao, Hui Tang, Wei Fan(参考訳) 時空ビデオ超解像(STVSR)は、対応する低フレームレートの低解像度ビデオシーケンスから高解像度ビデオシーケンスを構築することを目的としている。 近年の時空超解像における時空間情報の検討の成功に触発されて、この研究の主な目的は、高速な動的事象のビデオシーケンス内の空間的・時間的相関を十分に考慮することである。 この目的のために,時空ビデオ超解像のための新しい1段メモリ拡張グラフアテンションネットワーク(MEGAN)を提案する。 具体的には,特徴地図のチャネル次元に沿った相関を動的にキャプチャし,特徴表現を適応的に集約する,新しい長距離メモリグラフ集約(lmga)モジュールを構築した。 非局所的残差ブロックを導入し,グローバルな空間階層的特徴に各チャネルの機能を対応させることができる。 さらに,複数のフレームから空間-時間相関を広範囲に活用し,表現能力を高めるために,プログレッシブ・フュージョンモジュールを採用する。 実験の結果,本手法は最先端の手法と比較して,定量的かつ視覚的に優れた結果が得られることが示された。

Space-time video super-resolution (STVSR) aims to construct a high space-time resolution video sequence from the corresponding low-frame-rate, low-resolution video sequence. Inspired by the recent success to consider spatial-temporal information for space-time super-resolution, our main goal in this work is to take full considerations of spatial and temporal correlations within the video sequences of fast dynamic events. To this end, we propose a novel one-stage memory enhanced graph attention network (MEGAN) for space-time video super-resolution. Specifically, we build a novel long-range memory graph aggregation (LMGA) module to dynamically capture correlations along the channel dimensions of the feature maps and adaptively aggregate channel features to enhance the feature representations. We introduce a non-local residual block, which enables each channel-wise feature to attend global spatial hierarchical features. In addition, we adopt a progressive fusion module to further enhance the representation ability by extensively exploiting spatial-temporal correlations from multiple frames. Experiment results demonstrate that our method achieves better results compared with the state-of-the-art methods quantitatively and visually.
翻訳日:2021-10-29 15:58:55 公開日:2021-10-28
# rim: 信頼できる影響に基づくグラフ上のアクティブラーニング

RIM: Reliable Influence-based Active Learning on Graphs ( http://arxiv.org/abs/2110.14854v1 )

ライセンス: Link先を確認
Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, Bin Cui(参考訳) メッセージパッシングは、グラフ畳み込みネットワーク(gcn)やラベル伝搬(lp)といったほとんどのグラフモデルの中核であり、グラフ上の近傍を滑らかにするために大量のクリーンなラベル付きデータを必要とする。 しかし、ラベル付けプロセスは退屈でコストがかかり、実際はエラーが発生しやすい。 本稿では,アクティブラーニング(al)とメッセージパッシングを統一し,安価に得られる少ない信頼できないラベルを活用し,ラベリングコストを最小化することを提案する。 私たちはその目的に2つの貢献をします。 まず,alによるメッセージパッシングと社会的影響の最大化との関係を描き,選択したサンプルがモデル性能を効果的に向上することを確認する。 第二に、ラベルノイズをモデル化するための明確な品質要素を含む影響モデルの拡張を提案する。 このようにして、影響の量と品質を同時に考慮し、gcnとlp-reliable influence maximization(rim)の基本的な新しいal選択基準を導出する。 公開データセットに関する実証研究は、RIMが現在のALメソッドを精度と効率で大幅に上回っていることを示している。

Message passing is the core of most graph models such as Graph Convolutional Network (GCN) and Label Propagation (LP), which usually require a large number of clean labeled data to smooth out the neighborhood over the graph. However, the labeling process can be tedious, costly, and error-prone in practice. In this paper, we propose to unify active learning (AL) and message passing towards minimizing labeling costs, e.g., making use of few and unreliable labels that can be obtained cheaply. We make two contributions towards that end. First, we open up a perspective by drawing a connection between AL enforcing message passing and social influence maximization, ensuring that the selected samples effectively improve the model performance. Second, we propose an extension to the influence model that incorporates an explicit quality factor to model label noise. In this way, we derive a fundamentally new AL selection criterion for GCN and LP--reliable influence maximization (RIM)--by considering quantity and quality of influence simultaneously. Empirical studies on public datasets show that RIM significantly outperforms current AL methods in terms of accuracy and efficiency.
翻訳日:2021-10-29 15:41:06 公開日:2021-10-28
# CAP:グラフニューラルネットワークの一般化のための重みと特徴の共逆摂動

CAP: Co-Adversarial Perturbation on Weights and Features for Improving Generalization of Graph Neural Networks ( http://arxiv.org/abs/2110.14855v1 )

ライセンス: Link先を確認
Haotian Xue, Kaixiong Zhou, Tianlong Chen, Kai Guo, Xia Hu, Yi Chang, Xin Wang(参考訳) グラフデータモデリングにおけるグラフニューラルネットワーク(GNN)の最近の進歩にもかかわらず、大規模なデータセット上でのGNNのトレーニングは、過度な適合のため、非常に難しい。 最悪の逆数例でデータを増強する逆数トレーニングは、逆数攻撃や一般化能力に対するモデルの堅牢性を改善するために広く実証されている。 しかし,従来の敵対的訓練は概して不名誉な攻撃からGNNを保護することに重点を置いていたが,グラフ解析問題におけるGNNの一般化能力が向上するかどうかは不明である。 本稿では,重みのレンズと特徴損失のランドスケープ,すなわちモデル重みとノード特徴の損失変化からGNNについて検討する。 我々は、GNNが一般化性能の劣るこの2つの損失景観において、GNNは急激な局所最小化に陥る傾向にあるという結論を導いた。 この問題に対処するために、重みと特徴量の観点から共振器摂動(CAP)最適化問題を構築し、重みと特徴損失を交互に平らにする交互対振器摂動アルゴリズムを設計する。 さらに,gnnモデルの迅速な収束を確保するために標準クロスエントロピー最小化を行うことと,局所的に鋭いミニマに陥ることを避けるために交互に対向する訓練を行うことの2段階に分けた。 広範な実験により,様々なベンチマークグラフデータセットにおけるgnnの一般化性能が一般に向上することを示した。

Despite the recent advances of graph neural networks (GNNs) in modeling graph data, the training of GNNs on large datasets is notoriously hard due to the overfitting. Adversarial training, which augments data with the worst-case adversarial examples, has been widely demonstrated to improve model's robustness against adversarial attacks and generalization ability. However, while the previous adversarial training generally focuses on protecting GNNs from spiteful attacks, it remains unclear how the adversarial training could improve the generalization abilities of GNNs in the graph analytics problem. In this paper, we investigate GNNs from the lens of weight and feature loss landscapes, i.e., the loss changes with respect to model weights and node features, respectively. We draw the conclusion that GNNs are prone to falling into sharp local minima in these two loss landscapes, where GNNs possess poor generalization performances. To tackle this problem, we construct the co-adversarial perturbation (CAP) optimization problem in terms of weights and features, and design the alternating adversarial perturbation algorithm to flatten the weight and feature loss landscapes alternately. Furthermore, we divide the training process into two stages: one conducting the standard cross-entropy minimization to ensure the quick convergence of GNN models, the other applying our alternating adversarial training to avoid falling into locally sharp minima. The extensive experiments demonstrate our CAP can generally improve the generalization performance of GNNs on a variety of benchmark graph datasets.
翻訳日:2021-10-29 15:40:47 公開日:2021-10-28
# オンラインベストアーム識別のための選択サンプリング

Selective Sampling for Online Best-arm Identification ( http://arxiv.org/abs/2110.14864v1 )

ライセンス: Link先を確認
Romain Camilleri, Zhihan Xiong, Maryam Fazel, Lalit Jain, Kevin Jamieson(参考訳) 本研究は,ベストアーム識別のための選択的サンプリングの問題を考える。 有望なオプションのセット$\mathcal{z}\subset\mathbb{r}^d$が与えられると、学習者は$\theta_{\ast}$が不明な場合に$-\delta$,$\arg\max_ {z\in \mathcal{z}} z^{\top}\theta_{\ast}$という確率で計算することを目指している。 それぞれのタイムステップで、潜在的な測定値 $x_t\in \mathcal{X}\subset\mathbb{R}^d$ を IID に描画し、学習者は、x^{\top}\theta_{\ast}$ のノイズ測定を観測するか、あるいは、測定を控えて、ストリームにさらに情報のあるポイントが到着するのを待つかのいずれかを選択することができる。 したがって、学習者は、取得したラベル付きサンプルの数と、最高のアームを宣言してサンプリングを停止するのに十分な証拠を収集した時に、根本的なトレードオフに直面します。 この研究の主な結果は、ラベル付きサンプルと停止時間の間のトレードオフを正確に特徴付けし、所望の停止時間に対して最小のラベル複雑さを達成するアルゴリズムを提供する。 さらに, 最適決定規則は, 点が楕円型であるか否かを判断する上で, 単純な幾何学的形式を持つことを示す。 最後に、我々のフレームワークは、以前の作業で改善されるバイナリ分類をキャプチャするのに十分なほど一般的です。

This work considers the problem of selective-sampling for best-arm identification. Given a set of potential options $\mathcal{Z}\subset\mathbb{R}^d$, a learner aims to compute with probability greater than $1-\delta$, $\arg\max_{z\in \mathcal{Z}} z^{\top}\theta_{\ast}$ where $\theta_{\ast}$ is unknown. At each time step, a potential measurement $x_t\in \mathcal{X}\subset\mathbb{R}^d$ is drawn IID and the learner can either choose to take the measurement, in which case they observe a noisy measurement of $x^{\top}\theta_{\ast}$, or to abstain from taking the measurement and wait for a potentially more informative point to arrive in the stream. Hence the learner faces a fundamental trade-off between the number of labeled samples they take and when they have collected enough evidence to declare the best arm and stop sampling. The main results of this work precisely characterize this trade-off between labeled samples and stopping time and provide an algorithm that nearly-optimally achieves the minimal label complexity given a desired stopping time. In addition, we show that the optimal decision rule has a simple geometric form based on deciding whether a point is in an ellipse or not. Finally, our framework is general enough to capture binary classification improving upon previous works.
翻訳日:2021-10-29 15:40:14 公開日:2021-10-28
# 生成画像優先による勾配インバージョン

Gradient Inversion with Generative Image Prior ( http://arxiv.org/abs/2110.14962v1 )

ライセンス: Link先を確認
Jinwoo Jeon and Jaechang Kim and Kangwook Lee and Sewoong Oh and Jungseul Ok(参考訳) Federated Learning(FL)は分散学習フレームワークで、ローカルデータはクライアントデバイスから離れてプライバシを保存することができず、サーバはローカルデータの勾配のみにアクセスすることによって、データ上のモデルをトレーニングする。 ディファレンシャルプライバシのようなさらなるプライバシメカニズムがなければ、クライアントの機密データを明らかにするためにこれらの勾配を反転させる攻撃者に対して、システムは脆弱になる。 しかし、事前の知識なしにユーザーデータを再構築するには勾配が不十分であることが多い。 データ分散に事前学習した生成モデルを利用することで,データのプライバシの侵害が容易であることを実証する。 さらに,このような事前知識が利用できない場合,fl訓練の過程で見られる勾配列から事前知識を学習する可能性について検討する。 本研究では,FLにおける反復的相互作用から,前者の生成モデルが学習可能であることを示す。 本研究は,FLのプライバシー漏洩を防止するために追加のメカニズムが必要であることを強く示唆している。

Federated Learning (FL) is a distributed learning framework, in which the local data never leaves clients devices to preserve privacy, and the server trains models on the data via accessing only the gradients of those local data. Without further privacy mechanisms such as differential privacy, this leaves the system vulnerable against an attacker who inverts those gradients to reveal clients sensitive data. However, a gradient is often insufficient to reconstruct the user data without any prior knowledge. By exploiting a generative model pretrained on the data distribution, we demonstrate that data privacy can be easily breached. Further, when such prior knowledge is unavailable, we investigate the possibility of learning the prior from a sequence of gradients seen in the process of FL training. We experimentally show that the prior in a form of generative model is learnable from iterative interactions in FL. Our findings strongly suggest that additional mechanisms are necessary to prevent privacy leakage in FL.
翻訳日:2021-10-29 15:39:45 公開日:2021-10-28
# 多変量経験モード分解に基づく日頭ピーク負荷予測のためのハイブリッドモデル

Multivariate Empirical Mode Decomposition based Hybrid Model for Day-ahead Peak Load Forecasting ( http://arxiv.org/abs/2110.14980v1 )

ライセンス: Link先を確認
Yanmei Huang, Najmul Hasan, Changrui Deng, Yukun Bao(参考訳) 正確な日頭ピーク時の負荷予測は送電だけでなく、投資家やエネルギー政策立案者や政府にとっても大きな関心事となっている。 文献によると、1%の誤差の減少は1000万ポンドの運用コストを削減できる。 そこで本研究では,多変量経験モード分解 (memd) とサポートベクトル回帰 (svr) を,pso ( particle swarm optimization) により最適化したハイブリッド予測モデルを提案する。 本研究の新規性は主に,多変量データの分解により,時間とともに多変量が劣化する際の時間周波数の異なる変数間の固有情報を効果的に抽出できるMEMDの応用に起因している。 オーストラリアのニューサウスウェールズ州(NSW)とビクトリア州(VIC)の2つの実世界の負荷データセットは、提案されたMEMD-PSO-SVRハイブリッドモデルの優位性を検証していると考えられている。 定量的・包括的評価を行い,提案手法が日頭電力ピーク負荷予測に有望な代替手段であることを示す。

Accurate day-ahead peak load forecasting is crucial not only for power dispatching but also has a great interest to investors and energy policy maker as well as government. Literature reveals that 1% error drop of forecast can reduce 10 million pounds operational cost. Thus, this study proposed a novel hybrid predictive model built upon multivariate empirical mode decomposition (MEMD) and support vector regression (SVR) with parameters optimized by particle swarm optimization (PSO), which is able to capture precise electricity peak load. The novelty of this study mainly comes from the application of MEMD, which enables the multivariate data decomposition to effectively extract inherent information among relevant variables at different time frequency during the deterioration of multivariate over time. Two real-world load data sets from the New South Wales (NSW) and the Victoria (VIC) in Australia have been considered to verify the superiority of the proposed MEMD-PSO-SVR hybrid model. The quantitative and comprehensive assessments are performed, and the results indicate that the proposed MEMD-PSO-SVR method is a promising alternative for day-ahead electricity peak load forecasting.
翻訳日:2021-10-29 15:38:18 公開日:2021-10-28
# 大規模患者データセットにおける入院予測の妥当性について

On the explainability of hospitalization prediction on a large COVID-19 patient dataset ( http://arxiv.org/abs/2110.15002v1 )

ライセンス: Link先を確認
Ivan Girardi, Panagiotis Vagenas, Dario Arcos-D\'iaz, Lydia Bessa\"i, Alexander B\"usser, Ludovico Furlan, Raffaello Furlan, Mauro Gatti, Andrea Giovannini, Ellen Hoeven, Chiara Marchiori(参考訳) 私たちは、2020年3月から2021年2月までに、COVID-19陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発しました。 モデルはランダムフォレストからニューラルネットワーク(NN)、時間畳み込みNNまで様々で、データモーダル(タブラルと時間依存)の組み合わせは異なる段階(初期とモデル融合)で実行される。 データの不均衡にもかかわらず、モデルの平均精度は 0.96-0.98 (0.75-0.85), 0.96-0.98 (0.74-0.85), $f_1$-score 0.97-0.98 (0.79-0.83) である。 異なるシナリオに対するモデルの適応性を研究するために、選択された機能のリストが削除されたとしても、パフォーマンスは著しく低下しない。 しかし、異なるシナリオにおける開発モデルにおけるSHAP特徴値の体系的研究は、モデルとユースケース間で大きなばらつきを示す。 これにより、高リスクシナリオに採用する前に、いくつかの説明可能性メソッドに関するより完全な研究が求められる。

We develop various AI models to predict hospitalization on a large (over 110$k$) cohort of COVID-19 positive-tested US patients, sourced from March 2020 to February 2021. Models range from Random Forest to Neural Network (NN) and Time Convolutional NN, where combination of the data modalities (tabular and time dependent) are performed at different stages (early vs. model fusion). Despite high data unbalance, the models reach average precision 0.96-0.98 (0.75-0.85), recall 0.96-0.98 (0.74-0.85), and $F_1$-score 0.97-0.98 (0.79-0.83) on the non-hospitalized (or hospitalized) class. Performances do not significantly drop even when selected lists of features are removed to study model adaptability to different scenarios. However, a systematic study of the SHAP feature importance values for the developed models in the different scenarios shows a large variability across models and use cases. This calls for even more complete studies on several explainability methods before their adoption in high-stakes scenarios.
翻訳日:2021-10-29 15:37:57 公開日:2021-10-28
# 組合せ空間における近似推論のための再帰的 Gumbel-Max Trick の活用

Leveraging Recursive Gumbel-Max Trick for Approximate Inference in Combinatorial Spaces ( http://arxiv.org/abs/2110.15072v1 )

ライセンス: Link先を確認
Kirill Struminsky, Artyom Gadetsky, Denis Rakitin, Danil Karpushkin, Dmitry Vetrov(参考訳) 構造化潜在変数は、深層学習モデルに意味のある事前知識を組み込むことができる。 しかし、そのような変数による学習は、その離散的な性質のため、依然として困難である。 今日、標準的な学習アプローチは、潜在変数を摂動アルゴリズム出力として定義し、訓練に微分可能なサロゲートを使用することである。 一般に、サロゲートはモデルにさらなる制約を与え、必然的にバイアスのある勾配をもたらす。 これらの欠点を軽減するため、Gumbel-Maxトリックを拡張して、構造化ドメイン上の分布を定義する。 我々は,スコア関数推定器を最適化に利用することにより,微分可能なサロゲートを回避する。 特に、確率不変量と呼ばれる共通の特徴を持つ再帰アルゴリズムの族を強調します。 この特徴により、モデルにさらなる制約を加えることなく、信頼性の高い勾配推定と制御変数を構築することができる。 実験では,様々な構造的潜在変数モデルを検討し,リラクゼーションに基づくモデルと競合する結果を得る。

Structured latent variables allow incorporating meaningful prior knowledge into deep learning models. However, learning with such variables remains challenging because of their discrete nature. Nowadays, the standard learning approach is to define a latent variable as a perturbed algorithm output and to use a differentiable surrogate for training. In general, the surrogate puts additional constraints on the model and inevitably leads to biased gradients. To alleviate these shortcomings, we extend the Gumbel-Max trick to define distributions over structured domains. We avoid the differentiable surrogates by leveraging the score function estimators for optimization. In particular, we highlight a family of recursive algorithms with a common feature we call stochastic invariant. The feature allows us to construct reliable gradient estimates and control variates without additional constraints on the model. In our experiments, we consider various structured latent variable models and achieve results competitive with relaxation-based counterparts.
翻訳日:2021-10-29 15:37:19 公開日:2021-10-28
# TSPソルバの一般化能力向上のためのゲーム理論的アプローチ

A Game-Theoretic Approach for Improving Generalization Ability of TSP Solvers ( http://arxiv.org/abs/2110.15105v1 )

ライセンス: Link先を確認
Chenguang Wang, Yaodong Yang, Oliver Slumbers, Congying Han, Tiande Guo, Haifeng Zhang, Jun Wang(参考訳) 本稿では,ディープラーニングに基づくトラベリングセールスマン問題(TSP)の一般化能力に新たな光を当てた。 具体的には、トレーニング可能な \emph{Solver} と \emph{Data Generator} の間に2つのプレイヤーゼロサムフレームワークを導入し、Solver は、Generator が提供するタスクインスタンスの解決を目的としており、Generator は、Solver を改善するためにますます難しいインスタンスを生成することを目的としている。 原文(投稿日:2019/09/09)へのリンク oracle (psro) メソッドを基礎として、2人のプレイヤーが最善の対応ソルバの集団を出力し、ジェネレータに対して最小のエクスプロイト可能性を達成する結合モデルを組み合わせて出力し、異なるtspタスクで最も一般的なパフォーマンスを得ることができます。 異なるタイプとサイズを持つ様々なTSPインスタンスで実験を行う。 結果から, 解答者は解答者が決して満たさないタスクでも最先端のパフォーマンスを達成できるが, 他の深層学習型解答者の性能は過剰フィッティングにより急激に低下することが示唆された。 実世界における \textsc{tsplib} からのインスタンスでは、最適なベースラインモデルに対する最適なギャップの観点から、この手法は \textbf{12\%} の改善も達成する。 本手法の原理を実証するために,提案する2人プレイゲームの学習結果を調査し,学習中にソルバ集団の活用性が低下することを示すとともに,最終的にジェネレータとナッシュ均衡を近似する。

In this paper, we shed new light on the generalization ability of deep learning-based solvers for Traveling Salesman Problems (TSP). Specifically, we introduce a two-player zero-sum framework between a trainable \emph{Solver} and a \emph{Data Generator}, where the Solver aims to solve the task instances provided by the Generator, and the Generator aims to generate increasingly difficult instances for improving the Solver. Grounded in \textsl{Policy Space Response Oracle} (PSRO) methods, our two-player framework outputs a population of best-responding Solvers, over which we can mix and output a combined model that achieves the least exploitability against the Generator, and thereby the most generalizable performance on different TSP tasks. We conduct experiments on a variety of TSP instances with different types and sizes. Results suggest that our Solvers achieve the state-of-the-art performance even on tasks the Solver never meets, whilst the performance of other deep learning-based Solvers drops sharply due to over-fitting. On real-world instances from \textsc{TSPLib}, our method also attains a \textbf{12\%} improvement, in terms of optimal gap, over the best baseline model. To demonstrate the principle of our framework, we study the learning outcome of the proposed two-player game and demonstrate that the exploitability of the Solver population decreases during training, and it eventually approximates the Nash equilibrium along with the Generator.
翻訳日:2021-10-29 15:37:06 公開日:2021-10-28
# (参考訳) 近位強化学習:部分観察マルコフ決定過程における効率的なオフポリティ評価

Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes ( http://arxiv.org/abs/2110.15332v1 )

ライセンス: CC BY 4.0
Andrew Bennett, Nathan Kallus(参考訳) 医学や教育などの観測データへのオフライン強化学習の適用においては、観測された行動は観測されていない要因に影響され、完全なマルコフ決定過程(MDP)モデル(英語版)の仮定に基づいて導かれる偏見と偏見を誘発する。 本稿では,部分観察型mdp (pomdp) におけるオフポリシー評価について検討する。 具体的には、観測された状態に依存する可能性のある異なる未知のポリシーによって生成される部分的な状態の観測のみを用いて、POMDPの与えられた目標ポリシーの価値を推定することを検討する。 我々は、観測されたデータから対象の政策価値を特定できる条件と、それを最もよく見積もる方法の2つに対処する。 これらの問題に対処するため、我々は近因果推論の枠組みをPOMDP設定に拡張し、いわゆるブリッジ関数の存在によって識別が可能となる様々な設定を提供する。 次に、これらの設定で半パラメトリックで効率的な推定器を構築する方法を示す。 得られたフレームワークをPRL(proximal reinforcement learning)と呼ぶ。 我々はprlの利点を広範囲なシミュレーション研究で実証する。

In applications of offline reinforcement learning to observational data, such as in healthcare or education, a general concern is that observed actions might be affected by unobserved factors, inducing confounding and biasing estimates derived under the assumption of a perfect Markov decision process (MDP) model. Here we tackle this by considering off-policy evaluation in a partially observed MDP (POMDP). Specifically, we consider estimating the value of a given target policy in a POMDP given trajectories with only partial state observations generated by a different and unknown policy that may depend on the unobserved state. We tackle two questions: what conditions allow us to identify the target policy value from the observed data and, given identification, how to best estimate it. To answer these, we extend the framework of proximal causal inference to our POMDP setting, providing a variety of settings where identification is made possible by the existence of so-called bridge functions. We then show how to construct semiparametrically efficient estimators in these settings. We term the resulting framework proximal reinforcement learning (PRL). We demonstrate the benefits of PRL in an extensive simulation study.
翻訳日:2021-10-29 15:34:58 公開日:2021-10-28
# MMD集積2サンプル試験

MMD Aggregated Two-Sample Test ( http://arxiv.org/abs/2110.15073v1 )

ライセンス: Link先を確認
Antonin Schrab and Ilmun Kim and M\'elisande Albert and B\'eatrice Laurent and Benjamin Guedj and Arthur Gretton(参考訳) 本稿では,カーネル帯域幅の異なるテストを集約して構築したMMD(Maximum Mean Discrepancy)に基づく新しい非パラメトリック2サンプルテストを提案する。 このアグリゲーション手順はMMDAggと呼ばれ、テストパワーはカーネル選択(テストパワーの喪失につながる)や中央ヒューリスティックのような任意のカーネル選択のために保持データを必要とすることなく、使用するカーネルの集合に対して最大化される。 我々は非漸近的枠組みで働き、集合テストがソボレフ球よりもminimax適応であることを証明する。 我々の保証は特定のカーネルに限らず、絶対かつ正方形可積分な1次元の変換不変特性核の任意の積に対して成り立つ。 さらに,本研究の結果は,テストしきい値,すなわち順列とワイルドブートストラップを決定するための一般的な数値手順に適用した。 合成および実世界の両方のデータセットに関する数値実験により、MMDAggは2サンプルテストのためのMDDカーネル適応に対する代替の最先端アプローチよりも優れていることを示した。

We propose a novel nonparametric two-sample test based on the Maximum Mean Discrepancy (MMD), which is constructed by aggregating tests with different kernel bandwidths. This aggregation procedure, called MMDAgg, ensures that test power is maximised over the collection of kernels used, without requiring held-out data for kernel selection (which results in a loss of test power), or arbitrary kernel choices such as the median heuristic. We work in the non-asymptotic framework, and prove that our aggregated test is minimax adaptive over Sobolev balls. Our guarantees are not restricted to a specific kernel, but hold for any product of one-dimensional translation invariant characteristic kernels which are absolutely and square integrable. Moreover, our results apply for popular numerical procedures to determine the test threshold, namely permutations and the wild bootstrap. Through numerical experiments on both synthetic and real-world datasets, we demonstrate that MMDAgg outperforms alternative state-of-the-art approaches to MMD kernel adaptation for two-sample testing.
翻訳日:2021-10-29 15:33:01 公開日:2021-10-28
# Deeptime:時系列データから機械学習の動的モデルを生成するPythonライブラリ

Deeptime: a Python library for machine learning dynamical models from time series data ( http://arxiv.org/abs/2110.15013v1 )

ライセンス: Link先を確認
Moritz Hoffmann, Martin Scherer, Tim Hempel, Andreas Mardt, Brian de Silva, Brooke E. Husic, Stefan Klus, Hao Wu, Nathan Kutz, Steven L. Brunton, Frank No\'e(参考訳) 時系列データの生成と解析は、経済学から流体力学まで、多くの定量的分野に関係している。 物理科学において、準安定集合やコヒーレント集合、緩やかな緩和過程、集合変数支配的な遷移経路や多様体、確率フローのチャネルといった構造は、系の力学、熱力学、力学の性質を理解し、特徴づけるのに非常に重要である。 Deeptimeは、Markov State Model (MSM)、Hidden Markov Models、Koopman Model、VAMPnetsやDeep MSMsといったカーネルおよびディープラーニングアプローチなど、従来の線形学習手法を含む時系列データに基づいて動的モデルを推定する様々なツールを提供する汎用Pythonライブラリである。 このライブラリは、scikit-learnとほとんど互換性があり、これらの異なるモデルに対して様々な推定子クラスを持つが、scikit-learnとは対照的に、msmの場合のように、自由エネルギー、緩和時間、遷移経路など、興味深い熱力学的、運動学的、動的量を計算するための多数の分析方法を提供する深いモデルクラスを提供する。 ライブラリは使いやすく設計されているが、メンテナンスが容易で拡張可能なコードもある。 本稿では,ディープタイムソフトウェアの主な特徴と構造を紹介する。

Generation and analysis of time-series data is relevant to many quantitative fields ranging from economics to fluid mechanics. In the physical sciences, structures such as metastable and coherent sets, slow relaxation processes, collective variables dominant transition pathways or manifolds and channels of probability flow can be of great importance for understanding and characterizing the kinetic, thermodynamic and mechanistic properties of the system. Deeptime is a general purpose Python library offering various tools to estimate dynamical models based on time-series data including conventional linear learning methods, such as Markov state models (MSMs), Hidden Markov Models and Koopman models, as well as kernel and deep learning approaches such as VAMPnets and deep MSMs. The library is largely compatible with scikit-learn, having a range of Estimator classes for these different models, but in contrast to scikit-learn also provides deep Model classes, e.g. in the case of an MSM, which provide a multitude of analysis methods to compute interesting thermodynamic, kinetic and dynamical quantities, such as free energies, relaxation times and transition paths. The library is designed for ease of use but also easily maintainable and extensible code. In this paper we introduce the main features and structure of the deeptime software.
翻訳日:2021-10-29 15:32:43 公開日:2021-10-28
# 機械による人的決定の公正性について

On the Fairness of Machine-Assisted Human Decisions ( http://arxiv.org/abs/2110.15310v1 )

ライセンス: Link先を確認
Talia Gillis, Bryce McLaughlin, Jann Spiess(参考訳) 機械学習アルゴリズムが高精度な意思決定にデプロイされる場合、そのデプロイメントが公平で公平な結果をもたらすようにしたいと思っています。 この懸念は、機械予測における格差の診断と対処に焦点を当てた、急速に成長する文献の動機となっている。 しかしながら、人間の意思決定者が最終的な決定権限を保持する決定を支援するために、多くの機械予測が展開される。 そこで本稿では,機械予測の特性が人間の意思決定に与える影響について考察する。 偏りのある人間の意思決定者を含めることで、アルゴリズムの構造と結果決定の質との間の共通関係を逆転させることができることを示す。 具体的には、予測から保護されたグループに関する情報を除くと、減少せず、究極的な格差が増大する可能性があることを文書化します。 我々の具体的な結果は、データ、アルゴリズム、意思決定者に関する特定の仮定に依存しているが、より広い範囲において、機械支援の人間の決定の公平性のような複雑な決定システムの重要な特性の研究は、孤立したアルゴリズムの予測に焦点を合わせるべきであることを示している。

When machine-learning algorithms are deployed in high-stakes decisions, we want to ensure that their deployment leads to fair and equitable outcomes. This concern has motivated a fast-growing literature that focuses on diagnosing and addressing disparities in machine predictions. However, many machine predictions are deployed to assist in decisions where a human decision-maker retains the ultimate decision authority. In this article, we therefore consider how properties of machine predictions affect the resulting human decisions. We show in a formal model that the inclusion of a biased human decision-maker can revert common relationships between the structure of the algorithm and the qualities of resulting decisions. Specifically, we document that excluding information about protected groups from the prediction may fail to reduce, and may even increase, ultimate disparities. While our concrete results rely on specific assumptions about the data, algorithm, and decision-maker, they show more broadly that any study of critical properties of complex decision systems, such as the fairness of machine-assisted human decisions, should go beyond focusing on the underlying algorithmic predictions in isolation.
翻訳日:2021-10-29 15:32:19 公開日:2021-10-28
# BERTian Poetics:masked LMsによる制約構成

BERTian Poetics: Constrained Composition with Masked LMs ( http://arxiv.org/abs/2110.15181v1 )

ライセンス: Link先を確認
Christopher Akiki and Martin Potthast(参考訳) マスク言語モデルは最近、メトロポリス-ハスティングス・サンプラーを用いて生成できるエネルギーベースのシーケンスモデルとして解釈されている。 この短い論文は、制約のある構成にいかに具体化できるかを示し、そのような用法によって暗示される詩学を探求する。 制約にフォーカスすることで、OuLiPo運動の詩を通して生成されたテキストを特に理解しやすくなります。

Masked language models have recently been interpreted as energy-based sequence models that can be generated from using a Metropolis--Hastings sampler. This short paper demonstrates how this can be instrumentalized for constrained composition and explores the poetics implied by such a usage. Our focus on constraints makes it especially apt to understand the generated text through the poetics of the OuLiPo movement.
翻訳日:2021-10-29 15:29:35 公開日:2021-10-28
# 会話型AIの多段階的解明 : 質問応答対話システムの場合

Multi-stage Clarification in Conversational AI: The case of Question-Answering Dialogue Systems ( http://arxiv.org/abs/2110.15235v1 )

ライセンス: Link先を確認
Hadrien Lautraite, Nada Naji, Louis Marceau, Marc Queudot, Eric Charton(参考訳) 対話型質問応答や対話型検索など,様々な情報検索タスクにおいて,明確化解決が重要な役割を果たす。 このような文脈では、ユーザは情報要求を短くあいまいなクエリとして定式化し、一般的な検索インターフェースによっては、ユーザが自分の意図(例えば "Did you means ... ?" など)を確認するように促したり、必要であればリフレクションを行う。 対話システムに関しては、流動的なユーザとボットの交換が、優れたユーザエクスペリエンスの鍵となります。 このような明確化機構がない場合、ユーザには以下の応答の1つが与えられる。 1) 意図が明確でない場合は,無関係となる可能性のある直接回答 2) 検索ツールがクエリを処理できないことをユーザに通知する一般的なフォールバックメッセージ。 どちらのシナリオもフラストレーションを引き起こし、ユーザエクスペリエンスを劣化させる可能性がある。 そこで本研究では,質問応答対話システムの文脈における明確化と問合せ選択を促す多段階的明確化機構を提案する。 提案手法は,ユーザエクスペリエンス全体の改善と,実際のユーザログに基づく公開スコープ外データセットと商用データセットという,2つのデータセットによる競合ベースラインの向上を示す。

Clarification resolution plays an important role in various information retrieval tasks such as interactive question answering and conversational search. In such context, the user often formulates their information needs as short and ambiguous queries, some popular search interfaces then prompt the user to confirm her intent (e.g. "Did you mean ... ?") or to rephrase if needed. When it comes to dialogue systems, having fluid user-bot exchanges is key to good user experience. In the absence of such clarification mechanism, one of the following responses is given to the user: 1) A direct answer, which can potentially be non-relevant if the intent was not clear, 2) a generic fallback message informing the user that the retrieval tool is incapable of handling the query. Both scenarios might raise frustration and degrade the user experience. To this end, we propose a multi-stage clarification mechanism for prompting clarification and query selection in the context of a question answering dialogue system. We show that our proposed mechanism improves the overall user experience and outperforms competitive baselines with two datasets, namely the public in-scope out-of-scope dataset and a commercial dataset based on real user logs.
翻訳日:2021-10-29 15:29:28 公開日:2021-10-28
# multilexnorm 2021: fine-tuning byt5による多言語語彙正規化の改善

\'UFAL at MultiLexNorm 2021: Improving Multilingual Lexical Normalization by Fine-tuning ByT5 ( http://arxiv.org/abs/2110.15248v1 )

ライセンス: Link先を確認
David Samuel, Milan Straka(参考訳) 本稿では,11言語で12のソーシャルメディアデータセット上で語彙正規化システムを評価するw-nut 2021 (van der goot et al., 2021a) において,多言語語彙正規化 (multilexnorm) の獲得課題について述べる。 我々は、事前学習されたバイトレベルの言語モデルByT5(Xue et al., 2021a)に基づいて、合成データに基づいて事前学習を行い、その後、真正正規化データに基づいて微調整する。 本システムでは,内在性評価の限界が広く,従属性解析による外在性評価の最高性能を達成している。 ソースコードはhttps://github.com/u fal/multilexnorm2021 とhttps://huggingface. co/ufalの微調整されたモデルでリリースされている。

We present the winning entry to the Multilingual Lexical Normalization (MultiLexNorm) shared task at W-NUT 2021 (van der Goot et al., 2021a), which evaluates lexical-normalizatio n systems on 12 social media datasets in 11 languages. We base our solution on a pre-trained byte-level language model, ByT5 (Xue et al., 2021a), which we further pre-train on synthetic data and then fine-tune on authentic normalization data. Our system achieves the best performance by a wide margin in intrinsic evaluation, and also the best performance in extrinsic evaluation through dependency parsing. The source code is released at https://github.com/u fal/multilexnorm2021 and the fine-tuned models at https://huggingface. co/ufal.
翻訳日:2021-10-29 15:29:08 公開日:2021-10-28
# ACT-Rにおける知識エンティティの条件推論と活性化

Conditional Inference and Activation of Knowledge Entities in ACT-R ( http://arxiv.org/abs/2110.15214v1 )

ライセンス: Link先を確認
Marco Wilhelm, Diana Howey, Gabriele Kern-Isberner, Kai Sauerwald, Christoph Beierle(参考訳) アクティベーションに基づく条件推論は、人間の推論を形式化する認知アーキテクチャであるACT-Rに条件推論を適用する。 アクティベーションに基づく条件推論の考え方は、時間内に帰納的推論を引き出すために条件的信念ベースの合理的な部分集合を決定することである。 アクティベーションベースの条件推論の中心は、現在のクエリとその使用履歴に対する条件付けの関連性に基づいて、信念ベース内の条件付けにアクティベーションの程度を割り当てるアクティベーション関数である。 それゆえ、私たちのアプローチは、人間推論のいくつかの側面を、集中、忘れ、記憶といった専門家システムに統合しています。

Activation-based conditional inference applies conditional reasoning to ACT-R, a cognitive architecture developed to formalize human reasoning. The idea of activation-based conditional inference is to determine a reasonable subset of a conditional belief base in order to draw inductive inferences in time. Central to activation-based conditional inference is the activation function which assigns to the conditionals in the belief base a degree of activation mainly based on the conditional's relevance for the current query and its usage history. Therewith, our approach integrates several aspects of human reasoning into expert systems such as focusing, forgetting, and remembering.
翻訳日:2021-10-29 15:28:35 公開日:2021-10-28
# ODMTCNet:画像特徴表現のための解釈可能な多視点ディープニューラルネットワークアーキテクチャ

ODMTCNet: An Interpretable Multi-view Deep Neural Network Architecture for Image Feature Representation ( http://arxiv.org/abs/2110.14830v1 )

ライセンス: Link先を確認
Lei Gao, Zheng Guo, Ling Guan(参考訳) 本研究では、統計的機械学習(SML)の原理とディープニューラルネットワーク(DNN)アーキテクチャを統合することにより、最適識別型マルチビューテンソル畳み込みネットワーク(ODMTCNet)を解釈可能なマルチビューディープニューラルネットワークアーキテクチャを提案する。

This work proposes an interpretable multi-view deep neural network architecture, namely optimal discriminant multi-view tensor convolutional network (ODMTCNet), by integrating statistical machine learning (SML) principles with the deep neural network (DNN) architecture.
翻訳日:2021-10-29 15:27:57 公開日:2021-10-28
# シミュレーション作物の大規模レンダリングをめざして : モジュール型スーパーコンピュータ上での合成地層真実生成

Towards Large-Scale Rendering of Simulated Crops for Synthetic Ground Truth Generation on Modular Supercomputers ( http://arxiv.org/abs/2110.14946v1 )

ライセンス: Link先を確認
Dirk Norbert Helmrich, Jens Henrik G\"obbert, Mona Giraud, Hanno Scharr, Andrea Schnepf, Morris Riedel(参考訳) コンピュータビジョン問題は、カメラ画像からの情報の意味抽出を扱う。 特に畑の作物画像では、根底にある問題はラベル付けが難しく、さらに学習が難しく、高品質なトレーニングデータの可用性も低い。 深層ニューラルネットワークは、トレーニング例から必要なモデルを抽出するのに役立つ。 しかし、専門家のアノテーションによって生成またはラベル付けできない大量のトレーニングデータに依存している。 この課題に対処するために、我々はUnreal Engineを使って、大きく複雑な仮想シーンをレンダリングします。 ノード間で植物シミュレーションを分散し、シーンを生成し、GPU上でニューラルネットワークをトレーニングすることで、ノード間の通信を並列学習に制限することで、個々のノードのパフォーマンスに依存します。

Computer Vision problems deal with the semantic extraction of information from camera images. Especially for field crop images, the underlying problems are hard to label and even harder to learn, and the availability of high-quality training data is low. Deep neural networks do a good job of extracting the necessary models from training examples. However, they rely on an abundance of training data that is not feasible to generate or label by expert annotation. To address this challenge, we make use of the Unreal Engine to render large and complex virtual scenes. We rely on the performance of individual nodes by distributing plant simulations across nodes and both generate scenes as well as train neural networks on GPUs, restricting node communication to parallel learning.
翻訳日:2021-10-29 15:27:09 公開日:2021-10-28
# docscanner: プログレッシブラーニングによる堅牢な文書画像修正

DocScanner: Robust Document Image Rectification with Progressive Learning ( http://arxiv.org/abs/2110.14968v1 )

ライセンス: Link先を確認
Hao Feng, Wengang Zhou, Jiajun Deng, Qi Tian, Houqiang Li(参考訳) フラットベッドスキャナーと比べて、スマートフォンは物理的文書のデジタル化にずっと便利だ。 しかし、そのようなデジタル化された文書は、制御不能な物理的変形、カメラの位置、照明の変化によって歪められることが多い。 この目的のために、ドキュメントイメージの修正のための新しいディープネットワークアーキテクチャであるDocScannerを提示する。 既存の方法とは異なり、DocScannerはプログレッシブラーニングメカニズムを導入することでこの問題に対処する。 具体的には、docscannerは再帰的なアーキテクチャで徐々に修正される修正画像の単一の推定を維持する。 反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。 さらに、上記の修正プロセスの前に、以前の作業に存在する破損した修正境界を観察し、DocScannerは文書のローカライゼーションモジュールを利用して、散らかった背景環境からフォアグラウンドドキュメントを明示的に分割する。 歪み画像と補正画像との幾何学的優先順位に基づいて、さらに整流品質を向上させるため、トレーニング中に幾何正則化を導入し、さらにパフォーマンスが向上する。 Doc3DデータセットとDocUNetベンチマークデータセットを用いて大規模な実験を行い,OCRの精度,画像類似性,提案した歪み測定値の精度をかなり向上させるDocScannerの有効性を定量的および定性評価により検証した。 さらに,docscannerは推論時間とパラメータ数において最高の効率を示す。

Compared to flatbed scanners, portable smartphones are much more convenient for physical documents digitizing. However, such digitized documents are often distorted due to uncontrolled physical deformations, camera positions, and illumination variations. To this end, this work presents DocScanner, a new deep network architecture for document image rectification. Different from existing methods, DocScanner addresses this issue by introducing a progressive learning mechanism. Specifically, DocScanner maintains a single estimate of the rectified image, which is progressively corrected with a recurrent architecture. The iterative refinements make DocScanner converge to a robust and superior performance, and the lightweight recurrent architecture ensures the running efficiency. In addition, before the above rectification process, observing the corrupted rectified boundaries existing in prior works, DocScanner exploits a document localization module to explicitly segment the foreground document from the cluttered background environments. To further improve the rectification quality, based on the geometric priori between the distorted and the rectified images, a geometric regularization is introduced during training to further facilitate the performance. Extensive experiments are conducted on the Doc3D dataset and the DocUNet benchmark dataset, and the quantitative and qualitative evaluation results verify the effectiveness of DocScanner, which outperforms previous methods on OCR accuracy, image similarity, and our proposed distortion metric by a considerable margin. Furthermore, our DocScanner shows the highest efficiency in inference time and parameter count.
翻訳日:2021-10-29 15:26:56 公開日:2021-10-28
# スケルトンに基づく相互支援型対話型物体定位とヒューマンアクション認識

Skeleton-Based Mutually Assisted Interacted Object Localization and Human Action Recognition ( http://arxiv.org/abs/2110.14994v1 )

ライセンス: Link先を確認
Liang Xu, Cuiling Lan, Wenjun Zeng, Cewu Lu(参考訳) スケルトンデータは貴重な動作情報を持ち、人間の行動認識で広く研究されている。 しかし、動き情報だけでなく、環境との相互作用も人の行動を認識するための差別的な手がかりとなる。 本稿では,骨格データに基づく相互支援型「相互作用物体の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。 この2つのタスクは相互にシリアライズされ、協調して相互に促進され、スケルトンから派生した予備的なアクションタイプは相互作用したオブジェクトのローカライゼーションを改善するのに役立つ。 さらに,対話型オブジェクトの時間的一貫性を制約として探究し,接地ラベルを使わずに対話型オブジェクトのローカライズを行う。 SYSU-3D, NTU60 RGB+D, Northwestern-UCLAのデータセットに対する大規模な実験により, 人間の行動認識のための最先端の手法を用いて, 最適な, 競争的な性能を達成できた。 可視化結果から,本手法は適切な対話型オブジェクトローカライゼーション結果を提供できることが示された。

Skeleton data carries valuable motion information and is widely explored in human action recognition. However, not only the motion information but also the interaction with the environment provides discriminative cues to recognize the action of persons. In this paper, we propose a joint learning framework for mutually assisted "interacted object localization" and "human action recognition" based on skeleton data. The two tasks are serialized together and collaborate to promote each other, where preliminary action type derived from skeleton alone helps improve interacted object localization, which in turn provides valuable cues for the final human action recognition. Besides, we explore the temporal consistency of interacted object as constraint to better localize the interacted object with the absence of ground-truth labels. Extensive experiments on the datasets of SYSU-3D, NTU60 RGB+D and Northwestern-UCLA show that our method achieves the best or competitive performance with the state-of-the-art methods for human action recognition. Visualization results show that our method can also provide reasonable interacted object localization results.
翻訳日:2021-10-29 15:26:32 公開日:2021-10-28
# インザ・ウィルドデータを用いたインクリメンタル物体検出のための非共起ブリッジ

Bridging Non Co-occurrence with Unlabeled In-the-wild Data for Incremental Object Detection ( http://arxiv.org/abs/2110.15017v1 )

ライセンス: Link先を確認
Na Dong, Yongqiang Zhang, Mingli Ding, Gim Hee Lee(参考訳) ディープネットワークは、オブジェクト検出のタスクにおいて顕著な結果を示している。 しかし、モデルトレーニングに使用するベースクラスからのサンプルを使わずに、新たなクラスでトレーニングされた場合、パフォーマンスは極めて低下する。 この現象は破滅的な忘れ物として知られている。 近年,オブジェクト検出のための破滅的な忘れを緩和するためのインクリメンタル学習手法がいくつか提案されている。 有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。 この要件は、ベースクラスが必ずしも新しいクラスと共起するとは限らないため、多くの実世界の設定では実用的ではない。 この制約を考慮し、ベースとオブジェクト検出タスクのための新しいクラスが全く存在しないという、より実用的な設定を考える。 そこで本研究では,新たな授業のトレーニングにおいて,欠落した基本クラスによる非共起を橋渡しするために,未ラベルインザワイルドデータを使用することを提案する。 そこで本研究では,ベースクラスモデルと事前学習されたノベルクラスモデルの応答に基づくブラインドサンプリング戦略を導入し,インクリメンタル学習のための大規模インザワイルドデータセットからより小さな関連するデータセットを選択する。 そこで,本研究では,教師モデルと新入生モデルから抽出した知識を,校内サンプルデータを用いて学生モデルに伝達する,デュアルティーチンガー蒸留フレームワークを設計する。 PASCAL VOCおよびMS COCOデータセットによる実験結果から,本手法は,トレーニング中にベースクラスと新規クラスの間に共起がない場合に,他の最先端クラスインクリメンタルオブジェクト検出方法よりも有意に優れていた。

Deep networks have shown remarkable results in the task of object detection. However, their performance suffers critical drops when they are subsequently trained on novel classes without any sample from the base classes originally used to train the model. This phenomenon is known as catastrophic forgetting. Recently, several incremental learning methods are proposed to mitigate catastrophic forgetting for object detection. Despite the effectiveness, these methods require co-occurrence of the unlabeled base classes in the training data of the novel classes. This requirement is impractical in many real-world settings since the base classes do not necessarily co-occur with the novel classes. In view of this limitation, we consider a more practical setting of complete absence of co-occurrence of the base and novel classes for the object detection task. We propose the use of unlabeled in-the-wild data to bridge the non co-occurrence caused by the missing base classes during the training of additional novel classes. To this end, we introduce a blind sampling strategy based on the responses of the base-class model and pre-trained novel-class model to select a smaller relevant dataset from the large in-the-wild dataset for incremental learning. We then design a dual-teacher distillation framework to transfer the knowledge distilled from the base- and novel-class teacher models to the student model using the sampled in-the-wild data. Experimental results on the PASCAL VOC and MS COCO datasets show that our proposed method significantly outperforms other state-of-the-art class-incremental object detection methods when there is no co-occurrence between the base and novel classes during training.
翻訳日:2021-10-29 15:26:16 公開日:2021-10-28
# 顔の感情認識:ディープラーニングを用いたマルチタスクアプローチ

Facial Emotion Recognition: A multi-task approach using deep learning ( http://arxiv.org/abs/2110.15028v1 )

ライセンス: Link先を確認
Aakash Saroop, Pathik Ghugare, Sashank Mathamsetty, Vaibhav Vasani(参考訳) 顔の感情認識は本質的に難しい問題であり、個人の顔構造と人の表情におけるあいまいさに大きな違いがある。 近年、顔の感情認識の分野で多くの研究が行われており、このタスクにおけるCNNの性能は、物体検出や顔の認識などの他の分野でのCNNの結果と比べて劣っている。 本稿では,1つのCNNが感情とともに対象者の性別,年齢,人種を検出するマルチタスク学習アルゴリズムを提案する。 本手法を実世界画像を含む2つのデータセットを用いて検証する。 その結果,この手法は現状の最先端技術アルゴリズムよりもはるかに優れていることがわかった。

Facial Emotion Recognition is an inherently difficult problem, due to vast differences in facial structures of individuals and ambiguity in the emotion displayed by a person. Recently, a lot of work is being done in the field of Facial Emotion Recognition, and the performance of the CNNs for this task has been inferior compared to the results achieved by CNNs in other fields like Object detection, Facial recognition etc. In this paper, we propose a multi-task learning algorithm, in which a single CNN detects gender, age and race of the subject along with their emotion. We validate this proposed methodology using two datasets containing real-world images. The results show that this approach is significantly better than the current State of the art algorithms for this task.
翻訳日:2021-10-29 15:25:51 公開日:2021-10-28
# インスタンス対応ビジュアルオブジェクト追跡における識別可能性の明示的モデル化

Explicitly Modeling the Discriminability for Instance-Aware Visual Object Tracking ( http://arxiv.org/abs/2110.15030v1 )

ライセンス: Link先を確認
Mengmeng Wang, Xiaoqian Yang, and Yong Liu(参考訳) 近年、ビジュアルオブジェクトトラッキングのパフォーマンスは劇的に改善されているが、注意散らしや閉塞など、いくつかの深刻な課題が残っている。 追跡対象の特徴表現は、表現的にのみ学習されるが、完全に識別的にモデル化されていないためと考えられる。 本稿では,特徴表現の識別性を明示的に推定する新しいインスタンス認識トラッカ(iat)を提案する。 まず、分類タスクを定式化するための対照的な学習機構を導入し、各トレーニングサンプルを一意にモデル化し、他の多くのサンプルと高度に区別できるようにする。 さらに、インスタンス分類ブランチに様々なイントラクラスとインタークラスを含む効果的な負のサンプル選択スキームを設計する。 さらに,提案するiatの2つの変種を実装し,ビデオレベルの1つとオブジェクトレベルの1つを実装した。 彼らは、ビデオとターゲット境界ボックスとして、それぞれ異なる粒度で \textbf{instance} の概念を実現する。 前者は背景からターゲットを認識する能力を高め、後者はターゲット・ディストラクタのジレンマを緩和するための識別能力を高める。 8つのベンチマークデータセットに対する大規模な実験的評価は、提案された2つのIATバージョンが、30FPSで実行しながら最先端の手法に対して主要な結果が得られることを示している。 コードは公開時に利用可能になる。

Visual object tracking performance has been dramatically improved in recent years, but some severe challenges remain open, like distractors and occlusions. We suspect the reason is that the feature representations of the tracking targets are only expressively learned but not fully discriminatively modeled. In this paper, we propose a novel Instance-Aware Tracker (IAT) to explicitly excavate the discriminability of feature representations, which improves the classical visual tracking pipeline with an instance-level classifier. First, we introduce a contrastive learning mechanism to formulate the classification task, ensuring that every training sample could be uniquely modeled and be highly distinguishable from plenty of other samples. Besides, we design an effective negative sample selection scheme to contain various intra and inter classes in the instance classification branch. Furthermore, we implement two variants of the proposed IAT, including a video-level one and an object-level one. They realize the concept of \textbf{instance} in different granularity as videos and target bounding boxes, respectively. The former enhances the ability to recognize the target from the background while the latter boosts the discriminative power for mitigating the target-distractor dilemma. Extensive experimental evaluations on 8 benchmark datasets show that both two versions of the proposed IAT achieve leading results against state-of-the-art methods while running at 30FPS. Code will be available when it is published.
翻訳日:2021-10-29 15:25:40 公開日:2021-10-28
# Few-Shot Road Object Detectionにおけるクラス融合の克服のためのメタガイドメトリック学習

Meta Guided Metric Learner for Overcoming Class Confusion in Few-Shot Road Object Detection ( http://arxiv.org/abs/2110.15074v1 )

ライセンス: Link先を確認
Anay Majee and Anbumani Subramanian and Kshitij Agrawal(参考訳) 未完成の道路物体のローカライズと認識は、データサンプルの不足のため、自動運転アプリケーションにおいて課題となっている。 数少ないオブジェクト検出技術は、トレーニング例の少ない新しいロードオブジェクトを学ぶために、既存のベースオブジェクトクラスから知識を拡張する。 FSODの一般的なテクニックは、クラス混乱やベースクラスの忘れがちなメタまたはメトリック学習技術を採用する。 本稿では,FSODにおけるクラス混乱を克服するためのメタガイドメトリック学習者(MGML)について紹介する。 我々は,新しいSqueeze and Exciteモジュールを通じて,基本クラスよりも上位のクラスの特徴を再重み付けし,メタ学習者にオルソゴン性制約を適用することで,真に差別的なクラス固有の特徴の学習を促す。 提案手法は,インド運転データセット(IDD)におけるFSOD(State-of-the-Ar t)アプローチを最大11mAPポイントで上回り,新規道路対象の10例に限って20%の混乱を経験する。 さらに、pascal vocデータセットの、最大5.8 map accrossでsotaアプローチを上回る、わずかな分割についても同様の改善を示します。

Localization and recognition of less-occurring road objects have been a challenge in autonomous driving applications due to the scarcity of data samples. Few-Shot Object Detection techniques extend the knowledge from existing base object classes to learn novel road objects given few training examples. Popular techniques in FSOD adopt either meta or metric learning techniques which are prone to class confusion and base class forgetting. In this work, we introduce a novel Meta Guided Metric Learner (MGML) to overcome class confusion in FSOD. We re-weight the features of the novel classes higher than the base classes through a novel Squeeze and Excite module and encourage the learning of truly discriminative class-specific features by applying an Orthogonality Constraint to the meta learner. Our method outperforms State-of-the-Art (SoTA) approaches in FSOD on the India Driving Dataset (IDD) by upto 11 mAP points while suffering from the least class confusion of 20% given only 10 examples of each novel road object. We further show similar improvements on the few-shot splits of PASCAL VOC dataset where we outperform SoTA approaches by upto 5.8 mAP accross all splits.
翻訳日:2021-10-29 15:25:19 公開日:2021-10-28
# SpineOne: 変性ディスクとVertebraeのためのワンステップ検出フレームワーク

SpineOne: A One-Stage Detection Framework for Degenerative Discs and Vertebrae ( http://arxiv.org/abs/2110.15082v1 )

ライセンス: Link先を確認
Jiabo He, Wei Liu, Yu Wang, Xingjun Ma, Xian-Sheng Hua(参考訳) 脊髄変性は多くの高齢者、事務員、そして若い世代を苦しめている。 効果的な pharmic または手術的介入は変性脊椎疾患の緩和に役立つ。 しかし、従来の診断手順は多すぎることが多い。 病理診断や術前評価を行うための予備的ステップとして,脊髄磁気共鳴画像(mri)やct画像から椎間板や椎骨を検出する必要がある。 機械学習システムは、一般に2段階の方法論に従ってこの手順を支援するために開発された。 より効率的かつ正確な診断に向けて、MRIスライスから変性椎骨と椎骨を同時に局所化・分類するSpineOneと呼ばれる一段階検出フレームワークを提案する。 SpineOneは以下の3つの重要な技術に基づいて構築されている。 1) 同時キーポイントのローカライゼーション及び分類を容易にするキーポイントヒートマップの新しい設計 2) 円板と椎骨の表現をよりよく区別するための注意モジュールの使用。 3) 複数の学習目標を後発の訓練段階に関連付ける新しい勾配誘導目標連想機構。 脊髄疾患知的診断 tianchi competition (sdid-tc) データセットの550試験における実験結果から, 既存の方法を大きく超えていることが示された。

Spinal degeneration plagues many elders, office workers, and even the younger generations. Effective pharmic or surgical interventions can help relieve degenerative spine conditions. However, the traditional diagnosis procedure is often too laborious. Clinical experts need to detect discs and vertebrae from spinal magnetic resonance imaging (MRI) or computed tomography (CT) images as a preliminary step to perform pathological diagnosis or preoperative evaluation. Machine learning systems have been developed to aid this procedure generally following a two-stage methodology: first perform anatomical localization, then pathological classification. Towards more efficient and accurate diagnosis, we propose a one-stage detection framework termed SpineOne to simultaneously localize and classify degenerative discs and vertebrae from MRI slices. SpineOne is built upon the following three key techniques: 1) a new design of the keypoint heatmap to facilitate simultaneous keypoint localization and classification; 2) the use of attention modules to better differentiate the representations between discs and vertebrae; and 3) a novel gradient-guided objective association mechanism to associate multiple learning objectives at the later training stage. Empirical results on the Spinal Disease Intelligent Diagnosis Tianchi Competition (SDID-TC) dataset of 550 exams demonstrate that our approach surpasses existing methods by a large margin.
翻訳日:2021-10-29 15:24:10 公開日:2021-10-28
# コントラストとミックス:背景混合による時間的コントラストビデオ領域適応

Contrast and Mix: Temporal Contrastive Video Domain Adaptation with Background Mixing ( http://arxiv.org/abs/2110.15128v1 )

ライセンス: Link先を確認
Aadarsh Sahoo, Rutav Shah, Rameswar Panda, Kate Saenko, Abir Das(参考訳) ラベル付きソースドメインでトレーニングされたモデルを完全にラベルなしのターゲットドメインに適用することを目的とした教師なしドメイン適応が近年注目を集めている。 多くのドメイン適応手法が画像に対して提案されているが、ビデオにおける教師なしドメイン適応の問題はほとんど未解決である。 本稿では,教師なしビデオドメイン適応のための識別的不変特徴表現の学習を目的とした,新しいコントラスト学習フレームワークであるContrast and Mix(CoMix)を紹介する。 まず,非ラベル付きビデオの符号化表現間の類似性を2つの異なる速度で最大化し,異なる速度で再生される異なるビデオ間の類似性を最小化することにより,時間的コントラスト学習を用いてドメインギャップを埋める。 第2に,両ドメイン間で共有されるアクションセマンティクスを活用するために,アンカー毎の肯定的な追加を可能にするバックグラウンドミキシングを用いることにより,時間的コントラスト損失の新たな拡張を提案する。 さらに,対象の擬似ラベルを用いた教師付きコントラスト学習目標を統合し,映像領域適応のための潜在空間の識別性を高める。 いくつかのベンチマークデータセットに対する大規模な実験は、提案手法が最先端手法よりも優れていることを示す。 プロジェクトページ: https://cvir.github. io/projects/comix

Unsupervised domain adaptation which aims to adapt models trained on a labeled source domain to a completely unlabeled target domain has attracted much attention in recent years. While many domain adaptation techniques have been proposed for images, the problem of unsupervised domain adaptation in videos remains largely underexplored. In this paper, we introduce Contrast and Mix (CoMix), a new contrastive learning framework that aims to learn discriminative invariant feature representations for unsupervised video domain adaptation. First, unlike existing methods that rely on adversarial learning for feature alignment, we utilize temporal contrastive learning to bridge the domain gap by maximizing the similarity between encoded representations of an unlabeled video at two different speeds as well as minimizing the similarity between different videos played at different speeds. Second, we propose a novel extension to the temporal contrastive loss by using background mixing that allows additional positives per anchor, thus adapting contrastive learning to leverage action semantics shared across both domains. Moreover, we also integrate a supervised contrastive learning objective using target pseudo-labels to enhance discriminability of the latent space for video domain adaptation. Extensive experiments on several benchmark datasets demonstrate the superiority of our proposed approach over state-of-the-art methods. Project page: https://cvir.github. io/projects/comix
翻訳日:2021-10-29 15:23:48 公開日:2021-10-28
# 人体デカップリング3dモデルによる10億点の高密度ポーズ合成

UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model ( http://arxiv.org/abs/2110.15267v1 )

ライセンス: Link先を確認
Haonan Yan, Jiaqi Chen, Xujie Zhang, Shengkai Zhang, Nianhong Jiao, Xiaodan Liang, Tianxiang Zheng(参考訳) 画像から密集した人間のポーズを復元することは、RGB画像と人間の3次元表面との間の画像と表面の対応を確立する上で重要な役割を担っている。 しかし、人気の高いDensePose-COCOデータセットは高度な手動アノテーションシステムに依存しており、より密集したより正確な注釈付きポーズリソースを取得する際に深刻な制限が生じる。 本研究では,身体の発生を自由に制御できる,一連の分離パラメータを持つ新しい3次元人体モデルを提案する。 さらに,このデカップリング3次元モデルに基づくデータ生成システムを構築し,約13億個の対応する点を含む超高密度合成ベンチマークUltraPoseを構築した。 既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。 提案するultraposeは,より正確な密接なポーズを予測するためのモデル能力を高めるための,最大のベンチマークとデータリソースを提供する。 この分野での今後の研究を促進するために, 2次元世界と3次元世界の密接な対応をモデル化するトランスフォーマティブベース手法を提案する。 提案手法は, 実世界のシナリオに適用可能であり, ベンチマークとモデルの有効性を示す。

Recovering dense human poses from images plays a critical role in establishing an image-to-surface correspondence between RGB images and the 3D surface of the human body, serving the foundation of rich real-world applications, such as virtual humans, monocular-to-3d reconstruction. However, the popular DensePose-COCO dataset relies on a sophisticated manual annotation system, leading to severe limitations in acquiring the denser and more accurate annotated pose resources. In this work, we introduce a new 3D human-body model with a series of decoupled parameters that could freely control the generation of the body. Furthermore, we build a data generation system based on this decoupling 3D model, and construct an ultra dense synthetic benchmark UltraPose, containing around 1.3 billion corresponding points. Compared to the existing manually annotated DensePose-COCO dataset, the synthetic UltraPose has ultra dense image-to-surface correspondences without annotation cost and error. Our proposed UltraPose provides the largest benchmark and data resources for lifting the model capability in predicting more accurate dense poses. To promote future researches in this field, we also propose a transformer-based method to model the dense correspondence between 2D and 3D worlds. The proposed model trained on synthetic UltraPose can be applied to real-world scenarios, indicating the effectiveness of our benchmark and model.
翻訳日:2021-10-29 15:23:25 公開日:2021-10-28
# MCUNetV2:Tiny Deep Learningのためのメモリ効率の良いパッチベース推論

MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning ( http://arxiv.org/abs/2110.15352v1 )

ライセンス: Link先を確認
Ji Lin, Wei-Ming Chen, Han Cai, Chuang Gan, Song Han(参考訳) マイクロコントローラユニット(MCU)の微妙な深層学習は、メモリサイズが制限されているため困難である。 メモリボトルネックは畳み込みニューラルネットワーク(cnn)の設計におけるメモリ分散の不均衡に起因することが判明した。 この問題を軽減するために,特徴マップの空間領域のみで動作する汎用的なパッチ・バイ・パッチ推論スケジューリングを提案し,ピークメモリを大幅に削減する。 しかし、ナイーブな実装は重複するパッチと計算オーバーヘッドをもたらす。 さらに,レセプティブフィールドとフロップを後段にシフトし,計算オーバーヘッドを削減するネットワーク再分配を提案する。 手動でレセプティブフィールドを再配布することは難しい。 ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。 パッチベース推論は、既存のネットワークのピークメモリ使用量を効果的に4-8倍削減する。 MCUNetV2はニューラルネットワークと共同設計され、MCU(71.8%)でImageNetの精度を記録、32kB SRAMのビジュアルウェイクワードデータセットで90%の精度で達成している。 MCUNetV2は小さなデバイスでオブジェクト検出をブロックし、Pascal VOCでは最先端の結果に比べて16.9%高いmAPを達成した。 本研究は,SmallMLにおけるメモリボトルネックに対処し,画像分類以外の様々な視覚応用の道を開いた。

Tiny deep learning on microcontroller units (MCUs) is challenging due to the limited memory size. We find that the memory bottleneck is due to the imbalanced memory distribution in convolutional neural network (CNN) designs: the first several blocks have an order of magnitude larger memory usage than the rest of the network. To alleviate this issue, we propose a generic patch-by-patch inference scheduling, which operates only on a small spatial region of the feature map and significantly cuts down the peak memory. However, naive implementation brings overlapping patches and computation overhead. We further propose network redistribution to shift the receptive field and FLOPs to the later stage and reduce the computation overhead. Manually redistributing the receptive field is difficult. We automate the process with neural architecture search to jointly optimize the neural architecture and inference scheduling, leading to MCUNetV2. Patch-based inference effectively reduces the peak memory usage of existing networks by 4-8x. Co-designed with neural networks, MCUNetV2 sets a record ImageNet accuracy on MCU (71.8%), and achieves >90% accuracy on the visual wake words dataset under only 32kB SRAM. MCUNetV2 also unblocks object detection on tiny devices, achieving 16.9% higher mAP on Pascal VOC compared to the state-of-the-art result. Our study largely addressed the memory bottleneck in tinyML and paved the way for various vision applications beyond image classification.
翻訳日:2021-10-29 15:23:01 公開日:2021-10-28
# ヘイトスピーチ分類器は人間に似た社会ステレオタイプを学ぶ

Hate Speech Classifiers Learn Human-Like Social Stereotypes ( http://arxiv.org/abs/2110.14839v1 )

ライセンス: Link先を確認
Aida Mostafazadeh Davani, Mohammad Atari, Brendan Kennedy, Morteza Dehghani(参考訳) 社会的ステレオタイプは、個人の異なるグループに対する判断に悪影響を及ぼし、人々が少数派社会グループに向けられた言語をどのように理解するかにおいて重要な役割を担っている。 本稿では,憎悪言語の自動検出における社会的ステレオタイプの役割を,ヘイトスピーチ分類器による個々の注釈者バイアスとテキストの誤分類の関係を調べることにより評価する。 特に研究1では,初心者のステレオタイプがヘイト・スパイク・アノテーション行動に与える影響について検討する。 研究2では,言語埋め込みステレオタイプがアノテータの集合判断に及ぼす影響について検討した。 最後に,ニューラルネットワークヘイトスピーチ分類器において,言語埋め込みステレオタイプが系統的予測誤りと関連していることを示す。 その結果,ヘイトスピーチ分類器は人間のようなバイアスを学習し,大規模に伝播すると社会的不平等がさらに持続することが示された。 このフレームワークは、社会心理学と計算言語学の手法を組み合わせることで、ヘイトスピーチのモデレーションにおけるさらなるバイアスの源泉となり、機械学習の公平性に関する議論が進行中である。

Social stereotypes negatively impact individuals' judgements about different groups and may have a critical role in how people understand language directed toward minority social groups. Here, we assess the role of social stereotypes in the automated detection of hateful language by examining the relation between individual annotator biases and erroneous classification of texts by hate speech classifiers. Specifically, in Study 1 we investigate the impact of novice annotators' stereotypes on their hate-speech-annotati on behavior. In Study 2 we examine the effect of language-embedded stereotypes on expert annotators' aggregated judgements in a large annotated corpus. Finally, in Study 3 we demonstrate how language-embedded stereotypes are associated with systematic prediction errors in a neural-network hate speech classifier. Our results demonstrate that hate speech classifiers learn human-like biases which can further perpetuate social inequalities when propagated at scale. This framework, combining social psychological and computational linguistic methods, provides insights into additional sources of bias in hate speech moderation, informing ongoing debates regarding fairness in machine learning.
翻訳日:2021-10-29 15:22:37 公開日:2021-10-28
# 軽量ファインチューニングを用いたセミサイムズバイエンコーダニューラルランキングモデル

Semi-Siamese Bi-encoder Neural Ranking Model Using Lightweight Fine-Tuning ( http://arxiv.org/abs/2110.14943v1 )

ライセンス: Link先を確認
Euna Jung, Jaekeol Choi, Wonjong Rhee(参考訳) BERTベースのニューラルランキングモデル(NRM)はクロスエンコーダかバイエンコーダのいずれかである。 2つの間にバイエンコーダは、すべてのドキュメントを実際のクエリ時間前に前処理できるため、非常に効率的である。 クエリとドキュメントは独立にエンコードされているが、既存のバイエンコーダ NRM は、クエリとドキュメントの両方を一貫してエンコードするために単一の言語モデルを使用するジームモデルである。 本稿では,bertベースのbiエンコーダの性能向上のための2つの手法を示す。 最初のアプローチは、完全な微調整ステップを軽量な微調整に置き換えることである。 本稿では,アダプタベース,プロンプトベース,ハイブリッドの軽量微調整手法について検討する。 第2のアプローチは、クエリとドキュメントを限定的な差分で処理するセミ・シームズモデルを開発することである。 制限された違いは、2つの軽量な微調整モジュールを学習することによって実現される。 monoBERT, TwinBERT, ColBERTでは, Robust04, ClueWeb09b, MS-MARCOデータセットに対して3つの評価結果が得られた。 その結果,BERTベースのバイエンコーダの改良には,軽量微調整とセミシームの両方が有効であることが確認された。 実際、軽量な微調整はクロスエンコーダにも役立ちます。

A BERT-based Neural Ranking Model (NRM) can be either a cross-encoder or a bi-encoder. Between the two, bi-encoder is highly efficient because all the documents can be pre-processed before the actual query time. Although query and document are independently encoded, the existing bi-encoder NRMs are Siamese models where a single language model is used for consistently encoding both of query and document. In this work, we show two approaches for improving the performance of BERT-based bi-encoders. The first approach is to replace the full fine-tuning step with a lightweight fine-tuning. We examine lightweight fine-tuning methods that are adapter-based, prompt-based, and hybrid of the two. The second approach is to develop semi-Siamese models where queries and documents are handled with a limited amount of difference. The limited difference is realized by learning two lightweight fine-tuning modules, where the main language model of BERT is kept common for both query and document. We provide extensive experiment results for monoBERT, TwinBERT, and ColBERT where three performance metrics are evaluated over Robust04, ClueWeb09b, and MS-MARCO datasets. The results confirm that both lightweight fine-tuning and semi-Siamese are considerably helpful for improving BERT-based bi-encoders. In fact, lightweight fine-tuning is helpful for cross-encoder, too.
翻訳日:2021-10-29 15:22:18 公開日:2021-10-28
# (参考訳) XDEEP-MSI: 大腸癌におけるバイオマス除去型マイクロサテライト不安定性深層学習システム [全文訳有]

XDEEP-MSI: Explainable Bias-Rejecting Microsatellite Instability Deep Learning System In Colorectal Cancer ( http://arxiv.org/abs/2110.15350v1 )

ライセンス: CC BY 4.0
Aurelia Bustos (1), Artemio Pay\'a (2 and 3), Andres Torrubia (1), Rodrigo Jover (2 and 3), Xavier Llor (4), Xavier Bessa (5), Antoni Castells (6), Cristina Alenda (2 and 3) ((1) AI Cancer Research Unit Medbravo, (2) Alicante University General Hospital, Spain, (3) Alicante Institute for Health and Biomedical Research ISABIAL, (4) Department of Medicine and Cancer Center at Yale University, Connecticut, (5) Hospital del Mar Medical Research Institute IMIM, Barcelona, Spain, (6) Hospital Cl\'inic University of Barcelona IDIBAPS CIBERehd, Spain)(参考訳) 組織マイクロアレイ(TMA)用にカスタマイズされたDL技術を用いて,大腸癌のH&E画像からマイクロサテライト不安定(MSI)を予測するシステムを提案する。 本システムは、組織分類モジュールによって誘導される関心領域において、複数の倍率でタイルを生成するエンドツーエンド画像前処理モジュールと、多バイアス拒絶モジュールとを具備する。 EPICOLONプロジェクトからトレーニングおよび検証TMAサンプルを取得し,さらに1施設からのサンプルを濃縮した。 タイルレベルでのバイアスの体系的な研究により、ベースラインモデルの学習された表現に関連する3つの保護された(バイアス)変数が特定された。 DLアーキテクチャでは,これらの変数のバッチ効果を直接学習しないように,逆行学習に基づく多重バイアス拒否手法が実装されている。 バイアスアブレーションモデルから得られた学習された特徴は、タスクに対する最大判別力と、バイアスによる最小統計平均依存性を有する。 異なる拡大率,組織の種類,タイルレベルと患者レベルのモデル性能の影響を解析した。 タイルレベルでのAUCは, 3つの組織(腫瘍上皮, マウス, リンパ管領域)と4つの倍率を含む0.87+/-0.03であり, 患者レベルで0.9+/-0.03に増加した。 我々の知る限りでは、デジタル病理学におけるDLアーキテクチャにおける多重バイアスアブレーション手法を取り入れた最初の作品であり、MSI予測タスクにTMAを使用した最初の作品である。

We present a system for the prediction of microsatellite instability (MSI) from H&E images of colorectal cancer using deep learning (DL) techniques customized for tissue microarrays (TMAs). The system incorporates an end-to-end image preprocessing module that produces tiles at multiple magnifications in the regions of interest as guided by a tissue classifier module, and a multiple-bias rejecting module. The training and validation TMA samples were obtained from the EPICOLON project and further enriched with samples from a single institution. A systematic study of biases at tile level identified three protected (bias) variables associated with the learned representations of a baseline model: the project of origin of samples, the patient spot and the TMA glass where each spot was placed. A multiple bias rejecting technique based on adversarial training is implemented at the DL architecture so to directly avoid learning the batch effects of those variables. The learned features from the bias-ablated model have maximum discriminative power with respect to the task and minimal statistical mean dependence with the biases. The impact of different magnifications, types of tissues and the model performance at tile vs patient level is analyzed. The AUC at tile level, and including all three selected tissues (tumor epithelium, mucine and lymphocytic regions) and 4 magnifications, was 0.87 +/- 0.03 and increased to 0.9 +/- 0.03 at patient level. To the best of our knowledge, this is the first work that incorporates a multiple bias ablation technique at the DL architecture in digital pathology, and the first using TMAs for the MSI prediction task.
翻訳日:2021-10-29 15:19:34 公開日:2021-10-28
# オンライン意思決定のための条件付きばらつき変動ガウス過程

Conditioning Sparse Variational Gaussian Processes for Online Decision-making ( http://arxiv.org/abs/2110.15172v1 )

ライセンス: Link先を確認
Wesley J. Maddox, Samuel Stanton, Andrew Gordon Wilson(参考訳) 不確実性と閉形式の後続更新の原則的表現により、ガウス過程(GP)はオンライン意思決定にとって自然な選択である。 しかし、ガウス過程は通常、n$のトレーニングポイントに対して少なくとも$\mathcal{o}(n^2)$の計算を必要とする。 確率的変分ガウス過程(svgps)は、固定サイズのデータセットに対するスケーラブルな推論を提供するが、新しいデータの効率的な条件付けは困難である。 提案手法は,新たなデータの追加に伴うエビデンスを再現する必要のないオンライン環境において,SVGPを効率的に条件付けするためのオンライン変分条件付け(OVC)を提案する。 ovcは、svgpsと、ブラックボックス最適化のための高度なルックアヘッド取得関数のペアリングを可能にする。 OVCは、マラリア発生の能動的学習や、MuJoCoシミュレーションロボット制御タスクにおける強化学習など、様々なアプリケーションにおいて魅力的なパフォーマンスを提供する。

With a principled representation of uncertainty and closed form posterior updates, Gaussian processes (GPs) are a natural choice for online decision making. However, Gaussian processes typically require at least $\mathcal{O}(n^2)$ computations for $n$ training points, limiting their general applicability. Stochastic variational Gaussian processes (SVGPs) can provide scalable inference for a dataset of fixed size, but are difficult to efficiently condition on new data. We propose online variational conditioning (OVC), a procedure for efficiently conditioning SVGPs in an online setting that does not require re-training through the evidence lower bound with the addition of new data. OVC enables the pairing of SVGPs with advanced look-ahead acquisition functions for black-box optimization, even with non-Gaussian likelihoods. We show OVC provides compelling performance in a range of applications including active learning of malaria incidence, and reinforcement learning on MuJoCo simulated robotic control tasks.
翻訳日:2021-10-29 14:57:21 公開日:2021-10-28
# 畳み込みニューラルネットワークにおけるキャラクタリゼーションとテーミングレゾリューション

Characterizing and Taming Resolution in Convolutional Neural Networks ( http://arxiv.org/abs/2110.14819v1 )

ライセンス: Link先を確認
Eddie Yan, Liang Luo, Luis Ceze(参考訳) 画像解像度は、コンピュータビジョンモデル推論の精度、計算量、記憶量、帯域幅コストに大きな影響を及ぼす。 これらのコストは、モデルを大規模推論サービスシステムにスケールアウトし、画像解像度を最適化の魅力的なターゲットにするときに悪化する。 しかし、解像度の選択は本質的には、画像のクロップサイズ、画像の詳細、計算、ストレージ、帯域幅のコストに影響を与える計算カーネルの実装など、密結合した選択をもたらす。 この設定をさらに複雑にすると、これらのメトリクスの観点からの最適な選択は、データセットと問題シナリオに大きく依存します。 我々はこのトレードオフ空間を特徴付け、画像解像度、画質、畳み込みニューラルネットワーク演算子のシステマティックかつ自動チューニングにより精度と効率のトレードオフを定量的に研究する。 そこで本研究では,先行する解像度を静的に選択する必要をなくした動的解決機構を提案する。

Image resolution has a significant effect on the accuracy and computational, storage, and bandwidth costs of computer vision model inference. These costs are exacerbated when scaling out models to large inference serving systems and make image resolution an attractive target for optimization. However, the choice of resolution inherently introduces additional tightly coupled choices, such as image crop size, image detail, and compute kernel implementation that impact computational, storage, and bandwidth costs. Further complicating this setting, the optimal choices from the perspective of these metrics are highly dependent on the dataset and problem scenario. We characterize this tradeoff space, quantitatively studying the accuracy and efficiency tradeoff via systematic and automated tuning of image resolution, image quality and convolutional neural network operators. With the insights from this study, we propose a dynamic resolution mechanism that removes the need to statically choose a resolution ahead of time.
翻訳日:2021-10-29 14:57:01 公開日:2021-10-28
# 逆ロバストかつ効率的なニューラルネットワークのための一般化深部分離型畳み込み

Generalized Depthwise-Separable Convolutions for Adversarially Robust and Efficient Neural Networks ( http://arxiv.org/abs/2110.14871v1 )

ライセンス: Link先を確認
Hassan Dbouk, Naresh R. Shanbhag(参考訳) 彼らの大きな成功にもかかわらず、畳み込みニューラルネットワーク(CNN)は高い計算/記憶コストをもたらし、敵の摂動に弱い。 近年のロバストモデル圧縮に関する研究は、モデル圧縮技術と対向訓練を組み合わせることでこれらの課題に対処している。 しかし、これらの手法は、現実のハードウェアにおけるスループット(フレーム毎秒)を向上させることができず、同時に逆の摂動に対する堅牢性も維持している。 この問題を解決するために,標準的な2次元畳み込みの効率的で普遍的な後学習近似である一般化Depthwise-Separable( GDWS)畳み込み法を提案する。 GDWSは、その堅牢性を保ちながら、実際のハードウェア上での標準トレーニング済みネットワークのスループットを劇的に改善する。 最後に、gdwsは事前トレーニングされたモデル上で動作し、追加のトレーニングを必要としないため、大きな問題サイズに対してスケーラブルである。 本稿では、2次元畳み込み近似器としてGDWSの最適性を確立し、複雑性と誤差制約の下で最適なGDWS畳み込みを構築するための正確なアルゴリズムを提案する。 我々は,CIFAR-10,SVHN,Image Netデータセットの広範な実験を通じて,GDWSの有効性を示す。 私たちのコードはhttps://github.com/h sndbk4/gdwsにあります。

Despite their tremendous successes, convolutional neural networks (CNNs) incur high computational/storag e costs and are vulnerable to adversarial perturbations. Recent works on robust model compression address these challenges by combining model compression techniques with adversarial training. But these methods are unable to improve throughput (frames-per-second) on real-life hardware while simultaneously preserving robustness to adversarial perturbations. To overcome this problem, we propose the method of Generalized Depthwise-Separable (GDWS) convolution -- an efficient, universal, post-training approximation of a standard 2D convolution. GDWS dramatically improves the throughput of a standard pre-trained network on real-life hardware while preserving its robustness. Lastly, GDWS is scalable to large problem sizes since it operates on pre-trained models and doesn't require any additional training. We establish the optimality of GDWS as a 2D convolution approximator and present exact algorithms for constructing optimal GDWS convolutions under complexity and error constraints. We demonstrate the effectiveness of GDWS via extensive experiments on CIFAR-10, SVHN, and ImageNet datasets. Our code can be found at https://github.com/h sndbk4/GDWS.
翻訳日:2021-10-29 14:56:44 公開日:2021-10-28
# FocusFace: マスキング顔認識のためのマルチタスクコントラスト学習

FocusFace: Multi-task Contrastive Learning for Masked Face Recognition ( http://arxiv.org/abs/2110.14940v1 )

ライセンス: Link先を確認
Pedro C. Neto, Fadi Boutros, Jo\~ao Ribeiro Pinto, Naser Damer, Ana F. Sequeira and Jaime S. Cardoso(参考訳) SARS-CoV-2は科学界に直接的かつ間接的な課題を提示した。 最も顕著な間接的課題の1つは、多くの国でフェイスマスクを強制的に使用することによるものである。 顔認識手法は、マスクやマスクされていない個人に類似した精度で身元確認を行うのに苦労する。 これらの手法の性能はマスクの存在下で著しく低下し,特に参照画像がマスクされていない場合には顕著に低下することが示されている。 本研究では,マスク付き顔認識を高精度に行うために,コントラスト学習を用いたマルチタスクアーキテクチャであるfocusfaceを提案する。 提案するアーキテクチャは,従来の顔認識タスクで既存モデルの機能を犠牲にすることなく,スクラッチからトレーニングするか,最先端の顔認識手法上で作業するように設計されている。 また,コントラスト学習モジュールの設計方法も検討した。 結果はマスクマスク(m-m)およびアンマスクマスクマスク(u-m)顔認証性能で示される。 どちらの設定でも、結果は公表された手法と同等であるが、特にM-Mでは、提案手法は比較された全ての解より優れている。 さらに,本手法を既存手法上で使用した場合,類似性能を維持しながら,トレーニング計算コストが大幅に低下することを示した。 実装とトレーニングされたモデルはgithubで公開されている。

SARS-CoV-2 has presented direct and indirect challenges to the scientific community. One of the most prominent indirect challenges advents from the mandatory use of face masks in a large number of countries. Face recognition methods struggle to perform identity verification with similar accuracy on masked and unmasked individuals. It has been shown that the performance of these methods drops considerably in the presence of face masks, especially if the reference image is unmasked. We propose FocusFace, a multi-task architecture that uses contrastive learning to be able to accurately perform masked face recognition. The proposed architecture is designed to be trained from scratch or to work on top of state-of-the-art face recognition methods without sacrificing the capabilities of a existing models in conventional face recognition tasks. We also explore different approaches to design the contrastive learning module. Results are presented in terms of masked-masked (M-M) and unmasked-masked (U-M) face verification performance. For both settings, the results are on par with published methods, but for M-M specifically, the proposed method was able to outperform all the solutions that it was compared to. We further show that when using our method on top of already existing methods the training computational costs decrease significantly while retaining similar performances. The implementation and the trained models are available at GitHub.
翻訳日:2021-10-29 14:56:22 公開日:2021-10-28
# 監視データにおけるプライバシ認識者検出

Privacy Aware Person Detection in Surveillance Data ( http://arxiv.org/abs/2110.15171v1 )

ライセンス: Link先を確認
Sander De Coninck, Sam Leroux, Pieter Simoens(参考訳) 群衆管理は、オペレーターまたはオブジェクト検出モデルによる監視ビデオの検査に依存する。 これらのモデルは大規模であり、リソース制約のあるエッジハードウェアにデプロイすることは困難である。 その代わり、計算はしばしば(サードパーティの)クラウドプラットフォームにオフロードされる。 クラウド管理は正当なアプリケーションだが、カメラからリモートインフラストラクチャへのビデオ転送は、個人追跡や顔認識などのプライバシー侵害である追加情報を抽出するためのドアを開く可能性がある。 本稿では,人検出に必要な情報のみを保持するために,映像フレームを変換する軽量なオファスケータを得るために,対人訓練を用いる。 重要なことに、難読化データは、再訓練することなく、精度を損なうことなく、一般に利用可能な物体検出器によって処理することができる。

Crowd management relies on inspection of surveillance video either by operators or by object detection models. These models are large, making it difficult to deploy them on resource constrained edge hardware. Instead, the computations are often offloaded to a (third party) cloud platform. While crowd management may be a legitimate application, transferring video from the camera to remote infrastructure may open the door for extracting additional information that are infringements of privacy, like person tracking or face recognition. In this paper, we use adversarial training to obtain a lightweight obfuscator that transforms video frames to only retain the necessary information for person detection. Importantly, the obfuscated data can be processed by publicly available object detectors without retraining and without significant loss of accuracy.
翻訳日:2021-10-29 14:56:01 公開日:2021-10-28
# 多視点表現学習のための残差緩和

Residual Relaxation for Multi-view Representation Learning ( http://arxiv.org/abs/2110.15348v1 )

ライセンス: Link先を確認
Yifei Wang, Zhengyang Geng, Feng Jiang, Chuming Li, Yisen Wang, Jiansheng Yang, Zhouchen Lin(参考訳) マルチビュー手法は、同一画像の複数のビューを整列させて表現を学習し、その性能はデータ拡張の選択に大きく依存する。 本稿では、画像回転などの他の有用な拡張が多視点手法に有害であることに気付き、それらが適切に整列するには大きすぎるセマンティックシフトを引き起こす。 この観察は、より強固な増強を育むために、正確なアライメント目標を緩和する動機を与えます。 画像の回転をケーススタディとして、異なるビュー間の適応的残差ベクトルを許容し、前文認識学習を通じて意味的シフトを符号化することにより、正確なアライメントを緩和する汎用的アプローチであるpretext-aware residual relax(prelax)を開発した。 異なるバックボーンに対する大規模な実験により,既存の拡張によるマルチビュー手法の改善だけでなく,回転などの画像強化によるメリットも示された。

Multi-view methods learn representations by aligning multiple views of the same image and their performance largely depends on the choice of data augmentation. In this paper, we notice that some other useful augmentations, such as image rotation, are harmful for multi-view methods because they cause a semantic shift that is too large to be aligned well. This observation motivates us to relax the exact alignment objective to better cultivate stronger augmentations. Taking image rotation as a case study, we develop a generic approach, Pretext-aware Residual Relaxation (Prelax), that relaxes the exact alignment by allowing an adaptive residual vector between different views and encoding the semantic shift through pretext-aware learning. Extensive experiments on different backbones show that our method can not only improve multi-view methods with existing augmentations, but also benefit from stronger image augmentations like rotation.
翻訳日:2021-10-29 14:53:18 公開日:2021-10-28
# CVとNLPの間を橋渡し! グラデーションに基づくテキスト・アドバーサル・アタック・フレームワーク

Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework ( http://arxiv.org/abs/2110.15317v1 )

ライセンス: Link先を確認
Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei(参考訳) 多くの機械学習タスクで大きな成功を収めているが、ディープニューラルネットワークは相反するサンプルに対して脆弱である。 勾配に基づく逆攻撃法はコンピュータビジョンの分野ではよく研究されているが、テキストの離散的な性質から自然言語処理に直接適用することは不可能である。 このギャップを埋めるために,既存のグラデーションベース手法をテキスト逆サンプル作成に適用する汎用フレームワークを提案する。 このフレームワークでは、勾配に基づく連続摂動が埋め込み層に追加され、前方伝播過程において増幅される。 そして、最後の摂動潜在表現をマスク言語モデルヘッドで復号し、潜在的対向サンプルを得る。 本稿では、我々のフレームワークを \textbf{T}extual \textbf{P}rojected \textbf{G}radient \textbf{D}escent (\textbf{TPGD}) でインスタンス化する。 我々は,3つのベンチマークデータセット上でBERT,RoBERTa,ALBERTの転送ブラックボックス攻撃を行うことで,我々のフレームワークを評価するための包括的な実験を行う。 実験結果から,本手法の全体的な性能は向上し,強いベースライン法に比べ,より流麗で文法的な逆サンプルが得られた。 すべてのコードとデータは公開されます。

Despite great success on many machine learning tasks, deep neural networks are still vulnerable to adversarial samples. While gradient-based adversarial attack methods are well-explored in the field of computer vision, it is impractical to directly apply them in natural language processing due to the discrete nature of text. To bridge this gap, we propose a general framework to adapt existing gradient-based methods to craft textual adversarial samples. In this framework, gradient-based continuous perturbations are added to the embedding layer and are amplified in the forward propagation process. Then the final perturbed latent representations are decoded with a mask language model head to obtain potential adversarial samples. In this paper, we instantiate our framework with \textbf{T}extual \textbf{P}rojected \textbf{G}radient \textbf{D}escent (\textbf{TPGD}). We conduct comprehensive experiments to evaluate our framework by performing transfer black-box attacks on BERT, RoBERTa and ALBERT on three benchmark datasets. Experimental results demonstrate our method achieves an overall better performance and produces more fluent and grammatical adversarial samples compared to strong baseline methods. All the code and data will be made public.
翻訳日:2021-10-29 14:52:58 公開日:2021-10-28
# SMORE:大規模知識グラフにおける知識グラフ補完とマルチホップ推論

SMORE: Knowledge Graph Completion and Multi-hop Reasoning in Massive Knowledge Graphs ( http://arxiv.org/abs/2110.14890v1 )

ライセンス: Link先を確認
Hongyu Ren, Hanjun Dai, Bo Dai, Xinyun Chen, Denny Zhou, Jure Leskovec, Dale Schuurmans(参考訳) 知識グラフ(KG)は、頭-リレーション-テールトリプルという形で知識をキャプチャし、多くのAIシステムにおいて重要なコンポーネントである。 kgには2つの重要な推論タスクがある:(1) kg内の個々のリンクを予測することを含む単一ホップナレッジグラフ補完;(2)与えられた論理クエリをどのkgエンティティが満足するかを予測することを目的としたマルチホップ推論。 埋め込みベースのメソッドは、まず各エンティティとリレーションの埋め込みを計算し、それからそれらを予測を形成することで、両方のタスクを解決します。 しかし、既存のスケーラブルなkg埋め込みフレームワークはシングルホップのナレッジグラフ補完のみをサポートし、より難しいマルチホップ推論タスクには適用できない。 ここでは、KGにおけるシングルホップおよびマルチホップ推論のための最初の一般的なフレームワークである、スケーラブルなマルチホップ推論(SMORE)を紹介する。 単一のマシンを使用することで、smoreは以前考えられていたkgsよりも1500倍大きいfreebase kg (86mエンティティ、338mエッジ)でマルチホップ推論を行うことができる。 SMOREのランタイム性能の鍵となるのは、オンライントレーニングデータ生成の複雑さの平方根還元を実現する、新しい双方向の拒絶サンプリングである。 さらに、SMOREは非同期スケジューリング、CPUベースのデータサンプリング、GPUベースの埋め込み計算、頻繁なCPU-GPU IOを利用する。 SMOREは、従来のマルチホップKGフレームワークよりもスループット(トレーニング速度)を2.2倍に向上し、最小のGPUメモリ要件(86M-node Freebase上の400ディム埋め込みをトレーニングする2GB)を達成し、GPU数のほぼ線形スピードアップを達成する。 さらに、シンプルなシングルホップナレッジグラフ補完タスクであるSMOREでは、単一のGPUとマルチGPU設定の両方の最先端フレームワークと同等あるいはそれ以上のランタイムパフォーマンスを実現している。

Knowledge graphs (KGs) capture knowledge in the form of head--relation--tail triples and are a crucial component in many AI systems. There are two important reasoning tasks on KGs: (1) single-hop knowledge graph completion, which involves predicting individual links in the KG; and (2), multi-hop reasoning, where the goal is to predict which KG entities satisfy a given logical query. Embedding-based methods solve both tasks by first computing an embedding for each entity and relation, then using them to form predictions. However, existing scalable KG embedding frameworks only support single-hop knowledge graph completion and cannot be applied to the more challenging multi-hop reasoning task. Here we present Scalable Multi-hOp REasoning (SMORE), the first general framework for both single-hop and multi-hop reasoning in KGs. Using a single machine SMORE can perform multi-hop reasoning in Freebase KG (86M entities, 338M edges), which is 1,500x larger than previously considered KGs. The key to SMORE's runtime performance is a novel bidirectional rejection sampling that achieves a square root reduction of the complexity of online training data generation. Furthermore, SMORE exploits asynchronous scheduling, overlapping CPU-based data sampling, GPU-based embedding computation, and frequent CPU--GPU IO. SMORE increases throughput (i.e., training speed) over prior multi-hop KG frameworks by 2.2x with minimal GPU memory requirements (2GB for training 400-dim embeddings on 86M-node Freebase) and achieves near linear speed-up with the number of GPUs. Moreover, on the simpler single-hop knowledge graph completion task SMORE achieves comparable or even better runtime performance to state-of-the-art frameworks on both single GPU and multi-GPU settings.
翻訳日:2021-10-29 14:51:51 公開日:2021-10-28
# グローバル低リソース地域のための軽量モバイル・アシスタント・ツー・フィジカル

Lightweight Mobile Automated Assistant-to-physici an for Global Lower-resource Areas ( http://arxiv.org/abs/2110.15127v1 )

ライセンス: Link先を確認
Chao Zhang, Hanxin Zhang, Atif Khan, Ted Kim, Olasubomi Omoleye, Oluwamayomikun Abiona, Amy Lehman, Christopher O. Olopade, Olufunmilayo I. Olopade, Pedro Lopes, Andrey Rzhetsky(参考訳) 重要性: アフリカとアジアの低リソース地域は、通信不能と通信不能の2つの重荷、農村部と人口密度の高い都市部における高度に訓練されたプライマリヘルスケアプロバイダの質、信頼性と安価なインターネット接続の欠如といった、ユニークな医療上の課題に直面している。 目的: これらの課題に対処するために,我々は,低リソース地域の主要医療提供者が人口統計と医療サイン/シンプトムデータを文書化し,診断データを集中型データベースとリアルタイムに記録・共有することを支援する人工知能アシスタントを設計した。 設計:米国ベースの電子医療記録(EMR)やオープンソース医療文献などを含む複数のデータセットを用いてシステムを訓練し,機械学習アルゴリズムに基づく適応型一般医療支援システムを開発した。 主な成果と測定方法: アプリケーションは患者から基本情報を収集し、プライマリケアプロバイダに診断と処方薬の提案を提供する。 アプリケーションは、低リソース国で典型的な幅広い共通疾患、徴候、薬物をカバーし、アクティブなインターネット接続の有無に関わらず動作する。 結果:我々は,中央データベースと対話し,リアルタイムデータを収集するandroidスマートフォンアプリケーションを用いて,訓練を受けたプライマリケア専門家を支援する適応学習システムを構築し,実装した。 このアプリケーションは、数十のプライマリケアプロバイダによってテストされている。 結論と関連性: 当社のアプリケーションは、低リソース領域のプライマリヘルスケアプロバイダに、より高速で正確な医療遭遇のドキュメンテーションを可能にするツールを提供するでしょう。 このアプリケーションは、ローカルまたは国家のEMRシステムを自動的に起動するために利用することができる。

Importance: Lower-resource areas in Africa and Asia face a unique set of healthcare challenges: the dual high burden of communicable and non-communicable diseases; a paucity of highly trained primary healthcare providers in both rural and densely populated urban areas; and a lack of reliable, inexpensive internet connections. Objective: To address these challenges, we designed an artificial intelligence assistant to help primary healthcare providers in lower-resource areas document demographic and medical sign/symptom data and to record and share diagnostic data in real-time with a centralized database. Design: We trained our system using multiple data sets, including US-based electronic medical records (EMRs) and open-source medical literature and developed an adaptive, general medical assistant system based on machine learning algorithms. Main outcomes and Measure: The application collects basic information from patients and provides primary care providers with diagnoses and prescriptions suggestions. The application is unique from existing systems in that it covers a wide range of common diseases, signs, and medication typical in lower-resource countries; the application works with or without an active internet connection. Results: We have built and implemented an adaptive learning system that assists trained primary care professionals by means of an Android smartphone application, which interacts with a central database and collects real-time data. The application has been tested by dozens of primary care providers. Conclusions and Relevance: Our application would provide primary healthcare providers in lower-resource areas with a tool that enables faster and more accurate documentation of medical encounters. This application could be leveraged to automatically populate local or national EMR systems.
翻訳日:2021-10-29 14:49:54 公開日:2021-10-28
# 実衛星, 飛行, 輸送データに基づく宇宙-地上統合ネットワークのための深層学習支援ルーティング

Deep Learning Aided Routing for Space-Air-Ground Integrated Networks Relying on Real Satellite, Flight, and Shipping Data ( http://arxiv.org/abs/2110.15138v1 )

ライセンス: Link先を確認
Dong Liu, Jiankang Zhang, Jingjing Cui, Soon-Xin Ng, Robert G. Maunder, Lajos Hanzo(参考訳) 現在の海上通信は主に単なる送信資源を持つ衛星に依存しており、現代の地上無線ネットワークよりも性能が劣っている。 大陸横断型航空交通の成長に伴い、商用旅客機に依存する航空アドホックネットワークという有望な概念は、航空対地およびマルチホップ航空対空通信による衛星による海上通信を強化する可能性がある。 本稿では,低軌道衛星コンステレーション,旅客機,地上基地局,船舶がそれぞれ宇宙・航空・地上・海層として機能する,ユビキタス海洋通信を支援するために,宇宙空地統合ネットワーク(SAGIN)を考案する。 不均一なサービス要件を満たし,SAGINの時間変化と自己組織化の性質に対応するために,準予測可能なネットワークトポロジを利用して分散的に動作する深層学習支援多目的ルーティングアルゴリズムを提案する。 北大西洋地域の実衛星・飛行・海運データに基づくシミュレーション結果から,e2e(end-to-end)遅延を低減し,e2eスループットの向上とパスライフタイムの向上により,統合ネットワークはカバー品質の向上を図っている。 その結果,dl支援マルチ目的ルーティングアルゴリズムはパレート最適に近い性能を実現することができた。

Current maritime communications mainly rely on satellites having meager transmission resources, hence suffering from poorer performance than modern terrestrial wireless networks. With the growth of transcontinental air traffic, the promising concept of aeronautical ad hoc networking relying on commercial passenger airplanes is potentially capable of enhancing satellite-based maritime communications via air-to-ground and multi-hop air-to-air links. In this article, we conceive space-air-ground integrated networks (SAGINs) for supporting ubiquitous maritime communications, where the low-earth-orbit satellite constellations, passenger airplanes, terrestrial base stations, ships, respectively, serve as the space-, air-, ground- and sea-layer. To meet heterogeneous service requirements, and accommodate the time-varying and self-organizing nature of SAGINs, we propose a deep learning (DL) aided multi-objective routing algorithm, which exploits the quasi-predictable network topology and operates in a distributed manner. Our simulation results based on real satellite, flight, and shipping data in the North Atlantic region show that the integrated network enhances the coverage quality by reducing the end-to-end (E2E) delay and by boosting the E2E throughput as well as improving the path-lifetime. The results demonstrate that our DL-aided multi-objective routing algorithm is capable of achieving near Pareto-optimal performance.
翻訳日:2021-10-29 14:49:23 公開日:2021-10-28
# 実飛行データに基づく航空アドホックネットワークにおける深層学習支援パケットルーティング:単目的からニアパレート多目的最適化へ

Deep Learning Aided Packet Routing in Aeronautical Ad-Hoc Networks Relying on Real Flight Data: From Single-Objective to Near-Pareto Multi-Objective Optimization ( http://arxiv.org/abs/2110.15145v1 )

ライセンス: Link先を確認
Dong Liu, Jiankang Zhang, Jingjing Cui, Soon-Xin Ng, Robert G. Maunder, Lajos Hanzo(参考訳) 航空アドホックネットワーク(AANET)におけるデータパケットルーティングは、その高ダイナミックトポロジのために困難である。 本稿では,AANETにおけるルーティングを支援するために,ディープラーニング(DL)を起動する。 我々は、エンドツーエンド(e2e)遅延を最小化するという単一の目的から出発した。 具体的には、転送ノードが観測する局所地理情報を最適な次のホップを決定するために必要な情報にマッピングするために、ディープニューラルネットワーク(dnn)が考案される。 DNNは、歴史的な飛行データから商業旅客機の通常の移動パターンを活用することで訓練されている。 訓練後、DNNは各航空機に格納され、地域情報のみに依存する飛行中の経路決定を支援する。 さらに,遅延を最小化し,経路容量を最大化し,経路寿命を最大化することを目的として,dl支援ルーティングアルゴリズムを多目的シナリオに拡張する。 実飛行データに基づくシミュレーションの結果,提案したDL支援ルーティングは,E2E遅延,経路容量,経路寿命の観点から既存の位置ベースルーティングプロトコルよりも優れており,グローバルリンク情報を用いて得られるパレートフロントに近づくことが可能であることがわかった。

Data packet routing in aeronautical ad-hoc networks (AANETs) is challenging due to their high-dynamic topology. In this paper, we invoke deep learning (DL) to assist routing in AANETs. We set out from the single objective of minimizing the end-to-end (E2E) delay. Specifically, a deep neural network (DNN) is conceived for mapping the local geographic information observed by the forwarding node into the information required for determining the optimal next hop. The DNN is trained by exploiting the regular mobility pattern of commercial passenger airplanes from historical flight data. After training, the DNN is stored by each airplane for assisting their routing decisions during flight relying solely on local geographic information. Furthermore, we extend the DL-aided routing algorithm to a multi-objective scenario, where we aim for simultaneously minimizing the delay, maximizing the path capacity, and maximizing the path lifetime. Our simulation results based on real flight data show that the proposed DL-aided routing outperforms existing position-based routing protocols in terms of its E2E delay, path capacity as well as path lifetime, and it is capable of approaching the Pareto front that is obtained using global link information.
翻訳日:2021-10-29 14:48:54 公開日:2021-10-28
# 旅客機による航空アドホックネットワークのための深層強化学習支援パケットルーティング

Deep Reinforcement Learning Aided Packet-Routing For Aeronautical Ad-Hoc Networks Formed by Passenger Planes ( http://arxiv.org/abs/2110.15146v1 )

ライセンス: Link先を確認
Dong Liu, Jingjing Cui, Jiankang Zhang, Chenyang Yang, Lajos Hanzo(参考訳) 航空アドホックネットワーク(AANET)におけるデータパケットルーティングは、その高ダイナミックトポロジのために困難である。 本稿では,終端(E2E)遅延の最小化を目的としたAANETにおけるルーティングのための深層強化学習を実行する。 具体的には、最適なルーティング決定と転送ノードで観測される局所的な地理的情報との関係を捉えるために、ディープQネットワーク(DQN)を考案する。 DQNは、過去の飛行データに基づいてオフラインで訓練され、各航空機が飛行中の経路決定を支援するために格納される。 提案するdqnルーティングの学習効率とオンライン適応性を高めるために,フィードバック機構を具体化したディープバリューネットワーク(dvn)を用いて,システムのダイナミクスに関する知識をさらに活用する。 シミュレーションの結果、DQNルーティングとDVNルーティングの両方がベンチマークプロトコルよりも低E2E遅延を実現し、DVNルーティングは完全なグローバル情報に依存する最適ルーティングと同様に動作することがわかった。

Data packet routing in aeronautical ad-hoc networks (AANETs) is challenging due to their high-dynamic topology. In this paper, we invoke deep reinforcement learning for routing in AANETs aiming at minimizing the end-to-end (E2E) delay. Specifically, a deep Q-network (DQN) is conceived for capturing the relationship between the optimal routing decision and the local geographic information observed by the forwarding node. The DQN is trained in an offline manner based on historical flight data and then stored by each airplane for assisting their routing decisions during flight. To boost the learning efficiency and the online adaptability of the proposed DQN-routing, we further exploit the knowledge concerning the system's dynamics by using a deep value network (DVN) conceived with a feedback mechanism. Our simulation results show that both DQN-routing and DVN-routing achieve lower E2E delay than the benchmark protocol, and DVN-routing performs similarly to the optimal routing that relies on perfect global information.
翻訳日:2021-10-29 14:48:35 公開日:2021-10-28
# FeO2: Opt-Out差分プライバシーによるフェデレーション学習

FeO2: Federated Learning with Opt-Out Differential Privacy ( http://arxiv.org/abs/2110.15252v1 )

ライセンス: Link先を確認
Nasser Aldaghri, Hessam Mahdavifar, Ahmad Beirami(参考訳) フェデレートラーニング(FL)は、クライアントデータをローカルに保ちながら、グローバルモデルを中央サーバでトレーニングする、新たなプライバシ保護パラダイムである。 しかし、flはトレーニング中のモデル更新を通じて、間接的にプライベートクライアント情報を漏洩することができる。 差分プライバシー(DP)はFL内でのプライバシー保証を提供するために用いられる。 本研究では、クライアントをデフォルトでプライベートとみなす不均一なDP設定を検討するが、DPからオプトアウトを選択する人もいる。 提案手法は,プライベートおよびパーソナライズされた fl アルゴリズムのベースラインと比較して,そのアドバンテージに関する議論とともに,オプトアウト dp を用いたフェデレーション学習のための新しいアルゴリズムを提案する。 単純化された線形問題に対して, サーバ側およびクライアント側プロシージャが最適であることを示す。 また、パフォーマンス向上の観点から、DPのオプトアウトに対するインセンティブも分析する。 数値実験により, 検討したデータセットのベースラインDP FLと比較して, グローバルモデルで最大9.27 %の性能向上が得られることを示した。 さらに、非プライベートおよびプライベートクライアント間のパーソナライズされたモデルの平均パフォーマンスのギャップを最大3.49セントで示し、クライアントがオプトアウトするインセンティブを実証的に示している。

Federated learning (FL) is an emerging privacy-preserving paradigm, where a global model is trained at a central server while keeping client data local. However, FL can still indirectly leak private client information through model updates during training. Differential privacy (DP) can be employed to provide privacy guarantees within FL, typically at the cost of degraded final trained model. In this work, we consider a heterogeneous DP setup where clients are considered private by default, but some might choose to opt out of DP. We propose a new algorithm for federated learning with opt-out DP, referred to as \emph{FeO2}, along with a discussion on its advantages compared to the baselines of private and personalized FL algorithms. We prove that the server-side and client-side procedures in \emph{FeO2} are optimal for a simplified linear problem. We also analyze the incentive for opting out of DP in terms of performance gain. Through numerical experiments, we show that \emph{FeO2} provides up to $9.27\%$ performance gain in the global model compared to the baseline DP FL for the considered datasets. Additionally, we show a gap in the average performance of personalized models between non-private and private clients of up to $3.49\%$, empirically illustrating an incentive for clients to opt out.
翻訳日:2021-10-29 14:48:17 公開日:2021-10-28
# 例のコーパスによる潜在表現の解説

Explaining Latent Representations with a Corpus of Examples ( http://arxiv.org/abs/2110.15355v1 )

ライセンス: Link先を確認
Jonathan Crabb\'e, Zhaozhi Qian, Fergus Imrie, Mihaela van der Schaar(参考訳) 現代の機械学習モデルは複雑です。 その多くは、予測を発行するために入力の複雑な潜在表現に依存している。 入力と予測を結びつけるブラックボックスよりも透明性を高めるためには、これらの潜伏表現をより深く理解する必要がある。 そこで,本研究では,コーパスと呼ばれる自由選択されたサンプル群を参照して,サンプルベースの説明を提供するユーザ中心の方法であるsimplexを提案する。 SimplExは、(1)テスト例で発行された予測を説明するコーパスの例について、2つの質問に答えるポストホックな説明で、潜伏空間に対するユーザの理解を改善するためにコーパスを使用している。 2) これらのコーパスの例の特徴は、モデルをテスト例に関連付けるのに関係していますか。 SimplExは、テスト潜在表現をコーパス潜在表現の混合として再構成することで答えを提供する。 さらに,SimplEx による各コーパス特徴のコントリビューションの明確化を可能にする新しい手法,Integrated Jacobian を提案する。 死亡予測から画像分類まで幅広い課題について実験を行い,これらの分解がロバストで正確であることを実証した。 医療における実例から,SimplExはモデル表現を説明するコーパス内の関連パターンを強調することにより,ユーザを力づけることを示す。 さらに, コーパスの選択の自由度が, ユーザにとって有意義な例でパーソナライズされた説明をすることができることを示す。

Modern machine learning models are complicated. Most of them rely on convoluted latent representations of their input to issue a prediction. To achieve greater transparency than a black-box that connects inputs to predictions, it is necessary to gain a deeper understanding of these latent representations. To that aim, we propose SimplEx: a user-centred method that provides example-based explanations with reference to a freely selected set of examples, called the corpus. SimplEx uses the corpus to improve the user's understanding of the latent space with post-hoc explanations answering two questions: (1) Which corpus examples explain the prediction issued for a given test example? (2) What features of these corpus examples are relevant for the model to relate them to the test example? SimplEx provides an answer by reconstructing the test latent representation as a mixture of corpus latent representations. Further, we propose a novel approach, the Integrated Jacobian, that allows SimplEx to make explicit the contribution of each corpus feature in the mixture. Through experiments on tasks ranging from mortality prediction to image classification, we demonstrate that these decompositions are robust and accurate. With illustrative use cases in medicine, we show that SimplEx empowers the user by highlighting relevant patterns in the corpus that explain model representations. Moreover, we demonstrate how the freedom in choosing the corpus allows the user to have personalized explanations in terms of examples that are meaningful for them.
翻訳日:2021-10-29 14:46:16 公開日:2021-10-28
# 知識蒸留を用いたモデル非依存フェデレーション学習に向けて

Towards Model Agnostic Federated Learning Using Knowledge Distillation ( http://arxiv.org/abs/2110.15210v1 )

ライセンス: Link先を確認
Andrei Afonin, Sai Praneeth Karimireddy(参考訳) 現在のフェデレートされた学習アルゴリズムの根底にある、しばしば疑わしい仮定は、参加者全員が同じモデルアーキテクチャを使っていることである。 本研究では,データ保持者(エージェント)が異なるモデルを用いて相互に協調し,連携学習を行うことのできるモデル非依存通信プロトコルの理論的研究を開始する。 2つのエージェントが異なるカーネルを使用してカーネルレグレッションを実行しようとする(従って異なるモデルを持つ)設定に焦点を当てる。 我々の研究は驚くべき結果をもたらす ― 交互知識蒸留(AKD)を用いる最も自然なアルゴリズムは、過度に強い正則化を課し、深刻な不適合につながる可能性がある。 また,AKDと交互プロジェクションアルゴリズムとの間には,集合の交叉を見つけるための興味深い関連性を示す。 この接続を利用して、AKDを改善する新しいアルゴリズムを提案する。 我々の理論予測はニューラルネットワークを用いた実世界の実験と密接に一致している。 そこで本研究では,新しいモデル非依存連関学習アルゴリズムを解析・開発するためのリッチで扱いやすいフレームワークを提案する。

An often unquestioned assumption underlying most current federated learning algorithms is that all the participants use identical model architectures. In this work, we initiate a theoretical study of model agnostic communication protocols which would allow data holders (agents) using different models to collaborate with each other and perform federated learning. We focus on the setting where the two agents are attempting to perform kernel regression using different kernels (and hence have different models). Our study yields a surprising result -- the most natural algorithm of using alternating knowledge distillation (AKD) imposes overly strong regularization and may lead to severe under-fitting. Our theory also shows an interesting connection between AKD and the alternating projection algorithm for finding intersection of sets. Leveraging this connection, we propose a new algorithms which improve upon AKD. Our theoretical predictions also closely match real world experiments using neural networks. Thus, our work proposes a rich yet tractable framework for analyzing and developing new practical model agnostic federated learning algorithms.
翻訳日:2021-10-29 14:45:29 公開日:2021-10-28
# ポリシー勾配強化学習を用いた非線形モデルのベイズ逐次最適実験設計

Bayesian Sequential Optimal Experimental Design for Nonlinear Models Using Policy Gradient Reinforcement Learning ( http://arxiv.org/abs/2110.15335v1 )

ライセンス: Link先を確認
Wanggang Shen, Xun Huan(参考訳) 有限個の連続実験を最適に設計するための数学的枠組みと計算手法を提案する。 この逐次最適実験設計(soed)問題をベイズ設定および情報理論ユーティリティを用いて有限ホリゾン部分可観測マルコフ決定過程(pomdp)として定式化する。 連続確率変数、一般の非ガウス後流、高価な非線形前方モデルに対応するために構築されている。 次に、sOEDはフィードバックとルックアヘッドの両方の要素を組み込んだ最適な設計方針を求め、最適以下のバッチと欲求設計を一般化する。 我々は、強化学習から政策勾配(PG)法を用いてsOEDポリシーを数値的に解き、sOEDのPG式を導出し、証明する。 アクター-批判的アプローチを採用することで,ディープニューラルネットワークを用いたポリシーと価値関数のパラメータ化と,設計や観察のシミュレーションから得られた勾配推定による改善を行う。 PG-sOED法全体を線形ガウスベンチマークで検証し, 対流拡散場における汚染源逆問題により, バッチおよびグレディ設計よりも優れていることを示す。

We present a mathematical framework and computational methods to optimally design a finite number of sequential experiments. We formulate this sequential optimal experimental design (sOED) problem as a finite-horizon partially observable Markov decision process (POMDP) in a Bayesian setting and with information-theoreti c utilities. It is built to accommodate continuous random variables, general non-Gaussian posteriors, and expensive nonlinear forward models. sOED then seeks an optimal design policy that incorporates elements of both feedback and lookahead, generalizing the suboptimal batch and greedy designs. We solve for the sOED policy numerically via policy gradient (PG) methods from reinforcement learning, and derive and prove the PG expression for sOED. Adopting an actor-critic approach, we parameterize the policy and value functions using deep neural networks and improve them using gradient estimates produced from simulated episodes of designs and observations. The overall PG-sOED method is validated on a linear-Gaussian benchmark, and its advantages over batch and greedy designs are demonstrated through a contaminant source inversion problem in a convection-diffusion field.
翻訳日:2021-10-29 14:45:12 公開日:2021-10-28
# 生成逆ネットワークによる画像間移動を用いた脳活動分類器の非現実的説明

Counterfactual Explanation of Brain Activity Classifiers using Image-to-Image Transfer by Generative Adversarial Network ( http://arxiv.org/abs/2110.14927v1 )

ライセンス: Link先を確認
Teppei Matsui, Masato Taki, Trung Quang Pham, Junichi Chikazoe, Koji Jimura(参考訳) ディープニューラルネットワーク(DNN)は、タスク関連の情報を脳の活性化から正確に復号することができる。 しかし、DNNの非線形性のため、DNNによる決定はほとんど解釈できない。 このようなブラックボックスシステムを説明する有望なアプローチの1つは、反事実的説明である。 本枠組みでは,ブラックボックスシステムの動作を,ブラックボックスシステムが非現実的な結果を出力するように特別に生成する実データとリアルな合成データとを比較して説明する。 そこで本研究では,脳活性化のDNNに基づく分類器に対実的説明を提供する新しい生成的DNN(counterfactual activation generator, CAG)を提案する。 重要なことに、CAGは異なる行動タスクに関連する複数のクラス間の画像変換を同時に処理できる。 CAGを用いて,7つの行動課題の脳活動の識別を学習したDNNに基づく分類器を実証した。 さらに,CAGの反復的適用により,分類者の判断に影響を及ぼす微妙な空間的脳活動パターンを抽出することができた。 これらの結果から,イメージ・ツー・イメージ変換に基づく反実的説明は,fMRI解析におけるDNNの現在の応用を理解する上で有望なアプローチであることが示された。

Deep neural networks (DNNs) can accurately decode task-related information from brain activations. However, because of the nonlinearity of the DNN, the decisions made by DNNs are hardly interpretable. One of the promising approaches for explaining such a black-box system is counterfactual explanation. In this framework, the behavior of a black-box system is explained by comparing real data and realistic synthetic data that are specifically generated such that the black-box system outputs an unreal outcome. Here we introduce a novel generative DNN (counterfactual activation generator, CAG) that can provide counterfactual explanations for DNN-based classifiers of brain activations. Importantly, CAG can simultaneously handle image transformation among multiple classes associated with different behavioral tasks. Using CAG, we demonstrated counterfactual explanation of DNN-based classifiers that learned to discriminate brain activations of seven behavioral tasks. Furthermore, by iterative applications of CAG, we were able to enhance and extract subtle spatial brain activity patterns that affected the classifier's decisions. Together, these results demonstrate that the counterfactual explanation based on image-to-image transformation would be a promising approach to understand and extend the current application of DNNs in fMRI analyses.
翻訳日:2021-10-29 14:44:17 公開日:2021-10-28
# 画像の大きさベクトル

The magnitude vector of images ( http://arxiv.org/abs/2110.15188v1 )

ライセンス: Link先を確認
Michael F. Adamer, Leslie O'Bray, Edward De Brouwer, Bastian Rieck, Karsten Borgwardt(参考訳) 有限距離空間の大きさは、最近導入された不変量である。 外乱検出のための汎用ユーティリティやラプラスのラジアルベースカーネルとの密接な接続など、理論的および実践的な利点は有益であるが、これまで機械学習コミュニティからはほとんど注目されなかった。 本研究では,各画像の寸法特性について検討し,各画像が独自の距離空間を形成する。 異常検出の既知の特性が画像のエッジ検出に変換され,理論的正当性が支持されることを示す。 さらに,新たなマグニチュード層を用いて敵の攻撃を防御することにより,その有用性を証明する。 そこで我々は,画像の正規構造を利用して計算コストを劇的に削減するアルゴリズムを提案する。

The magnitude of a finite metric space is a recently-introduced invariant quantity. Despite beneficial theoretical and practical properties, such as a general utility for outlier detection, and a close connection to Laplace radial basis kernels, magnitude has received little attention by the machine learning community so far. In this work, we investigate the properties of magnitude on individual images, with each image forming its own metric space. We show that the known properties of outlier detection translate to edge detection in images and we give supporting theoretical justifications. In addition, we provide a proof of concept of its utility by using a novel magnitude layer to defend against adversarial attacks. Since naive magnitude calculations may be computationally prohibitive, we introduce an algorithm that leverages the regular structure of images to dramatically reduce the computational cost.
翻訳日:2021-10-29 14:43:57 公開日:2021-10-28
# (参考訳) オートエンコーダを用いたマルチエージェント通信の学習 [全文訳有]

Learning to Ground Multi-Agent Communication with Autoencoders ( http://arxiv.org/abs/2110.15349v1 )

ライセンス: CC BY 4.0
Toru Lin, Minyoung Huh, Chris Stauffer, Ser-Nam Lim, Phillip Isola(参考訳) コミュニケーションには、エージェント間の共通言語であるリンガフランカが必要である。 この言語はコンセンサスプロセスを通じて現れるかもしれないが、多くの世代の試行とエラーを必要とする可能性がある。 あるいは、リングア・フランカは、エージェントが観察された世界の表現で言語を基盤とする環境によって与えられる。 分散マルチエージェント通信とコーディネーションを容易にする学習表現における言語基盤化の簡単な方法を示す。 標準表現学習アルゴリズム -- オートエンコーディング -- が,共通言語に到達するのに十分であることがわかった。 エージェントがこれらの表現をブロードキャストすると、お互いの発話を理解して対応し、さまざまなマルチエージェント通信環境において驚くほど強力なタスクパフォーマンスを実現する。

Communication requires having a common language, a lingua franca, between agents. This language could emerge via a consensus process, but it may require many generations of trial and error. Alternatively, the lingua franca can be given by the environment, where agents ground their language in representations of the observed world. We demonstrate a simple way to ground language in learned representations, which facilitates decentralized multi-agent communication and coordination. We find that a standard representation learning algorithm -- autoencoding -- is sufficient for arriving at a grounded common language. When agents broadcast these representations, they learn to understand and respond to each other's utterances and achieve surprisingly strong task performance across a variety of multi-agent communication environments.
翻訳日:2021-10-29 14:42:31 公開日:2021-10-28
# デコーダ正規化によるテキスト生成用変分オートエンコーダの後方崩壊防止

Preventing posterior collapse in variational autoencoders for text generation via decoder regularization ( http://arxiv.org/abs/2110.14945v1 )

ライセンス: Link先を確認
Alban Petit and Caio Corro(参考訳) 再構成誤差を最小限に抑えるために訓練された変分オートエンコーダは、後部崩壊問題に敏感である。 後方崩壊を防止するために, フラタナルドロップアウトに基づく新しい正規化法を提案する。 いくつかのメトリクスを使ってアプローチを評価し、テストされたすべての構成の改善を観察する。

Variational autoencoders trained to minimize the reconstruction error are sensitive to the posterior collapse problem, that is the proposal posterior distribution is always equal to the prior. We propose a novel regularization method based on fraternal dropout to prevent posterior collapse. We evaluate our approach using several metrics and observe improvements in all the tested configurations.
翻訳日:2021-10-29 14:22:43 公開日:2021-10-28
# A*探索を用いた変圧器モデルのプルーニングアテンションヘッド:大きなNLPアーキテクチャを圧縮するための新しいアプローチ

Pruning Attention Heads of Transformer Models Using A* Search: A Novel Approach to Compress Big NLP Architectures ( http://arxiv.org/abs/2110.15225v1 )

ライセンス: Link先を確認
Archit Parnami, Rahul Singh, Tarun Joshi(参考訳) 近年、自然言語処理やコンピュータビジョンにおいてもbertのようなトランスフォーマーモデルが採用されている。 しかし,資源制約のある計算環境において,そのようなモデルの採用が限られているため,冗長なアテンションヘッドを排除してトランスフォーマーモデルを圧縮するための新しいプルーニングアルゴリズムを提案する。 我々は,A*探索アルゴリズムを適用し,最小限の精度保証付きプルーンドモデルを得る。 以上の結果から,BERT変圧器モデルにおける注目ヘッドの最大40%を精度を損なうことなく除去できる可能性が示唆された。

Recent years have seen a growing adoption of Transformer models such as BERT in Natural Language Processing and even in Computer Vision. However, due to the size, there has been limited adoption of such models within resource-constrained computing environments This paper proposes novel pruning algorithms to compress transformer models by eliminating redundant Attention Heads. We apply the A* search algorithm to obtain a pruned model with minimal accuracy guarantees. Our results indicate that the method could eliminate as much as 40% of the attention heads in the BERT transformer model with almost no loss in accuracy.
翻訳日:2021-10-29 14:22:37 公開日:2021-10-28
# データ汚染の教師なし異常検出のための正規性共役オートエンコーダ

Normality-Calibrated Autoencoder for Unsupervised Anomaly Detection on Data Contamination ( http://arxiv.org/abs/2110.14825v1 )

ライセンス: Link先を確認
Jongmin Yu, Hyeontaek Oh, Minkyung Kim, and Junsik Kim(参考訳) 本稿では,汚染されたデータセットの異常検出性能を事前情報やトレーニングフェーズの異常サンプルなしで向上させることができる正規度校正オートエンコーダ(NCAE)を提案する。 NCAEは、エントロピーの低い潜在空間から高信頼の正常サンプルを逆向きに生成し、トレーニングデータセットの異常サンプルを予測する。 NCAEは汚染試料の復元誤差を最小限に抑え、汚染試料の復元誤差を最大化するよう訓練されている。 実験の結果,本手法は教師なし異常検出のための浅層・ハイブリッド・ディープ手法より優れており,訓練段階におけるラベル付き異常サンプルを用いた半教師付き手法と比較して高い性能を示した。 ソースコードは `https://github.com/a ndreYoo/NCAE_UAD.git ' で公開されている。

In this paper, we propose Normality-Calibrated Autoencoder (NCAE), which can boost anomaly detection performance on the contaminated datasets without any prior information or explicit abnormal samples in the training phase. The NCAE adversarially generates high confident normal samples from a latent space having low entropy and leverages them to predict abnormal samples in a training dataset. NCAE is trained to minimise reconstruction errors in uncontaminated samples and maximise reconstruction errors in contaminated samples. The experimental results demonstrate that our method outperforms shallow, hybrid, and deep methods for unsupervised anomaly detection and achieves comparable performance compared with semi-supervised methods using labelled anomaly samples in the training phase. The source code is publicly available on `https://github.com/a ndreYoo/NCAE_UAD.git '.
翻訳日:2021-10-29 14:22:25 公開日:2021-10-28
# AEVA:逆極値解析を用いたブラックボックスバックドア検出

AEVA: Black-box Backdoor Detection Using Adversarial Extreme Value Analysis ( http://arxiv.org/abs/2110.14880v1 )

ライセンス: Link先を確認
Junfeng Guo and Ang Li and Cong Liu(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であることが証明されている。 バックドアは、トレーニング例にバックドアトリガを注入することで、ターゲットのDNNにバックドアトリガが付いた入力を誤分類する可能性があるため、ターゲットのDNNをターゲットのDNNに組み込むことが多い。 既存のバックドア検出手法では、オリジナルの有毒なトレーニングデータ、ターゲットのDNNのパラメータ、および各入力に対する予測信頼性へのアクセスを必要とすることが多い。 我々は、DNNが完全にブラックボックスであり、最終的な出力ラベルのみがアクセス可能なブラックボックスハードラベルバックドア検出問題に対処する。 最適化の観点からこの問題にアプローチし,バックドア検出の目的が敵の目的に拘束されていることを示す。 さらに理論的、実証的な研究により、この対向目的が高度に歪んだ分布を持つ解をもたらすことが明らかとなり、バックドア感染例の対向写像において特異性がしばしば観察される。 そこで本研究では,ブラックボックスニューラルネットワークのバックドア検出のための逆極値解析(AEVA)を提案する。 AEVAはモンテカルロ勾配推定から計算した逆写像の極端な値解析に基づいている。 複数の一般的なタスクやバックドアアタックに対する広範な実験により,ブラックボックスのハードラベルシナリオ下でのバックドアアタックの検出に有効であることが確認された。

Deep neural networks (DNNs) are proved to be vulnerable against backdoor attacks. A backdoor is often embedded in the target DNNs through injecting a backdoor trigger into training examples, which can cause the target DNNs misclassify an input attached with the backdoor trigger. Existing backdoor detection methods often require the access to the original poisoned training data, the parameters of the target DNNs, or the predictive confidence for each given input, which are impractical in many real-world applications, e.g., on-device deployed DNNs. We address the black-box hard-label backdoor detection problem where the DNN is fully black-box and only its final output label is accessible. We approach this problem from the optimization perspective and show that the objective of backdoor detection is bounded by an adversarial objective. Further theoretical and empirical studies reveal that this adversarial objective leads to a solution with highly skewed distribution; a singularity is often observed in the adversarial map of a backdoor-infected example, which we call the adversarial singularity phenomenon. Based on this observation, we propose the adversarial extreme value analysis(AEVA) to detect backdoors in black-box neural networks. AEVA is based on an extreme value analysis of the adversarial map, computed from the monte-carlo gradient estimation. Evidenced by extensive experiments across multiple popular tasks and backdoor attacks, our approach is shown effective in detecting backdoor attacks under the black-box hard-label scenarios.
翻訳日:2021-10-29 14:20:16 公開日:2021-10-28
# RGP: ニューラルネットワークの正規グラフ構造によるプルーニング

RGP: Neural Network Pruning through Its Regular Graph Structure ( http://arxiv.org/abs/2110.15192v1 )

ライセンス: Link先を確認
Zhuangzhi Chen, Jingyang Xiang, Yao Lu, Qi Xuan(参考訳) 軽量モデル設計はディープラーニング技術の応用において重要な方向性となり、プルーニングはモデルパラメータとFLOPの大幅な削減を実現する効果的な手段となっている。 既存のニューラルネットワークプルーニング手法は主にパラメータの重要性から始まり、パラメータプルーニングを反復的に実行するためのパラメータ評価指標を設計する。 これらの手法はモデルトポロジの観点からは研究されておらず、効率的ではあるが効率的ではない可能性がある。 本稿では,ニューラルネットワークのグラフ構造について検討し,レギュラーグラフベースプルーニング(RGP)を提案し,ワンショットニューラルネットワークプルーニングを行う。 我々は、正規グラフを生成し、グラフのノード次数値をプルーニング比に合わせるように設定し、エッジを交換することでグラフの平均最短経路長を減らし、最適なエッジ分布を得る。 最後に、得られたグラフをニューラルネットワーク構造にマッピングしてプルーニングを実現する。 実験により、グラフの平均最短経路長は、対応するニューラルネットワークの分類精度と負の相関を示し、提案するrppは、非常に高いパラメータ低減(90%以上)とフラップ削減(90%以上)を持つ強い精度保持能力を示す。

Lightweight model design has become an important direction in the application of deep learning technology, pruning is an effective mean to achieve a large reduction in model parameters and FLOPs. The existing neural network pruning methods mostly start from the importance of parameters, and design parameter evaluation metrics to perform parameter pruning iteratively. These methods are not studied from the perspective of model topology, may be effective but not efficient, and requires completely different pruning for different datasets. In this paper, we study the graph structure of the neural network, and propose regular graph based pruning (RGP) to perform a one-shot neural network pruning. We generate a regular graph, set the node degree value of the graph to meet the pruning ratio, and reduce the average shortest path length of the graph by swapping the edges to obtain the optimal edge distribution. Finally, the obtained graph is mapped into a neural network structure to realize pruning. Experiments show that the average shortest path length of the graph is negatively correlated with the classification accuracy of the corresponding neural network, and the proposed RGP shows a strong precision retention capability with extremely high parameter reduction (more than 90%) and FLOPs reduction (more than 90%).
翻訳日:2021-10-29 14:19:49 公開日:2021-10-28
# 固有制御を最大化するwasserstein距離

Wasserstein Distance Maximizing Intrinsic Control ( http://arxiv.org/abs/2110.15331v1 )

ライセンス: Link先を確認
Ishan Durugkar, Steven Hansen, Stephen Spencer, Volodymyr Mnih(参考訳) 本稿では,報酬信号がない場合に有意義に機能するスキル条件付き政策を学習する問題に対処する。 相互情報に基づく目標は、この設定において多様な状態に到達する学習スキルにいくつかの成功を示している。 これらの目的には、kl-divergence項が含まれており、mdpで遠く離れていない状態であっても、異なる状態を訪問することで最大化される。 本稿では,そのスキルの開始状態から来訪者のwasserstein距離を最大化する学習スキルに対して,エージェントを報奨する手法を提案する。 このような目的が,多様性に基づく目的よりもMDPの距離をカバーし,様々なアタリ環境において結果を検証する政策につながることを示す。

This paper deals with the problem of learning a skill-conditioned policy that acts meaningfully in the absence of a reward signal. Mutual information based objectives have shown some success in learning skills that reach a diverse set of states in this setting. These objectives include a KL-divergence term, which is maximized by visiting distinct states even if those states are not far apart in the MDP. This paper presents an approach that rewards the agent for learning skills that maximize the Wasserstein distance of their state visitation from the start state of the skill. It shows that such an objective leads to a policy that covers more distance in the MDP than diversity based objectives, and validates the results on a variety of Atari environments.
翻訳日:2021-10-29 14:19:27 公開日:2021-10-28
# Sayer氏: インシシットフィードバックを使ってシステムポリシーを最適化する

Sayer: Using Implicit Feedback to Optimize System Policies ( http://arxiv.org/abs/2110.14874v1 )

ライセンス: Link先を確認
Mathias L\'ecuyer, Sang Hoon Kim, Mihir Nanavati, Junchen Jiang, Siddhartha Sen, Amit Sharma, Aleksandrs Slivkins(参考訳) リソース(例えば、時間、メモリ、コア)を含むしきい値を決定する多くのシステムポリシーは、自然に追加的あるいは暗黙的なフィードバックを明らかにします。 例えば、システムがイベントが発生するのをX分待つと、時間が累積特性を持つため、<X分>を待っていれば何が起こったかを自動的に学習する。 このフィードバックは代替決定について教えてくれるし、システムポリシーを改善するのに使うことができる。 しかしながら、暗黙のフィードバックを活用することは、片側あるいは不完全な傾向があり、イベントの結果に依存するため、難しい。 結果として、単にデータ駆動モデルに組み込むような、フィードバックを使用する既存のプラクティスは、バイアスに悩まされます。 我々は、暗黙のフィードバックを利用して新しいシステムポリシーを評価し訓練する、Sayerと呼ばれる方法論を開発した。 Sayer氏は、強化学習(ランダム化探索と非バイアスの反事実推定)の2つのアイデアに基づいて、既存のポリシーによって収集されたデータを活用して、これらのポリシーを実際にデプロイすることなく、新しいポリシーのパフォーマンスを見積もる。 Sayer氏は、暗黙的な探索と暗黙的なデータ拡張を使用して、偏見のない形式で暗黙的なフィードバックを生成する。 これらの手法の根底にある重要な考え方は、実際に取られていないがフィードバックが推測できる決定に暗黙の確率を割り当てることである。 我々はsayerをazureの2つのプロダクションシナリオに適用し、任意のポリシーを正確に評価できることを示し、プロダクションポリシーを上回る新しいポリシーをトレーニングします。

We observe that many system policies that make threshold decisions involving a resource (e.g., time, memory, cores) naturally reveal additional, or implicit feedback. For example, if a system waits X min for an event to occur, then it automatically learns what would have happened if it waited <X min, because time has a cumulative property. This feedback tells us about alternative decisions, and can be used to improve the system policy. However, leveraging implicit feedback is difficult because it tends to be one-sided or incomplete, and may depend on the outcome of the event. As a result, existing practices for using feedback, such as simply incorporating it into a data-driven model, suffer from bias. We develop a methodology, called Sayer, that leverages implicit feedback to evaluate and train new system policies. Sayer builds on two ideas from reinforcement learning -- randomized exploration and unbiased counterfactual estimators -- to leverage data collected by an existing policy to estimate the performance of new candidate policies, without actually deploying those policies. Sayer uses implicit exploration and implicit data augmentation to generate implicit feedback in an unbiased form, which is then used by an implicit counterfactual estimator to evaluate and train new policies. The key idea underlying these techniques is to assign implicit probabilities to decisions that are not actually taken but whose feedback can be inferred; these probabilities are carefully calculated to ensure statistical unbiasedness. We apply Sayer to two production scenarios in Azure, and show that it can evaluate arbitrary policies accurately, and train new policies that outperform the production policies.
翻訳日:2021-10-29 14:16:48 公開日:2021-10-28
# コントラスト的事例によるアクティブラーニングの指導

Teaching an Active Learner with Contrastive Examples ( http://arxiv.org/abs/2110.14888v1 )

ライセンス: Link先を確認
Chaoqi Wang, Adish Singla, Yuxin Chen(参考訳) 本研究では,学習者が補助的な教師によって支援される追加のツイストを用いて,能動的学習の問題を研究する。 各ラウンドにおいて、学習者は、インスタンス $x^q$ のラベルを求めるクエリを提案し、教師は、学習プロセスを導くための説明情報と共に、要求されたラベル $\{x^q, y^q\}$ を提供する。 本稿では、この情報を追加のコントラスト例($x^c, y^c\}$)の形で見るので、$x^c$は、$x^q$で制約された集合から選択される(例えば、同じラベルを持つ異種インスタンス)。 私たちの焦点は、学習者にコントラストのある例のインフォメーションシーケンスを提供し、学習プロセスを高速化する教示アルゴリズムを設計することです。 このことは、与えられたラウンドにおけるアルゴリズムの選択が相互作用の歴史に依存するような、困難なシーケンス最適化問題につながることを示す。 本稿では,これらの比較例を適応的に選択する効率的な学習アルゴリズムについて検討する。 提案アルゴリズムは,2つの問題依存パラメータに基づいて高い性能保証を導出し,さらに,特定のタイプの能動学習者(例えば,一般化二分探索学習者)に対して,強い近似保証を示す。 最後に, 2つの数値ケーススタディを通して, 限界を説明し, 指導枠組みの有効性を示す。

We study the problem of active learning with the added twist that the learner is assisted by a helpful teacher. We consider the following natural interaction protocol: At each round, the learner proposes a query asking for the label of an instance $x^q$, the teacher provides the requested label $\{x^q, y^q\}$ along with explanatory information to guide the learning process. In this paper, we view this information in the form of an additional contrastive example ($\{x^c, y^c\}$) where $x^c$ is picked from a set constrained by $x^q$ (e.g., dissimilar instances with the same label). Our focus is to design a teaching algorithm that can provide an informative sequence of contrastive examples to the learner to speed up the learning process. We show that this leads to a challenging sequence optimization problem where the algorithm's choices at a given round depend on the history of interactions. We investigate an efficient teaching algorithm that adaptively picks these contrastive examples. We derive strong performance guarantees for our algorithm based on two problem-dependent parameters and further show that for specific types of active learners (e.g., a generalized binary search learner), the proposed teaching algorithm exhibits strong approximation guarantees. Finally, we illustrate our bounds and demonstrate the effectiveness of our teaching framework via two numerical case studies.
翻訳日:2021-10-29 14:16:19 公開日:2021-10-28
# 漁業情報を用いた確率的オートエンコーダ

Probabilistic Autoencoder using Fisher Information ( http://arxiv.org/abs/2110.14947v1 )

ライセンス: Link先を確認
Johannes Zacherl (1 and 2), Philipp Frank (1 and 2) and Torsten A. En{\ss}lin (1 and 2) ((1) Max-Planck Institut f\"ur Astrophysik (2) Ludwig-Maximilians-U niversit\"at M\"unchen)(参考訳) ニューラルネットワークは物理学を含む多くの科学分野において役割を担っている。 変分オートエンコーダ(VAE)は、確率論的解釈を持つ低次元潜在空間に設定された高次元データセットの本質的な情報を表現することができるニューラルネットワークである。 特に、VAEの最初の部分であるいわゆるエンコーダネットワークは、入力を潜時空間の位置にマッピングし、その位置のばらつきに関して不確実な情報を提供する。 この作業では、Autoencoderアーキテクチャの拡張であるFisherNetが導入されている。 このアーキテクチャでは、潜時空間の不確実性はエンコーダの付加情報チャネルを使用して生成されるのではなく、フィッシャー情報計量を用いてデコーダから導出される。 このアーキテクチャは、モデルから派生した直接的な不確実性定量化を提供するという理論的な観点からの利点があり、また不確実性相互相関も考慮している。 FisherNetは、同等のVAEよりも正確なデータ再構成を実現しており、学習性能も、潜在空間次元の数に比例して向上している。

Neural Networks play a growing role in many science disciplines, including physics. Variational Autoencoders (VAEs) are neural networks that are able to represent the essential information of a high dimensional data set in a low dimensional latent space, which have a probabilistic interpretation. In particular the so-called encoder network, the first part of the VAE, which maps its input onto a position in latent space, additionally provides uncertainty information in terms of a variance around this position. In this work, an extension to the Autoencoder architecture is introduced, the FisherNet. In this architecture, the latent space uncertainty is not generated using an additional information channel in the encoder, but derived from the decoder, by means of the Fisher information metric. This architecture has advantages from a theoretical point of view as it provides a direct uncertainty quantification derived from the model, and also accounts for uncertainty cross-correlations. We can show experimentally that the FisherNet produces more accurate data reconstructions than a comparable VAE and its learning performance also apparently scales better with the number of latent space dimensions.
翻訳日:2021-10-29 14:15:54 公開日:2021-10-28
# 動力学的システムのための回転変換局所座標フレーム

Roto-translated Local Coordinate Frames For Interacting Dynamical Systems ( http://arxiv.org/abs/2110.14961v1 )

ライセンス: Link先を確認
Miltiadis Kofinas, Naveen Shankar Nagaraja, Efstratios Gavves(参考訳) モデリング相互作用は、複雑な力学系、すなわち、非常に非線形で時間依存的な振る舞いを持つ相互作用対象のシステムを学ぶ際に重要である。 そのようなシステムの大規模なクラスは$\textit{geometric graphs}$, $\textit{i.e.}$、ユークリッド空間にノードを配置したグラフとして、例えば交通シーンの車両のように、$\textit{arbitrally}$選択されたグローバル座標系として形式化することができる。 任意のグローバル座標系にかかわらず、各力学系の制御力学は回転や変換に不変であり、 $\textit{Galilean invariance}$ とも呼ばれる。 これらの不変性を無視すると一般化が悪化するので、この研究ではノードオブジェクトごとの局所座標フレームを提案し、相互作用する力学系の幾何学グラフにロト変換不変性を誘導する。 さらに、局所座標フレームはグラフニューラルネットワークにおける異方性フィルタリングの自然な定義を可能にする。 交通シーン, 3次元モーションキャプチャ, 衝突粒子実験では, 提案手法が最近の最先端技術よりも快適に優れていることが示されている。

Modelling interactions is critical in learning complex dynamical systems, namely systems of interacting objects with highly non-linear and time-dependent behaviour. A large class of such systems can be formalized as $\textit{geometric graphs}$, $\textit{i.e.}$, graphs with nodes positioned in the Euclidean space given an $\textit{arbitrarily}$ chosen global coordinate system, for instance vehicles in a traffic scene. Notwithstanding the arbitrary global coordinate system, the governing dynamics of the respective dynamical systems are invariant to rotations and translations, also known as $\textit{Galilean invariance}$. As ignoring these invariances leads to worse generalization, in this work we propose local coordinate frames per node-object to induce roto-translation invariance to the geometric graph of the interacting dynamical system. Further, the local coordinate frames allow for a natural definition of anisotropic filtering in graph neural networks. Experiments in traffic scenes, 3D motion capture, and colliding particles demonstrate that the proposed approach comfortably outperforms the recent state-of-the-art.
翻訳日:2021-10-29 14:15:36 公開日:2021-10-28
# 時系列特権情報を用いた予測モデルの効率的学習

Using Time-Series Privileged Information for Provably Efficient Learning of Prediction Models ( http://arxiv.org/abs/2110.14993v1 )

ライセンス: Link先を確認
Rickard Karlsson, Martin Willbo, Zeshan Hussain, Rahul G. Krishnan, David Sontag, Fredrik D. Johansson(参考訳) 学習中に特権情報を利用する教師付きモデルを用いて将来の成果を予測する。 特権情報は、予測の基準時間と将来の結果との間に観察される時系列のサンプルを含み、この情報は従来の教師付き学習とは異なるトレーニング時間でのみ利用可能である。 私たちの疑問は、この特権データを使用すると、テスト時の予測にベースラインデータのみを使用するモデルのサンプル効率が向上する場合です。 この設定のアルゴリズムを与え,固定地平線の非定常ガウス線形力学系から時系列を引いた場合,特権情報を用いた学習は,それなしで学習するよりも効率的であることを示す。 合成データでは、仮定が成立する時と違反する時の両方において、アルゴリズムと理論の限界をテストする。 実世界の3つの多様なデータセットにおいて、我々のアプローチは古典的な学習、特にデータが不足している場合、一般的に好まれることを示す。 最後に, 理論的にも経験的にも, 蒸留法と推定器を関連づける。

We study prediction of future outcomes with supervised models that use privileged information during learning. The privileged information comprises samples of time series observed between the baseline time of prediction and the future outcome; this information is only available at training time which differs from the traditional supervised learning. Our question is when using this privileged data leads to more sample-efficient learning of models that use only baseline data for predictions at test time. We give an algorithm for this setting and prove that when the time series are drawn from a non-stationary Gaussian-linear dynamical system of fixed horizon, learning with privileged information is more efficient than learning without it. On synthetic data, we test the limits of our algorithm and theory, both when our assumptions hold and when they are violated. On three diverse real-world datasets, we show that our approach is generally preferable to classical learning, particularly when data is scarce. Finally, we relate our estimator to a distillation approach both theoretically and empirically.
翻訳日:2021-10-29 14:15:16 公開日:2021-10-28
# (参考訳) 映像と言語からの微分物理モデル学習による動的視覚推論 [全文訳有]

Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language ( http://arxiv.org/abs/2110.15358v1 )

ライセンス: CC BY-SA 4.0
Mingyu Ding, Zhenfang Chen, Tao Du, Ping Luo, Joshua B. Tenenbaum, Chuang Gan(参考訳) 本研究では、視覚概念を共同で学習し、オブジェクトの物理モデルとその相互作用をビデオや言語から推論できる、ビジュアル推論とディファエンタブル物理(VRDP)という統合フレームワークを提案する。 これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。 視覚知覚モジュールは、各ビデオフレームをオブジェクト中心の軌跡に解析し、潜時シーン表現として表現する。 概念学習者は、言語に基づくこれらの対象中心表現から視覚概念(色、形状、材料など)を基礎として、物理エンジンの事前知識を提供する。 インパルスベースで微分可能な剛体シミュレータとして実装された微分可能物理モデルは、映像観察にシミュレーションされた軌跡を組み込むことで、質量、再生、速度などの物理特性を推測する基礎概念に基づく微分可能物理シミュレーションを行う。 その結果、これらの学習された概念と物理モデルは、私たちが見たものを説明し、未来とカウンターファクトのシナリオで何が起こっているのかを想像することができる。 微分物理学を動的推論フレームワークに統合することは、いくつかの魅力的な利点をもたらす。 学習物理学モデルにおけるより正確なダイナミクス予測は、合成ベンチマークと実世界のベンチマークの両方において、高い透明性と解釈性を維持しながら、最先端のパフォーマンスを可能にする。 vrdpはデータ効率も高く、物理パラメータはごくわずかなビデオから最適化でき、1つのビデオでも十分です。 最後に、すべての物理パラメータを推測することで、VRDPはいくつかの例から新しい概念を素早く学習することができる。

In this work, we propose a unified framework, called Visual Reasoning with Differ-entiable Physics (VRDP), that can jointly learn visual concepts and infer physics models of objects and their interactions from videos and language. This is achieved by seamlessly integrating three components: a visual perception module, a concept learner, and a differentiable physics engine. The visual perception module parses each video frame into object-centric trajectories and represents them as latent scene representations. The concept learner grounds visual concepts (e.g., color, shape, and material) from these object-centric representations based on the language, thus providing prior knowledge for the physics engine. The differentiable physics model, implemented as an impulse-based differentiable rigid-body simulator, performs differentiable physical simulation based on the grounded concepts to infer physical properties, such as mass, restitution, and velocity, by fitting the simulated trajectories into the video observations. Consequently, these learned concepts and physical models can explain what we have seen and imagine what is about to happen in future and counterfactual scenarios. Integrating differentiable physics into the dynamic reasoning framework offers several appealing benefits. More accurate dynamics prediction in learned physics models enables state-of-the-art performance on both synthetic and real-world benchmarks while still maintaining high transparency and interpretability; most notably, VRDP improves the accuracy of predictive and counterfactual questions by 4.5% and 11.5% compared to its best counterpart. VRDP is also highly data-efficient: physical parameters can be optimized from very few videos, and even a single video can be sufficient. Finally, with all physical parameters inferred, VRDP can quickly learn new concepts from a few examples.
翻訳日:2021-10-29 14:13:34 公開日:2021-10-28
# Colossal-AI:大規模並列トレーニングのための統合型ディープラーニングシステム

Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training ( http://arxiv.org/abs/2110.14883v1 )

ライセンス: Link先を確認
Zhengda Bian and Hongxin Liu and Boxiang Wang and Haichen Huang and Yongbin Li and Chuanrui Wang and Fan Cui and Yang You(参考訳) Transformerアーキテクチャは、コンピュータビジョンや自然言語処理といった分野におけるディープラーニングモデルの性能を改善した。 パフォーマンスの向上とともに、モデルサイズも大きくなる。 これにより、GPUのような現在のアクセラレータハードウェアのメモリウォールに課題が生じる。 ビジョントランスフォーマー、BERT、GPTのような大型モデルを1つのGPUや1台のマシンでトレーニングすることは決して理想的ではない。 分散環境でモデルをトレーニングする緊急の需要があります。 しかしながら、分散トレーニング、特にモデル並列性は、しばしばコンピュータシステムやアーキテクチャの専門知識を必要とする。 AI研究者にとって、モデルに複雑な分散トレーニングソリューションを実装することは依然として課題である。 本稿では,データ並列性,パイプライン並列性,多重テンソル並列性,シーケンス並列性など,並列化手法の異なるパラダイムをシームレスに統合する並列学習システムであるColossal-AIを紹介する。 Colossal-AIは、AIコミュニティが分散モデルを書くのをサポートすることを目的としている。 これにより、モデルアーキテクチャの開発に集中でき、分散トレーニングの関心事を開発プロセスから切り離すことができる。 ドキュメンテーションはhttps://www.colossal ai.orgで、ソースコードはhttps://github.com/h pcaitech/ColossalAIで見ることができる。

The Transformer architecture has improved the performance of deep learning models in domains such as Computer Vision and Natural Language Processing. Together with better performance come larger model sizes. This imposes challenges to the memory wall of the current accelerator hardware such as GPU. It is never ideal to train large models such as Vision Transformer, BERT, and GPT on a single GPU or a single machine. There is an urgent demand to train models in a distributed environment. However, distributed training, especially model parallelism, often requires domain expertise in computer systems and architecture. It remains a challenge for AI researchers to implement complex distributed training solutions for their models. In this paper, we introduce Colossal-AI, which is a unified parallel training system designed to seamlessly integrate different paradigms of parallelization techniques including data parallelism, pipeline parallelism, multiple tensor parallelism, and sequence parallelism. Colossal-AI aims to support the AI community to write distributed models in the same way as how they write models normally. This allows them to focus on developing the model architecture and separates the concerns of distributed training from the development process. The documentations can be found at https://www.colossal ai.org and the source code can be found at https://github.com/h pcaitech/ColossalAI.
翻訳日:2021-10-29 13:43:45 公開日:2021-10-28
# 終末音声感情認識 : 実生活救急コールセンターデータ記録の課題

End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings ( http://arxiv.org/abs/2110.14957v1 )

ライセンス: Link先を確認
Th\'eo Deschamps-Berger (LISN, CNRS), Lori Lamel (LISN, CNRS), Laurence Devillers (LISN, CNRS, SU)(参考訳) 音声から話者の感情を認識することは、緊急コールセンターの重要な要素である。 音声感情認識のためのエンドツーエンドのディープラーニングシステムは、従来の機械学習手法と同等あるいはそれ以上の結果が得られる。 本稿では,言語からの感情認識のためのニューラルネットワークアーキテクチャの性能を検証するために,コミュニティが利用できる広く利用されているコーパスであるIEMOCAPを用いて,まず学習・試験を行った。 そして485人の話者による440のダイアログ (2h16m) からなる実生活コーパスcemoと同じアーキテクチャを用いた。 これらの実際の緊急対話において、発信者によって表現される最も頻繁な感情は、恐怖、怒り、リリーフのようなポジティブな感情である。 IEMOCAPの一般的な話題会話では、最も頻繁な感情は悲しみ、怒り、幸福である。 同じエンドツーエンドのディープラーニングアーキテクチャを使用して、IEMOCAPでは63%のUnweighted Accuracy Recall(UA)、CEMOでは45.6%のUAが、それぞれ4つのクラスを持つ。 2つのクラス(Anger, Neutral)を使用すると、CEMOの結果は76.9%、IEMOCAPは81.1%である。 音声チャネルと言語チャネルを組み合わせることで、CEMOによるこれらの奨励的な結果を改善することができると期待する。 実生活の感情は行動する感情よりも明らかに複雑であり、主に話者の感情表現が多様である。 インデックス項感情検出、エンドツーエンドのディープラーニングアーキテクチャ、コールセンタ、実生活データベース、複雑な感情。

Recognizing a speaker's emotion from their speech can be a key element in emergency call centers. End-to-end deep learning systems for speech emotion recognition now achieve equivalent or even better results than conventional machine learning approaches. In this paper, in order to validate the performance of our neural network architecture for emotion recognition from speech, we first trained and tested it on the widely used corpus accessible by the community, IEMOCAP. We then used the same architecture as the real life corpus, CEMO, composed of 440 dialogs (2h16m) from 485 speakers. The most frequent emotions expressed by callers in these real life emergency dialogues are fear, anger and positive emotions such as relief. In the IEMOCAP general topic conversations, the most frequent emotions are sadness, anger and happiness. Using the same end-to-end deep learning architecture, an Unweighted Accuracy Recall (UA) of 63% is obtained on IEMOCAP and a UA of 45.6% on CEMO, each with 4 classes. Using only 2 classes (Anger, Neutral), the results for CEMO are 76.9% UA compared to 81.1% UA for IEMOCAP. We expect that these encouraging results with CEMO can be improved by combining the audio channel with the linguistic channel. Real-life emotions are clearly more complex than acted ones, mainly due to the large diversity of emotional expressions of speakers. Index Terms-emotion detection, end-to-end deep learning architecture, call center, real-life database, complex emotions.
翻訳日:2021-10-29 13:43:05 公開日:2021-10-28
# パラメータ化アクションプリミティブによるロボット強化学習の高速化

Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives ( http://arxiv.org/abs/2110.15360v1 )

ライセンス: Link先を確認
Murtaza Dalal, Deepak Pathak, Ruslan Salakhutdinov(参考訳) 汎用ロボットシステムを構築するための強化学習(RL)の可能性にもかかわらず、純粋に連続した行動空間での探索が困難であるため、ロボット工学の課題を解決するためのRLエージェントの訓練は依然として困難である。 この問題に対処することは、より優れた最適化やより効率的な探索によってRL法を改善することに焦点を当てた研究の活発な領域である。 改良を検討する上で重要な要素は、ロボットとのRLアルゴリズムのインタフェースである。 本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。 これらのパラメータ化されたプリミティブは表現力が高く、実装が簡単で、効率的な探索を可能にし、ロボット、タスク、環境間で転送できる。 我々は,3つの異なる領域の課題に対して,画像入力とスパース端末報酬を用いて,徹底的な実験研究を行う。 動作インタフェースへの簡単な変更は、基礎となるRLアルゴリズムによらず、学習効率とタスク性能の両方を大幅に改善し、オフラインの専門家データから学習する従来の手法よりも大幅に優れています。 コードとビデオ: https://mihdal.githu b.io/raps/

Despite the potential of reinforcement learning (RL) for building general-purpose robotic systems, training RL agents to solve robotics tasks still remains challenging due to the difficulty of exploration in purely continuous action spaces. Addressing this problem is an active area of research with the majority of focus on improving RL methods via better optimization or more efficient exploration. An alternate but important component to consider improving is the interface of the RL algorithm with the robot. In this work, we manually specify a library of robot action primitives (RAPS), parameterized with arguments that are learned by an RL policy. These parameterized primitives are expressive, simple to implement, enable efficient exploration and can be transferred across robots, tasks and environments. We perform a thorough empirical study across challenging tasks in three distinct domains with image input and a sparse terminal reward. We find that our simple change to the action interface substantially improves both the learning efficiency and task performance irrespective of the underlying RL algorithm, significantly outperforming prior methods which learn skills from offline expert data. Code and videos at https://mihdalal.git hub.io/raps/
翻訳日:2021-10-29 13:41:00 公開日:2021-10-28
# (参考訳) 自己教師あり表現から音声を再構成するニューラル解析と合成 [全文訳有]

Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations ( http://arxiv.org/abs/2110.14513v2 )

ライセンス: CC BY 4.0
Hyeong-Seok Choi, Juheon Lee, Wansoo Kim, Jie Hwan Lee, Hoon Heo, Kyogu Lee(参考訳) 本稿では,任意の音声信号の音声,ピッチ,速度を操作できるニューラル解析合成(nansy)フレームワークを提案する。 以前の研究の多くは、情報ボトルネックを利用して、制御可能な合成のために分析機能を歪めてしまうことに重点を置いている。 情報摂動に基づく新しいトレーニング戦略を提案することでこの問題に対処する。 この考え方は、元の入力信号(例えばフォルマント、ピッチ、周波数応答)の情報を摂動させることで、合成ネットワークは入力信号の再構成に必須の属性を選択的に取ることができる。 NANSYはボトルネック構造を必要としないため、高い再構築品質と制御性の両方を享受できる。 さらに、nansyは、テキストや話者情報などの音声データに関連するラベルを必要とせず、新しい分析機能、すなわちwav2vec機能と新しく提案されたピッチ機能であるyingramを使用して、完全な自己教師付きトレーニングを可能にする。 完全な自己教師付きトレーニングを活用することで、NANSYは、単にマルチランガルデータセットでトレーニングすることで、簡単にマルチランガル設定に拡張することができる。 実験により、NANSYはゼロショット音声変換、ピッチシフト、時間スケール修正などのいくつかの応用において、大幅な性能向上を達成できることが示された。

We present a neural analysis and synthesis (NANSY) framework that can manipulate voice, pitch, and speed of an arbitrary speech signal. Most of the previous works have focused on using information bottleneck to disentangle analysis features for controllable synthesis, which usually results in poor reconstruction quality. We address this issue by proposing a novel training strategy based on information perturbation. The idea is to perturb information in the original input signal (e.g., formant, pitch, and frequency response), thereby letting synthesis networks selectively take essential attributes to reconstruct the input signal. Because NANSY does not need any bottleneck structures, it enjoys both high reconstruction quality and controllability. Furthermore, NANSY does not require any labels associated with speech data such as text and speaker information, but rather uses a new set of analysis features, i.e., wav2vec feature and newly proposed pitch feature, Yingram, which allows for fully self-supervised training. Taking advantage of fully self-supervised training, NANSY can be easily extended to a multilingual setting by simply training it with a multilingual dataset. The experiments show that NANSY can achieve significant improvement in performance in several applications such as zero-shot voice conversion, pitch shift, and time-scale modification.
翻訳日:2021-10-29 13:37:17 公開日:2021-10-28
# (参考訳) 感度分解によるニューラルキャリブレーションの幾何学的展望 [全文訳有]

A Geometric Perspective towards Neural Calibration via Sensitivity Decomposition ( http://arxiv.org/abs/2110.14577v2 )

ライセンス: CC BY 4.0
Junjiao Tian, Dylan Yung, Yen-Chang Hsu, Zsolt Kira(参考訳) 視覚分類モデルがデータ分散シフトの際のキャリブレーションの低下に悩まされることはよく知られている。 本稿では,この問題に対して幾何学的アプローチをとる。 本稿では,サンプル特徴埋め込みのノルムと対象分類器との角類似性をインスタンス依存成分とインスタンス非依存成分に分解する幾何感度分解(gsd)を提案する。 インスタンス依存コンポーネントは入力の変更に関するセンシティブな情報をキャプチャし、インスタンス依存コンポーネントはトレーニングデータセットの損失を最小限に抑えるためにのみ役立つ非センシティブな情報を表現します。 この分解に触発されて,現在のソフトマックス線形モデルへの単純な拡張を解析的に導出し,トレーニング中の2つの成分の絡み合いを解消することを学ぶ。 いくつかの共通ビジョンモデルでは、解離モデルでは、オフ・オブ・ディストリビューション(OOD)データや破損に直面する標準的なキャリブレーション指標の他のキャリブレーション手法よりもはるかに少ない複雑さで優れている。 具体的には,予測校正誤差におけるCIFAR100の相対的改善率を30.8%上回った。 https://github.com/G T-RIPL/Geometric-Sen sitivity-Decompositi on.gitで公開されている。

It is well known that vision classification models suffer from poor calibration in the face of data distribution shifts. In this paper, we take a geometric approach to this problem. We propose Geometric Sensitivity Decomposition (GSD) which decomposes the norm of a sample feature embedding and the angular similarity to a target classifier into an instance-dependent and an instance-independent component. The instance-dependent component captures the sensitive information about changes in the input while the instance-independent component represents the insensitive information serving solely to minimize the loss on the training dataset. Inspired by the decomposition, we analytically derive a simple extension to current softmax-linear models, which learns to disentangle the two components during training. On several common vision models, the disentangled model outperforms other calibration methods on standard calibration metrics in the face of out-of-distribution (OOD) data and corruption with significantly less complexity. Specifically, we surpass the current state of the art by 30.8% relative improvement on corrupted CIFAR100 in Expected Calibration Error. Code available at https://github.com/G T-RIPL/Geometric-Sen sitivity-Decompositi on.git.
翻訳日:2021-10-29 13:20:18 公開日:2021-10-28
# オフライン強化学習のためのハイパーパラメータフリーポリシー選択に向けて

Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning ( http://arxiv.org/abs/2110.14000v2 )

ライセンス: Link先を確認
Siyuan Zhang, Nan Jiang(参考訳) オフライン強化学習(RL)において、異なるトレーニングアルゴリズムが生み出すポリシーと価値関数をどのように選択するか -- ハイパーパレーメータチューニングに欠かせない -- は、重要なオープンな問題である。 既存のオフ・ポリシー・アセスメント(OPE)に基づくアプローチは、しばしば追加の関数近似とハイパーパラメータを必要とするため、ニワトリと卵の状況が生じる。 本稿では、近年の値関数選択の理論的進歩であるBVFT[XJ21]に基づく政策選択のためのハイパーパラメータフリーアルゴリズムを設計し、アタリなどの離散作用ベンチマークにおいてその効果を実証する。 連続作用領域における批判の欠如による性能劣化に対処するため,BVFT と OPE を併用して両世界の長所を得るとともに,Q関数に基づく OPE のハイパーパラメータチューニング法を理論的に保証する。

How to select between policies and value functions produced by different training algorithms in offline reinforcement learning (RL) -- which is crucial for hyperpa-rameter tuning -- is an important open question. Existing approaches based on off-policy evaluation (OPE) often require additional function approximation and hence hyperparameters, creating a chicken-and-egg situation. In this paper, we design hyperparameter-free algorithms for policy selection based on BVFT [XJ21], a recent theoretical advance in value-function selection, and demonstrate their effectiveness in discrete-action benchmarks such as Atari. To address performance degradation due to poor critics in continuous-action domains, we further combine BVFT with OPE to get the best of both worlds, and obtain a hyperparameter-tunin g method for Q-function based OPE with theoretical guarantees as a side product.
翻訳日:2021-10-29 13:00:13 公開日:2021-10-28
# CLLD:テキスト分類のためのラベル距離を用いたコントラスト学習

CLLD: Contrastive Learning with Label Distance for Text Classificatioin ( http://arxiv.org/abs/2110.13656v2 )

ライセンス: Link先を確認
Jinhe Lan, Qingyuan Zhan, Chenhao Jiang, Kunping Yuan, Desheng Wang(参考訳) 既存の事前訓練されたモデルは、様々なテキスト分類タスクで最先端のパフォーマンスを達成した。 これらのモデルは普遍言語表現の学習に有用であることが証明されている。 しかし、類似したテキスト間の意味的不一致は、事前学習された高度なモデルでは効果的に区別できないため、区別が難しいクラスのパフォーマンスに大きな影響を与えている。 この問題に対処するために,本研究では,ラベル距離を用いたコントラスト学習(CLLD)を提案する。 近年のコントラスト学習の進歩に触発され,コントラストクラス学習のためのラベル距離を用いた分類法を特に設計した。 CLLDは、ラベルの割り当てに繋がる微妙な違いの中で柔軟性を確保し、類似性を持つクラスごとに異なる表現を生成する。 公開ベンチマークと内部データセットの大規模な実験により,本手法が事前学習されたモデルの性能を向上させることを示す。 重要な点として,学習ラベル距離はクラス間の敵意を緩和することが示唆された。

Existed pre-trained models have achieved state-of-the-art performance on various text classification tasks. These models have proven to be useful in learning universal language representations. However, the semantic discrepancy between similar texts cannot be effectively distinguished by advanced pre-trained models, which have a great influence on the performance of hard-to-distinguish classes. To address this problem, we propose a novel Contrastive Learning with Label Distance (CLLD) in this work. Inspired by recent advances in contrastive learning, we specifically design a classification method with label distance for learning contrastive classes. CLLD ensures the flexibility within the subtle differences that lead to different label assignments, and generates the distinct representations for each class having similarity simultaneously. Extensive experiments on public benchmarks and internal datasets demonstrate that our method improves the performance of pre-trained models on classification tasks. Importantly, our experiments suggest that the learned label distance relieve the adversarial nature of interclasses.
翻訳日:2021-10-29 12:59:57 公開日:2021-10-28
# NeuroComb: グラフニューラルネットワークによるSAT解決の改善

NeuroComb: Improving SAT Solving with Graph Neural Networks ( http://arxiv.org/abs/2110.14053v2 )

ライセンス: Link先を確認
Wenxi Wang, Yang Hu, Mohit Tiwari, Sarfraz Khurshid, Kenneth McMillan, Risto Miikkulainen(参考訳) 提案的満足度(SAT)は、計画、検証、セキュリティなど、多くの研究分野に影響を与えるNP完全問題である。 現代的なSATソルバの顕著な成功にもかかわらず、スケーラビリティは依然として課題である。 主要なストリーム SAT ソルバは Conflict-Driven Clause Learning (CDCL) アルゴリズムに基づいている。 グラフニューラルネットワーク(gnns)による予測による可変分岐ヒューリスティックの改善によるcdcl satソルバの向上を目的とした最近の研究 しかし、これまでのところこのアプローチは、解決をより効果的にしないか、あるいは大量のgpuリソースへの頻繁にオンラインアクセスを必要としていた。 本論文はgnnの改善を実用的にするためのアプローチとして,(1)重要な変数と節の予測を,より効果的な分岐戦略に動的分岐と組み合わせることが可能であり,(2)sat解の開始前に1回だけニューラルネットワークに問い合わせるだけで十分である,という2つの洞察に基づくneurocombを提案する。 古典的なMiniSatソルバの強化として実装されたNeuroCombは、最近のSATCOMP-2020の競合問題の18.5%の問題を解決した。 それゆえNeuroCombは、現代的な機械学習によるSAT問題解決のための実践的なアプローチである。

Propositional satisfiability (SAT) is an NP-complete problem that impacts many research fields, such as planning, verification, and security. Despite the remarkable success of modern SAT solvers, scalability still remains a challenge. Main stream modern SAT solvers are based on the Conflict-Driven Clause Learning (CDCL) algorithm. Recent work aimed to enhance CDCL SAT solvers by improving its variable branching heuristics through predictions generated by Graph Neural Networks (GNNs). However, so far this approach either has not made solving more effective, or has required frequent online accesses to substantial GPU resources. Aiming to make GNN improvements practical, this paper proposes an approach called NeuroComb, which builds on two insights: (1) predictions of important variables and clauses can be combined with dynamic branching into a more effective hybrid branching strategy, and (2) it is sufficient to query the neural model only once for the predictions before the SAT solving starts. Implemented as an enhancement to the classic MiniSat solver, NeuroComb allowed it to solve 18.5% more problems on the recent SATCOMP-2020 competition problem set. NeuroComb is therefore a practical approach to improving SAT solving through modern machine learning.
翻訳日:2021-10-29 12:59:43 公開日:2021-10-28
# ゴール条件付きブロックMDPにおけるドメイン不変表現の学習

Learning Domain Invariant Representations in Goal-conditioned Block MDPs ( http://arxiv.org/abs/2110.14248v2 )

ライセンス: Link先を確認
Beining Han, Chongyi Zheng, Harris Chan, Keiran Paster, Michael R. Zhang, Jimmy Ba(参考訳) 深層強化学習(RL)は多くの複雑なマルコフ決定過程(MDP)の解決に成功している。 しかしエージェントはしばしば、現実世界への展開後に予期せぬ環境変化に直面している。 これらの変更は多くの場合、視覚入力エージェントの背景シフトなど、基礎的な問題とは無関係である。 残念ながら、深いRLポリシーは通常これらの変更に敏感であり、それらに対して堅牢に行動しない。 これは教師付き学習における領域一般化の問題に似ている。 本研究では、ゴール条件付きRLエージェントに対するこの問題について検討する。 本稿では,新しい環境に対する目標条件付きポリシーの一般化性を特徴付けるブロックMDP設定の理論的枠組みを提案する。 本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。 実験により, 目標条件付きRLエージェントは, 様々な未確認試験環境で良好に動作し, ベースラインよりも50%向上した。

Deep Reinforcement Learning (RL) is successful in solving many complex Markov Decision Processes (MDPs) problems. However, agents often face unanticipated environmental changes after deployment in the real world. These changes are often spurious and unrelated to the underlying problem, such as background shifts for visual input agents. Unfortunately, deep RL policies are usually sensitive to these changes and fail to act robustly against them. This resembles the problem of domain generalization in supervised learning. In this work, we study this problem for goal-conditioned RL agents. We propose a theoretical framework in the Block MDP setting that characterizes the generalizability of goal-conditioned policies to new environments. Under this framework, we develop a practical method PA-SkewFit that enhances domain generalization. The empirical evaluation shows that our goal-conditioned RL agent can perform well in various unseen test environments, improving by 50% over baselines.
翻訳日:2021-10-29 12:59:21 公開日:2021-10-28
# Active-LATHE:均質なイジング木を学習するためのエラー指数を高めるアクティブ学習アルゴリズム

Active-LATHE: An Active Learning Algorithm for Boosting the Error Exponent for Learning Homogeneous Ising Trees ( http://arxiv.org/abs/2110.14341v2 )

ライセンス: Link先を確認
Fengzhuo Zhang, Anshoo Tandon, Vincent Y. F. Tan(参考訳) Chow-Liu アルゴリズム (IEEE Trans.~Inform.〜Theory, 1968) は、木構造図形モデルをサンプルデータベクトルから学習するための主要な手段である。 その理論的性質はよく研究され、よく理解されている。 本稿では、辺を形成する各ノードの対が同じ相関値$\rho$を持つような、より基本的な木、すなわち「同質な木」のクラスに焦点をあてる。 我々は、"em active learning} または "em active sampling of node or variable} が許可された場合、均質木モデルの構造を学習するエラー確率を更に低減できるかどうかを問う。 我々の図形は、誤差確率の指数的な崩壊率をデータサンプル数の増加とともに定量化する、誤差指数である。 一見すると、すべてのエッジが統計的に同一であるため、エラー指数の改善は不可能に思える。 我々は,均質なエッジ(active-lathe)を持つ木に対するアルゴリズムアクティブラーニングアルゴリズムの設計と解析を行い,$\rho$ が少なくとも$0.8$ の場合,誤差指数を 40 % 以上向上させる。 $\rho$の他のすべての値に対して、私たちはまた、より控えめな、エラー指数の改善も観察します。 我々の分析は、サンプルの微小だが検出可能な統計的な変動を利用して、より多くのデータをグラフの一部に割り当てることにかかっています。

The Chow-Liu algorithm (IEEE Trans.~Inform.~Theor y, 1968) has been a mainstay for the learning of tree-structured graphical models from i.i.d.\ sampled data vectors. Its theoretical properties have been well-studied and are well-understood. In this paper, we focus on the class of trees that are arguably even more fundamental, namely {\em homogeneous} trees in which each pair of nodes that forms an edge has the same correlation $\rho$. We ask whether we are able to further reduce the error probability of learning the structure of the homogeneous tree model when {\em active learning} or {\em active sampling of nodes or variables} is allowed. Our figure of merit is the {\em error exponent}, which quantifies the exponential rate of decay of the error probability with an increasing number of data samples. At first sight, an improvement in the error exponent seems impossible, as all the edges are statistically identical. We design and analyze an algorithm Active Learning Algorithm for Trees with Homogeneous Edge (Active-LATHE), which surprisingly boosts the error exponent by at least 40\% when $\rho$ is at least $0.8$. For all other values of $\rho$, we also observe commensurate, but more modest, improvements in the error exponent. Our analysis hinges on judiciously exploiting the minute but detectable statistical variation of the samples to allocate more data to parts of the graph in which we are less confident of being correct.
翻訳日:2021-10-29 12:59:06 公開日:2021-10-28
# ビデオ認識のための時間整合共分散プーリングネットワーク

Temporal-attentive Covariance Pooling Networks for Video Recognition ( http://arxiv.org/abs/2110.14381v2 )

ライセンス: Link先を確認
Zilin Gao, Qilong Wang, Bingbing Zhang, Qinghua Hu, Peihua Li(参考訳) 映像認識タスクでは,映像スニペットの内容全体を要約したグローバル表現が最終演出に重要な役割を果たす。 しかし、既存のビデオアーキテクチャは通常、ビデオの複雑なダイナミックスを捉える能力に制限のある、シンプルでグローバルな平均プーリング(GAP)手法を用いて生成する。 画像認識タスクには、共分散プーリングがGAPよりも強力な表現能力を持つことを示す証拠が存在する。 残念なことに、画像認識で使われるような無秩序な共分散プールは、ビデオに固有の時空間構造をモデル化できない秩序のない代表である。 そこで本研究では,深層アーキテクチャの終端に挿入された時間適応型共分散ポーリング(TCP)を提案し,強力な映像表現を実現する。 特に, tcpは, 時間的注意モジュールを開発し, 時空間的特徴を適応的にキャリブレーションし, 近似的に注意的共分散表現を生成する。 そして、時間共分散プーリングは、注意共分散表現の時間的プーリングを行い、キャリブレーションされた特徴のフレーム内相関とフレーム間相互相関の両方を特徴付ける。 そのため、提案するTCPは複雑な時間的ダイナミクスを捉えることができる。 最後に、共分散表現の幾何を利用するために高速行列パワー正規化を導入する。 TCP はモデルに依存しず,任意のビデオアーキテクチャに柔軟に統合可能である点に注意が必要だ。 様々なビデオアーキテクチャを用いた6つのベンチマーク(Kineetics、Something V1、Charadesなど)の広範な実験は、TCPNetが強力な一般化能力を持ちながら、そのベンチマークよりも明らかに優れていることを示している。 ソースコードは公開されている。

For video recognition task, a global representation summarizing the whole contents of the video snippets plays an important role for the final performance. However, existing video architectures usually generate it by using a simple, global average pooling (GAP) method, which has limited ability to capture complex dynamics of videos. For image recognition task, there exist evidences showing that covariance pooling has stronger representation ability than GAP. Unfortunately, such plain covariance pooling used in image recognition is an orderless representative, which cannot model spatio-temporal structure inherent in videos. Therefore, this paper proposes a Temporal-attentive Covariance Pooling(TCP), inserted at the end of deep architectures, to produce powerful video representations. Specifically, our TCP first develops a temporal attention module to adaptively calibrate spatio-temporal features for the succeeding covariance pooling, approximatively producing attentive covariance representations. Then, a temporal covariance pooling performs temporal pooling of the attentive covariance representations to characterize both intra-frame correlations and inter-frame cross-correlations of the calibrated features. As such, the proposed TCP can capture complex temporal dynamics. Finally, a fast matrix power normalization is introduced to exploit geometry of covariance representations. Note that our TCP is model-agnostic and can be flexibly integrated into any video architectures, resulting in TCPNet for effective video recognition. The extensive experiments on six benchmarks (e.g., Kinetics, Something-Something V1 and Charades) using various video architectures show our TCPNet is clearly superior to its counterparts, while having strong generalization ability. The source code is publicly available.
翻訳日:2021-10-29 12:58:40 公開日:2021-10-28
# スペクトルレイアウトによる3次元オブジェクト処理の高速化

Accelerate 3D Object Processing via Spectral Layout ( http://arxiv.org/abs/2110.12621v2 )

ライセンス: Link先を確認
Yongyu Wang(参考訳) 3次元画像処理はコンピュータビジョンとパターン認識の分野で重要な問題である。 2次元画像処理と比較すると、余剰次元のため計算の困難さとコストがはるかに高い。 そこで本研究では,3dオブジェクトの基本的な情報をスペクトルレイアウトにより2次元空間に埋め込む手法を提案する。 具体的には、3次元ボクセル格子の空間構造を捉える3次元隣接グラフを構築する。 次に、グラフラプラシアンの第2および第3の最小固有値に対応する固有ベクトルを計算し、各ボクセルを2次元直交座標平面内の画素にマッピングするためのスペクトルレイアウトを行う。 提案手法は3Dオブジェクトに対して高品質な2D表現を実現し,3Dオブジェクトの処理に2Dベースの手法を用いることができる。 実験の結果,本手法の有効性と有効性を示した。

3D image processing is an important problem in computer vision and pattern recognition fields. Compared with 2D image processing, its computation difficulty and cost are much higher due to the extra dimension. To fundamentally address this problem, we propose to embed the essential information in a 3D object into 2D space via spectral layout. Specifically, we construct a 3D adjacency graph to capture spatial structure of the 3D voxel grid. Then we calculate the eigenvectors corresponding to the second and third smallest eigenvalues of its graph Laplacian and perform spectral layout to map each voxel into a pixel in 2D Cartesian coordinate plane. The proposed method can achieve high quality 2D representations for 3D objects, which enables to use 2D-based methods to process 3D objects. The experimental results demonstrate the effectiveness and efficiency of our method.
翻訳日:2021-10-29 12:56:58 公開日:2021-10-28
# 協調的な解析フロービデオ合成で踊るイメージ

Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis ( http://arxiv.org/abs/2110.14147v2 )

ライセンス: Link先を確認
Bowen Wu, Zhenyu Xie, Xiaodan Liang, Yubei Xiao, Haoye Dong, Liang Lin(参考訳) 人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。 A crucial step is to manipulate sequential future motion while retaining the appearance characteristic.Previ ous work has either relied on crafted 3D human models or trained a separate model specifically for each target person, which is not scalable in practice.This work studies a more general setting, in which we aim to learn a single model to parsimoniously transfer motion from a source video to any target person given only one image of the person, named as Collaborative Parsing-Flow Network (CPF-Net). 対象人物に関する情報のあいまいさにより、特定されたポーズの外観を忠実に保存することが特に困難となる。 この問題を解決するため、CPF-Netは構造化された人間の構文解析と外観フローを統合し、時空間融合モジュールによって背景にマージされる現実的な前景合成を導く。 特にCPF-Netは、問題を人間の解析シーケンス生成、前景シーケンス生成、最終ビデオ生成の段階に分解する。 人間のパーシング生成ステージは、ターゲットのポーズと身体構造の両方をキャプチャする。 外観フローは、合成フレームに詳細を保持するために有用である。 人間のパースと外観フローの統合は、リアルな外観を持つ映像フレームの生成を効果的に導く。 最後に、専用設計の融合ネットワークは、時間的コヒーレンスを保証する。 我々はさらに,この研究分野を推進するために,人間のダンスビデオを大量に収集する。 定量的および定性的な結果から,提案手法は従来手法よりも大幅に改善され,入力された人物画像に対して魅力的でリアルなターゲットビデオを生成することができる。 すべてのソースコードとデータセットはhttps://github.com/x iezhy6/cpf-netでリリースされる。

Transferring human motion from a source to a target person poses great potential in computer vision and graphics applications. A crucial step is to manipulate sequential future motion while retaining the appearance characteristic.Previ ous work has either relied on crafted 3D human models or trained a separate model specifically for each target person, which is not scalable in practice.This work studies a more general setting, in which we aim to learn a single model to parsimoniously transfer motion from a source video to any target person given only one image of the person, named as Collaborative Parsing-Flow Network (CPF-Net). The paucity of information regarding the target person makes the task particularly challenging to faithfully preserve the appearance in varying designated poses. To address this issue, CPF-Net integrates the structured human parsing and appearance flow to guide the realistic foreground synthesis which is merged into the background by a spatio-temporal fusion module. In particular, CPF-Net decouples the problem into stages of human parsing sequence generation, foreground sequence generation and final video generation. The human parsing generation stage captures both the pose and the body structure of the target. The appearance flow is beneficial to keep details in synthesized frames. The integration of human parsing and appearance flow effectively guides the generation of video frames with realistic appearance. Finally, the dedicated designed fusion network ensure the temporal coherence. We further collect a large set of human dancing videos to push forward this research field. Both quantitative and qualitative results show our method substantially improves over previous approaches and is able to generate appealing and photo-realistic target videos given any input person image. All source code and dataset will be released at https://github.com/x iezhy6/CPF-Net.
翻訳日:2021-10-29 12:56:46 公開日:2021-10-28