このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210506となっている論文です。

PDF登録状況(公開日: 20210506)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械教育のための分布マッチング [全文訳有]

Distribution Matching for Machine Teaching ( http://arxiv.org/abs/2105.13809v1 )

ライセンス: CC BY 4.0
Xiaofeng Cao and Ivor W. Tsang(参考訳) 機械学習は、生徒の学習パラメータを既に知っている教師がターゲット仮説に向かって学習者を操ることを目的とした、機械学習の逆問題である。 従来の機械教育研究は、学生モデルに基づく最良の指導例を見つけるための教育リスクとコストのバランスに重点を置いていた。 この最適化解法は、学習者が学習パラメータの手がかりを開示しない場合、一般に非効率である。 このような教育シナリオを監督するために,分布整合型機械教育戦略を提案する。 特に、この戦略は、所望の授業セットを見つけるために、教育コストの半減操作を後方かつ反復的に行う。 技術的には、我々の戦略は、学生学習者のパラメータ分布をさらに探ることなく、最適指導例を見つけるためのコスト制御最適化プロセスとして表現できる。 そして、教育費が限られていると、トレーニングの例がクローズド形式になる。 理論的解析と実験の結果はこの戦略を示している。

Machine teaching is an inverse problem of machine learning that aims at steering the student learner towards its target hypothesis, in which the teacher has already known the student's learning parameters. Previous studies on machine teaching focused on balancing the teaching risk and cost to find those best teaching examples deriving the student model. This optimization solver is in general ineffective when the student learner does not disclose any cue of the learning parameters. To supervise such a teaching scenario, this paper presents a distribution matching-based machine teaching strategy. Specifically, this strategy backwardly and iteratively performs the halving operation on the teaching cost to find a desired teaching set. Technically, our strategy can be expressed as a cost-controlled optimization process that finds the optimal teaching examples without further exploring in the parameter distribution of the student learner. Then, given any a limited teaching cost, the training examples will be closed-form. Theoretical analysis and experiment results demonstrate this strategy.
翻訳日:2021-06-06 12:24:05 公開日:2021-05-06
# (参考訳) 畳み込みスパース符号化正規化によるテンソル完全化 [全文訳有]

Tensor Completion via Convolutional Sparse Coding Regularization ( http://arxiv.org/abs/2012.00944v2 )

ライセンス: CC BY 4.0
Zhebin Wu, Tianchi Liao, Chuan Chen, Cong Liu, Zibin Zheng, and Xiongjun Zhang(参考訳) テンソルデータは、複雑な高次元構造のため、しばしば値の欠落に悩まされる。 不足情報を補うために、多くの低ランクテンソル補完法(LRTC)が提案され、そのほとんどはテンソルデータの低ランク性に依存している。 このようにして、元のデータの低ランク成分を大まかに復元することができる。 しかし欠点は、核ノルム(SNN)やテンソル核ノルム(TNN)に基づく手法に拘わらず、詳細情報が完全に復元できないことである。 それとは逆に、信号処理の分野では、畳み込みスパース符号化(CSC)は画像の高周波成分の優れた表現を提供することができる。 しかし、cscは低周波成分をうまく処理できない。 そこで本研究では, LRTC と LRTC-CSC-I, LRTC-CSC-II の2つの新しい手法を提案する。 したがって、lrtc-csc法は欠落値問題を解決するだけでなく、詳細を復元することができる。 さらに、正規化器CSCは、空間特性のため、小さなサンプルで訓練することができる。 拡張実験はLRTC-CSC法の有効性を示し, 定量的評価により, モデルの性能が最先端手法よりも優れていることが示された。

Tensor data often suffer from missing value problem due to the complex high-dimensional structure while acquiring them. To complete the missing information, lots of Low-Rank Tensor Completion (LRTC) methods have been proposed, most of which depend on the low-rank property of tensor data. In this way, the low-rank component of the original data could be recovered roughly. However, the shortcoming is that the detail information can not be fully restored, no matter the Sum of the Nuclear Norm (SNN) nor the Tensor Nuclear Norm (TNN) based methods. On the contrary, in the field of signal processing, Convolutional Sparse Coding (CSC) can provide a good representation of the high-frequency component of the image, which is generally associated with the detail component of the data. Nevertheless, CSC can not handle the low-frequency component well. To this end, we propose two novel methods, LRTC-CSC-I and LRTC-CSC-II, which adopt CSC as a supplementary regularization for LRTC to capture the high-frequency components. Therefore, the LRTC-CSC methods can not only solve the missing value problem but also recover the details. Moreover, the regularizer CSC can be trained with small samples due to the sparsity characteristic. Extensive experiments show the effectiveness of LRTC-CSC methods, and quantitative evaluation indicates that the performance of our models are superior to state-of-the-art methods.
翻訳日:2021-05-30 16:43:59 公開日:2021-05-06
# メッシュ再構成のためのdlaunay表面要素の学習

Learning Delaunay Surface Elements for Mesh Reconstruction ( http://arxiv.org/abs/2012.01203v2 )

ライセンス: Link先を確認
Marie-Julie Rakotosaona, Paul Guerrero, Noam Aigerman, Niloy Mitra, Maks Ovsjanikov(参考訳) 本稿では,点雲から三角形メッシュを再構築する手法を提案する。 既存の学習に基づくメッシュ再構成手法は、主に個々の三角形を生成するため、多様体メッシュの作成が困難である。 2次元ドローネー三角測量の特性を利用して、多様体面要素からメッシュを構成する。 提案手法はまず各地点周辺の測地線地域を推定する。 次に、学習した対数マップを用いて、これらの地区の2次元投影を行う。 この2次元領域におけるデラウネー三角形は、デラウネー曲面要素と呼ばれる多様体パッチを生成することが保証される。 隣接要素の局所的な2次元投影を同期させ、再構成されたメッシュの多様体性を最大化する。 その結果、任意のトポロジーを持つメッシュを再構築する現在の手法よりも、再構成メッシュ全体の多様体性が向上した。 私たちのコード、データ、事前訓練されたモデルはオンラインで見つけることができます。

We present a method for reconstructing triangle meshes from point clouds. Existing learning-based methods for mesh reconstruction mostly generate triangles individually, making it hard to create manifold meshes. We leverage the properties of 2D Delaunay triangulations to construct a mesh from manifold surface elements. Our method first estimates local geodesic neighborhoods around each point. We then perform a 2D projection of these neighborhoods using a learned logarithmic map. A Delaunay triangulation in this 2D domain is guaranteed to produce a manifold patch, which we call a Delaunay surface element. We synchronize the local 2D projections of neighboring elements to maximize the manifoldness of the reconstructed mesh. Our results show that we achieve better overall manifoldness of our reconstructed meshes than current methods to reconstruct meshes with arbitrary topology. Our code, data and pretrained models can be found online: https://github.com/m rakotosaon/dse-meshi ng
翻訳日:2021-05-25 03:46:22 公開日:2021-05-06
# (参考訳) カラーファウンダス画像からの硬部押出音セグメンテーションのためのデュアルサンプリング変調サイスロスを用いたデュアルブランチネットワーク [全文訳有]

Dual-Branch Network with Dual-Sampling Modulated Dice Loss for Hard Exudate Segmentation from Colour Fundus Images ( http://arxiv.org/abs/2012.01665v2 )

ライセンス: CC BY 4.0
Qing Liu, Haotian Liu, Yixiong Liang(参考訳) カラーファウンデーション画像における硬質押出物の自動分割は,極端なクラス不均衡と巨大なサイズ変動の問題から,課題となっている。 本稿では,これらの課題に対処し,デュアルサンプリング変調ダイス損失を持つデュアルブランチネットワークを提案する。 それは2つの枝から成っている: 大きな硬口述語学習枝と小さな硬口述語学習枝である。 2人はそれぞれ独自の義務を負っている。 さらに,提案するデュアルブランチネットワークは,異なるサイズでハードエクスキュートをセグメント化できるように,トレーニングのためのデュアルサンプリング変調ダイス損失を提案する。 詳しくは,第1分枝について,予測セグメンテーションマスクから一様な試料をサンプリングしてDiceの損失計算を行い,この分枝を自然にバイアスし,Diceの損失が小さな硬口径よりも大きな硬口径を誤同定するコストを発生させるので,大きな硬口径を優先する。 第2分枝では、再平衡サンプリング器を用いてハードエミッション画素をオーバーサンプリングし、背景画素をアンダーサンプリングして損失計算を行う。 このようにして、小さな硬口径の誤同定のコストが増大し、第二分枝のパラメータが小さい硬口径によく適合する。 そこで本研究では, 2つの枝の損失を適応的に調整することで, 難易度の高い難易度学習戦略を提案する。 提案手法を2つの公開データセット上で評価し,その性能を実証した。

Automated segmentation of hard exudates in colour fundus images is a challenge task due to issues of extreme class imbalance and enormous size variation. This paper aims to tackle these issues and proposes a dual-branch network with dual-sampling modulated Dice loss. It consists of two branches: large hard exudate biased learning branch and small hard exudate biased learning branch. Both of them are responsible for their own duty separately. Furthermore, we propose a dual-sampling modulated Dice loss for the training such that our proposed dual-branch network is able to segment hard exudates in different sizes. In detail, for the first branch, we use a uniform sampler to sample pixels from predicted segmentation mask for Dice loss calculation, which leads to this branch naturally be biased in favour of large hard exudates as Dice loss generates larger cost on misidentification of large hard exudates than small hard exudates. For the second branch, we use a re-balanced sampler to oversample hard exudate pixels and undersample background pixels for loss calculation. In this way, cost on misidentification of small hard exudates is enlarged, which enforces the parameters in the second branch fit small hard exudates well. Considering that large hard exudates are much easier to be correctly identified than small hard exudates, we propose an easy-to-difficult learning strategy by adaptively modulating the losses of two branches. We evaluate our proposed method on two public datasets and results demonstrate that ours achieves state-of-the-art performances.
翻訳日:2021-05-24 03:45:30 公開日:2021-05-06
# (参考訳) Saying No is an Art: 解決不可能な対話クエリに対するコンテキスト化されたフォールバック応答 [全文訳有]

Saying No is An Art: Contextualized Fallback Responses for Unanswerable Dialogue Queries ( http://arxiv.org/abs/2012.01873v3 )

ライセンス: CC BY 4.0
Ashish Shrivastava, Kaustubh Dhole, Abhinav Bhatt, Sharvani Raghunath(参考訳) タスク指向とチャットベースの対話システムでは、エンドツーエンドのニューラルネットワークが過去10年間で大きな進歩を遂げているが、ほとんどの対話システムは、ルールベース、検索、生成的なアプローチを組み合わせてランク付けされた応答を生成するハイブリッドアプローチに依存している。 このような対話システムは、ドメイン外またはダイアログシステムの範囲内で応答できない新しいユーザクエリに応答するフォールバック機構に頼る必要がある。 現在、ダイアログシステムは、静的で不自然な応答("その質問に対する答えを知らない"や"それについて知らない"など)に依存していますが、私たちは、ユーザクエリをコンテキスト的に認識し、ユーザにノーと言う応答を生成する、ニューラルアプローチを設計しています。 このようなカスタマイズされた応答は、パラフレージング機能とコンテキスト化を提供し、ユーザとのインタラクションを改善し、対話の単調性を低減する。 我々の単純なアプローチでは,係り受け解析のルールと,質問応答対の合成データを微調整したテキスト・テキスト・トランスフォーマーを用いて,多種多様な質問を生成する。 システムの有効性を実証するために,自動的および手作業による評価を行う。

Despite end-to-end neural systems making significant progress in the last decade for task-oriented as well as chit-chat based dialogue systems, most dialogue systems rely on hybrid approaches which use a combination of rule-based, retrieval and generative approaches for generating a set of ranked responses. Such dialogue systems need to rely on a fallback mechanism to respond to out-of-domain or novel user queries which are not answerable within the scope of the dialog system. While, dialog systems today rely on static and unnatural responses like "I don't know the answer to that question" or "I'm not sure about that", we design a neural approach which generates responses which are contextually aware with the user query as well as say no to the user. Such customized responses provide paraphrasing ability and contextualization as well as improve the interaction with the user and reduce dialogue monotonicity. Our simple approach makes use of rules over dependency parses and a text-to-text transformer fine-tuned on synthetic data of question-response pairs generating highly relevant, grammatical as well as diverse questions. We perform automatic and manual evaluations to demonstrate the efficacy of the system.
翻訳日:2021-05-23 22:15:27 公開日:2021-05-06
# ニューラルネットワークを正しく修復する

Towards Repairing Neural Networks Correctly ( http://arxiv.org/abs/2012.01872v2 )

ライセンス: Link先を確認
Guoliang Dong, Jun Sun, Jingyi Wang, Xinyu Wang, Ting Dai(参考訳) ニューラルネットワークは、安全クリティカルなアプリケーション(自動運転車、無人航空機、顔認識に基づく認証など)における意思決定を支援するために、ますます応用されている。 ニューラルネットワークの正当性問題に対処するために、多くの印象的な静的検証技術が提案されているが、現実のニューラルネットワークを扱うのに十分なスケーラビリティがない可能性はある。 本研究では,ニューラルネットワークの正確性を保証するランタイム検証手法を提案する。 ニューラルネットワークと望ましい安全性を前提として、戦略的位置を特定するために最先端の静的検証技術を採用し、実行時にニューラルネットワークの動作を“修正”する新たなゲートを導入します。 実験の結果,提案手法は,ほとんどの場合,元のニューラルネットワークと整合性を保ちながら,特性を満たすことが保証されるニューラルネットワークを効果的に生成することが示された。

Neural networks are increasingly applied to support decision making in safety-critical applications (like autonomous cars, unmanned aerial vehicles and face recognition based authentication). While many impressive static verification techniques have been proposed to tackle the correctness problem of neural networks, it is possible that static verification may never be sufficiently scalable to handle real-world neural networks. In this work, we propose a runtime verification method to ensure the correctness of neural networks. Given a neural network and a desirable safety property, we adopt state-of-the-art static verification techniques to identify strategically locations to introduce additional gates which "correct" neural network behaviors at runtime. Experiment results show that our approach effectively generates neural networks which are guaranteed to satisfy the properties, whilst being consistent with the original neural network most of the time.
翻訳日:2021-05-23 15:10:28 公開日:2021-05-06
# PLSM:意図しない動作検出のための並列液体状態マシン

PLSM: A Parallelized Liquid State Machine for Unintentional Action Detection ( http://arxiv.org/abs/2105.09909v1 )

ライセンス: Link先を確認
Dipayan Das, Saumik Bhattacharya, Umapada Pal, and Sukalpa Chanda(参考訳) Reservoir Computing(RC)は、ローエンドの組み込みシステムプラットフォームにAIアルゴリズムをデプロイする実行可能なオプションを提供する。 LSM(Liquid State Machine)は、大脳皮質のマイクロサーキットを模倣し、ニューロモルフィックハードウェアで直接実現可能なスパイキングニューラルネットワーク(SNN)を使用するバイオインスパイアされたRCモデルである。 本稿では,時空間の読み出し層とモデル出力のセマンティック制約を組み込んだ並列化LSM(PLSM)アーキテクチャを提案する。 我々の知る限りでは、そのような定式化は文学において初めて行われており、従来のディープラーニングモデルに代えて計算的に軽量である。 また、GPU互換の並列化可能なSNNとLSMの実装のための包括的アルゴリズムを提案する。 我々は,oopsデータセットを用いて意図しないビデオクリップを分類するplsmモデルを実装した。 ビデオ中の意図しない動作を検出する実験結果から,提案モデルが,自己教師付きモデルと従来のディープラーニングモデルに匹敵することがわかった。 実装済みのコードは、私たちのリポジトリ https://github.com/a nonymoussentience 2020/Parallelized_LS M_for_Unintentional_ Action_Recognitionで見ることができる。

Reservoir Computing (RC) offers a viable option to deploy AI algorithms on low-end embedded system platforms. Liquid State Machine (LSM) is a bio-inspired RC model that mimics the cortical microcircuits and uses spiking neural networks (SNN) that can be directly realized on neuromorphic hardware. In this paper, we present a novel Parallelized LSM (PLSM) architecture that incorporates spatio-temporal read-out layer and semantic constraints on model output. To the best of our knowledge, such a formulation has been done for the first time in literature, and it offers a computationally lighter alternative to traditional deep-learning models. Additionally, we also present a comprehensive algorithm for the implementation of parallelizable SNNs and LSMs that are GPU-compatible. We implement the PLSM model to classify unintentional/accide ntal video clips, using the Oops dataset. From the experimental results on detecting unintentional action in video, it can be observed that our proposed model outperforms a self-supervised model and a fully supervised traditional deep learning model. All the implemented codes can be found at our repository https://github.com/a nonymoussentience202 0/Parallelized_LSM_f or_Unintentional_Act ion_Recognition.
翻訳日:2021-05-21 19:17:49 公開日:2021-05-06
# 金融ポートフォリオマネジメントのためのDeep Graph Convolutional Reinforcement Learning -- DeepPocket

Deep Graph Convolutional Reinforcement Learning for Financial Portfolio Management -- DeepPocket ( http://arxiv.org/abs/2105.08664v1 )

ライセンス: Link先を確認
Farzan Soleymani, Eric Paquet(参考訳) ポートフォリオマネジメントは、ポートフォリオを構成する資産を継続的に再配置することでリスクを最小限に抑えながら、投資リターンを最大化することを目指している。 これらの資産は独立ではないが、短期間に相関関係にある。 金融商品間の時間変動関係を活用し,deeppocketと呼ばれるグラフ畳み込み強化学習フレームワークを提案する。 これらの相互関係は、ノードが金融機器に対応するグラフで表され、エッジは資産間のペアワイズ相関関数に対応する。 DeepPocketは、機能抽出のための制限付きスタックされたオートエンコーダ、金融機器間で共有される基盤となるローカル情報を収集する畳み込みネットワーク、アクター・クリティカルな強化学習エージェントで構成されている。 アクタ-批判構造は、2つの畳み込みネットワークを含み、アクタは投資収益を最適化するために、様々なポートフォリオ資産を常に再配置することにより、最善の行動経路を決定するために、批評家によって評価される投資政策を学習し、実施する。 エージェントは当初オフラインでトレーニングされ、履歴データのオンライン確率的バッチ化が行われる。 新しいデータが利用可能になると、その分散の予期せぬ変化に対処するために受動的コンセプトドリフトアプローチでオンラインにトレーニングされる。 DeepPocketは、Covid-19危機時の3つの異なる投資期間における5つの実生活データセットに対して評価されている。

Portfolio management aims at maximizing the return on investment while minimizing risk by continuously reallocating the assets forming the portfolio. These assets are not independent but correlated during a short time period. A graph convolutional reinforcement learning framework called DeepPocket is proposed whose objective is to exploit the time-varying interrelations between financial instruments. These interrelations are represented by a graph whose nodes correspond to the financial instruments while the edges correspond to a pair-wise correlation function in between assets. DeepPocket consists of a restricted, stacked autoencoder for feature extraction, a convolutional network to collect underlying local information shared among financial instruments, and an actor-critic reinforcement learning agent. The actor-critic structure contains two convolutional networks in which the actor learns and enforces an investment policy which is, in turn, evaluated by the critic in order to determine the best course of action by constantly reallocating the various portfolio assets to optimize the expected return on investment. The agent is initially trained offline with online stochastic batching on historical data. As new data become available, it is trained online with a passive concept drift approach to handle unexpected changes in their distributions. DeepPocket is evaluated against five real-life datasets over three distinct investment periods, including during the Covid-19 crisis, and clearly outperformed market indexes.
翻訳日:2021-05-19 17:01:25 公開日:2021-05-06
# 自己アライメントによるストリーミングASRモデル遅延の低減

Reducing Streaming ASR Model Delay with Self Alignment ( http://arxiv.org/abs/2105.05005v1 )

ライセンス: Link先を確認
Jaeyoung Kim, Han Lu, Anshuman Tripathi, Qian Zhang and Hasim Sak(参考訳) パフォーマンスレグレッションを最小限に抑えたストリーミングエンドツーエンドのASRモデルの予測遅延を低減することは難しい問題である。 制約付きアライメントは、外部低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。 それとは対照的に、最近提案されたFastEmitは、参照アライメントのないブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームである。 これらすべてのスキームは遅延低減に成功しているが、これらの遅延制約スキームを適用した後、ASRワードエラーレート(WER)は著しく低下することが多い。 本稿では,自己アライメント(自己アライメント)という新しい遅延制約手法を提案する。 自己アライメントは外部アライメントモデルを必要としない。 代わりに、トレーニングされたモデルからviterbi強制調整を使用して、低いレイテンシアライメント方向を見つける。 librispeechの評価から、自己アライメントは、同様の単語誤り率でファシミットや制約付きアライメントよりも25%と56%低い既存のスキームよりも優れていた。 音声検索の評価では,ファシミットと制約付きアライメントと比較して12%,25%の遅延低減が達成され,2%以上の改善が得られた。

Reducing prediction delay for streaming end-to-end ASR models with minimal performance regression is a challenging problem. Constrained alignment is a well-known existing approach that penalizes predicted word boundaries using external low-latency acoustic models. On the contrary, recently proposed FastEmit is a sequence-level delay regularization scheme encouraging vocabulary tokens over blanks without any reference alignments. Although all these schemes are successful in reducing delay, ASR word error rate (WER) often severely degrades after applying these delay constraining schemes. In this paper, we propose a novel delay constraining method, named self alignment. Self alignment does not require external alignment models. Instead, it utilizes Viterbi forced-alignments from the trained model to find the lower latency alignment direction. From LibriSpeech evaluation, self alignment outperformed existing schemes: 25% and 56% less delay compared to FastEmit and constrained alignment at the similar word error rate. For Voice Search evaluation,12% and 25% delay reductions were achieved compared to FastEmit and constrained alignment with more than 2% WER improvements.
翻訳日:2021-05-13 12:38:23 公開日:2021-05-06
# (参考訳) RAR:モノクロ映像からアーチティックな形状復元を学習 [全文訳有]

LASR: Learning Articulated Shape Reconstruction from a Monocular Video ( http://arxiv.org/abs/2105.02976v1 )

ライセンス: CC BY 4.0
Gengshan Yang, Deqing Sun, Varun Jampani, Daniel Vlasic, Forrester Cole, Huiwen Chang, Deva Ramanan, William T. Freeman, Ce Liu(参考訳) ビデオや画像のコレクションから硬い構造物を3Dで再現することは、注目すべき進歩である。 しかし,rgb入力から非剛性構造を再構築することは,まだ困難である。 パラメトリック形状モデルのようなテンプレートベースのアプローチは、既知のオブジェクトカテゴリの「閉じた世界」をモデル化することに成功したが、新しいオブジェクトカテゴリの「オープンワールド」や、外れ値の形状をうまく扱えない。 本研究では,一つのビデオから3次元形状を学習するためのテンプレートレス手法を提案する。 これは、物体シルエット、光フロー、ピクセル値を前方に投影する分析合成戦略を採用し、カメラ、形状、運動パラメータを調整する勾配を生成するビデオ観測と比較する。 カテゴリ固有の形状テンプレートを使わずに,人間,動物,未知のクラスの物体の映像から非剛性3d構造を忠実に再構成する。 コードは lasr-google.github.i o で入手できる。

Remarkable progress has been made in 3D reconstruction of rigid structures from a video or a collection of images. However, it is still challenging to reconstruct nonrigid structures from RGB inputs, due to its under-constrained nature. While template-based approaches, such as parametric shape models, have achieved great success in modeling the "closed world" of known object categories, they cannot well handle the "open-world" of novel object categories or outlier shapes. In this work, we introduce a template-free approach to learn 3D shapes from a single video. It adopts an analysis-by-synthesi s strategy that forward-renders object silhouette, optical flow, and pixel values to compare with video observations, which generates gradients to adjust the camera, shape and motion parameters. Without using a category-specific shape template, our method faithfully reconstructs nonrigid 3D structures from videos of human, animals, and objects of unknown classes. Code will be available at lasr-google.github.i o .
翻訳日:2021-05-10 23:43:30 公開日:2021-05-06
# (参考訳) Eコマース検索におけるグラフベース多言語製品検索 [全文訳有]

Graph-based Multilingual Product Retrieval in E-commerce Search ( http://arxiv.org/abs/2105.02978v1 )

ライセンス: CC BY 4.0
Hanqing Lu, Youna Hu, Tong Zhao, Tony Wu, Yiwei Song, Bing Yin(参考訳) 近年,多くのeコマースプラットフォームがグローバルビジネスを運営しており,多言語シナリオ下での商品検索にはeコマース検索システムが必要である。 さらに、国ごとの特定電子商取引検索システムと比べ、各国に普遍的なシステムを持つことにより、運用コストと計算コストをさらに削減し、新たな国への事業拡大を促進することができる。 本稿では,多言語多言語多言語検索システムについて紹介するとともに,eコマース検索における10億規模の製品検索を提供するシステムをトレーニングし,展開する際の学習と技術的詳細について述べる。 特に,トランスフォーマーに基づく多言語言語モデルとグラフニューラルネットワークアーキテクチャの最近の進歩を活用して,eコマース検索における検索クエリとアイテム間のインタラクションを捉える多言語グラフ注目検索ネットワークを提案する。 5か国のデータによるオフライン実験では、我々のアルゴリズムは平均で35%のリコールと25%のmAPで最先端のベースラインを上回っている。 さらに, オンラインA/B実験では, コンバージョン/レバレッジが著しく増加し, 複数の国で生産されている。

Nowadays, with many e-commerce platforms conducting global business, e-commerce search systems are required to handle product retrieval under multilingual scenarios. Moreover, comparing with maintaining per-country specific e-commerce search systems, having a universal system across countries can further reduce the operational and computational costs, and facilitate business expansion to new countries. In this paper, we introduce a universal end-to-end multilingual retrieval system, and discuss our learnings and technical details when training and deploying the system to serve billion-scale product retrieval for e-commerce search. In particular, we propose a multilingual graph attention based retrieval network by leveraging recent advances in transformer-based multilingual language models and graph neural network architectures to capture the interactions between search queries and items in e-commerce search. Offline experiments on five countries data show that our algorithm outperforms the state-of-the-art baselines by 35% recall and 25% mAP on average. Moreover, the proposed model shows significant increase of conversion/revenue in online A/B experiments and has been deployed in production for multiple countries.
翻訳日:2021-05-10 23:27:12 公開日:2021-05-06
# (参考訳) 言語モデルはテキストから典型判断を学ぶか? [全文訳有]

Do language models learn typicality judgments from text? ( http://arxiv.org/abs/2105.02987v1 )

ライセンス: CC BY 4.0
Kanishka Misra and Allyson Ettinger and Julia Taylor Rayz(参考訳) 言語に含まれる統計による概念的・カテゴリー的知識獲得の可能性について論じる研究に基づいて,予測言語モデル (LM) を,認知科学において広く見られる現象である典型性に基づいて評価した。 言語処理と人体における堅牢な典型効果を示す実験から着想を得て, LMの2つの試験法を提案する。 最初の試験は、分類学的分類群を項目に割り当てることにおいて、典型性がLM確率を調節するかどうかを目標とする。 第2のテストでは,項目に関する新たな情報をカテゴリに拡張する場合,lmsの確率の典型性に対する感受性を調査した。 どちらのテストも、LMと人間との対応は控えめだが、完全に欠落しているわけではない。

Building on research arguing for the possibility of conceptual and categorical knowledge acquisition through statistics contained in language, we evaluate predictive language models (LMs) -- informed solely by textual input -- on a prevalent phenomenon in cognitive science: typicality. Inspired by experiments that involve language processing and show robust typicality effects in humans, we propose two tests for LMs. Our first test targets whether typicality modulates LM probabilities in assigning taxonomic category memberships to items. The second test investigates sensitivities to typicality in LMs' probabilities when extending new information about items to their categories. Both tests show modest -- but not completely absent -- correspondence between LMs and humans, suggesting that text-based exposure alone is insufficient to acquire typicality knowledge.
翻訳日:2021-05-10 23:16:18 公開日:2021-05-06
# K-Means++とK-Means$\|$の厳密な加速

Exact Acceleration of K-Means++ and K-Means$\|$ ( http://arxiv.org/abs/2105.02936v1 )

ライセンス: Link先を確認
Edward Raff(参考訳) K-Means++とその分散変種K-Means$\|$は、K-meansの初期種を選択するデファクトツールとなっている。 代替案が開発されているが、K-means++と$\|$メソッドの有効性、実装の容易性、理論的根拠は、全体論的観点からの「ベスト」を困難にしている。 種苗選択の限られた機会を考慮し,特殊な三角不等式刈り込み戦略と動的優先度キューを開発し,アルゴリズム的に等価なk-means++とk-means$\|$の最初の加速を示す。 どちらのアルゴリズムに対しても、距離計算を500\times$で削減できる。 K-means++の場合、これは実行時の17$\times$スピードアップとK-means$\|$の551$スピードアップとなる。 私たちは、このアプローチをこれらのアルゴリズムの既存の実装に容易に統合できるように、既知のテクニックをシンプルだが慎重に修正することで、これを達成します。

K-Means++ and its distributed variant K-Means$\|$ have become de facto tools for selecting the initial seeds of K-means. While alternatives have been developed, the effectiveness, ease of implementation, and theoretical grounding of the K-means++ and $\|$ methods have made them difficult to "best" from a holistic perspective. By considering the limited opportunities within seed selection to perform pruning, we develop specialized triangle inequality pruning strategies and a dynamic priority queue to show the first acceleration of K-Means++ and K-Means$\|$ that is faster in run-time while being algorithmicly equivalent. For both algorithms we are able to reduce distance computations by over $500\times$. For K-means++ this results in up to a 17$\times$ speedup in run-time and a $551\times$ speedup for K-means$\|$. We achieve this with simple, but carefully chosen, modifications to known techniques which makes it easy to integrate our approach into existing implementations of these algorithms.
翻訳日:2021-05-10 12:30:28 公開日:2021-05-06
# Jopara Sentiment Analysisの論理的困難と発見について

On the logistical difficulties and findings of Jopara Sentiment Analysis ( http://arxiv.org/abs/2105.02947v1 )

ライセンス: Link先を確認
Marvin M. Ag\"uero-Torales, David Vilares, Antonio G. L\'opez-Herrera(参考訳) 本稿では,グアラニ語とスペイン語のコードスイッチング言語であるJoparaの感情分析の問題に対処する。 まず,グアラニを主とするつぶやきのコーパスを収集し,感情分析など,比較的分かりやすいタスクの品質データを見つけることの難しさについて論じる。 そして、トレーニング済みの言語モデルを含む一連のニューラルモデルをトレーニングし、この低リソースのセットアップで従来の機械学習モデルよりもパフォーマンスが良いかを調査する。 トランスフォーマーアーキテクチャは、事前トレーニング中はグアラーニを考慮せず、最良の結果を得るが、従来の機械学習モデルは、問題の低リソース性のために近い性能を持つ。

This paper addresses the problem of sentiment analysis for Jopara, a code-switching language between Guarani and Spanish. We first collect a corpus of Guarani-dominant tweets and discuss on the difficulties of finding quality data for even relatively easy-to-annotate tasks, such as sentiment analysis. Then, we train a set of neural models, including pre-trained language models, and explore whether they perform better than traditional machine learning ones in this low-resource setup. Transformer architectures obtain the best results, despite not considering Guarani during pre-training, but traditional machine learning models perform close due to the low-resource nature of the problem.
翻訳日:2021-05-10 12:29:02 公開日:2021-05-06
# 制御可能なコンテンツジェネレータの学習

Learning Controllable Content Generators ( http://arxiv.org/abs/2105.02993v1 )

ライセンス: Link先を確認
Sam Earle, Maria Edwards, Ahmed Khalifa, Philip Bontrager and Julian Togelius(参考訳) 近年,ユーザ特定ヒューリスティック(ヒューリスティック,ヒューリスティック,ヒューリスティック)を用いて,高品質なゲームレベルを創出できるジェネレータの訓練に強化学習を用いることが示されている。 これらのジェネレータの出力が十分に多様であることを保証するため(つまり、単一の最適レベル構成の再現に相当しない)、生成プロセスは、初期シードがジェネレータの出力にある程度のばらつきをもたらすように制約される。 しかし、これによって生成されたコンテンツに対するコントロールが失われる。 本稿では,制御可能な多様な出力を生成できる発電機を「ゴールアウェア」として訓練することを提案する。 この目的のために、生成元がヒューリスティックにどの程度近いかを表す条件入力を追加し、その値を組み込むために報酬機構を変更します。 複数のドメインでテストした結果、レベルジェネレータは、ターゲットとした、制御可能な方法で可能なレベルの空間を探索でき、目標を意識していないものと同等の品質のレベルを生成できることを示しました。

It has recently been shown that reinforcement learning can be used to train generators capable of producing high-quality game levels, with quality defined in terms of some user-specified heuristic. To ensure that these generators' output is sufficiently diverse (that is, not amounting to the reproduction of a single optimal level configuration), the generation process is constrained such that the initial seed results in some variance in the generator's output. However, this results in a loss of control over the generated content for the human user. We propose to train generators capable of producing controllably diverse output, by making them "goal-aware." To this end, we add conditional inputs representing how close a generator is to some heuristic, and also modify the reward mechanism to incorporate that value. Testing on multiple domains, we show that the resulting level generators are capable of exploring the space of possible levels in a targeted, controllable manner, producing levels of comparable quality as their goal-unaware counterparts, that are diverse along designer-specified dimensions.
翻訳日:2021-05-10 12:28:22 公開日:2021-05-06
# 逆行訓練における破滅的オーバーフィッティングの理解

Understanding Catastrophic Overfitting in Adversarial Training ( http://arxiv.org/abs/2105.02942v1 )

ライセンス: Link先を確認
Peilin Kang, Seyed-Mohsen Moosavi-Dezfooli(参考訳) 近年、FGSM逆行訓練は、PGDが訓練したものに匹敵するが、桁違いに高速な頑健なモデルを訓練できることが判明した。 しかし、破滅的なオーバーフィッティング(CO)と呼ばれる障害モードがあり、訓練中に突然頑丈さを失い、単独では回復しにくい。 本稿では,co が fgsm に限定されるだけでなく,$\mbox{df}^{\infty}$-1 の対向訓練でも発生することを見出した。 次に、FGSM と $\mbox{DF}^{\infty}$-1 の幾何学的性質を分析し、CO の後に全く異なる決定境界を持つことを示した。 $\mbox{DF}^{\infty}$-1 の場合、摂動方向に沿って生成される新しい決定境界は存在しないが、代わりに$\mbox{DF}^{\infty}$-1 によって生成される摂動は CO の後に小さくなり、その結果その効果が失われる。 また,COの原因となる因子に関する3つの仮説を実験的に分析し,実験結果に基づいて,摂動を$l_\infty$ボールに投影しないことでRS-FGSMを修正した。 この小さな修正により、CIFAR10で47.56 \pm 0.37\%$ PGD-50-10の精度を$\epsilon=8/255$と、RS-FGSMで43.57 \pm 0.30\%の精度で達成でき、さらにCOなしでCIFAR10で$\epsilon$を8/255から11/255まで拡張できる。

Recently, FGSM adversarial training is found to be able to train a robust model which is comparable to the one trained by PGD but an order of magnitude faster. However, there is a failure mode called catastrophic overfitting (CO) that the classifier loses its robustness suddenly during the training and hardly recovers by itself. In this paper, we find CO is not only limited to FGSM, but also happens in $\mbox{DF}^{\infty}$-1 adversarial training. Then, we analyze the geometric properties for both FGSM and $\mbox{DF}^{\infty}$-1 and find they have totally different decision boundaries after CO. For FGSM, a new decision boundary is generated along the direction of perturbation and makes the small perturbation more effective than the large one. While for $\mbox{DF}^{\infty}$-1, there is no new decision boundary generated along the direction of perturbation, instead the perturbation generated by $\mbox{DF}^{\infty}$-1 becomes smaller after CO and thus loses its effectiveness. We also experimentally analyze three hypotheses on potential factors causing CO. And then based on the empirical analysis, we modify the RS-FGSM by not projecting perturbation back to the $l_\infty$ ball. By this small modification, we could achieve $47.56 \pm 0.37\% $ PGD-50-10 accuracy on CIFAR10 with $\epsilon=8/255$ in contrast to $43.57 \pm 0.30\% $ by RS-FGSM and also further extend the working range of $\epsilon$ from 8/255 to 11/255 on CIFAR10 without CO occurring.
翻訳日:2021-05-10 12:25:26 公開日:2021-05-06
# 記述的回答評価のためのテキスト類似性分析

Text similarity analysis for evaluation of descriptive answers ( http://arxiv.org/abs/2105.02935v1 )

ライセンス: Link先を確認
Vedant Bahel and Achamma Thomas(参考訳) 教育分野におけるインテリジェントなシステムの必要性を念頭に置いて,本研究では,テキスト分析に基づく自動評価手法を提案する。 特に,コンピュータ支援試験評価システムにおける自然言語処理とデータマイニングのインテリジェントな概念の利用に焦点を当てた。 本稿では,回答シートの公平な評価のためのアーキテクチャを提案する。 このアーキテクチャでは、検査者が与えられた質問に対するサンプル回答シートを作成する。 テキスト要約、テキスト意味論、キーワード要約という概念を用いて、各回答の最終スコアを算出する。 テキスト類似性モデルは、Siamese Manhattan LSTM (MaLSTM)に基づいている。 本研究の結果は,手作業による等級付けや既存システムと比較された。 このアプローチは、機関や大学で実施するために非常に効率的であることが判明した。

Keeping in mind the necessity of intelligent system in educational sector, this paper proposes a text analysis based automated approach for automatic evaluation of the descriptive answers in an examination. In particular, the research focuses on the use of intelligent concepts of Natural Language Processing and Data Mining for computer aided examination evaluation system. The paper present an architecture for fair evaluation of answer sheet. In this architecture, the examiner creates a sample answer sheet for given sets of question. By using the concept of text summarization, text semantics and keywords summarization, the final score for each answer is calculated. The text similarity model is based on Siamese Manhattan LSTM (MaLSTM). The results of this research were compared to manually graded assignments and other existing system. This approach was found to be very efficient in order to be implemented in an institution or in an university.
翻訳日:2021-05-10 12:23:57 公開日:2021-05-06
# SkyCam: スカイイメージのデータセットとその照度値

SkyCam: A Dataset of Sky Images and their Irradiance values ( http://arxiv.org/abs/2105.02922v1 )

ライセンス: Link先を確認
Evangelos Ntavelis and Jan Remund and Philipp Schmid(参考訳) コンピュータビジョンとディープラーニングの最近の進歩は、様々な分野や応用において驚くべき結果をもたらした。 この成功によって、SkyCam Datasetは画像ベースのDeep Learningソリューションにより、局所レベルでの太陽放射の短期的かつ正確な予測を可能にすることを目指している。 1年の間、スイスの3つの地理的に異なる場所で3つのカメラが10秒ごとに空の画像を取得している。 露光時間が異なる13の高解像度画像をキャプチャして、追加のHDR画像を作成する。 画像は高精度のピラノメーターから収集された高精度の照度値と対になる。

Recent advances in Computer Vision and Deep Learning have enabled astonishing results in a variety of fields and applications. Motivated by this success, the SkyCam Dataset aims to enable image-based Deep Learning solutions for short-term, precise prediction of solar radiation on a local level. For the span of a year, three different cameras in three topographically different locations in Switzerland are acquiring images of the sky every 10 seconds. Thirteen high resolution images with different exposure times are captured and used to create an additional HDR image. The images are paired with highly precise irradiance values gathered from a high-accuracy pyranometer.
翻訳日:2021-05-10 12:19:19 公開日:2021-05-06
# Hone as you Read: A Practical Type of Interactive Summarization

Hone as You Read: A Practical Type of Interactive Summarization ( http://arxiv.org/abs/2105.02923v1 )

ライセンス: Link先を確認
Tanner Bohn and Charles X. Ling(参考訳) 本稿では,通常の読み出しフローにおいて,文書要約を個人的関心事に最適化する新しいタスクであるHAREを提案する。 このタスクは、ユーザーが同じ文章を何度も読むことができる長いフィードバックステージに従ってパーソナライズされた要約が生成されるインタラクティブな要約に関連している。 しかし、このプロセスは読みの流れを著しく中断し、余暇に読み取るには実用的でない。 本稿では,読解プロセス中に最小限の侵襲的なフィードバックを収集し,ユーザの関心に適応し,文書をリアルタイムで拡張することを提案する。 教師なし要約評価の最近の進歩を生かして,本課題に適した指標を提案し,様々なアプローチを評価する。 私たちのアプローチは、単純なヒューリスティックから選好学習までさまざまで、分析によってこの重要なタスクに対する洞察が得られます。 人的評価もHAREの実践性を支持する。 この作業を再現するコードはhttps://github.com/t annerbohn/HoneAsYouR ead.comで公開されている。

We present HARE, a new task where reader feedback is used to optimize document summaries for personal interest during the normal flow of reading. This task is related to interactive summarization, where personalized summaries are produced following a long feedback stage where users may read the same sentences many times. However, this process severely interrupts the flow of reading, making it impractical for leisurely reading. We propose to gather minimally-invasive feedback during the reading process to adapt to user interests and augment the document in real-time. Building off of recent advances in unsupervised summarization evaluation, we propose a suitable metric for this task and use it to evaluate a variety of approaches. Our approaches range from simple heuristics to preference-learning and their analysis provides insight into this important task. Human evaluation additionally supports the practicality of HARE. The code to reproduce this work is available at https://github.com/t annerbohn/HoneAsYouR ead.
翻訳日:2021-05-10 12:14:35 公開日:2021-05-06
# 化学反応器の自律運転のための強化学習型経済モデル予測制御フレームワーク

A Reinforcement Learning-based Economic Model Predictive Control Framework for Autonomous Operation of Chemical Reactors ( http://arxiv.org/abs/2105.02656v1 )

ライセンス: Link先を確認
Khalid Alhazmi, Fahad Albalawi, and S. Mani Sarathy(参考訳) 経済モデル予測制御(Economic Model predictive Control, EMPC)は, 動的プロセスの最適運用のための有望な方法論である。 しかし,EMPCの性能はプロセスモデルの精度に大きく依存している。 モデルベース制御戦略の代替として、強化学習(RL)はモデルフリー制御手法として研究されてきたが、その安全性と安定性に関する問題は依然としてオープンな研究課題である。 本稿では,非線形システムのオンラインモデルパラメータ推定のためのempcとrlを統合するための新しい枠組みを提案する。 この枠組みでは、empcは閉ループ安定性と再帰可能性を維持しつつ閉ループシステムを最適に動作させる。 同時に、プロセスの最適化のために、RLエージェントはプロセスの測定状態とモデルの予測(最小状態)を連続的に比較し、それに応じてモデルパラメータを修正します。 最先端のRLアルゴリズムとEMPCスキームは最小限の変更で利用できる。 提案手法の性能は, 動的に挑戦し, 実用的意義を持つ反応ネットワーク上で示される。 このフレームワークは、制御、最適化、モデル修正をオンラインで連続的に行うことができ、自律型原子炉の動作をより達成できる。

Economic model predictive control (EMPC) is a promising methodology for optimal operation of dynamical processes that has been shown to improve process economics considerably. However, EMPC performance relies heavily on the accuracy of the process model used. As an alternative to model-based control strategies, reinforcement learning (RL) has been investigated as a model-free control methodology, but issues regarding its safety and stability remain an open research challenge. This work presents a novel framework for integrating EMPC and RL for online model parameter estimation of a class of nonlinear systems. In this framework, EMPC optimally operates the closed loop system while maintaining closed loop stability and recursive feasibility. At the same time, to optimize the process, the RL agent continuously compares the measured state of the process with the model's predictions (nominal states), and modifies model parameters accordingly. The major advantage of this framework is its simplicity; state-of-the-art RL algorithms and EMPC schemes can be employed with minimal modifications. The performance of the proposed framework is illustrated on a network of reactions with challenging dynamics and practical significance. This framework allows control, optimization, and model correction to be performed online and continuously, making autonomous reactor operation more attainable.
翻訳日:2021-05-10 12:07:20 公開日:2021-05-06
# (参考訳) ニューラルネットワークを用いた原発性副甲状腺機能亢進症の自動スクリーニング [全文訳有]

Automated Primary Hyperparathyroidism Screening with Neural Networks ( http://arxiv.org/abs/2105.02386v1 )

ライセンス: CC BY 4.0
Noah Ziems, Shaoen Wu, Jim Norman(参考訳) 原発性副甲状腺機能亢進症(PHPT)は比較的一般的な疾患であり、成人1000人に1人程度に影響を及ぼす。 しかしphptのスクリーニングは困難であり、長期にわたって診断されないことが多い。 特定の血液検査の結果を独立して見ることは、患者がphptを持っているかどうかを示すのに役立つが、これらの結果レベルは、患者がphptを持っているにもかかわらず、それぞれが正常範囲内であることが多い。 本研究は,現実世界の診療データをベースとして,ニューラルネットワーク(NN)アーキテクチャを用いてPHPTをスクリーニングする手法を提案する。 さらに,入力として実験値を追加することにより,99 %以上の精度を達成する第2モデルを提案する。 さらに,従来のPHPTスクリーニング手法と比較して,NNモデルは従来のスクリーニング手法の偽陰性を99.5%削減できる。

Primary Hyperparathyroidism( PHPT) is a relatively common disease, affecting about one in every 1,000 adults. However, screening for PHPT can be difficult, meaning it often goes undiagnosed for long periods of time. While looking at specific blood test results independently can help indicate whether a patient has PHPT, often these blood result levels can all be within their respective normal ranges despite the patient having PHPT. Based on the clinic data from the real world, in this work, we propose a novel approach to screening PHPT with neural network (NN) architecture, achieving over 97\% accuracy with common blood values as inputs. Further, we propose a second model achieving over 99\% accuracy with additional lab test values as inputs. Moreover, compared to traditional PHPT screening methods, our NN models can reduce the false negatives of traditional screening methods by 99\%.
翻訳日:2021-05-08 00:46:32 公開日:2021-05-06
# (参考訳) ディープラーニング自然言語処理を用いたセキュリティ脆弱性検出 [全文訳有]

Security Vulnerability Detection Using Deep Learning Natural Language Processing ( http://arxiv.org/abs/2105.02388v1 )

ライセンス: CC BY 4.0
Noah Ziems, Shaoen Wu(参考訳) ソフトウェアが悪用される前にセキュリティ上の脆弱性を検出することは、何十年にもわたって難しい問題だった。 従来のコード解析手法は提案されているが、しばしば非効率で非効率である。 本研究では、ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化し、近年の高度なディープラーニングNLPモデルを用いて、テキストによる翻訳学習を補助する自動化ソフトウェアベネラビリティ検出に対処する。 トレーニングとテストのために、NIST NVD/SARDデータベースを前処理し、123種類の脆弱性を持つ$C$プログラミング言語で10,000以上のファイルのデータセットを構築しました。 広範な実験は、セキュリティ脆弱性の検出において、93\%以上の精度で最高のパフォーマンスを生み出す。

Detecting security vulnerabilities in software before they are exploited has been a challenging problem for decades. Traditional code analysis methods have been proposed, but are often ineffective and inefficient. In this work, we model software vulnerability detection as a natural language processing (NLP) problem with source code treated as texts, and address the automated software venerability detection with recent advanced deep learning NLP models assisted by transfer learning on written English. For training and testing, we have preprocessed the NIST NVD/SARD databases and built a dataset of over 100,000 files in $C$ programming language with 123 types of vulnerabilities. The extensive experiments generate the best performance of over 93\% accuracy in detecting security vulnerabilities.
翻訳日:2021-05-08 00:38:31 公開日:2021-05-06
# (参考訳) 危険地帯:Uネットワーク駆動型量子回帰は、汚染物質と衛星画像を通して高リスクSARS-CoV-2領域を予測できる [全文訳有]

In the Danger Zone: U-Net Driven Quantile Regression can Predict High-risk SARS-CoV-2 Regions via Pollutant Particulate Matter and Satellite Imagery ( http://arxiv.org/abs/2105.02406v1 )

ライセンス: CC BY 4.0
Jacquelyn Shelton, Przemyslaw Polewski and Wei Yao(参考訳) 新型コロナウイルスの感染拡大以来、政策立案者は感染抑制のため薬学以外の介入に頼ってきた。 大気汚染が潜在的な伝達ベクトルとなると、介入戦略にそれを含める必要がある。 本稿では, 容易に取得可能な衛星画像に基づいて, PM_{2.5}$大気汚染を予測するためのU-net駆動量子レグレッションモデルを提案する。 提案手法は, 汚染データが利用できない場所であっても, 地中真実データに対する$PM_{2.5}$濃度を再構築し, 空間分布で妥当な$PM_{2.5}$値を予測できることを実証する。 こうしたPM_{2.5}$特性の予測は、新型コロナウイルスの感染と致死性を減らすための公共政策戦略を決定的に助言する可能性がある。

Since the outbreak of COVID-19 policy makers have been relying upon non-pharmacological interventions to control the outbreak. With air pollution as a potential transmission vector there is need to include it in intervention strategies. We propose a U-net driven quantile regression model to predict $PM_{2.5}$ air pollution based on easily obtainable satellite imagery. We demonstrate that our approach can reconstruct $PM_{2.5}$ concentrations on ground-truth data and predict reasonable $PM_{2.5}$ values with their spatial distribution, even for locations where pollution data is unavailable. Such predictions of $PM_{2.5}$ characteristics could crucially advise public policy strategies geared to reduce the transmission of and lethality of COVID-19.
翻訳日:2021-05-08 00:28:35 公開日:2021-05-06
# (参考訳) テキストクエリを用いたサーベイランスにおける人物検索 : レビュー

Person Retrieval in Surveillance Using Textual Query: A Review ( http://arxiv.org/abs/2105.02414v1 )

ライセンス: CC BY 4.0
Hiren Galiyawala, Mehul S Raval(参考訳) 近年のバイオメトリックス、コンピュータビジョン、自然言語処理の研究は、テキストクエリを用いた監視ビデオから人物を検索する機会を発見した。 監視システムの主な目的は、例えば、ピンクのTシャツと黒い財布を背負った白いスカートの短い女性のような説明を使って人物を見つけることである。 彼女は茶色の髪をしています。 このような記述には、性別、身長、衣服の種類、衣服の色、髪の色、アクセサリーなどの属性が含まれる。 このような属性は、正式にはソフトバイオメトリックス(Soft Biometrics)と呼ばれる。 テキストクエリには、人のソフトバイオメトリック属性が含まれているため、人間記述と機械間のセマンティックギャップを埋めるのに役立ちます。 また、特定の人物を回収するために大量の監視映像を手動で検索することは不可能である。 そのため,視覚と言語に基づくアルゴリズムを用いた自動人物検索が普及しつつある。 他の最先端のレビューと比較して、論文の貢献は以下のとおりである。 最も差別的な軟式バイオメトリックスを、特定困難条件に推奨する。 2. 客観的パフォーマンス評価のためのベンチマークデータセットと検索方法を統合する。 3. 特徴、分類器、ソフトバイオメトリック属性の数、ディープニューラルネットワークの種類、パフォーマンス指標に基づくテクニックの完全なスナップショット。 4. 手作りの特徴に基づく手法から,自然言語記述に基づくエンドツーエンドアプローチへの人物検索の包括的カバレッジ

Recent advancement of research in biometrics, computer vision, and natural language processing has discovered opportunities for person retrieval from surveillance videos using textual query. The prime objective of a surveillance system is to locate a person using a description, e.g., a short woman with a pink t-shirt and white skirt carrying a black purse. She has brown hair. Such a description contains attributes like gender, height, type of clothing, colour of clothing, hair colour, and accessories. Such attributes are formally known as soft biometrics. They help bridge the semantic gap between a human description and a machine as a textual query contains the person's soft biometric attributes. It is also not feasible to manually search through huge volumes of surveillance footage to retrieve a specific person. Hence, automatic person retrieval using vision and language-based algorithms is becoming popular. In comparison to other state-of-the-art reviews, the contribution of the paper is as follows: 1. Recommends most discriminative soft biometrics for specifiic challenging conditions. 2. Integrates benchmark datasets and retrieval methods for objective performance evaluation. 3. A complete snapshot of techniques based on features, classifiers, number of soft biometric attributes, type of the deep neural networks, and performance measures. 4. The comprehensive coverage of person retrieval from handcrafted features based methods to end-to-end approaches based on natural language description.
翻訳日:2021-05-08 00:20:12 公開日:2021-05-06
# (参考訳) ML強化DBMSのための統一転送可能モデル [全文訳有]

A Unified Transferable Model for ML-Enhanced DBMS ( http://arxiv.org/abs/2105.02418v1 )

ライセンス: CC BY 4.0
Ziniu Wu, Peilun Yang, Pei Yu, Rong Zhu, Yuxing Han, Yaliang Li, Defu Lian, Kai Zeng, Jingren Zhou(参考訳) 最近、データベース管理システム(DBMS)コミュニティは、DBMSタスクのための機械学習(ML)ソリューションのパワーを目撃している。 有望なパフォーマンスにもかかわらず、これらの既存のソリューションはほとんど満足できない。 第一に、これらのDBMSのMLベースのメソッドは、各タスクに最適化されており、タスク間の固有の接続を探索、理解できないため、効果が十分ではない。 第二に、トレーニングプロセスは、新しいDBのためにモデル全体をスクラッチから再トレーニングする必要があるため、その実用性を阻害する重大な制限があります。 さらに、再トレーニング毎に過剰なトレーニングデータが必要であるため、新しいDBを取得するのに非常にコストがかかり、利用できない。 本稿では,これらの基本的な欠点に対処するため,タスク間およびDB間のMLメソッドの転送可能性について検討する。 本稿では,タスク間で伝達可能な知識を抽出するためのマルチタスクトレーニング手順と,DB間で伝達可能なメタ知識を蒸留するための事前訓練ファインチューン手順を用いた統一モデルTMLFを提案する。 このパラダイムはクラウドDBサービスに適しており、DBMSにおけるMLの使い方に革命をもたらす可能性があると考えています。 さらに,MTMLFの予測能力と生存可能性を示すために,クエリ最適化タスクの具体的かつ非常に有望なケーススタディを提供する。 最後に、この一連の作業に関して、いくつかの具体的な研究機会について論じる。

Recently, the database management system (DBMS) community has witnessed the power of machine learning (ML) solutions for DBMS tasks. Despite their promising performance, these existing solutions can hardly be considered satisfactory. First, these ML-based methods in DBMS are not effective enough because they are optimized on each specific task, and cannot explore or understand the intrinsic connections between tasks. Second, the training process has serious limitations that hinder their practicality, because they need to retrain the entire model from scratch for a new DB. Moreover, for each retraining, they require an excessive amount of training data, which is very expensive to acquire and unavailable for a new DB. We propose to explore the transferabilities of the ML methods both across tasks and across DBs to tackle these fundamental drawbacks. In this paper, we propose a unified model MTMLF that uses a multi-task training procedure to capture the transferable knowledge across tasks and a pretrain finetune procedure to distill the transferable meta knowledge across DBs. We believe this paradigm is more suitable for cloud DB service, and has the potential to revolutionize the way how ML is used in DBMS. Furthermore, to demonstrate the predicting power and viability of MTMLF, we provide a concrete and very promising case study on query optimization tasks. Last but not least, we discuss several concrete research opportunities along this line of work.
翻訳日:2021-05-08 00:17:54 公開日:2021-05-06
# (参考訳) Split and Connect:マルチオブジェクトトラッキングのためのユニバーサルトラックレットブースター [全文訳有]

Split and Connect: A Universal Tracklet Booster for Multi-Object Tracking ( http://arxiv.org/abs/2105.02426v1 )

ライセンス: CC BY 4.0
Gaoang Wang, Yizhou Wang, Renshu Gu, Weijie Hu, Jenq-Neng Hwang(参考訳) マルチオブジェクト追跡(MOT)はコンピュータビジョン分野において重要な課題である。 近年のディープラーニング技術の急速な発展により、MOTは大きな進歩を遂げた。 しかし、オクルージョンに対する敏感性、異なる照明条件下での不安定性、変形可能な物体に対する非破壊性など、いくつかの課題が残っている。 既存のトラッカーのほとんどにおいて、このような一般的な課題に対処するために、本論文では、他のトラッカー上で構築できるトラックレットブースターアルゴリズムを提案する。 モチベーションは単純で単純で、潜在的なIDスイッチ位置でトラックレットを分割し、同じオブジェクトから複数のトラックレットを1つに接続する。 言い換えれば、トラックレットブースターはSplitterとConnectorの2つの部分で構成される。 まず,適応ガウス核を用いたラベル平滑化戦略による分割位置予測に,時間拡張畳み込みブロックを積み重ねたアーキテクチャを用いる。 次に、トラックレット埋め込みのためにマルチヘッドセルフアテンションベースのエンコーダが活用され、トラックレットをより大きなグループに接続するためにさらに使用される。 我々はMOT17とMOT20ベンチマークデータセットで十分な実験を行い、有望な結果を示す。 提案したトラックレットブースターと組み合わせることで,既存のトラッカーはIFF1スコアを大幅に改善し,提案手法の有効性を示す。

Multi-object tracking (MOT) is an essential task in the computer vision field. With the fast development of deep learning technology in recent years, MOT has achieved great improvement. However, some challenges still remain, such as sensitiveness to occlusion, instability under different lighting conditions, non-robustness to deformable objects, etc. To address such common challenges in most of the existing trackers, in this paper, a tracklet booster algorithm is proposed, which can be built upon any other tracker. The motivation is simple and straightforward: split tracklets on potential ID-switch positions and then connect multiple tracklets into one if they are from the same object. In other words, the tracklet booster consists of two parts, i.e., Splitter and Connector. First, an architecture with stacked temporal dilated convolution blocks is employed for the splitting position prediction via label smoothing strategy with adaptive Gaussian kernels. Then, a multi-head self-attention based encoder is exploited for the tracklet embedding, which is further used to connect tracklets into larger groups. We conduct sufficient experiments on MOT17 and MOT20 benchmark datasets, which demonstrates promising results. Combined with the proposed tracklet booster, existing trackers usually can achieve large improvements on the IDF1 score, which shows the effectiveness of the proposed method.
翻訳日:2021-05-07 23:58:26 公開日:2021-05-06
# (参考訳) ゲーム用高速かつロバストな視線追跡システムの開発 [全文訳有]

Development of a Fast and Robust Gaze Tracking System for Game Applications ( http://arxiv.org/abs/2105.02460v1 )

ライセンス: CC BY 4.0
Manh Duong Phung, Cong Hoang Quach and Quang Vinh Tran(参考訳) 本研究では,視覚カメラを用いた新しい視線追跡システムを開発し,人間の視線を抽出し,最新のゲームマシンで使用することで,新たな革新的なインタラクティブ体験をプレイヤーに提供する。 システムのコンポーネントの中心は、ロバストな虹彩中心および視線角検出アルゴリズムであり、それに基づいて視線を連続的かつ適応的に抽出する。 システムの精度を評価するために9人の被験者に評価試験を適用し, 水平方向は2.50度, 垂直方向は3.07度であった。

In this study, a novel eye tracking system using a visual camera is developed to extract human's gaze, and it can be used in modern game machines to bring new and innovative interactive experience to players. Central to the components of the system, is a robust iris-center and eye-corner detection algorithm basing on it the gaze is continuously and adaptively extracted. Evaluation tests were applied to nine people to evaluate the accuracy of the system and the results were 2.50 degrees (view angle) in horizontal direction and 3.07 degrees in vertical direction.
翻訳日:2021-05-07 23:36:36 公開日:2021-05-06
# (参考訳) ディープネットにおける微分同相写像に対する相対安定性は性能を示す [全文訳有]

Relative stability toward diffeomorphisms in deep nets indicates performance ( http://arxiv.org/abs/2105.02468v1 )

ライセンス: CC BY 4.0
Leonardo Petrini, Alessandro Favero, Mario Geiger, Matthieu Wyart(参考訳) ディープネットが大きな次元でデータを分類できる理由を理解することは依然として困難である。 微分同相写像に安定になることによってそれらが成り立つことが提案されているが、既存の経験的測定はそうでないことが多いことを裏付けている。 我々は、与えられたノルムの典型的な微分同相を研究できる微分同相写像の最大エントロピー分布を定義することで、この問題を再考する。 微分同相性に対する安定性は、4つのベンチマークデータセットのパフォーマンスと強く相関しないことを確認した。 対照的に、一般変換に対する微分同相性に対する安定性は、テスト誤差$\epsilon_t$と著しく相関している。 初期化時に順序が統一されるが、最先端アーキテクチャのトレーニング中に数十年減少する。 CIFAR10と15の既知のアーキテクチャでは、$\epsilon_t\approx 0.2\sqrt{R_f}$が見つかる。 我々は、R_f$がトレーニングセットのサイズに依存するかを調べ、それを不変学習の単純なモデルと比較する。

Understanding why deep nets can classify data in large dimensions remains a challenge. It has been proposed that they do so by becoming stable to diffeomorphisms, yet existing empirical measurements support that it is often not the case. We revisit this question by defining a maximum-entropy distribution on diffeomorphisms, that allows to study typical diffeomorphisms of a given norm. We confirm that stability toward diffeomorphisms does not strongly correlate to performance on four benchmark data sets of images. By contrast, we find that the stability toward diffeomorphisms relative to that of generic transformations $R_f$ correlates remarkably with the test error $\epsilon_t$. It is of order unity at initialization but decreases by several decades during training for state-of-the-art architectures. For CIFAR10 and 15 known architectures, we find $\epsilon_t\approx 0.2\sqrt{R_f}$, suggesting that obtaining a small $R_f$ is important to achieve good performance. We study how $R_f$ depends on the size of the training set and compare it to a simple model of invariant learning.
翻訳日:2021-05-07 23:28:29 公開日:2021-05-06
# (参考訳) XeroAlign:ゼロショットクロスプラットフォームトランスフォーマーアライメント [全文訳有]

XeroAlign: Zero-Shot Cross-lingual Transformer Alignment ( http://arxiv.org/abs/2105.02472v1 )

ライセンス: CC BY 4.0
Milan Gritta, Ignacio Iacobacci(参考訳) 事前訓練された言語モデルの導入は、多言語NLPタスクに決定的な改善をもたらした。 しかし、ラベル付きタスクデータの欠如は、高リソース言語とのギャップを埋めるための様々な方法を必要とする。 特にゼロショット法では、ソースとターゲット言語間のパフォーマンスギャップを埋める訓練信号として、翻訳されたタスクデータを使うことが多い。 XeroAlignは、XLM-Rのような言語間事前訓練されたトランスフォーマーのタスク固有のアライメントの簡単な方法である。 xeroaligned xlm-rはxlm-raと呼ばれ、3つの多言語自然言語理解タスクで最先端のゼロショット結果を達成するためのベースラインモデルよりも強力な改善を示している。 XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端モデルと同等である。

The introduction of pretrained cross-lingual language models brought decisive improvements to multilingual NLP tasks. However, the lack of labelled task data necessitates a variety of methods aiming to close the gap to high-resource languages. Zero-shot methods in particular, often use translated task data as a training signal to bridge the performance gap between the source and target language(s). We introduce XeroAlign, a simple method for task-specific alignment of cross-lingual pretrained transformers such as XLM-R. XeroAlign uses translated task data to encourage the model to generate similar sentence embeddings for different languages. The XeroAligned XLM-R, called XLM-RA, shows strong improvements over the baseline models to achieve state-of-the-art zero-shot results on three multilingual natural language understanding tasks. XLM-RA's text classification accuracy exceeds that of XLM-R trained with labelled data and performs on par with state-of-the-art models on a cross-lingual adversarial paraphrasing task.
翻訳日:2021-05-07 23:03:50 公開日:2021-05-06
# (参考訳) 高相異なるフィンランド語のパラフレーズコーパスにおける代替翻訳の定量的評価 [全文訳有]

Quantitative Evaluation of Alternative Translations in a Corpus of Highly Dissimilar Finnish Paraphrases ( http://arxiv.org/abs/2105.02477v1 )

ライセンス: CC BY-SA 4.0
Li-Hsin Chang, Sampo Pyysalo, Jenna Kanerva, Filip Ginter(参考訳) 本稿では,最近リリースされたフィンランドのパラフローゼコーパスにおいて,翻訳の非自明な変動に着目した代替翻訳間の差異を定量的に評価する。 体系的な変動を検出する一連の自動ステップと手動分析を組み合わせることで、規則性を明らかにし、翻訳の違いのカテゴリを識別する。 パラフレーズコーパスは, 自動的アプローチによる認識が難しい, 非自明な翻訳変種を含む。

In this paper, we present a quantitative evaluation of differences between alternative translations in a large recently released Finnish paraphrase corpus focusing in particular on non-trivial variation in translation. We combine a series of automatic steps detecting systematic variation with manual analysis to reveal regularities and identify categories of translation differences. We find the paraphrase corpus to contain highly non-trivial translation variants difficult to recognize through automatic approaches.
翻訳日:2021-05-07 22:46:06 公開日:2021-05-06
# (参考訳) siamese視覚追跡における普遍的標的攻撃の単純かつ強固なベースライン [全文訳有]

A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking ( http://arxiv.org/abs/2105.02480v1 )

ライセンス: CC BY 4.0
Zhenbang Li, Yaya Shi, Jin Gao, Shaoru Wang, Bing Li, Pengpeng Liang, Weiming Hu(参考訳) siamese trackersは最近、敵の攻撃に弱いことが示されている。 しかし、既存の攻撃手法は各ビデオの摂動を独立して作っているため、計算コストは無視できる。 本稿では,対象とする攻撃を可能にする普遍的な摂動の存在について述べる。例えば,追跡者が特定のオフセットで地対地軌道を追従することを強制するなど,ネットワーク内ではビデオ非依存で推論を行なわない。 具体的には、テンプレート画像に普遍的知覚不能な摂動を加えて、予め定義された軌道に付着した検索画像に偽のターゲット、すなわち小さな普遍的敵パッチを付加することにより、トラッカーを攻撃し、実際のターゲットではなく偽のターゲットの位置とサイズを出力する。 当社のアプローチでは,新たなビデオの摂動を単なる追加操作以外の追加コストで行うことが可能で,勾配最適化やネットワーク推論は不要です。 いくつかのデータセットにおける実験結果は、我々のアプローチが標的攻撃方法でシャムの追跡者を効果的に騙すことを実証している。 提案する摂動はビデオに共通するだけでなく,様々なトラッカーにまたがって広く普及することを示す。 このような摂動は、データとネットワークアーキテクチャの両方に関して、二重に普遍的である。 私たちはコードを公開します。

Siamese trackers are shown to be vulnerable to adversarial attacks recently. However, the existing attack methods craft the perturbations for each video independently, which comes at a non-negligible computational cost. In this paper, we show the existence of universal perturbations that can enable the targeted attack, e.g., forcing a tracker to follow the ground-truth trajectory with specified offsets, to be video-agnostic and free from inference in a network. Specifically, we attack a tracker by adding a universal imperceptible perturbation to the template image and adding a fake target, i.e., a small universal adversarial patch, into the search images adhering to the predefined trajectory, so that the tracker outputs the location and size of the fake target instead of the real target. Our approach allows perturbing a novel video to come at no additional cost except the mere addition operations -- and not require gradient optimization or network inference. Experimental results on several datasets demonstrate that our approach can effectively fool the Siamese trackers in a targeted attack manner. We show that the proposed perturbations are not only universal across videos, but also generalize well across different trackers. Such perturbations are therefore doubly universal, both with respect to the data and the network architectures. We will make our code publicly available.
翻訳日:2021-05-07 22:36:58 公開日:2021-05-06
# (参考訳) より一般的な自然言語理解と推論のための生成的記号モデル [全文訳有]

A Generative Symbolic Model for More General Natural Language Understanding and Reasoning ( http://arxiv.org/abs/2105.02486v1 )

ライセンス: CC BY 4.0
Abulhair Saparov, Tom M. Mitchell(参考訳) 我々は、よりドメインとタスクの一般的なNLUとAIに向けた研究プログラムの第1ステップとして、セマンティックパースと推論の完全な象徴的なベイズモデルを提案する。 人間は観察の内側の精神モデルを作り、様々な問題を理解し推論する能力を大幅に助けます。 我々はこれを、完全に解釈可能であり、ベイジアンが特に一般性を念頭に設計したモデルで捉えることを目指しており、その結果、将来の研究がその能力を拡張するための道筋が明確になる。 我々は推論アルゴリズムを導出し実装し、ドメイン外のProofWriter質問応答/推論タスクで評価し、実験条件に応じてゼロショット精度を100%と93.43%で達成し、概念実証としての価値を示す。

We present a new fully-symbolic Bayesian model of semantic parsing and reasoning which we hope to be the first step in a research program toward more domain- and task-general NLU and AI. Humans create internal mental models of their observations which greatly aid in their ability to understand and reason about a large variety of problems. We aim to capture this in our model, which is fully interpretable and Bayesian, designed specifically with generality in mind, and therefore provides a clearer path for future research to expand its capabilities. We derive and implement an inference algorithm, and evaluate it on an out-of-domain ProofWriter question-answering/r easoning task, achieving zero-shot accuracies of 100% and 93.43%, depending on the experimental setting, thereby demonstrating its value as a proof-of-concept.
翻訳日:2021-05-07 22:13:27 公開日:2021-05-06
# (参考訳) 近傍選択アプローチによる高次元機能グラフィカルモデル構造学習

High-dimensional Functional Graphical Model Structure Learning via Neighborhood Selection Approach ( http://arxiv.org/abs/2105.02487v1 )

ライセンス: CC BY 4.0
Boxin Zhao, Shengjun Zhai, Y. Samuel Wang, Mladen Kolar(参考訳) 非方向グラフィカルモデルは、高次元ランダムベクトルデータの条件独立構造を長年にわたってモデル化するために広く利用されている。 EEGやfMRIデータなどの現代の多くの応用において、観測はスカラーではなく多変量ランダム関数である。 この種のデータの条件付き独立性をモデル化するために,関数型グラフィカルモデルが提案され,近年注目されている。 本稿では,ガウス関数型グラフィカルモデルの推定のための近傍選択手法を提案する。 まず関数オンファンクショナル回帰を用いて全てのノードの近傍を推定し,その周辺情報に基づいてグラフ構造全体を復元する。 条件構造を直接推定することにより、一般に存在しない明確な精度演算子の必要性を回避することができる。 さらに、次元減少に対する関数基底の選択の効果をより深く探求することができる。 我々は,最高の関数基底を選択するための基準を与え,2つの実用的な選択を動機付ける。これは理論と実験の両方で正当化し,従来の文献のように各関数を独自のFPCA基底に拡張するよりも優れていることを示す。 さらに, 並列計算がより容易であるため, 近傍選択法はガラスよりも計算効率がよい。 提案手法の高次元設定における統計的整合性は理論と実験の両方で支持される。

Undirected graphical models have been widely used to model the conditional independence structure of high-dimensional random vector data for years. In many modern applications such as EEG and fMRI data, the observations are multivariate random functions rather than scalars. To model the conditional independence of this type of data, functional graphical models are proposed and have attracted an increasing attention in recent years. In this paper, we propose a neighborhood selection approach to estimate Gaussian functional graphical models. We first estimate the neighborhood of all nodes via function-on-function regression, and then we can recover the whole graph structure based on the neighborhood information. By estimating conditional structure directly, we can circumvent the need of a well-defined precision operator which generally does not exist. Besides, we can better explore the effect of the choice of function basis for dimension reduction. We give a criterion for choosing the best function basis and motivate two practically useful choices, which we justified by both theory and experiments and show that they are better than expanding each function onto its own FPCA basis as in previous literature. In addition, the neighborhood selection approach is computationally more efficient than fglasso as it is more easy to do parallel computing. The statistical consistency of our proposed methods in high-dimensional setting are supported by both theory and experiment.
翻訳日:2021-05-07 21:49:40 公開日:2021-05-06
# (参考訳) 大域的共分散プールにおける正方形根の正確なSVD性能 [全文訳有]

Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling? ( http://arxiv.org/abs/2105.02498v1 )

ライセンス: CC BY 4.0
Yue Song, Nicu Sebe, Wei Wang(参考訳) global covariance pooling (gcp) は畳み込み機能の2次統計を活用することを目的としている。 その効果は畳み込みニューラルネットワーク(cnns)の分類性能の向上に証明されている。 Singular Value Decomposition (SVD) は、GCPで行列平方根を計算するために使われる。 しかし、Newton-Schulz iteration \cite{li2018towards} を用いて計算された近似行列平方根は、SVD \cite{li2017second} によって計算された正確なルートよりも優れている。 データ精度と勾配の滑らかさの観点から,性能差の原因を実験的に分析した。 SVD勾配のスムーズな計算法について検討した。 そこで本研究では,SVDをベースとしたGCPメタ層に対して,Newton-Schulzイテレーションに対する競合性能を実現するためのハイブリッドトレーニングプロトコルを提案する。 さらに,前方通過におけるSVDと後方伝播におけるPad\'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。 提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。

Global covariance pooling (GCP) aims at exploiting the second-order statistics of the convolutional feature. Its effectiveness has been demonstrated in boosting the classification performance of Convolutional Neural Networks (CNNs). Singular Value Decomposition (SVD) is used in GCP to compute the matrix square root. However, the approximate matrix square root calculated using Newton-Schulz iteration \cite{li2018towards} outperforms the accurate one computed via SVD \cite{li2017second}. We empirically analyze the reason behind the performance gap from the perspectives of data precision and gradient smoothness. Various remedies for computing smooth SVD gradients are investigated. Based on our observation and analyses, a hybrid training protocol is proposed for SVD-based GCP meta-layers such that competitive performances can be achieved against Newton-Schulz iteration. Moreover, we propose a new GCP meta-layer that uses SVD in the forward pass, and Pad\'e Approximants in the backward propagation to compute the gradients. The proposed meta-layer has been integrated into different CNN models and achieves state-of-the-art performances on both large-scale and fine-grained datasets.
翻訳日:2021-05-07 21:48:03 公開日:2021-05-06
# (参考訳) 構文から学ぶ:豊富な構文知識によるペアワイズアスペクトと意見語抽出の改善 [全文訳有]

Learn from Syntax: Improving Pair-wise Aspect and Opinion Terms Extractionwith Rich Syntactic Knowledge ( http://arxiv.org/abs/2105.02520v1 )

ライセンス: CC BY 4.0
Shengqiong Wu and Hao Fei and Yafeng Ren and Donghong Ji and Jingye Li(参考訳) 本稿では,豊富な構文知識を取り入れることで,ペアワイズアスペクトと意見語抽出(paote)タスクを強化することを提案する。 まず,係り受けエッジやラベルを統一的にモデル化するlagcn( label-aware graph convolutional network)や,posタグを統一的にモデル化するローカルアテンションモジュールなど,構文特徴をエンコードする構文フュージョンエンコーダを構築した。 ペアリングでは、高次アスペクト-オピニオン項のペアリングにBiaffineとTriaffineスコアを採用し、一方、構文認識スコアにLAGCNの構文強化表現を修復する。 4つのベンチマークデータセットによる実験結果から、我々のモデルは現在の最先端のベースラインよりも優れており、同時に、構文知識による説明可能な予測が得られている。

In this paper, we propose to enhance the pair-wise aspect and opinion terms extraction (PAOTE) task by incorporating rich syntactic knowledge. We first build a syntax fusion encoder for encoding syntactic features, including a label-aware graph convolutional network (LAGCN) for modeling the dependency edges and labels, as well as the POS tags unifiedly, and a local-attention module encoding POS tags for better term boundary detection. During pairing, we then adopt Biaffine and Triaffine scoring for high-order aspect-opinion term pairing, in the meantime re-harnessing the syntax-enriched representations in LAGCN for syntactic-aware scoring. Experimental results on four benchmark datasets demonstrate that our model outperforms current state-of-the-art baselines, meanwhile yielding explainable predictions with syntactic knowledge.
翻訳日:2021-05-07 21:27:01 公開日:2021-05-06
# (参考訳) 不一致によるベイズアクティブラーニング:幾何学的視点

Bayesian Active Learning by Disagreements: A Geometric Perspective ( http://arxiv.org/abs/2105.02543v1 )

ライセンス: CC BY 4.0
Xiaofeng Cao and Ivor W. Tsang(参考訳) モデル不確実性推定と相互作用するコアセット構造上でBALDを実行するフレームワークである不一致による幾何学的ベイズアクティブラーニング(GBALD)を提案する。 技術的には、GBALDは楕円体にコアセットを構築するが、典型的な球ではない。 改善点は2つある: 1) 不正な事前処理を緩和し、2) 冗長な見積もりを減らす。 理論的には、楕円体による測地探索は、誤差のより低い境界を導き、球体よりもゼロ誤差を容易に達成することができる。 GBALDはノイズや繰り返しのサンプルに対してわずかに摂動があり、BALDやBatchBALDなど既存の深層学習アプローチよりも優れています。

We present geometric Bayesian active learning by disagreements (GBALD), a framework that performs BALD on its core-set construction interacting with model uncertainty estimation. Technically, GBALD constructs core-set on ellipsoid, not typical sphere, preventing low-representative elements from spherical boundaries. The improvements are twofold: 1) relieve uninformative prior and 2) reduce redundant estimations. Theoretically, geodesic search with ellipsoid can derive tighter lower bound on error and easier to achieve zero error than with sphere. Experiments show that GBALD has slight perturbations to noisy and repeated samples, and outperforms BALD, BatchBALD and other existing deep active learning approaches.
翻訳日:2021-05-07 21:14:05 公開日:2021-05-06
# (参考訳) SGG: キーワード生成のための選択、ガイド、生成の学習 [全文訳有]

SGG: Learning to Select, Guide, and Generate for Keyphrase Generation ( http://arxiv.org/abs/2105.02544v1 )

ライセンス: CC BY-SA 4.0
Jing Zhao, Junwei Bao, Yifan Wang, Youzheng Wu, Xiaodong He, Bowen Zhou(参考訳) 文書で議論される高レベルな話題を簡潔に要約するキーフレーズは、ソーステキストに明示的に現れる現在のキーフレーズと、連続したサブシーケンスと一致しないがソースと高度に意味的に関連しているキーフレーズに分類することができる。 既存のキーフレーズ生成の多くは、これらの2つのカテゴリを明確に区別することなく、現在および不在のキーフレーズを同期的に生成する。 本稿では,現在および不在キーフレーズ生成を異なる機構で別々に扱うために,sgg(select-guide-ge nerate)アプローチを提案する。 具体的には、現在キーフレーズ生成に集中している低層におけるポインティングベースのセレクタと、欠キーフレーズ生成専用の高層における選択誘導ジェネレータと、セレクタからジェネレータへ情報を転送する中間のガイド装置とからなる階層型ニューラルネットワークである。 4つのキーフレーズ生成ベンチマークにおける実験結果から,本モデルの有効性が示された。 さらに,自然言語生成タスクにおける拡張性を示すタイトル生成タスクにsggを拡張する。

Keyphrases, that concisely summarize the high-level topics discussed in a document, can be categorized into present keyphrase which explicitly appears in the source text, and absent keyphrase which does not match any contiguous subsequence but is highly semantically related to the source. Most existing keyphrase generation approaches synchronously generate present and absent keyphrases without explicitly distinguishing these two categories. In this paper, a Select-Guide-Generat e (SGG) approach is proposed to deal with present and absent keyphrase generation separately with different mechanisms. Specifically, SGG is a hierarchical neural network which consists of a pointing-based selector at low layer concentrated on present keyphrase generation, a selection-guided generator at high layer dedicated to absent keyphrase generation, and a guider in the middle to transfer information from selector to generator. Experimental results on four keyphrase generation benchmarks demonstrate the effectiveness of our model, which significantly outperforms the strong baselines for both present and absent keyphrases generation. Furthermore, we extend SGG to a title generation task which indicates its extensibility in natural language generation tasks.
翻訳日:2021-05-07 20:43:41 公開日:2021-05-06
# (参考訳) 構造化アンサンブル:アンサンブル法におけるメモリフットプリント削減の一手法 [全文訳有]

Structured Ensembles: an Approach to Reduce the Memory Footprint of Ensemble Methods ( http://arxiv.org/abs/2105.02551v1 )

ライセンス: CC BY 4.0
Jary Pomponi, Simone Scardapane, and Aurelio Uncini(参考訳) 本稿では,より深いニューラルネットワークのための新しいアンサンブル手法を提案する。 特に,本論文では,同一の訓練されていないニューラルネットワークから複数のサブネットワークを抽出し,元のアーキテクチャ上で微分可能なスケーリングを組み合わせたエンドツーエンド最適化タスクと,アンサンブルの多様性を指向した複数の正規化項を組み合わせることを提案する。 我々の提案はサブ構造の検出と抽出を目的としており、構造化アンサンブルと呼ぶ。 大規模な実験により,本手法は競合する手法よりも高い精度,あるいは同等の精度を達成できるが,ストレージは大幅に削減できることを示した。 さらに,予測キャリブレーションと不確実性の観点からのアンサンブルの評価を行い,最新技術との比較を行った。 最後に,連続学習文献とのリンクを描き,サブリニアなメモリコストでタスクの連続的なストリームを処理するためのフレームワークの修正を提案する。 我々は、破滅的な忘れを軽減し、平均的正確性と記憶の利点を強調するための、いくつかの代替戦略と比較する。

In this paper, we propose a novel ensembling technique for deep neural networks, which is able to drastically reduce the required memory compared to alternative approaches. In particular, we propose to extract multiple sub-networks from a single, untrained neural network by solving an end-to-end optimization task combining differentiable scaling over the original architecture, with multiple regularization terms favouring the diversity of the ensemble. Since our proposal aims to detect and extract sub-structures, we call it Structured Ensemble. On a large experimental evaluation, we show that our method can achieve higher or comparable accuracy to competing methods while requiring significantly less storage. In addition, we evaluate our ensembles in terms of predictive calibration and uncertainty, showing they compare favourably with the state-of-the-art. Finally, we draw a link with the continual learning literature, and we propose a modification of our framework to handle continuous streams of tasks with a sub-linear memory cost. We compare with a number of alternative strategies to mitigate catastrophic forgetting, highlighting advantages in terms of average accuracy and memory.
翻訳日:2021-05-07 20:31:34 公開日:2021-05-06
# (参考訳) 多言語社会の多様性を捉え

Capturing the diversity of multilingual societies ( http://arxiv.org/abs/2105.02570v1 )

ライセンス: CC BY 4.0
Thomas Louf, David Sanchez and Jose J. Ramasco(参考訳) 世界の言語にエンコードされる文化の多様性は危険にさらされており、グローバル化が進む中で、過去数十年で多くの言語が危険にさらされている。 この多様性を維持するためには、まず言語絶滅の要因と、どのメカニズムが共存を可能にするかを理解する必要がある。 本稿では,言語変化における作業プロセスについて,理論的およびデータ駆動的視点の結合を通して考察する。 twitterと国勢調査データを用いた多言語社会における言語空間パターンの大規模実証研究は、幅広い多様性をもたらす。 多言語話者を含むほぼ完全な言語話者の混合から、言語領域と主にその境界にある多言語話者とを巧みに分離した分離まで幅広い。 これらの異なる状態がどのように出現し、特に安定しているかを理解するために、他言語を習得し、両言語が絶滅危惧言語の使用を好む場合に言語共存が達成できるモデルを提案する。 メタポピュレーションフレームワークで実施したシミュレーションでは、混合状態の安定性や2つの言語領域の境界の存在を説明するために、人の移動から生じる空間的相互作用の重要性が強調されている。 言語間の関係を規定するパラメータの変化は、グローバルな遷移を行うシステムの不安定化を可能にする。 私たちのモデルによれば、移行を一度行えばシステムの進化は歴史に依存します。 ステータス quo を変更するのは簡単だが、以前の状態に戻るのは簡単でも、可能でもないかもしれない。

Cultural diversity encoded within languages of the world is at risk, as many languages have become endangered in the last decades in a context of growing globalization. To preserve this diversity, it is first necessary to understand what drives language extinction, and which mechanisms might enable coexistence. Here, we consider the processes at work in language shift through a conjunction of theoretical and data-driven perspectives. A large-scale empirical study of spatial patterns of languages in multilingual societies using Twitter and census data yields a wide diversity. It ranges from an almost complete mixing of language speakers, including multilinguals, to segregation with a neat separation of the linguistic domains and with multilinguals mainly at their boundaries. To understand how these different states can emerge and, especially, become stable, we propose a model in which coexistence of languages may be reached when learning the other language is facilitated and when bilinguals favor the use of the endangered language. Simulations carried out in a metapopulation framework highlight the importance of spatial interactions arising from people mobility to explain the stability of a mixed state or the presence of a boundary between two linguistic regions. Changes in the parameters regulating the relation between the languages can destabilize a system, which undergoes global transitions. According to our model, the evolution of the system once it undergoes a transition is highly history-dependent. It is easy to change the status quo but going back to a previous state may not be simple or even possible.
翻訳日:2021-05-07 20:08:00 公開日:2021-05-06
# (参考訳) グラフネットワークを用いたメッシュ領域における定常流れ場の直接予測 [全文訳有]

Direct Prediction of Steady-State Flow Fields in Meshed Domain with Graph Networks ( http://arxiv.org/abs/2105.02575v1 )

ライセンス: CC BY 4.0
Lukas Harsch, Stefan Riedelbauch(参考訳) 本研究では,所定の形状設定に対して定常流場を直接予測するモデルを提案する。 設定は、メッシュ領域としての流体の流れのオイラー表現である。 メッシュ空間シミュレーションをグラフとして処理するためのグラフネットワークアーキテクチャを導入する。 このモデルの利点は,局所的な構造を探索しながら,地球規模の物理システムを深く理解することにある。 これは直接予測に不可欠であり、既存の方法よりも優れている。

We propose a model to directly predict the steady-state flow field for a given geometry setup. The setup is an Eulerian representation of the fluid flow as a meshed domain. We introduce a graph network architecture to process the mesh-space simulation as a graph. The benefit of our model is a strong understanding of the global physical system, while being able to explore the local structure. This is essential to perform direct prediction and is thus superior to other existing methods.
翻訳日:2021-05-07 20:06:39 公開日:2021-05-06
# (参考訳) バンディットを基盤としたピアツーピア融資の双方向市場における集中マッチング [全文訳有]

Bandit based centralized matching in two-sided markets for peer to peer lending ( http://arxiv.org/abs/2105.02589v1 )

ライセンス: CC BY 4.0
Soumajyoti Sarkar(参考訳) 両サイドのオンラインプラットフォームでの連続的な資金調達により、ピアツーピアの貸し出しが可能になり、それぞれの決定が市場の他のコントリビュータに影響を与える可能性がある。 しかし、ピア貸付のためのオンラインプラットフォームにおけるシーケンシャルコントリビューションのダイナミクスを理解することは、オープンエンドの研究課題である。 これらのプラットフォームにおける集中型投資メカニズムは、借り手がどの時点でも単一の貸し手から直面する暗黙の競争を理解するのを困難にしている。 マッチング市場(英: Matching market)とは、取引における双方のエージェントの選好によって市場を分散化することができる、ペアリングエージェントのモデルである。 我々は、投資家や貸し手も借り手の好みに基づいて投資の制限に直面している場合に、一致する市場を利用して、両面のプラットフォームにおける投資デザインを調査する。 この状況は、既存の借り手競争に加えて、特に市場における自己の立ち位置が不透明であり、投資が受け入れられる可能性や準備価格に達するプロジェクトに対する借り手融資の要求がある場合に、貸し手間で暗黙の競争を生じさせる。 我々は、時間とともに競争の不確実性のダイナミクスに基づいて、金融機関が選択を調整できるシーケンシャルな意思決定に基づく手法を考案する。 我々は,二面的市場マッチングを逐次決定の枠組みでシミュレートし,最適な借主・貸主マッチングと比較して,貸主の後悔のダイナミクスを示すとともに,貸主の後悔が意思決定ステップにおける学習に影響を与える可能性のある貸主の初期選好に依存することを明らかにする。

Sequential fundraising in two sided online platforms enable peer to peer lending by sequentially bringing potential contributors, each of whose decisions impact other contributors in the market. However, understanding the dynamics of sequential contributions in online platforms for peer lending has been an open ended research question. The centralized investment mechanism in these platforms makes it difficult to understand the implicit competition that borrowers face from a single lender at any point in time. Matching markets are a model of pairing agents where the preferences of agents from both sides in terms of their preferred pairing for transactions can allow to decentralize the market. We study investment designs in two sided platforms using matching markets when the investors or lenders also face restrictions on the investments based on borrower preferences. This situation creates an implicit competition among the lenders in addition to the existing borrower competition, especially when the lenders are uncertain about their standing in the market and thereby the probability of their investments being accepted or the borrower loan requests for projects reaching the reserve price. We devise a technique based on sequential decision making that allows the lenders to adjust their choices based on the dynamics of uncertainty from competition over time. We simulate two sided market matchings in a sequential decision framework and show the dynamics of the lender regret amassed compared to the optimal borrower-lender matching and find that the lender regret depends on the initial preferences set by the lenders which could affect their learning over decision making steps.
翻訳日:2021-05-07 19:56:42 公開日:2021-05-06
# (参考訳) ツリーアンサンブルのためのメモリ効率のよい形式検証ツールのスケールアップ [全文訳有]

Scaling up Memory-Efficient Formal Verification Tools for Tree Ensembles ( http://arxiv.org/abs/2105.02595v1 )

ライセンス: CC BY-SA 4.0
John T\"ornblom and Simin Nadjm-Tehrani(参考訳) 機械学習モデルが正確であるだけでなく、堅牢である出力を出力することを保証するため、最近の研究では、機械学習モデルの堅牢性特性を正式に検証することを提案する。 実際の安全クリティカルシステムに適用するには,入力領域のばらつきによる組合せ爆発を管理し,汎用性やドメイン固有の要件から導かれる正確性特性を検証することが必要である。 本稿では,前述した投票アルゴリズムをツール記述として定式化し,そのツールセットを体系的スケーラビリティ研究のメカニズムで拡張する。 特に,a) コア検証エンジンからプロパティチェックを分離することで,多様な要件の検証が可能になること,b) 検証に要する時間とメモリ使用の両面でツールのスケーラビリティ,c) アルゴリズムが大規模並列化に適した魅力的な特性を持っていること,などが示されている。 本研究は,2つのケーススタディ,すなわち,デジタル認識と航空機衝突回避の2つのケーススタディにおいて,ツールの資源利用性を評価するための第1ケーススタディと,汎用的正当性検証能力を評価するための第2ケーススタディである。

To guarantee that machine learning models yield outputs that are not only accurate, but also robust, recent works propose formally verifying robustness properties of machine learning models. To be applicable to realistic safety-critical systems, the used verification algorithms need to manage the combinatorial explosion resulting from vast variations in the input domain, and be able to verify correctness properties derived from versatile and domain-specific requirements. In this paper, we formalise the VoTE algorithm presented earlier as a tool description, and extend the tool set with mechanisms for systematic scalability studies. In particular, we show a) how the separation of property checking from the core verification engine enables verification of versatile requirements, b) the scalability of the tool, both in terms of time taken for verification and use of memory, and c) that the algorithm has attractive properties that lend themselves well for massive parallelisation. We demonstrate the application of the tool in two case studies, namely digit recognition and aircraft collision avoidance, where the first case study serves to assess the resource utilisation of the tool, and the second to assess the ability to verify versatile correctness properties.
翻訳日:2021-05-07 19:34:24 公開日:2021-05-06
# (参考訳) GraphFormers: リンクされたテキスト表現のためのGNN対応言語モデル [全文訳有]

GraphFormers: GNN-nested Language Models for Linked Text Representation ( http://arxiv.org/abs/2105.02605v1 )

ライセンス: CC BY 4.0
Junhan Yang, Zheng Liu, Shitao Xiao, Chaozhuo Li, Guangzhong Sun, and Xing Xie(参考訳) オンライン広告やレコメンダシステムなど、多くのインテリジェントwebアプリケーションでは、リンクされたテキスト表現が重要である。 事前学習された言語モデルとグラフニューラルネットワークに関する最近のブレークスルーは、対応する技術の開発を促進する。 しかし、既存の研究は主にカスケードモデル構造に依存しており、テキストは言語モデルによって独立に符号化され、テキスト埋め込みはグラフニューラルネットワークによってさらに集約される。 上記のプロセスでは,近隣の情報は不十分に利用されており,表現品質が制限されていると論じる。 本研究では,言語モデルの各トランスフォーマー層にグラフニューラルネットワークをネストするグラフフォーマーを提案する。 上記のアーキテクチャに加えて、リンクされたテキストは、自身のセマンティクスの強化のために近隣の情報を反復的に抽出する。 このような反復的なワークフローは、その表現品質に寄与する近隣情報のより効果的な利用をもたらす。 さらに,より効率的かつ両立可能な一方向グラフフォーマと呼ばれる適応法を導入し,学習効果を高めるために,近隣認識マスク型言語モデルと呼ばれる事前学習戦略を活用する。 提案手法の有効性を検証した3つの大規模リンクテキストデータセットを用いて実験を行った。

Linked text representation is critical for many intelligent web applications, such as online advertisement and recommender systems. Recent breakthroughs on pretrained language models and graph neural networks facilitate the development of corresponding techniques. However, the existing works mainly rely on cascaded model structures: the texts are independently encoded by language models at first, and the textual embeddings are further aggregated by graph neural networks. We argue that the neighbourhood information is insufficiently utilized within the above process, which restricts the representation quality. In this work, we propose GraphFormers, where graph neural networks are nested alongside each transformer layer of the language models. On top of the above architecture, the linked texts will iteratively extract neighbourhood information for the enhancement of their own semantics. Such an iterative workflow gives rise to more effective utilization of neighbourhood information, which contributes to the representation quality. We further introduce an adaptation called unidirectional GraphFormers, which is much more efficient and comparably effective; and we leverage a pretraining strategy called the neighbourhood-aware masked language modeling to enhance the training effect. We perform extensive experiment studies with three large-scale linked text datasets, whose results verify the effectiveness of our proposed methods.
翻訳日:2021-05-07 19:20:00 公開日:2021-05-06
# (参考訳) モバイルデバイスにディープラーニングモデルをデプロイする上での課題と障害 [全文訳有]

Challenges and Obstacles Towards Deploying Deep Learning Models on Mobile Devices ( http://arxiv.org/abs/2105.02613v1 )

ライセンス: CC0 1.0
Hamid Tabani, Ajay Balasubramaniam, Elahe Arani, Bahram Zonooz(参考訳) コンピュータビジョンや音声認識から自動運転車の予測軌道まで、ディープラーニングのアプローチは多くの分野の最前線にある。 ディープラーニングモデルは、高レベルで汎用的なフレームワークとライブラリを多用して開発されている。 これらのモデルをモバイルデバイス上で実行するには、ハードウェア対応の最適化が必要であり、多くの場合、モデルを他のフォーマットに変換するか、あるいはサードパーティのフレームワークを使用する。 実際、開発済みのモデルのほとんどは、変換、適応、そして場合によっては、ターゲットプラットフォームにモデルをデプロイするフレームワークの要求と機能に合致する完全なリトレーニングのプロセスを実行する必要があります。 ウェアラブルデバイスからハイパフォーマンスgpuクラスタに至るまで、異種コンピューティング要素を持つさまざまなハードウェアプラットフォームが、ディープラーニングモデルの実行に使用されている。 本稿では,モバイルデバイスにディープラーニングモデルをデプロイするための既存の課題,障害,実践的ソリューションについて述べる。

From computer vision and speech recognition to forecasting trajectories in autonomous vehicles, deep learning approaches are at the forefront of so many domains. Deep learning models are developed using plethora of high-level, generic frameworks and libraries. Running those models on the mobile devices require hardware-aware optimizations and in most cases converting the models to other formats or using a third-party framework. In reality, most of the developed models need to undergo a process of conversion, adaptation, and, in some cases, full retraining to match the requirements and features of the framework that is deploying the model on the target platform. Variety of hardware platforms with heterogeneous computing elements, from wearable devices to high-performance GPU clusters are used to run deep learning models. In this paper, we present the existing challenges, obstacles, and practical solutions towards deploying deep learning models on mobile devices.
翻訳日:2021-05-07 19:06:57 公開日:2021-05-06
# (参考訳) 画像分割のための新しいフォールディングボールアルゴリズム [全文訳有]

A Novel Falling-Ball Algorithm for Image Segmentation ( http://arxiv.org/abs/2105.02615v1 )

ライセンス: CC BY 4.0
Asra Aslam, Ekram Khan, Mohammad Samar Ansari, M.M. Sufyan Beg(参考訳) 画像分割 (image segmentation) とは、背景からオブジェクトを分離することであり、デジタル画像処理の最も困難な側面の1つである。 実際、100%精度のセグメンテーションアルゴリズムを設計することは不可能であり、そのため、特定の制限のある文献で多くのセグメンテーション技術が提案されている。 本稿では,領域に基づくセグメンテーションアルゴリズムである新しいフォールディングボールアルゴリズムと,(ウォーターフォールモデルに基づく)流域変換に代わる手法を提案する。 提案アルゴリズムは,丘陵地帯から落下する球が捕集流域で停止すると仮定して,捕集流域を検出する。 ひとたびキャッチメント盆地が特定されると、マルチクリエーションファジィ論理を用いて、各画素とキャッチメント盆地の1つとの関係を求める。 エッジは、構成関数の助けを借りて、画像を異なるキャッチメント盆地に分割することで構成される。 最後に、閉輪郭アルゴリズムを用いて閉領域を見つけ、閉領域内の物体を強度情報を用いて分割する。 提案アルゴリズムの性能は客観的にも主観的にも評価される。 シミュレーションの結果,提案アルゴリズムは従来のソベルエッジ検出法や流域分割アルゴリズムよりも優れた性能を示した。 比較分析では,提案手法が既存のセグメンテーション法よりも優れていることを示すために,様々な比較手法が用いられている。

Image segmentation refers to the separation of objects from the background, and has been one of the most challenging aspects of digital image processing. Practically it is impossible to design a segmentation algorithm which has 100% accuracy, and therefore numerous segmentation techniques have been proposed in the literature, each with certain limitations. In this paper, a novel Falling-Ball algorithm is presented, which is a region-based segmentation algorithm, and an alternative to watershed transform (based on waterfall model). The proposed algorithm detects the catchment basins by assuming that a ball falling from hilly terrains will stop in a catchment basin. Once catchment basins are identified, the association of each pixel with one of the catchment basin is obtained using multi-criterion fuzzy logic. Edges are constructed by dividing image into different catchment basins with the help of a membership function. Finally closed contour algorithm is applied to find closed regions and objects within closed regions are segmented using intensity information. The performance of the proposed algorithm is evaluated both objectively as well as subjectively. Simulation results show that the proposed algorithms gives superior performance over conventional Sobel edge detection methods and the watershed segmentation algorithm. For comparative analysis, various comparison methods are used for demonstrating the superiority of proposed methods over existing segmentation methods.
翻訳日:2021-05-07 19:00:08 公開日:2021-05-06
# (参考訳) テキスト分類のためのタスク固有情報を用いた注意に基づく説明の忠実度向上 [全文訳有]

Improving the Faithfulness of Attention-based Explanations with Task-specific Information for Text Classification ( http://arxiv.org/abs/2105.02657v1 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) 自然言語処理におけるニューラルネットワークアーキテクチャは、しばしば注意機構を用いて入力トークン表現上の確率分布を生成する。 様々なタスクのパフォーマンスを改善するために実験的に注意が払われているが、モデル予測の説明として重みが広く使われている。 最近の研究(Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019)では、エンコーダとタスク間の忠実な説明(Jacovi and Goldberg, 2020)は一般的には考えられないことが示されている。 本稿では,テキスト分類における注意に基づく説明の忠実性の向上を目指す。 本研究では,タスク固有の非コンテクスト化情報を学習し,本来の注意重みを拡大するタスクスケーリング(TaSc)機構を提案する。 説明忠実度評価テストの結果,提案した3種類のTaScは,2つの注意機構,5つのエンコーダ,5つのテキスト分類データセット間で,予測性能を犠牲にすることなく,注意に基づく説明を改善することがわかった。 最後に,tascは,広く使われている3つの解釈手法と比較して,より忠実な注意に基づく説明を一貫して提供できることを実証する。

Neural network architectures in natural language processing often use attention mechanisms to produce probability distributions over input token representations. Attention has empirically been demonstrated to improve performance in various tasks, while its weights have been extensively used as explanations for model predictions. Recent studies (Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019) have showed that it cannot generally be considered as a faithful explanation (Jacovi and Goldberg, 2020) across encoders and tasks. In this paper, we seek to improve the faithfulness of attention-based explanations for text classification. We achieve this by proposing a new family of Task-Scaling (TaSc) mechanisms that learn task-specific non-contextualised information to scale the original attention weights. Evaluation tests for explanation faithfulness, show that the three proposed variants of TaSc improve attention-based explanations across two attention mechanisms, five encoders and five text classification datasets without sacrificing predictive performance. Finally, we demonstrate that TaSc consistently provides more faithful attention-based explanations compared to three widely-used interpretability techniques.
翻訳日:2021-05-07 18:47:08 公開日:2021-05-06
# (参考訳) 順序アンロケーション:ノイズと不完全距離測定による目標定位 [全文訳有]

Ordinal UNLOC: Target Localization with Noisy and Incomplete Distance Measures ( http://arxiv.org/abs/2105.02671v1 )

ライセンス: CC BY 4.0
Mahesh K. Banavar, Shandeepa Wickramasinghe, Monalisa Achalla, Jie Sun(参考訳) ターゲットローカライズにおける大きな課題は、信頼性の高い距離測定の欠如から生じる。 この問題は特に室内環境において、壁、床、家具、および人や商品の移動、温度の変化、気流などの動的に変化する条件の存在によって顕著である。 そこで我々は,信頼性のある距離測定を必要とせず,目標の位置を推定する新しい計算フレームワークを開発した。 順序アンロケーションと呼ぶこの手法は、既知の位置におけるアンカーペアからの信号強度を目標と比較して得られる順序データのみを使用する。 評価手法は,ランクアグリゲーション,関数学習,近接型展開最適化を利用する。 その結果、未知のパラメータを持つ共通伝達モデルの正確な目標定位と、実用的な設定を想起するノイズ観測が得られる。 本結果は数値シミュレーションとハードウェア実験で検証した。

A main challenge in target localization arises from the lack of reliable distance measures. This issue is especially pronounced in indoor settings due to the presence of walls, floors, furniture, and other dynamically changing conditions such as the movement of people and goods, varying temperature, and airflows. Here, we develop a new computational framework to estimate the location of a target without the need for reliable distance measures. The method, which we term Ordinal UNLOC, uses only ordinal data obtained from comparing the signal strength from anchor pairs at known locations to the target. Our estimation technique utilizes rank aggregation, function learning as well as proximity-based unfolding optimization. As a result, it yields accurate target localization for common transmission models with unknown parameters and noisy observations that are reminiscent of practical settings. Our results are validated by both numerical simulations and hardware experiments.
翻訳日:2021-05-07 18:23:36 公開日:2021-05-06
# (参考訳) ss-cada : 冠動脈分画に対する半教師付きクロス解剖ドメイン適応 [全文訳有]

SS-CADA: A Semi-Supervised Cross-Anatomy Domain Adaptation for Coronary Artery Segmentation ( http://arxiv.org/abs/2105.02674v1 )

ライセンス: CC BY 4.0
Jingyang Zhang, Ran Gu, Guotai Wang, Hongzhi Xie, Lixu Gu(参考訳) 畳み込みニューラルネットワークによる冠動脈のセグメンテーションは有望であるが、膨大な労力を要する手動アノテーションを必要とする。 fis(public labeled fundus images)における網膜血管からの知識の伝達は、共通の管状構造のため、x線血管造影法 (xas) における冠動脈分画の注釈要件を減少させる可能性がある。 しかし, 異種解剖学的領域における内在的に異なる血管性特性から, 解剖学的領域シフトが問題視されている。 そこで本研究では, xasの冠状動脈に限ったアノテーションのみを必要とする半教師付きクロス解剖ドメイン適応(ss-cada)を提案する。 少数のラベル付きXAと公開ラベル付きFIの監督により,解剖学的異なる血管性特性を考慮した特徴マップを個別に正規化するための,血管性特異的バッチ正規化(VSBN)を提案する。 さらに, アノテーションの効率をさらに向上させるために, 予測一貫性制約を課すことで, 豊富なラベルのないxasを活用すべく, 自己センシング平均教師 (semt) を用いる。 広範囲にわたる実験により,ss-cadaは難易度の高いクロス解剖学的領域シフトを解消し,少量のxasで冠状動脈の正確なセグメント化を実現することができた。

The segmentation of coronary arteries by convolutional neural network is promising yet requires a large amount of labor-intensive manual annotations. Transferring knowledge from retinal vessels in widely-available public labeled fundus images (FIs) has a potential to reduce the annotation requirement for coronary artery segmentation in X-ray angiograms (XAs) due to their common tubular structures. However, it is challenged by the cross-anatomy domain shift due to the intrinsically different vesselness characteristics in different anatomical regions under even different imaging protocols. To solve this problem, we propose a Semi-Supervised Cross-Anatomy Domain Adaptation (SS-CADA) which requires only limited annotations for coronary arteries in XAs. With the supervision from a small number of labeled XAs and publicly available labeled FIs, we propose a vesselness-specific batch normalization (VSBN) to individually normalize feature maps for them considering their different cross-anatomic vesselness characteristics. In addition, to further facilitate the annotation efficiency, we employ a self-ensembling mean-teacher (SEMT) to exploit abundant unlabeled XAs by imposing a prediction consistency constraint. Extensive experiments show that our SS-CADA is able to solve the challenging cross-anatomy domain shift, achieving accurate segmentation for coronary arteries given only a small number of labeled XAs.
翻訳日:2021-05-07 17:50:47 公開日:2021-05-06
# (参考訳) 2.5次元車両オドメトリーによる視覚計測 [全文訳有]

A 2.5D Vehicle Odometry Estimation for Vision Applications ( http://arxiv.org/abs/2105.02679v1 )

ライセンス: CC BY 4.0
Paul Moran, Leroy-Francisco Periera, Anbuchezhiyan Selvaraju, Tejash Prakash, Pantelis Ermilios, John McDonald, Jonathan Horgan, Ciar\'an Eising(参考訳) 本稿では、車両が世界中を移動する際に、車両に搭載されたセンサの姿勢を推定する方法を提案する。 一般的な車両用オドメトリーセンサーのセットに基づいており、出力は自動車の通信バス(例えば)で利用可能である。 canまたはflexray) 車輪センサに基づく平面オドメトリとリニアサスペンションセンサに基づくサスペンションモデルを組み合わせた一連のステップについて述べる。 目標は、カメラのポーズをより正確に推定することである。 可視化とコンピュータビジョンの両方への応用について概説する。

This paper proposes a method to estimate the pose of a sensor mounted on a vehicle as the vehicle moves through the world, an important topic for autonomous driving systems. Based on a set of commonly deployed vehicular odometric sensors, with outputs available on automotive communication buses (e.g. CAN or FlexRay), we describe a set of steps to combine a planar odometry based on wheel sensors with a suspension model based on linear suspension sensors. The aim is to determine a more accurate estimate of the camera pose. We outline its usage for applications in both visualisation and computer vision.
翻訳日:2021-05-07 17:41:01 公開日:2021-05-06
# (参考訳) テキスト表現のアンタングル学習のための相互情報の新しい推定法 [全文訳有]

A Novel Estimator of Mutual Information for Learning to Disentangle Textual Representations ( http://arxiv.org/abs/2105.02685v1 )

ライセンス: CC0 1.0
Pierre Colombo and Chloe Clavel and Pablo Piantanida(参考訳) テキストデータの不整合表現を学習することは、公平な分類、スタイル転送、文生成など、多くの自然言語タスクにとって不可欠である。 テキストデータの文脈における支配的なアプローチは、潜在コードから推論されにくい属性値を推論することを目的とした敵(判別器)のトレーニングに依存するか、潜在コードと値属性の間の相互情報の変動境界の最小化に頼っている。 【ただし、利用可能な方法は、絡み合いの度合い(または力)のきめ細かい制御を与えることができない。 対して {adversarial method} は極めて単純であるが、未望の属性に関するかなりの量の情報が残されているため、訓練期間中に完全に機能しているようである。 本稿では,エンコーダの属性と潜在コード間の相互情報に対する新しい変分上界を提案する。 我々の限界は、Renyiの発散による近似誤差の制御を目標とし、より良い非絡み合い表現と、特にテキストデータに提案される所望の非絡み合いの程度を正確に制御することである。 さらに、マルチクラスシナリオにおける他の損失の縮退に苦しむことはない。 本手法は,公平な分類とテキストスタイル転送タスクにおいて優れていることを示す。 さらに,文の異種表現と質を学習しようとする際に,スタイル転送における様々なトレードオフを示す新たな洞察を与える。

Learning disentangled representations of textual data is essential for many natural language tasks such as fair classification, style transfer and sentence generation, among others. The existent dominant approaches in the context of text data {either rely} on training an adversary (discriminator) that aims at making attribute values difficult to be inferred from the latent code {or rely on minimising variational bounds of the mutual information between latent code and the value attribute}. {However, the available methods suffer of the impossibility to provide a fine-grained control of the degree (or force) of disentanglement.} {In contrast to} {adversarial methods}, which are remarkably simple, although the adversary seems to be performing perfectly well during the training phase, after it is completed a fair amount of information about the undesired attribute still remains. This paper introduces a novel variational upper bound to the mutual information between an attribute and the latent code of an encoder. Our bound aims at controlling the approximation error via the Renyi's divergence, leading to both better disentangled representations and in particular, a precise control of the desirable degree of disentanglement {than state-of-the-art methods proposed for textual data}. Furthermore, it does not suffer from the degeneracy of other losses in multi-class scenarios. We show the superiority of this method on fair classification and on textual style transfer tasks. Additionally, we provide new insights illustrating various trade-offs in style transfer when attempting to learn disentangled representations and quality of the generated sentence.
翻訳日:2021-05-07 17:32:29 公開日:2021-05-06
# (参考訳) 分配外QAのための単語埋め込みの摂動学習 [全文訳有]

Learning to Perturb Word Embeddings for Out-of-distribution QA ( http://arxiv.org/abs/2105.02692v1 )

ライセンス: CC BY 4.0
Seanie Lee, Minki Kang, Juho Lee, Sung Ju Hwang(参考訳) QA models based on pretrained language mod-els have achieved remarkable performance onv arious benchmark datasets.However, QA models do not generalize well to unseen data that falls outside the training distribution, due to distributional shifts.Data augmentation(DA) techniques which drop/replace words have shown to be effective in regularizing the model from overfitting to the training data.Yet, they may adversely affect the QA tasks since they incur semantic changes that may lead to wrong answers for the QA task. この問題に対処するために,確率的雑音発生器をベースとした簡易かつ効果的なDA手法を提案する。 単語埋め込み摂動を1つのソース・データセットに埋め込んだQAモデルの性能を5つの異なるターゲット・ドメインで検証し,本手法がベースラインDA法を著しく上回ることを示す。 特に、トレーニングされたモデルは、240K以上の人工的に生成されたQAペアでトレーニングされたモデルよりも優れています。

QA models based on pretrained language mod-els have achieved remarkable performance onv arious benchmark datasets.However, QA models do not generalize well to unseen data that falls outside the training distribution, due to distributional shifts.Data augmentation(DA) techniques which drop/replace words have shown to be effective in regularizing the model from overfitting to the training data.Yet, they may adversely affect the QA tasks since they incur semantic changes that may lead to wrong answers for the QA task. To tackle this problem, we propose a simple yet effective DA method based on a stochastic noise generator, which learns to perturb the word embedding of the input questions and context without changing their semantics. We validate the performance of the QA models trained with our word embedding perturbation on a single source dataset, on five different target domains.The results show that our method significantly outperforms the baselineDA methods. Notably, the model trained with ours outperforms the model trained with more than 240K artificially generated QA pairs.
翻訳日:2021-05-07 17:06:52 公開日:2021-05-06
# (参考訳) 注意さえ必要か? imagenetではフィードフォワードレイヤーのスタックが驚くほどうまく機能する [全文訳有]

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet ( http://arxiv.org/abs/2105.02723v1 )

ライセンス: CC BY 4.0
Luke Melas-Kyriazi(参考訳) 画像分類やその他の視覚タスクにおける視覚変換器の強い性能は、多面的注意層の設計に起因することが多い。 しかし、この強いパフォーマンスにどの程度の注意が払われるかは不明だ。 この短いレポートでは、注意層は必要か? 具体的には、視覚変換器の注意層をパッチ寸法に印加したフィードフォワード層に置き換える。 結果として生じるアーキテクチャは、単にパッチと機能次元を交互に適用した一連のフィードフォワード層である。 ImageNetの実験では、このアーキテクチャは驚くほどよく機能する: ViT/DeiTベースサイズのモデルでは、それぞれ77.9\%と79.9\%に対して、74.9\%のトップ-1の精度が得られる。 これらの結果は、例えばパッチの埋め込みのような注意以外の視覚トランスフォーマーの側面が、以前考えられていたよりも強いパフォーマンスに責任があることを示唆している。 これらの結果がコミュニティに、現在のモデルがこれほど効果的である理由を理解しようと、より多くの時間を費やすことを願っています。

The strong performance of vision transformers on image classification and other vision tasks is often attributed to the design of their multi-head attention layers. However, the extent to which attention is responsible for this strong performance remains unclear. In this short report, we ask: is the attention layer even necessary? Specifically, we replace the attention layer in a vision transformer with a feed-forward layer applied over the patch dimension. The resulting architecture is simply a series of feed-forward layers applied over the patch and feature dimensions in an alternating fashion. In experiments on ImageNet, this architecture performs surprisingly well: a ViT/DeiT-base-sized model obtains 74.9\% top-1 accuracy, compared to 77.9\% and 79.9\% for ViT and DeiT respectively. These results indicate that aspects of vision transformers other than attention, such as the patch embedding, may be more responsible for their strong performance than previously thought. We hope these results prompt the community to spend more time trying to understand why our current models are as effective as they are.
翻訳日:2021-05-07 16:52:44 公開日:2021-05-06
# (参考訳) CrossWalk: 公正性向上したノード表現学習 [全文訳有]

CrossWalk: Fairness-enhanced Node Representation Learning ( http://arxiv.org/abs/2105.02725v1 )

ライセンス: CC BY 4.0
Ahmad Khajehnejad, Moein Khajehnejad, Mahmoudreza Babaei, Krishna P. Gummadi, Adrian Weller, Baharan Mirzasoleiman(参考訳) 機械学習システムが社会的不平等と不公平を増幅する可能性は、大衆や学術的な注目を集めている。 最近の研究は、そのような不公平を評価、緩和するためのアルゴリズムツールの開発に焦点を当てている。 しかし、グラフアルゴリズムの公平性を高める作業はほとんどない。 本稿では,影響最大化,リンク予測,ノード分類など様々なグラフアルゴリズムの公平性を高める,単純で有効で汎用的な手法であるcrosswalkをノード埋め込みに適用する。 CrossWalkは、DeepWalkやNode2Vecなど、任意のランダムウォークベースのノード表現学習アルゴリズムに適用できる。 鍵となるアイデアは、(1)グループの周囲に近い、または(2)ネットワーク内の異なるグループを接続するエッジを重み付けすることで、ランダムなウォークをグループの境界を横切るようにバイアスすることである。 CrossWalkは、グラフから必要な構造情報を保存しながら、埋め込み空間内の他のグループから、グループの周辺にあるノードを隣人に向けて引き出す。 大規模な実験により,合成および実ネットワークにおける影響の最大化,リンク予測,ノード分類など,様々なグラフアルゴリズムの公平性を高めるアルゴリズムの有効性が示された。

The potential for machine learning systems to amplify social inequities and unfairness is receiving increasing popular and academic attention. Much recent work has focused on developing algorithmic tools to assess and mitigate such unfairness. However, there is little work on enhancing fairness in graph algorithms. Here, we develop a simple, effective and general method, CrossWalk, that enhances fairness of various graph algorithms, including influence maximization, link prediction and node classification, applied to node embeddings. CrossWalk is applicable to any random walk based node representation learning algorithm, such as DeepWalk and Node2Vec. The key idea is to bias random walks to cross group boundaries, by upweighting edges which (1) are closer to the groups' peripheries or (2) connect different groups in the network. CrossWalk pulls nodes that are near groups' peripheries towards their neighbors from other groups in the embedding space, while preserving the necessary structural information from the graph. Extensive experiments show the effectiveness of our algorithm to enhance fairness in various graph algorithms, including influence maximization, link prediction and node classification in synthetic and real networks, with only a very small decrease in performance.
翻訳日:2021-05-07 16:47:21 公開日:2021-05-06
# (参考訳) sparse convolutional context-aware multiple instance learning for whole slide image classification [全文訳有]

Sparse convolutional context-aware multiple instance learning for whole slide image classification ( http://arxiv.org/abs/2105.02726v1 )

ライセンス: CC BY 4.0
Marvin Lerousseau and Maria Vakalopoulou and Nikos Paragios and Eric Deutsch(参考訳) スライドのスライド全体は、診断を導く組織と、多くの疾患に対する治療の選択に関する多くの手がかりを示している。 しかし、ギガピクセルにおけるその巨大なサイズはしばしば、従来のニューラルネットワークアーキテクチャの使用を妨げます。 この問題を解決するために、MIL(Multiple Case Learning)は、スライドイメージ全体ではなくパッチのバッグを分類する。 ほとんどのMIL戦略はパッチは独立しており、同じ分散であると考えている。 提案手法は,sparse-input convolutional-based mil戦略によるパッチの空間情報の統合によるパラダイムシフトを示す。 定式化されたフレームワークは汎用的で柔軟性があり、スケーラブルであり、パッチレベルでの意思決定間のコンテキスト依存を導入した最初のものである。 パンキャンサーのサブタイプ分類において最先端のパフォーマンスを達成した。 この作業のコードは利用可能になる。

Whole slide microscopic slides display many cues about the underlying tissue guiding diagnostic and the choice of therapy for many diseases. However, their enormous size often in gigapixels hampers the use of traditional neural network architectures. To tackle this issue, multiple instance learning (MIL) classifies bags of patches instead of whole slide images. Most MIL strategies consider that patches are independent and identically distributed. Our approach presents a paradigm shift through the integration of spatial information of patches with a sparse-input convolutional-based MIL strategy. The formulated framework is generic, flexible, scalable and is the first to introduce contextual dependencies between decisions taken at the patch level. It achieved state-of-the-art performance in pan-cancer subtype classification. The code of this work will be made available.
翻訳日:2021-05-07 16:31:26 公開日:2021-05-06
# (参考訳) Digital Voodoo Dolls [全文訳有]

Digital Voodoo Dolls ( http://arxiv.org/abs/2105.02738v1 )

ライセンス: CC BY 4.0
Marija Slavkovik, Clemens Stachl, Caroline Pitman, Jonathan Askonas(参考訳) 政府、商業企業、サービスの組織である機関は、個人と直接やりとりすることができない。 代わりに、私たちを表現するモデルが作成されます。 我々は、デジタルブードゥー人形と呼ばれる新しい忠実度の高い人物モデルの存在を議論する。 我々はそれを概念化し、その特徴を既存の人のモデルと比較する。 デジタルブードゥー人形は、彼らが代表する人の影響力や支配をはるかに超える存在によって区別される。 このような説明責任の欠如による倫理的問題について議論し、これらの懸念を緩和する方法について論じる。

An institution, be it a body of government, commercial enterprise, or a service, cannot interact directly with a person. Instead, a model is created to represent us. We argue the existence of a new high-fidelity type of person model which we call a digital voodoo doll. We conceptualize it and compare its features with existing models of persons. Digital voodoo dolls are distinguished by existing completely beyond the influence and control of the person they represent. We discuss the ethical issues that such a lack of accountability creates and argue how these concerns can be mitigated.
翻訳日:2021-05-07 16:22:13 公開日:2021-05-06
# (参考訳) 動的ラムダを用いたPose-Guided Sign Language Video GAN [全文訳有]

Pose-Guided Sign Language Video GAN with Dynamic Lambda ( http://arxiv.org/abs/2105.02742v1 )

ライセンス: CC BY-SA 4.0
Christopher Kissel, Christopher K\"ummel, Dennis Ritter, Kristian Hildebrand(参考訳) GANを用いた手話ビデオ合成のための新しい手法を提案する。 stoll と al の以前の作業を拡張します。 ソフトゲートウォーピングGANのヒューマンセマンティックパーサを使用して、地域レベルの空間レイアウトでガイドされたフォトリアリスティックビデオを生成する。 合成ターゲットポーズは、独立および対照的なシグナーのパフォーマンスを改善する。 そこで我々は,200以上のシグナを持つ高度に異種なMS-ASLデータセットを用いてシステム評価を行い,SSIMは0.893となった。 さらに, 周期的な重み付け手法を導入し, トレーニングを活性化し, 定量的に良好な結果をもたらす。

We propose a novel approach for the synthesis of sign language videos using GANs. We extend the previous work of Stoll et al. by using the human semantic parser of the Soft-Gated Warping-GAN from to produce photorealistic videos guided by region-level spatial layouts. Synthesizing target poses improves performance on independent and contrasting signers. Therefore, we have evaluated our system with the highly heterogeneous MS-ASL dataset with over 200 signers resulting in a SSIM of 0.893. Furthermore, we introduce a periodic weighting approach to the generator that reactivates the training and leads to quantitatively better results.
翻訳日:2021-05-07 16:00:27 公開日:2021-05-06
# (参考訳) バイオメディカルインフォマティクス学生のための情報検索の導入 [全文訳有]

Introducing Information Retrieval for Biomedical Informatics Students ( http://arxiv.org/abs/2105.02746v1 )

ライセンス: CC BY 4.0
Sanya B. Taneja, Richard D. Boyce, William T. Reynolds, Denis Newman-Griffis(参考訳) バイオメディカル・インフォマティクス(BMI)の学生を自然言語処理(NLP)に導入するには,実践的なノウハウと技術深度のバランスをとる必要がある。 我々は,初等BMI学生をNLPによる情報検索に導入し,TF-IDFからBERTまでの文書表現戦略と言語モデルについて紹介した。 これらの活動は、学生に共通のユースケースをターゲットとしたハンズオン体験を提供し、幅広いアプリケーションのためのNLPワークフローの基本コンポーネントを導入する。

Introducing biomedical informatics (BMI) students to natural language processing (NLP) requires balancing technical depth with practical know-how to address application-focused needs. We developed a set of three activities introducing introductory BMI students to information retrieval with NLP, covering document representation strategies and language models from TF-IDF to BERT. These activities provide students with hands-on experience targeted towards common use cases, and introduce fundamental components of NLP workflows for a wide variety of applications.
翻訳日:2021-05-07 15:52:18 公開日:2021-05-06
# (参考訳) 法文における自然言語処理の倫理的限界について [全文訳有]

On the Ethical Limits of Natural Language Processing on Legal Text ( http://arxiv.org/abs/2105.02751v1 )

ライセンス: CC BY 4.0
Dimitrios Tsarapatsanis, Nikolaos Aletras(参考訳) 法的テキストを分析する自然言語処理(NLP)手法は、法学者や実践者が大規模に法律を実証的に分析できる様々なツールを提供する。 しかし、研究者は、法律とシステムの予測能力の両方に関する真の洞察を得るために自然言語処理(NLP)システムを使用する倫理的限界を特定することに苦慮しているようだ。 本稿では,このような問題を体系的に考える方法をいくつか紹介する。 A) 学術的自由の重要性、(b) 国内だけでなく、さらに国際的にも幅広い法的・倫理的規範の存在、および(c) 計算法に関連する研究における道徳主義の脅威。 これら3つのパラメータそれぞれについて、法的なnlpコミュニティのための具体的な推奨事項を提供します。 我々の議論は、NLP研究コミュニティにおける最近の議論のきっかけとなった現実シナリオの研究を中心に構成されている。

Natural language processing (NLP) methods for analyzing legal text offer legal scholars and practitioners a range of tools allowing to empirically analyze law on a large scale. However, researchers seem to struggle when it comes to identifying ethical limits to using natural language processing (NLP) systems for acquiring genuine insights both about the law and the systems' predictive capacity. In this paper we set out a number of ways in which to think systematically about such issues. We place emphasis on three crucial normative parameters which have, to the best of our knowledge, been underestimated by current debates: (a) the importance of academic freedom, (b) the existence of a wide diversity of legal and ethical norms domestically but even more so internationally and (c) the threat of moralism in research related to computational law. For each of these three parameters we provide specific recommendations for the legal NLP community. Our discussion is structured around the study of a real-life scenario that has prompted recent debate in the legal NLP research community.
翻訳日:2021-05-07 15:46:54 公開日:2021-05-06
# (参考訳) 術後乳房照射後の腫瘍床容積自動記述のための塩分誘導深層学習ネットワーク [全文訳有]

Saliency-Guided Deep Learning Network for Automatic Tumor Bed Volume Delineation in Post-operative Breast Irradiation ( http://arxiv.org/abs/2105.02771v1 )

ライセンス: CC BY 4.0
Mahdieh Kazemimoghadam, Weicheng Chi, Asal Rahimi, Nathan Kim, Prasanna Alluri, Chika Nwachukwu, Weiguo Lu and Xuejun Gu(参考訳) 乳房放射線治療の効果的な計画において, 効率的, 信頼性, 再現性のある標的容積デライン化が重要なステップである。 しかし, 腫瘍床体積 (TBV) と正常乳腺組織との対比はCT画像では比較的低いため, 術後乳房ターゲットの脱線は困難である。 本研究では,手動目標記述におけるマーカー誘導手順を模倣する手法を提案する。 術後乳房照射における正確なTBVセグメンテーションのためのSDL-Segアルゴリズムを開発した。 SDL-Segアルゴリズムは、マーカーの位置情報をU-Netモデルに組み込む。 この設計は、高い塩分濃度と低い塩分濃度の領域を強調する位置関連特徴をモデルにエンコードさせる。 塩分濃度マップはCT画像上のマーカーを同定して生成した。 マーカーの位置はガウスフィルタと結合した距離変換を用いて確率写像に変換される。 その後、SDL-Segネットワークに対して、CT画像と対応するサリエンシマップがマルチチャネル入力を形成した。 対象は,ガンマポッドに5-fraction partial breast radiation (pbi)療法を施行した29例のprone ct画像145例であった。 提案手法の性能を基本U-Netと比較した。 DSC, HD95, ASDはそれぞれ76.4 %, 6.76 mm, 1.9 mmであり, 計算時間は1CT体積あたり11秒以下であった。 SDL-Segは,低計算コストを保ちながら,すべての評価指標に対して基本U-Netと比較して優れた性能を示した。 その結果, SDL-Seg は GammaPod ベースの PBI などの PBI のオンライン治療計画手法の効率化と精度向上に有効であることが示された。

Efficient, reliable and reproducible target volume delineation is a key step in the effective planning of breast radiotherapy. However, post-operative breast target delineation is challenging as the contrast between the tumor bed volume (TBV) and normal breast tissue is relatively low in CT images. In this study, we propose to mimic the marker-guidance procedure in manual target delineation. We developed a saliency-based deep learning segmentation (SDL-Seg) algorithm for accurate TBV segmentation in post-operative breast irradiation. The SDL-Seg algorithm incorporates saliency information in the form of markers' location cues into a U-Net model. The design forces the model to encode the location-related features, which underscores regions with high saliency levels and suppresses low saliency regions. The saliency maps were generated by identifying markers on CT images. Markers' locations were then converted to probability maps using a distance-transformat ion coupled with a Gaussian filter. Subsequently, the CT images and the corresponding saliency maps formed a multi-channel input for the SDL-Seg network. Our in-house dataset was comprised of 145 prone CT images from 29 post-operative breast cancer patients, who received 5-fraction partial breast irradiation (PBI) regimen on GammaPod. The performance of the proposed method was compared against basic U-Net. Our model achieved mean (standard deviation) of 76.4 %, 6.76 mm, and 1.9 mm for DSC, HD95, and ASD respectively on the test set with computation time of below 11 seconds per one CT volume. SDL-Seg showed superior performance relative to basic U-Net for all the evaluation metrics while preserving low computation cost. The findings demonstrate that SDL-Seg is a promising approach for improving the efficiency and accuracy of the on-line treatment planning procedure of PBI, such as GammaPod based PBI.
翻訳日:2021-05-07 15:34:31 公開日:2021-05-06
# (参考訳) 共同局所推定と大域的パラメータ推定によるリアルタイムビデオ超解法 [全文訳有]

Real-Time Video Super-Resolution by Joint Local Inference and Global Parameter Estimation ( http://arxiv.org/abs/2105.02794v1 )

ライセンス: CC BY 4.0
Noam Elron, Alex Itskovich, Shahar S. Yuval, Noam Levy(参考訳) state of the art in video super- resolution (sr)はディープラーニングに基づくテクニックだが、実世界のビデオではパフォーマンスが悪い(図1参照)。 その理由は、トレーニング用イメージパイアは、高解像度のイメージをダウンスケールして低解像度のイメージペアを生成することで、一般的に作成されるからです。 したがって、深層モデルはダウンスケールを解き放つように訓練され、現実世界の超解像には一般化されない。 近年のいくつかの出版物では、学習ベースSRの一般化を改善する技術が紹介されているが、全てリアルタイム応用には適していない。 本稿では,2つのデジタルカメラ撮像過程を異なるスケールでシミュレーションし,トレーニングデータの合成を行う新しい手法を提案する。 本手法は,両画像が自然画像の特性を有する画像対を生成する。 このデータを用いたSRモデルのトレーニングは、実世界の画像やビデオよりもはるかに優れた一般化をもたらす。 さらに、ディープビデオSRモデルは、高演算/ピクセル数で特徴付けられ、リアルタイムに使用を禁止している。 低消費電力エッジデバイスにビデオSRをリアルタイムに適用できる効率的なCNNアーキテクチャを提案する。 我々は、SRタスクを2つのサブタスクに分割した: 入力ビデオのグローバルな特性を推定し、実際の処理を行う処理-CNNの重みとバイアスを調整する制御フロー。 プロセスCNNは入力の統計値に合わせて調整されているため、その容量は効果を保ちながら低く保たれた。 また、ビデオ統計はゆっくりと進化するため、制御フローはビデオフレームレートよりもずっと低いレートで動作します。 これにより、全体の計算負荷を最大2桁削減できる。 画素処理からアルゴリズムの適応性を分離するこのフレームワークは、ビデオのデノイング、局所的なトーンマッピング、安定化など、リアルタイムビデオエンハンスメントアプリケーションの大きなファミリに適用することができる。

The state of the art in video super-resolution (SR) are techniques based on deep learning, but they perform poorly on real-world videos (see Figure 1). The reason is that training image-pairs are commonly created by downscaling a high-resolution image to produce a low-resolution counterpart. Deep models are therefore trained to undo downscaling and do not generalize to super-resolving real-world images. Several recent publications present techniques for improving the generalization of learning-based SR, but are all ill-suited for real-time application. We present a novel approach to synthesizing training data by simulating two digital-camera image-capture processes at different scales. Our method produces image-pairs in which both images have properties of natural images. Training an SR model using this data leads to far better generalization to real-world images and videos. In addition, deep video-SR models are characterized by a high operations-per-pixel count, which prohibits their application in real-time. We present an efficient CNN architecture, which enables real-time application of video SR on low-power edge-devices. We split the SR task into two sub-tasks: a control-flow which estimates global properties of the input video and adapts the weights and biases of a processing-CNN that performs the actual processing. Since the process-CNN is tailored to the statistics of the input, its capacity kept low, while retaining effectivity. Also, since video-statistics evolve slowly, the control-flow operates at a much lower rate than the video frame-rate. This reduces the overall computational load by as much as two orders of magnitude. This framework of decoupling the adaptivity of the algorithm from the pixel processing, can be applied in a large family of real-time video enhancement applications, e.g., video denoising, local tone-mapping, stabilization, etc.
翻訳日:2021-05-07 15:21:02 公開日:2021-05-06
# (参考訳) 共同視覚表現学習のための多視点LSTM [全文訳有]

Multi-Perspective LSTM for Joint Visual Representation Learning ( http://arxiv.org/abs/2105.02802v1 )

ライセンス: CC BY 4.0
Alireza Sepas-Moghaddam, Fernando Pereira, Paulo Lobato Correia, Ali Etemad(参考訳) 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。 われわれのアーキテクチャは、新たなゲートと記憶をセルレベルで活用する新しい連成学習戦略を採用している。 提案するセルを用いてネットワークを構築することで、より効果的でリッチな視覚的表現が認識タスクで学習できることを実証する。 提案するアーキテクチャの性能を,唇読取と顔認識という2つの多視点視覚認識課題の文脈で検証する。 3つの関連するデータセットが検討され、融合戦略、既存のマルチインプットLSTMアーキテクチャ、代替認識ソリューションと比較される。 この実験は,認識精度と複雑性の両面で,検討されたベンチマークよりも優れた性能を示す。 コードはhttps://github.com/a rsm/MPLSTMで公開しています。

We present a novel LSTM cell architecture capable of learning both intra- and inter-perspective relationships available in visual sequences captured from multiple perspectives. Our architecture adopts a novel recurrent joint learning strategy that uses additional gates and memories at the cell level. We demonstrate that by using the proposed cell to create a network, more effective and richer visual representations are learned for recognition tasks. We validate the performance of our proposed architecture in the context of two multi-perspective visual recognition tasks namely lip reading and face recognition. Three relevant datasets are considered and the results are compared against fusion strategies, other existing multi-input LSTM architectures, and alternative recognition solutions. The experiments show the superior performance of our solution over the considered benchmarks, both in terms of recognition accuracy and complexity. We make our code publicly available at https://github.com/a rsm/MPLSTM.
翻訳日:2021-05-07 15:15:41 公開日:2021-05-06
# (参考訳) ニューラルネットの層状l1損失景観は、局所ミニマ周辺でより複雑である [全文訳有]

The layer-wise L1 Loss Landscape of Neural Nets is more complex around local minima ( http://arxiv.org/abs/2105.02831v1 )

ライセンス: CC BY 4.0
Peter Hinz(参考訳) 他の層の固定トレーニングデータとネットワークパラメータの場合、第1層のパラメータの関数としてのReLUニューラルネットワークのL1損失は、ピースワイズアフィン関数である。 我々はdeep relu simplexアルゴリズムを用いて隣接する頂点の損失を単調に最小化し、これらの頂点位置の軌跡を分析する。 まず,局所極小付近では,局所極小値の損失レベルから局所極小値の損失レベルを推定できるように,局所極小値の損失レベルが指数関数的に遅くなるように,局所極小値の損失レベルが局所極小値の損失レベルから推定されるように,局所極小値の損失レベルと局所極小値の近接に関する結論を導き出すように,異なる振る舞いをする。 これは、これらの事実を活用して収束率を改善する新しい勾配-descentアルゴリズムの設計に広範囲に及ぼす可能性がある。

For fixed training data and network parameters in the other layers the L1 loss of a ReLU neural network as a function of the first layer's parameters is a piece-wise affine function. We use the Deep ReLU Simplex algorithm to iteratively minimize the loss monotonically on adjacent vertices and analyze the trajectory of these vertex positions. We empirically observe that in a neighbourhood around a local minimum, the iterations behave differently such that conclusions on loss level and proximity of the local minimum can be made before it has been found: Firstly the loss seems to decay exponentially slow at iterated adjacent vertices such that the loss level at the local minimum can be estimated from the loss levels of subsequently iterated vertices, and secondly we observe a strong increase of the vertex density around local minima. This could have far-reaching consequences for the design of new gradient-descent algorithms that might improve convergence rate by exploiting these facts.
翻訳日:2021-05-07 14:58:51 公開日:2021-05-06
# (参考訳) 測度保存拡散の統一と正準記述

A Unifying and Canonical Description of Measure-Preserving Diffusions ( http://arxiv.org/abs/2105.02845v1 )

ライセンス: CC BY 4.0
Alessandro Barp, So Takao, Michael Betancourt, Alexis Arnaudon, Mark Girolami(参考訳) ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。 本稿では、この構成を任意の多様体に改良し一般化する幾何学的理論を考案する。 これにより、完備性の結果は、基礎となる多様体の位相と対象測度 $p$ によって引き起こされる幾何学の直接的な結果であることが証明される; リーマン計量、局所座標、参照測度といった他の構造を導入する必要はない。 代わりに、我々のフレームワークは$P$の内在幾何学、特にその標準微分であるdeRham回転子に依存しており、ポテンシャルを用いて測度保存拡散のFokker-Planck電流をパラメトリズすることができる。 幾何形式論は簡単に制約や対称性を組み込むことができ、例えば、サンプル作成に適したランゲヴィン様の拡散の新しい完全なレシピのような、新しい重要な洞察を与えることができる。 また,拡散の可逆性と散逸性,測度空間上の関連する決定論的流れ,ランジュバン過程の幾何学についても解析した。 本論文は,様々な文献からのアイデアを結びつけ,その適切な数学的文脈における測度保存拡散の理論を枠組み化する。

A complete recipe of measure-preserving diffusions in Euclidean space was recently derived unifying several MCMC algorithms into a single framework. In this paper, we develop a geometric theory that improves and generalises this construction to any manifold. We thereby demonstrate that the completeness result is a direct consequence of the topology of the underlying manifold and the geometry induced by the target measure $P$; there is no need to introduce other structures such as a Riemannian metric, local coordinates, or a reference measure. Instead, our framework relies on the intrinsic geometry of $P$ and in particular its canonical derivative, the deRham rotationnel, which allows us to parametrise the Fokker--Planck currents of measure-preserving diffusions using potentials. The geometric formalism can easily incorporate constraints and symmetries, and deliver new important insights, for example, a new complete recipe of Langevin-like diffusions that are suited to the construction of samplers. We also analyse the reversibility and dissipative properties of the diffusions, the associated deterministic flow on the space of measures, and the geometry of Langevin processes. Our article connects ideas from various literature and frames the theory of measure-preserving diffusions in its appropriate mathematical context.
翻訳日:2021-05-07 14:53:26 公開日:2021-05-06
# (参考訳) アルゴリズム倫理:自律走行車の義務の形式化と検証 [全文訳有]

Algorithmic Ethics: Formalization and Verification of Autonomous Vehicle Obligations ( http://arxiv.org/abs/2105.02851v1 )

ライセンス: CC BY-SA 4.0
Colin Shea-Blymyer and Houssam Abbas(参考訳) 我々は,その社会的・倫理的義務を含む自律的サイバーフィジカルシステムの義務を自動推論するための形式的枠組みを開発した。 義務、許可、禁止はシステムのミッションとは別物であり、高度な適応型AI装備システムを特定するために必要な部分である。 義務を形式化するためには、厳格な義務論理が必要です。 既存のデオン論理の多くは、自動検証を可能にする対応するアルゴリズムやシステムモデルを欠いている。 自動運転車のような自律システムの義務を定式化するための出発点として,特定のデオン主義的論理優劣法(dau)がいかに適しているかを実証する。 我々は、DAUにおける責任感性安全(Responsibility-Sens itive Safety, RSS)のサブセットを形式化し、その有用性を実証する。 我々は、RSSの論理的な結果が望ましくないことを示し、提案をさらに洗練する必要があることを示す。 また、長期自治に必要な義務が、時間とともにどのように変化するかを示す。 次に,重み付き遷移系におけるdau公式のモデルチェックアルゴリズムを実演し,自走車制御装置のモデルチェック義務を文献から示す。

We develop a formal framework for automatic reasoning about the obligations of autonomous cyber-physical systems, including their social and ethical obligations. Obligations, permissions and prohibitions are distinct from a system's mission, and are a necessary part of specifying advanced, adaptive AI-equipped systems. They need a dedicated deontic logic of obligations to formalize them. Most existing deontic logics lack corresponding algorithms and system models that permit automatic verification. We demonstrate how a particular deontic logic, Dominance Act Utilitarianism (DAU), is a suitable starting point for formalizing the obligations of autonomous systems like self-driving cars. We demonstrate its usefulness by formalizing a subset of Responsibility-Sensi tive Safety (RSS) in DAU; RSS is an industrial proposal for how self-driving cars should and should not behave in traffic. We show that certain logical consequences of RSS are undesirable, indicating a need to further refine the proposal. We also demonstrate how obligations can change over time, which is necessary for long-term autonomy. We then demonstrate a model-checking algorithm for DAU formulas on weighted transition systems, and illustrate it by model-checking obligations of a self-driving car controller from the literature.
翻訳日:2021-05-07 14:52:19 公開日:2021-05-06
# (参考訳) モノリンガルモデルに適応する: 言語類似度が高い場合、データはスカース化できる [全文訳有]

Adapting Monolingual Models: Data can be Scarce when Language Similarity is High ( http://arxiv.org/abs/2105.02855v1 )

ライセンス: CC BY 4.0
Wietse de Vries, Martijn Bartelds, Malvina Nissim, Martijn Wieling(参考訳) 多くの(マイナーな)言語では、大規模モデルのトレーニングに必要なリソースは利用できない。 本研究では,ゼロショット変換学習の性能をできるだけ少ないデータで検証し,このプロセスにおける言語類似性の影響について検討する。 我々は,2つの低リソースターゲット言語からのデータを用いて,BERTベースの4つのモデルの語彙層を再学習する一方,トランスフォーマー層は,モデルソース言語のPOSタグタスクに対して独立に微調整される。 新しい語彙層と微調整トランスフォーマー層を組み合わせることで、両方の言語で高いタスク性能を実現する。 高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。 単言語BERTベースのモデルは、多言語BERTよりも語彙層をトレーニングした後、ターゲット言語が多言語モデルに含まれる場合であっても、一般的に下流タスクのパフォーマンスを向上させる。

For many (minority) languages, the resources needed to train large models are not available. We investigate the performance of zero-shot transfer learning with as little data as possible, and the influence of language similarity in this process. We retrain the lexical layers of four BERT-based models using data from two low-resource target language varieties, while the Transformer layers are independently fine-tuned on a POS-tagging task in the model's source language. By combining the new lexical layers and fine-tuned Transformer layers, we achieve high task performance for both target languages. With high language similarity, 10MB of data appears sufficient to achieve substantial monolingual transfer performance. Monolingual BERT-based models generally achieve higher downstream task performance after retraining the lexical layer than multilingual BERT, even when the target language is included in the multilingual model.
翻訳日:2021-05-07 14:19:27 公開日:2021-05-06
# (参考訳) ループ型ベイズ最適化による実験インクジェットハードウェアのオンラインプレコンディショニング [全文訳有]

Online Preconditioning of Experimental Inkjet Hardware by Bayesian Optimization in Loop ( http://arxiv.org/abs/2105.02858v1 )

ライセンス: CC BY 4.0
Alexander E. Siemenn, Matthew Beveridge, Tonio Buonassisi, Iddo Drori(参考訳) ペロブスカイトのような高性能半導体光エレクトロニクスは、材料の性能特性を制御する高次元および広大な組成空間を有する。 これらの合成空間を効果的に探索するために,インクジェット堆積による離散液滴を高速に印刷する高スループット実験法を用いて,各液滴が半導体材料の特異な置換からなる。 しかし、インクジェットプリンタシステムは半導体材料上での高スループット実験に最適化されていない。 そこで本研究では,インクジェットプリンタから堆積した液滴構造を最適化するコンピュータビジョン駆動ベイズ最適化フレームワークを開発し,半導体材料の高スループット実験を行うように調整する。 このフレームワークの目標は、インクジェットプリンタのハードウェア条件を最短時間で調整することであり、最も少ないサンプル数を用いて、材料発見アプリケーションのためにシステムを設定するのに費やす時間とリソースを最小限に抑えることである。 コンピュータビジョンを用いた液滴構造のベイズ最適化により,10分間の最適インクジェットハードウェア条件の収束を実証する。 ベイズ最適化の結果を確率的勾配降下と比較する。

High-performance semiconductor optoelectronics such as perovskites have high-dimensional and vast composition spaces that govern the performance properties of the material. To cost-effectively search these composition spaces, we utilize a high-throughput experimentation method of rapidly printing discrete droplets via inkjet deposition, in which each droplet is comprised of a unique permutation of semiconductor materials. However, inkjet printer systems are not optimized to run high-throughput experimentation on semiconductor materials. Thus, in this work, we develop a computer vision-driven Bayesian optimization framework for optimizing the deposited droplet structures from an inkjet printer such that it is tuned to perform high-throughput experimentation on semiconductor materials. The goal of this framework is to tune to the hardware conditions of the inkjet printer in the shortest amount of time using the fewest number of droplet samples such that we minimize the time and resources spent on setting the system up for material discovery applications. We demonstrate convergence on optimum inkjet hardware conditions in 10 minutes using Bayesian optimization of computer vision-scored droplet structures. We compare our Bayesian optimization results with stochastic gradient descent.
翻訳日:2021-05-07 14:10:43 公開日:2021-05-06
# (参考訳) web設定におけるスパースデータを用いたコンテキストバンディット [全文訳有]

Contextual Bandits with Sparse Data in Web setting ( http://arxiv.org/abs/2105.02873v1 )

ライセンス: CC BY-SA 4.0
Bj\"orn H Eriksson(参考訳) 本稿では,Web環境におけるスパースデータ処理における現在の手法を,コンテキスト的帯域幅で同定するスコーピング手法を提案する。 この領域は高度に流れており、工法の現状が特定されている。 2017-2020年を調査し、19の方法項目と2つのレビュー項目を同定した。 5つのカテゴリの手法が述べられており、特定の関心事の設定を変更できる手法を用いて、文脈的包帯を用いてスパースデータに対処する方法を簡単に選択できる。 さらに,各手法は今後の評価のために複数の手法を選択できる。 問題領域は各記事がカバーしていることにも言及されている。 Web設定におけるコンテキスト帯を用いたスパースデータ問題に対する総合的な理解が提供される。 特定された方法は、ポリシー評価(オフラインおよびオンライン)、ハイブリッドメソッド、モデル表現(クラスタとディープニューラルネットワーク)、次元減少、シミュレーションである。

This paper is a scoping study to identify current methods used in handling sparse data with contextual bandits in web settings. The area is highly current and state of the art methods are identified. The years 2017-2020 are investigated, and 19 method articles are identified, and two review articles. Five categories of methods are described, making it easy to choose how to address sparse data using contextual bandits with a method available for modification in the specific setting of concern. In addition, each method has multiple techniques to choose from for future evaluation. The problem areas are also mentioned that each article covers. An overall updated understanding of sparse data problems using contextual bandits in web settings is given. The identified methods are policy evaluation (off-line and on-line) , hybrid-method, model representation (clusters and deep neural networks), dimensionality reduction, and simulation.
翻訳日:2021-05-07 13:49:50 公開日:2021-05-06
# ニューラルアルゴリズムによる推論

Neural Algorithmic Reasoning ( http://arxiv.org/abs/2105.02761v1 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c, Charles Blundell(参考訳) アルゴリズムは近年のグローバルな技術進歩の基礎であり、特に、ある分野において急速に他の分野に応用される技術的進歩の基盤となっている。 我々は、アルゴリズムは深層学習法と根本的に異なる性質を有しており、深層学習法の方がアルゴリズムを模倣できるため、深層学習で見られる種類の一般化が可能になることを強く示唆している。 さらに、学習アルゴリズムの連続空間における要素を表現することによって、ニューラルネットワークは既知のアルゴリズムを現実世界の問題により密接に適応させることができる。 ここでは,アルゴリズム計算を実行できるニューラルネットワークを構築する技術であるニューラルアルゴリズム推論について述べるとともに,従来はアクセス不可能とされていた入力に対して,古典的アルゴリズムを実行するための変換可能性について考察する。

Algorithms have been fundamental to recent global technological advances and, in particular, they have been the cornerstone of technical advances in one field rapidly being applied to another. We argue that algorithms possess fundamentally different qualities to deep learning methods, and this strongly suggests that, were deep learning methods better able to mimic algorithms, generalisation of the sort seen with algorithms would become possible with deep learning -- something far out of the reach of current machine learning methods. Furthermore, by representing elements in a continuous space of learnt algorithms, neural networks are able to adapt known algorithms more closely to real-world problems, potentially finding more efficient and pragmatic solutions than those proposed by human computer scientists. Here we present neural algorithmic reasoning -- the art of building neural networks that are able to execute algorithmic computation -- and provide our opinion on its transformative potential for running classical algorithms on inputs previously considered inaccessible to them.
翻訳日:2021-05-07 13:40:56 公開日:2021-05-06
# 制約のない特徴を持つ神経崩壊の幾何学的解析

A Geometric Analysis of Neural Collapse with Unconstrained Features ( http://arxiv.org/abs/2105.02375v1 )

ライセンス: Link先を確認
Zhihui Zhu, Tianyu Ding, Jinxin Zhou, Xiao Li, Chong You, Jeremias Sulam, and Qing Qu(参考訳) 我々は、最後の層分類器で発生する興味深い経験的現象である$Neural\;Collapse$の最初のグローバルな最適化ランドスケープ分析と、トレーニングの最終フェーズにおけるニューラルネットワークの特徴を提供する。 papyanらによって最近報告されたように、この現象はクラス平均 (i$) とラストレイヤー分類器 (last-layer classifiers) がすべて、スケーリングまでの単純x等角タイトフレーム (etf) の頂点に崩壊し、ラストレイヤアクティベーションのクラス内変動のクロスサンプル (ii$) がゼロに崩壊することを意味する。 我々は,ニューラルネットワークの分類器から最上層を分離する単純化された$unconstrained\;feature\;model$に基づいて,この問題を研究する。 この文脈では、古典的クロスエントロピー損失は、唯一の大域最小化器がSimplex ETFであり、他のすべての臨界点は、ヘッセンが負の曲率方向を示す厳密なサドルであるという意味で、良質なグローバルランドスケープを持つことを示す。 従来の深層ニューラルネットワークのランドスケープ解析とは対照的に,単純化モデルの解析では,前層でどのような特徴が学習されているかを説明するだけでなく,実際の深層ネットワークアーキテクチャにおける経験的観測結果と一致して,単純化された設定で効率的に最適化できる理由を示す。 これらの発見は幅広い関心の最適化、一般化、堅牢性に大きな影響を与える可能性がある。 例えば、実験では、クラス数と同等の機能次元を設定し、ネットワークトレーニングのためのsimplex etfとしてラストレイヤ分類器を修正し、一般化性能を犠牲にすることなくresnet18のメモリコストを20ドル以上削減できることを示した。

We provide the first global optimization landscape analysis of $Neural\;Collapse$ -- an intriguing empirical phenomenon that arises in the last-layer classifiers and features of neural networks during the terminal phase of training. As recently reported by Papyan et al., this phenomenon implies that ($i$) the class means and the last-layer classifiers all collapse to the vertices of a Simplex Equiangular Tight Frame (ETF) up to scaling, and ($ii$) cross-example within-class variability of last-layer activations collapses to zero. We study the problem based on a simplified $unconstrained\;feature\;model$, which isolates the topmost layers from the classifier of the neural network. In this context, we show that the classical cross-entropy loss with weight decay has a benign global landscape, in the sense that the only global minimizers are the Simplex ETFs while all other critical points are strict saddles whose Hessian exhibit negative curvature directions. In contrast to existing landscape analysis for deep neural networks which is often disconnected from practice, our analysis of the simplified model not only does it explain what kind of features are learned in the last layer, but it also shows why they can be efficiently optimized in the simplified settings, matching the empirical observations in practical deep network architectures. These findings could have profound implications for optimization, generalization, and robustness of broad interests. For example, our experiments demonstrate that one may set the feature dimension equal to the number of classes and fix the last-layer classifier to be a Simplex ETF for network training, which reduces memory cost by over $20\%$ on ResNet18 without sacrificing the generalization performance.
翻訳日:2021-05-07 13:40:40 公開日:2021-05-06
# フェデレーション顔認識

Federated Face Recognition ( http://arxiv.org/abs/2105.02501v1 )

ライセンス: Link先を確認
Fan Bai, Jiaxiang Wu, Pengcheng Shen, Shaoxin Li and Shuigeng Zhou(参考訳) 近年、顔認識はコンピュータビジョンや人工知能のコミュニティで広く研究されている。 顔認識の重要な課題はデータのプライバシーである。 共通のプライバシ保存手法として,相互にデータを共有することなく協調的にモデルを訓練するために,連合学習が提案されている。 しかし、私たちの知る限りでは、顔認識にはうまく適用されていない。 本稿では,顔認識のためのフェデレーション学習を革新するフレームワークFedFaceを提案する。 具体的には、federated momentum(pfm)とfederated validation(fv)という2つの主要な革新的なアルゴリズムに依存している。 PFMは、中央の運動量-SGDを効率的に近似するために、推定される等価な大域運動量を適用する。 fvは、いくつかのプライベートバリデーションデータセット上で集約モデルをテストすることによって、より優れたフェデレーション集約を繰り返し検索し、モデルの一般化能力を向上させることができる。 アブレーション実験および広範囲な実験により,FedFace法の有効性が検証され,中央集権ベースラインに匹敵するか否かが示された。

Face recognition has been extensively studied in computer vision and artificial intelligence communities in recent years. An important issue of face recognition is data privacy, which receives more and more public concerns. As a common privacy-preserving technique, Federated Learning is proposed to train a model cooperatively without sharing data between parties. However, as far as we know, it has not been successfully applied in face recognition. This paper proposes a framework named FedFace to innovate federated learning for face recognition. Specifically, FedFace relies on two major innovative algorithms, Partially Federated Momentum (PFM) and Federated Validation (FV). PFM locally applies an estimated equivalent global momentum to approximating the centralized momentum-SGD efficiently. FV repeatedly searches for better federated aggregating weightings via testing the aggregated models on some private validation datasets, which can improve the model's generalization ability. The ablation study and extensive experiments validate the effectiveness of the FedFace method and show that it is comparable to or even better than the centralized baseline in performance.
翻訳日:2021-05-07 13:39:23 公開日:2021-05-06
# 都市監視インフラにおける積極的な歩行者事故防止システムのための予測衝突リスク領域推定法

A novel method of predictive collision risk area estimation for proactive pedestrian accident prevention system in urban surveillance infrastructure ( http://arxiv.org/abs/2105.02572v1 )

ライセンス: Link先を確認
Byeongjoon Noh and Hwasoo Yeo(参考訳) 道路交通事故、特に横断歩道での歩行者の衝突は、世界中で人命に深刻な脅威をもたらし、早死にの要因となっている。 このような脆弱な道路利用者を衝突から守るためには,事前の紛争認識と道路利用者への警告が必要である。 歩行者の衝突を積極的に防止するためのブレークスルーは、CCTVのような視覚センサーに基づいて歩行者の潜在的なリスクを認識することである。 本研究では,無信号横断歩道における衝突リスク領域推定システムを提案する。 提案システムは,前処理後の映像から車両と歩行者の軌跡を適用し,深層LSTMネットワークを用いてその軌跡を予測した。 予測軌道を用いることで、衝突リスク領域を統計的に推測することができ、さらに危険、警告、相対安全としてレベルが分割される。 提案システムの有効性と適用性を検証するため,韓国大山市における2つの未指定地点における潜在的なリスクの重症度を評価した。

Road traffic accidents, especially vehicle pedestrian collisions in crosswalk, globally pose a severe threat to human lives and have become a leading cause of premature deaths. In order to protect such vulnerable road users from collisions, it is necessary to recognize possible conflict in advance and warn to road users, not post facto. A breakthrough for proactively preventing pedestrian collisions is to recognize pedestrian's potential risks based on vision sensors such as CCTVs. In this study, we propose a predictive collision risk area estimation system at unsignalized crosswalks. The proposed system applied trajectories of vehicles and pedestrians from video footage after preprocessing, and then predicted their trajectories by using deep LSTM networks. With use of predicted trajectories, this system can infer collision risk areas statistically, further severity of levels is divided as danger, warning, and relative safe. In order to validate the feasibility and applicability of the proposed system, we applied it and assess the severity of potential risks in two unsignalized spots in Osan city, Korea.
翻訳日:2021-05-07 13:39:06 公開日:2021-05-06
# Deep Weighted Consensus:3次元形状登録のための高密度対応信頼マップ

Deep Weighted Consensus: Dense correspondence confidence maps for 3D shape registration ( http://arxiv.org/abs/2105.02714v1 )

ライセンス: Link先を確認
Dvir Ginzburg and Dan Raviv(参考訳) 本稿では,学習可能な重み付きコンセンサスに基づく点雲間の剛性アライメントのための新しいパラダイムを提案する。 現在のモデルは、学習可能あるいは公理的であり、制限された方向と限られたノイズレベル、通常はエンドツーエンドの学習者または反復的なスキームでうまく機能する。 しかし、現実世界のタスクでは、大きな回転だけでなく、異常値にも対処しなければなりませんし、既知のすべてのモデルは提供できません。 ここでは別の方向を示す。 我々は、濃密でソフトアライメントマップに由来する信頼度レベルに従って、サンプリングされた一致点から点雲をアライメントできると主張する。 パイプラインは微分可能であり、高いノイズレベルであってもSO(3)の全スペクトルにおいて大きな回転の下で収束する。 このネットワークを,最近発表されたdcp,pointnetlk,rpm-n et,prnet,およびicpやgo-icpのような公理的手法と比較した。 ここでは、パフォーマンスの根本的な向上を報告します。

We present a new paradigm for rigid alignment between point clouds based on learnable weighted consensus which is robust to noise as well as the full spectrum of the rotation group. Current models, learnable or axiomatic, work well for constrained orientations and limited noise levels, usually by an end-to-end learner or an iterative scheme. However, real-world tasks require us to deal with large rotations as well as outliers and all known models fail to deliver. Here we present a different direction. We claim that we can align point clouds out of sampled matched points according to confidence level derived from a dense, soft alignment map. The pipeline is differentiable, and converges under large rotations in the full spectrum of SO(3), even with high noise levels. We compared the network to recently presented methods such as DCP, PointNetLK, RPM-Net, PRnet, and axiomatic methods such as ICP and Go-ICP. We report here a fundamental boost in performance.
翻訳日:2021-05-07 13:38:48 公開日:2021-05-06
# 自然言語処理システムの信頼性テスト

Reliability Testing for Natural Language Processing Systems ( http://arxiv.org/abs/2105.02590v1 )

ライセンス: Link先を確認
Samson Tan, Shafiq Joty, Kathy Baxter, Araz Taeihagh, Gregory A. Bennett, Min-Yen Kan(参考訳) NLPシステムを展開する前には、公平性、堅牢性、透明性に関する疑問が最重要である。 これらの懸念の中心は信頼性の問題である: NLPシステムは様々な人口動態を公平に扱い、多様でノイズの多い環境で正しく機能するか? これに対処するために、我々は信頼性テストの必要性を議論し、説明責任を改善する既存の作業の中でそれをコンテキスト化する。 我々は,この目的のために,信頼性テストを開発するためのフレームワークを通じて,敵の攻撃を再構築する方法を示す。 学際的なコラボレーションを重視した信頼性テストは、厳格で目標とするテストを可能にし、業界標準の施行と実施を支援するだろう、と私たちは主張する。

Questions of fairness, robustness, and transparency are paramount to address before deploying NLP systems. Central to these concerns is the question of reliability: Can NLP systems reliably treat different demographics fairly and function correctly in diverse and noisy environments? To address this, we argue for the need for reliability testing and contextualize it among existing work on improving accountability. We show how adversarial attacks can be reframed for this goal, via a framework for developing reliability tests. We argue that reliability testing -- with an emphasis on interdisciplinary collaboration -- will enable rigorous and targeted testing, and aid in the enactment and enforcement of industry standards.
翻訳日:2021-05-07 13:38:29 公開日:2021-05-06
# 部分解釈型推定器(PIE: Black-Box-Refined Interpretable Machine Learning)

Partially Interpretable Estimators (PIE): Black-Box-Refined Interpretable Machine Learning ( http://arxiv.org/abs/2105.02410v1 )

ライセンス: Link先を確認
Tong Wang, Jingyi Yang, Yunyi Li, Boxiang Wang(参考訳) 解釈可能性を維持しながら予測性能を向上させることを目的として,部分的解釈可能推定器(PIE)を提案し,PIE予測の(おそらく)小さな部分はブラックボックスモデルによる特徴の相互作用によるものである。 このように、解釈可能なモデルは特徴の主要な貢献を捉え、ブラックボックスモデルは特徴相互作用の「ニュアンス」を改良として捉えて解釈可能なピースを補完しようとする。 2種類のモデルを協調訓練するための反復学習アルゴリズムを設計する。 実験の結果,PIEはブラックボックスモデルに対して高い競争力を示し,解釈可能なベースラインよりも優れていた。 加えて、PIEの可解性は人間の評価によって検証される単純な線形モデルに匹敵する。

We propose Partially Interpretable Estimators (PIE) which attribute a prediction to individual features via an interpretable model, while a (possibly) small part of the PIE prediction is attributed to the interaction of features via a black-box model, with the goal to boost the predictive performance while maintaining interpretability. As such, the interpretable model captures the main contributions of features, and the black-box model attempts to complement the interpretable piece by capturing the "nuances" of feature interactions as a refinement. We design an iterative training algorithm to jointly train the two types of models. Experimental results show that PIE is highly competitive to black-box models while outperforming interpretable baselines. In addition, the understandability of PIE is comparable to simple linear models as validated via a human evaluation.
翻訳日:2021-05-07 13:38:20 公開日:2021-05-06
# FDNet: 降水開始のための2つの並列クロスコードパスを用いたディープラーニングアプローチ

FDNet: A Deep Learning Approach with Two Parallel Cross Encoding Pathways for Precipitation Nowcasting ( http://arxiv.org/abs/2105.02585v1 )

ライセンス: Link先を確認
Bi-Ying Yan and Chao Yang and Feng Chen and Kohei Takeda and Changjun Wang(参考訳) 比較的短期間で地域の将来の降雨強度を予測することを目的として、降水量は社会と経済に大きな影響を与える長い間科学的課題であった。 radar echo expolation approach for precipitation nowcasting takes radar echo images as input, aims to generate future radar echo images by learn from the historical images. レーダエコー法 レーダーエコーの複雑な非定常進化を効果的に処理するために, 光学的流れ場運動と形態学的変形への移動の分解を提案する。 このアイデアに続いて,2つの並列交差経路における流れと変形をモデル化するニューラルネットワークであるFDNetを紹介した。 フローエンコーダは連続した画像間の光流場運動を捕捉し、変形エンコーダは、形状の変化とレーダエコーの変換運動とを区別する。 提案するネットワークアーキテクチャを2つの実世界のレーダーエコーデータセット上で評価する。 本モデルは,最近の手法と比較して最先端の予測結果を得る。 我々の知る限り、これは降水流のレーダーエコーの進化をモデル化するフローと変形を分離した最初のネットワークアーキテクチャである。 この研究の一般的な考え方は、より効果的なアプローチを刺激するだけでなく、同様の時空間予測タスクにも適用できると考えている。

With the goal of predicting the future rainfall intensity in a local region over a relatively short period time, precipitation nowcasting has been a long-time scientific challenge with great social and economic impact. The radar echo extrapolation approaches for precipitation nowcasting take radar echo images as input, aiming to generate future radar echo images by learning from the historical images. To effectively handle complex and high non-stationary evolution of radar echoes, we propose to decompose the movement into optical flow field motion and morphologic deformation. Following this idea, we introduce Flow-Deformation Network (FDNet), a neural network that models flow and deformation in two parallel cross pathways. The flow encoder captures the optical flow field motion between consecutive images and the deformation encoder distinguishes the change of shape from the translational motion of radar echoes. We evaluate the proposed network architecture on two real-world radar echo datasets. Our model achieves state-of-the-art prediction results compared with recent approaches. To the best of our knowledge, this is the first network architecture with flow and deformation separation to model the evolution of radar echoes for precipitation nowcasting. We believe that the general idea of this work could not only inspire much more effective approaches but also be applied to other similar spatiotemporal prediction tasks
翻訳日:2021-05-07 13:38:06 公開日:2021-05-06
# 一般化マルチモーダルELBO

Generalized Multimodal ELBO ( http://arxiv.org/abs/2105.02470v1 )

ライセンス: Link先を確認
Thomas M. Sutter and Imant Daunhawer, Julia E. Vogt(参考訳) 複数のデータ型は、現実世界の現象を記述し、そこから学習する際に自然に共起する。 しかし、ELBOを近似する既存の自己教師付き生成モデルはマルチモーダルモデルの全ての要求を満たすことができない。 これらの制約を克服するマルチモーダルデータのための新しい一般化されたelbo定式法を提案する。 新しい目的は2つの手法を特別なケースとして包含し、妥協なしにそれらの利点を組み合わせている。 本研究では,自己教師付き生成学習タスクにおける最先端モデルと比較して,提案手法の利点を実証する。

Multiple data types naturally co-occur when describing real-world phenomena and learning from them is a long-standing goal in machine learning research. However, existing self-supervised generative models approximating an ELBO are not able to fulfill all desired requirements of multimodal models: their posterior approximation functions lead to a trade-off between the semantic coherence and the ability to learn the joint data distribution. We propose a new, generalized ELBO formulation for multimodal data that overcomes these limitations. The new objective encompasses two previous methods as special cases and combines their benefits without compromises. In extensive experiments, we demonstrate the advantage of the proposed method compared to state-of-the-art models in self-supervised, generative learning tasks.
翻訳日:2021-05-07 13:37:19 公開日:2021-05-06
# マルチモーダル・マルチグラフによる近所表現の学習:画像,テキスト,モビリティグラフなど

Learning Neighborhood Representation from Multi-Modal Multi-Graph: Image, Text, Mobility Graph and Beyond ( http://arxiv.org/abs/2105.02489v1 )

ライセンス: Link先を確認
Tianyuan Huang, Zhecheng Wang, Hao Sheng, Andrew Y. Ng, Ram Rajagopal(参考訳) 近年の都市化は、ストリートビューやPOI(point-of-interes t)といったジオタグ付きデータの充実と一致している。 より豊かなデータモダリティによって強化された地域埋め込みにより、研究者や都市管理者は、構築された環境、社会経済、都市のダイナミクスをよりよく理解できるようになった。 マルチモーダル入力を同時に使用する取り組みも行われているが、同じ埋め込み空間に異なる「公理性」の尺度を組み込むことで、既存の方法を改善することができる - 地域を特徴付けるデータ(ストリートビュー、地元のビジネスパターンなど)だけでなく、地域間の関係(トリップ、ロードネットワークなど)を描写するデータを活用する。 そこで本研究では,周辺地域(タイル,国勢調査ブロック,ZIPコード領域など)との関係に基づき,マルチモーダルジオタグ入力をマルチグラフのノードやエッジの特徴として統合する手法を提案する。 次に,マルチグラフからコントラストサンプリングスキームに基づいて近傍表現を学習する。 具体的には、ストリートビュー画像とpoi特徴を用いて、近傍(ノード)を特徴付け、人間移動を用いて近隣(方向エッジ)間の関係を特徴付ける。 提案手法の有効性を示すとともに, 埋め込み空間の質的分析を行い, 単調データのみを地域入力として用いる手法よりも, 学習した埋め込みが優れていることを示した。

Recent urbanization has coincided with the enrichment of geotagged data, such as street view and point-of-interest (POI). Region embedding enhanced by the richer data modalities has enabled researchers and city administrators to understand the built environment, socioeconomics, and the dynamics of cities better. While some efforts have been made to simultaneously use multi-modal inputs, existing methods can be improved by incorporating different measures of 'proximity' in the same embedding space - leveraging not only the data that characterizes the regions (e.g., street view, local businesses pattern) but also those that depict the relationship between regions (e.g., trips, road network). To this end, we propose a novel approach to integrate multi-modal geotagged inputs as either node or edge features of a multi-graph based on their relations with the neighborhood region (e.g., tiles, census block, ZIP code region, etc.). We then learn the neighborhood representation based on a contrastive-sampling scheme from the multi-graph. Specifically, we use street view images and POI features to characterize neighborhoods (nodes) and use human mobility to characterize the relationship between neighborhoods (directed edges). We show the effectiveness of the proposed methods with quantitative downstream tasks as well as qualitative analysis of the embedding space: The embedding we trained outperforms the ones using only unimodal data as regional inputs.
翻訳日:2021-05-07 13:36:27 公開日:2021-05-06
# 言語としてのコンピュータ支援設計

Computer-Aided Design as Language ( http://arxiv.org/abs/2105.02769v1 )

ライセンス: Link先を確認
Yaroslav Ganin, Sergey Bartunov, Yujia Li, Ethan Keller, Stefano Saliceti(参考訳) computer-aided design (cad) のアプリケーションは、コーヒーマグカップからスポーツカーまであらゆるものをモデル化するために使われる。 これらのプログラムは複雑で、マスターするには何年ものトレーニングと経験が必要です。 特に難しいcadモデルの構成要素は、3d構築の核心にある高度に構造化された2dスケッチである。 本研究では,このようなスケッチを自動的に生成できる機械学習モデルを提案する。 これにより、エンジニアが少ない労力でより良いデザインを作るのに役立つインテリジェントなツールの開発方法が整いました。 本手法は,市販データシリアライズプロトコルと並行して汎用言語モデリング手法を組み合わせたものである。 提案手法は,領域の複雑さに対応するのに十分な柔軟性を有し,無条件合成と画像からスケッチへの変換の両方に有効であることを示す。

Computer-Aided Design (CAD) applications are used in manufacturing to model everything from coffee mugs to sports cars. These programs are complex and require years of training and experience to master. A component of all CAD models particularly difficult to make are the highly structured 2D sketches that lie at the heart of every 3D construction. In this work, we propose a machine learning model capable of automatically generating such sketches. Through this, we pave the way for developing intelligent tools that would help engineers create better designs with less effort. Our method is a combination of a general-purpose language modeling technique alongside an off-the-shelf data serialization protocol. We show that our approach has enough flexibility to accommodate the complexity of the domain and performs well for both unconditional synthesis and image-to-sketch translation.
翻訳日:2021-05-07 13:36:02 公開日:2021-05-06
# two4two: 解釈可能な機械学習の評価 - 制御実験のための合成データセット

Two4Two: Evaluating Interpretable Machine Learning - A Synthetic Dataset For Controlled Experiments ( http://arxiv.org/abs/2105.02825v1 )

ライセンス: Link先を確認
Martin Schuessler, Philipp Wei{\ss}, Leon Sixt(参考訳) 画像分類の説明を生成するためのアプローチが増えている。 しかしながら、これらのアプローチのほとんどが、自然画像データセットを用いた制御実験の設計が困難であり、研究者の制御から必須な要素を外すため、人為的な評価の対象となっていない。 このアプローチでは、研究者が所望のデータセットをほんの数パラメータで記述できる。 これらをもとに,2種類の3次元抽象動物の合成画像データを生成する。 結果として得られたデータは、人間のサブジェクト評価だけでなくアルゴリズムにも適合する。 ユーザ調査の結果から,本手法は分類器に十分なバイアスを発生させることができ,視覚的にデータを検査する秒ごとにのみ注意を喚起できる。 提案手法は人体評価の障壁を大幅に減らし,解釈可能な機械学習に関するより厳密な調査を容易にする。 ライブラリとデータセットについては、https://github.com/m schuessler/two4two/

A growing number of approaches exist to generate explanations for image classification. However, few of these approaches are subjected to human-subject evaluations, partly because it is challenging to design controlled experiments with natural image datasets, as they leave essential factors out of the researcher's control. With our approach, researchers can describe their desired dataset with only a few parameters. Based on these, our library generates synthetic image data of two 3D abstract animals. The resulting data is suitable for algorithmic as well as human-subject evaluations. Our user study results demonstrate that our method can create biases predictive enough for a classifier and subtle enough to be noticeable only to every second participant inspecting the data visually. Our approach significantly lowers the barrier for conducting human subject evaluations, thereby facilitating more rigorous investigations into interpretable machine learning. For our library and datasets see, https://github.com/m schuessler/two4two/
翻訳日:2021-05-07 13:35:50 公開日:2021-05-06
# ニューラルネットワークを用いた連続時間における機械因果発見の一貫性

Consistency of mechanistic causal discovery in continuous-time using Neural ODEs ( http://arxiv.org/abs/2105.02522v1 )

ライセンス: Link先を確認
Alexis Bellot, Kim Branson and Mihaela van der Schaar(参考訳) 時系列データから因果機構の発見は、複雑なシステムを扱う分野において重要な問題である。 ほとんどの識別可能性の結果と学習アルゴリズムは、基礎となる力学が時間的に離散的であると仮定する。 対照的に、観測のスケールとサンプリングの正則性とは独立に、時間の無限小区間における因果関係を明確に定義するものは少ない。 本稿では,力学系の研究のために,連続時間における因果発見を考察する。 ニューラルネットワークでパラメータ化されたベクトル場に対して、適応正則化スキームは常微分方程式(ODE)系の因果グラフを一貫して復元する。 この知見を用いて,不規則にサンプリングされた多変量時系列の一般的な設定に適用可能であることを示すペナル化ニューラルネットワークによる因果探索アルゴリズムを提案する。

The discovery of causal mechanisms from time series data is a key problem in fields working with complex systems. Most identifiability results and learning algorithms assume the underlying dynamics to be discrete in time. Comparatively few, in contrast, explicitly define causal associations in infinitesimal intervals of time, independently of the scale of observation and of the regularity of sampling. In this paper, we consider causal discovery in continuous-time for the study of dynamical systems. We prove that for vector fields parameterized in a large class of neural networks, adaptive regularization schemes consistently recover causal graphs in systems of ordinary differential equations (ODEs). Using this insight, we propose a causal discovery algorithm based on penalized Neural ODEs that we show to be applicable to the general setting of irregularly-sampled multivariate time series and to strongly outperform the state of the art.
翻訳日:2021-05-07 13:34:56 公開日:2021-05-06
# マシンコラボレーション

Machine Collaboration ( http://arxiv.org/abs/2105.02569v1 )

ライセンス: Link先を確認
Qingfeng Liu and Yang Feng(参考訳) 本稿では,予測タスクのためのベースマシンの集合に基づく,教師付き学習のための新しいアンサンブルフレームワークであるmacを提案する。 バッグング/スタック(並列で独立したフレームワーク)やブースト(シーケンシャルでトップダウンのフレームワーク)とは異なり、MaCは円形でインタラクティブな学習フレームワークの一種です。 円形かつインタラクティブな機能は、ベースマシンが情報を円形に転送し、それに応じて独自の構造とパラメータを更新するのに役立つ。 MaCに基づく推定器のリスクバウンドに関する理論的結果は、循環的かつインタラクティブな特徴は、MaCが擬似アンサンブルを介してリスクを減らすのに役立つことを示している。 シミュレーションデータと119個の実データ集合のベンチマーク実験を行った。 実験の結果、ほとんどの場合、MaCはCART、ニューラルネットワーク、積み重ね、強化など、最先端のいくつかの手法よりもはるかに優れた性能を示している。

We propose a new ensemble framework for supervised learning, named machine collaboration (MaC), based on a collection of base machines for prediction tasks. Different from bagging/stacking (a parallel & independent framework) and boosting (a sequential & top-down framework), MaC is a type of circular & interactive learning framework. The circular & interactive feature helps the base machines to transfer information circularly and update their own structures and parameters accordingly. The theoretical result on the risk bound of the estimator based on MaC shows that circular & interactive feature can help MaC reduce the risk via a parsimonious ensemble. We conduct extensive experiments on simulated data and 119 benchmark real data sets. The results of the experiments show that in most cases, MaC performs much better than several state-of-the-art methods, including CART, neural network, stacking, and boosting.
翻訳日:2021-05-07 13:34:42 公開日:2021-05-06
# mimii due: 運転状況および環境条件の変化による産業機械の故障調査およびドメインシフトによる検査のための音声データセット

MIMII DUE: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection with Domain Shifts due to Changes in Operational and Environmental Conditions ( http://arxiv.org/abs/2105.02702v1 )

ライセンス: Link先を確認
Ryo Tanabe, Harsh Purohit, Kota Dohi, Takashi Endo, Yuki Nikaido, Toshiki Nakamura, and Yohei Kawaguchi(参考訳) 本稿では,産業機械の運転・環境条件の変化(mimii due)にともなう,業務機械の故障やドメインシフトによる検査のための新しいデータセットを提案する。 実世界の要因によって特徴の分布が訓練段階と運用段階(ドメインシフトと呼ばれる)に変化するため、従来の異常音検出手法では課題に直面している。 ドメインシフトに対する堅牢性をチェックするには、ドメインシフトを持つデータセットが必要ですが、そのようなデータセットは今のところ存在しません。 新しいデータセットは、通常/異常に依存しない2つの異なる運用/環境条件(ソースドメインとターゲットドメイン)下での5種類の産業機械の正常および異常な動作音と、2つのドメイン間でドメインシフトが発生する。 実験の結果、ソースドメインとターゲットドメインで有意な性能差があり、データセットにはドメインシフトが含まれている。 これらの結果は、データセットがドメインシフトに対する堅牢性をチェックするのに役立つことを示している。 このデータセットはDCASE 2021 Challenge Task 2のデータセットのサブセットであり、https://zenodo.org/r ecord/4740355で無料でダウンロードできる。

In this paper, we introduce a new dataset for malfunctioning industrial machine investigation and inspection with domain shifts due to changes in operational and environmental conditions (MIMII DUE). Conventional methods for anomalous sound detection face challenges in practice because the distribution of features changes between the training and operational phases (called domain shift) due to some real-world factors. To check the robustness against domain shifts, we need a dataset with domain shifts, but such a dataset does not exist so far. The new dataset consists of normal and abnormal operating sounds of industrial machines of five different types under two different operational/environm ental conditions (source domain and target domain) independent of normal/abnormal, with domain shifts occurring between the two domains. Experimental results show significant performance differences between the source and target domains, and the dataset contains the domain shifts. These results indicate that the dataset will be helpful to check the robustness against domain shifts. The dataset is a subset of the dataset for DCASE 2021 Challenge Task 2 and freely available for download at https://zenodo.org/r ecord/4740355
翻訳日:2021-05-07 13:34:13 公開日:2021-05-06
# ガウス過程回帰の実用的かつ厳密な不確実性境界

Practical and Rigorous Uncertainty Bounds for Gaussian Process Regression ( http://arxiv.org/abs/2105.02796v1 )

ライセンス: Link先を確認
Christian Fiedler, Carsten W. Scherer, Sebastian Trimpe(参考訳) ガウス過程回帰(Gaussian Process Regression)は、ベイズ原理に基づく一般的な非パラメトリック回帰法であり、予測に対する不確実性推定を提供する。 しかしながら、これらの推定はベイズの性質であり、安全性を保証する学習ベース制御のような重要な応用には、頻繁な不確実性境界が必要である。 このような厳密な境界はガウス過程で利用できるが、それらはアプリケーションで役立つには保守的すぎる。 これはしばしば実践者がこれらの境界をヒューリスティックに置き換え、理論上の保証を全て破ることになる。 この問題に対処するために,厳密だが実用上有用である新たな不確実性境界を導入する。 特に、境界は明示的に評価され、芸術結果の状態よりも保守的ではない。 さらに,特定のモデル誤特定は優雅な劣化のみをもたらすことを示した。 数値例による学習ベース制御におけるこれらの利点と有用性を示す。

Gaussian Process Regression is a popular nonparametric regression method based on Bayesian principles that provides uncertainty estimates for its predictions. However, these estimates are of a Bayesian nature, whereas for some important applications, like learning-based control with safety guarantees, frequentist uncertainty bounds are required. Although such rigorous bounds are available for Gaussian Processes, they are too conservative to be useful in applications. This often leads practitioners to replacing these bounds by heuristics, thus breaking all theoretical guarantees. To address this problem, we introduce new uncertainty bounds that are rigorous, yet practically useful at the same time. In particular, the bounds can be explicitly evaluated and are much less conservative than state of the art results. Furthermore, we show that certain model misspecifications lead to only graceful degradation. We demonstrate these advantages and the usefulness of our results for learning-based control with numerical examples.
翻訳日:2021-05-07 13:33:51 公開日:2021-05-06
# ニューラルブレンド形状を用いた骨格構音の学習

Learning Skeletal Articulations with Neural Blend Shapes ( http://arxiv.org/abs/2105.02451v1 )

ライセンス: Link先を確認
Peizhuo Li, Kfir Aberman, Rana Hanocka, Libin Liu, Olga Sorkine-Hornung, Baoquan Chen(参考訳) モーションキャプチャ(mocap)データを用いた新たに設計されたキャラクタのアニメーション化は,コンピュータアニメーションにおける長期にわたる問題である。 重要な考慮事項は、利用可能なmocapデータに対応する骨格構造と、しばしば調整されたポーズ特有の細分化を必要とするジョイント領域の形状変形である。 本研究では,高品質なポーズ依存変形を発生させる骨格構造を包絡して3次元文字を調音するニューラル手法を開発した。 我々のフレームワークは、同じ調音構造(例えば、二足歩行や四足歩行)でリグとスキンキャラクタを学習し、望ましい骨格構造をネットワークアーキテクチャに組み込む。 さらに, 標準的なリギングやスキンニングから生じる悪名高い人工物に対処するため, 関節領域の変形品質を向上する修正的ポーズ依存形状のセットであるニューラルブレンド形状を提案する。 本システムでは,任意の接続性を有する入力メッシュのニューラルブレンド形状と,入力関節回転を条件とした重み付け係数を推定する。 近年の深層学習技術では,地表面の剛性やスキンのパラメータによってネットワークを監視されているが,本手法では,トレーニングデータに特定の変形モデルが存在するとは考えていない。 トレーニング中、ネットワークは変形した形状を観察し、間接的な監督によって対応するリグ、スキン、ブレンド形状を推測する。 推論中,我々は3dアーティストが構築したアンリグドキャラクタを含む任意のメッシュ接続を持つ未認識キャラクタにネットワークが一般化できることを実証する。 標準的な骨格アニメーションモデルに従うことで、標準的なアニメーションソフトウェアやゲームエンジンで直接プラグアンドプレイが可能になる。

Animating a newly designed character using motion capture (mocap) data is a long standing problem in computer animation. A key consideration is the skeletal structure that should correspond to the available mocap data, and the shape deformation in the joint regions, which often requires a tailored, pose-specific refinement. In this work, we develop a neural technique for articulating 3D characters using enveloping with a pre-defined skeletal structure which produces high quality pose dependent deformations. Our framework learns to rig and skin characters with the same articulation structure (e.g., bipeds or quadrupeds), and builds the desired skeleton hierarchy into the network architecture. Furthermore, we propose neural blend shapes--a set of corrective pose-dependent shapes which improve the deformation quality in the joint regions in order to address the notorious artifacts resulting from standard rigging and skinning. Our system estimates neural blend shapes for input meshes with arbitrary connectivity, as well as weighting coefficients which are conditioned on the input joint rotations. Unlike recent deep learning techniques which supervise the network with ground-truth rigging and skinning parameters, our approach does not assume that the training data has a specific underlying deformation model. Instead, during training, the network observes deformed shapes and learns to infer the corresponding rig, skin and blend shapes using indirect supervision. During inference, we demonstrate that our network generalizes to unseen characters with arbitrary mesh connectivity, including unrigged characters built by 3D artists. Conforming to standard skeletal animation models enables direct plug-and-play in standard animation software, as well as game engines.
翻訳日:2021-05-07 13:33:39 公開日:2021-05-06
# (ASNA) 視覚画像品質評価のためのサロゲートランクロス機能を有する注意に基づくシームズ差分ニューラルネットワーク

(ASNA) An Attention-based Siamese-Difference Neural Network with Surrogate Ranking Loss function for Perceptual Image Quality Assessment ( http://arxiv.org/abs/2105.02531v1 )

ライセンス: Link先を確認
Seyed Mehdi Ayyoubzadeh, Ali Royat(参考訳) 近年,画像復元・強調のための逆訓練フレームワークを活用した深層畳み込みニューラルネットワーク(dcnn)が,処理画像のシャープさを大幅に改善している。 意外なことに、これらのDCNNは視覚的に他の方法よりも鮮明な画像を生成するが、それらの評価に一般的な指標が用いられると、品質スコアが低下する可能性がある。 したがって、画像の知覚品質によく適合した、その性能を反映する定量的なメトリクスを開発する必要がある。 ピーク信号対雑音比(psnr)、構造類似度指標(ssim)、知覚指数(pi)などの有名な定量的指標は、画像の平均評価スコア(mos)、特に逆損失関数で訓練されたニューラルネットワークとよく相関しない。 本稿では,従来のシャムネットワークであるシャム・ディファレンスニューラルネットワークの拡張アーキテクチャを用いた畳み込みニューラルネットワークを提案する。 提案手法の性能向上のために,このアーキテクチャに空間的およびチャネル的注意機構を組み込んだ。 最後に,モデルの学習に補助的損失関数を用いた。 提案する追加コスト関数は、ニューラルネットワークパラメータに関して微分可能でありながら、スピアマンのランク相関係数を高めるためにランキング損失を推定する。 提案手法は, 知覚画像品質評価の課題である「textbf{\textit{NTIRE 2021 Perceptual Image Quality Assessment}} Challenge」において, 優れた性能を示した。 提案手法の実装は一般に公開されている。

Recently, deep convolutional neural networks (DCNN) that leverage the adversarial training framework for image restoration and enhancement have significantly improved the processed images' sharpness. Surprisingly, although these DCNNs produced crispier images than other methods visually, they may get a lower quality score when popular measures are employed for evaluating them. Therefore it is necessary to develop a quantitative metric to reflect their performances, which is well-aligned with the perceived quality of an image. Famous quantitative metrics such as Peak signal-to-noise ratio (PSNR), The structural similarity index measure (SSIM), and Perceptual Index (PI) are not well-correlated with the mean opinion score (MOS) for an image, especially for the neural networks trained with adversarial loss functions. This paper has proposed a convolutional neural network using an extension architecture of the traditional Siamese network so-called Siamese-Difference neural network. We have equipped this architecture with the spatial and channel-wise attention mechanism to increase our method's performance. Finally, we employed an auxiliary loss function to train our model. The suggested additional cost function surrogates ranking loss to increase Spearman's rank correlation coefficient while it is differentiable concerning the neural network parameters. Our method achieved superior performance in \textbf{\textit{NTIRE 2021 Perceptual Image Quality Assessment}} Challenge. The implementations of our proposed method are publicly available.
翻訳日:2021-05-07 13:33:11 公開日:2021-05-06
# 2つのu-netのカスケードによるcovid-19肺炎の肺病変の定量化 : 異なる注釈基準を用いた複数データセットの訓練と評価

Quantification of pulmonary involvement in COVID-19 pneumonia by means of a cascade oftwo U-nets: training and assessment on multipledatasets using different annotation criteria ( http://arxiv.org/abs/2105.02566v1 )

ライセンス: Link先を確認
Francesca Lizzi, Abramo Agosti, Francesca Brero, Raffaella Fiamma Cabini, Maria Evelina Fantacci, Silvia Figini, Alessandro Lascialfari, Francesco Laruina, Piernicola Oliva, Stefano Piffer, Ian Postuma, Lisa Rinaldi, Cinzia Talamonti, Alessandra Retico(参考訳) 新型コロナウイルス感染症患者のCTスキャンに重度スコアを自動割り当てることによって、放射線科の作業負荷が軽減される可能性がある。 本研究の目的は、新型コロナウイルスの肺病変の同定、分節化、定量化に人工知能(AI)を活用することである。 本研究は, 異種個体群とアノテート個体群を異なる基準で比較した。 2つのU-netのカスケードをベースとした自動解析パイプラインLungQuantシステムを開発した。 第1の1つ(U-net_1)は肺発作の同定に特化しており、第2の1つ(U-net_2)は、セグメント化された肺を囲む境界箱に作用し、COVID-19の病変によって影響を受ける領域を特定する。 u-netのトレーニングや、diceインデックスで定量化されたセグメンテーションパフォーマンスの評価に、さまざまな公開データセットが使用された。 LungQuantシステムにおけるCT-Severity Score(CT-SS)の精度も評価した。 diceと精度は、利用可能なデータサンプルのアノテーションの品質に依存することを示した。 独立で一般に入手可能なベンチマークデータセットでは、肺清算システムで予測されたマスクと基準マスクの間のサイス値は、それぞれ0.095$\pm$0.01と0.66$\pm$0.13であった。 このベンチマークデータセットにおけるCT-SSの同定精度は90%であった。 新型コロナウイルス肺炎におけるaiによる肺病変の定量化システムの訓練において,アノテーション基準の異なるデータサンプルを用いた場合の影響について検討した。 Dice indexの観点では、U-netセグメンテーションの品質は病変アノテーションの品質に強く依存する。 それでも、CT-SSは独立した検証セットで正確に予測することができ、LungQuantの十分な一般化能力を示す。

The automatic assignment of a severity score to the CT scans of patients affected by COVID-19 pneumonia could reduce the workload in radiology departments. This study aims at exploiting Artificial intelligence (AI) for the identification, segmentation and quantification of COVID-19 pulmonary lesions. We investigated the effects of using multiple datasets, heterogeneously populated and annotated according to different criteria. We developed an automated analysis pipeline, the LungQuant system, based on a cascade of two U-nets. The first one (U-net_1) is devoted to the identification of the lung parenchyma, the second one (U-net_2) acts on a bounding box enclosing the segmented lungs to identify the areas affected by COVID-19 lesions. Different public datasets were used to train the U-nets and to evaluate their segmentation performances, which have been quantified in terms of the Dice index. The accuracy in predicting the CT-Severity Score (CT-SS) of the LungQuant system has been also evaluated. Both Dice and accuracy showed a dependency on the quality of annotations of the available data samples. On an independent and publicly available benchmark dataset, the Dice values measured between the masks predicted by LungQuant system and the reference ones were 0.95$\pm$0.01 and 0.66$\pm$0.13 for the segmentation of lungs and COVID-19 lesions, respectively. The accuracy of 90% in the identification of the CT-SS on this benchmark dataset was achieved. We analysed the impact of using data samples with different annotation criteria in training an AI-based quantification system for pulmonary involvement in COVID-19 pneumonia. In terms of the Dice index, the U-net segmentation quality strongly depends on the quality of the lesion annotations. Nevertheless, the CT-SS can be accurately predicted on independent validation sets, demonstrating the satisfactory generalization ability of the LungQuant.
翻訳日:2021-05-07 13:32:48 公開日:2021-05-06
# ACORN: ニューラルシーン表現のための適応コーディネートネットワーク

ACORN: Adaptive Coordinate Networks for Neural Scene Representation ( http://arxiv.org/abs/2105.02788v1 )

ライセンス: Link先を確認
Julien N. P. Martel, David B. Lindell, Connor Z. Lin, Eric R. Chan, Marco Monteiro and Gordon Wetzstein(参考訳) ニューラルネットワーク表現は、レンダリング、イメージング、幾何モデリング、シミュレーションといった応用の新しいパラダイムとして登場した。 メッシュやポイントクラウド、ボリュームといった従来の表現と比較して、異なる学習ベースのパイプラインに柔軟に組み込むことができる。 ニューラル表現の最近の改良により、適度な解像度(画像や3D形状など)で詳細な信号の表現が可能になったが、大規模なシーンや複雑なシーンを適切に表現することは困難であることが証明されている。 現在のニューラル表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度の画像を正確に表現することができない。 本稿では,興味のある信号の局所的複雑性に基づいて,トレーニングや推論中にリソースを適応的に割り当てる,新たなハイブリッドネットワークアーキテクチャとトレーニング戦略を提案する。 我々のアプローチでは、トレーニング中に最適化されたクワッドツリーやoctreeに似た、マルチスケールのブロック座標分解を用いる。 ネットワークアーキテクチャは2段階で動作する: ネットワークパラメータの大部分を使用して、座標エンコーダは単一のフォワードパスで特徴グリッドを生成する。 次に、軽量な特徴デコーダを用いて、ブロック内の数百から数千のサンプルを効率的に評価することができる。 このハイブリッドネットワークアーキテクチャにより、ギガピクセル画像を40dbのピーク信号対雑音比に適合させる最初の実験を実証する。 特にこれは、以前実証された画像フィッティング実験の解像度と比べて1000倍以上のスケールの増加を示している。 さらに,従来の手法よりも大幅に高速で優れた3d形状を表現することが可能であり,トレーニング時間を数日から数時間に短縮し,メモリ要件を1桁以上削減する。

Neural representations have emerged as a new paradigm for applications in rendering, imaging, geometric modeling, and simulation. Compared to traditional representations such as meshes, point clouds, or volumes they can be flexibly incorporated into differentiable learning-based pipelines. While recent improvements to neural representations now make it possible to represent signals with fine details at moderate resolutions (e.g., for images and 3D shapes), adequately representing large-scale or complex scenes has proven a challenge. Current neural representations fail to accurately represent images at resolutions greater than a megapixel or 3D scenes with more than a few hundred thousand polygons. Here, we introduce a new hybrid implicit-explicit network architecture and training strategy that adaptively allocates resources during training and inference based on the local complexity of a signal of interest. Our approach uses a multiscale block-coordinate decomposition, similar to a quadtree or octree, that is optimized during training. The network architecture operates in two stages: using the bulk of the network parameters, a coordinate encoder generates a feature grid in a single forward pass. Then, hundreds or thousands of samples within each block can be efficiently evaluated using a lightweight feature decoder. With this hybrid implicit-explicit network architecture, we demonstrate the first experiments that fit gigapixel images to nearly 40 dB peak signal-to-noise ratio. Notably this represents an increase in scale of over 1000x compared to the resolution of previously demonstrated image-fitting experiments. Moreover, our approach is able to represent 3D shapes significantly faster and better than previous techniques; it reduces training times from days to hours or minutes and memory requirements by over an order of magnitude.
翻訳日:2021-05-07 13:32:15 公開日:2021-05-06
# 3次元形状の深部偏光イメージングとSVBRDF取得

Deep Polarization Imaging for 3D shape and SVBRDF Acquisition ( http://arxiv.org/abs/2105.02875v1 )

ライセンス: Link先を確認
Valentin Deschaintre, Yiming Lin and Abhijeet Ghosh(参考訳) 偏光キューを用いた3次元物体の形状と空間的反射率を効率よく取得する新しい手法を提案する。 偏光を利用した特定の制約下での物質や物体の出現を推定する従来の研究(形状や多視点取得)とは異なり、偏光イメージングとディープラーニングを組み合わせることで、前面フラッシュ照明下での単視点偏光イメージングを用いて3次元物体形状(表面正常および深さ)とsvbrdfの高品質な推定を実現する。 取得した偏光画像に加えて,正規化ストークスマップと拡散色の推定という形で,形状と反射率に関する強力な新しい手がかりを深層ネットワークに提供する。 さらに,ネットワークアーキテクチャの変更と,さらに質的な改善を提供するトレーニング損失についても述べる。 我々は,フラッシュ照明とともにディープラーニングを用いた最近の研究と比較して,優れた結果を得るためのアプローチを実証する。

We present a novel method for efficient acquisition of shape and spatially varying reflectance of 3D objects using polarization cues. Unlike previous works that have exploited polarization to estimate material or object appearance under certain constraints (known shape or multiview acquisition), we lift such restrictions by coupling polarization imaging with deep learning to achieve high quality estimate of 3D object shape (surface normals and depth) and SVBRDF using single-view polarization imaging under frontal flash illumination. In addition to acquired polarization images, we provide our deep network with strong novel cues related to shape and reflectance, in the form of a normalized Stokes map and an estimate of diffuse color. We additionally describe modifications to network architecture and training loss which provide further qualitative improvements. We demonstrate our approach to achieve superior results compared to recent works employing deep learning in conjunction with flash illumination.
翻訳日:2021-05-07 13:31:49 公開日:2021-05-06
# ネーターの学習ダイナミクス:深層学習における速度対称性の破れの役割

Noether's Learning Dynamics: The Role of Kinetic Symmetry Breaking in Deep Learning ( http://arxiv.org/abs/2105.02716v1 )

ライセンス: Link先を確認
Hidenori Tanaka, Daniel Kunin(参考訳) 自然界では、対称性は正則性を支配するが、対称性の破れはテクスチャをもたらす。 本稿では,機械学習における重要な課題である学習における効率性と安定性の背後にある対称性の新たな役割を明らかにする。 近年の実験では,損失関数の対称性が学習性能と密接に関連していることが示唆された。 これは根本的な疑問を引き起こす。 このような対称性は、学習の成功に有益か、有害か、無関係か? そこで本研究では, 損失関数に加えて学習規則の対称性も考慮し, 新たな設計原理として対称性の破れを提起する。 連続時間ラグランジアン定式化を用いて離散学習力学をモデル化し、学習規則は運動エネルギーに対応し、損失関数はポテンシャルエネルギーに対応している。 運動エネルギーは、損失関数の非物理的対称性と学習規則で使用される非ユークリッド計量を反映するポテンシャル(損失)関数としばしば同じ対称性を持たない、学習システムに特有の運動的非対称性を同定する。 物理学で知られているネーターの定理を一般化し、この運動的非対称性を明示的に考慮し、ネーター電荷の運動を導出する。 最後に,本理論を正規化層を持つ現代の深層ネットワークに適用し,速度対称性の破れによる暗黙的適応最適化のメカニズムを明らかにする。

In nature, symmetry governs regularities, while symmetry breaking brings texture. Here, we reveal a novel role of symmetry breaking behind efficiency and stability in learning, a critical issue in machine learning. Recent experiments suggest that the symmetry of the loss function is closely related to the learning performance. This raises a fundamental question. Is such symmetry beneficial, harmful, or irrelevant to the success of learning? Here, we demystify this question and pose symmetry breaking as a new design principle by considering the symmetry of the learning rule in addition to the loss function. We model the discrete learning dynamics using a continuous-time Lagrangian formulation, in which the learning rule corresponds to the kinetic energy and the loss function corresponds to the potential energy. We identify kinetic asymmetry unique to learning systems, where the kinetic energy often does not have the same symmetry as the potential (loss) function reflecting the non-physical symmetries of the loss function and the non-Euclidean metric used in learning rules. We generalize Noether's theorem known in physics to explicitly take into account this kinetic asymmetry and derive the resulting motion of the Noether charge. Finally, we apply our theory to modern deep networks with normalization layers and reveal a mechanism of implicit adaptive optimization induced by the kinetic symmetry breaking.
翻訳日:2021-05-07 13:31:31 公開日:2021-05-06
# 側情報を用いたコミュニティ検出のための半確定プログラミング

Semidefinite Programming for Community Detection with Side Information ( http://arxiv.org/abs/2105.02816v1 )

ライセンス: Link先を確認
Mohammad Esmaeili and Hussein Metwaly Saad and Aria Nosratinia(参考訳) 本稿では,非グラフデータを組み込んだコミュニティ検出のための,効率的な半有限計画法(SDP)を提案する。 SDPはグラフ上の標準コミュニティ検出のための効率的なソリューションである。 グラフデータと非グラフデータの両方を観測し,ノードラベルの最大度推定のための半定値緩和を定式化する。 この定式化は標準コミュニティ検出のsdpソリューションとは異なっているが、望ましい性質を維持している。 本稿では,3種類の非グラフ情報の正確な回復しきい値を計算し,これを側情報 (side information) と呼ぶ: 部分的なラベル, ノイズラベル, ノードごとの複数の観測(特徴) を任意だが有限な濃度で行う。 また, SDP は, サイド情報が存在する場合と, サイド情報が存在する場合と同程度の精度で回復できることがわかった。 このようにして開発された手法は計算効率が良く、また、サイド情報の存在下でのコミュニティ検出の解に対して漸近的に正確である。 シミュレーションにより,本論文の漸近的な結果は,小さめのグラフに対するsdpの性能にも光を当てることができた。

This paper produces an efficient Semidefinite Programming (SDP) solution for community detection that incorporates non-graph data, which in this context is known as side information. SDP is an efficient solution for standard community detection on graphs. We formulate a semi-definite relaxation for the maximum likelihood estimation of node labels, subject to observing both graph and non-graph data. This formulation is distinct from the SDP solution of standard community detection, but maintains its desirable properties. We calculate the exact recovery threshold for three types of non-graph information, which in this paper are called side information: partially revealed labels, noisy labels, as well as multiple observations (features) per node with arbitrary but finite cardinality. We find that SDP has the same exact recovery threshold in the presence of side information as maximum likelihood with side information. Thus, the methods developed herein are computationally efficient as well as asymptotically accurate for the solution of community detection in the presence of side information. Simulations show that the asymptotic results of this paper can also shed light on the performance of SDP for graphs of modest size.
翻訳日:2021-05-07 13:31:08 公開日:2021-05-06
# 会話型AIのための統合事前学習フレームワーク

A Unified Pre-training Framework for Conversational AI ( http://arxiv.org/abs/2105.02482v1 )

ライセンス: Link先を確認
Siqi Bao, Bingjin Chen, Huang He, Xin Tian, Han Zhou, Fan Wang, Hua Wu, Haifeng Wang, Wenquan Wu, Yingzhan Lin(参考訳) 本研究では,オープンドメイン会話,知識基盤対話,タスク指向会話など,様々な対話システムにおけるPLATO-2の適用について検討する。 PLATO-2は、2段階のカリキュラム学習を通じて訓練されたオープンドメインチャットボットとして設計されている。 第1段階では、単純化された1対1マッピング関係に適合する粗粒度応答生成モデルが学習される。 このモデルはタスク指向の会話に適用され、セマンティックマッピングはタスク完了において決定論的である傾向がある。 第2段階では、様々な応答生成とコヒーレンス推定のために、別のきめ細かい生成モデルと評価モデルがさらに学習される。 1対1のマッピングをキャプチャする優れた能力を持つこのモデルは、オープンドメインの会話と知識の接地された対話に適している。 plato-2の包括的評価には,オープンドメイン会話(track3-task2)の対話的評価,知識接地対話(track3-task1)の静的評価,エンドツーエンドタスク指向会話(track2-task1)など,dstc9の複数のタスクが参加した。 PLATO-2は3つのタスクで1位を獲得し、様々な対話システムのための統合フレームワークとしての有効性を検証する。

In this work, we explore the application of PLATO-2 on various dialogue systems, including open-domain conversation, knowledge grounded dialogue, and task-oriented conversation. PLATO-2 is initially designed as an open-domain chatbot, trained via two-stage curriculum learning. In the first stage, a coarse-grained response generation model is learned to fit the simplified one-to-one mapping relationship. This model is applied to the task-oriented conversation, given that the semantic mappings tend to be deterministic in task completion. In the second stage, another fine-grained generation model and an evaluation model are further learned for diverse response generation and coherence estimation, respectively. With superior capability on capturing one-to-many mapping, such models are suitable for the open-domain conversation and knowledge grounded dialogue. For the comprehensive evaluation of PLATO-2, we have participated in multiple tasks of DSTC9, including interactive evaluation of open-domain conversation (Track3-task2), static evaluation of knowledge grounded dialogue (Track3-task1), and end-to-end task-oriented conversation (Track2-task1). PLATO-2 has obtained the 1st place in all three tasks, verifying its effectiveness as a unified framework for various dialogue systems.
翻訳日:2021-05-07 13:30:52 公開日:2021-05-06
# 分布距離を用いた対話システムの評価

Assessing Dialogue Systems with Distribution Distances ( http://arxiv.org/abs/2105.02573v1 )

ライセンス: Link先を確認
Jiannan Xiang, Yahui Liu, Deng Cai, Huayang Li, Defu Lian and Lemao Liu(参考訳) 対話システムを開発する上で重要な側面は、異なるシステムの性能を評価し比較する方法である。 既存の自動評価指標はターンレベルの品質評価に基づいており、システムレベルの比較に平均スコアを使用する。 本稿では,対話システムの性能を,生成した会話と実世界の会話との距離を計算して測定することを提案する。 具体的には,FBD と PRD の2つの分布指標を開発し,評価した。 複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。

An important aspect of developing dialogue systems is how to evaluate and compare the performance of different systems. Existing automatic evaluation metrics are based on turn-level quality evaluation and use average scores for system-level comparison. In this paper, we propose to measure the performance of a dialogue system by computing the distribution-wise distance between its generated conversations and real-world conversations. Specifically, two distribution-wise metrics, FBD and PRD, are developed and evaluated. Experiments on several dialogue corpora show that our proposed metrics correlate better with human judgments than existing metrics.
翻訳日:2021-05-07 13:30:31 公開日:2021-05-06
# tabbie: 表データの事前学習表現

TABBIE: Pretrained Representations of Tabular Data ( http://arxiv.org/abs/2105.02584v1 )

ライセンス: Link先を確認
Hiroshi Iida, Dung Thai, Varun Manjunatha, Mohit Iyyer(参考訳) 表表表現学習における既存の研究は、BERTのような事前学習言語モデルから導かれる自己教師型目的関数を用いて表と関連テキストを共同でモデル化する。 この共同事前訓練は、ペア化されたテーブルとテキスト(例えば、テーブルに関する質問に答える)に関わるタスクを改善するが、関連するテキスト(例えば、欠落したセル)なしでテーブル上で操作するタスクでは、パフォーマンスが低いことを示す。 本稿では,表データからのみ学習し,テーブルベースの予測タスクスイートで最先端に到達可能な,単純な事前学習目標(コラプトセル検出)を考案する。 競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブ構造(セル、行、列)の埋め込みを提供します。 学習したセル,列,行の表現の質的分析により,複雑なテーブルの意味と数値的傾向が分かる。

Existing work on tabular representation learning jointly models tables and associated text using self-supervised objective functions derived from pretrained language models such as BERT. While this joint pretraining improves tasks involving paired tables and text (e.g., answering questions about tables), we show that it underperforms on tasks that operate over tables without any associated text (e.g., populating missing cells). We devise a simple pretraining objective (corrupt cell detection) that learns exclusively from tabular data and reaches the state-of-the-art on a suite of table based prediction tasks. Unlike competing approaches, our model (TABBIE) provides embeddings of all table substructures (cells, rows, and columns), and it also requires far less compute to train. A qualitative analysis of our model's learned cell, column, and row representations shows that it understands complex table semantics and numerical trends.
翻訳日:2021-05-07 13:30:22 公開日:2021-05-06
# bird's eye: 単純な情報理論による言語グラフ構造の探索

Bird's Eye: Probing for Linguistic Graph Structures with a Simple Information-Theoreti c Approach ( http://arxiv.org/abs/2105.02629v1 )

ライセンス: Link先を確認
Yifan Hou and Mrinmaya Sachan(参考訳) NLPには、グラフの形での言語に対するこれまでの理解を表す、豊富な歴史がある。 文脈化されたテキスト表現の分析に関する最近の研究は、特定の言語現象をエンコードする程度や程度を理解するために手作りのプローブモデルに焦点を当てている。 しかし、様々な現象の相互依存性と訓練プローブモデルのランダム性により、これらの表現がこれらの言語グラフのリッチな情報をエンコードする方法を検出することは難しい問題である。 本稿では,これらの表現がこれらの言語グラフにどのように情報をエンコードしているかを,比較的単純なプローブ手法である鳥眼を提案する。 本研究は,分類器の性能を利用する代わりに,連続空間に埋め込まれた言語グラフと文脈化された単語表現との間の相互情報の探索と推定を行う。 さらに,摂動解析を用いて言語グラフの局所的言語情報を調べる手法を提案する。 この装置をワームの目と呼んでいます これらのプローブを用いて、bertモデルを用いて構文と意味グラフ構造をエンコードする能力を分析し、これらのモデルが構文と意味情報の両方をある程度エンコードしていることを見出した。

NLP has a rich history of representing our prior understanding of language in the form of graphs. Recent work on analyzing contextualized text representations has focused on hand-designed probe models to understand how and to what extent do these representations encode a particular linguistic phenomenon. However, due to the inter-dependence of various phenomena and randomness of training probe models, detecting how these representations encode the rich information in these linguistic graphs remains a challenging problem. In this paper, we propose a new information-theoreti c probe, Bird's Eye, which is a fairly simple probe method for detecting if and how these representations encode the information in these linguistic graphs. Instead of using classifier performance, our probe takes an information-theoreti c view of probing and estimates the mutual information between the linguistic graph embedded in a continuous space and the contextualized word representations. Furthermore, we also propose an approach to use our probe to investigate localized linguistic information in the linguistic graphs using perturbation analysis. We call this probing setup Worm's Eye. Using these probes, we analyze BERT models on their ability to encode a syntactic and a semantic graph structure, and find that these models encode to some degree both syntactic as well as semantic information; albeit syntactic information to a greater extent.
翻訳日:2021-05-07 13:30:03 公開日:2021-05-06
# 箱に何が入ってるの? コモンクロールコーパスにおける望ましくない内容の分析

What's in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus ( http://arxiv.org/abs/2105.02732v1 )

ライセンス: Link先を確認
Alexandra (Sasha) Luccioni, Joseph D. Viviano(参考訳) 現在のニューラル言語モデルの成功の多くは、ますます大規模なトレーニングコーパスによって推進されているが、これらの膨大なテキストデータを分析するための研究は、比較的少ない。 この探索的分析では、言語モデルのトレーニングに広く使われている巨大なWebコーパスであるCommon Crawlを深く掘り下げる。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。 最後に、このコンテンツが言語モデルに与える影響について議論し、コーパスの収集と分析に対してより念入りなアプローチを求める。

Whereas much of the success of the current generation of neural language models has been driven by increasingly large training corpora, relatively little research has been dedicated to analyzing these massive sources of textual data. In this exploratory analysis, we delve deeper into the Common Crawl, a colossal web corpus that is extensively used for training language models. We find that it contains a significant amount of undesirable content, including hate speech and sexually explicit content, even after filtering procedures. We conclude with a discussion of the potential impacts of this content on language models and call for more mindful approach to corpus collection and analysis.
翻訳日:2021-05-07 13:29:41 公開日:2021-05-06
# 著者たち:深層テキスト分類における暗黙のバイアスの理解と緩和

The Authors Matter: Understanding and Mitigating Implicit Bias in Deep Text Classification ( http://arxiv.org/abs/2105.02778v1 )

ライセンス: Link先を確認
Haochen Liu, Wei Jin, Hamid Karimi, Zitao Liu and Jiliang Tang(参考訳) 人間のデータに基づいて訓練された深層テキスト分類モデルにバイアスがかかることは明らかである。 特に、特定の集団群のアイデンティティー項を明示的に含むテキストに対して偏りのある結果を生み出す。 この種のバイアスを明示的なバイアスと呼び、広く研究されている。 しかし、深層テキスト分類モデルは、特定の人口集団の著者によって書かれたテキストに対して偏りのある結果を生み出すこともある。 このようなバイアスを暗黙のバイアスと呼び、それに対する理解は限られています。 本稿では,まず,異なる分類群に対して,異なるテキスト分類タスクに暗黙的バイアスが存在することを実証する。 そして,暗黙のバイアスの知識を深めるために,学習に基づく解釈手法を構築する。 具体的には,著者の属性に関連づけられた言語特徴に基づいて,分類器が予測を行うように検証する。 次に,深層テキスト分類器を訓練し,適切な特徴量を予測するフレームワークdebiased-tcを提案する。 3つの実世界のデータセットについて広範な実験を行う。 その結果,提案手法で学習したテキスト分類モデルは,公平性の観点からも従来のモデルよりも優れており,分類性能も若干優れていた。

It is evident that deep text classification models trained on human data could be biased. In particular, they produce biased outcomes for texts that explicitly include identity terms of certain demographic groups. We refer to this type of bias as explicit bias, which has been extensively studied. However, deep text classification models can also produce biased outcomes for texts written by authors of certain demographic groups. We refer to such bias as implicit bias of which we still have a rather limited understanding. In this paper, we first demonstrate that implicit bias exists in different text classification tasks for different demographic groups. Then, we build a learning-based interpretation method to deepen our knowledge of implicit bias. Specifically, we verify that classifiers learn to make predictions based on language features that are related to the demographic attributes of the authors. Next, we propose a framework Debiased-TC to train deep text classifiers to make predictions on the right features and consequently mitigate implicit bias. We conduct extensive experiments on three real-world datasets. The results show that the text classification models trained under our proposed framework outperform traditional models significantly in terms of fairness, and also slightly in terms of classification performance.
翻訳日:2021-05-07 13:29:31 公開日:2021-05-06
# フランスの大統領演説のスタイル分析:マクロンは本当に違うのか?

Stylistic Analysis of the French Presidential Speeches: Is Macron really different? ( http://arxiv.org/abs/2105.02844v1 )

ライセンス: Link先を確認
Dominique Labb\'e, Jacques Savoy(参考訳) 大統領演説は、政府の意図と正当化を、説明と論争の間の独自のスタイルと修辞的な振動で支えていることを示している。 60年間にわたって、フランス第五共和国大統領(1958年-2018年)の様式的変化を観察できるだろうか。 本論文は,すべてのアロゲーションに関する公式な記録に基づき,スタイリスティックな進化を解説し,その基盤となる主要な傾向を提示する。 この研究は、ド・ゴールの修辞学が主に彼自身に捧げられているわけではなく、J. Chiracの2つの用語が完全には似ていないことを示している。 いくつかの全体的な様式的指標によれば、マクロンのスタイルは前任者(f. hollande や n. sarkozy)ほど複雑ではないものの、より慎重な分析によって彼の注目すべき新しいスタイルを明確に示している。 最近のアメリカ合衆国大統領と比較すると、フランス人はいくつかの類似点(例えば、平均文の長さ)と相違点(よりI-words、より少ないWe-words)を提示する。 この比較分析では、マクロンのスタイルは、アメリカと元フランス大統領の両方と明らかに異なる。 より抽象的な言説を推奨し、より少ない数を用いて、空間においてアンカーを減らし、E. Macron は長い文を使う傾向がある。 これらの様々な様式的・修辞的特徴は、彼がフランス国民によって誤解され、繰り返し低い評価を受けていることを説明できた。

Presidential speeches indicate the government's intentions and justifications supported by a dedicated style and rhetoric oscillating between explanation and controversy. Over a period of sixty years, can we observe stylistic variations by the different French presidents of the Fifth Republic (1958-2018)? Based on official transcripts of all their allocution, this paper illustrates the stylistic evolution and presents the underlying main trends. This study shows that de Gaulle's rhetoric is not mainly dedicated to his own person, or that the two terms of J. Chirac are not fully similar. According to several overall stylistic indicators, Macron's style does not appear as complex compared to his predecessors (F. Hollande or N. Sarkozy) but a more careful analysis clearly demonstrates his noticeable new style. Compared to the recent US presidents, the French ones present some similarities (e.g., similar mean sentence length) and dissimilarities (more I-words, less we-words). In this comparative analysis, Macron's style is also clearly distinctive from both the US and former French presidents. Opting for a more abstract discourse, less anchored in space, using less numbers, E. Macron tends to use long sentences. These various stylistic and rhetorical features could explain his being misunderstood by the French people and his recurrent low approval ratings.
翻訳日:2021-05-07 13:29:14 公開日:2021-05-06
# 説明可能な自律ロボット : 調査と展望

Explainable Autonomous Robots: A Survey and Perspective ( http://arxiv.org/abs/2105.02658v1 )

ライセンス: Link先を確認
Tatsuya Sakai and Takayuki Nagai(参考訳) 高度な通信プロトコルは、自律ロボットと人間との共存を可能にするために重要である。 したがって、説明能力の発達は、自律ロボットへの緊急な第一歩である。 この調査は、機械学習研究で議論された様々なタイプの「説明可能性」の概要を提供する。 そこで我々は,自律ロボット(説明可能な自律ロボット)の文脈における「説明可能性」の定義について,「説明とは何か?」という問いを解くことによって考察する。 また、この定義に基づく研究調査を行い、今後の研究に関するいくつかの話題を提示する。

Advanced communication protocols are critical to enable the coexistence of autonomous robots with humans. Thus, the development of explanatory capabilities is an urgent first step toward autonomous robots. This survey provides an overview of the various types of "explainability" discussed in machine learning research. Then, we discuss the definition of "explainability" in the context of autonomous robots (i.e., explainable autonomous robots) by exploring the question "what is an explanation?" We further conduct a research survey based on this definition and present some relevant topics for future research.
翻訳日:2021-05-07 13:28:30 公開日:2021-05-06
# 信頼できる自律ロボットのための説明生成の枠組み

A Framework of Explanation Generation toward Reliable Autonomous Robots ( http://arxiv.org/abs/2105.02670v1 )

ライセンス: Link先を確認
Tatsuya Sakai, Kazuki Miyazawa, Takato Horii and Takayuki Nagai(参考訳) 自律的な協調ロボットを実現するためには,ユーザの信頼を高めることが重要である。 本研究の目的は,マルコフ決定過程(MDP)において,現状から目標状態への遷移を説明する能力を有する自律エージェントを付与するアルゴリズムを提案することである。 認知科学では、人間に受け入れられる説明を生成するためには、出来事を十分に理解するために必要な最小限の情報を示すことが重要である。 この要件を満たすために,世界の予測モデルを用いて意思決定プロセスにおいて重要な要素を識別し,これらの要素に基づいて説明を生成する枠組みを提案する。 提案手法が説明文を生成する能力を検証するために,グリッド環境を用いた実験を行った。 シミュレーション実験の結果,提案手法を用いて生成した説明は,現在の状態から対象状態への遷移を理解する上で重要な最小要素で構成されていることがわかった。 さらに, 被験者実験の結果, 生成した説明は状態遷移の過程のよい要約であり, 行動理由の説明のために高い評価が得られた。

To realize autonomous collaborative robots, it is important to increase the trust that users have in them. Toward this goal, this paper proposes an algorithm which endows an autonomous agent with the ability to explain the transition from the current state to the target state in a Markov decision process (MDP). According to cognitive science, to generate an explanation that is acceptable to humans, it is important to present the minimum information necessary to sufficiently understand an event. To meet this requirement, this study proposes a framework for identifying important elements in the decision-making process using a prediction model for the world and generating explanations based on these elements. To verify the ability of the proposed method to generate explanations, we conducted an experiment using a grid environment. It was inferred from the result of a simulation experiment that the explanation generated using the proposed method was composed of the minimum elements important for understanding the transition from the current state to the target state. Furthermore, subject experiments showed that the generated explanation was a good summary of the process of state transition, and that a high evaluation was obtained for the explanation of the reason for an action.
翻訳日:2021-05-07 13:28:24 公開日:2021-05-06
# 多目的最適化問題に対するメタラーニングに基づく深層強化学習

Meta-Learning-based Deep Reinforcement Learning for Multiobjective Optimization Problems ( http://arxiv.org/abs/2105.02741v1 )

ライセンス: Link先を確認
Zizhen Zhang, Zhiyuan Wu, Jiahai Wang(参考訳) deep reinforcement learning (drl) は最近、複雑な組合せ最適化問題に取り組むことに成功している。 これらの問題を多目的に拡張すると、既存のDRLアプローチでは、目的物の重み分解によって決定される複数のサブプロブレムを柔軟かつ効率的に扱うことが困難になる。 本稿では,簡潔なメタラーニングに基づくDRL手法を提案する。 最初にメタモデルをメタラーニングで訓練する。 メタモデルは、対応するサブproblemのサブモデルを引き出すためのいくつかの更新ステップで微調整されている。 パレト・フロントはそれに従って建てられている。 多目的旅行セールスマン問題に対する計算実験は,本手法が学習ベースや反復型アプローチよりも優れていることを示す。

Deep reinforcement learning (DRL) has recently shown its success in tackling complex combinatorial optimization problems. When these problems are extended to multiobjective ones, it becomes difficult for the existing DRL approaches to flexibly and efficiently deal with multiple subproblems determined by weight decomposition of objectives. This paper proposes a concise meta-learning-based DRL approach. It first trains a meta-model by meta-learning. The meta-model is fine-tuned with a few update steps to derive submodels for the corresponding subproblems. The Pareto front is built accordingly. The computational experiments on multiobjective traveling salesman problems demonstrate the superiority of our method over most of learning-based and iteration-based approaches.
翻訳日:2021-05-07 13:28:08 公開日:2021-05-06
# 画像キャプションのための明示的・暗黙的視覚関係の探索

Exploring Explicit and Implicit Visual Relationships for Image Captioning ( http://arxiv.org/abs/2105.02391v1 )

ライセンス: Link先を確認
Zeliang Song, Xiaofei Zhou(参考訳) 画像キャプションは、画像のテキスト文を自動的に生成することを目的とした、AIで最も難しいタスクの1つである。 画像キャプションの最近の手法は、画像中の正常領域の配列を自然言語記述に変換するエンコーダ・デコーダ・フレームワークに従う。 しかし、これらのモデルは通常、オブジェクト間の様々な視覚関係に反映されたコンテキストインタラクションの包括的理解を欠いている。 本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。 具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。 特に,検出対象間のグローバルな相互作用を,余分なリレーショナルアノテーションを使わずにトランスフォーマ(Region BERT)から領域ベースの双方向エンコーダ表現を通じて描画する。 提案手法の有効性と優位性を評価するため,我々はMicrosoft COCOベンチマークで大規模な実験を行い,強力なベースラインと比較して顕著な改善を実現した。

Image captioning is one of the most challenging tasks in AI, which aims to automatically generate textual sentences for an image. Recent methods for image captioning follow encoder-decoder framework that transforms the sequence of salient regions in an image into natural language descriptions. However, these models usually lack the comprehensive understanding of the contextual interactions reflected on various visual relationships between objects. In this paper, we explore explicit and implicit visual relationships to enrich region-level representations for image captioning. Explicitly, we build semantic graph over object pairs and exploit gated graph convolutional networks (Gated GCN) to selectively aggregate local neighbors' information. Implicitly, we draw global interactions among the detected objects through region-based bidirectional encoder representations from transformers (Region BERT) without extra relational annotations. To evaluate the effectiveness and superiority of our proposed method, we conduct extensive experiments on Microsoft COCO benchmark and achieve remarkable improvements compared with strong baselines.
翻訳日:2021-05-07 13:27:39 公開日:2021-05-06
# siamese視覚追跡のための時空間マッチング

Spatio-Temporal Matching for Siamese Visual Tracking ( http://arxiv.org/abs/2105.02408v1 )

ライセンス: Link先を確認
Jinpu Zhang and Yuehuan Wang(参考訳) 類似性マッチングは、シームズトラッカーのコア操作である。 ほとんどのシームズトラッカーは、画像マッチング場に由来する相互相関による類似性学習を行う。 しかし、2次元画像マッチングとは異なり、オブジェクト追跡におけるマッチングネットワークは4次元情報(height, width, channel and time)を必要とする。 相関関係はチャネルや時間次元からの情報を無視し、あいまいなマッチングを生成する。 本稿では,空間(幅,チャネル)と時間における4次元マッチングの能力を徹底的に検討するための時空間マッチング手法を提案する。 空間的マッチングにおいて、各空間的位置のチャネルワイド特徴応答を補正するために、空間変動チャネル誘導相関(SVC-Corr)を導入する。 時間的マッチングにおいて、ターゲットと背景の時間領域コンテキスト関係を調査し、収差抑制モジュール(ARM)を開発する。 フレーム間応答マップの急激な変更を制限することで、ARMはアバレンスを明確に抑制し、より堅牢で正確なオブジェクト追跡を可能にします。 さらに,これらのイノベーションに対応するために,新たなアンカーフリートラッキングフレームワークが提案されている。 OTB100, VOT2018, VOT2020, GOT-10k, LaSOT などの挑戦的なベンチマーク実験では,提案手法の最先端性能が実証された。

Similarity matching is a core operation in Siamese trackers. Most Siamese trackers carry out similarity learning via cross correlation that originates from the image matching field. However, unlike 2-D image matching, the matching network in object tracking requires 4-D information (height, width, channel and time). Cross correlation neglects the information from channel and time dimensions, and thus produces ambiguous matching. This paper proposes a spatio-temporal matching process to thoroughly explore the capability of 4-D matching in space (height, width and channel) and time. In spatial matching, we introduce a space-variant channel-guided correlation (SVC-Corr) to recalibrate channel-wise feature responses for each spatial location, which can guide the generation of the target-aware matching features. In temporal matching, we investigate the time-domain context relations of the target and the background and develop an aberrance repressed module (ARM). By restricting the abrupt alteration in the interframe response maps, our ARM can clearly suppress aberrances and thus enables more robust and accurate object tracking. Furthermore, a novel anchor-free tracking framework is presented to accommodate these innovations. Experiments on challenging benchmarks including OTB100, VOT2018, VOT2020, GOT-10k, and LaSOT demonstrate the state-of-the-art performance of the proposed method.
翻訳日:2021-05-07 13:27:22 公開日:2021-05-06
# 双方向学習トランスフォーマによる手書き数式認識

Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer ( http://arxiv.org/abs/2105.02412v1 )

ライセンス: Link先を確認
Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, Ziyin Zhang(参考訳) エンコーダ・デコーダモデルは最近手書き数式認識に大きな進歩を遂げている。 しかし,既存の手法では画像特徴に正確に注意を向けることが課題である。 さらに、これらのエンコーダデコーダモデルは、通常、デコーダ部でRNNベースのモデルを採用するため、長い$\LaTeX{}$シーケンスを処理するのに非効率である。 本稿では、rnnベースのデコーダをトランスフォーマベースのデコーダで置き換えることにより、モデルアーキテクチャ全体を非常に簡潔にする。 さらに、双方向言語モデリングにおけるトランスフォーマーの可能性を完全に活用するために、新しいトレーニング戦略を導入する。 データ拡張を使用しないいくつかの手法と比較して、我々のモデルはCROHME 2014における現在の最先端手法のExpRateを2.23%改善することを示した。 同様に、CROHME 2016とCROHME 2019では、ExpRateをそれぞれ1.92%と2.28%改善しています。

Encoder-decoder models have made great progress on handwritten mathematical expression recognition recently. However, it is still a challenge for existing methods to assign attention to image features accurately. Moreover, those encoder-decoder models usually adopt RNN-based models in their decoder part, which makes them inefficient in processing long $\LaTeX{}$ sequences. In this paper, a transformer-based decoder is employed to replace RNN-based ones, which makes the whole model architecture very concise. Furthermore, a novel training strategy is introduced to fully exploit the potential of the transformer in bidirectional language modeling. Compared to several methods that do not use data augmentation, experiments demonstrate that our model improves the ExpRate of current state-of-the-art methods on CROHME 2014 by 2.23%. Similarly, on CROHME 2016 and CROHME 2019, we improve the ExpRate by 1.92% and 2.28% respectively.
翻訳日:2021-05-07 13:26:56 公開日:2021-05-06
# 顔再建のための逆生成型逆レンダラ

Inverting Generative Adversarial Renderer for Face Reconstruction ( http://arxiv.org/abs/2105.02431v1 )

ライセンス: Link先を確認
Jingtan Piao, Keqiang Sun, Kwanyee Lin, Hongshneg Li(参考訳) 入力として単眼の顔画像が与えられた3次元顔形状再構成は、対応する3次元顔メッシュを復元することを目的としている。 近年,最適化と学習に基づく顔再構成手法は,新たな微分可能レンダラーを活用し,有望な結果を示した。 しかし、主にグラフィックルールに基づく微分可能なレンダラーは、現実世界の照明、反射、および‘etc’の現実的なメカニズムを単純化し、現実的なイメージを生成できない。 これは最適化やトレーニングプロセスに多くのドメインシフトノイズをもたらします。 そこで本研究では,新しい生成型逆向きレンダラ(gar)を導入し,その逆バージョンを汎用フィッティングパイプラインに調整し,この問題に取り組むことを提案する。 具体的には、慎重に設計されたニューラルレンダラーは、顔の正規マップと他の要素を表す潜時符号を入力として取り、リアルな顔画像を表示する。 GARは複雑な実世界のイメージをモデル化することを学ぶが、グラフィックルールを単純化するのではなく、現実的なイメージを生成できるため、トレーニングや最適化においてドメインシフトノイズを本質的に抑制することができる。 より精巧なGARを用いて3次元顔パラメータを予測し,まずRenderer Invertingを用いて精密な初期パラメータを抽出し,勾配に基づくオプティマイザで改良する手法を提案する。 提案する生成逆数レンダラーと,新しい顔再構成フレームワークの有効性を実証するために,広範囲な実験を行った。 本手法は,複数の顔再構成データセットの最先端性能を実現する。

Given a monocular face image as input, 3D face geometry reconstruction aims to recover a corresponding 3D face mesh. Recently, both optimization-based and learning-based face reconstruction methods have taken advantage of the emerging differentiable renderer and shown promising results. However, the differentiable renderer, mainly based on graphics rules, simplifies the realistic mechanism of the illumination, reflection, \etc, of the real world, thus cannot produce realistic images. This brings a lot of domain-shift noise to the optimization or training process. In this work, we introduce a novel Generative Adversarial Renderer (GAR) and propose to tailor its inverted version to the general fitting pipeline, to tackle the above problem. Specifically, the carefully designed neural renderer takes a face normal map and a latent code representing other factors as inputs and renders a realistic face image. Since the GAR learns to model the complicated real-world image, instead of relying on the simplified graphics rules, it is capable of producing realistic images, which essentially inhibits the domain-shift noise in training and optimization. Equipped with the elaborated GAR, we further proposed a novel approach to predict 3D face parameters, in which we first obtain fine initial parameters via Renderer Inverting and then refine it with gradient-based optimizers. Extensive experiments have been conducted to demonstrate the effectiveness of the proposed generative adversarial renderer and the novel optimization-based face reconstruction framework. Our method achieves state-of-the-art performances on multiple face reconstruction datasets.
翻訳日:2021-05-07 13:26:41 公開日:2021-05-06
# オープンセットドメイン適応による新しいターゲット発見に向けて

Towards Novel Target Discovery Through Open-Set Domain Adaptation ( http://arxiv.org/abs/2105.02432v1 )

ライセンス: Link先を確認
Taotao Jing, Hong Liu, Zhengming Ding(参考訳) オープンセットドメイン適応(OSDA)は、対象ドメインが外部ソースドメインで観測されていない新しいカテゴリのサンプルを含んでいると考えている。 残念ながら、既存のOSDAメソッドは、目に見えないカテゴリの情報に対する要求を常に無視し、詳細を説明せずに単に「未知の」集合として認識する。 これにより、基盤となる構造を探索し、解釈可能なセマンティック属性を回復することで、未知のカテゴリをより具体的に理解する動機付けとなります。 本稿では,対象領域で見られるカテゴリを正確に識別し,未知のカテゴリのセマンティック属性を効果的に回収するフレームワークを提案する。 具体的には, 部分的アライメントを保持する構造を開発し, 出現するカテゴリをドメイン不変特徴学習によって認識する。 視覚的グラフ上の属性伝播は、視覚的な意味マッピングを通じて、目に見えるカテゴリから見えないカテゴリへ属性をスムーズに転送するように設計されている。 さらに,提案手法を評価するために,新たな2つのクロスメインベンチマークを構築した。 オープンセット認識とセマンティックリカバリの実験結果は,提案手法が他の比較ベースラインよりも優れていることを示す。

Open-set domain adaptation (OSDA) considers that the target domain contains samples from novel categories unobserved in external source domain. Unfortunately, existing OSDA methods always ignore the demand for the information of unseen categories and simply recognize them as "unknown" set without further explanation. This motivates us to understand the unknown categories more specifically by exploring the underlying structures and recovering their interpretable semantic attributes. In this paper, we propose a novel framework to accurately identify the seen categories in target domain, and effectively recover the semantic attributes for unseen categories. Specifically, structure preserving partial alignment is developed to recognize the seen categories through domain-invariant feature learning. Attribute propagation over visual graph is designed to smoothly transit attributes from seen to unseen categories via visual-semantic mapping. Moreover, two new cross-main benchmarks are constructed to evaluate the proposed framework in the novel and practical challenge. Experimental results on open-set recognition and semantic recovery demonstrate the superiority of the proposed method over other compared baselines.
翻訳日:2021-05-07 13:26:16 公開日:2021-05-06
# ビデオにおける弱教師付き行動選択学習

Weakly Supervised Action Selection Learning in Video ( http://arxiv.org/abs/2105.02439v1 )

ライセンス: Link先を確認
Junwei Ma, Satya Krishna Gorti, Maksims Volkovs, Guangwei Yu(参考訳) ビデオ内のアクションのローカライズは、コンピュータビジョンのコアタスクである。 弱教師付き時間的局所化問題は、このタスクがビデオレベルのラベルだけで適切に解決できるかどうかを調査し、必要となる高価でエラーの少ないアノテーションの量を著しく削減する。 一般的なアプローチは、高いクラス確率のフレームを選択してビデオレベルの予測を行うフレームレベル分類器の訓練である。 フレームレベルのアクティベーションは、ローカライゼーションに使用される。 しかし、フレームレベルのアノテーションがないため、分類器は各フレームにクラスバイアスを与える。 そこで本研究では,アクション選択学習(ASL)アプローチを提案する。 ASLでは、モデルはクラスに依存しない新しいタスクで訓練され、どのフレームが分類器によって選択されるかを予測する。 ASL は2つのベンチマーク THUMOS-14 と ActivityNet-1.2 において,それぞれ 10.3% と 5.7% の相対的な改善を達成している。 さらに, ASLの特性を解析し, 行動の重要性を実証する。 この作業の完全なコードは、https://github.com/l ayer6ai-labs/aslで入手できる。

Localizing actions in video is a core task in computer vision. The weakly supervised temporal localization problem investigates whether this task can be adequately solved with only video-level labels, significantly reducing the amount of expensive and error-prone annotation that is required. A common approach is to train a frame-level classifier where frames with the highest class probability are selected to make a video-level prediction. Frame level activations are then used for localization. However, the absence of frame-level annotations cause the classifier to impart class bias on every frame. To address this, we propose the Action Selection Learning (ASL) approach to capture the general concept of action, a property we refer to as "actionness". Under ASL, the model is trained with a novel class-agnostic task to predict which frames will be selected by the classifier. Empirically, we show that ASL outperforms leading baselines on two popular benchmarks THUMOS-14 and ActivityNet-1.2, with 10.3% and 5.7% relative improvement respectively. We further analyze the properties of ASL and demonstrate the importance of actionness. Full code for this work is available here: https://github.com/l ayer6ai-labs/ASL.
翻訳日:2021-05-07 13:25:57 公開日:2021-05-06
# 群衆のドローンを検知、追跡、カウントする:ベンチマーク

Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark ( http://arxiv.org/abs/2105.02440v1 )

ライセンス: Link先を確認
Longyin Wen, Dawei Du, Pengfei Zhu, Qinghua Hu, Qilong Wang, Liefeng Bo, Siwei Lyu(参考訳) ドローンで撮影されたビデオにおける物体検出,追跡,計数アルゴリズムの開発を促進するために,ドローンが収集した大規模データセットであるdronecrowdを,さまざまなシナリオで33,600のhdフレームを備えた112のビデオクリップで作成したベンチマークを構築した。 特に、20,800人のトラジェクトリに480万の頭といくつかのビデオレベルの属性を注釈付けしています。 一方,高密度群でオブジェクトの検出・追跡・カウントを行うための強力なベースラインとして,Space-Time Neighbor-Aware Network (STNNet) を設計する。 STNNetは特徴抽出モジュールによって形成され、次に密度マップ推定ヘッド、局所化および関連サブネットが続く。 隣接オブジェクトのコンテキスト情報を活用するために,隣接コンテキスト損失を設計し,関連サブネットトレーニングを誘導し,時間領域における近接オブジェクトの一貫性のある相対位置を強制する。 DroneCrowdデータセットの大規模な実験は、STNNetが最先端技術に対して良好に機能することを示した。

To promote the developments of object detection, tracking and counting algorithms in drone-captured videos, we construct a benchmark with a new drone-captured largescale dataset, named as DroneCrowd, formed by 112 video clips with 33,600 HD frames in various scenarios. Notably, we annotate 20,800 people trajectories with 4.8 million heads and several video-level attributes. Meanwhile, we design the Space-Time Neighbor-Aware Network (STNNet) as a strong baseline to solve object detection, tracking and counting jointly in dense crowds. STNNet is formed by the feature extraction module, followed by the density map estimation heads, and localization and association subnets. To exploit the context information of neighboring objects, we design the neighboring context loss to guide the association subnet training, which enforces consistent relative position of nearby objects in temporal domain. Extensive experiments on our DroneCrowd dataset demonstrate that STNNet performs favorably against the state-of-the-arts.
翻訳日:2021-05-07 13:25:36 公開日:2021-05-06
# mixed domain face anti-spoofingにおける一般化表現学習

Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing ( http://arxiv.org/abs/2105.02453v1 )

ライセンス: Link先を確認
Zhihong Chen, Taiping Yao, Kekai Sheng, Shouhong Ding, Ying Tai, Jilin Li, Feiyue Huang, Xinyu Jin(参考訳) ドメイン一般化(DG)に基づく対面的アンチ・スプーフィング(英語版)アプローチは、その頑健さが予測できないシナリオのために注目を集めている。 既存のDG手法では、do-mainラベルが知られていると仮定するが、現実のアプリケーションでは、そのデータセットは常に、ドメインラベルが未知の混合ドメインを含んでいる。 この場合、既存のmeth-odのほとんどは機能しないかもしれない。 さらに、既存のメソッドとしてdomainlabelを入手できたとしても、これは単にサブオプティマイズであると考えています。 この制限を克服するために,do-mainラベルを用いずにドメインdy-namic調整メタラーニング(d2am)を提案する。 具体的には、インスタンス正規化(IN)に基づいてドメイン機能を設計し、クラスタリングのための識別ドメイン特徴を抽出するドメイン表現学習モジュール(DRLM)を提案する。 さらに,クラスタ化性能に対する異常値の副作用を低減するため,サンプル特性の分布を事前分布に合わせるために最大平均dis-crepancy (mmd) を併用し,clus teringの信頼性を向上させる。 広範な実験により,提案手法は従来のdgベースのアンチスプーフィングmeth-odsを用いて,ドメインラベルを利用した手法を含むことを示す。 さらに、視認率による解釈可能性の緩和

Face anti-spoofing approach based on domain generalization(DG) has drawn growing attention due to its robustness forunseen scenarios. Existing DG methods assume that the do-main label is known.However, in real-world applications, thecollected dataset always contains mixture domains, where thedomain label is unknown. In this case, most of existing meth-ods may not work. Further, even if we can obtain the domainlabel as existing methods, we think this is just a sub-optimalpartition . To overcome the limitation, we propose domain dy-namic adjustment meta-learning (D2AM) without using do-main labels, which iteratively divides mixture domains viadiscriminative domain representation and trains a generaliz-able face anti-spoofing with meta-learning. Specifically, wedesign a domain feature based on Instance Normalization(IN) and propose a domain representation learning module(DRLM) to extract discriminative domain features for cluster-ing. Moreover, to reduce the side effect of outliers on cluster-ing performance, we additionally utilize maximum mean dis-crepancy (MMD) to align the distribution of sample featuresto a prior distribution, which improves the reliability of clus tering. Extensive experiments show that the proposed methodoutperforms conventional DG-based face anti-spoofing meth-ods, including those utilizing domain labels. Furthermore, weenhance the interpretability through visualizatio
翻訳日:2021-05-07 13:25:18 公開日:2021-05-06
# PoseAug: 人間の3次元視点推定のための微分可能なPose Augmentationフレームワーク

PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation ( http://arxiv.org/abs/2105.02465v1 )

ライセンス: Link先を確認
Kehong Gong, Jianfeng Zhang, Jiashi Feng(参考訳) 既存の3Dポーズ推定器は、トレーニングデータに2D-3Dポーズペアが限られているため、新しいデータセットに対する一般化性能が低い。 この問題に対処するため,我々は,利用可能なトレーニングステップをより多様なものに拡張し,トレーニング済みの2d-to-3dポーズ推定器の一般化を改善することを学ぶための,新たな自動学習フレームワークであるponsaugを提案する。 特に、PoseAugは、ポーズの様々な幾何学的要素(例えば、姿勢、体の大きさ、視点、位置)を異なる操作で調整することを学ぶ、新しいポーズ拡張器を導入している。 このような異なる容量で、3Dポーズ推定器と共同で最適化し、推定誤差をフィードバックとして、より多様で難しいポーズをオンライン的に生成することができる。 さらに、ポセイグは、局所的な関節角視認性を評価するために、新たな部分認識キネマティックチェーン空間を導入し、拡張ポーズの可視性を確保するために識別モジュールを開発する。 これらの精巧な設計により、PoseAug は既存のオフライン拡張法よりも多様だがもっともらしいポーズを生成し、ポーズ推定器をより一般化することができる。 PoseAugは汎用的で、様々な3Dポーズ推定器に適用しやすい。 広範な実験により、posaugがscenarioデータセットとcross-scenarioデータセットの両方に明確な改善をもたらすことが示されている。 特に、mpi-inf-3dhpで88.6%の3d pckをクロスデータセット評価で達成し、以前の最良のデータ拡張ベース手法を9.1%改善した。 コードは、https://github.com/j fzhang95/PoseAug.org で参照できる。

Existing 3D human pose estimators suffer poor generalization performance to new datasets, largely due to the limited diversity of 2D-3D pose pairs in the training data. To address this problem, we present PoseAug, a new auto-augmentation framework that learns to augment the available training poses towards a greater diversity and thus improve generalization of the trained 2D-to-3D pose estimator. Specifically, PoseAug introduces a novel pose augmentor that learns to adjust various geometry factors (e.g., posture, body size, view point and position) of a pose through differentiable operations. With such differentiable capacity, the augmentor can be jointly optimized with the 3D pose estimator and take the estimation error as feedback to generate more diverse and harder poses in an online manner. Moreover, PoseAug introduces a novel part-aware Kinematic Chain Space for evaluating local joint-angle plausibility and develops a discriminative module accordingly to ensure the plausibility of the augmented poses. These elaborate designs enable PoseAug to generate more diverse yet plausible poses than existing offline augmentation methods, and thus yield better generalization of the pose estimator. PoseAug is generic and easy to be applied to various 3D pose estimators. Extensive experiments demonstrate that PoseAug brings clear improvements on both intra-scenario and cross-scenario datasets. Notably, it achieves 88.6% 3D PCK on MPI-INF-3DHP under cross-dataset evaluation setup, improving upon the previous best data augmentation based method by 9.1%. Code can be found at: https://github.com/j fzhang95/PoseAug.
翻訳日:2021-05-07 13:24:51 公開日:2021-05-06
# ポイントとしてのボディーメッシュ

Body Meshes as Points ( http://arxiv.org/abs/2105.02467v1 )

ライセンス: Link先を確認
Jianfeng Zhang, Dongdong Yu, Jun Hao Liew, Xuecheng Nie, Jiashi Feng(参考訳) 本稿では,多人数3次元ボディーメッシュ推定課題について考察する。 既存の手法は、パーソナライズのための2段階ベースのステージと、個々のボディメッシュ推定のためのステージに分かれており、計算コストが高く、複雑なシーン(例えば、オクルードされたパーソナライズインスタンス)のパフォーマンスが低下した冗長なパイプラインに繋がる。 本研究では,パイプラインを簡素化し,効率と性能の両立を図るために,単段モデルであるボディーメッシュ・アズ・ポイント(bmp)を提案する。 特に,BMPでは,各点が1つの体メッシュに関連付けられている空間深度空間の点として,複数の個人インスタンスを表す新しい手法を採用している。 このような表現をベースとして、BMPは、人物のインスタンスポイントを同時にローカライズし、対応するボディーメッシュを推定することにより、複数の人のボディメッシュを単一のステージで直接予測することができる。 BMPは、同一シーン内のすべての人物の深度順序についてより正確に推論するために、単純だが効果的なインスタンス間順序深度損失を設計し、深度コヒーレントなボディーメッシュ推定を得る。 BMPはまた、隠された人物のインスタンスに対するモデルロバスト性を高めるために、新しいキーポイント対応拡張を導入した。 Panoptic, MuPoTS-3D, 3DPW のベンチマークに関する総合的な実験により,BMP の多人体メッシュ推定における最先端の効率と精度が明らかに示された。 コードは、https://github.com/j fzhang95/BMPで参照できる。

We consider the challenging multi-person 3D body mesh estimation task in this work. Existing methods are mostly two-stage based--one stage for person localization and the other stage for individual body mesh estimation, leading to redundant pipelines with high computation cost and degraded performance for complex scenes (e.g., occluded person instances). In this work, we present a single-stage model, Body Meshes as Points (BMP), to simplify the pipeline and lift both efficiency and performance. In particular, BMP adopts a new method that represents multiple person instances as points in the spatial-depth space where each point is associated with one body mesh. Hinging on such representations, BMP can directly predict body meshes for multiple persons in a single stage by concurrently localizing person instance points and estimating the corresponding body meshes. To better reason about depth ordering of all the persons within the same scene, BMP designs a simple yet effective inter-instance ordinal depth loss to obtain depth-coherent body mesh estimation. BMP also introduces a novel keypoint-aware augmentation to enhance model robustness to occluded person instances. Comprehensive experiments on benchmarks Panoptic, MuPoTS-3D and 3DPW clearly demonstrate the state-of-the-art efficiency of BMP for multi-person body mesh estimation, together with outstanding accuracy. Code can be found at: https://github.com/j fzhang95/BMP.
翻訳日:2021-05-07 13:24:23 公開日:2021-05-06
# MAFER: 顔表情認識のためのマルチレゾリューションアプローチ

MAFER: a Multi-resolution Approach to Facial Expression Recognition ( http://arxiv.org/abs/2105.02481v1 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Donato Cafarelli, Claudio Gennaro, Giuseppe Amato, Fabrizio Falchi(参考訳) 感情はすべての人の社会生活において中心的な役割を担い、その研究は多分野の主題であり、様々な研究分野を受け入れている。 特に後者については、人-コンピュータインタラクションアプリケーションとの関連性から、表情の分析は非常に活発な研究領域である。 このような状況下では、表情認識(FER)は人間の顔の表情を認識するタスクである。 通常、顔画像は出力解像度などの特性が本質的に異なるカメラによって取得される。 顔認識に適用されたディープラーニングモデルは、マルチレゾリューションシナリオに対してテストされた場合のパフォーマンスが低下することはすでに文献に示されている。 FERタスクは、異質なソースで取得可能な顔画像を分析し、異なる品質の画像を含むため、そのようなケースにおいても解像度が重要な役割を果たすと期待することは可能である。 このような仮説を起点として,表情認識に携わるモデルに対するマルチレゾリューショントレーニングの利点を実証する。 そこで本稿では,DCNNに対して,幅広い解像度で堅牢な予測を生成するための2段階学習手法であるMAFERを提案する。 MAFERの関連する特徴は、タスクに依存しない、すなわち他の客観的な手法と相補的に使用できることである。 提案手法の有効性を評価するため,公開データセットである \fer{}, \raf{}, \oulu{} について広範な実験を行った。 マルチレゾリューション・コンテキストにおいて、我々のアプローチでは、学習モデルは現在のSotAで改善され、修正解決コンテキストでは同等の結果が報告される。 最後に,我々のモデルの性能を分析し,それらから生成された深い特徴の識別能力の高まりを観察する。

Emotions play a central role in the social life of every human being, and their study, which represents a multidisciplinary subject, embraces a great variety of research fields. Especially concerning the latter, the analysis of facial expressions represents a very active research area due to its relevance to human-computer interaction applications. In such a context, Facial Expression Recognition (FER) is the task of recognizing expressions on human faces. Typically, face images are acquired by cameras that have, by nature, different characteristics, such as the output resolution. It has been already shown in the literature that Deep Learning models applied to face recognition experience a degradation in their performance when tested against multi-resolution scenarios. Since the FER task involves analyzing face images that can be acquired with heterogeneous sources, thus involving images with different quality, it is plausible to expect that resolution plays an important role in such a case too. Stemming from such a hypothesis, we prove the benefits of multi-resolution training for models tasked with recognizing facial expressions. Hence, we propose a two-step learning procedure, named MAFER, to train DCNNs to empower them to generate robust predictions across a wide range of resolutions. A relevant feature of MAFER is that it is task-agnostic, i.e., it can be used complementarily to other objective-related techniques. To assess the effectiveness of the proposed approach, we performed an extensive experimental campaign on publicly available datasets: \fer{}, \raf{}, and \oulu{}. For a multi-resolution context, we observe that with our approach, learning models improve upon the current SotA while reporting comparable results in fix-resolution contexts. Finally, we analyze the performance of our models and observe the higher discrimination power of deep features generated from them.
翻訳日:2021-05-07 13:23:56 公開日:2021-05-06
# 映像のパッチ追跡による教師なし視覚表現学習

Unsupervised Visual Representation Learning by Tracking Patches in Video ( http://arxiv.org/abs/2105.02545v1 )

ライセンス: Link先を確認
Guangting Wang, Yizhou Zhou, Chong Luo, Wenxuan Xie, Wenjun Zeng, and Zhiwei Xiong(参考訳) 人間の目が幼少期から中年期にかけて追跡能力の発達を続けていることに触発されて,コンピュータビジョンシステムにおいて,トラッキングを代用タスクとして利用して視覚表現を学習することを提案する。 子どもたちがプレイするキャッチゲームに基づいて、3d-cnnモデルのためのキャッチ・ザ・パッチ(ctp)ゲームをデザインし、ビデオ関連のタスクに役立つ視覚表現を学ぶ。 提案する事前学習フレームワークでは、所定のビデオから画像パッチをカットし、予め設定された軌道に従って拡大移動させる。 プロキシタスクは、第1フレームの目標バウンディングボックスのみを与えられたビデオフレームのシーケンスにおける画像パッチの位置とサイズを推定することである。 複数のイメージパッチを同時に使用すると、明らかなメリットが得られます。 我々は、ランダムにパッチを見えないものにすることで、ゲームの難しさをさらに高める。 メインストリームベンチマークに関する広範囲な実験は、ctpが他のビデオプリトレーニング法に対して優れた性能を示す。 さらに、CtPで事前訓練された機能は、教師付きアクション認識タスクによって訓練されたものよりもドメインギャップに敏感ではない。 Kinetics-400でトレーニングされた場合、CtPで事前訓練された表現が、Somethingデータセットの完全な教師付きデータセットよりもはるかに高い動作分類精度を達成できることに、私たちは喜んで驚きます。 コードはオンラインで入手できる: github.com/microsoft /CtP。

Inspired by the fact that human eyes continue to develop tracking ability in early and middle childhood, we propose to use tracking as a proxy task for a computer vision system to learn the visual representations. Modelled on the Catch game played by the children, we design a Catch-the-Patch (CtP) game for a 3D-CNN model to learn visual representations that would help with video-related tasks. In the proposed pretraining framework, we cut an image patch from a given video and let it scale and move according to a pre-set trajectory. The proxy task is to estimate the position and size of the image patch in a sequence of video frames, given only the target bounding box in the first frame. We discover that using multiple image patches simultaneously brings clear benefits. We further increase the difficulty of the game by randomly making patches invisible. Extensive experiments on mainstream benchmarks demonstrate the superior performance of CtP against other video pretraining methods. In addition, CtP-pretrained features are less sensitive to domain gaps than those trained by a supervised action recognition task. When both trained on Kinetics-400, we are pleasantly surprised to find that CtP-pretrained representation achieves much higher action classification accuracy than its fully supervised counterpart on Something-Something dataset. Code is available online: github.com/microsoft /CtP.
翻訳日:2021-05-07 13:23:29 公開日:2021-05-06
# 顔偽造検出のための局所関係学習

Local Relation Learning for Face Forgery Detection ( http://arxiv.org/abs/2105.02577v1 )

ライセンス: Link先を確認
Shen Chen, Taiping Yao, Yang Chen, Shouhong Ding, Jilin Li, Rongrong Ji(参考訳) 顔操作技術の急速な発展に伴い、顔偽造検出はセキュリティ上の懸念からデジタルメディアの鑑識においてかなりの注目を集めている。 既存の手法の多くは偽造検出を分類問題として定式化し、二項ラベルや操作された領域マスクを監督として利用する。 しかし、地域間の相関を考慮せずに、これらのグローバルな監督は、一般化された特徴を学習し、過度に適合しがちである。 そこで本研究では,局所関係学習による顔偽造検出の新たな視点を提案する。 具体的には、局所的な特徴間の類似度を測定し、堅牢で一般化された類似度パターンを形成するMPSM(Multi-scale Patch similarity Module)を提案する。 さらに、より包括的な局所特徴表現のために、RGBと周波数領域の情報を融合するRGB-Frequency Attention Module (RFAM)を提案する。 広範な実験により,提案手法は広く使用されているベンチマークにおいて,最先端の手法を一貫して上回っていることが示された。 さらに,本手法の堅牢性と解釈可能性について,詳細な可視化を行った。

With the rapid development of facial manipulation techniques, face forgery detection has received considerable attention in digital media forensics due to security concerns. Most existing methods formulate face forgery detection as a classification problem and utilize binary labels or manipulated region masks as supervision. However, without considering the correlation between local regions, these global supervisions are insufficient to learn a generalized feature and prone to overfitting. To address this issue, we propose a novel perspective of face forgery detection via local relation learning. Specifically, we propose a Multi-scale Patch Similarity Module (MPSM), which measures the similarity between features of local regions and forms a robust and generalized similarity pattern. Moreover, we propose an RGB-Frequency Attention Module (RFAM) to fuse information in both RGB and frequency domains for more comprehensive local feature representation, which further improves the reliability of the similarity pattern. Extensive experiments show that the proposed method consistently outperforms the state-of-the-arts on widely-used benchmarks. Furthermore, detailed visualization shows the robustness and interpretability of our method.
翻訳日:2021-05-07 13:23:08 公開日:2021-05-06
# スマートシティとセーフシティの自動行動特徴抽出に基づく視覚に基づく歩行者リスク分析

Vision based Pedestrian Potential Risk Analysis based on Automated Behavior Feature Extraction for Smart and Safe City ( http://arxiv.org/abs/2105.02582v1 )

ライセンス: Link先を確認
Byeongjoon Noh, Dongho Ka, David Lee, and Hwasoo Yeo(参考訳) 近年の車両安全技術の発展にもかかわらず、道路交通事故はいまだに人命に深刻な脅威を与えており、早死にの主な原因となっている。 特に横断歩道は歩行者にとって大きな脅威となるが、彼らが直面するリスクを調査するためには、密度の高い行動データが欠如している。 そこで本稿では,道路セキュリティカメラで収集した映像を用いて,歩行者の潜在的なリスクに関する包括的分析モデルを提案する。 提案システムは、車や歩行者を自動的に検知し、フレームによって軌跡を計算し、これらの物体間の潜在的危険シーンの可能性を左右する行動特徴を抽出する。 最後に,データウェアハウスに蓄積された大量の特徴を用いて,抽象化レベルでのリスクシーンの多次元解析を行うことで,データキューブモデルを設計する。 実験では,複数の横断歩道から様々な行動特徴を抽出し,それらの行動や関係をカメラで可視化し,解釈し,それらが潜在的なリスクにどのように寄与するかを示した。 韓国大山市の横断歩道で適用し,実現可能性と適用性を評価した。

Despite recent advances in vehicle safety technologies, road traffic accidents still pose a severe threat to human lives and have become a leading cause of premature deaths. In particular, crosswalks present a major threat to pedestrians, but we lack dense behavioral data to investigate the risks they face. Therefore, we propose a comprehensive analytical model for pedestrian potential risk using video footage gathered by road security cameras deployed at such crossings. The proposed system automatically detects vehicles and pedestrians, calculates trajectories by frames, and extracts behavioral features affecting the likelihood of potentially dangerous scenes between these objects. Finally, we design a data cube model by using the large amount of the extracted features accumulated in a data warehouse to perform multidimensional analysis for potential risk scenes with levels of abstraction, but this is beyond the scope of this paper, and will be detailed in a future study. In our experiment, we focused on extracting the various behavioral features from multiple crosswalks, and visualizing and interpreting their behaviors and relationships among them by camera location to show how they may or may not contribute to potential risk. We validated feasibility and applicability by applying it in multiple crosswalks in Osan city, Korea.
翻訳日:2021-05-07 13:22:52 公開日:2021-05-06
# 変形可能なグラフリファインメントを用いたカスケード画像マッチング

Cascade Image Matting with Deformable Graph Refinement ( http://arxiv.org/abs/2105.02646v1 )

ライセンス: Link先を確認
Zijian Yu, Xuhui Li, Huijuan Huang, Wen Zheng and Li Chen(参考訳) 画像マッチングとは、前景オブジェクトの不透明度を推定することを指す。 整合結果には正確な輪郭と前景の細部が必要である。 人間の画像のマット化タスクをよりよく達成するために,変形可能なグラフ修正によるカスケード画像マットリングネットワークを提案し,入力を必要とせず,人間の画像から正確なアルファマットを自動で予測する。 ネットワークカスケードアーキテクチャを用いて、粗大な最適化に対応する低解像度から高解像度までのマッチングを行う。 また、畳み込みニューラルネットワーク(CNN)の限界を克服するために、グラフニューラルネットワーク(GNN)に基づく変形可能なグラフリファインメント(DGR)モジュールも導入する。 DGRモジュールは、長距離関係を効果的に捉え、より大域的かつ局所的な情報を得て、より微細なアルファマットを生成する。 また,近傍を動的に予測し,高分解能特徴にdgrモジュールを適用することで,dgrモジュールの計算複雑性を低減する。 実験結果は,casdgrが合成データセットで最先端のパフォーマンスを達成し,実画像で良好な結果が得られることを示す。

Image matting refers to the estimation of the opacity of foreground objects. It requires correct contours and fine details of foreground objects for the matting results. To better accomplish human image matting tasks, we propose the Cascade Image Matting Network with Deformable Graph Refinement, which can automatically predict precise alpha mattes from single human images without any additional inputs. We adopt a network cascade architecture to perform matting from low-to-high resolution, which corresponds to coarse-to-fine optimization. We also introduce the Deformable Graph Refinement (DGR) module based on graph neural networks (GNNs) to overcome the limitations of convolutional neural networks (CNNs). The DGR module can effectively capture long-range relations and obtain more global and local information to help produce finer alpha mattes. We also reduce the computation complexity of the DGR module by dynamically predicting the neighbors and apply DGR module to higher--resolution features. Experimental results demonstrate the ability of our CasDGR to achieve state-of-the-art performance on synthetic datasets and produce good results on real human images.
翻訳日:2021-05-07 13:22:33 公開日:2021-05-06
# VideoLT: 大規模ロングテールビデオ認識

VideoLT: Large-scale Long-tailed Video Recognition ( http://arxiv.org/abs/2105.02668v1 )

ライセンス: Link先を確認
Xing Zhang, Zuxuan Wu, Zejia Weng, Huazhu Fu, Jingjing Chen, Yu-Gang Jiang, Larry Davis(参考訳) 実世界のラベル分布はしばしばロングテールで不均衡であり、支配的なラベルに偏ったモデルをもたらす。 ロングテール認識は画像分類タスクで広範囲に研究されてきたが、ビデオ領域では限定的な努力がなされている。 本稿では,大規模長編ビデオ認識データセットであるVideoLTについて,実世界のビデオ認識へのステップとして紹介する。 videoltには256,218本の未編集ビデオが含まれており、注釈付きで1,004のクラスに分類されている。 映像データに時間的次元が付加されるため,ロングテール画像認識における最先端の手法は映像領域ではうまく機能しないことを示す。 これにより、長いビデオ認識タスクのためのシンプルで効果的な方法であるFrameStackを提案することができる。 特に、framestackはクラス分布のバランスをとるためにフレームレベルでサンプリングを行い、トレーニング中にネットワークから得られた知識を用いてサンプリング比率を動的に決定する。 実験の結果, framestackは全体の精度を犠牲にすることなく, 分類性能を向上させることができた。

Label distributions in real-world are oftentimes long-tailed and imbalanced, resulting in biased models towards dominant labels. While long-tailed recognition has been extensively studied for image classification tasks, limited effort has been made for video domain. In this paper, we introduce VideoLT, a large-scale long-tailed video recognition dataset, as a step toward real-world video recognition. Our VideoLT contains 256,218 untrimmed videos, annotated into 1,004 classes with a long-tailed distribution. Through extensive studies, we demonstrate that state-of-the-art methods used for long-tailed image recognition do not perform well in the video domain due to the additional temporal dimension in video data. This motivates us to propose FrameStack, a simple yet effective method for long-tailed video recognition task. In particular, FrameStack performs sampling at the frame-level in order to balance class distributions, and the sampling ratio is dynamically determined using knowledge derived from the network during training. Experimental results demonstrate that FrameStack can improve classification performance without sacrificing overall accuracy.
翻訳日:2021-05-07 13:22:15 公開日:2021-05-06
# 人体モデリングのためのAnimatable Neural Radiance Fields

Animatable Neural Radiance Fields for Human Body Modeling ( http://arxiv.org/abs/2105.02872v1 )

ライセンス: Link先を確認
Sida Peng, Junting Dong, Qianqian Wang, Shangzhan Zhang, Qing Shuai, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,多視点映像から人間モデルを再構築する課題について述べる。 近年の研究では、ダイナミックシーンを正準神経放射場と、観測空間の点を正準空間にマッピングする一連の変形場に分解して、画像から動的シーンを学習する手法が提案されている。 しかし、これらは変形場を変換ベクトル場またはSE(3)場として表現し、最適化は過小制約される。 さらに、これらの表現は入力運動によって明示的に制御することはできない。 代わりに、変形場を生成するためにニューラルブレンド重量場を導入する。 スケルトン駆動の変形に基づいて、3次元人間の骨格とブレンドウエイトフィールドが使われ、観察-カノニカル-標準-観測対応を生成する。 3d人間の骨格はより観察しやすいため、変形場の学習を規則化することができる。 さらに、学習したブレンド重量場を入力骨格運動と組み合わせることで、新しい変形場を生成し、人間のモデルをアニメーション化することができる。 実験の結果,最近のヒト合成法を有意に上回っていることがわかった。 コードはhttps://zju3dv.githu b.io/animatable_nerf /で入手できる。

This paper addresses the challenge of reconstructing an animatable human model from a multi-view video. Some recent works have proposed to decompose a dynamic scene into a canonical neural radiance field and a set of deformation fields that map observation-space points to the canonical space, thereby enabling them to learn the dynamic scene from images. However, they represent the deformation field as translational vector field or SE(3) field, which makes the optimization highly under-constrained. Moreover, these representations cannot be explicitly controlled by input motions. Instead, we introduce neural blend weight fields to produce the deformation fields. Based on the skeleton-driven deformation, blend weight fields are used with 3D human skeletons to generate observation-to-canon ical and canonical-to-observa tion correspondences. Since 3D human skeletons are more observable, they can regularize the learning of deformation fields. Moreover, the learned blend weight fields can be combined with input skeletal motions to generate new deformation fields to animate the human model. Experiments show that our approach significantly outperforms recent human synthesis methods. The code will be available at https://zju3dv.githu b.io/animatable_nerf /.
翻訳日:2021-05-07 13:22:00 公開日:2021-05-06
# 手話ビデオにおける字幕の調整

Aligning Subtitles in Sign Language Videos ( http://arxiv.org/abs/2105.02877v1 )

ライセンス: Link先を確認
Hannah Bull, Triantafyllos Afouras, G\"ul Varol, Samuel Albanie, Liliane Momeni, Andrew Zisserman(参考訳) この研究の目的は、手話ビデオの非同期字幕を時間的にアライメントすることである。 特に, (i) 連続署名の映像, (ii) 音声コンテンツに対応する字幕を含む, 手話通訳tv放送データに注目した。 このような弱い整列データを利用した従来の作業は,キーワードサイン対応の検索のみを考慮したものだった。 このタスクに適したTransformerアーキテクチャを提案し、ビデオ17.7時間にわたる15K字幕を手動でアライメントする。 bert字幕埋め込みとcnnビデオ表現を用いて2つの信号の符号化を行い,一連の注意層を介して対話する。 本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。 広範な評価を通じて,字幕テキスト埋め込みを学習に使用しない既存のアライメントベースラインよりも大幅に改善することを示す。 当社の自動アライメントモデルは,連続的同期ビデオテキストデータを提供することにより,手話の機械翻訳を前進させる可能性を開く。

The goal of this work is to temporally align asynchronous subtitles in sign language videos. In particular, we focus on sign-language interpreted TV broadcast data comprising (i) a video of continuous signing, and (ii) subtitles corresponding to the audio content. Previous work exploiting such weakly-aligned data only considered finding keyword-sign correspondences, whereas we aim to localise a complete subtitle text in continuous signing. We propose a Transformer architecture tailored for this task, which we train on manually annotated alignments covering over 15K subtitles that span 17.7 hours of video. We use BERT subtitle embeddings and CNN video representations learned for sign recognition to encode the two signals, which interact through a series of attention layers. Our model outputs frame-level predictions, i.e., for each video frame, whether it belongs to the queried subtitle or not. Through extensive evaluations, we show substantial improvements over existing alignment baselines that do not make use of subtitle text embeddings for learning. Our automatic alignment model opens up possibilities for advancing machine translation of sign languages via providing continuously synchronized video-text data.
翻訳日:2021-05-07 13:21:30 公開日:2021-05-06
# Q-Match: 量子アニーリングによる反復形状マッチング

Q-Match: Iterative Shape Matching via Quantum Annealing ( http://arxiv.org/abs/2105.02878v1 )

ライセンス: Link先を確認
Marcel Seelbach Benkner and Zorah L\"ahner and Vladislav Golyanik and Christof Wunderlich and Christian Theobalt and Michael Moeller(参考訳) 形状対応を見つけることは、サンプリング密度の高い形状では不可能となるNPハード二次代入問題(QAP)として定式化することができる。 有望な研究の方向は、量子アニーリングを持つ二項変数上のそのような二次最適化問題に取り組むことであり、理論的には、新しい計算パラダイムに依存するグローバル最適解を見つけることができる。 残念なことに、QAPの線形等式制約をペナルティによって強制することは、現在利用可能な量子ハードウェア上でそのような手法が成功する確率を著しく制限する。 この制限に対処するため、我々はQ-Match、すなわちα展開アルゴリズムにインスパイアされたQAPのための新しい反復量子法を提案し、これは現在の量子法よりも桁違いに大きい問題を解くことができる。 現在の見積を周期的に更新することで、QAP制約を暗黙的に強制することで機能する。 さらに、Q-Match は、実世界の問題にスケールできるような、長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。 最新の量子アニール器であるD-Wave Advantageを用いて,提案手法をQAPLIBのサブセットおよびFAUSTデータセットからの等尺形状整合問題で評価した。

Finding shape correspondences can be formulated as an NP-hard quadratic assignment problem (QAP) that becomes infeasible for shapes with high sampling density. A promising research direction is to tackle such quadratic optimization problems over binary variables with quantum annealing, which, in theory, allows to find globally optimal solutions relying on a new computational paradigm. Unfortunately, enforcing the linear equality constraints in QAPs via a penalty significantly limits the success probability of such methods on currently available quantum hardware. To address this limitation, this paper proposes Q-Match, i.e., a new iterative quantum method for QAPs inspired by the alpha-expansion algorithm, which allows solving problems of an order of magnitude larger than current quantum methods. It works by implicitly enforcing the QAP constraints by updating the current estimates in a cyclic fashion. Further, Q-Match can be applied for shape matching problems iteratively, on a subset of well-chosen correspondences, allowing us to scale to real-world problems. Using the latest quantum annealer, the D-Wave Advantage, we evaluate the proposed method on a subset of QAPLIB as well as on isometric shape matching problems from the FAUST dataset.
翻訳日:2021-05-07 13:21:12 公開日:2021-05-06
# トポロジ対応逆グラフニューラルネットワークを用いた脳波の予測

Brain Multigraph Prediction using Topology-Aware Adversarial Graph Neural Network ( http://arxiv.org/abs/2105.02565v1 )

ライセンス: Link先を確認
Alaa Bessadok and Mohamed Ali Mahjoub and Islem Rekik(参考訳) 磁気共鳴画像(MRI)のような医療スキャンから構築された脳のグラフ(コネクトーム)は、人間の脳の異常な変化を特徴づける重要なツールになりつつある。 マルチモーダルMRIの取得コストと処理時間が高いため、GAN(Generative Adversarial Network)に基づく既存のディープラーニングフレームワークは、既存のいくつかのモダリティから欠落したマルチモーダル医療画像を予測することに重点を置いている。 脳のグラフは、特定の障害が脳の接続面をどのように変えるかを理解するのに役立つが、ターゲットの脳のマルチグラフ(つまり、複数の脳のグラフ)を単一のソースの脳のグラフから合成することは、著しく不足している。 さらに、既存のグラフ生成は、ターゲットドメインごとに1つのモデルを学び、複数のターゲットドメインを共同で予測するスケーラビリティを制限する。 さらに、グラフのグローバルトポロジースケール(グラフ接続構造)を考える一方で、ノードスケールの局所トポロジー(例えば、ノードがグラフにどれだけ中央にあるか)を見落とします。 これらの制約に対処するために,各対象グラフのトポロジ構造を維持しつつ,単一の脳グラフから複数の脳グラフを共同で予測するtopogan(topological- aware graph gan architecture)を導入する。 i) 単一のグラフから複数の脳グラフを予測する新しいグラフ対向オートエンコーダを設計し、(ii) GANのモード崩壊問題に対処するために符号化されたソースグラフをクラスタ化し、クラスタ固有のデコーダを提案し、(iii) トポロジ的損失を導入して、トポロジ的ターゲット脳グラフの予測を強制する。 5つの対象領域を用いた実験結果から,脳のマルチグラフ予測における本手法の有効性を,ベースラインアプローチと比較して実証した。

Brain graphs (i.e, connectomes) constructed from medical scans such as magnetic resonance imaging (MRI) have become increasingly important tools to characterize the abnormal changes in the human brain. Due to the high acquisition cost and processing time of multimodal MRI, existing deep learning frameworks based on Generative Adversarial Network (GAN) focused on predicting the missing multimodal medical images from a few existing modalities. While brain graphs help better understand how a particular disorder can change the connectional facets of the brain, synthesizing a target brain multigraph (i.e, multiple brain graphs) from a single source brain graph is strikingly lacking. Additionally, existing graph generation works mainly learn one model for each target domain which limits their scalability in jointly predicting multiple target domains. Besides, while they consider the global topological scale of a graph (i.e., graph connectivity structure), they overlook the local topology at the node scale (e.g., how central a node is in the graph). To address these limitations, we introduce topology-aware graph GAN architecture (topoGAN), which jointly predicts multiple brain graphs from a single brain graph while preserving the topological structure of each target graph. Its three key innovations are: (i) designing a novel graph adversarial auto-encoder for predicting multiple brain graphs from a single one, (ii) clustering the encoded source graphs in order to handle the mode collapse issue of GAN and proposing a cluster-specific decoder, (iii) introducing a topological loss to force the prediction of topologically sound target brain graphs. The experimental results using five target domains demonstrated the outperformance of our method in brain multigraph prediction from a single graph in comparison with baseline approaches.
翻訳日:2021-05-07 13:20:27 公開日:2021-05-06
# time-aware q-networks:深層強化学習のための時間的不規則性解消

Time-Aware Q-Networks: Resolving Temporal Irregularity for Deep Reinforcement Learning ( http://arxiv.org/abs/2105.02580v1 )

ライセンス: Link先を確認
Yeo Jin Kim and Min Chi(参考訳) 深層強化学習(DRL)は、多くの複雑なタスクにおいて期待される長期的なリターンを最大化する効果的なアクションポリシーを誘導する際、優れたパフォーマンスを示した。 DRLの作業の多くは、離散的な時間ステップを持つイベントのシーケンスに焦点を当てており、連続するイベント間の不規則な時間間隔を無視している。 多くの現実世界の領域において、データは不規則な時間間隔を持つ時間系列で構成されており、潜在的な状態の進行パターンを捉えるために時間イベント間の時間間隔を考慮することが重要である。 本稿では,深層rlフレームワークにおける物理時間間隔を考慮した時間認識型q-networks(tqn)という汎用的なrlフレームワークを提案する。 TQNは、1)過去の経過時間と、2)時間認識状態近似のための次の観測時間と、2)報酬の時間認識割引のための未来の行動時間ウィンドウの2つの側面から、時間不規則を扱う。 実験結果から,両面から時間不規則な配列の基底構造を捉えることにより,TQNは不規則な時間間隔を持つ4種類の文脈において,DQNを著しく上回ることがわかった。 より具体的には,CartPoleやMountainCar,Atariといった古典的RLの時間間隔をランダムに割ったベンチマークでは,原子炉運転や本態性時間間隔による懐疑的患者治療といった現実的なタスクでは,時間認識状態と時間認識割引の両方が重要となる。 さらに、エージェントの学習能力を向上させるために、二重ネットワーク、デューリングネットワーク、優先経験再生という3つのブースティング手法を探索し、実際の2つのタスクに対して、TQNと組み合わせた3つのブースティング手法が特に有効であることを示す。

Deep Reinforcement Learning (DRL) has shown outstanding performance on inducing effective action policies that maximize expected long-term return on many complex tasks. Much of DRL work has been focused on sequences of events with discrete time steps and ignores the irregular time intervals between consecutive events. Given that in many real-world domains, data often consists of temporal sequences with irregular time intervals, and it is important to consider the time intervals between temporal events to capture latent progressive patterns of states. In this work, we present a general Time-Aware RL framework: Time-aware Q-Networks (TQN), which takes into account physical time intervals within a deep RL framework. TQN deals with time irregularity from two aspects: 1) elapsed time in the past and an expected next observation time for time-aware state approximation, and 2) action time window for the future for time-aware discounting of rewards. Experimental results show that by capturing the underlying structures in the sequences with time irregularities from both aspects, TQNs significantly outperform DQN in four types of contexts with irregular time intervals. More specifically, our results show that in classic RL tasks such as CartPole and MountainCar and Atari benchmark with randomly segmented time intervals, time-aware discounting alone is more important while in the real-world tasks such as nuclear reactor operation and septic patient treatment with intrinsic time intervals, both time-aware state and time-aware discounting are crucial. Moreover, to improve the agent's learning capacity, we explored three boosting methods: Double networks, Dueling networks, and Prioritized Experience Replay, and our results show that for the two real-world tasks, combining all three boosting methods with TQN is especially effective.
翻訳日:2021-05-07 13:19:54 公開日:2021-05-06
# 残差エッジグラフアテンションニューラルネットワークによる経路問題の解法

Solve routing problems with a residual edge-graph attention neural network ( http://arxiv.org/abs/2105.02730v1 )

ライセンス: Link先を確認
Kun Lei, Peng Guo, Yi Wang, Xiao Wu, Wenchao Zhao(参考訳) np-ハードコンビネート最適化問題の場合、通常多項式時間で高品質な解を見つけることは困難である。 これらの問題に対する正確なアルゴリズムまたは近似アルゴリズムの設計は、しばしば非常に専門的な知識を必要とする。 近年,深層学習はそのような問題を解決する新しい方法を提供している。 本稿では,このような組合せ最適化問題を解決するために,エンドツーエンドの深層強化学習フレームワークを提案する。 このフレームワークは、入力のわずかな変更だけで異なる問題に適用できる(例えば、旅行セールスマン問題(TSP)では、入力はノードの2次元座標であり、キャパシティ制約付き車両ルーティング問題(CVRP)では、入力は2次元座標とノードの顧客要求を含む3次元ベクトルに単純に変換される。 提案するフレームワークは、ニューラルネットワークモデルとトレーニングアルゴリズムの観点から、リテラシーのモデルを改善することを目指している。 tsp と 100 ノードまでの cvrp のソリューション品質は,このフレームワークにより大幅に向上した。 具体的には、平均最適ギャップを、100ノードのtspでは4.53\%(ベスト・デコード)から3.67\%(ベスト・デコード戦略では7.34\%)から、100ノードのcvrpでは6.68\%に削減する。 さらに,既存の学習方法と比較して約1/3$\sim$3/4のトレーニングサンプルを用い,良好な結果を得た。 ランダムに生成されたインスタンスとtsplibとcvrplibのベンチマークインスタンスで行った結果から、テストフェーズ中の問題サイズ(ノード数)に対する線形実行時間が得られ、ランダムインスタンストレーニングから実世界のインスタンステストまで、優れた一般化性能が得られています。

For NP-hard combinatorial optimization problems, it is usually difficult to find high-quality solutions in polynomial time. The design of either an exact algorithm or an approximate algorithm for these problems often requires significantly specialized knowledge. Recently, deep learning methods provide new directions to solve such problems. In this paper, an end-to-end deep reinforcement learning framework is proposed to solve this type of combinatorial optimization problems. This framework can be applied to different problems with only slight changes of input (for example, for a traveling salesman problem (TSP), the input is the two-dimensional coordinates of nodes; while for a capacity-constrained vehicle routing problem (CVRP), the input is simply changed to three-dimensional vectors including the two-dimensional coordinates and the customer demands of nodes), masks and decoder context vectors. The proposed framework is aiming to improve the models in literacy in terms of the neural network model and the training algorithm. The solution quality of TSP and the CVRP up to 100 nodes are significantly improved via our framework. Specifically, the average optimality gap is reduced from 4.53\% (reported best \cite{R22}) to 3.67\% for TSP with 100 nodes and from 7.34\% (reported best \cite{R22}) to 6.68\% for CVRP with 100 nodes when using the greedy decoding strategy. Furthermore, our framework uses about 1/3$\sim$3/4 training samples compared with other existing learning methods while achieving better results. The results performed on randomly generated instances and the benchmark instances from TSPLIB and CVRPLIB confirm that our framework has a linear running time on the problem size (number of nodes) during the testing phase, and has a good generalization performance from random instance training to real-world instance testing.
翻訳日:2021-05-07 13:19:19 公開日:2021-05-06
# AIシステムテストにおける配当意識

Distribution Awareness for AI System Testing ( http://arxiv.org/abs/2105.02540v1 )

ライセンス: Link先を確認
David Berend(参考訳) ディープラーニング(DL)は多くの安全クリティカルなアプリケーションで継続的に採用されているため、その品質と信頼性が懸念を高め始めます。 従来のソフトウェア開発プロセスと同様、dlソフトウェアを早期にテストして欠陥を明らかにすることは、デプロイ後のリスクを減らす効果的な方法である。 近年,dlソフトウェアの新たなテスト手法の設計が進んでいるが,生成したテストデータの分布は考慮されていない。 したがって、識別されたエラーがDLアプリケーションにとって意味のあるエラーであるかどうかを判断することは困難である。 そこで我々は,基礎となるdlシステムタスクに関連する未知のテストケースを新たに生成することを目的としたoodガイドテスト手法を提案する。 以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。

As Deep Learning (DL) is continuously adopted in many safety critical applications, its quality and reliability start to raise concerns. Similar to the traditional software development process, testing the DL software to uncover its defects at an early stage is an effective way to reduce risks after deployment. Although recent progress has been made in designing novel testing techniques for DL software, the distribution of generated test data is not taken into consideration. It is therefore hard to judge whether the identified errors are indeed meaningful errors to the DL application. Therefore, we propose a new OOD-guided testing technique which aims to generate new unseen test cases relevant to the underlying DL system task. Our results show that this technique is able to filter up to 55.44% of error test case on CIFAR-10 and is 10.05% more effective in enhancing robustness.
翻訳日:2021-05-07 13:18:22 公開日:2021-05-06
# 分離型ポーリング注意とグローバル層正規化とPRELUによる音声強調

Speech Enhancement using Separable Polling Attention and Global Layer Normalization followed with PReLU ( http://arxiv.org/abs/2105.02509v1 )

ライセンス: Link先を確認
Dengfeng Ke, Jinsong Zhang, Yanlu Xie, Yanyan Xu, Binghuai Lin(参考訳) 単一チャンネル音声強調は音声コミュニティにおいて難しい課題である。 近年,様々なニューラルネットワークを用いた音声強調手法が提案されている。 これらのモデルのうち、PHASENとT-GSAはVoiceBank+DEMANDコーパスで最先端のパフォーマンスを達成した。 どちらのモデルもCOVLスコアは3.62である。 PHASENはCSIGスコアが4.21で、T-GSAはPESQスコアが3.06である。 しかし、この2つのモデルは非常に大きい。 モデルのパフォーマンスとモデルサイズとの矛盾は解消しにくいです。 本稿では,PHASENモデルの縮小と性能向上のための3種類の手法を提案する。 まず、PHASENの周波数変換ブロックを置き換えるために、分離可能なポーリングアテンションを提案する。 第2に、グローバル層正規化とPRELUを併用し、バッチ正規化をReLUに置き換える。 最後に、PHASENのBLSTMをConv2d操作に置き換え、位相ストリームを簡素化する。 これらの修正によりPHASENモデルのサイズは33Mパラメータから5Mパラメータに縮小され、VoiceBank+DEMANDのパフォーマンスはCSIGスコア4.30、PESQスコア3.07、COVLスコア3.73に改善された。

Single channel speech enhancement is a challenging task in speech community. Recently, various neural networks based methods have been applied to speech enhancement. Among these models, PHASEN and T-GSA achieve state-of-the-art performances on the publicly opened VoiceBank+DEMAND corpus. Both of the models reach the COVL score of 3.62. PHASEN achieves the highest CSIG score of 4.21 while T-GSA gets the highest PESQ score of 3.06. However, both of these two models are very large. The contradiction between the model performance and the model size is hard to reconcile. In this paper, we introduce three kinds of techniques to shrink the PHASEN model and improve the performance. Firstly, seperable polling attention is proposed to replace the frequency transformation blocks in PHASEN. Secondly, global layer normalization followed with PReLU is used to replace batch normalization followed with ReLU. Finally, BLSTM in PHASEN is replaced with Conv2d operation and the phase stream is simplified. With all these modifications, the size of the PHASEN model is shrunk from 33M parameters to 5M parameters, while the performance on VoiceBank+DEMAND is improved to the CSIG score of 4.30, the PESQ score of 3.07 and the COVL score of 3.73.
翻訳日:2021-05-07 13:18:04 公開日:2021-05-06
# SIPSA-Net:衛星画像のための移動物体アライメントによるシフト不変パンシャーニング

SIPSA-Net: Shift-Invariant Pan Sharpening with Moving Object Alignment for Satellite Imagery ( http://arxiv.org/abs/2105.02400v1 )

ライセンス: Link先を確認
Jaehyup Lee, Soomin Seo and Munchurl Kim(参考訳) パンシャーペン(英: Pan-sharpening)とは、高分解能(HR)パンクロマティック(PAN)画像とそれに対応する低分解能(LR)マルチスペクトル(MS)画像を融合して、HR-MSおよびパンシャーペン画像を生成する過程である。 しかし、センサーの位置、特性、取得時間が異なるため、PANとMSのイメージペアは様々な誤認識を持つことが多い。 このような不整合なパンms画像ペアでトレーニングされた従来のディープラーニングベースの方法は、結果のパンシャープ画像におけるダブルエッジやぼやけアーティファクトといった多様なアーティファクトに苦しむ。 本稿では,移動物体アライメント(sipsa-net)を用いたシフト不変パンシャープニング(shift-invariant pan-sharpening)と呼ばれる新しい枠組みを提案する。 SISPA-Netには機能アライメントモジュール(FAM)があり、2つのPANドメインとMSドメインの間でも、1つの機能を他の機能にアライメントするように調整することができる。 パンシャープ画像のアライメントを改善するため、シフト不変スペクトル損失を新たに設計し、元のMS入力の固有のミスアライメントを無視し、適切に整合したMS画像でスペクトル損失を最適化するのと同じ効果を有する。 広範な実験結果から,我々のsipsa-netは,最先端の手法と比較して,視覚的品質とアライメントの面で著しく改善したパンシャープ画像を生成することができた。

Pan-sharpening is a process of merging a high-resolution (HR) panchromatic (PAN) image and its corresponding low-resolution (LR) multi-spectral (MS) image to create an HR-MS and pan-sharpened image. However, due to the different sensors' locations, characteristics and acquisition time, PAN and MS image pairs often tend to have various amounts of misalignment. Conventional deep-learning-based methods that were trained with such misaligned PAN-MS image pairs suffer from diverse artifacts such as double-edge and blur artifacts in the resultant PAN-sharpened images. In this paper, we propose a novel framework called shift-invariant pan-sharpening with moving object alignment (SIPSA-Net) which is the first method to take into account such large misalignment of moving object regions for PAN sharpening. The SISPA-Net has a feature alignment module (FAM) that can adjust one feature to be aligned to another feature, even between the two different PAN and MS domains. For better alignment in pan-sharpened images, a shift-invariant spectral loss is newly designed, which ignores the inherent misalignment in the original MS input, thereby having the same effect as optimizing the spectral loss with a well-aligned MS image. Extensive experimental results show that our SIPSA-Net can generate pan-sharpened images with remarkable improvements in terms of visual quality and alignment, compared to the state-of-the-art methods.
翻訳日:2021-05-07 13:17:44 公開日:2021-05-06
# マルチモーダル非言語行動キューを用いたプレゼンテーション能力の推定

Estimating Presentation Competence using Multimodal Nonverbal Behavioral Cues ( http://arxiv.org/abs/2105.02636v1 )

ライセンス: Link先を確認
\"Omer S\"umer and Cigdem Beyan and Fabian Ruth and Olaf Kramer and Ulrich Trautwein and Enkelejda Kasneci(参考訳) 公的な講演やプレゼンテーションの能力は、教育、職業、日常生活における多くの社会的相互作用において重要な役割を担っている。 発話中の意図は、聴衆が実際に理解しているものと異なるため、メッセージを伝える能力は複雑なスキルを必要とする。 プレゼンテーション能力は小学校時代から育ち、時間とともに発展してきた。 プレゼンテーション能力の効率的な開発を促進する1つのアプローチは、視覚と音声の特徴と機械学習に基づく音声中の人間の行動の自動分析である。 さらに、この分析を用いて、プレゼンテーション能力に関連するスキルの改善と開発を提案することができる。 本研究では, 表情, ポーズベース, 音声関連機能など, さまざまな非言語行動手がかりの提示能力評価への寄与について検討する。 この分析は251人の学生のビデオで行われ、自動評価はt\"ubingen instrument for presentation competence (tip) による手動評価に基づいている。 分類結果は,同一データセット評価における早期融合(71.25%の精度)と,クロスデータセット評価における発話,顔,ポーズの後期融合(78.1%の精度)で最高の成績を収めた。 同様に、回帰結果は核融合戦略で最善を尽くした。

Public speaking and presentation competence plays an essential role in many areas of social interaction in our educational, professional, and everyday life. Since our intention during a speech can differ from what is actually understood by the audience, the ability to appropriately convey our message requires a complex set of skills. Presentation competence is cultivated in the early school years and continuously developed over time. One approach that can promote efficient development of presentation competence is the automated analysis of human behavior during a speech based on visual and audio features and machine learning. Furthermore, this analysis can be used to suggest improvements and the development of skills related to presentation competence. In this work, we investigate the contribution of different nonverbal behavioral cues, namely, facial, body pose-based, and audio-related features, to estimate presentation competence. The analyses were performed on videos of 251 students while the automated assessment is based on manual ratings according to the T\"ubingen Instrument for Presentation Competence (TIP). Our classification results reached the best performance with early fusion in the same dataset evaluation (accuracy of 71.25%) and late fusion of speech, face, and body pose features in the cross dataset evaluation (accuracy of 78.11%). Similarly, regression results performed the best with fusion strategies.
翻訳日:2021-05-07 13:17:15 公開日:2021-05-06
# アノテーションなしのオブジェクト中心ビデオ予測

Object-centric Video Prediction without Annotation ( http://arxiv.org/abs/2105.02799v1 )

ライセンス: Link先を確認
Karl Schmeckpeper, Georgios Georgakis, Kostas Daniilidis(参考訳) 世界と相互作用するために、エージェントは世界のダイナミクスの結果を予測できなければならない。 これらのダイナミクスを学ぶ自然なアプローチは、カメラがユビキタスで強力なセンサーであるため、ビデオ予測である。 ピクセル間直接の映像予測は困難であり、既知の事前処理を活用せず、学習したダイナミクスを利用するための簡単なインターフェースを提供していない。 オブジェクト中心のビデオ予測は、世界がオブジェクトで構成されているという単純な事前の利点を生かし、制御のためのより自然なインターフェースを提供することによって、これらの問題の解決策を提供する。 しかし、既存のオブジェクト中心のビデオ予測パイプラインは、ビデオシーケンスのトレーニングに密接なオブジェクトアノテーションを必要とする。 本稿では,強力なコンピュータビジョンモデルからの事前情報を利用した物体中心映像予測手法であるopa(object-centric prediction without annotation)を提案する。 本手法は,落下する重ね合わせ物体の映像列からなるデータセット上で検証し,エンド・ツー・エンドの映像予測トレーニングにより環境に知覚モデルを適用する方法を示す。

In order to interact with the world, agents must be able to predict the results of the world's dynamics. A natural approach to learn about these dynamics is through video prediction, as cameras are ubiquitous and powerful sensors. Direct pixel-to-pixel video prediction is difficult, does not take advantage of known priors, and does not provide an easy interface to utilize the learned dynamics. Object-centric video prediction offers a solution to these problems by taking advantage of the simple prior that the world is made of objects and by providing a more natural interface for control. However, existing object-centric video prediction pipelines require dense object annotations in training video sequences. In this work, we present Object-centric Prediction without Annotation (OPA), an object-centric video prediction method that takes advantage of priors from powerful computer vision models. We validate our method on a dataset comprised of video sequences of stacked objects falling, and demonstrate how to adapt a perception model in an environment through end-to-end video prediction training.
翻訳日:2021-05-07 13:16:56 公開日:2021-05-06
# 確率的アンサンブル平滑化モデルによるディープニューラルネットワークの逆ロバスト性に対する動的防御法

Dynamic Defense Approach for Adversarial Robustness in Deep Neural Networks via Stochastic Ensemble Smoothed Model ( http://arxiv.org/abs/2105.02803v1 )

ライセンス: Link先を確認
Ruoxi Qin, Linyuan Wang, Xingyuan Chen, Xuehui Du, Bin Yan(参考訳) ディープニューラルネットワークは、敵の攻撃下で重大な脆弱性を被っていることが示されている。 この現象は、サイバースペースセキュリティで採用されているものと類似した攻撃戦略と防衛戦略の作成を刺激した。 このような戦略を攻撃と防御のメカニズムに依存させることで、関連するアルゴリズムは相互に協調するプロセスとして現れる。 防衛戦略はこれらのプロセスにおいて特に受動的であり、このような戦略の強化は、この軍備競争から抜け出す効果的な方法である。 サイバースペースにおける動的防御手法に着想を得て,ランダムな平滑化とモデルアンサンブルに基づく確率的アンサンブル平滑化を構築した。 提案手法では,ネットワークアーキテクチャとパラメータの平滑化をアンサンブル属性とし,予測要求毎に属性に基づくアンサンブルモデルを動的に変更する。 提案手法は,ホワイトボックス攻撃下でのアンサンブルモデルの極端な伝達性と脆弱性を扱う。 ASR-vs歪曲線と異なる攻撃シナリオとの実験的比較により、攻撃能力が最も高い攻撃者でさえ、特に標的外攻撃下では、アンサンブルスムーズドモデルに関連する攻撃成功率を超え難いことが示されている。

Deep neural networks have been shown to suffer from critical vulnerabilities under adversarial attacks. This phenomenon stimulated the creation of different attack and defense strategies similar to those adopted in cyberspace security. The dependence of such strategies on attack and defense mechanisms makes the associated algorithms on both sides appear as closely reciprocating processes. The defense strategies are particularly passive in these processes, and enhancing initiative of such strategies can be an effective way to get out of this arms race. Inspired by the dynamic defense approach in cyberspace, this paper builds upon stochastic ensemble smoothing based on defense method of random smoothing and model ensemble. Proposed method employs network architecture and smoothing parameters as ensemble attributes, and dynamically change attribute-based ensemble model before every inference prediction request. The proposed method handles the extreme transferability and vulnerability of ensemble models under white-box attacks. Experimental comparison of ASR-vs-distortion curves with different attack scenarios shows that even the attacker with the highest attack capability cannot easily exceed the attack success rate associated with the ensemble smoothed model, especially under untargeted attacks.
翻訳日:2021-05-07 13:16:39 公開日:2021-05-06
# MRI画像合成のための特徴分散を用いた深層学習に基づくマルチモーダルコンピューティング

Deep Learning based Multi-modal Computing with Feature Disentanglement for MRI Image Synthesis ( http://arxiv.org/abs/2105.02835v1 )

ライセンス: Link先を確認
Yuchen Fei, Bo Zhan, Mei Hong, Xi Wu, Jiliu Zhou, Yan Wang(参考訳) 目的: 同一解剖学的構造の異なる磁気共鳴イメージング(mri)は, 診断に必要な物理レベルから異なる病理情報を提示するために必要である。 しかし, 時間消費や高コストといった制限により, フルシーケンスMRI画像の取得が困難である場合が多い。 本研究の目的は,mriシーケンス予測を高精度に行うアルゴリズムを開発し,臨床診断により多くの情報を提供することである。 方法: 特徴分散戦略を用いたMRI合成のための深層学習に基づくマルチモーダル計算モデルを提案する。 異なるモードで提供される補完情報をフル活用するために、マルチモーダルMRIシーケンスを入力として利用する。 特に,提案手法では,各入力モダリティを,共有情報と特定の情報を持つモダリティ固有空間に分解することにより,特徴を分離して抽出し,入力データを効果的に処理する。 その後、両者はデコーダの適応インスタンス正規化(adain)層を介して融合される。 また、試験相における目標モダリティの具体的情報の欠如に対処するため、局所適応融合(LAF)モジュールを採用し、基底真実に類似した具体的情報を持つモダリティのような擬似ターゲットを生成する。 結果: 合成性能を評価するため, 164被験者のBRATS2015データセットを用いて本手法を検証する。 実験により,本手法は定量化および定性化の両面で,ベンチマーク法や他の最先端の医用画像合成法よりも優れていた。 pix2pixGANs法と比較すると、PSNRは23.68から24.8に改善されている。 結論: 提案手法は, 対象MRI領域の予測に有効であり, 臨床診断や治療に有用であると考えられた。

Purpose: Different Magnetic resonance imaging (MRI) modalities of the same anatomical structure are required to present different pathological information from the physical level for diagnostic needs. However, it is often difficult to obtain full-sequence MRI images of patients owing to limitations such as time consumption and high cost. The purpose of this work is to develop an algorithm for target MRI sequences prediction with high accuracy, and provide more information for clinical diagnosis. Methods: We propose a deep learning based multi-modal computing model for MRI synthesis with feature disentanglement strategy. To take full advantage of the complementary information provided by different modalities, multi-modal MRI sequences are utilized as input. Notably, the proposed approach decomposes each input modality into modality-invariant space with shared information and modality-specific space with specific information, so that features are extracted separately to effectively process the input data. Subsequently, both of them are fused through the adaptive instance normalization (AdaIN) layer in the decoder. In addition, to address the lack of specific information of the target modality in the test phase, a local adaptive fusion (LAF) module is adopted to generate a modality-like pseudo-target with specific information similar to the ground truth. Results: To evaluate the synthesis performance, we verify our method on the BRATS2015 dataset of 164 subjects. The experimental results demonstrate our approach significantly outperforms the benchmark method and other state-of-the-art medical image synthesis methods in both quantitative and qualitative measures. Compared with the pix2pixGANs method, the PSNR improves from 23.68 to 24.8. Conclusion: The proposed method could be effective in prediction of target MRI sequences, and useful for clinical diagnosis and treatment.
翻訳日:2021-05-07 13:16:16 公開日:2021-05-06
# 単一軌道からの異常拡散のキャラクタリゼーションのためのエクストリーム・ラーニング・マシン

Extreme Learning Machine for the Characterization of Anomalous Diffusion from Single Trajectories ( http://arxiv.org/abs/2105.02597v1 )

ライセンス: Link先を確認
Carlo Manzo(参考訳) 自然系と人工系の力学の研究は、一般に異常拡散として定義されるブラウン挙動からの逸脱のいくつかの例を提供した。 これらの動力学の研究は、拡散する物体とその周囲の媒体をよりよく理解するが、個々の軌道からの定量的な特徴付けはしばしば困難である。 古典統計学と機械学習を用いた異常拡散検出の改善のための取り組みは、いくつかの新しい方法を生み出している。 最近では, 異常拡散指数の推定, 拡散モデルの分類, 軌道の分割という, 異常拡散の3つの側面に焦点をあてて, 共通のデータセット上でこれらのアプローチを客観的に評価するために, 異常拡散チャレンジ (AnDi, https://www.andi-cha llenge.org) が導入された。 本稿では、極端な学習機械と特徴工学(AnDi-ELM)を組み合わせることで、AnDiチャレンジの課題に取り組むための簡単なアプローチについて述べる。 本手法は,計算資源に制限のある簡単な実装と高速な訓練時間を提供しながら,良好な性能を達成する。

The study of the dynamics of natural and artificial systems has provided several examples of deviations from Brownian behavior, generally defined as anomalous diffusion. The investigation of these dynamics can provide a better understanding of diffusing objects and their surrounding media, but a quantitative characterization from individual trajectories is often challenging. Efforts devoted to improving anomalous diffusion detection using classical statistics and machine learning have produced several new methods. Recently, the anomalous diffusion challenge (AnDi, https://www.andi-cha llenge.org) was launched to objectively assess these approaches on a common dataset, focusing on three aspects of anomalous diffusion: the inference of the anomalous diffusion exponent; the classification of the diffusion model; and the segmentation of trajectories. In this article, I describe a simple approach to tackle the tasks of the AnDi challenge by combining extreme learning machine and feature engineering (AnDi-ELM). The method reaches satisfactory performance while offering a straightforward implementation and fast training time with limited computing resources, making a suitable tool for fast preliminary screening.
翻訳日:2021-05-07 13:15:47 公開日:2021-05-06
# コンテンツ提供者意識型レコメンデーションシステムに向けて--ユーザと提供者間の相互作用に関するシミュレーション研究

Towards Content Provider Aware Recommender Systems: A Simulation Study on the Interplay between User and Provider Utilities ( http://arxiv.org/abs/2105.02377v1 )

ライセンス: Link先を確認
Ruohan Zhan, Konstantina Christakopoulou, Ya Le, Jayden Ooi, Martin Mladenov, Alex Beutel, Craig Boutilier, Ed H. Chi, Minmin Chen(参考訳) 既存のリコメンデータシステムのほとんどは、主にユーザの満足度を最大化するコンテンツにユーザを合わせることに焦点を当てている。 しかし、コンテンツプロバイダーがコンテンツ作成を通じてユーザーの満足度に重大な影響を与えており、レコメンデーションで利用可能なコンテンツプールを決定することはますます明らかになっている。 ユーザとコンテンツプロバイダの両方の長期的な有用性を考慮して、レコメンダを設計することはできますか? そうすることで、長期的なユーザ満足のために、より多くのプロバイダとより多様なコンテンツプールを維持したいと考えています。 ユーザグループとプロバイダグループの両方に対するレコメンデーションの完全な影響を理解することは難しい。 本稿では,プロバイダを意識したレコメンデータの構築と,その影響をシミュレートした構成で評価するための1つのアプローチに関する調査を行う。 ユーザ・レcommender-providerの相互依存を特徴付けるために,プロバイダのダイナミクスを形式化し,ユーザ・モデリングを補完する。 結果として得られるジョイント力学システムは、レコメンデータアクションとプロバイダへのユーザフィードバックによって駆動される弱結合部分可観測マルコフ決定プロセスを引き起こす。 次に,ecoagentと呼ばれる強化レコメンダエージェントを構築し,ユーザユーティリティの目標と,推奨コンテンツに関連するプロバイダの反事実的ユーティリティリフトを最適化する。 提案手法を評価するために,ユーザ,プロバイダ,レコメンダ間の重要なインタラクションをキャプチャするシミュレーション環境を提案する。 私たちは、我々のアプローチの利点と限界の両方に光を当てるシミュレーション実験をいくつか提供します。 これらの結果は、プロバイダを意識したレコメンダエージェントが、マルチステイクホルダレコメンダシステムを構築する上で、どのように、いつ、どのように役立つかを理解するのに役立つ。

Most existing recommender systems focus primarily on matching users to content which maximizes user satisfaction on the platform. It is increasingly obvious, however, that content providers have a critical influence on user satisfaction through content creation, largely determining the content pool available for recommendation. A natural question thus arises: can we design recommenders taking into account the long-term utility of both users and content providers? By doing so, we hope to sustain more providers and a more diverse content pool for long-term user satisfaction. Understanding the full impact of recommendations on both user and provider groups is challenging. This paper aims to serve as a research investigation of one approach toward building a provider-aware recommender, and evaluating its impact in a simulated setup. To characterize the user-recommender-pro vider interdependence, we complement user modeling by formalizing provider dynamics as well. The resulting joint dynamical system gives rise to a weakly-coupled partially observable Markov decision process driven by recommender actions and user feedback to providers. We then build a REINFORCE recommender agent, coined EcoAgent, to optimize a joint objective of user utility and the counterfactual utility lift of the provider associated with the recommended content, which we show to be equivalent to maximizing overall user utility and the utilities of all providers on the platform under some mild assumptions. To evaluate our approach, we introduce a simulation environment capturing the key interactions among users, providers, and the recommender. We offer a number of simulated experiments that shed light on both the benefits and the limitations of our approach. These results help understand how and when a provider-aware recommender agent is of benefit in building multi-stakeholder recommender systems.
翻訳日:2021-05-07 13:14:55 公開日:2021-05-06
# mcmc-driven importance sampler

MCMC-driven importance samplers ( http://arxiv.org/abs/2105.02579v1 )

ライセンス: Link先を確認
F. Llorente, E. Curbelo, L. Martino, V. Elvira, D. Delgado(参考訳) モンテカルロ法は多次元ベイズ分布の複素積分を推定する標準的な方法である。 本研究では,マルコフ連鎖モンテカルロ (MCMC) アルゴリズムを基礎となる多重重要サンプリング (IS) スキームを駆動する適応型重要サンプリング器のクラスであるLAISに着目した。 上層層はMCMCアルゴリズムによって提案密度を推定し、下層は最終的な推定値を計算するために複数のISスキームを処理する。 LAISのモジュラー性は、上層と下層の異なる選択を可能にし、パフォーマンスと計算コストが異なる。 本研究では,上層と下層の両方において,効率の向上と計算コストの低減を図るために,異なる拡張を提案する。 異なる変種は、高度に集中した後続分布(大量のデータなど)など、現実世界のアプリケーションで発生する計算上の課題に対処するために必要不可欠である。 ハミルトン駆動の重要サンプルが提示され、テストされる。 さらに, 上層で生成した試料を, 下層で生成した最終推定器で再利用するなど, より安価なスキームを設計するための様々な戦略を導入する。 数値実験により提案手法の利点がLAISや他のベンチマーク手法のバニラバージョンと比較された。

Monte Carlo methods are the standard procedure for estimating complicated integrals of multidimensional Bayesian posterior distributions. In this work, we focus on LAIS, a class of adaptive importance samplers where Markov chain Monte Carlo (MCMC) algorithms are employed to drive an underlying multiple importance sampling (IS) scheme. Its power lies in the simplicity of the layered framework: the upper layer locates proposal densities by means of MCMC algorithms; while the lower layer handles the multiple IS scheme, in order to compute the final estimators. The modular nature of LAIS allows for different possible choices in the upper and lower layers, that will have different performance and computational costs. In this work, we propose different enhancements in order to increase the efficiency and reduce the computational cost, of both upper and lower layers. The different variants are essential if we aim to address computational challenges arising in real-world applications, such as highly concentrated posterior distributions (due to large amounts of data, etc.). Hamiltonian-driven importance samplers are presented and tested. Furthermore, we introduce different strategies for designing cheaper schemes, for instance, recycling samples generated in the upper layer and using them in the final estimators in the lower layer. Numerical experiments show the benefits of the proposed schemes as compared to the vanilla version of LAIS and other benchmark methods.
翻訳日:2021-05-07 13:14:24 公開日:2021-05-06
# 持続性ワーファリン線量予測における経時線量とinrデータの影響評価

Evaluating the Effect of Longitudinal Dose and INR Data on Maintenance Warfarin Dose Predictions ( http://arxiv.org/abs/2105.02625v1 )

ライセンス: Link先を確認
Anish Karpurapu, Adam Krekorian, Ye Tian, Leslie M. Collins, Ravi Karra, Aaron Franklin and Boyla O. Mainsah(参考訳) 血液凝固を予防するための一般的に処方される薬物であるウォーファリンは、非常に可変な個々の反応を持つ。 国際正規化比(inr)によって測定された治療用血液凝固時間を達成する維持用ワーファリン線量の決定は、合併症の予防に不可欠である。 ウォーファリン投与には機械学習アルゴリズムが用いられており、通常、初期投与量は臨床および遺伝子型因子で予測され、この服用量は以前の服用量と現在のinrに基づいて数日後に改訂される。 個々のワーファリン反応の変動を,事前線量列とinrがよりよく捉えるので,持続線量応答データが維持線量予測を改善すると仮定した。 この仮説を検証するため,臨床データ,ワーファリン服用量,INR測定量,INR治療時の維持用量を含むCOAG Warfarin用量研究のデータセットを分析した。 各種機械学習回帰モデルを用いて, 維持ワーファリン投与量の予測を行い, 臨床因子, 投薬履歴, INRデータを特徴として訓練した。 総じて、単線量とINRによる線量補正アルゴリズムは、基準線量修正アルゴリズムと同等の性能を達成した。 一方, 経時線量とINRデータを用いた線量補正アルゴリズムでは, 統計的に真の線量にかなり近い維持線量予測が可能であった。 最高の性能モデル(GB)に焦点を当てると、理想的な推定線量の割合、すなわち真の線量のうち、$\pm$20%以内と定義されるものは、ベースライン(54.92%)から1本(63.11%)と縦(75.41%)のGBモデルへと増加した。 経時的線量反応データによるより正確な維持用量予測は、治療のINRを早く達成し、薬物関連合併症を減らし、ワルファリン治療による患者結果を改善する可能性がある。

Warfarin, a commonly prescribed drug to prevent blood clots, has a highly variable individual response. Determining a maintenance warfarin dose that achieves a therapeutic blood clotting time, as measured by the international normalized ratio (INR), is crucial in preventing complications. Machine learning algorithms are increasingly being used for warfarin dosing; usually, an initial dose is predicted with clinical and genotype factors, and this dose is revised after a few days based on previous doses and current INR. Since a sequence of prior doses and INR better capture the variability in individual warfarin response, we hypothesized that longitudinal dose response data will improve maintenance dose predictions. To test this hypothesis, we analyzed a dataset from the COAG warfarin dosing study, which includes clinical data, warfarin doses and INR measurements over the study period, and maintenance dose when therapeutic INR was achieved. Various machine learning regression models to predict maintenance warfarin dose were trained with clinical factors and dosing history and INR data as features. Overall, dose revision algorithms with a single dose and INR achieved comparable performance as the baseline dose revision algorithm. In contrast, dose revision algorithms with longitudinal dose and INR data provided maintenance dose predictions that were statistically significantly much closer to the true maintenance dose. Focusing on the best performing model, gradient boosting (GB), the proportion of ideal estimated dose, i.e., defined as within $\pm$20% of the true dose, increased from the baseline (54.92%) to the GB model with the single (63.11%) and longitudinal (75.41%) INR. More accurate maintenance dose predictions with longitudinal dose response data can potentially achieve therapeutic INR faster, reduce drug-related complications and improve patient outcomes with warfarin therapy.
翻訳日:2021-05-07 13:14:03 公開日:2021-05-06
# 自然科学におけるデータセットバイアス--化学反応予測と合成設計の事例研究

Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction Prediction and Synthesis Design ( http://arxiv.org/abs/2105.02637v1 )

ライセンス: Link先を確認
Ryan-Rhys Griffiths, Philippe Schwaller, Alpha A. Lee(参考訳) 自然科学のデータセットは、科学的な理解を支援することを目的として、しばしばキュレーションされるため、機械学習の応用を促進する形式であるとは限らない。 本稿では,化学反応予測と合成設計の分野における方向変化を必要とする3つの傾向を明らかにする。 まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。 第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。 最後に, 反応予測に加えて試薬予測の問題についても議論し, 完全な合成設計問題を解決するために, 機械学習が解くものと実験室化学者が必要とするものとのミスマッチを浮き彫りにする。 我々の批判は、データセットがしばしばバイアスのある方法で分割される実験自然科学の進歩を加速するために機械学習を使うことの急成長分野にも関係しており、データから明らかでない文脈変数が実験結果に強く影響している。

Datasets in the Natural Sciences are often curated with the goal of aiding scientific understanding and hence may not always be in a form that facilitates the application of machine learning. In this paper, we identify three trends within the fields of chemical reaction prediction and synthesis design that require a change in direction. First, the manner in which reaction datasets are split into reactants and reagents encourages testing models in an unrealistically generous manner. Second, we highlight the prevalence of mislabelled data, and suggest that the focus should be on outlier removal rather than data fitting only. Lastly, we discuss the problem of reagent prediction, in addition to reactant prediction, in order to solve the full synthesis design problem, highlighting the mismatch between what machine learning solves and what a lab chemist would need. Our critiques are also relevant to the burgeoning field of using machine learning to accelerate progress in experimental Natural Sciences, where datasets are often split in a biased way, are highly noisy, and contextual variables that are not evident from the data strongly influence the outcome of experiments.
翻訳日:2021-05-07 13:13:27 公開日:2021-05-06
# 時空間畳み込み型ニューラルネットワークを用いたcovid-19の空間的進化のモデル化

Modeling the geospatial evolution of COVID-19 using spatio-temporal convolutional sequence-to-sequence neural networks ( http://arxiv.org/abs/2105.02752v1 )

ライセンス: Link先を確認
M\'ario Cardoso, Andr\'e Cavalheiro, Alexandre Borges, Ana F. Duarte, Am\'ilcar Soares, Maria Jo\~ao Pereira, Nuno J. Nunes, Leonardo Azevedo, Arlindo L. Oliveira(参考訳) 欧州は新型コロナウイルス(covid-19)のパンデミックで打撃を受け、ポルトガルは最初の12カ月で3つの波に見舞われた。 2021年1月19日から2月5日にかけてのポルトガルは、人口10万人あたり14日間の頻度で1000人を超える国であった。 新型コロナウイルスの地理的進化の正確な予測は依然として困難であり、既存の分析手法では、地域内の感染と感染した近隣地域からの感染拡大の両方に起因する複雑なダイナミクスを捉えることができない。 我々は,パンデミックの最初の12か月と比較して,ポルトガル保健総局(dgs)が以前に開発した方法論と公式自治体レベルデータを用いて,ポルトガル本土の各地域における入所率の推定を行う。 結果として得られた入射率マップはゴールド標準として用いられ、入射率の空間-時間変化の予測における異なるアプローチの有効性を検証した。 簡単なセルレベルの自己回帰移動平均 (ARMA) モデル, セルレベルのベクトル自己回帰 (VAR) モデル, 自治体ごとの包括的SIRDモデル, 直接ブロックシーケンシャルシミュレーション, STConvS2Sアーキテクチャに基づく畳み込みシーケンス列列ニューラルネットワークモデル, の4つの方法が試験された。 本研究は,畳み込みシーケンスからシーケンスへのニューラルネットワークが,利用可能な情報を用いて,中期的な入射率を予測する上で最善の手法であると結論づける。

Europe was hit hard by the COVID-19 pandemic and Portugal was one of the most affected countries, having suffered three waves in the first twelve months. Approximately between Jan 19th and Feb 5th 2021 Portugal was the country in the world with the largest incidence rate, with 14-days incidence rates per 100,000 inhabitants in excess of 1000. Despite its importance, accurate prediction of the geospatial evolution of COVID-19 remains a challenge, since existing analytical methods fail to capture the complex dynamics that result from both the contagion within a region and the spreading of the infection from infected neighboring regions. We use a previously developed methodology and official municipality level data from the Portuguese Directorate-General for Health (DGS), relative to the first twelve months of the pandemic, to compute an estimate of the incidence rate in each location of mainland Portugal. The resulting sequence of incidence rate maps was then used as a gold standard to test the effectiveness of different approaches in the prediction of the spatial-temporal evolution of the incidence rate. Four different methods were tested: a simple cell level autoregressive moving average (ARMA) model, a cell level vector autoregressive (VAR) model, a municipality-by-muni cipality compartmental SIRD model followed by direct block sequential simulation and a convolutional sequence-to-sequence neural network model based on the STConvS2S architecture. We conclude that the convolutional sequence-to-sequence neural network is the best performing method, when predicting the medium-term future incidence rate, using the available information.
翻訳日:2021-05-07 13:13:08 公開日:2021-05-06
# データ融合に基づく交通量再構成の確率モデル

A probabilistic model for missing traffic volume reconstruction based on data fusion ( http://arxiv.org/abs/2105.02777v1 )

ライセンス: Link先を確認
Xintao Yan, Yan Zhao, Henry X. Liu(参考訳) 交通量情報はインテリジェント交通システムにとって重要である。 交通計画、道路設計、交通信号制御のキーインプットとして機能している。 しかし、ループ検出器のような固定位置センサによって収集された交通量データは、しばしば欠落データ問題と低カバレッジ問題に悩まされる。 データ不足はハードウェアの故障によって引き起こされる可能性がある。 低カバレッジ問題は、交通ネットワークにおける固定位置センサのカバレッジが限られているため、ネットワークレベルでのトラフィックの理解が抑制されている。 そこで本研究では,固定位置センサデータとプローブ車両データを用いて,交通量再構成の確率モデルを提案する。 確率的主成分分析(PPCA)を用いて,交通量データの相関関係を抽出する。 この研究の革新的な貢献は、プローブ車両データをフレームワークに統合することで、上記の2つの問題の両方をモデルが解決できることです。 実世界の交通量データセットを用いて,提案手法が不足データ問題に対する最先端手法よりも優れていることを示す。 さらに,既存のほとんどの手法では処理できない低カバレッジ問題に対して,提案手法は高い精度を実現することができる。 実験により, 欠落率が80%に達する場合でも, 提案手法は, プローブ車両の浸透率を10%に抑えながら, 未知のトラフィック量を正確に推定できることを示した。 その結果,提案手法の有効性とロバスト性を検証し,実用化の可能性を示した。

Traffic volume information is critical for intelligent transportation systems. It serves as a key input to transportation planning, roadway design, and traffic signal control. However, the traffic volume data collected by fixed-location sensors, such as loop detectors, often suffer from the missing data problem and low coverage problem. The missing data problem could be caused by hardware malfunction. The low coverage problem is due to the limited coverage of fixed-location sensors in the transportation network, which restrains our understanding of the traffic at the network level. To tackle these problems, we propose a probabilistic model for traffic volume reconstruction by fusing fixed-location sensor data and probe vehicle data. We apply the probabilistic principal component analysis (PPCA) to capture the correlations in traffic volume data. An innovative contribution of this work is that we also integrate probe vehicle data into the framework, which allows the model to solve both of the above-mentioned two problems. Using a real-world traffic volume dataset, we show that the proposed method outperforms state-of-the-art methods for the extensively studied missing data problem. Moreover, for the low coverage problem, which cannot be handled by most existing methods, the proposed model can also achieve high accuracy. The experiments also show that even when the missing ratio reaches 80%, the proposed method can still give an accurate estimate of the unknown traffic volumes with only a 10% probe vehicle penetration rate. The results validate the effectiveness and robustness of the proposed model and demonstrate its potential for practical applications.
翻訳日:2021-05-07 13:12:40 公開日:2021-05-06
# KuraNet:同期を学習する結合振動子のシステム

KuraNet: Systems of Coupled Oscillators that Learn to Synchronize ( http://arxiv.org/abs/2105.02838v1 )

ライセンス: Link先を確認
Matthew Ricci, Minju Jung, Yuwei Zhang, Mathieu Chalvidal, Aneri Soni, Thomas Serre(参考訳) 結合振動子のネットワークは、力学系の理論において最も研究されている対象である。 現在注目されている2つの重要な分野は、高度に乱れたシステムにおける同期の研究と、適応的ネットワーク構造を持つシステムのモデリングである。 本稿では,これら2つの問題に対して,障害のあるネットワーク条件の分布にまたがって同期化を学習可能な結合発振器の深層学習システムであるKuraNetの形で単一のアプローチを提案する。 モデルの主な特徴は、異種振動子集団内の最適な相互作用を学習できるカップリング関数に従来の静的カップリングを置き換えることである。 提案手法を鞍本モデルに適用し,グローバルあるいはクラスタ同期を促進するデータ依存結合構造を学習する方法を実証する。 例えば, 不規則な自然周波数, 外部磁場強度, 相互作用遅延を有する解析的可視モデルにおいて, クラネットを用いて大域的同期の条件を経験的に検討する方法を示す。 クラスタ同期実験のシーケンスでは,コヒーレントなアセンブリに同期することで,kuranetがデータ分類器として機能することを示す。 いずれの場合も、鞍ネットが新しいデータと新しいネットワークスケールの両方に一般化できることを示し、小さなシステムで作業しやすく、熱力学の限界に関する仮説を形成する。 提案手法は,物理・システム生物学におけるモデリングと幅広い関係を持つ任意の力学系に適用可能である。

Networks of coupled oscillators are some of the most studied objects in the theory of dynamical systems. Two important areas of current interest are the study of synchrony in highly disordered systems and the modeling of systems with adaptive network structures. Here, we present a single approach to both of these problems in the form of "KuraNet", a deep-learning-based system of coupled oscillators that can learn to synchronize across a distribution of disordered network conditions. The key feature of the model is the replacement of the traditionally static couplings with a coupling function which can learn optimal interactions within heterogeneous oscillator populations. We apply our approach to the eponymous Kuramoto model and demonstrate how KuraNet can learn data-dependent coupling structures that promote either global or cluster synchrony. For example, we show how KuraNet can be used to empirically explore the conditions of global synchrony in analytically impenetrable models with disordered natural frequencies, external field strengths, and interaction delays. In a sequence of cluster synchrony experiments, we further show how KuraNet can function as a data classifier by synchronizing into coherent assemblies. In all cases, we show how KuraNet can generalize to both new data and new network scales, making it easy to work with small systems and form hypotheses about the thermodynamic limit. Our proposed learning-based approach is broadly applicable to arbitrary dynamical systems with wide-ranging relevance to modeling in physics and systems biology.
翻訳日:2021-05-07 13:12:02 公開日:2021-05-06
# DiffSinger:歌声合成のための拡散音響モデル

DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis ( http://arxiv.org/abs/2105.02446v1 )

ライセンス: Link先を確認
Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, Peng Liu, Zhou Zhao(参考訳) 歌声合成(SVS)システムは、高品質で表現力のある歌声を合成するために構築され、音響モデルが楽譜を与えられた音響特徴(例えば、メルスペクトル)を生成する。 従来の歌唱音響モデルでは、単純な損失(L1とL2)または生成的敵ネットワーク(GAN)を用いて音響特性を再構築するが、これらはそれぞれ過度に平滑で不安定な訓練問題に悩まされ、合成歌唱の自然性を損なう。 本研究では拡散確率モデルに基づくSVSの音響モデルDiffSingerを提案する。 ディフシンガー(DiffSinger)は、パラメータ化されたマルコフ連鎖であり、音楽スコアに条件付きメルスペクトルに繰り返し変換する。 変動境界を暗黙的に最適化することで、diffsingerは安定的に訓練され、現実的な出力を生成することができる。 音声の質をさらに向上するため,簡単な損失によって学習した事前知識をよりよく活用するための「textbf{shallow diffusion mechanism」を導入する。 特に、DiffSingerは、地上トルス・メル・スペクトログラムの拡散軌跡と単純なメル・スペクトログラムデコーダによって予測されるものとの交叉に従って、拡散ステップの総数よりも小さい浅いステップで生成を開始する。 また,境界予測ネットワークを訓練し,交差点を同定し,浅いステップを適応的に決定する。 中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVS作業より優れており、顕著なマージン(0.11 MOSゲイン)を達成していることを示している。 我々の拡張実験は、テキスト音声タスクにおけるDiffSingerの一般化も証明している。

Singing voice synthesis (SVS) system is built to synthesize high-quality and expressive singing voice, in which the acoustic model generates the acoustic features (e.g., mel-spectrogram) given a music score. Previous singing acoustic models adopt simple loss (e.g., L1 and L2) or generative adversarial network (GAN) to reconstruct the acoustic features, while they suffer from over-smoothing and unstable training issues respectively, which hinder the naturalness of synthesized singing. In this work, we propose DiffSinger, an acoustic model for SVS based on the diffusion probabilistic model. DiffSinger is a parameterized Markov chain which iteratively converts the noise into mel-spectrogram conditioned on the music score. By implicitly optimizing variational bound, DiffSinger can be stably trained and generates realistic outputs. To further improve the voice quality, we introduce a \textbf{shallow diffusion mechanism} to make better use of the prior knowledge learned by the simple loss. Specifically, DiffSinger starts generation at a shallow step smaller than the total number of diffusion steps, according to the intersection of the diffusion trajectories of the ground-truth mel-spectrogram and the one predicted by a simple mel-spectrogram decoder. Besides, we train a boundary prediction network to locate the intersection and determine the shallow step adaptively. The evaluations conducted on the Chinese singing dataset demonstrate that DiffSinger outperforms state-of-the-art SVS work with a notable margin (0.11 MOS gains). Our extensional experiments also prove the generalization of DiffSinger on text-to-speech task.
翻訳日:2021-05-07 13:11:10 公開日:2021-05-06
# ポイントクラウドオーディオ処理

Point Cloud Audio Processing ( http://arxiv.org/abs/2105.02469v1 )

ライセンス: Link先を確認
Krishna Subramani, Paris Smaragdis(参考訳) ほとんどのオーディオ処理パイプラインは、オーディオの固定次元入力表現に作用する変換を含む。 例えば、短い時間フーリエ変換(STFT)を使用する場合、DFTサイズは入力表現の固定次元を指定する。 その結果、ほとんどのオーディオ機械学習モデルは、サンプリングレートや代替表現の異なるオーディオ上での学習モデルの再利用をしばしば禁止する固定サイズのベクトル入力を処理するように設計されている。 しかし,音声信号に含まれる固有スペクトル情報は,入力表現の選択やサンプリング率に不変である。 そこで我々は,特徴空間内の点集合として扱うことで音声信号を処理する新しい手法を導入し,DFTサイズやサンプリングレートなどの表現パラメータの選択に不変性を与えるポイントクラウド機械学習モデルを提案する。 さらに、これらの手法がより小さなモデルをもたらすことを観察し、トレーニングされたモデル性能に最小限の効果で入力表現を著しくサブサンプル化することができる。

Most audio processing pipelines involve transformations that act on fixed-dimensional input representations of audio. For example, when using the Short Time Fourier Transform (STFT) the DFT size specifies a fixed dimension for the input representation. As a consequence, most audio machine learning models are designed to process fixed-size vector inputs which often prohibits the repurposing of learned models on audio with different sampling rates or alternative representations. We note, however, that the intrinsic spectral information in the audio signal is invariant to the choice of the input representation or the sampling rate. Motivated by this, we introduce a novel way of processing audio signals by treating them as a collection of points in feature space, and we use point cloud machine learning models that give us invariance to the choice of representation parameters, such as DFT size or the sampling rate. Additionally, we observe that these methods result in smaller models, and allow us to significantly subsample the input representation with minimal effects to a trained model performance.
翻訳日:2021-05-07 13:10:42 公開日:2021-05-06
# 線形力学系のリカレントニューラルネットワーク学習における計量エントロピー限界

Metric Entropy Limits on Recurrent Neural Network Learning of Linear Dynamical Systems ( http://arxiv.org/abs/2105.02556v1 )

ライセンス: Link先を確認
Clemens Hutter, Recep G\"ul, Helmut B\"olcskei(参考訳) ニューラルネットワーク理論における最も影響力のある結果の1つは普遍近似定理 [1, 2, 3] であり、連続関数は単層フィードフォワードニューラルネットワークによって任意の精度で近似することができる。 本論文の目的は,リカレントニューラルネットワーク(recurrent neural networks,rnns)による時間変動系を含む一般離散時間線形力学系の近似に関する結果の確立である。 線形時間不変系(LTI)のサブクラスについては、この文の定量的バージョンを考案する。 具体的には, [4] による計量エントロピーによるLTIシステムの複雑性を計測することにより, RNN がシステム理論で解析可能な LTI システムで最適に学習し,特定できることを示す。 入力-出力関係が差分方程式によって特徴づけられるlti系では、rnnはメトリック-エントロピー最適方法で入力-出力トレースから差分方程式を学習することができる。

One of the most influential results in neural network theory is the universal approximation theorem [1, 2, 3] which states that continuous functions can be approximated to within arbitrary accuracy by single-hidden-layer feedforward neural networks. The purpose of this paper is to establish a result in this spirit for the approximation of general discrete-time linear dynamical systems - including time-varying systems - by recurrent neural networks (RNNs). For the subclass of linear time-invariant (LTI) systems, we devise a quantitative version of this statement. Specifically, measuring the complexity of the considered class of LTI systems through metric entropy according to [4], we show that RNNs can optimally learn - or identify in system-theory parlance - stable LTI systems. For LTI systems whose input-output relation is characterized through a difference equation, this means that RNNs can learn the difference equation from input-output traces in a metric-entropy optimal manner.
翻訳日:2021-05-07 13:10:28 公開日:2021-05-06
# 体内光無線通信のためのパスロスモデリング

Pathloss modeling for in-body optical wireless communications ( http://arxiv.org/abs/2105.02829v1 )

ライセンス: Link先を確認
Stylianos E. Trevlakis, Alexandros-Apostolos A. Boulogeorgos, and Nestor D. Chatzidiamantis(参考訳) 光無線通信(OWC)は、次世代のナノスケールネットワークとインプラントの候補として認識されている。 異なる種類の組織の特徴を調節できる正確なチャネルモデルの開発は、そのような用途に最適化された通信プロトコルの設計を促進することが期待されている。 そこで本研究では,生体内OWCに対する一般的なパスロスモデルを提案する。 特に, 5つの組織構成, 酸素および脱酸素血液, 水, 脂肪, メラニンの吸収係数の解析式を抽出するために, 実験式を用いた。 これらの式に基づいて, 生体組織の吸収係数評価の一般式を導出した。 この式の有効性を検証するために, 複合組織の吸収係数を計算し, 独立研究で報告された各実験結果と比較する。 興味深いことに, 解析式は精度が高く, パスロスをモデル化できるため, 複雑な組織への浸透深さを推定できる。

Optical wireless communications (OWCs) have been recognized as a candidate enabler of next generation in-body nano-scale networks and implants. The development of an accurate channel model capable of accommodating the particularities of different type of tissues is expected to boost the design of optimized communication protocols for such applications. Motivated by this, this paper focuses on presenting a general pathloss model for in-body OWCs. In particular, we use experimental measurements in order to extract analytical expressions for the absorption coefficients of the five main tissues' constitutions, namely oxygenated and de-oxygenated blood, water, fat, and melanin. Building upon these expressions, we derive a general formula for the absorption coefficient evaluation of any biological tissue. To verify the validity of this formula, we compute the absorption coefficient of complex tissues and compare them against respective experimental results reported by independent research works. Interestingly, we observe that the analytical formula has high accuracy and is capable of modeling the pathloss and, therefore, the penetration depth in complex tissues.
翻訳日:2021-05-07 13:09:30 公開日:2021-05-06
# 神経画像のための深部回帰モデルにおけるメンバーシップ推論攻撃

Membership Inference Attacks on Deep Regression Models for Neuroimaging ( http://arxiv.org/abs/2105.02866v1 )

ライセンス: Link先を確認
Umang Gupta, Dmitris Stripelis, Pradeep K. Lam, Paul M. Thompson, Jos\'e Luis Ambite, Greg Ver Steeg(参考訳) 研究参加者のプライバシーを確保することは、医療環境においてさらに重要である。 ディープラーニングによるニューロイメージングへのアプローチは大規模なデータセットを必要とするため、プライバシの目的に反する複数のサイト間でデータを共有する必要があることが多い。 連合学習は、この問題に対する一般的な解決策である。 トレーニングプロセス中にパラメータを共有することで、データ共有の必要性を回避する。 しかし,データを直接共有していない場合でも,パラメータへのアクセスが個人情報を漏洩する可能性がある。 特に、モデル予測(ブラックボックス)とモデル自体(ホワイトボックス)と、トレーニングデータ分布から流出したサンプルへのアクセスのみを与えられたモデルトレーニングにサンプルが使用されたかどうかを推測することが可能である。 このような攻撃は一般的にメンバーシップ推論攻撃と呼ばれる。 我々は,3次元ニューロイメージングタスクのための訓練された深層学習モデルに対するリアルなメンバーシップ推論攻撃と,分散化されたセットアップを示す。 脳年齢予測モデル(脳MRIスキャンから人の年齢を予測する深層学習モデル)に対する実用的な攻撃を実証する。 モデルの複雑性やセキュリティの仮定によって,MRIスキャンが60%から80%以上の成功率でモデルトレーニングに使用されたかどうかを正確に確認した。

Ensuring the privacy of research participants is vital, even more so in healthcare environments. Deep learning approaches to neuroimaging require large datasets, and this often necessitates sharing data between multiple sites, which is antithetical to the privacy objectives. Federated learning is a commonly proposed solution to this problem. It circumvents the need for data sharing by sharing parameters during the training process. However, we demonstrate that allowing access to parameters may leak private information even if data is never directly shared. In particular, we show that it is possible to infer if a sample was used to train the model given only access to the model prediction (black-box) or access to the model itself (white-box) and some leaked samples from the training data distribution. Such attacks are commonly referred to as Membership Inference attacks. We show realistic Membership Inference attacks on deep learning models trained for 3D neuroimaging tasks in a centralized as well as decentralized setup. We demonstrate feasible attacks on brain age prediction models (deep learning models that predict a person's age from their brain MRI scan). We correctly identified whether an MRI scan was used in model training with a 60% to over 80% success rate depending on model complexity and security assumptions.
翻訳日:2021-05-07 13:09:13 公開日:2021-05-06
# 教師なしLSTMを用いたタスクダイナミクスによる再現可能な機能ネットワークの推定

Estimating Reproducible Functional Networks Associated with Task Dynamics using Unsupervised LSTMs ( http://arxiv.org/abs/2105.02869v1 )

ライセンス: Link先を確認
Nicha C. Dvornek, Pamela Ventola, and James S. Duncan(参考訳) 本稿では,長期記憶付きリカレントニューラルネットワーク(LSTM)を用いて,よりダイナミックなタスクアクティビティに強く関連する再現可能な機能ネットワークを推定する手法を提案する。 LSTMモデルは、興味のある領域における機能的磁気共鳴画像(fMRI)時系列データを生成するために、教師なしの方法で訓練される。 学習された機能的ネットワークは、例えば相関解析によってfMRIタスクパラダイムと強く結びついている機能的ネットワークを決定するなど、さらなる分析に使用できる。 本手法を検証し,生物学的動作知覚タスクを用いた2つの異なるデータセット上でのfMRI活動から機能的ネットワークを分解する他の手法と比較する。 LSTMモデルにより学習された機能的ネットワークは,他の手法と比較して,タスクのアクティビティやダイナミクスに強く関連していることを示す。 さらに、ネットワークアソシエーションのパターンは、同じデータセット内のサブジェクト間およびデータセット間でより密に複製される。 より再現可能な機能ネットワークは、ターゲットタスクの神経相関をよりよく特徴付けるために不可欠である。

We propose a method for estimating more reproducible functional networks that are more strongly associated with dynamic task activity by using recurrent neural networks with long short term memory (LSTMs). The LSTM model is trained in an unsupervised manner to learn to generate the functional magnetic resonance imaging (fMRI) time-series data in regions of interest. The learned functional networks can then be used for further analysis, e.g., correlation analysis to determine functional networks that are strongly associated with an fMRI task paradigm. We test our approach and compare to other methods for decomposing functional networks from fMRI activity on 2 related but separate datasets that employ a biological motion perception task. We demonstrate that the functional networks learned by the LSTM model are more strongly associated with the task activity and dynamics compared to other approaches. Furthermore, the patterns of network association are more closely replicated across subjects within the same dataset as well as across datasets. More reproducible functional networks are essential for better characterizing the neural correlates of a target task.
翻訳日:2021-05-07 13:08:55 公開日:2021-05-06
# 回帰分析のためのメタモデル構造:自閉症スペクトラム障害の予測への応用

A Metamodel Structure For Regression Analysis: Application To Prediction Of Autism Spectrum Disorder Severity ( http://arxiv.org/abs/2105.02874v1 )

ライセンス: Link先を確認
Shiyu Wang and Nicha C. Dvornek(参考訳) 従来の回帰モデルは、小さくてノイズの多いデータセットから学ぶとうまく一般化しない。 本稿では,回帰結果を改善するための新しいメタモデル構造を提案する。 メタモデルは、複数の分類ベースモデルと、ベースモデル上に構築された回帰モデルで構成されている。 本研究では,ADOS通信(ADOS COMM)スコアによる自閉症スペクトラム障害(ASD)の重症度予測について,様々なベースモデルを用いて実験を行った。 メタモデルは、真のスコアと予測されたスコアと安定性の間のピアソン相関係数によって測定される従来の回帰モデルを上回る。 さらに、メタモデルはより柔軟で、より一般化できることがわかった。

Traditional regression models do not generalize well when learning from small and noisy datasets. Here we propose a novel metamodel structure to improve the regression result. The metamodel is composed of multiple classification base models and a regression model built upon the base models. We test this structure on the prediction of autism spectrum disorder (ASD) severity as measured by the ADOS communication (ADOS COMM) score from resting-state fMRI data, using a variety of base models. The metamodel outperforms traditional regression models as measured by the Pearson correlation coefficient between true and predicted scores and stability. In addition, we found that the metamodel is more flexible and more generalizable.
翻訳日:2021-05-07 13:08:40 公開日:2021-05-06
# (参考訳) プロトタイプに基づく因果分類の反事実的説明

Prototype-based Counterfactual Explanation for Causal Classification ( http://arxiv.org/abs/2105.00703v2 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実的説明は、モデルの本来の決定を変えるために摂動サンプルを生成する解釈可能な機械学習の一分野である。 生成されたサンプルは、エンドユーザが望ましい出力を達成するためのレコメンデーションとして機能する。 現在の反事実的説明のアプローチのほとんどは、連続変数を持つ微分可能損失関数のみを最適化できる勾配に基づく方法である。 その結果, 1 つの特徴間の因果関係は, 因果関係が典型的に無視され, 場合によっては意思決定者にとって非現実的なガイドラインが導かれる; 2) 反現実的サンプルの生成は禁断的に遅く, 異なる損失関数を組み合わせるために多くのパラメータチューニングが必要である。 本研究では,反事実の特徴に基づく因果関係を保つための因果構造モデルを提案する。 さらに,多目的遺伝的アルゴリズムに基づく,連続的およびカテゴリ的データの混合型に対する反事実的説明を生成する,新しい勾配なし最適化を考案する。 数値実験により,本手法は最先端手法と好適な比較を行い,任意の予測モデルに適用できることを示した。 すべてのソースコードとデータは \textit{\url{{https://github.com/t ridungduong16/multio bj-scm-cf}}} で入手できる。

Counterfactual explanation is one branch of interpretable machine learning that produces a perturbation sample to change the model's original decision. The generated samples can act as a recommendation for end-users to achieve their desired outputs. Most of the current counterfactual explanation approaches are the gradient-based method, which can only optimize the differentiable loss functions with continuous variables. Accordingly, the gradient-free methods are proposed to handle the categorical variables, which however present several major limitations: 1) causal relationships among features are typically ignored when generating the counterfactuals, possibly resulting in impractical guidelines for decision-makers; 2) the generation of the counterfactual sample is prohibitively slow and requires lots of parameter tuning for combining different loss functions. In this work, we propose a causal structure model to preserve the causal relationship underlying the features of the counterfactual. In addition, we design a novel gradient-free optimization based on the multi-objective genetic algorithm that generates the counterfactual explanations for the mixed-type of continuous and categorical data. Numerical experiments demonstrate that our method compares favorably with state-of-the-art methods and therefore is applicable to any prediction model. All the source code and data are available at \textit{\url{{https://github.com/t ridungduong16/multio bj-scm-cf}}}.
翻訳日:2021-05-07 10:48:45 公開日:2021-05-06
# (参考訳) ドリフト特性:vvvにおける自動rrls同定の文脈における検出と評価

Drifting Features: Detection and evaluation in the context of automatic RRLs identification in VVV ( http://arxiv.org/abs/2105.01714v2 )

ライセンス: CC BY 4.0
J. B. Cabral, M. Lares, S. Gurovich, D. Minniti, P. M. Granitto(参考訳) 現代の天文学的スカイサーベイのほとんどは、人間が分析できるよりも速くデータを生成するため、機械学習(ML)は天文学の中心的なツールとなっている。 現代のML法は、いくつかの実験的誤りに対して高い耐性を持つと特徴付けられる。 しかし,統計学的手法では容易に検出できない長距離データや長時間データの変化は,これらの手法に悪影響を及ぼす可能性がある。 我々は、これらの潜在的有害な特徴を特定するために、革新的な方法でmlメソッドを使用して、この問題に対処するための新しい戦略を開発した。 本稿では,データ特徴量で測定した特性の小さな変化に関連したドリフト特徴の概念について紹介し,考察する。 先行研究に基づいてvvvにおけるrrlの同定を行い,ドリフト特徴の検出手法を提案する。 提案手法では,多種多様なソース(主に「点源」)の起源のタイルを分類器に学習させ,ドリフト特徴の候補を見つけるタスクに関係のある特徴を選択する。 本手法は,原産地のタイルに関する有用な情報を含む特徴の少ない集合を効率的に同定できることを示す。 VVVでRRLを検出する特別な例として、ドリフト特徴が主に色指数に関係していることが分かる。 一方, この問題に明確なドリフト特徴があるとしても, RRLの識別にはほとんど敏感であることを示す。 ドリフト特徴はML手法で効率的に識別できる。 しかし,本例では,ドリフト特徴の除去はrrlの識別を改善しない。

As most of the modern astronomical sky surveys produce data faster than humans can analyze it, Machine Learning (ML) has become a central tool in Astronomy. Modern ML methods can be characterized as highly resistant to some experimental errors. However, small changes on the data over long distances or long periods of time, which cannot be easily detected by statistical methods, can be harmful to these methods. We develop a new strategy to cope with this problem, also using ML methods in an innovative way, to identify these potentially harmful features. We introduce and discuss the notion of Drifting Features, related with small changes in the properties as measured in the data features. We use the identification of RRLs in VVV based on an earlier work and introduce a method for detecting Drifting Features. Our method forces a classifier to learn the tile of origin of diverse sources (mostly stellar 'point sources'), and select the features more relevant to the task of finding candidates to Drifting Features. We show that this method can efficiently identify a reduced set of features that contains useful information about the tile of origin of the sources. For our particular example of detecting RRLs in VVV, we find that Drifting Features are mostly related to color indices. On the other hand, we show that, even if we have a clear set of Drifting Features in our problem, they are mostly insensitive to the identification of RRLs. Drifting Features can be efficiently identified using ML methods. However, in our example, removing Drifting Features does not improve the identification of RRLs.
翻訳日:2021-05-07 10:47:53 公開日:2021-05-06
# 自動意思決定における分散的正義と公平さの指標: オーバーラップはどの程度あるか?

Distributive Justice and Fairness Metrics in Automated Decision-making: How Much Overlap Is There? ( http://arxiv.org/abs/2105.01441v2 )

ライセンス: Link先を確認
Matthias Kuppler, Christoph Kern, Ruben L. Bach, Frauke Kreuter(参考訳) 強力な予測アルゴリズムの出現は、政府支出や福祉支援などの不足資源の配分に関する高い意思決定の自動化につながった。 この自動化は、脆弱で歴史的に不利なグループに対する望ましくない差別を継続するリスクを負う。 計算機科学やその他の分野におけるアルゴリズムの識別に関する研究は、差別的アルゴリズムを検出・修正するための公平度メトリクスを多用した。 分散的正義に関する強固な社会学的・哲学的言説を考察し,著明な公平度指標の限界と問題点を明らかにする。 機会の平等を実践する指標は、資源割り当てが保存性に基づいている場合にのみ適用されるが、アロケーションが平等主義、十分性、優先順位に関する懸念を反映すべきときに失敗することを示す。 予測タスクと意思決定タスクをきれいに区別することで、公平な機械学習の研究は分散的正義に関する豊かな文献をよりうまく活用できると論じている。

The advent of powerful prediction algorithms led to increased automation of high-stake decisions regarding the allocation of scarce resources such as government spending and welfare support. This automation bears the risk of perpetuating unwanted discrimination against vulnerable and historically disadvantaged groups. Research on algorithmic discrimination in computer science and other disciplines developed a plethora of fairness metrics to detect and correct discriminatory algorithms. Drawing on robust sociological and philosophical discourse on distributive justice, we identify the limitations and problematic implications of prominent fairness metrics. We show that metrics implementing equality of opportunity only apply when resource allocations are based on deservingness, but fail when allocations should reflect concerns about egalitarianism, sufficiency, and priority. We argue that by cleanly distinguishing between prediction tasks and decision tasks, research on fair machine learning could take better advantage of the rich literature on distributive justice.
翻訳日:2021-05-07 10:46:53 公開日:2021-05-06
# 逆ロバスト性を考慮した高精度校正解析

A Finer Calibration Analysis for Adversarial Robustness ( http://arxiv.org/abs/2105.01550v2 )

ライセンス: Link先を確認
Pranjal Awasthi, Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) 本稿では,逆ロバスト分類のための$h$-calibrationのより一般的な解析を行う。 キャリブレーションのより細かい定義を採用することで、以前の研究で研究された制限された仮説セット以上の設定をカバーできる。 特に、私たちの結果は機械学習で使われる一般的な仮説セットに当てはまる。 我々は、以前の校正結果(Bao et al., 2020)を修正し、他の結果を一般化する(Awasthi et al., 2021)。 さらに, キャリブレーションの結果と, Awasthiらによる従来の研究とを合わせて検討した。 (2021) は、一般的な仮説集合をカバーするより一般的な$H$一貫性の結果をもたらす。

We present a more general analysis of $H$-calibration for adversarially robust classification. By adopting a finer definition of calibration, we can cover settings beyond the restricted hypothesis sets studied in previous work. In particular, our results hold for most common hypothesis sets used in machine learning. We both fix some previous calibration results (Bao et al., 2020) and generalize others (Awasthi et al., 2021). Moreover, our calibration results, combined with the previous study of consistency by Awasthi et al. (2021), also lead to more general $H$-consistency results covering common hypothesis sets.
翻訳日:2021-05-07 10:46:38 公開日:2021-05-06
# 深層ニューラルネットワークにおける長距離メモリ効果の理解

Understanding Long Range Memory Effects in Deep Neural Networks ( http://arxiv.org/abs/2105.02062v2 )

ライセンス: Link先を確認
Chengli Tan, Jiangshe Zhang, and Junmin Liu(参考訳) \textit{Stochastic gradient descent} (SGD) は、ディープラーニングにおいて基本的な重要性である。 その単純さにもかかわらず、その効果を解明することは依然として困難である。 従来, SGD の成功は, トレーニングプロセスで発生する textit{stochastic gradient noise} (SGN) に起因する。 この一般的なコンセンサスに基づいて、SGD はブラウンあるいはL\'evy の安定運動によって駆動される \textit{stochastic differential equation} (SDE) のオイラー・丸山離散化として頻繁に扱われ、解析される。 本研究では,SGNがガウス的でも安定的でもないことを論じる。 代わりに、SGN級数に現れる長期相関に着想を得て、SGD を \textit{fractional Brownian motion} (FBM) によって駆動される SDE の離散化と見なすことができる。 したがって、sgdダイナミクスの異なる収束挙動が十分に決定される。 さらに、FBMにより駆動されるSDEの第1通過時間はほぼ導出される。 これはより大きなハーストパラメータの脱出率が低いことを示し、したがってsgdは平坦なミニマムでより長く保たれる。 これは、SGDがよく一般化する平坦なミニマを好むよく知られた現象と一致する。 4つの実験グループを用いて予測を検証し,様々なモデルアーキテクチャ,データセット,トレーニング戦略において長期記憶効果が持続することが実証された。 我々の研究は新たな視点を開き、SGDのより深い理解に寄与するかもしれない。

\textit{Stochastic gradient descent} (SGD) is of fundamental importance in deep learning. Despite its simplicity, elucidating its efficacy remains challenging. Conventionally, the success of SGD is attributed to the \textit{stochastic gradient noise} (SGN) incurred in the training process. Based on this general consensus, SGD is frequently treated and analyzed as the Euler-Maruyama discretization of a \textit{stochastic differential equation} (SDE) driven by either Brownian or L\'evy stable motion. In this study, we argue that SGN is neither Gaussian nor stable. Instead, inspired by the long-time correlation emerging in SGN series, we propose that SGD can be viewed as a discretization of an SDE driven by \textit{fractional Brownian motion} (FBM). Accordingly, the different convergence behavior of SGD dynamics is well grounded. Moreover, the first passage time of an SDE driven by FBM is approximately derived. This indicates a lower escaping rate for a larger Hurst parameter, and thus SGD stays longer in flat minima. This happens to coincide with the well-known phenomenon that SGD favors flat minima that generalize well. Four groups of experiments are conducted to validate our conjecture, and it is demonstrated that long-range memory effects persist across various model architectures, datasets, and training strategies. Our study opens up a new perspective and may contribute to a better understanding of SGD.
翻訳日:2021-05-07 10:46:30 公開日:2021-05-06
# XAI-KG:製造におけるXAIと意思決定を支援する知識グラフ

XAI-KG: knowledge graph to support XAI and decision-making in manufacturing ( http://arxiv.org/abs/2105.01929v2 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Klemen Kenda, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 人工知能の採用の増加は、その予測の背後にある人工知能モデルの推論を理解するための正確な予測と手段を必要とする。 説明可能な人工知能(XAI)は、モデルが特定の予測を発行した理由の手がかりを提供することを目的としている。 このような手がかりは、特定の予測に影響を及ぼす機能に関する洞察を提供し、予測が信頼できるかどうかをユーザーに判断させることから、意思決定において最も重要である。 ブラックボックスモデルを説明するために多くの技術が開発されたが、これらの説明の質とその意思決定への影響を評価する研究はほとんど行われなかった。 本稿では,予測,予測説明,推奨意思決定オプション,ユーザ行動に関するフィードバック収集を支援するオントロジーと知識グラフを提案する。 このように、予測モデル、説明、意思決定オプションの推奨を改善する手段を提供する。 我々は、需要予測領域の知識グラフを調整し、実世界のデータに基づいて検証する。

The increasing adoption of artificial intelligence requires accurate forecasts and means to understand the reasoning of artificial intelligence models behind such a forecast. Explainable Artificial Intelligence (XAI) aims to provide cues for why a model issued a certain prediction. Such cues are of utmost importance to decision-making since they provide insights on the features that influenced most certain forecasts and let the user decide if the forecast can be trusted. Though many techniques were developed to explain black-box models, little research was done on assessing the quality of those explanations and their influence on decision-making. We propose an ontology and knowledge graph to support collecting feedback regarding forecasts, forecast explanations, recommended decision-making options, and user actions. This way, we provide means to improve forecasting models, explanations, and recommendations of decision-making options. We tailor the knowledge graph for the domain of demand forecasting and validate it on real-world data.
翻訳日:2021-05-07 10:46:08 公開日:2021-05-06
# ISTR: トランスフォーマーによるエンドツーエンドインスタンスセグメンテーション

ISTR: End-to-End Instance Segmentation with Transformers ( http://arxiv.org/abs/2105.00637v2 )

ライセンス: Link先を確認
Jie Hu, Liujuan Cao, Yao Lu, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Ling Shao, Rongrong Ji(参考訳) エンドツーエンドのパラダイムは、様々なディープラーニングベースのコンピュータビジョンモデルの精度を大幅に向上させる。 この目的のために、オブジェクト検出のようなタスクは、二部マッチングに基づくセット損失によるトレーニングによる非最大抑制を取り除くなど、非エンドツーエンドコンポーネントを置き換えることでアップグレードされている。 しかし、このようなアップグレードは、オブジェクト検出に比べて出力次元がかなり大きいため、インスタンスセグメンテーションには適用できない。 本稿では,この方式の最初のエンドツーエンドフレームワークである ISTR と呼ばれるインスタンス分割変換器を提案する。 ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。 さらに、istrは、既存のトップダウンおよびボトムアップフレームワークと比較して、インスタンスセグメンテーションを達成する新しい方法を提供する、反復的なリファインメント戦略で、検出とセグメンテーションを同時に実施する。 ISTRは、提案したエンドツーエンドメカニズムから、近似に基づく準最適埋め込みであっても、最先端の性能を示す。 具体的には、ResNet50-FPNを用いて46.8/38.6ボックス/マスクAP、MS COCOデータセット上でResNet101-FPNを用いて48.1/39.9ボックス/マスクAPを得る。 定量的および定性的な結果は、インスタンスレベルの認識のための固体ベースラインとしてのISTRの有望な可能性を明らかにする。 コードは、https://github.com/h ujiecpp/ISTR.comで公開されている。

End-to-end paradigms significantly improve the accuracy of various deep-learning-based computer vision models. To this end, tasks like object detection have been upgraded by replacing non-end-to-end components, such as removing non-maximum suppression by training with a set loss based on bipartite matching. However, such an upgrade is not applicable to instance segmentation, due to its significantly higher output dimensions compared to object detection. In this paper, we propose an instance segmentation Transformer, termed ISTR, which is the first end-to-end framework of its kind. ISTR predicts low-dimensional mask embeddings, and matches them with ground truth mask embeddings for the set loss. Besides, ISTR concurrently conducts detection and segmentation with a recurrent refinement strategy, which provides a new way to achieve instance segmentation compared to the existing top-down and bottom-up frameworks. Benefiting from the proposed end-to-end mechanism, ISTR demonstrates state-of-the-art performance even with approximation-based suboptimal embeddings. Specifically, ISTR obtains a 46.8/38.6 box/mask AP using ResNet50-FPN, and a 48.1/39.9 box/mask AP using ResNet101-FPN, on the MS COCO dataset. Quantitative and qualitative results reveal the promising potential of ISTR as a solid baseline for instance-level recognition. Code has been made available at: https://github.com/h ujiecpp/ISTR.
翻訳日:2021-05-07 10:45:53 公開日:2021-05-06
# function4d: ごく少ないrgbdセンサーから人間の体積をリアルタイムに捉える

Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors ( http://arxiv.org/abs/2105.01859v2 )

ライセンス: Link先を確認
Tao Yu, Zerong Zheng, Kaiwen Guo, Pengpeng Liu, Qionghai Dai, Yebin Liu(参考訳) 人間のボリュームキャプチャは、コンピュータビジョンとコンピュータグラフィックスにおける長年のトピックである。 高度なオフラインシステムによって高品質な結果が得られるが、複雑なシナリオ、特に軽量なセットアップを使ったリアルタイムな人間のボリュームキャプチャは依然として困難である。 本稿では,時間的体積融合と深部暗黙関数を組み合わせた人間の体積キャプチャー手法を提案する。 高品質かつ時間的連続的な再構成を実現するために,近接深度観測と位相的一貫性を融合する動的すべり融合を提案する。 さらに, 詳細かつ完全な表面生成のために, 深度入力の幾何学的詳細を保存できるだけでなく, より妥当なテクスチャ結果を生成するRGBD入力の奥深い暗黙関数を提案する。 その結果,提案手法は,ビューの疎度,一般化能力,再構築品質,実行時の効率において,既存手法よりも優れていた。

Human volumetric capture is a long-standing topic in computer vision and computer graphics. Although high-quality results can be achieved using sophisticated off-line systems, real-time human volumetric capture of complex scenarios, especially using light-weight setups, remains challenging. In this paper, we propose a human volumetric capture method that combines temporal volumetric fusion and deep implicit functions. To achieve high-quality and temporal-continuous reconstruction, we propose dynamic sliding fusion to fuse neighboring depth observations together with topology consistency. Moreover, for detailed and complete surface generation, we propose detail-preserving deep implicit functions for RGBD input which can not only preserve the geometric details on the depth inputs but also generate more plausible texturing results. Results and experiments show that our method outperforms existing methods in terms of view sparsity, generalization capacity, reconstruction quality, and run-time efficiency.
翻訳日:2021-05-07 10:45:28 公開日:2021-05-06
# 非構造的再帰を伴う多項式グラフ解析

Polynomial Graph Parsing with Non-Structural Reentrancies ( http://arxiv.org/abs/2105.02033v2 )

ライセンス: Link先を確認
Johanna Bj\"orklund, Frank Drewes, and Anna Jonsson(参考訳) グラフに基づく意味表現は自然言語処理において有用であり、言語概念をノードとして表現することは単純で効果的であることが多い。 セマンティックグラフの言語を表現できるほど強力で効率的な解析が可能な生成デバイスを見つけるために、いくつかの試みがなされている。 グラフ拡張文法(graph extension grammar)は、グラフ上の代数と、その代数の演算上で式を生成する正規木文法からなる。 操作の設計により、これらの文法は非構造的な相互関係を持つグラフを生成することができ、抽象的意味表現のような形式的手法では過剰に一般的であるが、既存の装置がほとんどサポートしていないノード共有の一種である。 グラフ拡張文法の構文解析アルゴリズムを提案し、多項式時間で正しいことが証明された。

Graph-based semantic representations are valuable in natural language processing, where it is often simple and effective to represent linguistic concepts as nodes, and relations as edges between them. Several attempts has been made to find a generative device that is sufficiently powerful to represent languages of semantic graphs, while at the same allowing efficient parsing. We add to this line of work by introducing graph extension grammar, which consists of an algebra over graphs together with a regular tree grammar that generates expressions over the operations of the algebra. Due to the design of the operations, these grammars can generate graphs with non-structural reentrancies; a type of node-sharing that is excessively common in formalisms such as abstract meaning representation, but for which existing devices offer little support. We provide a parsing algorithm for graph extension grammars, which is proved to be correct and run in polynomial time.
翻訳日:2021-05-07 10:45:13 公開日:2021-05-06
# 指紋による局所化の精度を高めるための合成データの利用-深層学習アプローチ

Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based Localization: A Deep Learning Approach ( http://arxiv.org/abs/2105.01903v2 )

ライセンス: Link先を確認
Mohammad Nabati, Hojjat Navidan, Reza Shahbazian, Seyed Ali Ghorashi and David Windridge(参考訳) 人間中心のデータ収集は一般的にコストがかかり、プライバシーの問題を引き起こす。 クラウドソースデータ収集や半教師付きアルゴリズムの使用など,このコスト削減のためのさまざまなソリューションが文献で提案されている。 しかし、半教師付きアルゴリズムはラベルのないデータのソースを必要とし、クラウドソーシング手法はアクティブな参加者の数を必要とする。 もう一つの受動的データ収集モダリティは指紋ベースのローカライゼーションである。 このような方法は、無線センサネットワークにおける受信信号強度(RSS)またはチャネル状態情報(CSI)を用いて、利用者を屋内/屋外環境にローカライズする。 本稿では,指紋による位置推定におけるトレーニングデータ収集コストを,合成データを用いて削減する手法を提案する。 GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために使用され、それに続いて、実際の収集データを増大させ、全体の位置決め精度を高めるために使用できる合成データを生成する。 ベンチマークデータセットにおける実験結果から,提案手法を適用し,10%の収集データと90%の合成データの組み合わせを用いることで,収集した全データを用いて得られる測位精度と本質的に類似した測位精度が得られることがわかった。 つまり、GAN生成合成データを使用することで、90%少ない実データを使用することで、許容精度を達成しつつ、データ収集コストを削減できる。

Human-centered data collection is typically costly and implicates issues of privacy. Various solutions have been proposed in the literature to reduce this cost, such as crowdsourced data collection, or the use of semi-supervised algorithms. However, semi-supervised algorithms require a source of unlabeled data, and crowd-sourcing methods require numbers of active participants. An alternative passive data collection modality is fingerprint-based localization. Such methods use received signal strength (RSS) or channel state information (CSI) in wireless sensor networks to localize users in indoor/outdoor environments. In this paper, we introduce a novel approach to reduce training data collection costs in fingerprint-based localization by using synthetic data. Generative adversarial networks (GANs) are used to learn the distribution of a limited sample of collected data and, following this, to produce synthetic data that can be used to augment the real collected data in order to increase overall positioning accuracy. Experimental results on a benchmark dataset show that by applying the proposed method and using a combination of 10% collected data and 90% synthetic data, we can obtain essentially similar positioning accuracy to that which would be obtained by using the full set of collected data. This means that by employing GAN-generated synthetic data, we can use 90% less real data, thereby reduce data-collection costs while achieving acceptable accuracy.
翻訳日:2021-05-07 10:44:59 公開日:2021-05-06