このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210127となっている論文です。

PDF登録状況(公開日: 20210127)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 半静的・混み合った環境におけるロボットの解凍に対する目標到達行動 [全文訳有]

Target Reaching Behaviour for Unfreezing the Robot in a Semi-Static and Crowded Environment ( http://arxiv.org/abs/2012.01206v2 )

ライセンス: CC BY 4.0
Arturo Cruz-Maya(参考訳) 人間の半静的で混み合った環境でのロボットナビゲーションは、人間が道に立っているためロボットが動くことができず、他の経路が存在しないという凍った問題につながる可能性がある。 ロボットナビゲーションの古典的なアプローチは、この問題に対する解決策を提供していない。 このような状況下では、ロボットは人間と対話して、無敵の障害物として考えるのではなく、その経路をクリアすることができる。 本研究では,人間の存在により凍結したロボットの進路をクリアする社会規範に不満を呈する車輪付きヒューマノイドロボットに対して,ロボットの動作を提案する。 動作は2つのモジュールで構成される: 1)人間の手と腕を検出するために訓練されたyolo v3アルゴリズムを使用する検出モジュール。 2) 近似ポリシ最適化アルゴリズムを用いてシミュレーションで訓練されたポリシーを利用するジェスチャモジュール。 2つのモデルのオーケストレーションはrosフレームワークを使って行われる。

Robot navigation in human semi-static and crowded environments can lead to the freezing problem, where the robot can not move due to the presence of humans standing on its path and no other path is available. Classical approaches of robot navigation do not provide a solution for this problem. In such situations, the robot could interact with the humans in order to clear its path instead of considering them as unanimated obstacles. In this work, we propose a robot behavior for a wheeled humanoid robot that complains with social norms for clearing its path when the robot is frozen due to the presence of humans. The behavior consists of two modules: 1) A detection module, which make use of the Yolo v3 algorithm trained to detect human hands and human arms. 2) A gesture module, which make use of a policy trained in simulation using the Proximal Policy Optimization algorithm. Orchestration of the two models is done using the ROS framework.
翻訳日:2021-05-30 10:58:08 公開日:2021-01-27
# 歪ガウス過程を持つ閉形式非パラメトリック回帰・分類・選好・混合問題の統一的枠組み

A unified framework for closed-form nonparametric regression, classification, preference and mixed problems with Skew Gaussian Processes ( http://arxiv.org/abs/2012.06846v2 )

ライセンス: Link先を確認
Alessio Benavoli and Dario Azzimonti and Dario Piga(参考訳) スキューゲージ過程 (skewgps) は有限次元ベクトル上の多変量統一スキュー正規分布を函数上の分布へと拡張する。 SkewGP はガウス過程よりも一般的で柔軟であり、SkewGP は非対称分布を表すこともある。 最近のコントリビューションでは、SkiwGPとプロビット確率が共役であることを示し、非パラメトリックバイナリ分類と選好学習の正確な後部を計算できることを示した。 本稿では,従来の結果を一般化し,SkiwGPが正規およびアフィン確率の両方と共役であること,さらに一般にそれらの積と共役であることを証明する。 これにより, (i) 分類, 選好, 数値回帰, 順序回帰, 混合問題を統一的な枠組みで処理することが可能となり, (ii) 対応する後方分布に対する閉形式表現が導出される。 我々は,SkewGPに基づく提案フレームワークが,アクティブラーニングやベイズ最適化においてガウス的プロセスよりも優れた性能を提供することを示す。 これら2つのタスクは、実験とデータサイエンスの設計に基本である。

Skew-Gaussian processes (SkewGPs) extend the multivariate Unified Skew-Normal distributions over finite dimensional vectors to distribution over functions. SkewGPs are more general and flexible than Gaussian processes, as SkewGPs may also represent asymmetric distributions. In a recent contribution we showed that SkewGP and probit likelihood are conjugate, which allows us to compute the exact posterior for non-parametric binary classification and preference learning. In this paper, we generalize previous results and we prove that SkewGP is conjugate with both the normal and affine probit likelihood, and more in general, with their product. This allows us to (i) handle classification, preference, numeric and ordinal regression, and mixed problems in a unified framework; (ii) derive closed-form expression for the corresponding posterior distributions. We show empirically that the proposed framework based on SkewGP provides better performance than Gaussian processes in active learning and Bayesian (constrained) optimization. These two tasks are fundamental for design of experiments and in Data Science.
翻訳日:2021-05-10 05:21:57 公開日:2021-01-27
# bayes meets entailment and prediction: non-monotonicity, paraconsistency and prediction accuracy を用いたコモンセンス推論

Bayes Meets Entailment and Prediction: Commonsense Reasoning with Non-monotonicity, Paraconsistency and Predictive Accuracy ( http://arxiv.org/abs/2012.08479v3 )

ライセンス: Link先を確認
Hiroyuki Kido, Keishi Okamoto(参考訳) 近年、神経科学と人工知能におけるベイズ法の成功は、脳がベイズ機械であるという仮説を生み出した。 論理学と学習はどちらも人間の脳のプラクティスであるため、論理的推論と機械学習の両方の基礎にベイズ解釈があるという別の仮説が導かれる。 本稿では,論理的帰結関係の生成モデルを提案する。 これは、ある文の真理値が、世界の状態の確率分布から確率的に生成される過程を定式化する。 生成モデルは,古典的な結果関係,矛盾する結果関係,非単調な結果関係を特徴付ける。 特に、生成モデルは、一貫性のない知識の推論においてそれらを上回る新しい結果の関係を与える。 また,生成モデルは,カグルタイタニックデータセットの予測精度と複雑性において,いくつかの代表的なアルゴリズムを上回る新しい分類アルゴリズムを与えることを示した。

The recent success of Bayesian methods in neuroscience and artificial intelligence gives rise to the hypothesis that the brain is a Bayesian machine. Since logic and learning are both practices of the human brain, it leads to another hypothesis that there is a Bayesian interpretation underlying both logical reasoning and machine learning. In this paper, we introduce a generative model of logical consequence relations. It formalises the process of how the truth value of a sentence is probabilistically generated from the probability distribution over states of the world. We show that the generative model characterises a classical consequence relation, paraconsistent consequence relation and nonmonotonic consequence relation. In particular, the generative model gives a new consequence relation that outperforms them in reasoning with inconsistent knowledge. We also show that the generative model gives a new classification algorithm that outperforms several representative algorithms in predictive accuracy and complexity on the Kaggle Titanic dataset.
翻訳日:2021-05-07 05:27:08 公開日:2021-01-27
# ヨガは好き? ソーシャルおよびテキスト情報を用いたTwitterユーザーのタイプとモチベーションの理解

Do You Do Yoga? Understanding Twitter Users' Types and Motivations using Social and Textual Information ( http://arxiv.org/abs/2012.09332v3 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) ソーシャルメディアのデータを活用して人々のライフスタイルの選択を理解することは、探究するエキサイティングな領域ですが、データの多視点な定式化が必要です。 本稿では,ユーザの社会的・テキスト的情報を取り込んで行動や動機を理解することで,ニューラルネットワークと注意機構の融合を基盤とした組込みモデルを提案する。 Twitterのツイートは「ヨガ」に重点を置いています。 本モデルでは,2つの下流課題,すなわち,実践者やプロモーション(ヨガ・スタジオ/ジャムの促進),ユーザモチベーションの発見,すなわちユーザモチベーションの発見について実証する。 健康上の利益 スピリチュアリティ ヨガについてツイート/リツイートする愛 ヨガの練習はしない

Leveraging social media data to understand people's lifestyle choices is an exciting domain to explore but requires a multiview formulation of the data. In this paper, we propose a joint embedding model based on the fusion of neural networks with attention mechanism by incorporating social and textual information of users to understand their activities and motivations. We use well-being related tweets from Twitter, focusing on 'Yoga'. We demonstrate our model on two downstream tasks: (i) finding user type such as either practitioner or promotional (promoting yoga studio/gym), other; (ii) finding user motivation i.e. health benefit, spirituality, love to tweet/retweet about yoga but do not practice yoga.
翻訳日:2021-05-02 07:41:23 公開日:2021-01-27
# 乱流域における観測システム間の相乗効果

Synergy between Observation Systems Oceanic in Turbulent Regions ( http://arxiv.org/abs/2012.14516v2 )

ライセンス: Link先を確認
Van-Khoa Nguyen, Santiago Agudelo(参考訳) 海洋力学は、複雑な気候現象における海洋の役割を決定するためのインキュメントの源となっている。 現在の観測システムは3次元海洋データに対して十分な統計的精度を達成するのに限界がある。 内部海洋構造の挙動を記述する上で重要な知識である。 本稿では,ガルフストリームおよび黒潮流の拡張における海洋力学のモデル化において,潜在クラス回帰と深部回帰ニューラルネットワークを探索するデータ駆動型アプローチを提案する。 その結果, 乱流域の空間的および時間的次元において, 塩分濃度や温度などの海洋特性を理解する上で有望なデータ駆動方向が得られた。 ソースコードはhttps://github.com/v 18nguye/gulfstream-l rmとhttps://github.com/s agudelor/kuroshioで公開しています。

Ocean dynamics constitute a source of incertitude in determining the ocean's role in complex climatic phenomena. Current observation systems have limitations in achieving sufficiently statistical precision for three-dimensional oceanic data. It is crucial knowledge to describe the behavior of internal ocean structures. We present the data-driven approaches which explore latent class regressions and deep regression neural networks in modeling ocean dynamics in the extensions of Gulf Stream and Kuroshio currents. The obtained results show a promising data-driven direction for understanding the ocean's characteristics, including salinity and temperature, in both spatial and temporal dimensions in the turbulent regions. Our source codes are publicly available at https://github.com/v 18nguye/gulfstream-l rm and at https://github.com/s agudelor/Kuroshio.
翻訳日:2021-04-19 10:58:35 公開日:2021-01-27
# 非自己回帰翻訳における語彙選択の理解と改善

Understanding and Improving Lexical Choice in Non-Autoregressive Translation ( http://arxiv.org/abs/2012.14583v2 )

ライセンス: Link先を確認
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu(参考訳) 知識蒸留(KD)は,自己回帰型教師モデルを用いて生データの複雑さを低減し,非自己回帰型翻訳(NAT)モデルの訓練に不可欠である。 本研究では,この学習の副作用として,低頻度単語に対する語彙選択誤りが教師モデルからNATモデルに伝播されることを実証的に示す。 この問題を解決するために,natモデルに生データを公開し,蒸留データに欠落している低周波単語の有用な情報を復元することを提案する。 そこで本研究では,NATモデルの語彙選択と生データに埋め込まれたデータを比較することで,Kulback-Leibler分散項を導入する。 言語ペアとモデルアーキテクチャにまたがる実験結果は,提案手法の有効性と普遍性を示している。 低周波単語の語彙選択誤差を低減し,本手法が性能の向上に寄与することを示す。 我々の手法は、WMT14英語とWMT16ルーマニア英語のデータセットをそれぞれ27.8 BLEU点と33.8 BLEU点に向上させる。 ソースコードはリリースされます。

Knowledge distillation (KD) is essential for training non-autoregressive translation (NAT) models by reducing the complexity of the raw data with an autoregressive teacher model. In this study, we empirically show that as a side effect of this training, the lexical choice errors on low-frequency words are propagated to the NAT model from the teacher model. To alleviate this problem, we propose to expose the raw data to NAT models to restore the useful information of low-frequency words, which are missed in the distilled data. To this end, we introduce an extra Kullback-Leibler divergence term derived by comparing the lexical choice of NAT model and that embedded in the raw data. Experimental results across language pairs and model architectures demonstrate the effectiveness and universality of the proposed approach. Extensive analyses confirm our claim that our approach improves performance by reducing the lexical choice errors on low-frequency words. Encouragingly, our approach pushes the SOTA NAT performance on the WMT14 English-German and WMT16 Romanian-English datasets up to 27.8 and 33.8 BLEU points, respectively. The source code will be released.
翻訳日:2021-04-18 20:40:19 公開日:2021-01-27
# カラビヤウ計量のニューラルネットワーク近似

Neural Network Approximations for Calabi-Yau Metrics ( http://arxiv.org/abs/2012.15821v2 )

ライセンス: Link先を確認
Vishnu Jejjala, Damian Kaloni Mayorga Pena, Challenger Mishra(参考訳) カラビ・ヤウ3次元多様体のリッチ平坦度は解析的には知られていない。 本研究では,Fermat quintic,Dwork quintic,Tian-Yau 多様体に対する数値平坦な計量を推論するために,機械学習の手法を用いる。 本研究は,2次元および3次元のカラビ・ヤウ多様体に対して,リッチ平坦ケーラー計量を近似できる単一ニューラルネットワークアーキテクチャを用いる。 本研究では,3桁のトレーニングを行った後,リッチ平坦性を評価する尺度が減少することを示す。 これは、改善がより控えめな検証セットに基づいています。 最後に、多様体の離散対称性は計量を学習する過程で学習できることを実証する。

Ricci flat metrics for Calabi-Yau threefolds are not known analytically. In this work, we employ techniques from machine learning to deduce numerical flat metrics for the Fermat quintic, for the Dwork quintic, and for the Tian-Yau manifold. This investigation employs a single neural network architecture that is capable of approximating Ricci flat Kaehler metrics for several Calabi-Yau manifolds of dimensions two and three. We show that measures that assess the Ricci flatness of the geometry decrease after training by three orders of magnitude. This is corroborated on the validation set, where the improvement is more modest. Finally, we demonstrate that discrete symmetries of manifolds can be learned in the process of learning the metric.
翻訳日:2021-04-17 16:55:24 公開日:2021-01-27
# (参考訳) 再発性疾患に対する能動的スクリーニング : 強化学習アプローチ [全文訳有]

Active Screening for Recurrent Diseases: A Reinforcement Learning Approach ( http://arxiv.org/abs/2101.02766v2 )

ライセンス: CC BY 4.0
Han-Ching Ou, Haipeng Chen, Shahin Jabbari and Milind Tambe(参考訳) アクティブスクリーニングは、結核やインフルエンザなどの再発する感染症の拡散を制御する一般的なアプローチである。 このアプローチでは、健康労働者は定期的にスクリーニングのための人口のサブセットを選択する。 しかし、医療従事者の数が限られているため、人口のごく一部のみが一定期間に訪れることができる。 病気の再発と急速な拡散を考えると、長期的な地平線上での感染数の最小化が目的である。 アクティブスクリーニングは、人々のネットワークとその接続に対する逐次組合せ最適化として形式化することができる。 この形式化における主な計算上の課題は、(i)問題の組合せ的性質、(ii)逐次計画の必要性、(iii)人口の感染状態の不確実性から生じる。 アクティブスクリーニングに関するこれまでの研究は、現在の介入の今後の効果を十分に考慮しながら、大規模なタイムホライズにスケールできない。 本稿では,上記の課題に対処すべく,いくつかの革新的適応を含む深層q-networks(dqn)に基づく新しい強化学習(rl)手法を提案する。 まず、グラフ畳み込みネットワーク(GCN)を用いて、基礎となる接触ネットワークのノード相関を利用するQ関数を表現する。 第二に、各時間における組合せ最適化問題の解決を避けるために、ノードセットの選択を決定のサブシーケンスとして分解し、さらに階層的な方法で問題を解く2段階のRLフレームワークを設計する。 最後に、報酬不足から生じるRLの緩やかな収束を高速化するために、カリキュラム学習のアイデアを階層的なRLアプローチに取り入れる。 実世界の複数のネットワーク上でRLアルゴリズムを評価する。

Active screening is a common approach in controlling the spread of recurring infectious diseases such as tuberculosis and influenza. In this approach, health workers periodically select a subset of population for screening. However, given the limited number of health workers, only a small subset of the population can be visited in any given time period. Given the recurrent nature of the disease and rapid spreading, the goal is to minimize the number of infections over a long time horizon. Active screening can be formalized as a sequential combinatorial optimization over the network of people and their connections. The main computational challenges in this formalization arise from i) the combinatorial nature of the problem, ii) the need of sequential planning and iii) the uncertainties in the infectiousness states of the population. Previous works on active screening fail to scale to large time horizon while fully considering the future effect of current interventions. In this paper, we propose a novel reinforcement learning (RL) approach based on Deep Q-Networks (DQN), with several innovative adaptations that are designed to address the above challenges. First, we use graph convolutional networks (GCNs) to represent the Q-function that exploit the node correlations of the underlying contact network. Second, to avoid solving a combinatorial optimization problem in each time period, we decompose the node set selection as a sub-sequence of decisions, and further design a two-level RL framework that solves the problem in a hierarchical way. Finally, to speed-up the slow convergence of RL which arises from reward sparseness, we incorporate ideas from curriculum learning into our hierarchical RL approach. We evaluate our RL algorithm on several real-world networks.
翻訳日:2021-04-10 14:36:05 公開日:2021-01-27
# (参考訳) trnews: ニュースレコメンデーションのための不均一なユーザ-関心転送学習 [全文訳有]

TrNews: Heterogeneous User-Interest Transfer Learning for News Recommendation ( http://arxiv.org/abs/2101.05611v2 )

ライセンス: CC BY 4.0
Guangneng Hu, Qiang Yang(参考訳) 今後,未確認ユーザを対象としたクロスコーパスニュースレコメンデーションの解決方法について検討する。 これは、従来のコンテンツベースのレコメンデーションテクニックが失敗することが多い問題である。 幸いなことに、現実のレコメンデーションサービスでは、一部のパブリッシャ(例えばデイリーニュース)は、新しくデプロイされたパブリッシャ(例えば政治ニュース)に使用できる多くのコンシューマーを持つ大きなコーパスを蓄積したかもしれない。 既存のコーパスを活用するために,情報源コーパスから対象コーパスへ知識を転送するためのニュースレコメンデーションのための転送学習モデル(trnews)を提案する。 コーパス間の異なるユーザ関心と異なる単語分布の不均一性に対処するため、トランスレータベースのトランスファー学習戦略を設計し、ソースとターゲットコーパス間の表現マッピングを学習する。 学習された翻訳者は、将来、見えないユーザのための表現を生成するのに使うことができる。 trnewsが4つのメトリクスの観点から様々なベースラインよりも優れていることを実世界のデータセットで実験を通して示す。 また,既存の転送戦略において,翻訳者が有効であることを示す。

We investigate how to solve the cross-corpus news recommendation for unseen users in the future. This is a problem where traditional content-based recommendation techniques often fail. Luckily, in real-world recommendation services, some publisher (e.g., Daily news) may have accumulated a large corpus with lots of consumers which can be used for a newly deployed publisher (e.g., Political news). To take advantage of the existing corpus, we propose a transfer learning model (dubbed as TrNews) for news recommendation to transfer the knowledge from a source corpus to a target corpus. To tackle the heterogeneity of different user interests and of different word distributions across corpora, we design a translator-based transfer-learning strategy to learn a representation mapping between source and target corpora. The learned translator can be used to generate representations for unseen users in the future. We show through experiments on real-world datasets that TrNews is better than various baselines in terms of four metrics. We also show that our translator is effective among existing transfer strategies.
翻訳日:2021-04-04 08:28:35 公開日:2021-01-27
# アウト・オブ・ディストリビューション事例と対話的説明がAI意思決定に及ぼす影響の理解

Understanding the Effect of Out-of-distribution Examples and Interactive Explanations on Human-AI Decision Making ( http://arxiv.org/abs/2101.05303v2 )

ライセンス: Link先を確認
Han Liu, Vivian Lai, Chenhao Tan(参考訳) AIは、社会的に重要な領域における人間の意思決定を改善するという約束を持っているが、人間とAIのチームが、挑戦的な予測タスク(補完的なパフォーマンスとしても知られる)において、AI単独と人間単独を確実に上回ることができるのかは、未解決の疑問である。 相補的なパフォーマンスを達成する際のギャップを理解するために,2つの方向を探究する。 まず、典型的な実験的なセットアップは、人間とAIチームの可能性を制限します。 分布シフトによる分布変化によるaiアウトオブディストリビューションの低減を考慮し、異なる分布型による実験をデザインし、分布内および分布外事例のヒューマンパフォーマンスについて検討する。 第2に、人間がAI支援に積極的に関与できるように、インタラクティブな説明をサポートする新しいインターフェースを開発する。 3つのタスクにまたがる対人ユーザ研究と大規模ランダム化実験を用いて、分布と分布の差を明確に示し、対話的説明のための混合結果を観察する: 対話的説明はai支援の有用性の人間の知覚を改善するが、それらは人間のバイアスを拡大し、性能改善を限定する可能性がある。 全体として、我々の研究は重要な課題と、補完的なパフォーマンスへの今後の方向性を指摘している。

Although AI holds promise for improving human decision making in societally critical domains, it remains an open question how human-AI teams can reliably outperform AI alone and human alone in challenging prediction tasks (also known as complementary performance). We explore two directions to understand the gaps in achieving complementary performance. First, we argue that the typical experimental setup limits the potential of human-AI teams. To account for lower AI performance out-of-distribution than in-distribution because of distribution shift, we design experiments with different distribution types and investigate human performance for both in-distribution and out-of-distribution examples. Second, we develop novel interfaces to support interactive explanations so that humans can actively engage with AI assistance. Using in-person user study and large-scale randomized experiments across three tasks, we demonstrate a clear difference between in-distribution and out-of-distribution, and observe mixed results for interactive explanations: while interactive explanations improve human perception of AI assistance's usefulness, they may magnify human biases and lead to limited performance improvement. Overall, our work points out critical challenges and future directions towards complementary performance.
翻訳日:2021-03-30 08:04:06 公開日:2021-01-27
# ディープナローフィードフォワードネットワークを用いた非ユークリッド普遍近似の定量化と基礎的障害

Quantitative Rates and Fundamental Obstructions to Non-Euclidean Universal Approximation with Deep Narrow Feed-Forward Networks ( http://arxiv.org/abs/2101.05390v2 )

ライセンス: Link先を確認
Anastasis Kratsios, Leonie Papon(参考訳) 学習不能な入力層と出力層を構造化することにより、フィードフォワードの普遍近似特性は、最近、ユークリッド入力空間 X と出力空間 Y の広い範囲にわたって拡張されている。 我々は、これらの「深部幾何フィードフォワードニューラルネットワーク」(DGN)に必要な狭い層数を定量化し、任意の連続関数をC(X,Y)$で均一にコンパクトに近似する。 DGN アーキテクチャは、入力層と出力層が局所的にのみ定義されるような完全リーマン多様体に対応するように拡張され、その結果の局所的なアナログが得られる。 この場合、大域的および局所的普遍的近似の保証は、ヌルホモトピー関数の近似時にのみ一致することが分かる。 したがって、Y がコンパクトリーマン多様体であれば、X の大きなコンパクト部分集合に対して一様に近似できない函数が存在することを示す。 それでも、X 内の任意の測地球の最大径の低い値を得ることができ、そこでは局所的普遍近似結果が成立する。 結果を適用して、非退化ガウス測度の空間間の普遍近似器を構築する。 また,一般活性化関数を持つ古典的深狭フィードフォワードネットワークに対する普遍近似定理の定量的バージョンを得る。

By incorporating structured pairs of non-trainable input and output layers, the universal approximation property of feed-forward have recently been extended across a broad range of non-Euclidean input spaces X and output spaces Y. We quantify the number of narrow layers required for these "deep geometric feed-forward neural networks" (DGNs) to approximate any continuous function in $C(X,Y)$, uniformly on compacts. The DGN architecture is then extended to accommodate complete Riemannian manifolds, where the input and output layers are only defined locally, and we obtain local analogs of our results. In this case, we find that both the global and local universal approximation guarantees can only coincide when approximating null-homotopic functions. Consequently, we show that if Y is a compact Riemannian manifold, then there exists a function that cannot be uniformly approximated on large compact subsets of X. Nevertheless, we obtain lower-bounds of the maximum diameter of any geodesic ball in X wherein our local universal approximation results hold. Applying our results, we build universal approximators between spaces of non-degenerate Gaussian measures. We also obtain a quantitative version of the universal approximation theorem for classical deep narrow feed-forward networks with general activation functions.
翻訳日:2021-03-30 07:48:24 公開日:2021-01-27
# 自己教師付き学習による文脈外誤情報取得

Catching Out-of-Context Misinformation with Self-supervised Learning ( http://arxiv.org/abs/2101.06278v2 )

ライセンス: Link先を確認
Shivangi Aneja, Christoph Bregler and Matthias Nie{\ss}ner(参考訳) 近年のDeepFakesや他の画像操作への注目にもかかわらず、聴衆を誤解させる最も一般的な方法の1つは、新しいが偽の文脈で修正されていない画像を使用することである。 これらの課題に対処し、ファクトチェックをサポートするために、テキスト対とテキスト対を自動的に検出する新しい手法を提案する。 私たちの中核となる考え方は、異なるソースからのマッチング(および非マッチング)キャプションによるイメージのみを必要とする、自己管理的なトレーニング戦略です。 トレーニング時には,画像内の個々のオブジェクトを,明示的な監督なしにテキストクレームに選択的にアライメントすることを学ぶ。 テスト時には、両方のテキストが画像内の同じオブジェクトに対応するが、意味的に異なる記述を伝達している場合、与えられたテキストペアをチェックする。 本手法は82%のコンテキスト外検出精度を実現する。 提案手法の訓練を容易にするため, 様々なニュースサイト, ブログ, ソーシャルメディア投稿の450K字幕と一致する200K画像の大規模データセットを作成し, それぞれの画像に対して複数の字幕を得た。

Despite the recent attention to DeepFakes and other forms of image manipulations, one of the most prevalent ways to mislead audiences is the use of unaltered images in a new but false context. To address these challenges and support fact-checkers, we propose a new method that automatically detects out-of-context image and text pairs. Our core idea is a self-supervised training strategy where we only need images with matching (and non-matching) captions from different sources. At train time, our method learns to selectively align individual objects in an image with textual claims, without explicit supervision. At test time, we check for a given text pair if both texts correspond to same object(s) in the image but semantically convey different descriptions, which allows us to make fairly accurate out-of-context predictions. Our method achieves 82% out-of-context detection accuracy. To facilitate training our method, we created a large-scale dataset of 200K images which we match with 450K textual captions from a variety of news websites, blogs, and social media posts; i.e., for each image, we obtained several captions.
翻訳日:2021-03-28 11:27:31 公開日:2021-01-27
# 神経注意蒸留:ディープニューラルネットワークからのバックドアトリガーの消去

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks ( http://arxiv.org/abs/2101.05930v2 )

ライセンス: Link先を確認
Yige Li, Xixiang Lyu, Nodens Koren, Lingjuan Lyu, Bo Li, Xingjun Ma(参考訳) 深層ニューラルネットワーク(DNN)は、テスト時にモデルの予測を制御するために、少量のトレーニングデータにトリガーパターンを注入するトレーニングタイムアタックであるバックドアアタックに対して脆弱であることが知られている。 バックドア攻撃は、クリーンな例ではモデルのパフォーマンスに影響を与えないが、テスト中にトリガーパターンが現れると、モデルを騙して誤った予測をすることができるため、特に危険である。 本稿では,バックドアドDNNのバックドアトリガを除去する新しい防衛フレームワークであるニューラルアテンション蒸留(NAD)を提案する。 NADは教師ネットワークを利用して、学生ネットワークの中間層注意が教師ネットワークのそれと一致するように、バックドアの学生ネットワークの微調整を小さなクリーンなデータサブセットでガイドする。 教師ネットワークは、同一のクリーンサブセット上の独立した微調整プロセスにより得ることができる。 6つの最先端のバックドア攻撃に対して、NADはクリーンな例で明らかなパフォーマンス劣化を引き起こすことなく、5倍のクリーンなトレーニングデータでバックドアトリガを効果的に消去できることを示す。 コードはhttps://github.com/b boylyg/NADで入手できる。

Deep neural networks (DNNs) are known vulnerable to backdoor attacks, a training time attack that injects a trigger pattern into a small proportion of training data so as to control the model's prediction at the test time. Backdoor attacks are notably dangerous since they do not affect the model's performance on clean examples, yet can fool the model to make incorrect prediction whenever the trigger pattern appears during testing. In this paper, we propose a novel defense framework Neural Attention Distillation (NAD) to erase backdoor triggers from backdoored DNNs. NAD utilizes a teacher network to guide the finetuning of the backdoored student network on a small clean subset of data such that the intermediate-layer attention of the student network aligns with that of the teacher network. The teacher network can be obtained by an independent finetuning process on the same clean subset. We empirically show, against 6 state-of-the-art backdoor attacks, NAD can effectively erase the backdoor triggers using only 5\% clean training data without causing obvious performance degradation on clean examples. Code is available in https://github.com/b boylyg/NAD.
翻訳日:2021-03-28 11:26:51 公開日:2021-01-27
# (参考訳) ICUにおける高カルシウム血症の予測と一般化可能性と解釈可能性の評価 [全文訳有]

Predicting Hyperkalemia in the ICU and Evaluation of Generalizability and Interpretability ( http://arxiv.org/abs/2101.06443v2 )

ライセンス: CC BY 4.0
Gloria Hyunjung Kwak, Christina Chen, Lowell Ling, Erina Ghosh, Leo Anthony Celi, Pan Hui(参考訳) 高カルシウム血症は致命的な不整脈を引き起こす危険がある。 高リスク患者の早期発見は、リスクを軽減するために臨床ケアを知らせることができる。 高カリウム血症はしばしば急性腎障害(aki)の合併症であるが、アキの欠如でも発生する。 集中治療のための医療情報マート (mimic) とeicu共同研究データベース (eicu-crd) を用いて, 高カリウム血症のリスクのある集中治療ユニット (icu) 患者を識別するための予測モデルを開発した。 提案手法は,複数のモデルの構築,モデル選択による解釈可能性の最適化,各種臨床シナリオのシミュレーションに焦点をあてた。 i) ICU入院14日以内のAKI後の高Kal血症の予測,(ii) ICU入院14日以内の高Kal血症の予測,および(i)および(ii)のリード時間の比較を行った。 どちらの臨床シナリオも、ロジスティック回帰(LR)、ランダム森林(RF)、XGBoostを用いてモデル化された。 ICUの初日からの観測結果から,AUCは (i) 0.79, 0.81, 0.81, 0.81, (ii) 0.81, 0.85, 0.85, LR, RF, XGBoostでそれぞれ予測できた。 上位5つのうち4つがモデル全体で一貫性があることがわかった。 AKIステージはAKI患者を含むモデルでは有意であったが,AKI患者のみを含むモデルでは有意差は認められなかった。 これは、AKIは高カルシウム血症において重要であるが、AKIの特定の段階はそれほど重要でないことを示唆している。 我々の発見はさらなる調査と確認を必要とする。

Hyperkalemia is a potentially life-threatening condition that can lead to fatal arrhythmias. Early identification of high risk patients can inform clinical care to mitigate the risk. While hyperkalemia is often a complication of acute kidney injury (AKI), it also occurs in the absence of AKI. We developed predictive models to identify intensive care unit (ICU) patients at risk of developing hyperkalemia by using the Medical Information Mart for Intensive Care (MIMIC) and the eICU Collaborative Research Database (eICU-CRD). Our methodology focused on building multiple models, optimizing for interpretability through model selection, and simulating various clinical scenarios. In order to determine if our models perform accurately on patients with and without AKI, we evaluated the following clinical cases: (i) predicting hyperkalemia after AKI within 14 days of ICU admission, (ii) predicting hyperkalemia within 14 days of ICU admission regardless of AKI status, and compared different lead times for (i) and (ii). Both clinical scenarios were modeled using logistic regression (LR), random forest (RF), and XGBoost. Using observations from the first day in the ICU, our models were able to predict hyperkalemia with an AUC of (i) 0.79, 0.81, 0.81 and (ii) 0.81, 0.85, 0.85 for LR, RF, and XGBoost respectively. We found that 4 out of the top 5 features were consistent across the models. AKI stage was significant in the models that included all patients with or without AKI, but not in the models which only included patients with AKI. This suggests that while AKI is important for hyperkalemia, the specific stage of AKI may not be as important. Our findings require further investigation and confirmation.
翻訳日:2021-03-28 06:37:32 公開日:2021-01-27
# 顔認識に代わるプライバシフレンドリなフレーム選択

Intelligent Frame Selection as a Privacy-Friendlier Alternative to Face Recognition ( http://arxiv.org/abs/2101.07529v2 )

ライセンス: Link先を確認
Mattijs Baert, Sam Leroux, Pieter Simoens(参考訳) 顔認識のための監視カメラの普及は、多くのプライバシー上の懸念を引き起こす。 本研究は,大規模顔認識に代わるプライバシフレンドリーな代替手法を提案する。 プライバシの保護には複数のテクニックがあるが、当社の作業は収集した個人情報の量を最小限に抑えるための最小化原則に基づいている。 すべてのビデオデータで顔認識ソフトウェアを実行する代わりに、検出された各人の高品質なスナップショットを自動的に抽出し、本人の身元を明かさずに取得する。 このスナップショットは暗号化され、アクセスは法的承認後のみ許可される。 高品質なスナップショットを選択するために,新しい教師なし顔画像品質評価法を提案する。 本研究では,公開データセットから高品質顔画像に対して変分オートエンコーダを訓練し,その再構成確率を指標として各顔画像の品質を推定する。 バイオメトリック品質予測器としての利用を実験的に確認した。 これまでのほとんどの研究とは異なり、データからすべてが学習されるため、手動で定義された顔の品質指標に依存していません。 顔品質評価手法は,低品質画像の拒否による顔認証性能向上タスクにおいて,教師なし,教師なし,一般画像品質評価手法よりも優れている。 システム全体の有効性は静止画像やビデオ上で定性的に検証される。

The widespread deployment of surveillance cameras for facial recognition gives rise to many privacy concerns. This study proposes a privacy-friendly alternative to large scale facial recognition. While there are multiple techniques to preserve privacy, our work is based on the minimization principle which implies minimizing the amount of collected personal data. Instead of running facial recognition software on all video data, we propose to automatically extract a high quality snapshot of each detected person without revealing his or her identity. This snapshot is then encrypted and access is only granted after legal authorization. We introduce a novel unsupervised face image quality assessment method which is used to select the high quality snapshots. For this, we train a variational autoencoder on high quality face images from a publicly available dataset and use the reconstruction probability as a metric to estimate the quality of each face crop. We experimentally confirm that the reconstruction probability can be used as biometric quality predictor. Unlike most previous studies, we do not rely on a manually defined face quality metric as everything is learned from data. Our face quality assessment method outperforms supervised, unsupervised and general image quality assessment methods on the task of improving face verification performance by rejecting low quality images. The effectiveness of the whole system is validated qualitatively on still images and videos.
翻訳日:2021-03-22 11:14:07 公開日:2021-01-27
# 意味的遠近法一般化ゼロショット学習

Semantic Disentangling Generalized Zero-Shot Learning ( http://arxiv.org/abs/2101.07978v2 )

ライセンス: Link先を確認
Zhi Chen, Ruihong Qiu, Sen Wang, Zi Huang, Jingjing Li, Zheng Zhang(参考訳) Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。 ほとんどのGZSLメソッドは、通常、見えないクラスのCNN視覚的特徴を、タグや属性などの意味情報全体と、見たクラスの視覚的特徴を活用することで、合成することを学習する。 視覚的特徴の中では,属性にアノテートされた画像の特徴を表現するために,意味的一貫性と意味的無関係な特徴をそれぞれ定義する。 理想的には、セマンティクス関連情報は、対応する特性がセマンティクス情報にアノテートされていないため、見たクラスから見えないクラスにセマンティクス・ビジュアル関係で転送することは不可能である。 したがって、視覚的特徴合成の基礎は必ずしも固いものではなく、そのクラスの特徴は意味的と視覚的モダリティの整合に干渉する可能性のある意味的非関連情報を含む可能性がある。 本稿では,画像の視覚的特徴をこれら2つの潜在特徴空間に分解し,対応する表現を抽出するために,エンコーダ・デコーダアーキテクチャに基づく特徴抽出手法を提案する。 さらに、このアーキテクチャに関係モジュールを組み込んで意味と視覚の関係を学習し、2つの潜在表現の絡み合いを促進するために、全相関ペナルティを適用する。 提案手法は, 未確認クラスの生成対象として, 画像の内在的特徴を捉えた質的意味一貫性表現を抽出することを目的としている。 7つのGZSLベンチマークデータセットで実施された大規模な実験により、提案の最先端性能が検証された。

Generalized Zero-Shot Learning (GZSL) aims to recognize images from both seen and unseen categories. Most GZSL methods typically learn to synthesize CNN visual features for the unseen classes by leveraging entire semantic information, e.g., tags and attributes, and the visual features of the seen classes. Within the visual features, we define two types of features that semantic-consistent and semantic-unrelated to represent the characteristics of images annotated in attributes and less informative features of images respectively. Ideally, the semantic-unrelated information is impossible to transfer by semantic-visual relationship from seen classes to unseen classes, as the corresponding characteristics are not annotated in the semantic information. Thus, the foundation of the visual feature synthesis is not always solid as the features of the seen classes may involve semantic-unrelated information that could interfere with the alignment between semantic and visual modalities. To address this issue, in this paper, we propose a novel feature disentangling approach based on an encoder-decoder architecture to factorize visual features of images into these two latent feature spaces to extract corresponding representations. Furthermore, a relation module is incorporated into this architecture to learn semantic-visual relationship, whilst a total correlation penalty is applied to encourage the disentanglement of two latent representations. The proposed model aims to distill quality semantic-consistent representations that capture intrinsic features of seen images, which are further taken as the generation target for unseen classes. Extensive experiments conducted on seven GZSL benchmark datasets have verified the state-of-the-art performance of the proposal.
翻訳日:2021-03-22 01:24:50 公開日:2021-01-27
# (参考訳) 複数知識伝達による協調学習 [全文訳有]

Collaborative Teacher-Student Learning via Multiple Knowledge Transfer ( http://arxiv.org/abs/2101.08471v2 )

ライセンス: CC BY 4.0
Liyuan Sun, Jianping Gou, Baosheng Yu, Lan Du, Dacheng Tao(参考訳) 知識蒸留(KD)は,効率的なモデル圧縮技術であり,深層学習において大きな注目を集めている。 その成功の鍵は、大きな教師ネットワークから小さな学生ネットワークに知識を移すことである。 しかし、既存の知識蒸留法のほとんどは、教師-学生学習における特定の蒸留戦略を通じて、事例特徴または事例関係から学んだ知識の1種類のみを考察している。 統一された枠組みで異なる蒸留戦略で異なる種類の知識を伝達するというアイデアを探求する研究はほとんどない。 また, 頻繁に使用されるオフライン蒸留は, 定型化による学習能力の低下に苦しむ。 本稿では,多元的知識伝達(ctsl-mkt)を通して,自己学習と協調学習の両方を促す共同学習を提案する。 複数の学生が、個々のインスタンスとインスタンスの関係の両方から、協調的に知識を学ぶことができる。 自己蒸留で自分自身から学ぶ一方で、オンライン蒸留を通じて相互誘導することもできる。 4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。

Knowledge distillation (KD), as an efficient and effective model compression technique, has been receiving considerable attention in deep learning. The key to its success is to transfer knowledge from a large teacher network to a small student one. However, most of the existing knowledge distillation methods consider only one type of knowledge learned from either instance features or instance relations via a specific distillation strategy in teacher-student learning. There are few works that explore the idea of transferring different types of knowledge with different distillation strategies in a unified framework. Moreover, the frequently used offline distillation suffers from a limited learning capacity due to the fixed teacher-student architecture. In this paper we propose a collaborative teacher-student learning via multiple knowledge transfer (CTSL-MKT) that prompts both self-learning and collaborative learning. It allows multiple students learn knowledge from both individual instances and instance relations in a collaborative way. While learning from themselves with self-distillation, they can also guide each other via online distillation. The experiments and ablation studies on four image datasets demonstrate that the proposed CTSL-MKT significantly outperforms the state-of-the-art KD methods.
翻訳日:2021-03-21 18:33:03 公開日:2021-01-27
# 非正規化再ネットの性能ギャップを閉じる信号伝搬特性

Characterizing signal propagation to close the performance gap in unnormalized ResNets ( http://arxiv.org/abs/2101.08692v2 )

ライセンス: Link先を確認
Andrew Brock, Soham De, Samuel L. Smith(参考訳) バッチ正規化(Batch Normalization)は、ほぼすべての最先端のイメージ分類器において重要なコンポーネントであるが、バッチ内のトレーニング例間の独立性を破り、計算とメモリのオーバーヘッドを発生させ、しばしば予期せぬバグを引き起こすという、実践的な課題も導入している。 初期化時の深い再ネットの最近の理論的解析に基づいて,フォワードパス上での信号伝搬を特徴付ける簡易な解析ツールセットを提案し,これらのツールを用いて活性化正規化層を必要とせず,高性能な再ネットを設計する。 私たちの成功には、最近提案された重みの標準化の適応バージョンが不可欠です。 解析ツールは、チャネルごとのアクティベーション手段が深さとともに成長しないようにすることで、ReLUやSwishのアクティベーション機能付きネットワークにおける信号の保存方法を示す。 FLOP予算の範囲で、私たちのネットワークはImageNet上の最先端のEfficientNetsと競合するパフォーマンスを実現しています。

Batch Normalization is a key component in almost all state-of-the-art image classifiers, but it also introduces practical challenges: it breaks the independence between training examples within a batch, can incur compute and memory overhead, and often results in unexpected bugs. Building on recent theoretical analyses of deep ResNets at initialization, we propose a simple set of analysis tools to characterize signal propagation on the forward pass, and leverage these tools to design highly performant ResNets without activation normalization layers. Crucial to our success is an adapted version of the recently proposed Weight Standardization. Our analysis tools show how this technique preserves the signal in networks with ReLU or Swish activation functions by ensuring that the per-channel activation means do not grow with depth. Across a range of FLOP budgets, our networks attain performance competitive with the state-of-the-art EfficientNets on ImageNet.
翻訳日:2021-03-21 08:07:20 公開日:2021-01-27
# (参考訳) ビデオにおける時間的文のグラウンド化:データセットとメトリクス [全文訳有]

A Closer Look at Temporal Sentence Grounding in Videos: Datasets and Metrics ( http://arxiv.org/abs/2101.09028v2 )

ライセンス: CC BY 4.0
Yitian Yuan, Xiaohan Lan, Long Chen, Wei Liu, Xin Wang, Wenwu Zhu(参考訳) TSGV(Temporal Sentence Grounding in Videos)は、ここ数年で顕著な進歩を遂げてきたが、現在のTSGVモデルは、モーメントのアノテーションバイアスを捉え、マルチモーダル入力を最大限に活用できない傾向にある。 奇跡的なことに、トレーニングなしでも非常に単純なTSGVベースラインは最先端のパフォーマンスを達成できる。 本稿では、まず既存の評価プロトコルを詳しく検討し、一般的なデータセットとメトリクスの両方が信頼性の低いベンチマークの原因となるデビルであると論じる。 この目的のために、広く使われている2つのTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、それぞれがCharades-CDとActivityNet-CDと呼ばれるトレーニングスプリットとは異なるように、モーメントアノテーションであるtextbf{C}を意図的に変更することを提案する。 また,モーメント・アノメーション・バイアスによる膨らみ特性の低減を図り,モーメント・アノメーション・バイアスによるインフレーション特性の低減を図ることで,基本的なIoUスコアを校正する新たな評価指標「dR@$n$,IoU@$m$」を導入する。 この新たな評価プロトコルでは,8つの最先端TSGVモデルに関する広範な実験とアブレーション研究を行う。 すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。 この作業のリポジトリは \url{https://github.com/y ytzsy/grounding_chan ging_distribution} にある。

Despite Temporal Sentence Grounding in Videos (TSGV) has realized impressive progress over the last few years, current TSGV models tend to capture the moment annotation biases and fail to take full advantage of multi-modal inputs. Miraculously, some extremely simple TSGV baselines even without training can also achieve state-of-the-art performance. In this paper, we first take a closer look at the existing evaluation protocol, and argue that both the prevailing datasets and metrics are the devils to cause the unreliable benchmarking. To this end, we propose to re-organize two widely-used TSGV datasets (Charades-STA and ActivityNet Captions), and deliberately \textbf{C}hange the moment annotation \textbf{D}istribution of the test split to make it different from the training split, dubbed as Charades-CD and ActivityNet-CD, respectively. Meanwhile, we further introduce a new evaluation metric "dR@$n$,IoU@$m$" to calibrate the basic IoU scores by penalizing more on the over-long moment predictions and reduce the inflating performance caused by the moment annotation biases. Under this new evaluation protocol, we conduct extensive experiments and ablation studies on eight state-of-the-art TSGV models. All the results demonstrate that the re-organized datasets and new metric can better monitor the progress in TSGV, which is still far from satisfactory. The repository of this work is at \url{https://github.com/y ytzsy/grounding_chan ging_distribution}.
翻訳日:2021-03-21 01:05:09 公開日:2021-01-27
# ドメイン一般化ベースラインの再考

Rethinking Domain Generalization Baselines ( http://arxiv.org/abs/2101.09060v2 )

ライセンス: Link先を確認
Francesco Cappio Borlino, Antonio D'Innocente, Tatiana Tommasi(参考訳) 標準的な学習環境では非常に強力だが、トレーニングされたシナリオとは異なるシナリオにデプロイされた場合、ディープラーニングモデルは極めて脆弱である。 ドメインの一般化手法はこの問題を調査し、データ拡張戦略は、ドメイン間のモデルロバスト性をサポートするデータ可変性を向上させるための有用なツールであることが示されている。 本研究は,スタイル転送データの拡張に焦点をあて,一般化を改善するためのシンプルで安価な戦略で実装する方法を示す。 さらに, この拡張ソリューションと統合すると, アートドメイン一般化手法の現況の挙動を解析し, 実験結果から, その本来の効果は, 拡張ベースラインに対してほぼ常に消失することが示された。 ドメイン一般化研究の新しいシナリオを公開し、導入したデータ可変性を適切に活用できる新しい手法の必要性を強調した。

Despite being very powerful in standard learning settings, deep learning models can be extremely brittle when deployed in scenarios different from those on which they were trained. Domain generalization methods investigate this problem and data augmentation strategies have shown to be helpful tools to increase data variability, supporting model robustness across domains. In our work we focus on style transfer data augmentation and we present how it can be implemented with a simple and inexpensive strategy to improve generalization. Moreover, we analyze the behavior of current state of the art domain generalization methods when integrated with this augmentation solution: our thorough experimental evaluation shows that their original effect almost always disappears with respect to the augmented baseline. This issue open new scenarios for domain generalization research, highlighting the need of novel methods properly able to take advantage of the introduced data variability.
翻訳日:2021-03-20 17:28:36 公開日:2021-01-27
# 生成的ハイパーグラフクラスタリング:ブロックモデルからモジュラリティへ

Generative hypergraph clustering: from blockmodels to modularity ( http://arxiv.org/abs/2101.09611v2 )

ライセンス: Link先を確認
Philip S. Chodrow, Nate Veldt, and Austin R. Benson(参考訳) ハイパーグラフは多体相互作用を持つ幅広い複雑な関係系に対する自然なモデリングパラダイムである。 標準的な分析タスクは、密接な関係または密接な相互接続ノードのクラスタを特定することである。 グラフクラスタリングの確率的生成モデルが多数提案されているが、ハイパーグラフのモデルは比較的少ない。 不均一なノード度とエッジサイズを持つクラスタ化ハイパーグラフの表現的生成モデルであるPoisson次補正ハイパーグラフ確率ブロックモデル(DCHSBM)を提案する。 DCHSBMにおける近似最大形推論は、グラフの一般的なモジュラリティ目的を一般化するクラスタリング目的を自然に導く。 この目的のための一般的なルーヴァイン型アルゴリズムと、エッジがクラスタ内に完全に配置されることが予想される、より高速で特殊な"All-Or-Nothing"(AON)バリアントを導出する。 この特別なケースは、ハイパーグラフのモジュラリティに関する最近の提案を含んでおり、フレキシブルな解像度とエッジサイズパラメータも取り入れている。 我々は,100万ノードの合成ハイパーグラフを用いた実験など,ハイパーグラフ・ルーバインは高度にスケーラブルであることを示す。 また,ハイパーグラフコミュニティ検出のための検出可能性レジームが,dyadicグラフ投影に基づく手法と異なることを合成実験により示す。 特に、情報理論の限界によりグラフベースの手法が必ず失敗しても、ハイパーグラフ法が植え込み分割を復元できる体制が存在する。 このモデルを用いて,学校連絡ネットワークにおける高次構造の異なるパターン,米国議会法案共同提案,米国議会委員会,共同購入行動における製品カテゴリ,およびwebブラウジングセッションからのホテルロケーションを分析し,対応する高次構造を示す経験的データセットにおいて,真理クラスタの復元を可能にする。

Hypergraphs are a natural modeling paradigm for a wide range of complex relational systems with multibody interactions. A standard analysis task is to identify clusters of closely related or densely interconnected nodes. While many probabilistic generative models for graph clustering have been proposed, there are relatively few such models for hypergraphs. We propose a Poisson degree-corrected hypergraph stochastic blockmodel (DCHSBM), an expressive generative model of clustered hypergraphs with heterogeneous node degrees and edge sizes. Approximate maximum-likelihood inference in the DCHSBM naturally leads to a clustering objective that generalizes the popular modularity objective for graphs. We derive a general Louvain-type algorithm for this objective, as well as a a faster, specialized "All-Or-Nothing" (AON) variant in which edges are expected to lie fully within clusters. This special case encompasses a recent proposal for modularity in hypergraphs, while also incorporating flexible resolution and edge-size parameters. We show that hypergraph Louvain is highly scalable, including as an example an experiment on a synthetic hypergraph of one million nodes. We also demonstrate through synthetic experiments that the detectability regimes for hypergraph community detection differ from methods based on dyadic graph projections. In particular, there are regimes in which hypergraph methods can recover planted partitions even though graph based methods necessarily fail due to information-theoreti c limits. We use our model to analyze different patterns of higher-order structure in school contact networks, U.S. congressional bill cosponsorship, U.S. congressional committees, product categories in co-purchasing behavior, and hotel locations from web browsing sessions, that it is able to recover ground truth clusters in empirical data sets exhibiting the corresponding higher-order structure.
翻訳日:2021-03-16 09:08:35 公開日:2021-01-27
# (参考訳) マルチタスクと多言語モデリングのためのメタラーニング [全文訳有]

Meta-Learning for Effective Multi-task and Multilingual Modelling ( http://arxiv.org/abs/2101.10368v2 )

ライセンス: CC BY 4.0
Ishan Tarunesh, Sushil Khyalia, Vishwajeet Kumar, Ganesh Ramakrishnan, Preethi Jyothi(参考訳) 自然言語処理(NLP)タスク(例) 英語での質問回答は、他のタスク(例えば)の知識の恩恵を受ける。 英語で名付けられた実体認識)と他の言語(例えば)の知識 スペイン語で質問する)。 このような共有表現は通常、タスク間または言語間で、独立した形で学習される。 本稿では,タスクと言語間の相互作用を学ぶためのメタラーニング手法を提案する。 また,メタラーニングにおける異なるサンプリング戦略の役割についても検討した。 我々は、XTREME多言語ベンチマークデータセットから5つの異なるタスクと6つの異なる言語に関する実験を提示する。 メタ学習モデルは,マルチタスクベースラインを含む競合ベースラインモデルと比較して明らかに性能が向上する。 また,対象言語のゼロショット評価を行い,提案モデルの実用性を示す。

Natural language processing (NLP) tasks (e.g. question-answering in English) benefit from knowledge of other tasks (e.g. named entity recognition in English) and knowledge of other languages (e.g. question-answering in Spanish). Such shared representations are typically learned in isolation, either across tasks or across languages. In this work, we propose a meta-learning approach to learn the interactions between both tasks and languages. We also investigate the role of different sampling strategies used during meta-learning. We present experiments on five different tasks and six different languages from the XTREME multilingual benchmark dataset. Our meta-learned model clearly improves in performance compared to competitive baseline models that also include multi-task baselines. We also present zero-shot evaluations on unseen target languages to demonstrate the utility of our proposed model.
翻訳日:2021-03-14 23:20:15 公開日:2021-01-27
# インドと海外における再想像アルゴリズムの公平性

Re-imagining Algorithmic Fairness in India and Beyond ( http://arxiv.org/abs/2101.09995v2 )

ライセンス: Link先を確認
Nithya Sambasivan, Erin Arnesen, Ben Hutchinson, Tulsee Doshi, Vinodkumar Prabhakaran(参考訳) 従来のアルゴリズムの公平性は、サブグループ、値、メソッドに見られるように、西中心である。 本稿では,インドにおけるアルゴリズムの公平性を脱中心化し,AIパワーを解析する。 36の定性的なインタビューとインドのアルゴリズム展開の談話分析に基づいて、アルゴリズムの公平性のいくつかの仮定が挑戦されていることがわかります。 インドでは、社会経済的要因のためにデータが常に信頼できるとは限りません。MLメーカーは二重基準に従うように見え、AIは疑わしい願望を呼び起こします。 モデルフェアネスのローカライズだけでは、モデルと抑圧されたコミュニティの間の距離が大きいインドではウィンドウドレッシングが可能である。 代わりに、インドのアルゴリズムの公平性を再想像し、データとモデルを再解釈し、抑圧されたコミュニティに権限を与え、フェアMLエコシステムを可能にするロードマップを提供します。

Conventional algorithmic fairness is West-centric, as seen in its sub-groups, values, and methods. In this paper, we de-center algorithmic fairness and analyse AI power in India. Based on 36 qualitative interviews and a discourse analysis of algorithmic deployments in India, we find that several assumptions of algorithmic fairness are challenged. We find that in India, data is not always reliable due to socio-economic factors, ML makers appear to follow double standards, and AI evokes unquestioning aspiration. We contend that localising model fairness alone can be window dressing in India, where the distance between models and oppressed communities is large. Instead, we re-imagine algorithmic fairness in India and provide a roadmap to re-contextualise data and models, empower oppressed communities, and enable Fair-ML ecosystems.
翻訳日:2021-03-14 19:23:51 公開日:2021-01-27
# guigan: 生成型adversarial networkを用いたguiデザイン生成の学習

GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks ( http://arxiv.org/abs/2101.09978v2 )

ライセンス: Link先を確認
Tianming Zhao (1), Chunyang Chen (2), Yuanning Liu (1), Xiaodong Zhu (1) ((1) Jilin University, (2) Monash University)(参考訳) Graphical User Interface (GUI) はほとんどのモダンなデスクトップソフトウェア、モバイルアプリケーション、オンラインウェブサイトで広く使われている。 優れたGUI設計は、市場でのソフトウェアの成功に不可欠であるが、優れたGUIを設計するには、多くの革新と創造性を必要とする。 その上、GUI設計の急速な開発の条件はまたデザイナーの作業負荷を悪化させます。 そのため、様々な自動生成GUIが利用可能となり、デザイナーの好みに合わせてデザインのパーソナライズと特殊化が促進される。 設計者を支援するため,GUIGANを自動生成するモデルを開発した。 画像画素に基づく従来の画像生成モデルとは違って,既存のモバイルアプリguiから収集したguiコンポーネントを再利用し,自然言語生成に類似した新たなデザインを作成する。 当社のGUIGANは,GUIコンポーネントスタイルの互換性とGUI構造をモデル化することによって,SeqGANをベースとしています。 評価の結果,本モデルはフレシェインセプション距離 (fid) で30.77%, ネアレスト近傍精度 (1-nna) で12.35%, ベースライン法で有意に優れていた。 パイロットユーザースタディを通じて、受諾可能な新しいGUIデザインを作成するためのアプローチの有用性の最初の証拠を提供します。

Graphical User Interface (GUI) is ubiquitous in almost all modern desktop software, mobile applications, and online websites. A good GUI design is crucial to the success of the software in the market, but designing a good GUI which requires much innovation and creativity is difficult even to well-trained designers. Besides, the requirement of the rapid development of GUI design also aggravates designers' working load. So, the availability of various automated generated GUIs can help enhance the design personalization and specialization as they can cater to the taste of different designers. To assist designers, we develop a model GUIGAN to automatically generate GUI designs. Different from conventional image generation models based on image pixels, our GUIGAN is to reuse GUI components collected from existing mobile app GUIs for composing a new design that is similar to natural-language generation. Our GUIGAN is based on SeqGAN by modeling the GUI component style compatibility and GUI structure. The evaluation demonstrates that our model significantly outperforms the best of the baseline methods by 30.77% in Frechet Inception distance (FID) and 12.35% in 1-Nearest Neighbor Accuracy (1-NNA). Through a pilot user study, we provide initial evidence of the usefulness of our approach for generating acceptable brand new GUI designs.
翻訳日:2021-03-14 19:13:38 公開日:2021-01-27
# RTGPU: 細粒度利用によるハードデッドライン並列タスクのリアルタイムGPUスケジューリング

RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization ( http://arxiv.org/abs/2101.10463v2 )

ライセンス: Link先を確認
An Zou, Jing Li, Christopher D. Gill, and Xuan Zhang(参考訳) 自動運転車やロボットなどの新しいサイバー物理システムの多くは、重要なシステム操作を実行するために人工知能と機械学習アルゴリズムに大きく依存しています。 これらの高並列アプリケーションは計算集約性が高いため、厳密なタイミング制約を満たすためにグラフィクス処理ユニット(GPU)によって加速する必要がある。 しかし、GPUの広範な採用にもかかわらず、複数のGPUアプリケーションを効率的にスケジューリングし、厳格なリアルタイム保証を提供することは依然として課題です。 本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュールし,厳しい納期に耐えるRTGPUを提案する。 各GPUアプリケーションは、GPUカーネルと同様に、複数のCPU実行およびメモリコピーセグメントを持つことができる。 まず、これらのアプリケーションのCPUとメモリコピーセグメントを明示的に考慮するモデルから始めます。 次に、GPUアーキテクチャをGPUカーネルの正確なタイミングモデルの開発に考慮し、永続スレッドと呼ばれる技術を利用して、インターリーブ実行によるパフォーマンス向上による細かい粒度のカーネルスケジューリングを実装します。 次に,並列GPUアプリケーションをリアルタイムにスケジューリングする一般的な手法を提案する。 最後に,複数の並列gpuアプリケーションをスケジューリングするために,単プロセッサ固定優先度スケジューリング(複数cpuおよびメモリコピーセグメント)によるフェデレーションスケジューリングとグリッド探索(gpuカーネルセグメント)に基づく実用的なリアルタイムスケジューリングアルゴリズムを提案する。 提案手法は,複数のGPUアプリケーションに対して,実際のNVIDIA GTX1080Ti GPUシステムに対する総合的な検証と評価に従って,複数のGPUアプリケーションのハードデッドラインをリアルタイムに保証する。

Many emerging cyber-physical systems, such as autonomous vehicles and robots, rely heavily on artificial intelligence and machine learning algorithms to perform important system operations. Since these highly parallel applications are computationally intensive, they need to be accelerated by graphics processing units (GPUs) to meet stringent timing constraints. However, despite the wide adoption of GPUs, efficiently scheduling multiple GPU applications while providing rigorous real-time guarantees remains a challenge. In this paper, we propose RTGPU, which can schedule the execution of multiple GPU applications in real-time to meet hard deadlines. Each GPU application can have multiple CPU execution and memory copy segments, as well as GPU kernels. We start with a model to explicitly account for the CPU and memory copy segments of these applications. We then consider the GPU architecture in the development of a precise timing model for the GPU kernels and leverage a technique known as persistent threads to implement fine-grained kernel scheduling with improved performance through interleaved execution. Next, we propose a general method for scheduling parallel GPU applications in real time. Finally, to schedule multiple parallel GPU applications, we propose a practical real-time scheduling algorithm based on federated scheduling and grid search (for GPU kernel segments) with uniprocessor fixed priority scheduling (for multiple CPU and memory copy segments). Our approach provides superior schedulability compared with previous work, and gives real-time guarantees to meet hard deadlines for multiple GPU applications according to comprehensive validation and evaluation on a real NVIDIA GTX1080Ti GPU system.
翻訳日:2021-03-14 18:58:16 公開日:2021-01-27
# (参考訳) GymD2D: デバイスからデバイスへのアンダーレイセルオフロード評価プラットフォーム [全文訳有]

GymD2D: A Device-to-Device Underlay Cellular Offload Evaluation Platform ( http://arxiv.org/abs/2101.11188v1 )

ライセンス: CC BY 4.0
David Cotton, Zenon Chaczko(参考訳) デバイス間通信におけるセルオフロードは、無線リソースの割り当ての改善によりスペクトル効率、エネルギー効率が向上し、レイテンシーを低減できるという、困難な最適化問題である。 学術コミュニティはこれらの問題に対する様々な最適化手法を探求し、最初の成果が奨励されている。 しかし、セルラーオフロード研究のためのシンプルで構成可能なオープンソースのフレームワークがないことには大きな摩擦がある。 先行研究は様々なネットワークシミュレータとシステムモデルを利用しており、結果の比較が困難である。 本稿では,デバイス間通信における物理層資源割り当て問題の実験フレームワークであるGymD2Dを提案する。 GymD2Dを使用すると、さまざまなセルラーオフロードシナリオをシミュレートし、研究ニーズに合わせて行動を拡張することができます。 GymD2Dは、これまでの研究を比較、共有、構築するための評価プラットフォームを提供する。 gymd2dを最先端の深層強化学習で評価し,これらのアルゴリズムが大幅な効率向上をもたらすことを実証した。

Cellular offloading in device-to-device communication is a challenging optimisation problem in which the improved allocation of radio resources can increase spectral efficiency, energy efficiency, throughout and reduce latency. The academic community have explored different optimisation methods on these problems and initial results are encouraging. However, there exists significant friction in the lack of a simple, configurable, open-source framework for cellular offload research. Prior research utilises a variety of network simulators and system models, making it difficult to compare results. In this paper we present GymD2D, a framework for experimentation with physical layer resource allocation problems in device-to-device communication. GymD2D allows users to simulate a variety of cellular offload scenarios and to extend its behaviour to meet their research needs. GymD2D provides researchers an evaluation platform to compare, share and build upon previous research. We evaluated GymD2D with state-of-the-art deep reinforcement learning and demonstrate these algorithms provide significant efficiency improvements.
翻訳日:2021-03-13 23:40:04 公開日:2021-01-27
# (参考訳) 2次元乱流レイリー・b・エナード対流に対するエコー状態ネットワーク [全文訳有]

Echo State Network for two-dimensional turbulent moist Rayleigh-B\'enard convection ( http://arxiv.org/abs/2101.11325v1 )

ライセンス: CC BY 4.0
Florian Heyder and J\"org Schumacher(参考訳) 繰り返しニューラルネットワークは、時系列を予測するのに適した機械学習アルゴリズムです。 エコー状態ネットワークは、基礎となる非線形数学的方程式を解くことなく、教師付き機械学習によって動的システムの進化を記述することのできる、そのようなニューラルネットワークの特定の実装である。 本研究では、2次元湿潤レイリー・B・エナード対流の進化と、その結果生じる低次乱流統計をエコー状態ネットワークで近似する。 我々は,アルゴリズムのトレーニングデータとテストデータを取得するために,長期直接数値シミュレーションを行う。 どちらのセットも、データ量を減らすためにスナップショット法を用いて、Proper Orthogonal Decomposition (POD)によって前処理される。 トレーニングデータは、最初の150個の最もエネルギー的なPOD係数の長い時系列からなる。 貯水池はその後、データと結果によって将来のフロー状態の予測に供給されます。 予測は、元のシミュレーションのデータによって完全に検証される。 その結果,低次統計は良好に一致した。 これはまた、対流層の上部に近い雲のカバーや、ドメインを横切る液体水のフラックスなどの統計的な瞬間も含んでいます。 本研究では,蒸気と液体水の相変化の非線形熱力学と乱流の密接な相互作用によって導入される複雑なダイナミクスを学習できると結論づけた。 我々の研究は、大規模循環モデルにおけるサブグリッドスケール輸送の動的パラメトリゼーションのための新しい方法を開く。

Recurrent neural networks are machine learning algorithms which are suited well to predict time series. Echo state networks are one specific implementation of such neural networks that can describe the evolution of dynamical systems by supervised machine learning without solving the underlying nonlinear mathematical equations. In this work, we apply an echo state network to approximate the evolution of two-dimensional moist Rayleigh-B\'enard convection and the resulting low-order turbulence statistics. We conduct long-term direct numerical simulations in order to obtain training and test data for the algorithm. Both sets are pre-processed by a Proper Orthogonal Decomposition (POD) using the snapshot method to reduce the amount of data. The training data comprise long time series of the first 150 most energetic POD coefficients. The reservoir is subsequently fed by the data and results in predictions of future flow states. The predictions are thoroughly validated by the data of the original simulation. Our results show good agreement of the low-order statistics. This incorporates also derived statistical moments such as the cloud cover close to the top of the convection layer and the flux of liquid water across the domain. We conclude that our model is capable of learning complex dynamics which is introduced here by the tight interaction of turbulence with the nonlinear thermodynamics of phase changes between vapor and liquid water. Our work opens new ways for the dynamic parametrization of subgrid-scale transport in larger-scale circulation models.
翻訳日:2021-03-13 23:26:20 公開日:2021-01-27
# (参考訳) OffCon$^3$:とにかく芸術の現状は何ですか? [全文訳有]

OffCon$^3$: What is state of the art anyway? ( http://arxiv.org/abs/2101.11331v1 )

ライセンス: CC BY 4.0
Philip J. Ball and Stephen J. Roberts(参考訳) モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。 sac は確率的提案政策と仮定的エネルギーベースソフト q-関数政策の間の kl-divergence を最小化し、td3 は決定論的方針を用いて値関数に沿って政策勾配を上昇させる dpg から派生したものである。 実際、どちらのアプローチも非常に類似しており、'Off-Policy Continuous Generalized Policy Iteration'と呼ばれるアプローチのファミリーに属します。 これは、ほとんどの連続制御ベンチマークで同様の性能を照らし、実際にハイパーパラメータが一致した場合、それらの性能は統計的に区別できない。 さらに実装上の差異を取り除くために,両アルゴリズムの最先端バージョンを特徴とするコードベースであるoffcon$^3$ (オフポリシー連続制御: integrated) を提供する。

Two popular approaches to model-free continuous control tasks are SAC and TD3. At first glance these approaches seem rather different; SAC aims to solve the entropy-augmented MDP by minimising the KL-divergence between a stochastic proposal policy and a hypotheical energy-basd soft Q-function policy, whereas TD3 is derived from DPG, which uses a deterministic policy to perform policy gradient ascent along the value function. In reality, both approaches are remarkably similar, and belong to a family of approaches we call `Off-Policy Continuous Generalized Policy Iteration'. This illuminates their similar performance in most continuous control benchmarks, and indeed when hyperparameters are matched, their performance can be statistically indistinguishable. To further remove any difference due to implementation, we provide OffCon$^3$ (Off-Policy Continuous Control: Consolidated), a code base featuring state-of-the-art versions of both algorithms.
翻訳日:2021-03-13 23:04:25 公開日:2021-01-27
# (参考訳) インシデント心不全予測のための説明可能なトランスフォーマー型深層学習モデル

An explainable Transformer-based deep learning model for the prediction of incident heart failure ( http://arxiv.org/abs/2101.11359v1 )

ライセンス: CC BY 4.0
Shishir Rao, Yikuan Li, Rema Ramakrishnan, Abdelaali Hassaine, Dexter Canoy, John Cleland, Thomas Lukasiewicz, Gholamreza Salimi-Khorshidi, Kazem Rahimi(参考訳) 心臓不全などの複雑な慢性状態の発生を予測することは困難です。 リッチな電子健康記録に適用されたディープラーニングモデルは予測を改善するが、医療で広く使われることを妨げる説明がつかない。 英国全国の縦断型電子健康記録から100,071人の患者による心不全のより正確かつ説明可能な予測のための,新しいトランスフォーマ・ディープラーニングモデルを開発した。 内部5倍のクロスバリデーションとホールドアウト外部バリデーションでは,受信演算子曲線の0.93と0.93、高精度リコール曲線の0.69と0.70が達成され,既存のディープラーニングモデルよりも優れていた。 予測群には、各患者の臨床遭遇の年齢および暦年内にコンテキスト化されたすべてのコミュニティおよび病院の診断および薬が含まれていた。 コンテクスト化医療情報の重要性は,多くの感度分析で明らかにされ,摂動法がリスクに寄与する因子を同定する方法となった。 診断されたリスク要因の多くは、臨床および疫学研究からの既存の知識と一致していたが、専門家主導のリスク予測モデルでは考慮されなかったいくつかの新しい関連が明らかになった。

Predicting the incidence of complex chronic conditions such as heart failure is challenging. Deep learning models applied to rich electronic health records may improve prediction but remain unexplainable hampering their wider use in medical practice. We developed a novel Transformer deep-learning model for more accurate and yet explainable prediction of incident heart failure involving 100,071 patients from longitudinal linked electronic health records across the UK. On internal 5-fold cross validation and held-out external validation, our model achieved 0.93 and 0.93 area under the receiver operator curve and 0.69 and 0.70 area under the precision-recall curve, respectively and outperformed existing deep learning models. Predictor groups included all community and hospital diagnoses and medications contextualised within the age and calendar year for each patient's clinical encounter. The importance of contextualised medical information was revealed in a number of sensitivity analyses, and our perturbation method provided a way of identifying factors contributing to risk. Many of the identified risk factors were consistent with existing knowledge from clinical and epidemiological research but several new associations were revealed which had not been considered in expert-driven risk prediction models.
翻訳日:2021-03-13 22:44:59 公開日:2021-01-27
# (参考訳) オールサーブモデル:マルチドメインCTR予測のためのスタートポロジ適応レコメンダ [全文訳有]

One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction ( http://arxiv.org/abs/2101.11427v1 )

ライセンス: CC BY 4.0
Xiang-Rong Sheng, Liqin Zhao, Guorui Zhou, Xinyao Ding, Binding Dai, Qiang Luo, Siran Yang, Jingshan Lv, Chi Zhang, Xiaoqiang Zhu(参考訳) 伝統的な産業レコメンダは通常、単一のビジネスドメインでトレーニングされ、そのドメインで機能する。 しかし、大規模な商用プラットフォームでは、複数のビジネスドメインに対してクリックスルー率(CTR)の予測を行う必要がある場合が多い。 異なるドメインには重複するユーザグループとアイテムがあり、そのため共通点が存在する。 特定のユーザグループが異なる可能性があり、ユーザ動作が特定のドメイン内で変化する可能性があるため、異なるドメインも区別できる。 この区別は、異なるドメイン固有のデータ分散をもたらすため、単一の共有モデルがすべてのドメインでうまく機能することが難しくなる。 そこで、スタートポロジー・アダプティブ・レコメンダー(Star Topology Adaptive Recommender、スター・トポロジー・アダプティブ・レコメンダー)は、1つのモデルがすべてのドメインに効果的に役立つように学習される。 具体的には、STARは、共有中心のパラメータとドメイン固有のパラメータからなるスタートポロジーを持っています。 共有パラメータは、すべてのドメインの共通性を学習するために使用され、ドメイン固有のパラメータは、より洗練された予測のためにドメインの区別をキャプチャする。 異なるドメインからの要求に応じて、STARはドメインで条件付きパラメータを適応させることができます。 生産データから得られた実験結果は,提案したSTARモデルの優越性を検証した。 これまで、STARはAlibabaのディスプレイ広告システムに展開されており、CTRの8.0%、RPMの6.0%の平均改善(Revenue Per Mille)を得ています。

Traditional industrial recommenders are usually trained on a single business domain and then serve for this domain. In large commercial platforms, however, it is often the case that the recommenders need to make click-through rate (CTR) predictions for multiple business domains. Different domains have overlapping user groups and items, thus exist commonalities. Since the specific user group may be different and the user behaviors may change within a specific domain, different domains also have distinctions. The distinctions result in different domain-specific data distributions, which makes it hard for a single shared model to work well on all domains. To address the problem, we present Star Topology Adaptive Recommender (STAR), where one model is learned to serve all domains effectively. Concretely, STAR has the star topology, which consists of the shared centered parameters and domain-specific parameters. The shared parameters are used to learn commonalities of all domains and the domain-specific parameters capture domain distinction for more refined prediction. Given requests from different domains, STAR can adapt its parameters conditioned on the domain. The experimental result from production data validates the superiority of the proposed STAR model. Up to now, STAR has been deployed in the display advertising system of Alibaba, obtaining averaging 8.0% improvement on CTR and 6.0% on RPM (Revenue Per Mille).
翻訳日:2021-03-13 22:43:53 公開日:2021-01-27
# (参考訳) 限られたセンサによる状態推定 --深層学習に基づくアプローチ [全文訳有]

State estimation with limited sensors -- A deep learning based approach ( http://arxiv.org/abs/2101.11513v1 )

ライセンス: CC BY 4.0
Yash Kumar, Pranav Bahl, Souvik Chakraborty(参考訳) 流体力学における状態推定の重要性は十分に確立されており、設計/最適化、アクティブ制御、将来の状態予測などいくつかのタスクを達成するために必要である。 この点で一般的な戦術は、減らされた順序モデルに頼ることです。 このようなアプローチは、一般に1回のインスタンスの測定データを使用する。 しかし、センサーから得られるデータは逐次的であり、情報損失は無視される。 本稿では,シーケンシャルデータから学習する新しいディープラーニングに基づく状態推定フレームワークを提案する。 提案するモデル構造は, 繰り返しセルから成り, 異なる時間ステップから情報を伝達し, この情報を利用して全状態を復元する。 逐次データを利用することで,1~2つのセンサのみの状態回復が可能になることを示す。 状態の効率よく回復するために、提案手法はオートエンコーダに基づく縮小順序モデルと結合される。 提案手法の性能を2つの例を用いて説明し,文献に存在する他の代替案よりも優れていることを示す。

The importance of state estimation in fluid mechanics is well-established; it is required for accomplishing several tasks including design/optimization, active control, and future state prediction. A common tactic in this regards is to rely on reduced order models. Such approaches, in general, use measurement data of one-time instance. However, oftentimes data available from sensors is sequential and ignoring it results in information loss. In this paper, we propose a novel deep learning based state estimation framework that learns from sequential data. The proposed model structure consists of the recurrent cell to pass information from different time steps enabling utilization of this information to recover the full state. We illustrate that utilizing sequential data allows for state recovery from only one or two sensors. For efficient recovery of the state, the proposed approached is coupled with an auto-encoder based reduced order model. We illustrate the performance of the proposed approach using two examples and it is found to outperform other alternatives existing in the literature.
翻訳日:2021-03-13 22:26:52 公開日:2021-01-27
# (参考訳) トロピカルサポートベクターマシンの評価と機能空間への拡張 [全文訳有]

Tropical Support Vector Machines: Evaluations and Extension to Function Spaces ( http://arxiv.org/abs/2101.11531v1 )

ライセンス: CC BY 4.0
Ruriko Yoshida and Misaki Takamori and Hideyuki Matsumoto and Keiji Miura(参考訳) Support Vector Machines (SVM) はユークリッド空間の超平面を用いて分類する最も一般的な教師あり学習モデルの1つである。 svmsと同様に、トロピカルsvmはmax-plus代数学を用いて熱帯超平面を用いてデータポイントを分類する。 本稿では、まず、熱帯射影空間上の熱帯SVMの一般化誤差境界を示す。 分布自由な方法でVC次元によって達成される一般化誤差境界は次元に依存するが、極値統計学により、2つのガウス分布からデータポイントを分類する熱帯SVMと、異なるニューロンタイプの経験的データセットが次元の呪いに対してかなり堅牢であることを示す。 極値統計は、追加のノイズ次元を持つランダムベクトル間のトロピカル距離の異常スケーリングの挙動も浮き彫りにする。 最後に、熱帯計量を用いて函数空間上の熱帯SVMを定義し、ガウス函数空間を例として論じる。

Support Vector Machines (SVMs) are one of the most popular supervised learning models to classify using a hyperplane in an Euclidean space. Similar to SVMs, tropical SVMs classify data points using a tropical hyperplane under the tropical metric with the max-plus algebra. In this paper, first we show generalization error bounds of tropical SVMs over the tropical projective space. While the generalization error bounds attained via VC dimensions in a distribution-free manner still depend on the dimension, we also show theoretically by extreme value statistics that the tropical SVMs for classifying data points from two Gaussian distributions as well as empirical data sets of different neuron types are fairly robust against the curse of dimensionality. Extreme value statistics also underlie the anomalous scaling behaviors of the tropical distance between random vectors with additional noise dimensions. Finally, we define tropical SVMs over a function space with the tropical metric and discuss the Gaussian function space as an example.
翻訳日:2021-03-13 22:05:37 公開日:2021-01-27
# (参考訳) 自動エンコーダによる回転機の条件監視と異常検出方法 [全文訳有]

Autoencoder-based Condition Monitoring and Anomaly Detection Method for Rotating Machines ( http://arxiv.org/abs/2101.11539v1 )

ライセンス: CC BY 4.0
Sabtain Ahmad, Kevin Styp-Rekowski, Sasho Nedelkoski, Odej Kao(参考訳) エンジン、ポンプ、タービンなどの回転機械は現代の社会で広く使われている。 電気エンジン、ローター、ベアリングなどの機械部品が主要なコンポーネントであり、それらの故障が完全にシャットダウンする可能性があります。 このような重要なシステムの異常検出は、システムの健康を監視するために非常に重要です。 そこで本研究では,全故障を明示的にラベル付けした回転機械からデータセットを取得することの難しさとして,マシンの正常な動作に焦点をあてる手法を提案する。 自動エンコーダモデルに基づく回転機の状態監視手法を異常検出手法を用いて提案する。 この方法は、通常の振動信号を用いて回転機の特性を学習し、機械の健全な状態をモデル化する。 しきい値に基づくアプローチが、見知らぬデータの再構成誤差に適用され、見つからない異常を検出することができる。 提案手法は, 生の振動信号から有意な特徴を直接抽出し, 手動で設計された特徴を排除できる。 そこで本研究では,2つの回転機械データセットを用いて提案手法の有効性を実証し,これら2組の孤立林モデルを訓練し,自動学習特徴の質を手作り特徴量と比較した。 2つの実世界のデータセットの実験結果は、提案されたソリューションが有望な結果をもたらし、平均F1スコア99.6%を達成したことを示している。

Rotating machines like engines, pumps, or turbines are ubiquitous in modern day societies. Their mechanical parts such as electrical engines, rotors, or bearings are the major components and any failure in them may result in their total shutdown. Anomaly detection in such critical systems is very important to monitor the system's health. As the requirement to obtain a dataset from rotating machines where all possible faults are explicitly labeled is difficult to satisfy, we propose a method that focuses on the normal behavior of the machine instead. We propose an autoencoder model-based method for condition monitoring of rotating machines by using an anomaly detection approach. The method learns the characteristics of a rotating machine using the normal vibration signals to model the healthy state of the machine. A threshold-based approach is then applied to the reconstruction error of unseen data, thus enabling the detection of unseen anomalies. The proposed method can directly extract the salient features from raw vibration signals and eliminate the need for manually engineered features. We demonstrate the effectiveness of the proposed method by employing two rotating machine datasets and the quality of the automatically learned features is compared with a set of handcrafted features by training an Isolation Forest model on either of these two sets. Experimental results on two real-world datasets indicate that our proposed solution gives promising results, achieving an average F1-score of 99.6%.
翻訳日:2021-03-13 21:18:08 公開日:2021-01-27
# (参考訳) ニューラルネットワークを用いた複雑な物理システムの依存関係の発見 [全文訳有]

Discovering dependencies in complex physical systems using Neural Networks ( http://arxiv.org/abs/2101.12583v1 )

ライセンス: CC BY 4.0
Sachin Kasture(参考訳) 今日のデータの時代では、異なる変数間の関係を発見することは興味深いと難しい問題です。 この問題は、高度に非線形な挙動を示すことができる天気予報やエコノメトリックモデルなどの複雑な動的システムに関して、さらに重要になります。 関数的依存性から因果関係までの非線形関係を発見するための汎用フレームワークとして,相互情報とディープニューラルネットワークに基づく手法を提案する。 本手法の実際の多変数非線形力学系への応用を実証する。 また,この手法は,経験的データの場合と同様に,データポイントの少ないデータセットでも関係性を見出すことができることを示す。

In todays age of data, discovering relationships between different variables is an interesting and a challenging problem. This problem becomes even more critical with regards to complex dynamical systems like weather forecasting and econometric models, which can show highly non-linear behavior. A method based on mutual information and deep neural networks is proposed as a versatile framework for discovering non-linear relationships ranging from functional dependencies to causality. We demonstrate the application of this method to actual multivariable non-linear dynamical systems. We also show that this method can find relationships even for datasets with small number of datapoints, as is often the case with empirical data.
翻訳日:2021-03-13 21:03:33 公開日:2021-01-27
# (参考訳) DATE Friday Workshop on System-level Design Methods for Deep Learning on Heterogeneous Architectures (SLOHA 2021) に参加して

Proceedings of the DATE Friday Workshop on System-level Design Methods for Deep Learning on Heterogeneous Architectures (SLOHA 2021) ( http://arxiv.org/abs/2102.00818v1 )

ライセンス: CC BY 4.0
Frank Hannig, Paolo Meloni, Matteo Spallanzani, Matthias Ziegler(参考訳) この巻には、2021年2月5日に事実上開催された第1回DATE Friday Workshop on System-level Design Methods for Deep Learning on Heterogeneous Architectures (SLOHA 2021)で受け入れられた論文が含まれている。 SLOHA 2021はヨーロッパにおける設計、自動化、テストに関する会議(DATE)と共同で設立された。

This volume contains the papers accepted at the first DATE Friday Workshop on System-level Design Methods for Deep Learning on Heterogeneous Architectures (SLOHA 2021), held virtually on February 5, 2021. SLOHA 2021 was co-located with the Conference on Design, Automation and Test in Europe (DATE).
翻訳日:2021-03-13 20:25:32 公開日:2021-01-27
# 現代言語における歴史テキストの要約

Summarising Historical Text in Modern Languages ( http://arxiv.org/abs/2101.10759v2 )

ライセンス: Link先を確認
Xutan Peng, Yi Zheng, Chenghua Lin, Advaith Siddharthan(参考訳) 本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。 これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。 我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。 言語間移動学習技術に基づいて,言語間(歴史から現代まで)の並列データを用いなくても訓練可能な要約モデルを提案し,さらに最先端のアルゴリズムと比較した。 歴史的・現代的言語要約タスクと標準言語横断要約(現代語と近代言語)を区別する自動的・人的評価を報告し、我々のデータセットの識別性と価値を強調するとともに、このタスクにおける標準言語横断ベンチマークよりも転送学習アプローチの方が優れていることを示す。

We introduce the task of historical text summarisation, where documents in historical forms of a language are summarised in the corresponding modern language. This is a fundamentally important routine to historians and digital humanities researchers but has never been automated. We compile a high-quality gold-standard text summarisation dataset, which consists of historical German and Chinese news from hundreds of years ago summarised in modern German or Chinese. Based on cross-lingual transfer learning techniques, we propose a summarisation model that can be trained even with no cross-lingual (historical to modern) parallel data, and further benchmark it against state-of-the-art algorithms. We report automatic and human evaluations that distinguish the historic to modern language summarisation task from standard cross-lingual summarisation (i.e., modern to modern language), highlight the distinctness and value of our dataset, and demonstrate that our transfer learning approach outperforms standard cross-lingual benchmarks on this task.
翻訳日:2021-03-13 20:07:24 公開日:2021-01-27
# 過パラメータマトリクスセンシングの計算的および統計的複雑性について

On the computational and statistical complexity of over-parameterized matrix sensing ( http://arxiv.org/abs/2102.02756v1 )

ライセンス: Link先を確認
Jiacheng Zhuo, Jeongyeol Kwon, Nhat Ho, Constantine Caramanis(参考訳) 我々は,FGD法を用いて,真のランクが未知かつ過剰に特定された場合の低ランク行列センシング問題を,過パラメータ行列センシング(over-parameterized matrix sensor)と呼ぶ。 基底真理信号 $\mathbf{X}^* \in \mathbb{R}^{d*d}$ が階数 $r$ であるなら、$\mathbf{F} \mathbf{F}^\top$ ここで $\mathbf{F} \in \mathbb{R}^{d*k}$ と $k>r$ を用いてそれを回復しようとするが、既存の統計解析は、大域極大周辺の損失関数の平坦な局所曲率のため、不足する。 By decomposing the factorized matrix $\mathbf{F}$ into separate column spaces to capture the effect of extra ranks, we show that $\|\mathbf{F}_t \mathbf{F}_t\mathbf{X}^*\|_{F}^2$ converges to a statistical error of $\tilde{\mathcal{O}} ({k d \sigma^2/n})$ after $\tilde{\mathcal{O}}(\frac{\sigma_{r}}{\sigma}\sqrt{\frac{n}{d}})$ number of iterations where $\mathbf{F}_t$ is the output of FGD after $t$ iterations, $\sigma^2$ is the variance of the observation noise, $\sigma_{r}$ is the $r$-th largest eigenvalue of $\mathbf{X}^*$, and $n$ is the number of sample. その結果,超パラメータ行列センシング問題に対するfgdの統計的・計算的複雑性の包括的図式が得られた。

We consider solving the low rank matrix sensing problem with Factorized Gradient Descend (FGD) method when the true rank is unknown and over-specified, which we refer to as over-parameterized matrix sensing. If the ground truth signal $\mathbf{X}^* \in \mathbb{R}^{d*d}$ is of rank $r$, but we try to recover it using $\mathbf{F} \mathbf{F}^\top$ where $\mathbf{F} \in \mathbb{R}^{d*k}$ and $k>r$, the existing statistical analysis falls short, due to a flat local curvature of the loss function around the global maxima. By decomposing the factorized matrix $\mathbf{F}$ into separate column spaces to capture the effect of extra ranks, we show that $\|\mathbf{F}_t \mathbf{F}_t - \mathbf{X}^*\|_{F}^2$ converges to a statistical error of $\tilde{\mathcal{O}} ({k d \sigma^2/n})$ after $\tilde{\mathcal{O}}(\frac{\sigma_{r}}{\sigma}\sqrt{\frac{n}{d}})$ number of iterations where $\mathbf{F}_t$ is the output of FGD after $t$ iterations, $\sigma^2$ is the variance of the observation noise, $\sigma_{r}$ is the $r$-th largest eigenvalue of $\mathbf{X}^*$, and $n$ is the number of sample. Our results, therefore, offer a comprehensive picture of the statistical and computational complexity of FGD for the over-parameterized matrix sensing problem.
翻訳日:2021-03-13 20:01:59 公開日:2021-01-27
# モバイルゲームビデオの主観的・客観的品質評価

Subjective and Objective Quality Assessment of Mobile Gaming Video ( http://arxiv.org/abs/2103.05099v1 )

ライセンス: Link先を確認
Shaoguo Wen, Suiyi Ling, Junle Wang, Ximing Chen, Lizhi Fang, Yanqing Jing, Patrick Le Callet(参考訳) 今日、ゲームビデオストリーミング技術やサービスの積極的な拡大と発展に伴い、ユーザー、特に携帯電話ユーザー、より高品質の体験のための期待も急速に増加しています。 既存の研究のほとんどが従来のビデオストリーミングに焦点を当てているため、モバイルゲームコンテンツの品質評価に合わせた主観的研究と客観的品質モデルには明確な欠如がある。 そこで本研究では,まず,3つのコーデックで符号化された1293のモバイルゲームシーケンスを含む,新しいTencent Gaming Videoデータセットを提案する。 第2に,(1)高効率なハードランク品質推定器 (ERAQUE) と,(2) モデルが類似のペアの識別に重きを置く新しいハードペアランキング損失,(2) 適応型モデルの蒸留戦略を,性能低下を生じさせることなく効率的に圧縮できる,客観的な品質評価手法を提案する。 広範な実験は、私たちのモデルの効率性と堅牢性を示しています。

Nowadays, with the vigorous expansion and development of gaming video streaming techniques and services, the expectation of users, especially the mobile phone users, for higher quality of experience is also growing swiftly. As most of the existing research focuses on traditional video streaming, there is a clear lack of both subjective study and objective quality models that are tailored for quality assessment of mobile gaming content. To this end, in this study, we first present a brand new Tencent Gaming Video dataset containing 1293 mobile gaming sequences encoded with three different codecs. Second, we propose an objective quality framework, namely Efficient hard-RAnk Quality Estimator (ERAQUE), that is equipped with (1) a novel hard pairwise ranking loss, which forces the model to put more emphasis on differentiating similar pairs; (2) an adapted model distillation strategy, which could be utilized to compress the proposed model efficiently without causing significant performance drop. Extensive experiments demonstrate the efficiency and robustness of our model.
翻訳日:2021-03-13 19:59:09 公開日:2021-01-27
# 大規模オントロジーからのバイオメディカル概念の低リソース認識とリンク

Low Resource Recognition and Linking of Biomedical Concepts from a Large Ontology ( http://arxiv.org/abs/2101.10587v2 )

ライセンス: Link先を確認
Sunil Mohan and Rico Angell and Nick Monath and Andrew McCallum(参考訳) 科学文献を探索するツールは科学者にとって不可欠であり、特にバイオメディシンでは毎年100万件の論文が発行されている。 このようなツールの多くは、特定のエンティティ(例えば)を検索する機能を提供する。 タンパク質、病気) 論文の言及を追跡すること。 生物医学論文のデータベースで最も有名なPubMedは、これらのアノテーションを追加するために人間のキュレーターに依存しています。 これは新しい論文に数週間かかり、すべての論文がタグ付けされるわけではない。 科学論文のセマンティックインデックス作成を容易にするために機械学習モデルが開発された。 しかし、バイオメディカル概念のより包括的なオントロジーにおけるそれらの性能は、NLPで研究される典型的な実体認識問題のレベルに達しない。 これは、オントロジーが大きく、ほとんどのエンティティを定義する記述的テキストが欠如しており、ラベル付きデータはオントロジーのごく一部しかカバーできないためである。 本稿では,(1)訓練時に見つからないエンティティに一般化し,(2)参照セグメンテーション決定にリンク予測を組み込むことにより,これらの課題を克服する新しいモデルを開発する。 提案手法は,従来の認識/リンク(+8 F1 pts)とセマンティックインデックスに基づく評価(+10 F1 pts)において,UMLSオントロジーの新たな最先端結果を実現する。

Tools to explore scientific literature are essential for scientists, especially in biomedicine, where about a million new papers are published every year. Many such tools provide users the ability to search for specific entities (e.g. proteins, diseases) by tracking their mentions in papers. PubMed, the most well known database of biomedical papers, relies on human curators to add these annotations. This can take several weeks for new papers, and not all papers get tagged. Machine learning models have been developed to facilitate the semantic indexing of scientific papers. However their performance on the more comprehensive ontologies of biomedical concepts does not reach the levels of typical entity recognition problems studied in NLP. In large part this is due to their low resources, where the ontologies are large, there is a lack of descriptive text defining most entities, and labeled data can only cover a small portion of the ontology. In this paper, we develop a new model that overcomes these challenges by (1) generalizing to entities unseen at training time, and (2) incorporating linking predictions into the mention segmentation decisions. Our approach achieves new state-of-the-art results for the UMLS ontology in both traditional recognition/linking (+8 F1 pts) as well as semantic indexing-based evaluation (+10 F1 pts).
翻訳日:2021-03-13 19:57:31 公開日:2021-01-27
# ResLT:ロングテール認識のための残差学習

ResLT: Residual Learning for Long-tailed Recognition ( http://arxiv.org/abs/2101.10633v2 )

ライセンス: Link先を確認
Jiequan Cui, Shu Liu, Zhuotao Tian, Zhisheng Zhong, Jiaya Jia(参考訳) ディープラーニングのアルゴリズムは、長尾のデータ分散で大きな課題に直面していますが、現実のシナリオでは、非常に一般的なケースです。 従来の手法では、入力空間の側面(周波数の異なるクラスの再サンプリング)や損失空間(重みの異なるクラスの再重み付け)から問題に対処し、テールクラスへの過剰な過剰フィットやトレーニング中のハード最適化に苦しむ。 これらの問題を軽減するために、パラメータ空間の側面から、長尾認識のためのより基本的な視点{i.e. を提案し、低周波のクラスに対する特定の容量を維持することを目指している。 この観点では、自明な解は、それぞれヘッド、ミディアム、テールクラスの異なる分岐を利用し、最終的な結果が実現不可能であるとして出力を和する。 1つのメインブランチがすべてのクラスの画像を認識するように最適化され、もう1つのメインブランチが徐々に融合され、それぞれ中型テールクラスとテールクラスの画像を強化するように最適化される。 その後、枝は加算ショートカットによって最終結果に集約される。 我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンをベンチマークでテストした。 実験の結果,ロングテール認識のための新しい最先端技術が得られた。 コードは \url{https://github.com/F PNAS/ResLT} で利用できる。

Deep learning algorithms face great challenges with long-tailed data distribution which, however, is quite a common case in real-world scenarios. Previous methods tackle the problem from either the aspect of input space (re-sampling classes with different frequencies) or loss space (re-weighting classes with different weights), suffering from heavy over-fitting to tail classes or hard optimization during training. To alleviate these issues, we propose a more fundamental perspective for long-tailed recognition, {i.e., from the aspect of parameter space, and aims to preserve specific capacity for classes with low frequencies. From this perspective, the trivial solution utilizes different branches for the head, medium, tail classes respectively, and then sums their outputs as the final results is not feasible. Instead, we design the effective residual fusion mechanism -- with one main branch optimized to recognize images from all classes, another two residual branches are gradually fused and optimized to enhance images from medium+tail classes and tail classes respectively. Then the branches are aggregated into final results by additive shortcuts. We test our method on several benchmarks, {i.e., long-tailed version of CIFAR-10, CIFAR-100, Places, ImageNet, and iNaturalist 2018. Experimental results manifest that our method achieves new state-of-the-art for long-tailed recognition. Code will be available at \url{https://github.com/F PNAS/ResLT}.
翻訳日:2021-03-13 19:54:19 公開日:2021-01-27
# コントラスト正規化によるグラフ表現学習の改善

Improving Graph Representation Learning by Contrastive Regularization ( http://arxiv.org/abs/2101.11525v1 )

ライセンス: Link先を確認
Kaili Ma, Haochen Yang, Han Yang, Tatiana Jin, Pengfei Chen, Yongqiang Chen, Barakeel Fanseu Kamhoua, James Cheng(参考訳) グラフ表現学習は、オンラインソーシャルネットワーク、eコマースネットワーク、WWW、セマンティックウェブなど、さまざまな分野のアプリケーションで重要なタスクです。 教師なしグラフ表現学習では、Node2VecやGraph-SAGEといった多くのアルゴリズムが"負サンプリング"やノイズコントラスト推定損失を使用している。 これは、意味的に類似する(正の)ペアと負のペアのノード表現の類似性を「矛盾する」コントラスト学習と同様の考えを持つ。 しかし、コントラスト学習の成功にもかかわらず、グラフ表現学習モデル(例えばグラフ畳み込みネットワーク)に直接この手法を適用することは必ずしもうまくいくとは限らない。 本稿では, 一般化性能を理論的に解析し, ノード表現のノルムの高スケール化と高分散化を回避し, 一般化性能を向上させる軽量正規化項を提案する。 実験により, この正規化項は, 異なるノード類似性定義の表現品質を著しく向上し, 最先端の手法よりも優れることを確認した。

Graph representation learning is an important task with applications in various areas such as online social networks, e-commerce networks, WWW, and semantic webs. For unsupervised graph representation learning, many algorithms such as Node2Vec and Graph-SAGE make use of "negative sampling" and/or noise contrastive estimation loss. This bears similar ideas to contrastive learning, which "contrasts" the node representation similarities of semantically similar (positive) pairs against those of negative pairs. However, despite the success of contrastive learning, we found that directly applying this technique to graph representation learning models (e.g., graph convolutional networks) does not always work. We theoretically analyze the generalization performance and propose a light-weight regularization term that avoids the high scales of node representations' ; norms and the high variance among them to improve the generalization performance. Our experimental results further validate that this regularization term significantly improves the representation quality across different node similarity definitions and outperforms the state-of-the-art methods.
翻訳日:2021-03-13 19:47:37 公開日:2021-01-27
# 協調データ分析の正確性とプライバシー評価

Accuracy and Privacy Evaluations of Collaborative Data Analysis ( http://arxiv.org/abs/2101.11144v1 )

ライセンス: Link先を確認
Akira Imakura, Anna Bogdanova, Takaya Yamazoe, Kazumasa Omote, Tetsuya Sakurai(参考訳) 個々のデータを明らかにしない分散データ分析は、最近いくつかのアプリケーションで大きな注目を集めています。 非モデル共有型フェデレーション学習として,次元性低減データ表現の共有による協調的データ分析が提案されている。 本稿では,本フレームワークの精度とプライバシ評価について分析する。 精度解析では、協調データ解析と寸法低減による集中分析の等価性について十分な条件を提供しました。 プライバシー分析では、共同ユーザーのプライベートデータセットがインサイダーおよび外部攻撃シナリオに対して二重のプライバシー層で保護されることを証明しました。

Distributed data analysis without revealing the individual data has recently attracted significant attention in several applications. A collaborative data analysis through sharing dimensionality reduced representations of data has been proposed as a non-model sharing-type federated learning. This paper analyzes the accuracy and privacy evaluations of this novel framework. In the accuracy analysis, we provided sufficient conditions for the equivalence of the collaborative data analysis and the centralized analysis with dimensionality reduction. In the privacy analysis, we proved that collaborative users' private datasets are protected with a double privacy layer against insider and external attacking scenarios.
翻訳日:2021-03-13 19:42:25 公開日:2021-01-27
# クロスオーバーに基づく知識蒸留による進化的汎用ネットワーク

Evolutionary Generative Adversarial Networks with Crossover Based Knowledge Distillation ( http://arxiv.org/abs/2101.11186v1 )

ライセンス: Link先を確認
Junjie Li, Junwei Zhang, Xiaoyu Gong, Shuai L\"u(参考訳) generative adversarial networks (gan) は敵対的モデルであり、様々な生成的タスクに有効であることが示されている。 しかし、GANとその変種はまた、モード崩壊やグラデーション消失などの多くの訓練問題に苦しんでいます。 本稿ではまず,進化戦略を用いてGANに広く適用可能な一般クロスオーバー演算子を提案する。 そして、それに基づいて進化的GANフレームワークC-GANを設計する。 また,クロスオーバー演算子と進化生成逆数ネットワーク(EGAN)を組み合わせて,クロスオーバー(CE-GAN)を用いた進化生成逆数ネットワークを実装した。 変異個体を生成する突然変異演算子として、さまざまな損失関数が使用されることを前提に、生成されたサンプルを評価し、突然変異個体が知識蒸留方法でアウトプットから経験を学習できるようにし、最高のアウトプット結果を模倣し、より良い子孫を生み出します。 そして,父母として最良の子を選抜し,その後,判別器を評価器として訓練を行った。 実データを用いた実験により,CE-GANの有効性を実証し,生成した画像の品質と時間効率の両面で競合することを示す。

Generative Adversarial Networks (GAN) is an adversarial model, and it has been demonstrated to be effective for various generative tasks. However, GAN and its variants also suffer from many training problems, such as mode collapse and gradient vanish. In this paper, we firstly propose a general crossover operator, which can be widely applied to GANs using evolutionary strategies. Then we design an evolutionary GAN framework C-GAN based on it. And we combine the crossover operator with evolutionary generative adversarial networks (EGAN) to implement the evolutionary generative adversarial networks with crossover (CE-GAN). Under the premise that a variety of loss functions are used as mutation operators to generate mutation individuals, we evaluate the generated samples and allow the mutation individuals to learn experiences from the output in a knowledge distillation manner, imitating the best output outcome, resulting in better offspring. Then, we greedily selected the best offspring as parents for subsequent training using discriminator as evaluator. Experiments on real datasets demonstrate the effectiveness of CE-GAN and show that our method is competitive in terms of generated images quality and time efficiency.
翻訳日:2021-03-13 19:42:17 公開日:2021-01-27
# 知識トレースのための深層学習に基づくモデルの解釈可能性について

On the Interpretability of Deep Learning Based Models for Knowledge Tracing ( http://arxiv.org/abs/2101.11335v1 )

ライセンス: Link先を確認
Xinyi Ding and Eric C. Larson(参考訳) 知識追跡により、Intelligent Tutoring Systemsは、学生が習得したトピックやスキルを推測し、カリキュラムを調整できる。 Deep Knowledge Tracing (DKT)やDynamic Key-Value Memory Network (DKVMN)のようなディープラーニングベースのモデルは、Bayesian Knowledge Tracing (BKT)やPerformance Factors Analysis (PFA)のようなモデルと比較して大幅に改善されている。 しかし、ディープラーニングベースのモデルは、ディープニューラルネットワークによって学習される意思決定プロセスが研究コミュニティによって完全には理解されていないため、他のモデルほど解釈できない。 本研究では,高次元空間におけるDKTの挙動を可視化・解析し,DKTモデルについて批判的に検討した。 本研究では,DKVMNモデルのメモリ状態について,より大規模なデータセットを用いて独自の解析を行い,議論を加える。 We discover that Deep Knowledge Tracing has some critical pitfalls: 1) instead of tracking each skill through time, DKT is more likely to learn an `ability' model; 2) the recurrent nature of DKT reinforces irrelevant information that it uses during the tracking task; 3) an untrained recurrent network can achieve similar results to a trained DKT model, supporting a conclusion that recurrence relations are not properly learned and, instead, improvements are simply a benefit of projection into a high dimensional, sparse vector space. これらの観測に基づいて,深層ニューラルネットワークモデルを用いた知識追跡研究のための改良と今後の方向性を提案する。

Knowledge tracing allows Intelligent Tutoring Systems to infer which topics or skills a student has mastered, thus adjusting curriculum accordingly. Deep Learning based models like Deep Knowledge Tracing (DKT) and Dynamic Key-Value Memory Network (DKVMN) have achieved significant improvements compared with models like Bayesian Knowledge Tracing (BKT) and Performance Factors Analysis (PFA). However, these deep learning based models are not as interpretable as other models because the decision-making process learned by deep neural networks is not wholly understood by the research community. In previous work, we critically examined the DKT model, visualizing and analyzing the behaviors of DKT in high dimensional space. In this work, we extend our original analyses with a much larger dataset and add discussions about the memory states of the DKVMN model. We discover that Deep Knowledge Tracing has some critical pitfalls: 1) instead of tracking each skill through time, DKT is more likely to learn an `ability' model; 2) the recurrent nature of DKT reinforces irrelevant information that it uses during the tracking task; 3) an untrained recurrent network can achieve similar results to a trained DKT model, supporting a conclusion that recurrence relations are not properly learned and, instead, improvements are simply a benefit of projection into a high dimensional, sparse vector space. Based on these observations, we propose improvements and future directions for conducting knowledge tracing research using deep neural network models.
翻訳日:2021-03-13 19:40:59 公開日:2021-01-27
# ベイズ推定に基づくデータアノテーションによる差別リスクの検出

Detecting discriminatory risk through data annotation based on Bayesian inferences ( http://arxiv.org/abs/2101.11358v1 )

ライセンス: Link先を確認
Elena Beretta, Antonio Vetr\`o, Bruno Lepri, Juan Carlos De Martin(参考訳) 計算能力とデータ可用性の増大により、機械学習の研究は驚異的なスピードで進んでいます。 現在、自動意思決定システムの大部分はデータに基づいています。 しかし、機械学習システムが部分的あるいは不完全なデータに基づいて構築されている場合、問題のある結果をもたらすことはよく知られている。 実際、近年、データ収集の過程でこれらのシステムの倫理と透明性に関連する問題の収束と記録方法がいくつかの研究で発見されています。 厳密なデータ収集と分析のプロセスはモデル設計において基本的なものであるが、このステップは依然として機械学習コミュニティによって見過ごされている。 そこで本研究では,与えられたデータセットの判別結果のリスクについて警告することを目的とした,ベイズ統計推論に基づくデータアノテーション手法を提案する。 特に,マイノリティ会員に条件づけられた成功や失敗の確率は,利用可能なデータの構造によって与えられることを強調して,学習セット作成に採用されるサンプリングプラクティスに対する知識の深化と認識の促進を目的としている。 私たちは、機械学習コミュニティが一般にアクセスする3つのデータセットでシステムを実証的にテストし、人種差別のリスクを調査します。

Thanks to the increasing growth of computational power and data availability, the research in machine learning has advanced with tremendous rapidity. Nowadays, the majority of automatic decision making systems are based on data. However, it is well known that machine learning systems can present problematic results if they are built on partial or incomplete data. In fact, in recent years several studies have found a convergence of issues related to the ethics and transparency of these systems in the process of data collection and how they are recorded. Although the process of rigorous data collection and analysis is fundamental in the model design, this step is still largely overlooked by the machine learning community. For this reason, we propose a method of data annotation based on Bayesian statistical inference that aims to warn about the risk of discriminatory results of a given data set. In particular, our method aims to deepen knowledge and promote awareness about the sampling practices employed to create the training set, highlighting that the probability of success or failure conditioned to a minority membership is given by the structure of the data available. We empirically test our system on three datasets commonly accessed by the machine learning community and we investigate the risk of racial discrimination.
翻訳日:2021-03-13 19:40:34 公開日:2021-01-27
# オンライン学習における敵対者再訪:ロバスト最適化と敵対的トレーニングへの応用

Adversaries in Online Learning Revisited: with applications in Robust Optimization and Adversarial training ( http://arxiv.org/abs/2101.11443v1 )

ライセンス: Link先を確認
Sebastian Pokutta and Huan Xu(参考訳) オンライン学習における「敵」の概念を再考し,オンライン学習手法を用いた強固な最適化と敵意学習の解決を動機付ける。 オンライン学習における古典的なセットアップの1つは、"逆説的"なセットアップを扱うが、この概念は厳密に使われず、オンライン学習の結果や洞察を混乱させる。 具体的には、"敵"がオンライン学習アルゴリズムの外因性ランダム性を予測できるかどうかによって、基本的に異なる2種類の敵が存在する。 敵対的シーケンスはしばしば予測的であり、多くのオンライン学習アルゴリズムはそのようなケースで後悔の減少を達成しないため、これは堅牢な最適化と敵対的トレーニングに特に関連しています。 次に,オンライン学習によるロバスト最適化問題や(同等に)敵対的学習問題の解法に適用し,想像上の遊びを用いた多種多様な問題クラスに対する一般的なアプローチを確立した。 ここで2人のプレーヤーは互いに対戦し、プライマルプレーヤーは決定を、デュアルプレイヤーは不確定なデータの実現をプレイする。 ゲームが終了すると、プライマリプレーヤーはほぼ堅牢なソリューションを得ました。 このメタゲームは、様々な堅牢な最適化と多目的最適化の問題を解決し、arXiv:1402.6361のアプローチを一般化する。

We revisit the concept of "adversary" in online learning, motivated by solving robust optimization and adversarial training using online learning methods. While one of the classical setups in online learning deals with the "adversarial" setup, it appears that this concept is used less rigorously, causing confusion in applying results and insights from online learning. Specifically, there are two fundamentally different types of adversaries, depending on whether the "adversary" is able to anticipate the exogenous randomness of the online learning algorithms. This is particularly relevant to robust optimization and adversarial training because the adversarial sequences are often anticipative, and many online learning algorithms do not achieve diminishing regret in such a case. We then apply this to solving robust optimization problems or (equivalently) adversarial training problems via online learning and establish a general approach for a large variety of problem classes using imaginary play. Here two players play against each other, the primal player playing the decisions and the dual player playing realizations of uncertain data. When the game terminates, the primal player has obtained an approximately robust solution. This meta-game allows for solving a large variety of robust optimization and multi-objective optimization problems and generalizes the approach of arXiv:1402.6361.
翻訳日:2021-03-13 19:40:15 公開日:2021-01-27
# スキルの低い作業は、最も高いリスキルプレッシャーに直面する

Low-skilled Occupations Face the Highest Re-skilling Pressure ( http://arxiv.org/abs/2101.11505v1 )

ライセンス: Link先を確認
Di Tong (Massachusetts Institute of Technology), Lingfei Wu (University of Pittsburgh), James Allen Evans (University of Chicago)(参考訳) 実質的な奨学金は、自動化に対するジョブの感受性の推定に焦点を当てているが、新しい技術が一般的に特定のジョブタスクに取って代わるという事実にもかかわらず、情報時代におけるジョブ内容の進化についてはほとんど検討されていない。 ここでは,職業的スキル内容の変化の過程と結果について検討し,最も再スキルプレッシャーを受ける職業を特徴付ける。 最近の研究では、高度なstemと技術集約的なビジネス職業は、スキルコンテンツの変化率が最も高いことが示されている。 2010年から2018年の間、米国のオンライン求人の近宇宙をカバーするデータセットを用いて、仕事内のスキルの数と類似性を考慮すると、低複雑さ、低教育、低報酬の仕事の労働者にとって、再スキルのプレッシャーがはるかに高いことが分かりました。 スキルの類似性を正確に評価し、作業スキルの変換を特徴付けるために、すべてのジョブで推定されるスキルの高次元埋め込みを使用して、過去10年間に機械操作とインターフェースを必要とするスキルが重要になってきていることを実証しています。 大企業はスキルの不安定さや控えめさ、特にスキル要件が不安定な低スキルな仕事からジョブをバッファリングすることを確立します。 最終的に、中等教育と高等教育の職業間の再スキルプレッシャーのギャップは、大企業では小さくなり、周囲のスキル環境をコントロールすることによって、必要な再スキルの率を減らし、それらの職業の短期的な生産性を維持することが示唆される。

While substantial scholarship has focused on estimating the susceptibility of jobs to automation, little has examined how job contents evolve in the information age despite the fact that new technologies typically substitute for specific job tasks, shifting job skills rather than eliminating whole jobs. Here we explore the process and consequences of changes in occupational skill contents and characterize occupations subject to the most re-skilling pressure. Recent research suggests that high-skilled STEM and technology-intensive business occupations have experienced the highest rates of skill content change. Using a dataset covering the near universe of U.S. online job postings between 2010 and 2018, we find that when the number and similarity of skills within a job are taken into account, the re-skilling pressure is much higher for workers in low complexity, low education and low compensation occupations. We use high-dimensional embeddings of skills estimated across all jobs to precisely assess skill similarity, and characterize occupational skill transformations, demonstrating that skills requiring machine-operation and interface rise sharply in importance in the past decade, much more than human interface skills in low and mid-education occupations. We establish that large organizations buffer jobs from skill instability and obsolescence, especially low-skilled jobs with unstable skill requirements. Finally, the gap in re-skilling pressure between low/mid-education and high-education occupations is smaller in large organizations, suggesting that by controlling the surrounding skill environment, such organizations reduce the rate of required re-skilling and sustain short-term productivity for those occupations.
翻訳日:2021-03-13 19:39:53 公開日:2021-01-27
# 畳み込みニューラルネットワークによるアイスキューブニュートリノ天文台のカスケード再構成

A Convolutional Neural Network based Cascade Reconstruction for the IceCube Neutrino Observatory ( http://arxiv.org/abs/2101.11589v1 )

ライセンス: Link先を確認
R. Abbasi, M. Ackermann, J. Adams, J. A. Aguilar, M. Ahlers, M. Ahrens, C. Alispach, A. A. Alves Jr., N. M. Amin, R. An, K. Andeen, T. Anderson, I. Ansseau, G. Anton, C. Arg\"uelles, S. Axani, X. Bai, A. Balagopal V., A. Barbano, S. W. Barwick, B. Bastian, V. Basu, V. Baum, S. Baur, R. Bay, J. J. Beatty, K.-H. Becker, J. Becker Tjus, C. Bellenghi, S. BenZvi, D. Berley, E. Bernardini, D. Z. Besson, G. Binder, D. Bindig, E. Blaufuss, S. Blot, S. B\"oser, O. Botner, J. B\"ottcher, E. Bourbeau, J. Bourbeau, F. Bradascio, J. Braun, S. Bron, J. Brostean-Kaiser, A. Burgman, R. S. Busse, M. A. Campana, C. Chen, D. Chirkin, S. Choi, B. A. Clark, K. Clark, L. Classen, A. Coleman, G. H. Collin, J. M. Conrad, P. Coppin, P. Correa, D. F. Cowen, R. Cross, P. Dave, C. De Clercq, J. J. DeLaunay, H. Dembinski, K. Deoskar, S. De Ridder, A. Desai, P. Desiati, K. D. de Vries, G. de Wasseige, M. de With, T. DeYoung, S. Dharani, A. Diaz, J. C. D\'iaz-V\'elez, H. Dujmovic, M. Dunkman, M. A. DuVernois, E. Dvorak, T. Ehrhardt, P. Eller, R. Engel, J. Evans, P. A. Evenson, S. Fahey, A. R. Fazely, S. Fiedlschuster, A.T. Fienberg, K. Filimonov, C. Finley, L. Fischer, D. Fox, A. Franckowiak, E. Friedman, A. Fritz, P. F\"urst, T. K. Gaisser, J. Gallagher, E. Ganster, S. Garrappa, L. Gerhardt, A. Ghadimi, C. Glaser, T. Glauch, T. Gl\"usenkamp, A. Goldschmidt, J. G. Gonzalez, S. Goswami, D. Grant, T. Gr\'egoire, Z. Griffith, S. Griswold, M. G\"und\"uz, C. Haack, A. Hallgren, R. Halliday, L. Halve, F. Halzen, M. Ha Minh, K. Hanson, J. Hardin, A. A. Harnisch, A. Haungs, S. Hauser, D. Hebecker, K. Helbing, F. Henningsen, E. C. Hettinger, S. Hickford, J. Hignight, C. Hill, G. C. Hill, K. D. Hoffman, R. Hoffmann, T. Hoinka, B. Hokanson-Fasig, K. Hoshina, F. Huang, M. Huber, T. Huber, K. Hultqvist, M. H\"unnefeld, R. Hussain, S. In, N. Iovine, A. Ishihara, M. Jansson, G. S. Japaridze, M. Jeong, B. J. P. Jones, R. Joppe, D. Kang, W. Kang, X. Kang, A. Kappes, D. Kappesser, T. Karg, M. Karl, A. Karle, U. Katz, M. Kauer, M. Kellermann, J. L. Kelley, A. Kheirandish, J. Kim, K. Kin, T. Kintscher, J. Kiryluk, S. R. Klein, R. Koirala, H. Kolanoski, L. K\"opke, C. Kopper, S. Kopper, D. J. Koskinen, P. Koundal, M. Kovacevich, M. Kowalski, K. Krings, G. Kr\"uckl, N. Kurahashi, A. Kyriacou, C. Lagunas Gualda, J. L. Lanfranchi, M. J. Larson, F. Lauber, J. P. Lazar, K. Leonard, A. Leszczy\'nska, Y. Li, Q. R. Liu, E. Lohfink, C. J. Lozano Mariscal, L. Lu, F. Lucarelli, A. Ludwig, W. Luszczak, Y. Lyu, W. Y. Ma, J. Madsen, K. B. M. Mahn, Y. Makino, P. Mallik, S. Mancina, I. C. Mari{\c{s}}, R. Maruyama, K. Mase, F. McNally, K. Meagher, A. Medina, M. Meier, S. Meighen-Berger, J. Merz, J. Micallef, D. Mockler, G. Moment\'e, T. Montaruli, R. W. Moore, K. Morik, R. Morse, M. Moulai, R. Naab, R. Nagai, U. Naumann, J. Necker, L. V. Nguy{\~{\^{{e}}}}n, H. Niederhausen, M. U. Nisa, S. C. Nowicki, D. R. Nygren, A. Obertacke Pollmann, M. Oehler, A. Olivas, E. O'Sullivan, H. Pandya, D. V. Pankova, N. Park, G. K. Parker, E. N. Paudel, P. Peiffer, C. P\'erez de los Heros, S. Philippen, D. Pieloth, S. Pieper, A. Pizzuto, M. Plum, Y. Popovych, A. Porcelli, M. Prado Rodriguez, P. B. Price, B. Pries, G. T. Przybylski, C. Raab, A. Raissi, M. Rameez, K. Rawlins, I. C. Rea, A. Rehman, R. Reimann, M. Renschler, G. Renzi, E. Resconi, S. Reusch, W. Rhode, M. Richman, B. Riedel, S. Robertson, G. Roellinghoff, M. Rongen, C. Rott, T. Ruhe, D. Ryckbosch, D. Rysewyk Cantu, I. Safa, S. E. Sanchez Herrera, A. Sandrock, J. Sandroos, M. Santander, S. Sarkar, S. Sarkar, K. Satalecka, M. Scharf, M. Schaufel, H. Schieler, P. Schlunder, T. Schmidt, A. Schneider, J. Schneider, F. G. Schr\"oder, L. Schumacher, S. Sclafani, D. Seckel, S. Seunarine, A. Sharma, S. Shefali, M. Silva, B. Skrzypek, B. Smithers, R. Snihur, J. Soedingrekso, D. Soldin, G. M. Spiczak, C. Spiering, J. Stachurska, M. Stamatikos, T. Stanev, R. Stein, J. Stettner, A. Steuer, T. Stezelberger, R. G. Stokstad, T. St\"urwald, T. Stuttard, G. W. Sullivan, I. Taboada, F. Tenholt, S. Ter-Antonyan, S. Tilav, F. Tischbein, K. Tollefson, L. Tomankova, C. T\"onnis, S. Toscano, D. Tosi, A. Trettin, M. Tselengidou, C. F. Tung, A. Turcati, R. Turcotte, C. F. Turley, J. P. Twagirayezu, B. Ty, M. A. Unland Elorrieta, N. Valtonen-Mattila, J. Vandenbroucke, D. van Eijk, N. van Eijndhoven, D. Vannerom, J. van Santen, S. Verpoest, M. Vraeghe, C. Walck, A. Wallace, T. B. Watson, C. Weaver, A. Weindl, M. J. Weiss, J. Weldert, C. Wendt, J. Werthebach, M. Weyrauch, B. J. Whelan, N. Whitehorn, K. Wiebe, C. H. Wiebusch, D. R. Williams, M. Wolf, K. Woschnagg, G. Wrede, J. Wulff, X. W. Xu, Y. Xu, J. P. Yanez, S. Yoshida, T. Yuan, Z. Zhang(参考訳) 既存の再建手法の改善は、アイスキューブニュートリノ天文台のような高エネルギー物理実験の成功に不可欠である。 アイスキューブでは、検出器が計算資源が限られている南極点に位置するため、さらなる課題が生じる。 しかし, リアルタイム解析を行い, 世界中の望遠鏡に警告を発するためには, 強力かつ高速な再構成手法が望まれている。 ディープニューラルネットワークは非常に強力であり、ネットワークをトレーニングすればその使用は計算的に安価になる。 これらの特徴により、深層学習に基づくアプローチは、icecubeの応用に優れた候補となる。 畳み込み構造と六角形カーネルに基づく再構成法を提案する。 提案手法はシミュレーションの系統的不確実性に対して頑健であり,実験データを用いて実験を行った。 アイスキューブの標準的な再建法と比較して、再建に必要な時間を2~3桁に短縮しつつ、復元精度を向上させることができる。

Continued improvements on existing reconstruction methods are vital to the success of high-energy physics experiments, such as the IceCube Neutrino Observatory. In IceCube, further challenges arise as the detector is situated at the geographic South Pole where computational resources are limited. However, to perform real-time analyses and to issue alerts to telescopes around the world, powerful and fast reconstruction methods are desired. Deep neural networks can be extremely powerful, and their usage is computationally inexpensive once the networks are trained. These characteristics make a deep learning-based approach an excellent candidate for the application in IceCube. A reconstruction method based on convolutional architectures and hexagonally shaped kernels is presented. The presented method is robust towards systematic uncertainties in the simulation and has been tested on experimental data. In comparison to standard reconstruction methods in IceCube, it can improve upon the reconstruction accuracy, while reducing the time necessary to run the reconstruction by two to three orders of magnitude.
翻訳日:2021-03-13 19:39:24 公開日:2021-01-27
# 機械学習によるがん検診プログラムへの参加予測

Predicting Participation in Cancer Screening Programs with Machine Learning ( http://arxiv.org/abs/2101.11614v1 )

ライセンス: Link先を確認
Donghyun Kim(参考訳) 本稿では,韓国におけるがん検診プログラムへの参加を予測するために,ランダムな森林分類器,サポートベクタマシン,勾配向上決定木,人工ニューラルネットワークを用いた機械学習モデルを提案する。 トップパフォーマンスモデルはグラデーションブースト決定木に基づいており、受信機動作特性曲線(AUC-ROC)0.8706および平均精度0.8776の領域を達成した。 本研究の成果は、さらなる研究により、これらのモデルが朝鮮の医療システムに直接適用され、朝鮮の国立がんスクリーニングプログラムへの関与が高まることを示唆するものである。

In this paper, we present machine learning models based on random forest classifiers, support vector machines, gradient boosted decision trees, and artificial neural networks to predict participation in cancer screening programs in South Korea. The top performing model was based on gradient boosted decision trees and achieved an area under the receiver operating characteristic curve (AUC-ROC) of 0.8706 and average precision of 0.8776. The results of this study are encouraging and suggest that with further research, these models can be directly applied to Korea's healthcare system, thus increasing participation in Korea's National Cancer Screening Program.
翻訳日:2021-03-13 19:39:10 公開日:2021-01-27
# 混合精密DNN加速器の浮動小数点オーバーヘッド再考

Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators ( http://arxiv.org/abs/2101.11748v1 )

ライセンス: Link先を確認
Hamzah Abdel-Aziz, Ali Shafiee, Jong Hoon Shin, Ardavan Pedram and Joseph H. Hassoun(参考訳) 本稿では,異なる整数と浮動小数点(FP)の精度をサポートする混合精度畳み込みユニットアーキテクチャを提案する。 提案アーキテクチャは低ビット内積単位に基づいており,時間分解に基づく高精度を実現する。 本稿では,整数型アーキテクチャ上でFP計算を統合する方法と,FP演算支援によるオーバーヘッド評価について述べる。 FP内部積のアライメントと加算のオーバーヘッドは、最大出力差が最大58ビットになる可能性があるため、大きなアライメント論理をもたらす可能性があると我々は主張する。 この問題に対処するために、26ビットの積ビットは必要とせず、8ビットまでのアライメントがほとんどの推論ケースで十分であることを示す。 FP計算ハードウェアのオーバーヘッドを低減するために、上記の観測に基づく新しい最適化を提案します。 シミュレーションおよびハードウェア実装に基づく実験結果から,FP16オーバーヘッドの大幅な低減が得られた。 従来の混合精度実装では,TFLOPS/mm2では25%,TOPS/mm2では最大46%,TFLOPS/Wでは最大40%,TOPS/Wでは最大63%の電力効率向上を実現した。

In this paper, we propose a mixed-precision convolution unit architecture which supports different integer and floating point (FP) precisions. The proposed architecture is based on low-bit inner product units and realizes higher precision based on temporal decomposition. We illustrate how to integrate FP computations on integer-based architecture and evaluate overheads incurred by FP arithmetic support. We argue that alignment and addition overhead for FP inner product can be significant since the maximum exponent difference could be up to 58 bits, which results into a large alignment logic. To address this issue, we illustrate empirically that no more than 26-bitproduct bits are required and up to 8-bit of alignment is sufficient in most inference cases. We present novel optimizations based on the above observations to reduce the FP arithmetic hardware overheads. Our empirical results, based on simulation and hardware implementation, show significant reduction in FP16 overhead. Over typical mixed precision implementation, the proposed architecture achieves area improvements of up to 25% in TFLOPS/mm2and up to 46% in TOPS/mm2with power efficiency improvements of up to 40% in TFLOPS/Wand up to 63% in TOPS/W.
翻訳日:2021-03-13 19:38:59 公開日:2021-01-27
# インド経済と夜間照明

Indian Economy and Nighttime Lights ( http://arxiv.org/abs/2103.03179v1 )

ライセンス: Link先を確認
Jeet Agnihotri and Subhankar Mishra(参考訳) インドの経済成長は伝統的に不確実な運動である。 経済構造に影響を及ぼす指標と要因と、状況を正しく捉えたモデルに必要な変数は、懸念点である。 予報は国に比例するべきだが、各国には相互関係がある」と述べた。 時系列は不安定で、特定の変数が使用できないこともあるため、安定国や先進国と比べて発展途上国にとって予測が困難である。 しかし、成功した政策形成のための経済成長の正確な予測を持つことは非常に重要です。 仮説上の指標の1つは夜間灯である。 ここでは、GDPと夜間照明の関係を探る。 具体的にはDMSPとVIIRSのデータセットを調べます。 我々は様々な経済対策の関係を見出している。

Forecasting economic growth of India has been traditionally an uncertain exercise. The indicators and factors affecting economic structures and the variables required to model that captures the situation correctly is point of concern. Although the forecast should be specific to the country we are looking at however countries do have interlinkages among them. As the time series can be more volatile and sometimes certain variables are unavailable it is harder to predict for the developing economies as compared to stable and developed nations. However it is very important to have accurate forecasts for economic growth for successful policy formations. One of the hypothesized indicators is the nighttime lights. Here we aim to look for a relationship between GDP and Nighttime lights. Specifically we look at the DMSP and VIIRS dataset. We are finding relationship between various measures of economy.
翻訳日:2021-03-13 19:38:07 公開日:2021-01-27
# 偽ニュース検出のための対比アクティブ学習に基づく異種グラフニューラルネットワーク

Adversarial Active Learning based Heterogeneous Graph Neural Network for Fake News Detection ( http://arxiv.org/abs/2101.11206v1 )

ライセンス: Link先を確認
Yuxiang Ren, Bo Wang, Jiawei Zhang and Yi Chang(参考訳) フェイクニュースの爆発的な成長と、政治、経済、公共安全への破壊的な影響により、フェイクニュース検出の需要が増加した。 ソーシャルメディア上のフェイクニュースは、記事の形で独立して存在しない。 ニュースクリエイターやニューステーマなど、他の多くの団体はソーシャルメディア上に存在し、ニュース記事との関係を持っています。 異なる実体と関係は異種情報ネットワーク(HIN)としてモデル化することができる。 本稿では,ニュース指向HINのサポートにより,偽ニュース検出問題の解決を試みる。 HINでノード表現学習を行うための新しい階層的注意メカニズムを用いた、Adversarial Active Learning-based Heterogeneous Graph Neural Network (AA-HGNN) という偽ニュース検出フレームワークを提案する。 AA-HGNNは、特にラベル付きデータのあいまいさに直面している場合、学習性能を高めるためにアクティブな学習フレームワークを利用する。 対戦型セレクタは、アクティブラーニングフレームワークの高価値候補をクエリするために訓練される。 対向能動学習が完了すると、AA-HGNNはニュース記事ノードを分類して偽ニュースを検出する。 2つの現実世界の偽ニュースデータセットを用いた実験により、我々のモデルは、逆のアクティブラーニングの恩恵を受けるラベル付きデータが少ない場合、テキストベースのモデルや他のグラフベースのモデルよりも優れています。 一般化可能性を持つモデルとして、AA-HGNNは異種グラフ上の他のノード分類関連アプリケーションにも広く用いられる。

The explosive growth of fake news along with destructive effects on politics, economy, and public safety has increased the demand for fake news detection. Fake news on social media does not exist independently in the form of an article. Many other entities, such as news creators, news subjects, and so on, exist on social media and have relationships with news articles. Different entities and relationships can be modeled as a heterogeneous information network (HIN). In this paper, we attempt to solve the fake news detection problem with the support of a news-oriented HIN. We propose a novel fake news detection framework, namely Adversarial Active Learning-based Heterogeneous Graph Neural Network (AA-HGNN) which employs a novel hierarchical attention mechanism to perform node representation learning in the HIN. AA-HGNN utilizes an active learning framework to enhance learning performance, especially when facing the paucity of labeled data. An adversarial selector will be trained to query high-value candidates for the active learning framework. When the adversarial active learning is completed, AA-HGNN detects fake news by classifying news article nodes. Experiments with two real-world fake news datasets show that our model can outperform text-based models and other graph-based models when using less labeled data benefiting from the adversarial active learning. As a model with generalizability, AA-HGNN also has the ability to be widely used in other node classification-relat ed applications on heterogeneous graphs.
翻訳日:2021-03-13 19:33:35 公開日:2021-01-27
# 深部地震データ補間のためのアンチエイリアシングアドオン

Anti-Aliasing Add-On for Deep Prior Seismic Data Interpolation ( http://arxiv.org/abs/2101.11361v1 )

ライセンス: Link先を確認
Francesco Picetti, Vincenzo Lipari, Paolo Bestagini, Stefano Tubaro(参考訳) データ補間は、あらゆる地震処理ワークフローにおける基本的なステップです。 データの補間を逆問題として解くために最近提案された機械学習技術の中で、deep priorパラダイムは、畳み込みニューラルネットワークを使用してデータの先行をキャプチャし、反転を正規化することを目的としている。 しかし,この手法は,エイリアスの存在により高度にデシメーションされたデータを補間する場合の再構成精度に欠ける。 本研究では,この問題に方向ラプラシアンを正規化項として加えることにより,深い事前反転を改善することを提案する。 この正規化器は、補間されたデータ低周波から推定される傾きを尊重する解へと最適化を推し進める。 本書で考案した方法論を紹介するための数値例を示し,ノイズや破損したデータの存在下でのエイリアス傾向が小さいことを示す。

Data interpolation is a fundamental step in any seismic processing workflow. Among machine learning techniques recently proposed to solve data interpolation as an inverse problem, Deep Prior paradigm aims at employing a convolutional neural network to capture priors on the data in order to regularize the inversion. However, this technique lacks of reconstruction precision when interpolating highly decimated data due to the presence of aliasing. In this work, we propose to improve Deep Prior inversion by adding a directional Laplacian as regularization term to the problem. This regularizer drives the optimization towards solutions that honor the slopes estimated from the interpolated data low frequencies. We provide some numerical examples to showcase the methodology devised in this manuscript, showing that our results are less prone to aliasing also in presence of noisy and corrupted data.
翻訳日:2021-03-13 19:33:09 公開日:2021-01-27
# List-Decodable Coded Computing: Adversarial Toleration Barrierを破る

List-Decodable Coded Computing: Breaking the Adversarial Toleration Barrier ( http://arxiv.org/abs/2101.11653v1 )

ライセンス: Link先を確認
Mahdi Soleymani, Ramy E. Ali, Hessam Mahdavifar, A. Salman Avestimehr(参考訳) 計算タスクを分散的に行う符号化コンピューティングの課題を,対人的作業者の存在下で検討する。 我々は,これまでコード化コンピューティングで知られていた逆許容しきい値障壁を破る手法を提案する。 具体的には、折り畳みリードソロモン(FRS)符号のリストデコード技術を活用し、サイド情報を用いて正しいコード単語を復元する新しいアルゴリズムを提案します。 コード化された計算環境では、マスターノードがサイド情報を取得するために注意深く設計された余分な計算をいかに行うかを示す。 このサイド情報はリストデコーダの出力をpruneするために利用され、真の結果を一意に回復する。 さらに、開発した技術を特定の符号化コンピューティング環境に組み込むため、折り畳みLCCまたはFLCCと呼ばれる折り畳みラグランジュ符号化コンピューティングを提案します。 その結果、FLCCは許容できる敵の数の障壁を破ることでLCCを上回っていることが示された。 特に、FLCCの対応するしきい値はLCCと比較して2倍改善される。

We consider the problem of coded computing where a computational task is performed in a distributed fashion in the presence of adversarial workers. We propose techniques to break the adversarial toleration threshold barrier previously known in coded computing. More specifically, we leverage list-decoding techniques for folded Reed-Solomon (FRS) codes and propose novel algorithms to recover the correct codeword using side information. In the coded computing setting, we show how the master node can perform certain carefully designed extra computations in order to obtain the side information. This side information will be then utilized to prune the output of list decoder in order to uniquely recover the true outcome. We further propose folded Lagrange coded computing, referred to as folded LCC or FLCC, to incorporate the developed techniques into a specific coded computing setting. Our results show that FLCC outperforms LCC by breaking the barrier on the number of adversaries that can be tolerated. In particular, the corresponding threshold in FLCC is improved by a factor of two compared to that of LCC.
翻訳日:2021-03-13 19:32:20 公開日:2021-01-27
# G-MIND:バイオマーカー同定と疾患分類のためのエンドツーエンドマルチモーダルイメージングジェネティクスフレームワーク

G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for Biomarker Identification and Disease Classification ( http://arxiv.org/abs/2101.11656v1 )

ライセンス: Link先を確認
Sayan Ghosal, Qiang Chen, Giulio Pergola, Aaron L. Goldman, William Ulrich, Karen F. Berman, Giuseppe Blasi, Leonardo Fazio, Antonio Rampino, Alessandro Bertolino, Daniel R. Weinberger, Venkata S. Mattay, and Archana Venkataraman(参考訳) 診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。 我々のモデルはエンコーダ、デコーダ、および分類器で構成される。 エンコーダは入力データモダリティ間で共有される非線形部分空間を学習する。 分類器と復号器は正規化器として機能し、低次元の符号化が患者とコントロールの予測的差異を捉える。 データから解釈可能なバイオマーカーを抽出するために,学習可能なドロップアウト層を使用します。 2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。 10倍のクロスバリデーションを用いて,本モデルがベースライン法よりも優れた分類精度を達成し,別のサイトで収集された第2のデータセットに一般化できることを実証した。 さらに,本モデルにより同定されたバイオマーカーは,統合失調症の障害と密接に関連していることが示された。

We propose a novel deep neural network architecture to integrate imaging and genetics data, as guided by diagnosis, that provides interpretable biomarkers. Our model consists of an encoder, a decoder and a classifier. The encoder learns a non-linear subspace shared between the input data modalities. The classifier and the decoder act as regularizers to ensure that the low-dimensional encoding captures predictive differences between patients and controls. We use a learnable dropout layer to extract interpretable biomarkers from the data, and our unique training strategy can easily accommodate missing data modalities across subjects. We have evaluated our model on a population study of schizophrenia that includes two functional MRI (fMRI) paradigms and Single Nucleotide Polymorphism (SNP) data. Using 10-fold cross validation, we demonstrate that our model achieves better classification accuracy than baseline methods, and that this performance generalizes to a second dataset collected at a different site. In an exploratory analysis we further show that the biomarkers identified by our model are closely associated with the well-documented deficits in schizophrenia.
翻訳日:2021-03-13 19:32:01 公開日:2021-01-27
# (参考訳) TorchPRISM: Convolutional Neural Networkの可視化のための新しい手法であるPrincipal Image Sections Mapping [全文訳有]

TorchPRISM: Principal Image Sections Mapping, a novel method for Convolutional Neural Network features visualization ( http://arxiv.org/abs/2101.11266v1 )

ライセンス: CC BY 4.0
Tomasz Szandala(参考訳) 本稿では、PyTorch専用のプリンシパルイメージセクションマッピングPRISMと呼ばれるツールを紹介しますが、他のディープラーニングフレームワークに簡単に移植できます。 提示されたソフトウェアは、与えられた畳み込みニューラルネットワークによって認識される最も重要な特徴を視覚化するために主成分分析に依存している。 さらに、同じバッチで処理された画像間の比較セット機能を表示することができるため、PRISMは例による技術説明との相乗効果が高い方法です。

In this paper we introduce a tool called Principal Image Sections Mapping - PRISM, dedicated for PyTorch, but can be easily ported to other deep learning frameworks. Presented software relies on Principal Component Analysis to visualize the most significant features recognized by a given Convolutional Neural Network. Moreover, it allows to display comparative set features between images processed in the same batch, therefore PRISM can be a method well synerging with technique Explanation by Example.
翻訳日:2021-02-02 07:28:00 公開日:2021-01-27
# (参考訳) ディープオートエンコーダによる能動的符号化による自己キャリブレーション能動双眼視 [全文訳有]

Self-Calibrating Active Binocular Vision via Active Efficient Coding with Deep Autoencoders ( http://arxiv.org/abs/2101.11391v1 )

ライセンス: CC BY-SA 4.0
Charles Wilmot, Bertram E. Shi, Jochen Triesch(参考訳) 本研究では,視覚表現の同時学習,明るさ,眼球運動の探索を含む能動双眼視の自己校正モデルを提案する。 このモデルは、従来の効率的なコーディング仮説をアクティブな知覚に拡張した、アクティブ・効率・コーディング(aec)の原理に従っている。 従来のAECモデルとは対照的に,本モデルはディープオートエンコーダを用いて感覚表現を学習する。 また,行動の学習を導く本質的動機づけ信号の新しい定式化を提案する。 モデルの性能をシミュレーションで実証します。

We present a model of the self-calibration of active binocular vision comprising the simultaneous learning of visual representations, vergence, and pursuit eye movements. The model follows the principle of Active Efficient Coding (AEC), a recent extension of the classic Efficient Coding Hypothesis to active perception. In contrast to previous AEC models, the present model uses deep autoencoders to learn sensory representations. We also propose a new formulation of the intrinsic motivation signal that guides the learning of behavior. We demonstrate the performance of the model in simulations.
翻訳日:2021-02-02 07:23:48 公開日:2021-01-27
# (参考訳) ソーシャルメディアにおけるヘイトスピーチと攻撃的音声識別のためのトランスフォーマーモデルのマルチタスク多言語学習 [全文訳有]

Exploring multi-task multi-lingual learning of transformer models for hate speech and offensive speech identification in social media ( http://arxiv.org/abs/2101.11155v1 )

ライセンス: CC BY-SA 4.0
Sudhanshu Mishra, Shivangi Prasad, Shubhanshu Mishra(参考訳) ヘイトスピーチは、オンラインソーシャルメディアプラットフォームの主要なコンテンツモデレーション問題となっています。 オンラインコンテンツ制作の量と速度を考えると、どのプラットフォーム上でもヘイトスピーチ関連のコンテンツを手動で調整することは不可能です。 本稿では,最近提案されたTransformer Neural Networksに基づくマルチタスクと多言語アプローチを用いて,ヘイトスピーチのための3つのサブタスクを解決する。 これらのサブタスクは、2019年のヘイトスピーチとアタックコンテンツ(HASOC)識別に関する共有タスクの一部でした。 我々は,3つのアプローチを用いて学習したマルチタスクモデル,a)タスクの異なるマルチタスク学習,b)バックトランスレーション,c)多言語学習を活用することで,その競争への提案を拡大する。 最後に,様々なモデルの性能を調査し,トランスフォーマティブモデルの性能が異なるインスタンスを識別する。 様々な言語やタスクで容易に一般化できるモデルを得るための異なる組み合わせアプローチを活用でき、また推論時間計算コストを大幅に削減するためにわずかな精度(場合によっては)をトレードオフできることを示した。 HASOC 2019コードの更新版を、https://github.com/s ocialmediaie/MTML_Ha teSpeech.comで公開しました。

Hate Speech has become a major content moderation issue for online social media platforms. Given the volume and velocity of online content production, it is impossible to manually moderate hate speech related content on any platform. In this paper we utilize a multi-task and multi-lingual approach based on recently proposed Transformer Neural Networks to solve three sub-tasks for hate speech. These sub-tasks were part of the 2019 shared task on hate speech and offensive content (HASOC) identification in Indo-European languages. We expand on our submission to that competition by utilizing multi-task models which are trained using three approaches, a) multi-task learning with separate task heads, b) back-translation, and c) multi-lingual training. Finally, we investigate the performance of various models and identify instances where the Transformer based models perform differently and better. We show that it is possible to to utilize different combined approaches to obtain models that can generalize easily on different languages and tasks, while trading off slight accuracy (in some cases) for a much reduced inference time compute cost. We open source an updated version of our HASOC 2019 code with the new improvements at https://github.com/s ocialmediaie/MTML_Ha teSpeech.
翻訳日:2021-02-02 07:12:01 公開日:2021-01-27
# (参考訳) 意思決定前に親子に問い合わせる:自己監督型分類学拡張のための完全な階層構造 [全文訳有]

Enquire One's Parent and Child Before Decision: Fully Exploit Hierarchical Structure for Self-Supervised Taxonomy Expansion ( http://arxiv.org/abs/2101.11268v1 )

ライセンス: CC BY 4.0
Suyuchen Wang, Ruihui Zhao, Xi Chen, Yefeng Zheng and Bang Liu(参考訳) 分類学は、機械知能において重要な役割を果たす階層構造化された知識グラフである。 分類拡張タスクは、既存の分類学において、世界の新しい知識を捉え、分類学を動的に更新し続けるために新しい用語を見つけることを目的としている。 従来の分類展開解は階層構造によってもたらされる貴重な情報を無視し、単に付加されたエッジの正確性を評価し、問題をノードペアスコアやミニパス分類に低下させる。 本稿では,階層構造の性質を完全に活用し,拡張された分類の一貫性を最大化する階層拡張フレームワーク(HEF)を提案する。 HEF makes use of taxonomy's hierarchical structure in multiple aspects: i) HEF utilizes subtrees containing most relevant nodes as self-supervision data for a complete comparison of parental and sibling relations; ii) HEF adopts a coherence modeling module to evaluate the coherence of a taxonomy's subtree by integrating hypernymy relation detection and several tree-exclusive features; iii) HEF introduces the Fitting Score for position selection, which explicitly evaluates both path and level selections and takes full advantage of parental relations to interchange information for disambiguation and self-correction. 広範な実験により、階層構造をうまく活用し、分類学のコヒーレンスを最適化することにより、HEFは3つのベンチマークデータセットの以前の状態を大幅に上回り、平均46.7%の精度と32.3%の平均相互ランクの向上によって達成した。

Taxonomy is a hierarchically structured knowledge graph that plays a crucial role in machine intelligence. The taxonomy expansion task aims to find a position for a new term in an existing taxonomy to capture the emerging knowledge in the world and keep the taxonomy dynamically updated. Previous taxonomy expansion solutions neglect valuable information brought by the hierarchical structure and evaluate the correctness of merely an added edge, which downgrade the problem to node-pair scoring or mini-path classification. In this paper, we propose the Hierarchy Expansion Framework (HEF), which fully exploits the hierarchical structure's properties to maximize the coherence of expanded taxonomy. HEF makes use of taxonomy's hierarchical structure in multiple aspects: i) HEF utilizes subtrees containing most relevant nodes as self-supervision data for a complete comparison of parental and sibling relations; ii) HEF adopts a coherence modeling module to evaluate the coherence of a taxonomy's subtree by integrating hypernymy relation detection and several tree-exclusive features; iii) HEF introduces the Fitting Score for position selection, which explicitly evaluates both path and level selections and takes full advantage of parental relations to interchange information for disambiguation and self-correction. Extensive experiments show that by better exploiting the hierarchical structure and optimizing taxonomy's coherence, HEF vastly surpasses the prior state-of-the-art on three benchmark datasets by an average improvement of 46.7% in accuracy and 32.3% in mean reciprocal rank.
翻訳日:2021-02-02 06:48:26 公開日:2021-01-27
# (参考訳) Euler Video Magnificationを用いたディープフェイクビデオ検出 [全文訳有]

Detecting Deepfake Videos Using Euler Video Magnification ( http://arxiv.org/abs/2101.11563v1 )

ライセンス: CC BY 4.0
Rashmiranjan Das and Gaurav Negi and Alan F. Smeaton(参考訳) 人工知能の最近の進歩は、真偽のメディア、特に画像やビデオの区別を徐々に困難にしている。 最近の開発は、高度な機械学習技術を用いたビデオ操作に基づくディープフェイクビデオの台頭である。 これは、目的地ビデオの中で、個人の顔をソースビデオから2人目の人物の顔に置き換えることである。 このアイデアは徐々に洗練され、ディープフェイクは徐々にシームレスになり、計算がより簡単になっています。 ソーシャルメディアのアウトリーチとスピードが組み合わさって、ディープフェイクは、決して起こらなかったことを話したり、フィクションのシナリオを信じたり、苦悩を生んだり、フェイクニュースを広めたりする際に、容易に個人を騙すことができる。 本稿では,ディープフェイク映像の識別技術について検討する。 ビデオデータに空間分解と時間フィルタリングを適用して、皮膚の脈動や微妙な動きなどの隠された機能を強調および拡大するEulerビデオ倍率を使用します。 提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類し,既存の手法と比較する。

Recent advances in artificial intelligence make it progressively hard to distinguish between genuine and counterfeit media, especially images and videos. One recent development is the rise of deepfake videos, based on manipulating videos using advanced machine learning techniques. This involves replacing the face of an individual from a source video with the face of a second person, in the destination video. This idea is becoming progressively refined as deepfakes are getting progressively seamless and simpler to compute. Combined with the outreach and speed of social media, deepfakes could easily fool individuals when depicting someone saying things that never happened and thus could persuade people in believing fictional scenarios, creating distress, and spreading fake news. In this paper, we examine a technique for possible identification of deepfake videos. We use Euler video magnification which applies spatial decomposition and temporal filtering on video data to highlight and magnify hidden features like skin pulsation and subtle motions. Our approach uses features extracted from the Euler technique to train three models to classify counterfeit and unaltered videos and compare the results with existing techniques.
翻訳日:2021-02-02 06:12:30 公開日:2021-01-27
# (参考訳) メカニカルジェネレーション時代のアートワーク [全文訳有]

The Work of Art in an Age of Mechanical Generation ( http://arxiv.org/abs/2101.11587v1 )

ライセンス: CC BY 4.0
Steven J. Frank(参考訳) もしそうなら、私たちの定義は人工知能(ai)システムを人間の努力と区別できない創造性の実現へと導くことができるだろうか? この疑問は技術と社会の見地から考えられている。 芸術作品における真正性に付随する価値の探求をはじめ、AIが有名な絵画の偽造を検出する能力を検討し、そうすることで、芸術作品の奇抜さを何らかの形で明らかにする。 我々は、進化する技術能力が芸術、芸術家、市場間の伝統的な関係を改訂できるかどうかを検討することで結論づける。

Can we define what it means to be "creative," and if so, can our definition drive artificial intelligence (AI) systems to feats of creativity indistinguishable from human efforts? This mixed question is considered from technological and social perspectives. Beginning with an exploration of the value we attach to authenticity in works of art, the article considers the ability of AI to detect forgeries of renowned paintings and, in so doing, somehow reveal the quiddity of a work of art. We conclude by considering whether evolving technical capability can revise traditional relationships among art, artist, and the market.
翻訳日:2021-02-02 06:02:37 公開日:2021-01-27
# (参考訳) 大きなメモリ層を持つCNN

CNN with large memory layers ( http://arxiv.org/abs/2101.11685v1 )

ライセンス: CC BY 4.0
Rasul Karimov, Victor Lempitsky(参考訳) この作業は、最近提案された製品キーメモリ構造 \cite{large_Memory} を中心に、多くのコンピュータビジョンアプリケーションに実装されている。 メモリ構造は、ほぼ全てのニューラルネットワークアーキテクチャに拡張されるのに適した単純な計算プリミティブと見なすことができる。 メモリブロックは、メモリ容量に関して平方根複雑性スケーリングで、メモリへのスパースアクセスを実装することができる。 後者のスケーリングは、最も近い近傍探索のための鍵空間のカルト積空間分解が組み込まれているため可能である。 メモリ層を分類,画像再構成,再ローカライズ問題でテストした結果,キー値要素の高利用によりメモリ層が大幅な高速化・精度向上を実現し,さらに注意深い微調整を要し,死の鍵に悩まされることが判明した。 後者の問題を解決するために、メモリ再初期化の簡単なテクニックを導入し、未使用のキー値ペアをメモリから排除し、再びトレーニングに従事できるようにしました。 我々は,様々な実験を行い,分類とポズネット再局在化モデルの速度と精度を改善した。 我々は,再初期化がランダムにラベル付けされたデータのおもちゃの例に大きな影響を与え,画像分類タスクの性能向上を観察した。 また,画像と選択したメモリセル間の空間相関を観測しながら,再局在化問題における大メモリ層の一般化特性の持続性を実証した。

This work is centred around the recently proposed product key memory structure \cite{large_memory}, implemented for a number of computer vision applications. The memory structure can be regarded as a simple computation primitive suitable to be augmented to nearly all neural network architectures. The memory block allows implementing sparse access to memory with square root complexity scaling with respect to the memory capacity. The latter scaling is possible due to the incorporation of Cartesian product space decomposition of the key space for the nearest neighbour search. We have tested the memory layer on the classification, image reconstruction and relocalization problems and found that for some of those, the memory layers can provide significant speed/accuracy improvement with the high utilization of the key-value elements, while others require more careful fine-tuning and suffer from dying keys. To tackle the later problem we have introduced a simple technique of memory re-initialization which helps us to eliminate unused key-value pairs from the memory and engage them in training again. We have conducted various experiments and got improvements in speed and accuracy for classification and PoseNet relocalization models. We showed that the re-initialization has a huge impact on a toy example of randomly labeled data and observed some gains in performance on the image classification task. We have also demonstrated the generalization property perseverance of the large memory layers on the relocalization problem, while observing the spatial correlations between the images and the selected memory cells.
翻訳日:2021-02-02 05:52:10 公開日:2021-01-27
# (参考訳) 双曲空間の精細化による遠隔教師付きデータ上のきめ細かい名前付きエンティティ型付け [全文訳有]

Fine-Grained Named Entity Typing over Distantly Supervised Data via Refinement in Hyperbolic Space ( http://arxiv.org/abs/2101.11212v1 )

ライセンス: CC BY 4.0
Muhammad Asif Ali, Yifang Sun, Bing Li, Wei Wang(参考訳) Fine-Grained Named Entity Typing (FG-NET)は、エンティティの参照をコンテキストに応じて幅広いエンティティタイプ(通常は数百)に分類することを目的としています。 遠隔監視は教師付きトレーニングデータを取得する最も一般的な方法であるが、参照のコンテキストに関係なくエンティティに型ラベルを割り当てることにより、ラベルノイズが発生する。 ラベルノイズに対処する試みにおいて、FG-NETの研究は、粒度の細かいエンティティ型付けデータがユークリッドの性質を持ち、ラベルノイズに対処する既存のモデルの能力を抑えると仮定している。 細かい粒度の型階層が階層構造を示すという事実を考えると、双曲空間はFG-NETデータをモデル化する自然な選択である。 本研究では、双曲幾何とグラフ構造を組み合わせることで、パフォーマンスを向上したエンティティタイピングを実現する新しいフレームワークであるFGNET-HRを提案する。 FGNET-HRは、当初LSTMネットワークを使用して、そのコンテキストに関連する参照をエンコードし、後にハイパーボリック空間における参照のエンコーディングを蒸留・再定義するグラフを形成する。 最後に、エンティティ型付けに洗練されたメンションエンコーディングが使用される。 異なるベンチマークデータセットを用いた実験により、FGNET-HRは厳密な精度でFG-NETのパフォーマンスを最大3.5%向上させる。

Fine-Grained Named Entity Typing (FG-NET) aims at classifying the entity mentions into a wide range of entity types (usually hundreds) depending upon the context. While distant supervision is the most common way to acquire supervised training data, it brings in label noise, as it assigns type labels to the entity mentions irrespective of mentions' context. In attempts to deal with the label noise, leading research on the FG-NET assumes that the fine-grained entity typing data possesses a euclidean nature, which restraints the ability of the existing models in combating the label noise. Given the fact that the fine-grained type hierarchy exhibits a hierarchal structure, it makes hyperbolic space a natural choice to model the FG-NET data. In this research, we propose FGNET-HR, a novel framework that benefits from the hyperbolic geometry in combination with the graph structures to perform entity typing in a performance-enhanced fashion. FGNET-HR initially uses LSTM networks to encode the mention in relation with its context, later it forms a graph to distill/refine the mention's encodings in the hyperbolic space. Finally, the refined mention encoding is used for entity typing. Experimentation using different benchmark datasets shows that FGNET-HR improves the performance on FG-NET by up to 3.5% in terms of strict accuracy.
翻訳日:2021-02-02 05:50:57 公開日:2021-01-27
# (参考訳) PPT: 教師なしクロス言語適応のためのパーシモン型パーサー転送 [全文訳有]

PPT: Parsimonious Parser Transfer for Unsupervised Cross-Lingual Adaptation ( http://arxiv.org/abs/2101.11216v1 )

ライセンス: CC BY 4.0
Kemal Kurniawan, Lea Frermann, Philip Schulz, Trevor Cohn(参考訳) クロスリンガル転送は、明示的な監督なしに低リソース言語を解析するための主要な技術です。 多言語入力エンコーディングに基づく学習モデルの単純な「直接転送」は、強力なベンチマークを提供する。 本稿では,教師なし言語を対象言語で自己学習する上で,その出力を暗黙的監督として用いることにより,直接伝達システムを改善する教師なし言語間伝達法を提案する。 a) 事前学習されたarc-factored dependency parser; (b) ソース言語データにアクセスできないと仮定する; (c) 投影解析と非投影解析の両方をサポートする; (d) マルチソース転送をサポートする。 英語をソース言語とすることで、概念的に単純なアプローチにも関わらず、遠方と近方の両方の言語で最先端のトランスファーモデルを大幅に改善しています。 マルチソース転送のためのソース言語の選択と、非射影解析の利点の分析を提供します。 コードはオンラインで入手できます。

Cross-lingual transfer is a leading technique for parsing low-resource languages in the absence of explicit supervision. Simple `direct transfer' of a learned model based on a multilingual input encoding has provided a strong benchmark. This paper presents a method for unsupervised cross-lingual transfer that improves over direct transfer systems by using their output as implicit supervision as part of self-training on unlabelled text in the target language. The method assumes minimal resources and provides maximal flexibility by (a) accepting any pre-trained arc-factored dependency parser; (b) assuming no access to source language data; (c) supporting both projective and non-projective parsing; and (d) supporting multi-source transfer. With English as the source language, we show significant improvements over state-of-the-art transfer models on both distant and nearby languages, despite our conceptually simpler approach. We provide analyses of the choice of source languages for multi-source transfer, and the advantage of non-projective parsing. Our code is available online.
翻訳日:2021-02-02 05:34:48 公開日:2021-01-27
# (参考訳) 多言語および多言語文書分類:メタラーニングアプローチ [全文訳有]

Multilingual and cross-lingual document classification: A meta-learning approach ( http://arxiv.org/abs/2101.11302v1 )

ライセンス: CC BY 4.0
Niels van der Heijden, Helen Yannakoudakis, Pushkar Mishra, Ekaterina Shutova(参考訳) 世界の言語の大部分は、ディープラーニングの手法をうまく適用するためのリソース不足と見なされています。 本研究では、限られたリソース設定における文書分類のためのメタラーニングアプローチを提案し、その効果を2つの異なる設定で実証する。 我々は,複数のメタ学習手法を体系的に比較し,データ可用性の観点から複数の設定を調査し,不均一なタスク分布を持つ環境下でメタ学習が成長することを示す。 そこで我々は,従来のメタラーニング手法をシンプルかつ効果的に調整し,より優れた安定した学習を可能にするとともに,少数のラベル付きデータのみを用いて,複数の言語に新たな技術状況を設定することを提案する。

The great majority of languages in the world are considered under-resourced for the successful application of deep learning methods. In this work, we propose a meta-learning approach to document classification in limited-resource setting and demonstrate its effectiveness in two different settings: few-shot, cross-lingual adaptation to previously unseen languages; and multilingual joint training when limited target-language data is available during training. We conduct a systematic comparison of several meta-learning methods, investigate multiple settings in terms of data availability and show that meta-learning thrives in settings with a heterogeneous task distribution. We propose a simple, yet effective adjustment to existing meta-learning methods which allows for better and more stable learning, and set a new state of the art on several languages while performing on-par on others, using only a small amount of labeled data.
翻訳日:2021-02-02 05:20:53 公開日:2021-01-27
# (参考訳) ジェネラティブダイアローグ状態トラッカーにおける言語間移動性に関する実証的研究 [全文訳有]

An Empirical Study of Cross-Lingual Transferability in Generative Dialogue State Tracker ( http://arxiv.org/abs/2101.11360v1 )

ライセンス: CC BY 4.0
Yen-Ting Lin, Yun-Nung Chen(参考訳) 大規模データセットの恩恵を受けるデータ駆動型タスク指向対話システムの急速な開発が行われている。 しかし、低リソース言語における対話システムの進歩は、高品質なデータがないため、はるかに遅れている。 対話システム構築におけるクロスリンガル技術を推進するため、DSTC9はクロスリンガル対話状態追跡のタスクを導入し、リッチリソーストレーニングデータセットを与えられた低リソース言語でDSTモジュールをテストする。 本論文では,多言語事前学習型seq2seqモデルを用いた言語間対話状態追跡システムの伝達性について検討する。 我々は、言語間およびオントロジーのデータセットで共同トレーニングや事前トレーニングを含む、異なる設定で実験する。 また,我々のアプローチの言語横断性が低いことを知り,調査と議論を行う。

There has been a rapid development in data-driven task-oriented dialogue systems with the benefit of large-scale datasets. However, the progress of dialogue systems in low-resource languages lags far behind due to the lack of high-quality data. To advance the cross-lingual technology in building dialog systems, DSTC9 introduces the task of cross-lingual dialog state tracking, where we test the DST module in a low-resource language given the rich-resource training dataset. This paper studies the transferability of a cross-lingual generative dialogue state tracking system using a multilingual pre-trained seq2seq model. We experiment under different settings, including joint-training or pre-training on cross-lingual and cross-ontology datasets. We also find out the low cross-lingual transferability of our approaches and provides investigation and discussion.
翻訳日:2021-02-02 05:07:16 公開日:2021-01-27
# (参考訳) Wikipediaによる大規模低リソース発音データのマイニング [全文訳有]

Mining Large-Scale Low-Resource Pronunciation Data From Wikipedia ( http://arxiv.org/abs/2101.11575v1 )

ライセンス: CC BY-SA 4.0
Tania Chakraborty, Manasa Prasad, Theresa Breiner, Sandy Ritchie, Daan van Esch(参考訳) 発音モデリングは新しい言語で音声技術を構築する上で重要な課題であり、G2Pマッピングシステムは存在するが、言語カバレッジは改善される。 G2Pモデルを構築するために必要な情報はウィキペディアで簡単に確認できるが、残念ながら異なるフォーマットで保存されている。 我々は819言語の発音データセットをWikipedia内の緩やかな構造化テーブルからマイニングするために構築したシステムについて報告した。 データには音素在庫が含まれ、63の低リソース言語にはG2Pマッピングも含まれている。 これらの言語のうち54は、オンラインで簡単に見つけられるG2Pマッピングを持っていない。 私たちはウィキペディアの情報を構造化された機械可読のTSVフォーマットに変換し、その結果のデータセットを公開して、低リソース言語を含む様々なアプリケーションでさらに改善し使用できるようにしました。

Pronunciation modeling is a key task for building speech technology in new languages, and while solid grapheme-to-phoneme (G2P) mapping systems exist, language coverage can stand to be improved. The information needed to build G2P models for many more languages can easily be found on Wikipedia, but unfortunately, it is stored in disparate formats. We report on a system we built to mine a pronunciation data set in 819 languages from loosely structured tables within Wikipedia. The data includes phoneme inventories, and for 63 low-resource languages, also includes the grapheme-to-phoneme (G2P) mapping. 54 of these languages do not have easily findable G2P mappings online otherwise. We turned the information from Wikipedia into a structured, machine-readable TSV format, and make the resulting data set publicly available so it can be improved further and used in a variety of applications involving low-resource languages.
翻訳日:2021-02-02 04:45:22 公開日:2021-01-27
# (参考訳) 「この記事はglaxefwで、これはglaxuzbです」:人工ニューラルネットワークを用いた言語伝達による構成性 [全文訳有]

"This item is a glaxefw, and this is a glaxuzb": Compositionality Through Language Transmission, using Artificial Neural Networks ( http://arxiv.org/abs/2101.11739v1 )

ライセンス: CC BY 4.0
Hugh Perkins(参考訳) 本稿では,ニューラルネットワークのための反復学習モデル(ilm)を用いたアーキテクチャとプロセスを提案する。 ILMはDCGと同じ明確な構成性をもたらすのではなく、ホールドアウト精度とトポロジカルな類似性によって測定されるように、構成性は緩やかに改善されることを示す。 ILMは、保留精度とトポロジカルローの反相関につながる可能性があることを示した。 非記号的高次元像を入力として使用する場合、ILMは構成性を向上させることができることを示す。

We propose an architecture and process for using the Iterated Learning Model ("ILM") for artificial neural networks. We show that ILM does not lead to the same clear compositionality as observed using DCGs, but does lead to a modest improvement in compositionality, as measured by holdout accuracy and topologic similarity. We show that ILM can lead to an anti-correlation between holdout accuracy and topologic rho. We demonstrate that ILM can increase compositionality when using non-symbolic high-dimensional images as input.
翻訳日:2021-02-02 04:38:01 公開日:2021-01-27
# (参考訳) センターヘッドポイント抽出による任意方向船舶検出 [全文訳有]

Arbitrary-Oriented Ship Detection through Center-Head Point Extraction ( http://arxiv.org/abs/2101.11189v1 )

ライセンス: CC BY 4.0
Feng Zhang, Xueying Wang, Shilin Zhou, Yingqian Wang(参考訳) リモートセンシング画像の船舶検出は、軍事や市民の用途で重要な役割を果たし、近年ますます注目を集めています。 しかし, 既存の複数方向船体検出法は, 既定回転アンカーボックスのセットで開発されている。 これらの事前定義されたボックスは、不正確な角度予測をもたらすだけでなく、余分なハイパーパラメータと高い計算コストをもたらす。 さらに, 船体サイズに関する先行知識は, 従来の手法では十分に活用されておらず, 検出精度の向上を妨げている。 本論文では,上記の課題を解決するために,遠隔センシング画像において任意の方向の船舶検出を実現する中心点抽出型検出器(CHPDet)を提案する。 CHPDetは、方向を決定するために使用されるヘッドポイントを備えた回転ボックスとして任意の方向の船を定式化します。 船の中心を見つけるためにキーポイント推定を行う。 そして、船の大きさとヘッドポイントを後退させる。 最後に、結果を微調整する前にターゲットサイズを使用します。 さらに,fgsd2021と呼ばれる固定地試料距離(gsd)におけるリモートセンシング画像における多種任意方向船舶検出のための新しいデータセットを提案する。 2つの船舶検出データセット(FGSD2021およびHRSC2016)の実験結果は、CHPDetが最先端の性能を達成し、弓と船尾を適切に区別できることを示しています。 コードとデータセットは一般公開される予定だ。

Ship detection in remote sensing images plays a crucial role in military and civil applications and has drawn increasing attention in recent years. However, existing multi-oriented ship detection methods are generally developed on a set of predefined rotated anchor boxes. These predefined boxes not only lead to inaccurate angle predictions but also introduce extra hyper-parameters and high computational cost. Moreover, the prior knowledge of ship size has not been fully exploited by existing methods, which hinders the improvement of their detection accuracy. Aiming at solving the above issues, in this paper, we propose a center-head point extraction based detector (named CHPDet) to achieve arbitrary-oriented ship detection in remote sensing images. Our CHPDet formulates arbitrary-oriented ships as rotated boxes with head points which are used to determine the direction. Key-point estimation is performed to find the center of ships. Then the size and head points of the ship is regressed. Finally, we use the target size as prior to finetune the results. Moreover, we introduce a new dataset for multi-class arbitrary-oriented ship detection in remote sensing Images at fixed ground sample distance (GSD) which is named FGSD2021. Experimental results on two ship detection datasets (i.e., FGSD2021 and HRSC2016) demonstrate that our CHPDet achieves state-of-the-art performance and can well distinguish bow and stern. The code and dataset will be made publicly available.
翻訳日:2021-02-02 04:12:55 公開日:2021-01-27
# (参考訳) マルチHypothesis Pose Networks: Rethinking Top-Down Pose Estimations [全文訳有]

Multi-Hypothesis Pose Networks: Rethinking Top-Down Pose Estimation ( http://arxiv.org/abs/2101.11223v1 )

ライセンス: CC BY 4.0
Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi(参考訳) トップダウンの人間のポーズ推定アプローチの重要な仮定は、入力バウンディングボックスに一人の人がいるという期待です。 これはしばしば閉塞を伴う混み合ったシーンで失敗する。 この基本的な仮定の限界を克服するための新しいソリューションを提案します。 MHPNet(Multi-Hypothe sis Pose Network)は、特定のバウンディングボックス内で複数の2Dポーズを予測できます。 MHAB(Multi-Hypothesi s Attention Block)を導入して,各仮説に対するチャネルワイズな特徴応答を適応的に変調し,パラメータ効率を向上する。 提案手法の有効性を,COCO,CrowdPose,OCHu manデータセットを用いて評価した。 具体的には,crowdposeでは70.0 ap,ochuman testsetでは42.5 apを達成し,先行技術では2.4 apと6.5 apが有意に改善した。 推論に接地真理境界ボックスを使用する場合、MHPNetはCOCO0.7 AP、CrowdPose0.9 AP、OCHuman検証セット9.1 APをHRNetと比較して改善する。 興味深いことに、高信頼バウンディングボックスが少ない場合、HRNetのパフォーマンスはOCHumanで(5 APで)低下しますが、MHPNetは同じ入力に対して比較的安定したパフォーマンス(1 APの低下)を維持します。

A key assumption of top-down human pose estimation approaches is their expectation of having a single person present in the input bounding box. This often leads to failures in crowded scenes with occlusions. We propose a novel solution to overcome the limitations of this fundamental assumption. Our Multi-Hypothesis Pose Network (MHPNet) allows for predicting multiple 2D poses within a given bounding box. We introduce a Multi-Hypothesis Attention Block (MHAB) that can adaptively modulate channel-wise feature responses for each hypothesis and is parameter efficient. We demonstrate the efficacy of our approach by evaluating on COCO, CrowdPose, and OCHuman datasets. Specifically, we achieve 70.0 AP on CrowdPose and 42.5 AP on OCHuman test sets, a significant improvement of 2.4 AP and 6.5 AP over the prior art, respectively. When using ground truth bounding boxes for inference, MHPNet achieves an improvement of 0.7 AP on COCO, 0.9 AP on CrowdPose, and 9.1 AP on OCHuman validation sets compared to HRNet. Interestingly, when fewer, high confidence bounding boxes are used, HRNet's performance degrades (by 5 AP) on OCHuman, whereas MHPNet maintains a relatively stable performance (a drop of 1 AP) for the same inputs.
翻訳日:2021-02-02 03:52:05 公開日:2021-01-27
# (参考訳) 展示による制御:i-Mimic:ロボットアームを制御するビデオベースの手法 [全文訳有]

Controlling by Showing: i-Mimic: A Video-based Method to Control Robotic Arms ( http://arxiv.org/abs/2101.11451v1 )

ライセンス: CC BY 4.0
Debarati B. Chakraborty, Mukesh Sharma and Bhaskar Vijay(参考訳) ロボットアームの視覚に基づく知的制御という新しい概念が本研究で開発されている。 この研究により、ロボットアームの動きの制御は、視覚入力のみ、つまり、正しい動きのビデオを表示することによって制御できる。 この作業は2つのセグメントに大まかに分割できる。 この研究の第1部は、2次元平面におけるロボットアームを制御する教師なし視覚ベースの方法を開発することであり、第2部は3次元平面における同じ作業における深部CNNである。 最初の方法は無監督で、人間の腕の動きをマニピュレータでリアルタイムに模倣することを目指しています。 そこで我々は,人間の手の動きを含むビデオストリームを入力として,映像中の手の動きの速度とトルク情報を出力するネットワーク,すなわち視覚移動型光ネットワーク(DON)を開発した。 その後、DONの出力情報をロボットアームにフィードバックし、実際のハンドビデオに従ってモーションを生成します。 この手法はライブストリームビデオフィードと単眼カメラから得られた記録ビデオの両方でテストされており、オクルードされた人の手の動きをインテリジェントに予測している。 これが、腕の模倣が知能を組み込んでインテリジェントな模倣(i-mimic)になる理由です。 教師なしの方法に加えて、ラベル付きデータセットをトレーニングに使用するようにcnn(convolutional neural network)でディープニューラルネットワーク技術をデプロイする別の方法も開発されている。 教師なしのdon-basedメソッドで使われるのと同じデータセットは、手動アノテーションの後にディープcnnメソッドで使用される。 提案された2つのメソッドは、オフラインとオンラインのビデオデータセットでリアルタイムに検証される。 本手法は, 実時間1リンクと模擬nリンクマニピュレータを用いて, 適切な比較を行った。

A novel concept of vision-based intelligent control of robotic arms is developed here in this work. This work enables the controlling of robotic arms motion only with visual inputs, that is, controlling by showing the videos of correct movements. This work can broadly be sub-divided into two segments. The first part of this work is to develop an unsupervised vision-based method to control robotic arm in 2-D plane, and the second one is with deep CNN in the same task in 3-D plane. The first method is unsupervised, where our aim is to perform mimicking of human arm motion in real-time by a manipulator. We developed a network, namely the vision-to-motion optical network (DON), where the input should be a video stream containing hand movements of human, the the output would be out the velocity and torque information of the hand movements shown in the videos. The output information of the DON is then fed to the robotic arm by enabling it to generate motion according to the real hand videos. The method has been tested with both live-stream video feed as well as on recorded video obtained from a monocular camera even by intelligently predicting the trajectory of human hand hand when it gets occluded. This is why the mimicry of the arm incorporates some intelligence to it and becomes intelligent mimic (i-mimic). Alongside the unsupervised method another method has also been developed deploying the deep neural network technique with CNN (Convolutional Neural Network) to perform the mimicking, where labelled datasets are used for training. The same dataset, as used in the unsupervised DON-based method, is used in the deep CNN method, after manual annotations. Both the proposed methods are validated with off-line as well as with on-line video datasets in real-time. The entire methodology is validated with real-time 1-link and simulated n-link manipulators alongwith suitable comparisons.
翻訳日:2021-02-02 03:32:23 公開日:2021-01-27
# (参考訳) トラヒックシーンにおける軌道予測のための空間チャネルトランスフォーマネットワーク [全文訳有]

Spatial-Channel Transformer Network for Trajectory Prediction on the Traffic Scenes ( http://arxiv.org/abs/2101.11472v1 )

ライセンス: CC BY 4.0
Jingwen Zhao, Xuanpeng Li, Qifan Xue, Weigong Zhang(参考訳) 周囲のエージェントの動作予測は、自動運転のための戦術的経路計画の現実的な応用に不可欠である。 エージェントの複雑な時間的依存と社会的相互作用のため、オンライン軌道予測は難しい課題である。 近年の注目メカニズムの発展に伴い、まず自然言語のシーケンス処理と画像処理にトランスモデルが適用されています。 本稿では,注意機能付き軌道予測のための空間チャネル変換器ネットワークを提案する。 RNNモデルの代わりに、エージェントの時空間的特徴を捉えるためにトランスフォーマーモデルを用いる。 エージェント間の社会的相互作用を測定するためにチャンネルワイズモジュールを挿入する。 Spatial-Channel Transformer Networkは、トラフィックシーンにおける実世界の軌道予測データセットの有望な結果を達成する。

Predicting motion of surrounding agents is critical to real-world applications of tactical path planning for autonomous driving. Due to the complex temporal dependencies and social interactions of agents, on-line trajectory prediction is a challenging task. With the development of attention mechanism in recent years, transformer model has been applied in natural language sequence processing first and then image processing. In this paper, we present a Spatial-Channel Transformer Network for trajectory prediction with attention functions. Instead of RNN models, we employ transformer model to capture the spatial-temporal features of agents. A channel-wise module is inserted to measure the social interaction between agents. We find that the Spatial-Channel Transformer Network achieves promising results on real-world trajectory prediction datasets on the traffic scenes.
翻訳日:2021-02-02 03:19:19 公開日:2021-01-27
# (参考訳) Shape or Texture: CNNにおける識別的特徴の理解 [全文訳有]

Shape or Texture: Understanding Discriminative Features in CNNs ( http://arxiv.org/abs/2101.11604v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Patrick Esser, Sen Jia, Bjorn Ommer, Konstantinos G. Derpanis, Neil Bruce(参考訳) CNN(Convolutional Neural Network, Convolutional Neural Network, Convolutional Neural Network, Convolutional Neural Network, CNN)の後期の神経細胞が複雑な物体の形状に反応するという以前の証拠と対照的に、CNNは実際に「テクスチャバイアス」を示すことを示している。 しかしながら、これらの研究はネットワークの最終分類出力について実験を行い、(i)潜在表現に含まれるバイアスと(ii)ピクセル単位でのバイアスを頑健に評価することができない。 本稿では,これらの問題を克服する一連の実験を設計する。 我々は,ネットワークに含まれる形状情報の種類を識別し,形状情報を符号化し,ネットワークがトレーニング中に対象形状について学習する際の理解を深めることを目的としている。 ネットワークは、トレーニングの開始から数年で、全体の形状情報の大部分を学習し、この情報はcnnの最後の数層に主にエンコードされていることを示す。 最後に,形状のエンコーディングは,ピクセル単位の局所的な意味情報のエンコーディングを意味するものではないことを示す。 実験結果と知見は、現在のcnnの挙動をより正確に理解し、将来の設計選択を知らせるのに役立つ。

Contrasting the previous evidence that neurons in the later layers of a Convolutional Neural Network (CNN) respond to complex object shapes, recent studies have shown that CNNs actually exhibit a `texture bias': given an image with both texture and shape cues (e.g., a stylized image), a CNN is biased towards predicting the category corresponding to the texture. However, these previous studies conduct experiments on the final classification output of the network, and fail to robustly evaluate the bias contained (i) in the latent representations, and (ii) on a per-pixel level. In this paper, we design a series of experiments that overcome these issues. We do this with the goal of better understanding what type of shape information contained in the network is discriminative, where shape information is encoded, as well as when the network learns about object shape during training. We show that a network learns the majority of overall shape information at the first few epochs of training and that this information is largely encoded in the last few layers of a CNN. Finally, we show that the encoding of shape does not imply the encoding of localized per-pixel semantic information. The experimental results and findings provide a more accurate understanding of the behaviour of current CNNs, thus helping to inform future design choices.
翻訳日:2021-02-02 03:11:28 公開日:2021-01-27
# (参考訳) HDIB1M -- 手書き文書画像バイナライゼーション100万データセット [全文訳有]

HDIB1M -- Handwritten Document Image Binarization 1 Million Dataset ( http://arxiv.org/abs/2101.11674v1 )

ライセンス: CC BY 4.0
Kaustubh Sadekar, Prajwal Singh, Shanmuganathan Raman(参考訳) 手書きの文書画像のバイナライゼーションは、文書の内容、ページスタイル、および条件の多様性が高いため、困難な作業です。 従来のしきい値化手法は、このような困難なシナリオでは一般化できないが、ディープラーニングベースのメソッドは、大規模なトレーニングデータを必要とする。 手書きのドキュメントイメージバイナライゼーションのための現在のデータセットは、サイズに制限があり、いくつかの困難な現実のシナリオを表現できません。 そこで本研究では,1M画像の文書画像ビナライゼーションデータセットであるHDIB1Mを提案する。 また,このデータセットの生成に用いる新しい手法を提案する。 データセットの有効性を示すために、データセット上で深層学習モデルUNetEDをトレーニングし、他の公開データセットのパフォーマンスを評価する。 データセットとコードは、コミュニティで利用可能になる。

Handwritten document image binarization is a challenging task due to high diversity in the content, page style, and condition of the documents. While the traditional thresholding methods fail to generalize on such challenging scenarios, deep learning based methods can generalize well however, require a large training data. Current datasets for handwritten document image binarization are limited in size and fail to represent several challenging real-world scenarios. To solve this problem, we propose HDIB1M - a handwritten document image binarization dataset of 1M images. We also present a novel method used to generate this dataset. To show the effectiveness of our dataset we train a deep learning model UNetED on our dataset and evaluate its performance on other publicly available datasets. The dataset and the code will be made available to the community.
翻訳日:2021-02-02 02:53:19 公開日:2021-01-27
# (参考訳) KoreALBERT:韓国語理解のためのLite BERTモデルの事前学習 [全文訳有]

KoreALBERT: Pretraining a Lite BERT Model for Korean Language Understanding ( http://arxiv.org/abs/2101.11363v1 )

ライセンス: CC BY 4.0
Hyunjae Lee, Jaewoong Yoon, Bonggyu Hwang, Seongho Joe, Seungjai Min, Youngjune Gwon(参考訳) A Lite BERT (ALBERT) は、自然言語の双方向表現学習を拡大するために導入された。 韓国語用に事前訓練されたALBERTモデルがないため、最も有効なプラクティスは多言語モデルか、他のBERTベースのモデルに取って代わることである。 本稿では,韓国語理解のための単言語ALBERTモデルであるPuleALBERTの開発と事前学習を行う。 我々は,新しい学習目標である単語順予測(word order prediction, wop)を導入し,既存のmlmとsopの基準を同じアーキテクチャとモデルパラメータに適用する。 モデルパラメータが大幅に少ないにもかかわらず、事前訓練されたPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。 Lanらによる英語の実証結果と一致して、韓国語のための多文符号化を含む下流タスク性能が向上したようである。 KoreALBERTは韓国のNLPの研究開発を促進するために公開されている。

A Lite BERT (ALBERT) has been introduced to scale up deep bidirectional representation learning for natural languages. Due to the lack of pretrained ALBERT models for Korean language, the best available practice is the multilingual model or resorting back to the any other BERT-based model. In this paper, we develop and pretrain KoreALBERT, a monolingual ALBERT model specifically for Korean language understanding. We introduce a new training objective, namely Word Order Prediction (WOP), and use alongside the existing MLM and SOP criteria to the same architecture and model parameters. Despite having significantly fewer model parameters (thus, quicker to train), our pretrained KoreALBERT outperforms its BERT counterpart on 6 different NLU tasks. Consistent with the empirical results in English by Lan et al., KoreALBERT seems to improve downstream task performance involving multi-sentence encoding for Korean language. The pretrained KoreALBERT is publicly available to encourage research and application development for Korean NLP.
翻訳日:2021-02-02 02:18:14 公開日:2021-01-27
# (参考訳) 交通予測のためのグラフニューラルネットワーク:調査 [全文訳有]

Graph Neural Network for Traffic Forecasting: A Survey ( http://arxiv.org/abs/2101.11174v1 )

ライセンス: CC BY 4.0
Weiwei Jiang, Jiayun Luo(参考訳) 交通予測は、インテリジェントな交通システムの成功の重要な要因である。 畳み込みニューラルネットワークと繰り返しニューラルネットワークを含むディープラーニングモデルは、空間的および時間的依存性をモデル化する交通予測問題に適用されている。 近年,交通システムにおけるグラフ構造と文脈情報の両方をモデル化するために,グラフニューラルネットワーク(GNN)が新しいツールとして導入され,交通予測問題における最先端のパフォーマンスを実現している。 本稿では,道路交通流と速度予測,都市鉄道交通システムにおける乗客フロー予測,配車プラットフォームにおける需要予測など,様々な交通予測問題において,グラフ畳み込みやグラフ注意ネットワークなどのgnnを用いた最近の研究が急速に進展していることについて概説する。 また、各問題のためのオープンデータとソースリソースのコレクション、および今後の研究の方向性も提示します。 我々の知る限り、この論文は交通予測問題に対するグラフニューラルネットワークの適用を探求する最初の総合的な調査である。 また、最新の論文、オープンデータ、ソースリソースを更新するための公開Githubリポジトリも作成しました。

Traffic forecasting is an important factor for the success of intelligent transportation systems. Deep learning models including convolution neural networks and recurrent neural networks have been applied in traffic forecasting problems to model the spatial and temporal dependencies. In recent years, to model the graph structures in the transportation systems as well as the contextual information, graph neural networks (GNNs) are introduced as new tools and have achieved the state-of-the-art performance in a series of traffic forecasting problems. In this survey, we review the rapidly growing body of recent research using different GNNs, e.g., graph convolutional and graph attention networks, in various traffic forecasting problems, e.g., road traffic flow and speed forecasting, passenger flow forecasting in urban rail transit systems, demand forecasting in ride-hailing platforms, etc. We also present a collection of open data and source resources for each problem, as well as future research directions. To the best of our knowledge, this paper is the first comprehensive survey that explores the application of graph neural networks for traffic forecasting problems. We have also created a public Github repository to update the latest papers, open data and source resources.
翻訳日:2021-02-02 02:05:05 公開日:2021-01-27
# (参考訳) 人工知能言語の進化、体系的文献レビュー [全文訳有]

Evolution of artificial intelligence languages, a systematic literature review ( http://arxiv.org/abs/2101.11501v1 )

ライセンス: CC BY 4.0
Emmanuel Adetiba, Temitope John, Adekunle Akinrinmade, Funmilayo Moninuola, Oladipupo Akintade, Joke Badejo(参考訳) 人工知能(AI)の分野は、近年、間違いなく大きな注目を集めています。 AIは、医学、工学、教育、政府などの分野で問題に対する解決策を提供するために採用されています。 本稿では,AIの分野における研究技術の現状を分析するために,AIプログラミング言語の進化に着目した体系的な文献レビューを行う。 SCOPUS、IEEE Xplore、Google Scholarなどの関連データベースを検索し、体系的な文献レビュー方法に従いました。 EndNote参照マネージャは、関連する抽出論文のカタログ化に使用された。 調査の結果、6565件の文書が返され、69件の研究が残された。 69の研究のうち15の文書がLISP言語について論じ、34の論文がPROGプログラミング言語について論じられ、残りの20の文書は論理言語とオブジェクト指向プログラミング(LOOP)、ARCHLOG、Ecestemic Ontology Language with Constraints (EOLC)、Python、C++、ADA、JAVAプログラミング言語に散らばった。 このレビューは、議論されたAIプログラミング言語の各実装年、開発チーム、能力、制限、およびアプリケーションに関する情報を提供する。 このレビューの情報は、AIの実践者や研究者が新しいAIメソッドを実装するために言語の正しい選択をするのを導くことができます。

The field of Artificial Intelligence (AI) has undoubtedly received significant attention in recent years. AI is being adopted to provide solutions to problems in fields such as medicine, engineering, education, government and several other domains. In order to analyze the state of the art of research in the field of AI, we present a systematic literature review focusing on the Evolution of AI programming languages. We followed the systematic literature review method by searching relevant databases like SCOPUS, IEEE Xplore and Google Scholar. EndNote reference manager was used to catalog the relevant extracted papers. Our search returned a total of 6565 documents, whereof 69 studies were retained. Of the 69 retained studies, 15 documents discussed LISP programming language, another 34 discussed PROLOG programming language, the remaining 20 documents were spread between Logic and Object Oriented Programming (LOOP), ARCHLOG, Epistemic Ontology Language with Constraints (EOLC), Python, C++, ADA and JAVA programming languages. This review provides information on the year of implementation, development team, capabilities, limitations and applications of each of the AI programming languages discussed. The information in this review could guide practitioners and researchers in AI to make the right choice of languages to implement their novel AI methods.
翻訳日:2021-02-02 01:06:01 公開日:2021-01-27
# (参考訳) 信念空間における統合的局所化,運動計画,障害回避アルゴリズム [全文訳有]

An Integrated Localisation, Motion Planning and Obstacle Avoidance Algorithm in Belief Space ( http://arxiv.org/abs/2101.11566v1 )

ライセンス: CC BY 4.0
Antony Thomas and Fulvio Mastrogiovanni and Marco Baglietto(参考訳) ロボットは人間や物体に近づきつつあるため、ロボットは現実世界の環境下で安全かつ効率的に動作することが不可欠である。 しかし、環境は完全には知られていない。 ノイズセンサとアクティベーションエラーは、環境の特徴を推定しながら導入されたエラーと重なり合う。 1) ロボット状態推定のための不確かさと, (2) 推定されたロボット構成に係る衝突確率を計算するための新しい手法を提案する。 衝突確率の式は無限級数として得られ、その収束性を証明する。 また、切り欠き誤差の上限も導出し、異なるロボットおよび障害物構成の収束を分析することにより、必要な項数を実証する。 本手法は,衝突確率境界を満たす軌道を合成するロードマップに基づく2つのシミュレーション領域を用いて評価する。

As robots are being increasingly used in close proximity to humans and objects, it is imperative that robots operate safely and efficiently under real-world conditions. Yet, the environment is seldom known perfectly. Noisy sensors and actuation errors compound to the errors introduced while estimating features of the environment. We present a novel approach (1) to incorporate these uncertainties for robot state estimation and (2) to compute the probability of collision pertaining to the estimated robot configurations. The expression for collision probability is obtained as an infinite series and we prove its convergence. An upper bound for the truncation error is also derived and the number of terms required is demonstrated by analyzing the convergence for different robot and obstacle configurations. We evaluate our approach using two simulation domains which use a roadmap-based strategy to synthesize trajectories that satisfy collision probability bounds.
翻訳日:2021-02-02 00:49:28 公開日:2021-01-27
# (参考訳) プライバシ情報の分類: ハイブリッドアプローチ [全文訳有]

Privacy Information Classification: A Hybrid Approach ( http://arxiv.org/abs/2101.11574v1 )

ライセンス: CC BY 4.0
Jiaqi Wu, Weihua Li, Quan Bai, Takayuki Ito, Ahmed Moustafa(参考訳) 毎日大量の情報がオンラインソーシャルネットワークに公開されています。 個人のプライバシー関連の情報は、エンドユーザによって無意識に開示されることもある。 プライバシー関連のデータを識別し、オンラインソーシャルネットワークのユーザーをプライバシーの漏洩から保護することが重要になった。 そこで本研究では,OSNからプライバシー情報を検出・分類するハイブリッドプライバシー分類手法を提案する。 提案されたハイブリッドアプローチは、プライバシー関連の情報抽出にディープラーニングモデルとオントロジベースのモデルの両方を用いる。 提案したハイブリッドアプローチを検証するため,大規模な実験を行い,オンラインソーシャルネットワーク利用者のプライバシー侵害対策における優位性を実証した。

A large amount of information has been published to online social networks every day. Individual privacy-related information is also possibly disclosed unconsciously by the end-users. Identifying privacy-related data and protecting the online social network users from privacy leakage turn out to be significant. Under such a motivation, this study aims to propose and develop a hybrid privacy classification approach to detect and classify privacy information from OSNs. The proposed hybrid approach employs both deep learning models and ontology-based models for privacy-related information extraction. Extensive experiments are conducted to validate the proposed hybrid approach, and the empirical results demonstrate its superiority in assisting online social network users against privacy leakage.
翻訳日:2021-02-02 00:30:15 公開日:2021-01-27
# (参考訳) 分類タスクの類似性 [全文訳有]

Similarity of Classification Tasks ( http://arxiv.org/abs/2101.11201v1 )

ライセンス: CC BY 4.0
Cuong Nguyen, Thanh-Toan Do, Gustavo Carneiro(参考訳) メタラーニングの最近の進歩は、いくつかのショットラーニングベンチマークで顕著なパフォーマンスをもたらした。 しかしながら、そのような成功はしばしばトレーニングとテストタスクの類似性を無視し、潜在的なバイアス評価をもたらす。 そこで我々は,タスクの類似性を分析し,メタラーニングの性能をよりよく理解するために,潜在ディリクレ割り当ての変種に基づく生成手法を提案する。 提案手法は,通常の直感にマッチする2つの数ショット分類ベンチマークにおいて,メタ学習アルゴリズムの洞察に富んだ評価を行うことができることを示す。 この類似性尺度に基づいて,メタラーニングのためのタスク選択戦略を提案し,学習タスクをランダムに選択する手法よりも正確な分類結果が得られることを示す。

Recent advances in meta-learning has led to remarkable performances on several few-shot learning benchmarks. However, such success often ignores the similarity between training and testing tasks, resulting in a potential bias evaluation. We, therefore, propose a generative approach based on a variant of Latent Dirichlet Allocation to analyse task similarity to optimise and better understand the performance of meta-learning. We demonstrate that the proposed method can provide an insightful evaluation for meta-learning algorithms on two few-shot classification benchmarks that matches common intuition: the more similar the higher performance. Based on this similarity measure, we propose a task-selection strategy for meta-learning and show that it can produce more accurate classification results than methods that randomly select training tasks.
翻訳日:2021-02-02 00:22:30 公開日:2021-01-27
# (参考訳) イノベーションの拡散における意見リーダーの役割のモデル化 [全文訳有]

Modeling opinion leader's role in the diffusion of innovation ( http://arxiv.org/abs/2101.11260v1 )

ライセンス: CC BY 4.0
Natasa Vodopivec and Carole Adam and Jean-Pierre Chanteau(参考訳) イノベーションの拡散は消費者市場にとって重要なトピックである。 初期の研究は、イノベーションが社会全体のレベルにどのように広がったかに焦点を当てた。 現実のシナリオに近づくために、エージェントベースモデル(ABM)は個々のエージェントに焦点を当て始めた。 我々の研究では、革新の拡散過程における世論指導者の役割を調査する既存のABMを、エージェントベースモデリングのために設計された、より表現力豊かなプラットフォームGAMAに翻訳します。 シミュレーション結果の説明力に有益である可能性があるため、将来、社会科学の分野でモデルを作る際に選択したプラットフォームの新機能を活用することが奨励されるべきであることを示すためにそれを行います。

The diffusion of innovations is an important topic for the consumer markets. Early research focused on how innovations spread on the level of the whole society. To get closer to the real world scenarios agent based models (ABM) started focusing on individual-level agents. In our work we will translate an existing ABM that investigates the role of opinion leaders in the process of diffusion of innovations to a new, more expressive platform designed for agent based modeling, GAMA. We will do it to show that taking advantage of new features of the chosen platform should be encouraged when making models in the field of social sciences in the future, because it can be beneficial for the explanatory power of simulation results.
翻訳日:2021-02-01 23:28:22 公開日:2021-01-27
# (参考訳) マルチモーダル信号の損失圧縮による抽象表現の学習 [全文訳有]

Learning Abstract Representations through Lossy Compression of Multi-Modal Signals ( http://arxiv.org/abs/2101.11376v1 )

ライセンス: CC BY-SA 4.0
Charles Wilmot, Jochen Triesch(参考訳) オープンエンド学習の鍵となる能力は、複雑な行動を促進するのに役立つ抽象表現の形成である。 抽象表現は特定の詳細を無視し、一般化を促進する。 ここでは、2つ以上の入力モダリティを持つマルチモーダル設定における抽象表現の学習を検討する。 本稿では,この問題を損失圧縮問題として扱い,マルチモーダル感覚入力の汎用的損失圧縮は,異なるモダリティ間で共有される情報を優先的に保持し,特定のディテールを取り除きやすい抽象表現を自然に抽出することを示す。 さらに,複数のモダリティ間で共有される情報のみを識別・保持し,モダリティ固有の情報を捨てることで抽象表現を学習するアーキテクチャを提案する。

A key competence for open-ended learning is the formation of increasingly abstract representations useful for driving complex behavior. Abstract representations ignore specific details and facilitate generalization. Here we consider the learning of abstract representations in a multi-modal setting with two or more input modalities. We treat the problem as a lossy compression problem and show that generic lossy compression of multimodal sensory input naturally extracts abstract representations that tend to strip away modalitiy specific details and preferentially retain information that is shared across the different modalities. Furthermore, we propose an architecture to learn abstract representations by identifying and retaining only the information that is shared across multiple modalities while discarding any modality specific information.
翻訳日:2021-02-01 23:20:31 公開日:2021-01-27
# (参考訳) 投票者の行動のマルチエージェントシミュレーション [全文訳有]

Multi-agent simulation of voter's behaviour ( http://arxiv.org/abs/2101.11538v1 )

ライセンス: CC BY 4.0
Albin Soutif and Carole Adam and Sylvain Bouveret(参考訳) 本論文の目的は,投票方式による有権者の行動をシミュレートすることである。 提案手法では,多数のイテレーションを通じて投票プロセスをモデル化するためにマルチエージェントシミュレーションを用いて,投票結果を考慮して投票を行うことができる。 ここでは基本的なルールと単一の投票方法のみを試しましたが、さらなる試みでは新機能を探索できます。

The goal of this paper is to simulate the voters behaviour given a voting method. Our approach uses a multi-agent simulation in order to model a voting process through many iterations, so that the voters can vote by taking into account the results of polls. Here we only tried basic rules and a single voting method, but further attempts could explore new features.
翻訳日:2021-02-01 23:08:33 公開日:2021-01-27
# (参考訳) スキャンダルの影響をモデル化する:2017年のフランス大統領選挙の場合 [全文訳有]

Modelling the Impact of Scandals: the case of the 2017 French Presidential Election ( http://arxiv.org/abs/2101.11548v1 )

ライセンス: CC BY 4.0
Yassine Bouachrine and Carole Adam(参考訳) 本論文は、2017年フランス大統領選挙に触発された大統領選挙のエージェントベースシミュレーションを提案する。 シミュレーションは、ポーリング、メディアカバレッジ、およびTwitterから抽出されたデータに基づいています。 主な貢献は、選挙結果に対するスキャンダルやメディアのバッシングの影響を検討することである。 特に、有権者には投票する候補者がいないため、スキャンダルは選挙においてより高い棄権につながる可能性があることが示されている。 シミュレーションはUnity 3Dで実装されており、オンラインでプレイすることができる。

This paper proposes an agent-based simulation of a presidential election, inspired by the French 2017 presidential election. The simulation is based on data extracted from polls, media coverage, and Twitter. The main contribution is to consider the impact of scandals and media bashing on the result of the election. In particular, it is shown that scandals can lead to higher abstention at the election, as voters have no relevant candidate left to vote for. The simulation is implemented in Unity 3D and is available to play online.
翻訳日:2021-02-01 23:01:40 公開日:2021-01-27
# (参考訳) 極端に少ないアノテーションによる相互ランドマークの検出と追跡 [全文訳有]

Reciprocal Landmark Detection and Tracking with Extremely Few Annotations ( http://arxiv.org/abs/2101.11224v1 )

ライセンス: CC BY 4.0
Jianzhe Lin, Ghazal Sahebzamani, Christina Luong, Fatemeh Taheri Dezaki, Mohammad Jafari, Purang Abolmaesumi, Teresa Tsang(参考訳) 心エコー検査における2次元測定を行う解剖学的ランドマークの局在化は、心臓疾患診断における日常的な臨床ワークフローの一部である。 これらのランドマークの自動ローカライズは、ワークフローを改善し、オブザーバ間のばらつきを低減するために非常に望ましい。 このようなローカライズを行うための機械学習フレームワークのトレーニングは、金の標準ラベルのばらばらな性質から妨げられている。 本稿では,心エコーラベルのスパース特性に特化して設計された,新しいエンドツーエンドの相互検出・追跡モデルを提案する。 このモデルでは, 心筋シネ列全体にわたって少数のアノテートフレームを用いて, ランドマークの検出と追跡を一貫したものにし, それらのアノテートフレームを活用すべく, 敵対的トレーニングが提案されている。 提案する相反モデルの優越性は,一連の実験により実証された。

Localization of anatomical landmarks to perform two-dimensional measurements in echocardiography is part of routine clinical workflow in cardiac disease diagnosis. Automatic localization of those landmarks is highly desirable to improve workflow and reduce interobserver variability. Training a machine learning framework to perform such localization is hindered given the sparse nature of gold standard labels; only few percent of cardiac cine series frames are normally manually labeled for clinical use. In this paper, we propose a new end-to-end reciprocal detection and tracking model that is specifically designed to handle the sparse nature of echocardiography labels. The model is trained using few annotated frames across the entire cardiac cine sequence to generate consistent detection and tracking of landmarks, and an adversarial training for the model is proposed to take advantage of these annotated frames. The superiority of the proposed reciprocal model is demonstrated using a series of experiments.
翻訳日:2021-02-01 22:55:12 公開日:2021-01-27
# (参考訳) 線形部分空間をもつスパース線形回帰の基本的限界 [全文訳有]

The fundamental limits of sparse linear regression with sublinear sparsity ( http://arxiv.org/abs/2101.11156v1 )

ライセンス: CC BY 4.0
Lan V. Truong(参考訳) 正規化された相互情報と線形回帰の最小平均二乗誤差(MMSE)に対する正確な非近距離表現を確立する。 この結果は,線形レジームに対するベイズ推論における適応補間法の単純一般化によって得られる。 MMSEの基本限界に近づくためによく知られた近似メッセージパッシングアルゴリズムの修正も提案されている。 本研究では, 補間法および適応補間法において, 信号次元と観測回数との従来の線形仮定がスパース信号には必要ないことを示した。 また、既存の良く知られたampアルゴリズムを線形レジームからサブリニアに修正する方法も示している。

We establish exact asymptotic expressions for the normalized mutual information and minimum mean-square-error (MMSE) of sparse linear regression in the sub-linear sparsity regime. Our result is achieved by a simple generalization of the adaptive interpolation method in Bayesian inference for linear regimes to sub-linear ones. A modification of the well-known approximate message passing algorithm to approach the MMSE fundamental limit is also proposed. Our results show that the traditional linear assumption between the signal dimension and number of observations in the replica and adaptive interpolation methods is not necessary for sparse signals. They also show how to modify the existing well-known AMP algorithms for linear regimes to sub-linear ones.
翻訳日:2021-02-01 22:37:07 公開日:2021-01-27
# (参考訳) GHHの表現力に関する一考察 [全文訳有]

A Note on the Representation Power of GHHs ( http://arxiv.org/abs/2101.11286v1 )

ライセンス: CC BY 4.0
Zhou Lu(参考訳) このノートでは、任意のCPWL関数を表すために、一般化ヒンジ超平面(GHH)のネストされた絶対値関数のネスティングの必要な数に鋭い下限があることを証明します。 以前は、$n+1$ネスティングはGHHが普遍的な表現力を達成するのに十分であるが、対応する下限は不明である。 我々は、$n$ネスティングが普遍表現力のために必要であることを証明する。 また,一層ニューラルネットワークは領域全体に普遍的な近似パワーを持たないことを示した。 この解析は、周期関数の任意の有限和が非可積分であるか、あるいは独立な興味を持つゼロ函数であるかを示すキー補題に基づいている。

In this note we prove a sharp lower bound on the necessary number of nestings of nested absolute-value functions of generalized hinging hyperplanes (GHH) to represent arbitrary CPWL functions. Previous upper bound states that $n+1$ nestings is sufficient for GHH to achieve universal representation power, but the corresponding lower bound was unknown. We prove that $n$ nestings is necessary for universal representation power, which provides an almost tight lower bound. We also show that one-hidden-layer neural networks don't have universal approximation power over the whole domain. The analysis is based on a key lemma showing that any finite sum of periodic functions is either non-integrable or the zero function, which might be of independent interest.
翻訳日:2021-02-01 22:11:52 公開日:2021-01-27
# (参考訳) カーネルHilbert C*-moduleとカーネル平均埋め込みを再生する

Reproducing kernel Hilbert C*-module and kernel mean embeddings ( http://arxiv.org/abs/2101.11410v1 )

ライセンス: CC BY 4.0
Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda, Fuyuta Komura, Takeshi Katsura, and Yoshinobu Kawahara(参考訳) Kernelメソッドは、カーネルヒルベルト空間(RKHS)を再生する性質を使用して学習タスクが解決される機械学習で最も人気のあるテクニックの1つです。 本稿では、カーネルHilbert $C^*$-module(RKHM)とカーネル平均埋め込み(KME)をRKHMに再現した新しいデータ解析フレームワークを提案する。 RKHM は RKHS やベクトル値 RKHS (vv RKHS) よりもリッチな情報を含むため,RKHM を用いた解析により多変量データ,関数データ,その他の構造化データから構造特性を抽出・抽出することができる。 代表者定理や提案したKMEの射影率と普遍性を含むデータ解析にRKHMを適用するための理論の分野を示す。 また、RKHM は RKHS と vv RKHS を一般化する。 そして、データ解析にRKHMと提案したKMEを用いるための具体的な手順を提供する。

Kernel methods have been among the most popular techniques in machine learning, where learning tasks are solved using the property of reproducing kernel Hilbert space (RKHS). In this paper, we propose a novel data analysis framework with reproducing kernel Hilbert $C^*$-module (RKHM) and kernel mean embedding (KME) in RKHM. Since RKHM contains richer information than RKHS or vector-valued RKHS (vv RKHS), analysis with RKHM enables us to capture and extract structural properties in multivariate data, functional data and other structured data. We show a branch of theories for RKHM to apply to data analysis, including the representer theorem, and the injectivity and universality of the proposed KME. We also show RKHM generalizes RKHS and vv RKHS. Then, we provide concrete procedures for employing RKHM and the proposed KME to data analysis.
翻訳日:2021-02-01 22:08:08 公開日:2021-01-27
# (参考訳) ソーシャルメディアから旅行者行動情報を得る - Twitterによるマンハッタンの事例研究- [全文訳有]

Deriving the Traveler Behavior Information from Social Media: A Case Study in Manhattan with Twitter ( http://arxiv.org/abs/2101.11482v1 )

ライセンス: CC BY 4.0
Zhenhua Zhang(参考訳) Twitterなどのソーシャルメディアプラットフォームは、トラフィック問題に対処するための全く新しい視点を提供し、従来の方法の補完が期待されています。 ジオタグ付きツイートは、Twitterユーザーの位置情報を提供し、旅行者の行動分析に適用される。 本論文では、旅行行動情報の導出におけるTwitterの可能性を探究し、マンハッタンエリアでのケーススタディを行う。 Twitterの位置情報から変位情報を抽出する系統的手法を提案する。 当社の調査によると、Twitterには地元住民だけでなく、観光客や乗客を合わせた独自の人口統計がある。 個々のユーザーにとってTwitterは、平日と週末の時間帯と場所の分布を含む旅行行動機能を明らかにすることができる。 すべてのTwitterユーザにとって、集計された旅行行動の結果は、マンハッタン島の日中の旅行パターンが交通の流れのパターンに類似していることを示し、ODパターンの識別も旅行調査の結果と比較することで有望である。

Social media platforms, such as Twitter, provide a totally new perspective in dealing with the traffic problems and is anticipated to complement the traditional methods. The geo-tagged tweets can provide the Twitter users' location information and is being applied in traveler behavior analysis. This paper explores the full potentials of Twitter in deriving travel behavior information and conducts a case study in Manhattan Area. A systematic method is proposed to extract displacement information from Twitter locations. Our study shows that Twitter has a unique demographics which combine not only local residents but also the tourists or passengers. For individual user, Twitter can uncover his/her travel behavior features including the time-of-day and location distributions on both weekdays and weekends. For all Twitter users, the aggregated travel behavior results also show that the time-of-day travel patterns in Manhattan Island resemble that of the traffic flow; the identification of OD pattern is also promising by comparing with the results of travel survey.
翻訳日:2021-02-01 22:07:03 公開日:2021-01-27
# (参考訳) ハダマールの力と製品の混合物の同定 [全文訳有]

Hadamard Powers and the Identification of Mixtures of Products ( http://arxiv.org/abs/2101.11688v1 )

ライセンス: CC BY 4.0
Spencer L. Gordon, Leonard J. Schulman(参考訳) 行列のアダマール力は、その列の部分集合のすべてのアダマール積からなる行列である。 我々は,ハダマールパワーがフルカラムランクのときに関するいくつかの結果を得る。 この問題は次の問題の中心である: 2進確率変数の一覧に$k$の積分布の混合を与えられた場合、$X_1,\ldots,X_n$は、その確率モデルを$X_i$の合同統計量から特定できる。

The Hadamard Power of a matrix is the matrix consisting of all Hadamard products of subsets of its rows. We obtain several results concerning when a Hadamard Power has full column rank. This question in turn is central to the following problem: given a mixture of $k$ product distributions on a list of binary random variables $X_1,\ldots,X_n$, can the probability model be identified from the joint statistics of the $X_i$.
翻訳日:2021-02-01 21:58:56 公開日:2021-01-27
# (参考訳) ミスマーカーを用いた蛍光顕微鏡画像の深層学習セグメンテーションにおける不確実性推定 [全文訳有]

Utilizing Uncertainty Estimation in Deep Learning Segmentation of Fluorescence Microscopy Images with Missing Markers ( http://arxiv.org/abs/2101.11476v1 )

ライセンス: CC BY 4.0
Alvaro Gomariz, Raphael Egli, Tiziano Portenier, C\'esar Nombela-Arrieta, Orcun Goksel(参考訳) 蛍光顕微鏡画像は、サンプルを染色するマーカーを示す複数のチャネルを含む。 多くの異なるマーカーの組み合わせが実際に使用されているため、ディープラーニングに基づくセグメンテーションモデルの適用は困難であり、すべてのトレーニングサンプルと将来のアプリケーションに対する推論において、事前に定義されたチャネルの組み合わせが期待できる。 最近の研究では、任意のマーカーの組み合わせで効果的であるモダリティ注意アプローチを用いてこの問題を回避している。 しかし、ラベル付きトレーニングデータセットに存在しない組み合わせの場合、その組み合わせが推論中に遭遇した場合、潜在的なセグメンテーション品質を推定することはできない。 これなしでは、品質保証が欠如しているだけでなく、追加のイメージングやラベル付けを行う場所も知らない。 本研究では,画像分割のための畳み込みニューラルネットワークのアレータ性およびエピステミック不確実性の両方を推定する手法と,それに対応するセグメンテーション指標への回帰による不確実性の解釈のためのランダムフォレストモデルを訓練する手法を提案する。 さらに,トレーニング中の不確実性を含むことで,セグメンテーション性能が向上することを示す。

Fluorescence microscopy images contain several channels, each indicating a marker staining the sample. Since many different marker combinations are utilized in practice, it has been challenging to apply deep learning based segmentation models, which expect a predefined channel combination for all training samples as well as at inference for future application. Recent work circumvents this problem using a modality attention approach to be effective across any possible marker combination. However, for combinations that do not exist in a labeled training dataset, one cannot have any estimation of potential segmentation quality if that combination is encountered during inference. Without this, not only one lacks quality assurance but one also does not know where to put any additional imaging and labeling effort. We herein propose a method to estimate segmentation quality on unlabeled images by (i) estimating both aleatoric and epistemic uncertainties of convolutional neural networks for image segmentation, and (ii) training a Random Forest model for the interpretation of uncertainty features via regression to their corresponding segmentation metrics. Additionally, we demonstrate that including these uncertainty measures during training can provide an improvement on segmentation performance.
翻訳日:2021-02-01 21:19:17 公開日:2021-01-27
# (参考訳) 画像サイズがディープラーニングに及ぼす影響 [全文訳有]

Effects of Image Size on Deep Learning ( http://arxiv.org/abs/2101.11508v1 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) 質問は、関心のある地域のどのサイズがより良いトレーニング結果につながる可能性が高いですか? u-netはセマンティクスのセグメンテーションに使われている。 画像補間アルゴリズムは、切り抜かれた画像サイズを2倍にし、新しいデータセットを作成するために使用される。 選択された画像補間アルゴリズムのカテゴリにより、基底真理画像に非固有クラスが作成されるので、そのようなスプリアスクラスを除去するフィルタリング戦略が導入される。 心筋梗塞の心筋セグメンテーションおよび定量化に対する効果の評価結果を提供し、議論する。

The question is: what size of the region of interest is likely to lead to better training outcomes? To answer this: The U-net is used for semantic segmentation. Image interpolation algorithms are used to double the cropped image size and create new datasets. Depending on the selected image interpolation algorithm category, non-original classes are created in the ground truth images thus a filtering strategy is introduced to remove such spurious classes. Evaluation results of effects on the myocardium segmentation and quantification of the myocardial infarction are provided and discussed.
翻訳日:2021-02-01 21:12:36 公開日:2021-01-27
# (参考訳) 学習とビジョンの両レベル最適化を統一的な視点から探究する:調査とその先 [全文訳有]

Investigating Bi-Level Optimization for Learning and Vision from a Unified Perspective: A Survey and Beyond ( http://arxiv.org/abs/2101.11517v1 )

ライセンス: CC BY 4.0
Risheng Liu, Jiaxin Gao, Jin Zhang, Deyu Meng and Zhouchen Lin(参考訳) Bi-Level Optimization (BLO) は、経済学ゲーム理論の分野から始まり、最適化コミュニティに導入された。 BLOは、2つのレベルの最適化タスクを含む階層構造上の問題を扱うことができ、一方のタスクが他方の内部にネストされる。 機械学習とコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、ハイパーパラメータ最適化、マルチタスクとメタラーニング、ニューラルネットワーク検索、逆学習、深層強化学習など、多くの複雑な問題はすべて、密接に関連するサブプロブレムを含んでいる。 本稿では,これらの複雑な学習と視覚問題をBLOの観点から一様に表現する。 そこで我々は, 基本的自動微分スキームから, 様々な加速度, 単純化, 拡張, 収束性, 複雑性といった側面を網羅し, 主観的勾配に基づくBLO手法を理解し, 定式化するための一元化アルゴリズムの枠組みを構築した。 最後に,新しいアルゴリズムを設計するための統合型BLOフレームワークの可能性について論じ,今後の研究に期待できる方向性を指摘する。

Bi-Level Optimization (BLO) is originated from the area of economic game theory and then introduced into the optimization community. BLO is able to handle problems with a hierarchical structure, involving two levels of optimization tasks, where one task is nested inside the other. In machine learning and computer vision fields, despite the different motivations and mechanisms, a lot of complex problems, such as hyper-parameter optimization, multi-task and meta-learning, neural architecture search, adversarial learning and deep reinforcement learning, actually all contain a series of closely related subproblms. In this paper, we first uniformly express these complex learning and vision problems from the perspective of BLO. Then we construct a value-function-based single-level reformulation and establish a unified algorithmic framework to understand and formulate mainstream gradient-based BLO methodologies, covering aspects ranging from fundamental automatic differentiation schemes to various accelerations, simplifications, extensions and their convergence and complexity properties. Last but not least, we discuss the potentials of our unified BLO framework for designing new algorithms and point out some promising directions for future research.
翻訳日:2021-02-01 21:04:41 公開日:2021-01-27
# (参考訳) 深層学習に基づく可視赤外融合法の火災画像への適用性評価 [全文訳有]

Assessing the applicability of Deep Learning-based visible-infrared fusion methods for fire imagery ( http://arxiv.org/abs/2101.11745v1 )

ライセンス: CC BY 4.0
J. F. Cipri\'an-S\'anchez and G. Ochoa-Ruiz and M. Gonzalez-Mendoza and L. Rossi(参考訳) 早期の野火検出は、環境、特性、生活にできるだけ多くの損傷を避けるために最も重要なものである。 可視情報と赤外線情報の両方を活用することができるディープラーニング(DL)モデルは、既存の技術よりも偽陽性率の低い最先端のパフォーマンスを示す可能性がある。 しかし、ほとんどのDLベースの画像融合法は火災画像の分野で評価されていない。 さらに、私たちの知る限り、可視赤外融合火災画像を含む公開データセットはありません。 dlベースの画像融合技術には、その複雑さが減りつつあるため、関心が高まっている。 後者は,3つの最新のDLベースの画像融合技術を選択し,それらを火災画像融合の特定のタスクのために評価する。 これらのメソッドのパフォーマンスを選択したメトリクスと比較します。 最後に、この方法の1つであるFIRe-GAN(FIRe-GAN)の拡張についても紹介します。

Early wildfire detection is of paramount importance to avoid as much damage as possible to the environment, properties, and lives. Deep Learning (DL) models that can leverage both visible and infrared information have the potential to display state-of-the-art performance, with lower false-positive rates than existing techniques. However, most DL-based image fusion methods have not been evaluated in the domain of fire imagery. Additionally, to the best of our knowledge, no publicly available dataset contains visible-infrared fused fire images. There is a growing interest in DL-based image fusion techniques due to their reduced complexity. Due to the latter, we select three state-of-the-art, DL-based image fusion techniques and evaluate them for the specific task of fire image fusion. We compare the performance of these methods on selected metrics. Finally, we also present an extension to one of the said methods, that we called FIRe-GAN, that improves the generation of artificial infrared images and fused ones on selected metrics.
翻訳日:2021-02-01 20:05:14 公開日:2021-01-27
# (参考訳) 非線形系における最小センサ配置と特徴選択のための線形手法の不確かさ : セカントを用いた新しいアプローチ

Inadequacy of Linear Methods for Minimal Sensor Placement and Feature Selection in Nonlinear Systems; a New Approach Using Secants ( http://arxiv.org/abs/2101.11162v1 )

ライセンス: CC BY-SA 4.0
Samuel E. Otto and Clarence W. Rowley(参考訳) センサ配置と特徴選択は、共通の数学的テーマを共有する工学、モデリング、データサイエンスにおいて重要なステップである。 ほとんどの実世界の興味あるシステムは非線形であるが、特徴選択とセンサー配置のためのほとんどの技術は線形性や単純な統計モデルの仮定に依存している。 これらの仮定が破られると、標準技術は、所望の情報が測定値から取り戻せることを保証せずに、コストのかかる過剰センシングにつながる。 そこで本研究では,データ点間のセカントベクトルに含まれる情報に基づいて,一般の非線形逆問題に対するセンサ配置と特徴選択に関する新たなデータ駆動アプローチを提案する。 セカントに基づく手法を用いて, それぞれ異なる種類の頑健で最小に近い復元保証を提供する3つの効率的なグリージーアルゴリズムを開発した。 複雑な衝撃混合層相互作用によって形成される流体流を再構成するためのセンサ配置とトーラス上の基本多様体学習座標の選択である。

Sensor placement and feature selection are critical steps in engineering, modeling, and data science that share a common mathematical theme: the selected measurements should enable solution of an inverse problem. Most real-world systems of interest are nonlinear, yet the majority of available techniques for feature selection and sensor placement rely on assumptions of linearity or simple statistical models. We show that when these assumptions are violated, standard techniques can lead to costly over-sensing without guaranteeing that the desired information can be recovered from the measurements. In order to remedy these problems, we introduce a novel data-driven approach for sensor placement and feature selection for a general type of nonlinear inverse problem based on the information contained in secant vectors between data points. Using the secant-based approach, we develop three efficient greedy algorithms that each provide different types of robust, near-minimal reconstruction guarantees. We demonstrate them on two problems where linear techniques consistently fail: sensor placement to reconstruct a fluid flow formed by a complicated shock-mixing layer interaction and selecting fundamental manifold learning coordinates on a torus.
翻訳日:2021-02-01 19:51:35 公開日:2021-01-27
# Meta Adversarial Training

Meta Adversarial Training ( http://arxiv.org/abs/2101.11453v1 )

ライセンス: Link先を確認
Jan Hendrik Metzen, Nicole Finnie, Robin Hutmacher(参考訳) 近年、物理世界の敵対的攻撃が認識システムの脆弱性を露呈し、自律運転のような安全クリティカルなアプリケーションに深刻なリスクをもたらしている。 これらの攻撃は、様々な文脈でそれを騙すことができるモデルの入力に間接的に普遍的な摂動を付加する物理的世界における敵対的アーティファクトを配置する。 対人訓練はイメージ依存の対人攻撃に対する最も効果的な防御です。 しかし、最適普遍摂動はトレーニング中に変化するモデル重みに依存するため、普遍摂動に対する対角トレーニングの調整は計算コストがかかる。 本稿では,メタ対人訓練とメタ学習の新たな組み合わせであるメタ対人訓練(MAT)を提案する。 MATは、現在のモデルに大量の摂動を継続的に適用しながら、余分な計算をほとんど必要としない。 画像分類と信号検出におけるユニバーサルパッチとユニバーサル摂動攻撃の結果を提示する。 MATは、以前の作業と比べて、ユニバーサルパッチ攻撃に対する堅牢性を大幅に向上させる。

Recently demonstrated physical-world adversarial attacks have exposed vulnerabilities in perception systems that pose severe risks for safety-critical applications such as autonomous driving. These attacks place adversarial artifacts in the physical world that indirectly cause the addition of universal perturbations to inputs of a model that can fool it in a variety of contexts. Adversarial training is the most effective defense against image-dependent adversarial attacks. However, tailoring adversarial training to universal perturbations is computationally expensive since the optimal universal perturbations depend on the model weights which change during training. We propose meta adversarial training (MAT), a novel combination of adversarial training with meta-learning, which overcomes this challenge by meta-learning universal perturbations along with model training. MAT requires little extra computation while continuously adapting a large set of perturbations to the current model. We present results for universal patch and universal perturbation attacks on image classification and traffic-light detection. MAT considerably increases robustness against universal patch attacks compared to prior work.
翻訳日:2021-02-01 19:50:38 公開日:2021-01-27
# LSOIE: 教師付きオープン情報抽出のための大規模データセット

LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction ( http://arxiv.org/abs/2101.11177v1 )

ライセンス: Link先を確認
Jacob Solawetz, Stefan Larson(参考訳) Open Information Extraction (OIE) システムは、文の事実命題を一連の n-ary タプルに圧縮しようとする。 これらのタプルは、ナレッジベース作成、テキストエンテイメント、自然言語理解などの自然言語処理における下流タスクに役立ちます。 しかし、現在のoieデータセットはサイズと多様性の両方に制限がある。 QA-SRL 2.0データセットを大規模OIEデータセット(LSOIE)に変換することにより,新たなデータセットを導入する。 我々のLSOIEデータセットは、人間の注釈付きOIEデータセットの20倍の大きさです。 LSOIE 上でのベンチマーク OIE モデルの構築と評価を行い,タスクの今後の改善のためのベースラインを提供する。 LSOIEデータ、モデル、およびコードは公開されています

Open Information Extraction (OIE) systems seek to compress the factual propositions of a sentence into a series of n-ary tuples. These tuples are useful for downstream tasks in natural language processing like knowledge base creation, textual entailment, and natural language understanding. However, current OIE datasets are limited in both size and diversity. We introduce a new dataset by converting the QA-SRL 2.0 dataset to a large-scale OIE dataset (LSOIE). Our LSOIE dataset is 20 times larger than the next largest human-annotated OIE dataset. We construct and evaluate several benchmark OIE models on LSOIE, providing baselines for future improvements on the task. Our LSOIE data, models, and code are made publicly available
翻訳日:2021-02-01 19:50:02 公開日:2021-01-27
# 遺伝誘導型階層分類による臨床自動診断

Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis ( http://arxiv.org/abs/2101.11374v1 )

ライセンス: Link先を確認
Yichao Du, Pengfei Luo, Xudong Hong, Tong Xu, Zhe Zhang, Chao Ren, Yi Zheng, Enhong Chen(参考訳) 臨床ノートに基づいて患者の診断コードを割り当てることを目的とした臨床診断は、臨床意思決定において重要な役割を果たします。 手動による診断は誤診や時間を要する可能性があるため、臨床テキストマイニングに基づくインテリジェントなアプローチが多数提案されている。 しかし, これらの手法は, 以下の課題により, 良好な結果が得られない可能性がある。 第一に、ほとんどの診断符号はまれであり、分布は極めて不均衡である。 第二に、既存の方法は診断コード間の相関を捉えることが困難である。 第3に、長い臨床記録は、コードに関連する重要な情報の過度な分散につながる。 これらの課題に対処するため,臨床自動診断のための継承誘導階層配置と共起グラフ伝播を組み合わせた新しい枠組みを提案する。 具体的には、不均衡な符号分布の課題に対処する階層的共同予測戦略を提案する。 そこで我々は, グラフ畳み込みニューラルネットワークを用いて, 医療オントロジーの相関と意味表現を求める。 さらに,重要な情報を抽出するためのマルチアテンション機構を導入する。 最後に、MIMIC-IIIデータセットの広範な実験は、この方法の有効性を明確に検証する。

Clinical diagnosis, which aims to assign diagnosis codes for a patient based on the clinical note, plays an essential role in clinical decision-making. Considering that manual diagnosis could be error-prone and time-consuming, many intelligent approaches based on clinical text mining have been proposed to perform automatic diagnosis. However, these methods may not achieve satisfactory results due to the following challenges. First, most of the diagnosis codes are rare, and the distribution is extremely unbalanced. Second, existing methods are challenging to capture the correlation between diagnosis codes. Third, the lengthy clinical note leads to the excessive dispersion of key information related to codes. To tackle these challenges, we propose a novel framework to combine the inheritance-guided hierarchical assignment and co-occurrence graph propagation for clinical automatic diagnosis. Specifically, we propose a hierarchical joint prediction strategy to address the challenge of unbalanced codes distribution. Then, we utilize graph convolutional neural networks to obtain the correlation and semantic representations of medical ontology. Furthermore, we introduce multi attention mechanisms to extract crucial information. Finally, extensive experiments on MIMIC-III dataset clearly validate the effectiveness of our method.
翻訳日:2021-02-01 19:49:30 公開日:2021-01-27
# VisualMRC: ドキュメントイメージの機械読解

VisualMRC: Machine Reading Comprehension on Document Images ( http://arxiv.org/abs/2101.11272v1 )

ライセンス: Link先を確認
Ryota Tanaka, Kyosuke Nishida, Sen Yoshida(参考訳) 近年の機械読解の研究はテキストレベルの理解に焦点が当てられているが、実世界の文書の視覚的レイアウトや内容の理解レベルには達していない。 本研究では,質問文と文書イメージを与えられたマシンが画像中のテキストを読み,理解して自然言語で回答する,VisualMRCという新しい視覚機械読解データセットを提案する。 画像中のテキストを含む既存の視覚的質問応答(VQA)データセットと比較して、VisualMRCは自然言語理解と生成能力の開発に重点を置いています。 これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。 また,既存のシーケンシャル・ツー・シーケンスモデルを大規模テキストコーパスで事前学習し,文書の視覚的レイアウトと内容を考慮した新しいモデルを提案する。 VisualMRCの実験では、このモデルがベースシーケンス・ツー・シーケンスモデルと最先端のVQAモデルを上回る性能を示した。 しかしながら、ほとんどの自動評価指標では、その性能は人間のそれ以下である。 データセットは、視覚と言語理解をつなぐ研究を促進する。

Recent studies on machine reading comprehension have focused on text-level understanding but have not yet reached the level of human understanding of the visual layout and content of real-world documents. In this study, we introduce a new visual machine reading comprehension dataset, named VisualMRC, wherein given a question and a document image, a machine reads and comprehends texts in the image to answer the question in natural language. Compared with existing visual question answering (VQA) datasets that contain texts in images, VisualMRC focuses more on developing natural language understanding and generation abilities. It contains 30,000+ pairs of a question and an abstractive answer for 10,000+ document images sourced from multiple domains of webpages. We also introduce a new model that extends existing sequence-to-sequence models, pre-trained with large-scale text corpora, to take into account the visual layout and content of documents. Experiments with VisualMRC show that this model outperformed the base sequence-to-sequence models and a state-of-the-art VQA model. However, its performance is still below that of humans on most automatic evaluation metrics. The dataset will facilitate research aimed at connecting vision and language understanding.
翻訳日:2021-02-01 19:48:55 公開日:2021-01-27
# デカップリング型エンコーダデコーダネットワークを用いた視覚言語前訓練のスケジュールサンプリング

Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder Network ( http://arxiv.org/abs/2101.11562v1 )

ライセンス: Link先を確認
Yehao Li and Yingwei Pan and Ting Yao and Jingwen Chen and Tao Mei(参考訳) VL理解のためのBERTベースのエンコーダによる印象的なビジョン言語(VL)プリトレーニングがあるにもかかわらず、VL理解と生成の両方のためのユニバーサルエンコーダデコーダのプリトレーニングは依然として困難です。 この難しさは、2つの分野の本質的に異なる特質、例えばVL理解タスクは、モダリティをまたいだ制限のないメッセージパッシングを生かし、生成タスクは、視覚的からテキスト的メッセージパッシングのみを使用する。 本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが,VL理解と生成事前学習を同時に行うために,各タイプのプロキシタスクを個別に実行する,エンコーダ・デコーダ構造の2ストリーム分離設計から始める。 さらに、VLプリトレーニングでは、入力されたビジュアル/ワードトークンをマスクトークンに置き換え、マルチモーダルエンコーダ/デコーダを強制して元のトークンを再構築するが、下流タスクの微調整ではマスクトークンは関与しない。 代替案として,2パス方式のプリトレーニングエンコーダデコーダにより,このような不一致をエレガントに緩和する一次スケジュールサンプリング戦略を提案する。 4つのVL理解と下流タスクの生成を微調整することで、事前訓練したエンコーダデコーダの強制的な一般化性を実証した。 ソースコードは \url{https://github.com/Y ehLi/TDEN} で入手できる。

Despite having impressive vision-language (VL) pretraining with BERT-based encoder for VL understanding, the pretraining of a universal encoder-decoder for both VL understanding and generation remains challenging. The difficulty originates from the inherently different peculiarities of the two disciplines, e.g., VL understanding tasks capitalize on the unrestricted message passing across modalities, while generation tasks only employ visual-to-textual message passing. In this paper, we start with a two-stream decoupled design of encoder-decoder structure, in which two decoupled cross-modal encoder and decoder are involved to separately perform each type of proxy tasks, for simultaneous VL understanding and generation pretraining. Moreover, for VL pretraining, the dominant way is to replace some input visual/word tokens with mask tokens and enforce the multi-modal encoder/decoder to reconstruct the original tokens, but no mask token is involved when fine-tuning on downstream tasks. As an alternative, we propose a primary scheduled sampling strategy that elegantly mitigates such discrepancy via pretraining encoder-decoder in a two-pass manner. Extensive experiments demonstrate the compelling generalizability of our pretrained encoder-decoder by fine-tuning on four VL understanding and generation downstream tasks. Source code is available at \url{https://github.com/Y ehLi/TDEN}.
翻訳日:2021-02-01 19:48:17 公開日:2021-01-27
# 幼児期学習によるタスク非依存表現の学習

Learning task-agnostic representation via toddler-inspired learning ( http://arxiv.org/abs/2101.11221v1 )

ライセンス: Link先を確認
Kwanyoung Park, Junseok Park, Hyunseok Oh, Byoung-Tak Zhang, Youngki Lee(参考訳) 現在のAIシステムの本質的な制限の1つは、受動的学習機構(例えば教師付き学習)に由来するもので、ラベル付きデータセットでうまく機能するが、自分自身で知識を引き出すことはできない。 この問題に取り組むため,我々は,アクションによる高度に意図的な学習システムからインスピレーションを得た。 幼児の学習過程にインスパイアされた対話型エージェントを設計し,仮想環境内の物体を探索・操作しながらタスクに依存しない視覚表現を学習・記憶する。 実験の結果,これらの表現は画像分類,物体の局所化,距離推定といった様々な視覚タスクに拡張可能であることがわかった。 具体的には、提案されたモデルは100%、75.1%の精度と1.62%の相対誤差を達成し、これはオートエンコーダベースのモデル(99.7%、66.1%、1.595%)よりも顕著に優れている。

One of the inherent limitations of current AI systems, stemming from the passive learning mechanisms (e.g., supervised learning), is that they perform well on labeled datasets but cannot deduce knowledge on their own. To tackle this problem, we derive inspiration from a highly intentional learning system via action: the toddler. Inspired by the toddler's learning procedure, we design an interactive agent that can learn and store task-agnostic visual representation while exploring and interacting with objects in the virtual environment. Experimental results show that such obtained representation was expandable to various vision tasks such as image classification, object localization, and distance estimation tasks. In specific, the proposed model achieved 100%, 75.1% accuracy and 1.62% relative error, respectively, which is noticeably better than autoencoder-based model (99.7%, 66.1%, 1.95%), and also comparable with those of supervised models (100%, 87.3%, 0.71%).
翻訳日:2021-02-01 19:47:29 公開日:2021-01-27
# モビルゲーミング画像のマルチモーダル審美性評価

Multi-Modal Aesthetic Assessment for MObile Gaming Image ( http://arxiv.org/abs/2101.11700v1 )

ライセンス: Link先を確認
Zhenyu Lei, Yejing Xie, Suiyi Ling, Andreas Pastor, Junle Wang, Patrick Le Callet(参考訳) 様々なゲーム技術、サービス、ゲームスタイル、プラットフォームの普及に伴い、ゲームコンテンツに対する多次元の美的評価がゲーム業界にとってますます重要になっている。 多様なゲームプレーヤー、ゲームデザイナー、グラフィカル開発者などの多様なニーズに応じて。 特に,マルチモーダル審美評価は,異なる審美的寸法・観察的要素を検討するために必要である。 異なる美的次元、例えば「彩度」と「色彩調和」の間には異なる基礎的な関係があるため、複数の関連する次元に付随する効果的な情報を活用するのが有利である。 そのためには、この問題をマルチタスク学習で解決します。 我々の傾向は、異なる審美的関連次元間の相関を探求し、学習し、すべての審美的次元を予測する際の一般化性能をさらに向上させることである。 したがって、1次元の制限されたラベル付きデータで良好な予測を得るための「ボトルネック」は、他の次元の補完的情報源、すなわち、次元間でトレーニング情報を共有して間接的にトレーニングデータを増強することで解くことができる。 実験結果から,提案モデルは4つのゲーム美的次元を予測する上で,最先端の審美的指標を著しく上回る結果を得た。

With the proliferation of various gaming technology, services, game styles, and platforms, multi-dimensional aesthetic assessment of the gaming contents is becoming more and more important for the gaming industry. Depending on the diverse needs of diversified game players, game designers, graphical developers, etc. in particular conditions, multi-modal aesthetic assessment is required to consider different aesthetic dimensions/perspecti ves. Since there are different underlying relationships between different aesthetic dimensions, e.g., between the `Colorfulness' and `Color Harmony', it could be advantageous to leverage effective information attached in multiple relevant dimensions. To this end, we solve this problem via multi-task learning. Our inclination is to seek and learn the correlations between different aesthetic relevant dimensions to further boost the generalization performance in predicting all the aesthetic dimensions. Therefore, the `bottleneck' of obtaining good predictions with limited labeled data for one individual dimension could be unplugged by harnessing complementary sources of other dimensions, i.e., augment the training data indirectly by sharing training information across dimensions. According to experimental results, the proposed model outperforms state-of-the-art aesthetic metrics significantly in predicting four gaming aesthetic dimensions.
翻訳日:2021-02-01 19:46:04 公開日:2021-01-27
# 英語テキストの知識駆動自然言語理解とその応用

Knowledge-driven Natural Language Understanding of English Text and its Applications ( http://arxiv.org/abs/2101.11707v1 )

ライセンス: Link先を確認
Kinjal Basu, Sarat Varanasi, Farhad Shakerin, Joaquin Arias, Gopal Gupta(参考訳) テキストの意味を理解することは、自然言語理解(NLU)研究の根本的な課題です。 理想的なNLUシステムは、単一のタスクやデータセットに排他的でない方法で言語を処理すべきである。 これを念頭に置いて、我々は英語テキストに対する知識駆動型セマンティック表現アプローチを新たに導入した。 VerbNetレキシコンを利用することで、基本知識プリミティブを用いて表現されるコモンセンスにテキストの構文木をマッピングすることができる。 我々のアプローチから表現される汎用知識は、正当化も可能な推論ベースのNLUシステムを構築するために利用することができる。 SQuARE(Semantic-base d Question Answering and Reasoning Engine)とStaCACK(Stateful Conversational Agent using Commonsense Knowledge)の2つのNLUアプリケーションを構築するためにこのアプローチを適用しました。 どちらのシステムも、処理する自然言語のテキストを「真に理解」し、高い精度を維持しながら、応答に対する自然言語の説明を提供する。

Understanding the meaning of a text is a fundamental challenge of natural language understanding (NLU) research. An ideal NLU system should process a language in a way that is not exclusive to a single task or a dataset. Keeping this in mind, we have introduced a novel knowledge driven semantic representation approach for English text. By leveraging the VerbNet lexicon, we are able to map syntax tree of the text to its commonsense meaning represented using basic knowledge primitives. The general purpose knowledge represented from our approach can be used to build any reasoning based NLU system that can also provide justification. We applied this approach to construct two NLU applications that we present here: SQuARE (Semantic-based Question Answering and Reasoning Engine) and StaCACK (Stateful Conversational Agent using Commonsense Knowledge). Both these systems work by "truly understanding" the natural language text they process and both provide natural language explanations for their responses while maintaining high accuracy.
翻訳日:2021-02-01 19:45:24 公開日:2021-01-27
# BOLD:オープンエンディング言語生成におけるバイアス計測のためのデータセットとメトリクス

BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation ( http://arxiv.org/abs/2101.11718v1 )

ライセンス: Link先を確認
Jwala Dhamala, Tony Sun, Varun Kumar, Satyapriya Krishna, Yada Pruksachatkun, Kai-Wei Chang, Rahul Gupta(参考訳) ディープラーニング技術の最近の進歩により、単語のシーケンスをコンテキストとして促すと、機械は結束したオープンエンドテキストを生成することができる。 これらのモデルは、会話ボットから自動ストーリーテリングまで、多くの下流アプリケーションに力を与える一方で、社会的バイアスを示すテキストを生成することが示されている。 オープンエンド言語生成における社会バイアスの体系的研究とベンチマークを行うため,我々は,23,679の英語テキスト生成プロンプトからなる大規模データセットであるopen-ended language generation dataset (bold) のバイアスを紹介する。 また, オープンエンドテキスト生成における社会的バイアスを多角から測定するために, 毒性, 精神言語規範, テキスト性極性に関する新しい自動指標を提案する。 人気のある3つの言語モデルから生成されたテキストを調べると、これらのモデルの大部分は、すべてのドメインで人間が書いたウィキペディアテキストよりも大きな社会的バイアスを示していることが分かる。 これらの結果から、オープンエンド言語生成におけるバイアスのベンチマークの必要性を強調し、下流タスクにおける言語生成モデルのユーザに対して、これらの組込み偏見を認識するよう警告する。

Recent advances in deep learning techniques have enabled machines to generate cohesive open-ended text when prompted with a sequence of words as context. While these models now empower many downstream applications from conversation bots to automatic storytelling, they have been shown to generate texts that exhibit social biases. To systematically study and benchmark social biases in open-ended language generation, we introduce the Bias in Open-Ended Language Generation Dataset (BOLD), a large-scale dataset that consists of 23,679 English text generation prompts for bias benchmarking across five domains: profession, gender, race, religion, and political ideology. We also propose new automated metrics for toxicity, psycholinguistic norms, and text gender polarity to measure social biases in open-ended text generation from multiple angles. An examination of text generated from three popular language models reveals that the majority of these models exhibit a larger social bias than human-written Wikipedia text across all domains. With these results we highlight the need to benchmark biases in open-ended language generation and caution users of language generation models on downstream tasks to be cognizant of these embedded prejudices.
翻訳日:2021-02-01 19:44:43 公開日:2021-01-27
# 正規化フローによる非線形ウェーブレット変換の学習

Learning Non-linear Wavelet Transformation via Normalizing Flow ( http://arxiv.org/abs/2101.11306v1 )

ライセンス: Link先を確認
Shuo-Hui Li(参考訳) ウェーブレット変換は、現代のデータ分析と信号処理の基盤である。 その数学的性質は、各レベルで繰り返される周波数領域の高速パターンから遅いパターンを識別する可逆変換である。 このような可逆変換は、設計された正規化フローモデルによって学べる。 ウェーブレットのダウンサンプリング機構に類似したファクターアウトスキーム、ネットワークの深さに沿った相互独立な事前パラメータ共有により、異なるレベルの高速パターンに対応するファクターアウト変数に正規化フローモデルを訓練し、線形ウェーブレット変換を非線形学習可能なモデルに拡張することができる。 本稿では,そのような流れを具体的に構築する方法について述べる。 次に、損失のない圧縮タスク、プログレッシブローディング、および超解像度(アップサンプリング)タスクにおけるモデルの能力のデモンストレーション。 最後に, 学習モデルの低域通過フィルタ/高域通過フィルタによる解析を行う。

Wavelet transformation stands as a cornerstone in modern data analysis and signal processing. Its mathematical essence is an invertible transformation that discerns slow patterns from fast patterns in the frequency domain, which repeats at each level. Such an invertible transformation can be learned by a designed normalizing flow model. With a factor-out scheme resembling the wavelet downsampling mechanism, a mutually independent prior, and parameter sharing along the depth of the network, one can train normalizing flow models to factor-out variables corresponding to fast patterns at different levels, thus extending linear wavelet transformations to non-linear learnable models. In this paper, a concrete way of building such flows is given. Then, a demonstration of the model's ability in lossless compression task, progressive loading, and super-resolution (upsampling) task. Lastly, an analysis of the learned model in terms of low-pass/high-pass filters is given.
翻訳日:2021-02-01 19:44:00 公開日:2021-01-27
# 視覚認識のためのボトルネックトランスフォーマー

Bottleneck Transformers for Visual Recognition ( http://arxiv.org/abs/2101.11605v1 )

ライセンス: Link先を確認
Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani(参考訳) 画像分類,オブジェクト検出,インスタンスセグメンテーションなど,複数のコンピュータビジョンタスクに対するセルフアテンションを組み込んだ,概念的にシンプルで強力なバックボーンアーキテクチャであるbotnetを提案する。 ResNetの最終3つのボトルネックブロックにおける空間的畳み込みをグローバルな自己意識に置き換えるだけでなく、インスタンスのセグメンテーションとオブジェクト検出のベースラインを大幅に改善し、遅延のオーバーヘッドを最小限に抑えます。 また,BoTNetの設計を通じて,自己注意型ResNetボトルネックブロックをTransformerブロックとみなす方法も指摘した。 BoTNetは、Mask R-CNNフレームワークを使用したCOCO Instance Segmentationベンチマークで44.4%のMask APと49.7%のBox APを達成しました。 最後に、画像分類のためのBoTNet設計の簡単な適応を提案し、その結果、ImageNetベンチマークで84.7%の精度で、TPU-v3ハードウェア上の一般的なEfficientNetモデルよりも2.33倍高速である。 私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。

We present BoTNet, a conceptually simple yet powerful backbone architecture that incorporates self-attention for multiple computer vision tasks including image classification, object detection and instance segmentation. By just replacing the spatial convolutions with global self-attention in the final three bottleneck blocks of a ResNet and no other changes, our approach improves upon the baselines significantly on instance segmentation and object detection while also reducing the parameters, with minimal overhead in latency. Through the design of BoTNet, we also point out how ResNet bottleneck blocks with self-attention can be viewed as Transformer blocks. Without any bells and whistles, BoTNet achieves 44.4% Mask AP and 49.7% Box AP on the COCO Instance Segmentation benchmark using the Mask R-CNN framework; surpassing the previous best published single model and single scale results of ResNeSt evaluated on the COCO validation set. Finally, we present a simple adaptation of the BoTNet design for image classification, resulting in models that achieve a strong performance of 84.7% top-1 accuracy on the ImageNet benchmark while being up to 2.33x faster in compute time than the popular EfficientNet models on TPU-v3 hardware. We hope our simple and effective approach will serve as a strong baseline for future research in self-attention models for vision.
翻訳日:2021-02-01 19:43:26 公開日:2021-01-27
# 深層学習法を用いた被曝硬X線フララの自動検出

Automatic Detection of Occulted Hard X-ray Flares Using Deep-Learning Methods ( http://arxiv.org/abs/2101.11550v1 )

ライセンス: Link先を確認
Shin-nosuke Ishikawa, Hideaki Matsumura, Yasunobu Uchiyama and Lindsay Glesener(参考訳) 本研究では、Reuven Ramaty High Energy Solar Spectroscopic Imager (RHESSI) によって観測された太陽フレアからの硬いX線(HXR)放出のマシンラーニング分類の概念を提示する。 粒子加速研究ではオカルトフレアのHXR観測は重要ですが、過去の観測のためのHXRデータ分析には時間がかかり、専門的な専門知識が必要でした。 機械学習技術はこの状況に有望であり、ディープラーニング技術を用いて概念を実証するサンプルモデルを構築した。 モデルへの入力データは、RHESSIデータから容易に生成できるHXRスペクトログラムである。 モデルは、画像再構成や専門家による視覚的検査を必要とせずに、オカルトフレアを検出することができる。 本モデルでは畳み込みニューラルネットワークの手法を用いて入力データを画像として扱う。 本モデルでは,90%以上の精度で分類が可能であり,オカルトフレアに対してイベントスクリーニングやイベント警告を適用できることが実証された。

We present a concept for a machine-learning classification of hard X-ray (HXR) emissions from solar flares observed by the Reuven Ramaty High Energy Solar Spectroscopic Imager (RHESSI), identifying flares that are either occulted by the solar limb or located on the solar disk. Although HXR observations of occulted flares are important for particle-acceleratio n studies, HXR data analyses for past observations were time consuming and required specialized expertise. Machine-learning techniques are promising for this situation, and we constructed a sample model to demonstrate the concept using a deep-learning technique. Input data to the model are HXR spectrograms that are easily produced from RHESSI data. The model can detect occulted flares without the need for image reconstruction nor for visual inspection by experts. A technique of convolutional neural networks was used in this model by regarding the input data as images. Our model achieved a classification accuracy better than 90 %, and the ability for the application of the method to either event screening or for an event alert for occulted flares was successfully demonstrated.
翻訳日:2021-02-01 19:42:40 公開日:2021-01-27
# Summarizerの評価方法:手話的品質評価のための学習設計と統計的分析

How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation ( http://arxiv.org/abs/2101.11298v1 )

ライセンス: Link先を確認
Julius Steen and Katja Markert(参考訳) 自動要約の進捗判定には手作業による評価が不可欠である。 しかし,最近の要約システム論文について調査を行い,評価研究の実施方法についてはほとんど一致していない。 要約の言語的品質(コヒーレンスと反復性)の2つの側面について評価実験を行い、Likert型とランク付けアノテーションを比較し、評価方法の最良の選択が1つの側面から別の側面に異なることを示す。 また,アノテータの総数やアノテーション項目に対するアノテータの分布などの研究パラメータが完全には報告されないことが多く,その後の統計分析では,複数のサマリーを判断するアノテータから生じるグループ化要因を無視することがわかった。 評価実験により,アノテータの総数は研究力に強い影響を及ぼし,現在の統計解析手法では,I型誤り率を最大8倍に向上させることができることを示した。 さらに, システム比較において, 要約ごとに複数の判断を下すという現在の実践は, 一定の研究予算が与えられた場合, より強力で信頼性の高いアノテーションに結びつくことを強調した。

Manual evaluation is essential to judge progress on automatic text summarization. However, we conduct a survey on recent summarization system papers that reveals little agreement on how to perform such evaluation studies. We conduct two evaluation experiments on two aspects of summaries' linguistic quality (coherence and repetitiveness) to compare Likert-type and ranking annotations and show that best choice of evaluation method can vary from one aspect to another. In our survey, we also find that study parameters such as the overall number of annotators and distribution of annotators to annotation items are often not fully reported and that subsequent statistical analysis ignores grouping factors arising from one annotator judging multiple summaries. Using our evaluation experiments, we show that the total number of annotators can have a strong impact on study power and that current statistical analysis methods can inflate type I error rates up to eight-fold. In addition, we highlight that for the purpose of system comparison the current practice of eliciting multiple judgements per summary leads to less powerful and reliable annotations given a fixed study budget.
翻訳日:2021-02-01 19:41:13 公開日:2021-01-27
# 非母国語音声処理の音声モデル

A phonetic model of non-native spoken word processing ( http://arxiv.org/abs/2101.11332v1 )

ライセンス: Link先を確認
Yevgen Matusevych, Herman Kamper, Thomas Schatz, Naomi H. Feldman, Sharon Goldwater(参考訳) 非母語話者は話し言葉処理が困難である。 多くの研究は、これらの困難を語彙記憶における単語の音韻的符号化を含まないものとしている。 我々は、これらの困難のいくつかは、非ネイティブ話者の音声知覚から生じる可能性があるという別の仮説を試す。 私たちは、音韻学にアクセスできない音韻学習の計算モデルを、1つまたは2つの言語で訓練します。 まず、このモデルが電話レベルおよび単語レベルの識別タスクで予測可能な行動を示すことを示した。 次に,音声単語処理タスクでモデルをテストし,非母語話者で観察される単語処理効果を説明するために音韻学は不要であることを示す。 我々は、モデルの語彙表現空間のさらなる分析を行い、二言語話者の言語と同様に、2つの訓練言語がその空間で完全に分離されていないことを示した。

Non-native speakers show difficulties with spoken word processing. Many studies attribute these difficulties to imprecise phonological encoding of words in the lexical memory. We test an alternative hypothesis: that some of these difficulties can arise from the non-native speakers' phonetic perception. We train a computational model of phonetic learning, which has no access to phonology, on either one or two languages. We first show that the model exhibits predictable behaviors on phone-level and word-level discrimination tasks. We then test the model on a spoken word processing task, showing that phonology may not be necessary to explain some of the word processing effects observed in non-native speakers. We run an additional analysis of the model's lexical representation space, showing that the two training languages are not fully separated in that space, similarly to the languages of a bilingual human speaker.
翻訳日:2021-02-01 19:40:32 公開日:2021-01-27
# BERTの文脈表現によるシンタクティック情報の進化について

On the Evolution of Syntactic Information Encoded by BERT's Contextualized Representations ( http://arxiv.org/abs/2101.11492v1 )

ライセンス: Link先を確認
Laura Perez-Mayos, Roberto Carlini, Miguel Ballesteros, Leo Wanner(参考訳) 教師付きタスクを解くための事前訓練された言語モデルの適応は、NLPのベースラインとなり、近年の多くの研究は、事前訓練された文表現に言語情報がエンコードされる方法の研究に焦点が当てられている。 他の情報の中で、構文木全体がそのようなモデルの幾何学に暗黙的に埋め込まれていることが示されている。 これらのモデルはしばしば微調整されるため、微調整に沿ってエンコードされた知識がどのように進化するかを理解することがますます重要になる。 本論文では,6つのタスクに対するBERTの微調整プロセスに沿った組込み構文木の発展を解析し,言語構造の全レベルを網羅する。 実験結果から, 符号化された構文情報は, タスクに応じた微調整プロセスに沿って, 忘れられ(PoSタグ付け), 強化された(依存度・選挙区解析) あるいは保存された(セマンティック関連タスク) 。

The adaptation of pretrained language models to solve supervised tasks has become a baseline in NLP, and many recent works have focused on studying how linguistic information is encoded in the pretrained sentence representations. Among other information, it has been shown that entire syntax trees are implicitly embedded in the geometry of such models. As these models are often fine-tuned, it becomes increasingly important to understand how the encoded knowledge evolves along the fine-tuning. In this paper, we analyze the evolution of the embedded syntax trees along the fine-tuning process of BERT for six different tasks, covering all levels of the linguistic structure. Experimental results show that the encoded syntactic information is forgotten (PoS tagging), reinforced (dependency and constituency parsing) or preserved (semantics-related tasks) in different ways along the fine-tuning process depending on the task.
翻訳日:2021-02-01 19:39:58 公開日:2021-01-27
# トランスベース2パス音声認識のための検討

Transformer Based Deliberation for Two-Pass Speech Recognition ( http://arxiv.org/abs/2101.11577v1 )

ライセンス: Link先を確認
Ke Hu, Ruoming Pang, Tara N. Sainath, Trevor Strohman(参考訳) 対話型音声認識システムでは、単語を素早く生成し、正確な結果を生成する必要がある。 2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。 前回の研究では、審議ネットワークが効果的な第2パスモデルになり得ると定めている。 モデルは、符号化オーディオフレームと、ファーストパスモデルからの仮説テキストの2種類の入力を一度に処理する。 本研究では,long-short term memory (lstm) 層の代わりにtransformer layerを用いた検討を行う。 トランス層では、「エンコーダ・デコーダ」の注意を一般化し、符号化音声とファーストパステキストの仮説の両方に参画する。 そして、出力コンテキストベクトルを合併層で結合する。 lstmに基づく検討と比較して,提案手法は7%の単語誤り率向上と38%の計算量削減を実現している。 また, 非熟成変圧器のリコーリングと比較し, 9%の相対的改善率を示した。

Interactive speech recognition systems must generate words quickly while also producing accurate results. Two-pass models excel at these requirements by employing a first-pass decoder that quickly emits words, and a second-pass decoder that requires more context but is more accurate. Previous work has established that a deliberation network can be an effective second-pass model. The model attends to two kinds of inputs at once: encoded audio frames and the hypothesis text from the first-pass model. In this work, we explore using transformer layers instead of long-short term memory (LSTM) layers for deliberation rescoring. In transformer layers, we generalize the "encoder-decoder" ; attention to attend to both encoded audio and first-pass text hypotheses. The output context vectors are then combined by a merger layer. Compared to LSTM-based deliberation, our best transformer deliberation achieves 7% relative word error rate improvements along with a 38% reduction in computation. We also compare against non-deliberation transformer rescoring, and find a 9% relative improvement.
翻訳日:2021-02-01 19:39:20 公開日:2021-01-27
# deepois:ジャイロスコープ誘導深部光学画像安定化装置

DeepOIS: Gyroscope-Guided Deep Optical Image Stabilizer Compensation ( http://arxiv.org/abs/2101.11183v1 )

ライセンス: Link先を確認
Haipeng Li, Shuaicheng Liu, Jue Wang(参考訳) モバイルキャプチャ画像はジャイロスコープセンサーを使用して並べ替えることができます。 光画像安定化装置(OIS)は、撮影中に画像を調整することで、この可能性を終わらせる。 本研究では,OISカメラの映像アライメントにジャイロスコープを使用できるように,OISが引き起こす動きを補償するディープネットワークを提案する。 そのためには、まずビデオとジャイロスコープの両方をOISカメラでトレーニングデータとして記録します。 次にジャイロスコープの読みを運動場に変換する。 第2に, ローリングシャッターカメラにおいて, フレーム内回転の配列を接地ガイドとして抽出する基本混合運動モデルを提案する。 第3に, ジャイロスコープ動作を入力として畳み込みニューラルネットワークをトレーニングし, OIS動作を補償する。 完了すると、補正ネットワークを他のシーンに適用することができ、画像のアライメントは、画像コンテンツを必要としないジャイロスコープに基づいており、強い堅牢性を提供します。 実験の結果は,OIS以外のカメラと同等であり,画像ベースアライメントの精度は比較的高いことがわかった。

Mobile captured images can be aligned using their gyroscope sensors. Optical image stabilizer (OIS) terminates this possibility by adjusting the images during the capturing. In this work, we propose a deep network that compensates the motions caused by the OIS, such that the gyroscopes can be used for image alignment on the OIS cameras. To achieve this, first, we record both videos and gyroscopes with an OIS camera as training data. Then, we convert gyroscope readings into motion fields. Second, we propose a Fundamental Mixtures motion model for rolling shutter cameras, where an array of rotations within a frame are extracted as the ground-truth guidance. Third, we train a convolutional neural network with gyroscope motions as input to compensate for the OIS motion. Once finished, the compensation network can be applied for other scenes, where the image alignment is purely based on gyroscopes with no need for images contents, delivering strong robustness. Experiments show that our results are comparable with that of non-OIS cameras, and outperform image-based alignment results with a relatively large margin.
翻訳日:2021-02-01 19:38:08 公開日:2021-01-27
# コンピュータビジョンによる作物畑の自動監視

Automated Crop Field Surveillance using Computer Vision ( http://arxiv.org/abs/2101.11217v1 )

ライセンス: Link先を確認
Tejas Atul Khare and Anuradha C. Phadke(参考訳) 現在、人工知能は至る所にある。 しかし残念なことに、農業は人工知能(AI)からそれほど注目されることはなかった。 自動化の欠如は農業業界では続く。 長年にわたり、農家や畑主は、有効な解決策が提供されていない野生動物を不法侵入する問題に直面してきた。 フェンスやバリアのような構造の設置は、フィールドがカバーする広い領域のため、実現可能でも効率的でもない。 また、土地所有者が壁や障壁を構築する余裕があれば、建築壁のための政府の政策はしばしば非常に厄介です。 本論文は,コンピュータビジョンを用いた自動農耕地中監視問題に対する簡易な解決法を提案することを目的としている。 このソリューションは、毎年破壊される作物のコストを大幅に削減し、畑の安全を完全に自動化する。

Artificial Intelligence is everywhere today. But unfortunately, Agriculture has not been able to get that much attention from Artificial Intelligence (AI). A lack of automation persists in the agriculture industry. For over many years, farmers and crop field owners have been facing a problem of trespassing of wild animals for which no feasible solution has been provided. Installing a fence or barrier like structure is neither feasible nor efficient due to the large areas covered by the fields. Also, if the landowner can afford to build a wall or barrier, government policies for building walls are often very irksome. The paper intends to give a simple intelligible solution to the problem with Automated Crop Field Surveillance using Computer Vision. The solution will significantly reduce the cost of crops destroyed annually and completely automate the security of the field.
翻訳日:2021-02-01 19:37:30 公開日:2021-01-27
# MPEG-7を用いたNaive BayesとDecision Tree分類器の自動画像アノテーションベース

Automatic image annotation base on Naive Bayes and Decision Tree classifiers using MPEG-7 ( http://arxiv.org/abs/2101.11222v1 )

ライセンス: Link先を確認
Jafar Majidpour and Samer Kais Jameel(参考訳) 近年,デジタル画像の迅速な開発により,高解像度で効率的な画像の検索・検索が不可欠となり,高レベルの画像意味を表現し,低レベルの画像が特徴を表現できるような,大きな課題に直面する多くのアノテーションアルゴリズムが,セマンティック・ギャブ(semantic gab)として知られている。 この作業はMPEG-7標準を使用して画像から特徴を抽出し、色特徴はスケーラブルカラーディスクリプタ(SCD)とカラーレイアウトディスクリプタ(CLD)を使用して抽出されたが、テクスチャ特徴はエッジヒストグラムディスクリプタ(EHD)を使用して抽出されたため、CLDは高次元の特徴ベクトルを生成し、主成分分析(PCA)によって減少した。 これら3つの記述子によって抽出された特徴は、訓練のために分類器(ナイーブベイズと決定木)に渡される。 最後に、クエリ画像をアノテートした。 本研究では,TUDarmstadt画像バンクを用いた。 実験結果と比較性能評価の結果, 決定木分類と比較して, ネイブベイズ分類の精度と実行時間が改善された。

Recently it has become essential to search for and retrieve high-resolution and efficient images easily due to swift development of digital images, many present annotation algorithms facing a big challenge which is the variance for represent the image where high level represent image semantic and low level illustrate the features, this issue is known as semantic gab. This work has been used MPEG-7 standard to extract the features from the images, where the color feature was extracted by using Scalable Color Descriptor (SCD) and Color Layout Descriptor (CLD), whereas the texture feature was extracted by employing Edge Histogram Descriptor (EHD), the CLD produced high dimensionality feature vector therefore it is reduced by Principal Component Analysis (PCA). The features that have extracted by these three descriptors could be passing to the classifiers (Naive Bayes and Decision Tree) for training. Finally, they annotated the query image. In this study TUDarmstadt image bank had been used. The results of tests and comparative performance evaluation indicated better precision and executing time of Naive Bayes classification in comparison with Decision Tree classification.
翻訳日:2021-02-01 19:36:59 公開日:2021-01-27
# GaitGraph:Skeletonベースの歩行認識のためのグラフ畳み込みネットワーク

GaitGraph: Graph Convolutional Network for Skeleton-Based Gait Recognition ( http://arxiv.org/abs/2101.11228v1 )

ライセンス: Link先を確認
Torben Teepe, Ali Khan, Johannes Gilg, Fabian Herzog, Stefan H\"ormann, Gerhard Rigoll(参考訳) 歩行認識は、長い距離から個々の歩行パターンを識別するための有望なビデオベースのバイオメトリックです。 現在、ほとんどの歩行認識方法は、各フレームの人物を表すためにシルエット画像を使用します。 しかし、シルエット画像は細かい空間情報を失う可能性があり、ほとんどの論文はこれらのシルエットを複雑なシーンで取得する方法を考慮していない。 さらに、シルエット画像は歩行の特徴だけでなく、認識可能な視覚的手がかりも含んでいる。 したがって、これらのアプローチは厳格な歩行認識とは考えられない。 我々は,rgb画像から直接ロバストな骨格ポーズを推定するために,人間のポーズ推定の最近の進歩を活用して,よりクリーンな歩行表現を用いたモデルに基づく歩行認識を実現する。 そこで本論文では,スケルトンポーズとグラフ畳み込みネットワーク(GCN)を組み合わせた歩行認識のための現代的なモデルベースアプローチを提案する。 主な利点は、歩行機能のよりクリーンでよりエレガントな抽出とGCNを使用して強力な時空間モデリングを組み込む機能です。 一般的なcasia-b gaitデータセットを用いた実験では,モデルに基づく歩行認識における最先端の性能をアーカイブする。 コードとモデルは公開されている。

Gait recognition is a promising video-based biometric for identifying individual walking patterns from a long distance. At present, most gait recognition methods use silhouette images to represent a person in each frame. However, silhouette images can lose fine-grained spatial information, and most papers do not regard how to obtain these silhouettes in complex scenes. Furthermore, silhouette images contain not only gait features but also other visual clues that can be recognized. Hence these approaches can not be considered as strict gait recognition. We leverage recent advances in human pose estimation to estimate robust skeleton poses directly from RGB images to bring back model-based gait recognition with a cleaner representation of gait. Thus, we propose GaitGraph that combines skeleton poses with Graph Convolutional Network (GCN) to obtain a modern model-based approach for gait recognition. The main advantages are a cleaner, more elegant extraction of the gait features and the ability to incorporate powerful spatio-temporal modeling using GCN. Experiments on the popular CASIA-B gait dataset show that our method archives state-of-the-art performance in model-based gait recognition. The code and models are publicly available.
翻訳日:2021-02-01 19:36:18 公開日:2021-01-27
# Im2Mesh GAN: 単一のRGB画像から正確な3Dハンドメッシュの復元

Im2Mesh GAN: Accurate 3D Hand Mesh Recovery from a Single RGB Image ( http://arxiv.org/abs/2101.11239v1 )

ライセンス: Link先を確認
Akila Pemasiri, Kien Nguyen Thanh, Sridha Sridharan, Clinton Fookes(参考訳) この作業は、単一のRGBイメージからハンドメッシュリカバリに対処する。 パラメトリックハンドモデルが先行して採用されている既存のアプローチのほとんどとは対照的に、入力画像から直接ハンドメッシュを学ぶことができることを示す。 我々は、エンドツーエンドの学習を通してメッシュを学習するための新しいタイプのGANIm2Mesh GANを提案する。 メッシュをグラフとして解釈することで,メッシュ頂点間のトポロジカルな関係を捉えることができる。 また、GANアーキテクチャに3Dサーフェス記述子を導入し、関連する3D特徴をさらに捉える。 我々は、画像と対応するメッシュの基盤データ可用性の利点を享受できる2つのアプローチを実験し、もう1つは対応する基盤なしでメッシュ推定のより困難な問題に対処する。 広範な評価を通じて,提案手法が最先端技術よりも優れていることを示す。

This work addresses hand mesh recovery from a single RGB image. In contrast to most of the existing approaches where the parametric hand models are employed as the prior, we show that the hand mesh can be learned directly from the input image. We propose a new type of GAN called Im2Mesh GAN to learn the mesh through end-to-end adversarial training. By interpreting the mesh as a graph, our model is able to capture the topological relationship among the mesh vertices. We also introduce a 3D surface descriptor into the GAN architecture to further capture the 3D features associated. We experiment two approaches where one can reap the benefits of coupled groundtruth data availability of images and the corresponding meshes, while the other combats the more challenging problem of mesh estimations without the corresponding groundtruth. Through extensive evaluations we demonstrate that the proposed method outperforms the state-of-the-art.
翻訳日:2021-02-01 19:35:38 公開日:2021-01-27
# Bモード超音波舌画像を用いた畳み込みニューラルネットワークによる年齢推定

Convolutional Neural Network-Based Age Estimation Using B-Mode Ultrasound Tongue Image ( http://arxiv.org/abs/2101.11245v1 )

ライセンス: Link先を確認
Kele Xu and Tamas G\'abor Csap\'o and Ming Feng(参考訳) 超音波舌イメージングは音声生成研究に広く用いられており、視覚バイオフィードバックツール(visual biofeedback tool for second language acquisition)やサイレント音声インタフェース(silent speech interface)など、様々な分野においてその潜在的な応用が注目されている。 従来の研究とは異なり, 話者の超音波舌画像を用いた年齢推定の可能性について検討した。 深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。 UltraSuiteデータセット上で、深い畳み込みニューラルネットワークモデルをトレーニングします。 深層モデルでは, 典型的発達障害児のデータでは平均絶対誤差 (mae) が2.03 であり, 音声障害児では mae が 4.87 であり, 音声障害児では超音波による年齢推定がより困難であることが示唆された。 本手法は,音声療法の成績を評価するためのツールとして使用できる。 また, 超音波舌イメージングを応用しても, 提案手法は他の画像モード(例えば, 超音波舌画像)にも拡張可能であることに注意する必要がある。 MRI) 音声生成の研究を支援する。

Ultrasound tongue imaging is widely used for speech production research, and it has attracted increasing attention as its potential applications seem to be evident in many different fields, such as the visual biofeedback tool for second language acquisition and silent speech interface. Unlike previous studies, here we explore the feasibility of age estimation using the ultrasound tongue image of the speakers. Motivated by the success of deep learning, this paper leverages deep learning on this task. We train a deep convolutional neural network model on the UltraSuite dataset. The deep model achieves mean absolute error (MAE) of 2.03 for the data from typically developing children, while MAE is 4.87 for the data from the children with speech sound disorders, which suggest that age estimation using ultrasound is more challenging for the children with speech sound disorder. The developed method can be used a tool to evaluate the performance of speech therapy sessions. It is also worthwhile to notice that, although we leverage the ultrasound tongue imaging for our study, the proposed methods may also be extended to other imaging modalities (e.g. MRI) to assist the studies on speech production.
翻訳日:2021-02-01 19:35:04 公開日:2021-01-27
# e-ACJ:イベントカメラの正確なジャンクション抽出

e-ACJ: Accurate Junction Extraction For Event Cameras ( http://arxiv.org/abs/2101.11251v1 )

ライセンス: Link先を確認
Zhihao Liu, Yuqian Fu(参考訳) 接合は画像の重要な幾何学的構造情報を反映し、画像マッチングや動き解析などの応用において重要な意味を持つ。 従来のイベントベースの特徴抽出手法は、主に角に焦点を絞っているが、方向やエッジのスケールといった幾何学的構造情報を無視している。 本論文では、フレームベースのa-contrario junction detector (ACJ) をイベントデータに適応させ、イベントベースのa-contrario junction detector (e-ACJ) を提案する。 提案手法は,a-contrarioモデルに依存し,合成イベントフレームを生成することなく,非同期イベントを直接操作することができる。 公開イベントデータセットのパフォーマンスを評価します。 その結果,本手法は分岐位置の精度を保ちつつ,枝の向きとスケールの検出に成功した。

Junctions reflect the important geometrical structure information of the image, and are of primary significance to applications such as image matching and motion analysis. Previous event-based feature extraction methods are mainly focused on corners, which mainly find their locations, however, ignoring the geometrical structure information like orientations and scales of edges. This paper adapts the frame-based a-contrario junction detector(ACJ) to event data, proposing the event-based a-contrario junction detector(e-ACJ), which yields junctions' locations while giving the scales and orientations of their branches. The proposed method relies on an a-contrario model and can operate on asynchronous events directly without generating synthesized event frames. We evaluate the performance on public event datasets. The result shows our method successfully finds the orientations and scales of branches, while maintaining high accuracy in junction's location.
翻訳日:2021-02-01 19:34:23 公開日:2021-01-27
# Deep Image Retrieval: A Survey

Deep Image Retrieval: A Survey ( http://arxiv.org/abs/2101.11282v1 )

ライセンス: Link先を確認
Wei Chen, Yu Liu, Weiping Wang, Erwin Bakker, Theodoros Georgiou, Paul Fieguth, Li Liu, and Michael S. Lew(参考訳) 近年,ソーシャルメディアプラットフォームや医療画像,ロボット工学など,さまざまな分野から膨大な量の視覚コンテンツが生成され,共有されている。 このコンテンツ作成と共有の多さは、新たな課題をもたらしている。 特に、類似したコンテンツ、すなわちデータベースを検索する。 コンテントベース画像検索(CBIR)は,古くからある研究領域であり,リアルタイム検索にはより効率的かつ正確な手法が必要である。 人工知能はCBIRで進歩し、インテリジェント検索のプロセスを大幅に促進しました。 本稿では,最近の論文からの洞察や技術を含む,ディープラーニングアルゴリズムと手法に基づいて開発された最近のcbir研究を整理・レビューする。 我々は,広く使用されているデータベース,ベンチマーク,評価方法を特定し,提示する。 我々は共通の課題を集め、将来有望な方向性を提案する。 具体的には,ディープラーニングによる画像検索に着目し,深層ネットワーク構造,深部機能,機能強化手法,ネットワーク微細調整戦略のタイプに応じて,技術手法の状態を整理する。 本調査は,近年の多種多様な手法を考察し,カテゴリーベースcbirのグローバルビューの促進を目的としている。

In recent years a vast amount of visual content has been generated and shared from various fields, such as social media platforms, medical images, and robotics. This abundance of content creation and sharing has introduced new challenges. In particular, searching databases for similar content, i.e. content based image retrieval (CBIR), is a long-established research area, and more efficient and accurate methods are needed for real time retrieval. Artificial intelligence has made progress in CBIR and has significantly facilitated the process of intelligent search. In this survey we organize and review recent CBIR works that are developed based on deep learning algorithms and techniques, including insights and techniques from recent papers. We identify and present the commonly-used databases, benchmarks, and evaluation methods used in the field. We collect common challenges and propose promising future directions. More specifically, we focus on image retrieval with deep learning and organize the state of the art methods according to the types of deep network structure, deep features, feature enhancement methods, and network fine-tuning strategies. Our survey considers a wide variety of recent methods, aiming to promote a global view of the field of category-based CBIR.
翻訳日:2021-02-01 19:33:49 公開日:2021-01-27
# エッジラベルによるFew-shot学習のためのダイレクトグラフネットワーク

Edge-Labeling based Directed Gated Graph Network for Few-shot Learning ( http://arxiv.org/abs/2101.11299v1 )

ライセンス: Link先を確認
Peixiao Zheng, Xin Guo, Lin Qi(参考訳) 既存のグラフネットワークに基づく少数ショット学習手法は,畳み込みニューラルネットワーク(CNN)を用いてノード間の類似性を求める。 しかし、CNNはベクトル形式ノードの特徴ではなく、空間情報を持つ画像データのために設計されている。 本稿では,ノード間の類似性を暗黙的に更新するゲート再帰単位を用いて,エッジラベルに基づく有向グラフネットワーク(DGGN)を提案する。 DGGNはゲートノード集約モジュールと改良されたゲートリカレントユニット(GRU)ベースのエッジ更新モジュールで構成される。 具体的には、ノード更新モジュールはエッジ機能をアクティベートしたゲート機構を採用し、学習可能なノード集約プロセスを作成する。 さらに、改良されたGRUセルはエッジ更新手順でノード間の類似性を計算する。 さらに、この機構は、層をまたがるgru配列を介して勾配バックプロパゲーションに有用である。 2つのベンチマークデータセットで実験した結果、DGGNは最先端のメソッドと同等のパフォーマンスを達成しています。

Existing graph-network-based few-shot learning methods obtain similarity between nodes through a convolution neural network (CNN). However, the CNN is designed for image data with spatial information rather than vector form node feature. In this paper, we proposed an edge-labeling-based directed gated graph network (DGGN) for few-shot learning, which utilizes gated recurrent units to implicitly update the similarity between nodes. DGGN is composed of a gated node aggregation module and an improved gated recurrent unit (GRU) based edge update module. Specifically, the node update module adopts a gate mechanism using activation of edge feature, making a learnable node aggregation process. Besides, improved GRU cells are employed in the edge update procedure to compute the similarity between nodes. Further, this mechanism is beneficial to gradient backpropagation through the GRU sequence across layers. Experiment results conducted on two benchmark datasets show that our DGGN achieves a comparable performance to the-state-of-art methods.
翻訳日:2021-02-01 19:33:12 公開日:2021-01-27
# 微分可能なニューラルアーキテクチャ探索の一貫性,効率,柔軟性向上に向けて

Towards Improving the Consistency, Efficiency, and Flexibility of Differentiable Neural Architecture Search ( http://arxiv.org/abs/2101.11342v1 )

ライセンス: Link先を確認
Yibo Yang, Shan You, Hongyang Li, Fei Wang, Chen Qian, Zhouchen Lin(参考訳) 最も微分可能なニューラルアーキテクチャ探索法は、探索用のスーパーネットを構築し、そのサブグラフとしてターゲットネットを導出する。 検索と評価のアーキテクチャの間には、大きなギャップがある。 その結果、現在の手法は不整合、非効率、非フレキシブルな探索プロセスに悩まされている。 本稿では、エンジンセルとトランジットセルからなるEnTranNASについて紹介する。 エンジンセルはアーキテクチャ探索において微分可能であり、トランジットセルはアーキテクチャの導出によってのみサブグラフを転送する。 その結果、検索と評価におけるアーキテクチャ間のギャップは大幅に減少する。 また,検索処理の高速化を図るため,メモリや計算コストの削減も図っている。 よりバランスのとれた最適化とより効率的な検索のために機能共有戦略が導入された。 さらに、手づくりのルールに基づいた伝統的なものを置き換えるアーキテクチャ導出法も開発しています。 本手法は微分可能なスパーシフィケーションを可能にし,派生したアーキテクチャをエンジンセルと同等に保ち,検索と評価の一貫性をさらに向上させる。 さらに、ノードが複数のコネクションを持つ前のノードと接続できるトポロジーの検索もサポートするので、検索されたアーキテクチャをより柔軟にすることができる。 CIFAR-10の実験では、標準空間での検索はわずか0.06 GPU-dayである。 さらに、拡張スペースでの検索では、エラーレートが2.22%、GPUが0.07日です。 また、ImageNet上でトポロジを学習可能で直接検索でき、2.1GPU日でトップ1エラー率23.8%を達成することができる。

Most differentiable neural architecture search methods construct a super-net for search and derive a target-net as its sub-graph for evaluation. There exists a significant gap between the architectures in search and evaluation. As a result, current methods suffer from an inconsistent, inefficient, and inflexible search process. In this paper, we introduce EnTranNAS that is composed of Engine-cells and Transit-cells. The Engine-cell is differentiable for architecture search, while the Transit-cell only transits a sub-graph by architecture derivation. Consequently, the gap between the architectures in search and evaluation is significantly reduced. Our method also spares much memory and computation cost, which speeds up the search process. A feature sharing strategy is introduced for more balanced optimization and more efficient search. Furthermore, we develop an architecture derivation method to replace the traditional one that is based on a hand-crafted rule. Our method enables differentiable sparsification, and keeps the derived architecture equivalent to that of Engine-cell, which further improves the consistency between search and evaluation. Besides, it supports the search for topology where a node can be connected to prior nodes with any number of connections, so that the searched architectures could be more flexible. For experiments on CIFAR-10, our search on the standard space requires only 0.06 GPU-day. We further have an error rate of 2.22% with 0.07 GPU-day for the search on an extended space. We can also directly perform the search on ImageNet with topology learnable and achieve a top-1 error rate of 23.8% in 2.1 GPU-day.
翻訳日:2021-02-01 19:32:36 公開日:2021-01-27
# 入力変換、防御摂動、投票による敵対的事例の検出

Detecting Adversarial Examples by Input Transformations, Defense Perturbations, and Voting ( http://arxiv.org/abs/2101.11466v1 )

ライセンス: Link先を確認
Federico Nesti, Alessandro Biondi, Giorgio Buttazzo(参考訳) ここ数年、畳み込みニューラルネットワーク(CNN)は視覚認識タスクで超人的なパフォーマンスを達成しています。 しかし、CNNは敵対的な例、すなわちネットワークが正しい出力を予測しているものと非常に類似している間、間違った出力を予測するように強制する悪意のある製造された画像によって容易にだまされる。 通常の逆数例は入力画像変換に対して堅牢ではないため、逆数例がネットワークに提示されているかどうかを検出できる。 それでも、そのような変換に対して堅牢な逆例を生成することは可能である。 本稿では,画像変換による攻撃例の検出を広範囲に検討し,同じ入力変換を持つ強固な攻撃例を検出するための新しい手法である \textit{ defense perturbation} を提案する。 このような \textit{defense perturbation} は、堅牢な敵対例に対する効果的な対策であることが示されている。 さらに、マルチネットワークの逆の例も紹介する。 この種の敵対的な例は、複数のCNNに対して多数票を投じたアーキテクチャに基づくような、ネットワーク冗長性を使用するシステムにおいて重要な、複数のネットワークを同時に騙すために使用することができる。 imagenetデータセットでトレーニングされた最先端cnnに基づく広範な実験が、ついに報告された。

Over the last few years, convolutional neural networks (CNNs) have proved to reach super-human performance in visual recognition tasks. However, CNNs can easily be fooled by adversarial examples, i.e., maliciously-crafted images that force the networks to predict an incorrect output while being extremely similar to those for which a correct output is predicted. Regular adversarial examples are not robust to input image transformations, which can then be used to detect whether an adversarial example is presented to the network. Nevertheless, it is still possible to generate adversarial examples that are robust to such transformations. This paper extensively explores the detection of adversarial examples via image transformations and proposes a novel methodology, called \textit{defense perturbation}, to detect robust adversarial examples with the same input transformations the adversarial examples are robust to. Such a \textit{defense perturbation} is shown to be an effective counter-measure to robust adversarial examples. Furthermore, multi-network adversarial examples are introduced. This kind of adversarial examples can be used to simultaneously fool multiple networks, which is critical in systems that use network redundancy, such as those based on architectures with majority voting over multiple CNNs. An extensive set of experiments based on state-of-the-art CNNs trained on the Imagenet dataset is finally reported.
翻訳日:2021-02-01 19:31:54 公開日:2021-01-27
# 騒音モデリングによるテキスト分類におけるラベルノイズのロバスト性

Towards Robustness to Label Noise in Text Classification via Noise Modeling ( http://arxiv.org/abs/2101.11214v1 )

ライセンス: Link先を確認
Siddhant Garg, Goutham Ramakrishnan, Varun Thumbe(参考訳) NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。 ラベル雑音を伴うテキスト分類の問題点について検討し,この雑音を分類器上の補助雑音モデルを用いて捉えることを目的としている。 まず,学習開始直後の損失に適応したベータ混合モデルを用いて,ノイズラベルを持つ各トレーニングサンプルに確率スコアを割り当てる。 そして,このスコアを用いて,雑音モデルと分類器の学習を選択的に指導する。 2つのテキスト分類タスクについて経験的評価を行った結果,本手法はベースラインの精度を向上し,ノイズに対する過剰フィットを防止できることがわかった。

Large datasets in NLP suffer from noisy labels, due to erroneous automatic and human annotation procedures. We study the problem of text classification with label noise, and aim to capture this noise through an auxiliary noise model over the classifier. We first assign a probability score to each training sample of having a noisy label, through a beta mixture model fitted on the losses at an early epoch of training. Then, we use this score to selectively guide the learning of the noise model and classifier. Our empirical evaluation on two text classification tasks shows that our approach can improve over the baseline accuracy, and prevent over-fitting to the noise.
翻訳日:2021-02-01 19:29:54 公開日:2021-01-27
# マルチタスク問題としての言語モデリング

Language Modelling as a Multi-Task Problem ( http://arxiv.org/abs/2101.11287v1 )

ライセンス: Link先を確認
Lucas Weber, Jaap Jumelet, Elia Bruni and Dieuwke Hupkes(参考訳) 本稿では,マルチタスク問題としての言語モデリングについて検討し,マルチタスク学習,言語学,解釈可能性という3つの研究をまとめる。 言語理論から導き出された仮説に基づき,学習中のマルチタスク学習の学習原理に言語モデルが従うかを検討する。 そこで本研究では,ネガティブ極性項目(NPI)の言語概念を学習する上で,言語モデルの一般化挙動を解析する。 我々の実験は、マルチタスク設定が言語モデリングのより一般的なタスクの目的の中に自然に現れることを実証し、この洞察はマルチタスク学習、言語学、解釈可能性研究に有用であり、3つの領域すべてにおいてエキサイティングな新しい発見をもたらす可能性があると主張している。

In this paper, we propose to study language modelling as a multi-task problem, bringing together three strands of research: multi-task learning, linguistics, and interpretability. Based on hypotheses derived from linguistic theory, we investigate whether language models adhere to learning principles of multi-task learning during training. To showcase the idea, we analyse the generalisation behaviour of language models as they learn the linguistic concept of Negative Polarity Items (NPIs). Our experiments demonstrate that a multi-task setting naturally emerges within the objective of the more general task of language modelling.We argue that this insight is valuable for multi-task learning, linguistics and interpretability research and can lead to exciting new findings in all three domains.
翻訳日:2021-02-01 19:29:23 公開日:2021-01-27
# 野生の逆スタイロメトリー:著者のプロファイリングに関する移動可能なレキシカル置換攻撃

Adversarial Stylometry in the Wild: Transferable Lexical Substitution Attacks on Author Profiling ( http://arxiv.org/abs/2101.11310v1 )

ライセンス: Link先を確認
Chris Emmery, \'Akos K\'ad\'ar, Grzegorz Chrupa{\l}a(参考訳) テキスト言語には、様々な潜在的に敏感な著者情報を自動推論するために利用されるスタイル的な手がかりが含まれている。 敵対的スタイメトグラフィーは、著者のテキストを書き換えることでそのようなモデルを攻撃しようとする。 本研究は,データもターゲットモデルもアクセスできない野生環境において,これらの敵攻撃の展開を容易にするいくつかのコンポーネントを提案する。 レキシカル交換攻撃のトランスベースの拡張を導入し、弱いラベル付きコーパスで訓練された際に高い転送性を達成し、ターゲットモデルのパフォーマンスを確率以下で低下させる。 完全に目立たないわけではないが、我々のより成功した攻撃は、人間による検出が著しく少ないことも示している。 したがって、我々のフレームワークは将来のプライバシー保護の敵攻撃に対して有望な方向を提供する。

Written language contains stylistic cues that can be exploited to automatically infer a variety of potentially sensitive author information. Adversarial stylometry intends to attack such models by rewriting an author's text. Our research proposes several components to facilitate deployment of these adversarial attacks in the wild, where neither data nor target models are accessible. We introduce a transformer-based extension of a lexical replacement attack, and show it achieves high transferability when trained on a weakly labeled corpus -- decreasing target model performance below chance. While not completely inconspicuous, our more successful attacks also prove notably less detectable by humans. Our framework therefore provides a promising direction for future privacy-preserving adversarial attacks.
翻訳日:2021-02-01 19:28:48 公開日:2021-01-27
# スポンサー付き検索オークションのための三角形バイドワード生成

Triangular Bidword Generation for Sponsored Search Auction ( http://arxiv.org/abs/2101.11349v1 )

ライセンス: Link先を確認
Zhenqiao Song, Jiaze Chen, Hao Zhou and Lei Li(参考訳) スポンサー検索オークションは、現代の検索エンジンの重要なコンポーネントです。 広告主が入札できる候補入札語をセットする必要がある。 既存の方法は検索クエリや広告コンテンツから入札語を生成する。 しかし、<query, bidword> と <advertisement, bidword> のペアのデータノイズに苦しんでいます。 本論文では,対数<query, ad>の高品質なデータを,間接的に入札語生成プロセスを導くための監督信号として取得する三角入札語生成モデル(TRIDENT)を提案する。 提案手法は,検索クエリと広告の間のブリッジとして入札語を用いることで,三角トレーニングフレームワークで検索クエリ,広告,入札語の生成を共同で学習することができる。 これにより、 bidword のトレーニングデータが騒がしいという問題を軽減します。 自動評価や人的評価を含む実験結果から,提案したTRIDENTは検索クエリと広告の両方に対して,関連性および多種多様な入札語を生成できることが示唆された。 オンライン実データによる評価は、TRIDENTが生成した製品検索のための入札語の有効性を検証します。

Sponsored search auction is a crucial component of modern search engines. It requires a set of candidate bidwords that advertisers can place bids on. Existing methods generate bidwords from search queries or advertisement content. However, they suffer from the data noise in <query, bidword> and <advertisement, bidword> pairs. In this paper, we propose a triangular bidword generation model (TRIDENT), which takes the high-quality data of paired <query, advertisement> as a supervision signal to indirectly guide the bidword generation process. Our proposed model is simple yet effective: by using bidword as the bridge between search query and advertisement, the generation of search query, advertisement and bidword can be jointly learned in the triangular training framework. This alleviates the problem that the training data of bidword may be noisy. Experimental results, including automatic and human evaluations, show that our proposed TRIDENT can generate relevant and diverse bidwords for both search queries and advertisements. Our evaluation on online real data validates the effectiveness of the TRIDENT's generated bidwords for product search.
翻訳日:2021-02-01 19:28:17 公開日:2021-01-27
# FedH2L: モデルと統計的不均一性によるフェデレーション学習

FedH2L: Federated Learning with Model and Statistical Heterogeneity ( http://arxiv.org/abs/2101.11296v1 )

ライセンス: Link先を確認
Yiying Li, Wei Zhou, Huaimin Wang, Haibo Mi, Timothy M. Hospedales(参考訳) フェデレーションラーニング(FL)により、分散参加者は個々のデータプライバシーを犠牲にすることなく、強力なグローバルモデルを集合的に学習できます。 メインストリームのFLアプローチでは、各参加者が共通のネットワークアーキテクチャを共有し、さらに参加者間でデータをサンプルIDと仮定する必要がある。 しかし、現実世界のデプロイメントでは、参加者は異種ネットワークアーキテクチャを必要とするかもしれません。 これらの問題に対処するために、モデルアーキテクチャに非依存で、参加者間で異なるデータ分散に堅牢なFedH2Lを紹介します。 パラメータや勾配を共有するアプローチとは対照的に、FedH2Lは相互蒸留に依存し、参加者間で共有シードセットの後方のみを分散的に交換する。 これにより、非常に帯域幅効率が高く、モデルに依存しず、異種サイロから学習する際にデータ分布全体でうまく機能するモデルを生成することができます。

Federated learning (FL) enables distributed participants to collectively learn a strong global model without sacrificing their individual data privacy. Mainstream FL approaches require each participant to share a common network architecture and further assume that data are are sampled IID across participants. However, in real-world deployments participants may require heterogeneous network architectures; and the data distribution is almost certainly non-uniform across participants. To address these issues we introduce FedH2L, which is agnostic to both the model architecture and robust to different data distributions across participants. In contrast to approaches sharing parameters or gradients, FedH2L relies on mutual distillation, exchanging only posteriors on a shared seed set between participants in a decentralized manner. This makes it extremely bandwidth efficient, model agnostic, and crucially produces models capable of performing well on the whole data distribution when learning from heterogeneous silos.
翻訳日:2021-02-01 19:27:42 公開日:2021-01-27
# ナレッジグラフを用いたフェーショット学習におけるコンバットデータシフト

Combat Data Shift in Few-shot Learning with Knowledge Graph ( http://arxiv.org/abs/2101.11354v1 )

ライセンス: Link先を確認
Yongchun zhu, Fuzhen Zhuang, Xiangliang Zhang, Zhiyuan Qi, Zhiping Shi and Qing He(参考訳) 多くの数ショット学習アプローチはメタラーニングフレームワークの下で設計されており、さまざまな学習タスクから学び、新しいタスクに一般化します。 これらのメタラーニングアプローチは、すべてのサンプルが同じ分布(すなわちd)から引き出されるシナリオで期待されるパフォーマンスを実現する。 観察)。 しかし、現実世界のアプリケーションでは、少ないショット学習パラダイムはデータシフトに苦しむことが少なく、例えば、同じタスクでも異なるタスクのサンプルは、さまざまなデータ分散から引き出すことができる。 既存の数ショット学習アプローチのほとんどは、データシフトを考慮して設計されていないため、データ分散が変化するとパフォーマンスが低下します。 しかしながら、各タスクのラベル付きサンプル数が限られているため、少ないショット学習でデータシフト問題に対処するのは自明ではない。 この問題に対処するために,知識グラフの助けを借りて,タスク固有表現とタスク共有表現を抽出するメタラーニングフレームワークを提案する。 したがって、タスク内/タスク間のデータシフトは、タスク共有表現とタスク固有表現の組み合わせによって対処できる。 提案モデルは、人気のあるベンチマークと2つの新しい挑戦的データセットで評価される。 評価結果は顕著な性能を示した。

Many few-shot learning approaches have been designed under the meta-learning framework, which learns from a variety of learning tasks and generalizes to new tasks. These meta-learning approaches achieve the expected performance in the scenario where all samples are drawn from the same distributions (i.i.d. observations). However, in real-world applications, few-shot learning paradigm often suffers from data shift, i.e., samples in different tasks, even in the same task, could be drawn from various data distributions. Most existing few-shot learning approaches are not designed with the consideration of data shift, and thus show downgraded performance when data distribution shifts. However, it is non-trivial to address the data shift problem in few-shot learning, due to the limited number of labeled samples in each task. Targeting at addressing this problem, we propose a novel metric-based meta-learning framework to extract task-specific representations and task-shared representations with the help of knowledge graph. The data shift within/between tasks can thus be combated by the combination of task-shared and task-specific representations. The proposed model is evaluated on popular benchmarks and two constructed new challenging datasets. The evaluation results demonstrate its remarkable performance.
翻訳日:2021-02-01 19:27:04 公開日:2021-01-27
# コンテキストの知恵: コンテキスト異常検出のためのアクティブアンサンブル学習

Wisdom of the Contexts: Active Ensemble Learning for Contextual Anomaly Detection ( http://arxiv.org/abs/2101.11560v1 )

ライセンス: Link先を確認
Ece Calikus, Slawomir Nowaczyk, Mohamed-Rafik Bouguelia, and Onur Dikmen(参考訳) 文脈異常検出(CAD)では、オブジェクトは特定のコンテキスト内でのみ異常と見なされる。 CADの既存のほとんどのメソッドは、ユーザー指定のコンテキスト機能に基づいて単一のコンテキストを使用します。 しかし、適切なコンテキストを特定することは、実際には、特にデータセットでは、多数の属性で非常に困難です。 さらに、現実世界のシステムでは、異なる文脈で発生する複数の異常が存在するため、それらを明らかにするためにいくつかの「有用な」コンテキストを組み合わせる必要がある。 本研究では,アクティブラーニングとアンサンブルを用いて,真の文脈属性や行動属性が不明な状況において,複雑な文脈異常を効果的に検出する。 機能セットからコンテキストを自動的に生成する WisCon (Wisdom of the Contexts) と呼ばれる新しいアプローチを提案する。 提案手法は,すべての有用なコンテキストが等しく同じではないという仮定に基づいて,重要度スコアの異なる複数のコンテキストのアンサンブルを構築する。 実験によると、WisConは7つのデータセットの異なるカテゴリ(すなわち、アクティブな分類器、教師なしのコンテキストおよび非コンテキスト異常検出器、および教師付き分類器)の既存のベースラインを大幅に上回っている。 さらに,この結果から,すべての文脈異常をうまく解明できる完全コンテキストが存在しないという最初の仮説が支持され,複数の文脈の"wisdom"を活用することが求められた。

In contextual anomaly detection (CAD), an object is only considered anomalous within a specific context. Most existing methods for CAD use a single context based on a set of user-specified contextual features. However, identifying the right context can be very challenging in practice, especially in datasets, with a large number of attributes. Furthermore, in real-world systems, there might be multiple anomalies that occur in different contexts and, therefore, require a combination of several "useful" contexts to unveil them. In this work, we leverage active learning and ensembles to effectively detect complex contextual anomalies in situations where the true contextual and behavioral attributes are unknown. We propose a novel approach, called WisCon (Wisdom of the Contexts), that automatically creates contexts from the feature set. Our method constructs an ensemble of multiple contexts, with varying importance scores, based on the assumption that not all useful contexts are equally so. Experiments show that WisCon significantly outperforms existing baselines in different categories (i.e., active classifiers, unsupervised contextual and non-contextual anomaly detectors, and supervised classifiers) on seven datasets. Furthermore, the results support our initial hypothesis that there is no single perfect context that successfully uncovers all kinds of contextual anomalies, and leveraging the "wisdom" of multiple contexts is necessary.
翻訳日:2021-02-01 19:26:25 公開日:2021-01-27
# シゾフェニックスの脳波スペクトル画像のメタラーニング

Meta-learning on Spectral Images of Electroencephalogram of Schizophenics ( http://arxiv.org/abs/2101.12208v1 )

ライセンス: Link先を確認
Maritza Tynes, Mahboobeh Parsapoor(参考訳) 統合失調症は、思考パターン、知覚、気分、行動の変化を含む複雑な精神疾患である。 統合失調症の診断は困難であり、患者は少なくとも1ヶ月は2つ以上の陽性症状を示さなければならない。 この衰弱障害の同定の遅延は、多くの必要な治療を受ける患者の能力を妨げる可能性があります。 ニューロイメージングと機械学習アルゴリズムの進歩は統合失調症の診断を容易にし、臨床医が病気の正確な診断を提供するのに役立つ。 本稿では,統合失調症患者の脳波スペクトル像を畳み込みニューラルネットワークを用いて解析する手法を提案する。 また、Model-Agnostic Meta-LearningとPrototypical Networkを用いた正確な分類器の開発についても説明します。 このような分類器は、統合失調症患者を脳活動に基づいて健康な制御から区別する能力を有する。

Schizophrenia is a complex psychiatric disorder involving changes in thought patterns, perception, mood, and behavior. The diagnosis of schizophrenia is challenging and requires that patients show two or more positive symptoms for at least one month. Delays in identifying this debilitating disorder can impede a patient ability to receive much needed treatment. Advances in neuroimaging and machine learning algorithms can facilitate the diagnosis of schizophrenia and help clinicians to provide an accurate diagnosis of the disease. This paper presents a methodology for analyzing spectral images of Electroencephalograp hy collected from patients with schizophrenia using convolutional neural networks. It also explains how we have developed accurate classifiers employing Model-Agnostic Meta-Learning and prototypical networks. Such classifiers have the capacity to distinguish people with schizophrenia from healthy controls based on their brain activity.
翻訳日:2021-02-01 19:25:06 公開日:2021-01-27
# 時空間相互相互作用プロセスを用いた太陽放射異常事象のモデル化

Solar Radiation Anomaly Events Modeling Using Spatial-Temporal Mutually Interactive Processes ( http://arxiv.org/abs/2101.11179v1 )

ライセンス: Link先を確認
Minghe Zhang, Chen Xu, Andy Sun, Feng Qiu, Yao Xie(参考訳) 太陽事象のモデル化と予測、特に太陽ランプ現象は、太陽光発電システムの状況認識を改善するために重要である。 太陽ランプイベントは、気温、湿度、雲の密度などの気象条件によって大きく影響されます。 システムが複雑でノイズの多いため、異なる場所と時間間の相関を見つけることは極めて難しい作業である。 本稿では,空間時系列太陽放射データから,時空間相互作用ベルヌーリ過程をモデル化,予測する新しい手法を提案する。 実際の太陽放射データセットに対するアプローチの優れたパフォーマンスを実証します。

Modeling and predicting solar events, in particular, the solar ramping event is critical for improving situational awareness for solar power generation systems. Solar ramping events are significantly impacted by weather conditions such as temperature, humidity, and cloud density. Discovering the correlation between different locations and times is a highly challenging task since the system is complex and noisy. We propose a novel method to model and predict ramping events from spatial-temporal sequential solar radiation data based on a spatio-temporal interactive Bernoulli process. We demonstrate the good performance of our approach on real solar radiation datasets.
翻訳日:2021-02-01 19:23:49 公開日:2021-01-27
# supervised tree-wasserstein distance

Supervised Tree-Wasserstein Distance ( http://arxiv.org/abs/2101.11520v1 )

ライセンス: Link先を確認
Yuki Takezawa, Ryoma Sato, Makoto Yamada(参考訳) 文書の類似性を測定するために、wasserstein距離は強力なツールであるが、高い計算コストを必要とする。 近年,wasserstein距離の高速計算のために,ツリーメトリックを用いたwasserstein距離近似法が提案されている。 これらの木ベースの手法は多数の文書を高速に比較することができるが、教師なしでありタスク固有の距離を学習しない。 本研究では,木距離に基づく高速で教師付きメトリック学習法であるSupervised Tree-Wasserstein (STW) 距離を提案する。 具体的には、ツリーの親子関係によって、ツリーメトリック上のWasserstein距離を書き換え、コントラスト損失を用いた連続最適化問題として定式化します。 実験により, stw距離を高速に計算できることを示し, 文書分類タスクの精度を向上させる。 さらに、stw距離は行列乗算によって定式化され、gpu上で動作し、バッチ処理に適している。 したがって,大量の文書を比較する場合,stw距離は極めて効率的であることを示す。

To measure the similarity of documents, the Wasserstein distance is a powerful tool, but it requires a high computational cost. Recently, for fast computation of the Wasserstein distance, methods for approximating the Wasserstein distance using a tree metric have been proposed. These tree-based methods allow fast comparisons of a large number of documents; however, they are unsupervised and do not learn task-specific distances. In this work, we propose the Supervised Tree-Wasserstein (STW) distance, a fast, supervised metric learning method based on the tree metric. Specifically, we rewrite the Wasserstein distance on the tree metric by the parent-child relationships of a tree, and formulate it as a continuous optimization problem using a contrastive loss. Experimentally, we show that the STW distance can be computed fast, and improves the accuracy of document classification tasks. Furthermore, the STW distance is formulated by matrix multiplications, runs on a GPU, and is suitable for batch processing. Therefore, we show that the STW distance is extremely efficient when comparing a large number of documents.
翻訳日:2021-02-01 19:23:21 公開日:2021-01-27
# tf_geometricを用いたTensorFlowのグラフ深層学習

Efficient Graph Deep Learning in TensorFlow with tf_geometric ( http://arxiv.org/abs/2101.11552v1 )

ライセンス: Link先を確認
Jun Hu, Shengsheng Qian, Quan Fang, Youze Wang, Quan Zhao, Huaiwen Zhang, Changsheng Xu(参考訳) TensorFlow 1.xと2.xの両方と互換性のあるグラフディープラーニングのための効率的でフレンドリーなライブラリであるtf_geometricを紹介します。 tf_geometricは、グラフニューラルネットワーク(GNN)を構築するためのカーネルライブラリと、人気のあるGNNの実装を提供します。 カーネルライブラリは、グラフデータ構造、グラフマップリデュースフレームワーク、グラフミニバッチ戦略など、効率的なGNNを構築するためのインフラストラクチャで構成されています。 これらのインフラストラクチャにより、tf_geometricはシングルグラフ計算、マルチグラフ計算、グラフミニバッチ、分散トレーニングなどをサポートする。 したがって、tf_geometricは、トランスダクティブノード分類、インダクティブノード分類、リンク予測、グラフ分類など、さまざまなグラフ深層学習タスクに使用できる。 カーネルライブラリに基づいて、tf_geometricはさまざまなタスクにさまざまな人気のあるGNNモデルを実装します。 GNNの実装を容易にするため、tf_geometricはデータセット管理やグラフサンプリングなどのライブラリも提供している。 既存の一般的なgnnライブラリとは異なり、tf_geometricはオブジェクト指向プログラミング(oop)apiだけでなく、tf_geometricがグラフメタラーニングのような高度なグラフディープラーニングタスクを処理するための機能apiも提供する。 tf_geometricのAPIはフレンドリーで、初心者と専門家の両方に適しています。 本稿ではまず,tf_geometric のフレームワークの概要を紹介する。 そして、いくつかのベンチマークデータセットの実験を行い、tf_geometricによって実装されたいくつかの人気のあるGNNモデルの性能を報告する。

We introduce tf_geometric, an efficient and friendly library for graph deep learning, which is compatible with both TensorFlow 1.x and 2.x. tf_geometric provides kernel libraries for building Graph Neural Networks (GNNs) as well as implementations of popular GNNs. The kernel libraries consist of infrastructures for building efficient GNNs, including graph data structures, graph map-reduce framework, graph mini-batch strategy, etc. These infrastructures enable tf_geometric to support single-graph computation, multi-graph computation, graph mini-batch, distributed training, etc.; therefore, tf_geometric can be used for a variety of graph deep learning tasks, such as transductive node classification, inductive node classification, link prediction, and graph classification. Based on the kernel libraries, tf_geometric implements a variety of popular GNN models for different tasks. To facilitate the implementation of GNNs, tf_geometric also provides some other libraries for dataset management, graph sampling, etc. Different from existing popular GNN libraries, tf_geometric provides not only Object-Oriented Programming (OOP) APIs, but also Functional APIs, which enable tf_geometric to handle advanced graph deep learning tasks such as graph meta-learning. The APIs of tf_geometric are friendly, and they are suitable for both beginners and experts. In this paper, we first present an overview of tf_geometric's framework. Then, we conduct experiments on some benchmark datasets and report the performance of several popular GNN models implemented by tf_geometric.
翻訳日:2021-02-01 19:22:43 公開日:2021-01-27
# アクティブラーニングにおける統計的バイアスについて:その修正の方法とタイミング

On Statistical Bias In Active Learning: How and When To Fix It ( http://arxiv.org/abs/2101.11665v1 )

ライセンス: Link先を確認
Sebastian Farquhar, Yarin Gal, Tom Rainforth(参考訳) アクティブラーニングは、データラベリングが高価である場合の強力なツールであるが、トレーニングデータが人口分布に従わないため、バイアスをもたらす。 このバイアスを形式化し、有害であり、時には役に立つ状況を調査します。 さらに,新たな補正重みを導入して,バイアスを取り除くことが有益である。 これを通じて,本研究は,アクティブラーニングアプローチを改善する有用なメカニズムを提供するだけでなく,このバイアスを無視する様々な既存アプローチの実証的成功を説明する。 特に、このバイアスは、比較的少ないデータで過度にパラメータ化されたモデル(例えばニューラルネットワーク)をトレーニングするときに有効であることを示す。

Active learning is a powerful tool when labelling data is expensive, but it introduces a bias because the training data no longer follows the population distribution. We formalize this bias and investigate the situations in which it can be harmful and sometimes even helpful. We further introduce novel corrective weights to remove bias when doing so is beneficial. Through this, our work not only provides a useful mechanism that can improve the active learning approach, but also an explanation of the empirical successes of various existing approaches which ignore this bias. In particular, we show that this bias can be actively helpful when training overparameterized models -- like neural networks -- with relatively little data.
翻訳日:2021-02-01 19:21:58 公開日:2021-01-27
# マルチデポットagv支援複合棚倉庫における統合注文バッチとルーティングの定式化と解法

Formulating and solving integrated order batching and routing in multi-depot AGV-assisted mixed-shelves warehouses ( http://arxiv.org/abs/2101.11473v1 )

ライセンス: Link先を確認
Lin Xie, Hanyi Li and Laurin Luttmann(参考訳) さまざまな小売および電子商取引企業は、シングルライン注文とマルチライン注文の両方を含む多数の時間クリティカルなピッキング注文を組み立てるという課題に直面しています。 従来のピッカーツーパートウェアハウスシステムのように非生産的なピッカー作業時間を短縮するため、文献および実際において異なる解決策が提案されている。 例えば、混合棚保管ポリシーでは、倉庫内の複数の棚に同じ在庫保管ユニットのアイテムが広がっています。または、自動ガイド車両(AGV)を使用して、ピッカーの代わりに、ピッキングアイテムを保管エリアから梱包ステーションに輸送します。 これは、両方のソリューションを組み合わせ、AGV支援混合棚ピッキングシステムと呼ばれるものを作成する最初の論文です。 3-indexと2-commodityネットワークフローを定式化した拡張マルチデポット車両ルーティング問題として,新たな統合順序バッチおよびルーティング問題をモデル化した。 積分問題の複雑性から,積分問題をより効率的に解くために,新規な変数近傍探索アルゴリズムを開発した。 我々は,本手法を異なるインスタンスサイズでテストし,シングルラインとマルチラインの両方の混合棚システム(agvの走行距離を最大67%削減する)において,混合棚ストレージポリシが通常のストレージポリシーよりも適していると結論づけた。 可変近傍探索アルゴリズムは、許容時間内に最適解を提供する。

Different retail and e-commerce companies are facing the challenge of assembling large numbers of time-critical picking orders that include both single-line and multi-line orders. To reduce unproductive picker working time as in traditional picker-to-parts warehousing systems, different solutions are proposed in the literature and in practice. For example, in a mixed-shelves storage policy, items of the same stock keeping unit are spread over several shelves in a warehouse; or automated guided vehicles (AGVs) are used to transport the picked items from the storage area to packing stations instead of human pickers. This is the first paper to combine both solutions, creating what we call AGV-assisted mixed-shelves picking systems. We model the new integrated order batching and routing problem in such systems as an extended multi-depot vehicle routing problem with both three-index and two-commodity network flow formulations. Due to the complexity of the integrated problem, we develop a novel variable neighborhood search algorithm to solve the integrated problem more efficiently. We test our methods with different sizes of instances, and conclude that the mixed-shelves storage policy is more suitable than the usual storage policy in AGV-assisted mixed-shelves systems for both single-line and multi-line orders (saving up to 67% on driving distances for AGVs). Our variable neighborhood search algorithm provides close-to-optimal solutions within an acceptable computational time.
翻訳日:2021-02-01 19:20:51 公開日:2021-01-27
# Q-Learning を用いた敵攻撃に対するロバストAndroidマルウェア検出システム

Robust Android Malware Detection System against Adversarial Attacks using Q-Learning ( http://arxiv.org/abs/2101.12031v1 )

ライセンス: Link先を確認
Hemant Rathore and Sanjay K. Sahay and Piyush Nikam and Mohit Sewak(参考訳) 現在のandroidマルウェア検出システムは、機械学習とディープラーニングモデルに基づいている。 優れた性能にもかかわらず、これらのモデルは敵対攻撃の影響を受けやすい。 そこで本研究では,機械学習とディープニューラルネットワークに基づく8つのAndroidマルウェア検出モデルを開発し,敵攻撃に対するロバスト性を検討した。 そこで我々はReinforcement Learningを用いて,既存のAndroidマルウェア検出モデルによって誤分類されるマルウェアの新たな変種を作成した。 ホワイトボックスシナリオとグレーボックスシナリオに強化学習を用いた単一ポリシアタックと複数ポリシアタックの2つの新しいアタック戦略を提案する。 敵の靴に身を置くことで、我々は、Androidアプリケーションに最小限の変更を加えながら、アプリの機能や動作が変わらないことを保証しながら、不正行為率を最大化する目的で、検出モデルに対する敵攻撃を設計しました。 8つの検出モデルで平均44.21%と53.20%を達成し、1つのポリシーアタックと複数のポリシーアタックを使用して最大5つの修正を行った。 マルチポリシーアプローチを用いた決定木に基づくモデルに対して, 86.09%の不正行為率を5つの変更で達成した。 最後に, 単一の政策攻撃に対して, 平均だまし率を3倍から15.22%まで削減し, 検出モデルの堅牢性を高める対人防衛戦略を提案する。 提案モデルは,マルウェアの変種(変型)を効果的に検出する。 実験により,我々の提案するAndroidマルウェア検出システムは,敵攻撃に対してより堅牢であることがわかった。

The current state-of-the-art Android malware detection systems are based on machine learning and deep learning models. Despite having superior performance, these models are susceptible to adversarial attacks. Therefore in this paper, we developed eight Android malware detection models based on machine learning and deep neural network and investigated their robustness against adversarial attacks. For this purpose, we created new variants of malware using Reinforcement Learning, which will be misclassified as benign by the existing Android malware detection models. We propose two novel attack strategies, namely single policy attack and multiple policy attack using reinforcement learning for white-box and grey-box scenario respectively. Putting ourselves in the adversary's shoes, we designed adversarial attacks on the detection models with the goal of maximizing fooling rate, while making minimum modifications to the Android application and ensuring that the app's functionality and behavior do not change. We achieved an average fooling rate of 44.21% and 53.20% across all the eight detection models with a maximum of five modifications using a single policy attack and multiple policy attack, respectively. The highest fooling rate of 86.09% with five changes was attained against the decision tree-based model using the multiple policy approach. Finally, we propose an adversarial defense strategy that reduces the average fooling rate by threefold to 15.22% against a single policy attack, thereby increasing the robustness of the detection models i.e. the proposed model can effectively detect variants (metamorphic) of malware. The experimental analysis shows that our proposed Android malware detection system using reinforcement learning is more robust against adversarial attacks.
翻訳日:2021-02-01 19:19:22 公開日:2021-01-27
# マイクロPCBの分類におけるパースペクティブ・パースペクティブの確保の重要性について

On the Importance of Capturing a Sufficient Diversity of Perspective for the Classification of micro-PCBs ( http://arxiv.org/abs/2101.11164v1 )

ライセンス: Link先を確認
Adam Byerly, Tatiana Kalganova, Anthony J. Grichnik(参考訳) そこで本研究では,13個のマイクロPCBの高解像度画像からなるデータセットについて,各サンプルをPCBタイプ,回転カテゴリ,視点カテゴリにラベル付けした。 次に,訓練中の回転と視点の組み合わせについて実験を行い,その結果がテスト精度に与える影響について述べる。 そして、トレーニングデータに存在しない視点と回転をシミュレートするデータ拡張技術がいつ、どのようにうまく機能するかを示す。 我々は,均質なベクターカプセル(hvcs)の有無に関わらず,cnnを用いて全ての実験を行い,マイクロpcbのサブコンポーネントの分散をより良くエンコードするカプセルの能力について検討し,示す。 実験の結果,サブコンポーネント間の等価性をモデル化可能なHVCを用いたニューラルネットワークのトレーニングと視点の多様性のトレーニングが,マイクロPCBデータ上で最高の分類精度を達成できることが判明した。

We present a dataset consisting of high-resolution images of 13 micro-PCBs captured in various rotations and perspectives relative to the camera, with each sample labeled for PCB type, rotation category, and perspective categories. We then present the design and results of experimentation on combinations of rotations and perspectives used during training and the resulting impact on test accuracy. We then show when and how well data augmentation techniques are capable of simulating rotations vs. perspectives not present in the training data. We perform all experiments using CNNs with and without homogeneous vector capsules (HVCs) and investigate and show the capsules' ability to better encode the equivariance of the sub-components of the micro-PCBs. The results of our experiments lead us to conclude that training a neural network equipped with HVCs, capable of modeling equivariance among sub-components, coupled with training on a diversity of perspectives, achieves the greatest classification accuracy on micro-PCB data.
翻訳日:2021-02-01 19:18:37 公開日:2021-01-27
# 空間的注意を伴う多スケール深層ニューラルネットワークを用いた鼻咽頭癌全摘量の自動分割

Automatic Segmentation of Gross Target Volume of Nasopharynx Cancer using Ensemble of Multiscale Deep Neural Networks with Spatial Attention ( http://arxiv.org/abs/2101.11254v1 )

ライセンス: Link先を確認
Haochen Mei, Wenhui Lei, Ran Gu, Shan Ye, Zhengwentai Sun, Shichuan Zhang, Guotai Wang(参考訳) 放射線治療は鼻咽頭癌の主な治療法である。 CTやMRI画像などの医用画像からGross Target Volume(GTV)を抽出することが放射線治療の必須条件である。 手動のデライン化は時間と労力がかかるため、GTVの自動セグメンテーションは、このプロセスを改善する可能性があります。 現在、GTVの深層学習に基づく自動デライン化法のほとんどは、主にCT画像などの医療画像で行われている。 しかし, 病理組織領域と周囲の軟部組織とのコントラストが低いこと, 標的領域が小さいこと, 臨床ct画像の異方性解決が困難である。 これらの問題に対処するため,内面分解能と平面分解能の差に対処する2.5D畳み込みニューラルネットワーク(CNN)を提案する。 さらに、ネットワークが小さなターゲットに集中できるように空間的注意モジュールを提案し、チャンネルの注意を利用してセグメンテーション性能をさらに向上させます。 さらに,複数モデルアンサンブル法と組み合わせることで,ネットワークが異なるスケールで特徴を学習できるように,マルチスケールサンプリング法を用いてセグメント化結果のロバスト性を向上させる。 また,放射線治療計画における自動セグメンテーション結果の信頼性を示す上で重要なモデルアンサンブルに基づいてセグメンテーション結果の不確実性を推定した。

Radiotherapy is the main treatment modality for nasopharynx cancer. Delineation of Gross Target Volume (GTV) from medical images such as CT and MRI images is a prerequisite for radiotherapy. As manual delineation is time-consuming and laborious, automatic segmentation of GTV has a potential to improve this process. Currently, most of the deep learning-based automatic delineation methods of GTV are mainly performed on medical images like CT images. However, it is challenged by the low contrast between the pathology regions and surrounding soft tissues, small target region, and anisotropic resolution of clinical CT images. To deal with these problems, we propose a 2.5D Convolutional Neural Network (CNN) to handle the difference of inplane and through-plane resolution. Furthermore, we propose a spatial attention module to enable the network to focus on small target, and use channel attention to further improve the segmentation performance. Moreover, we use multi-scale sampling method for training so that the networks can learn features at different scales, which are combined with a multi-model ensemble method to improve the robustness of segmentation results. We also estimate the uncertainty of segmentation results based on our model ensemble, which is of great importance for indicating the reliability of automatic segmentation results for radiotherapy planning.
翻訳日:2021-02-01 19:17:58 公開日:2021-01-27
# 不確実キャリブレーションと適応圧縮のためのベイジアンネストニューラルネットワーク

Bayesian Nested Neural Networks for Uncertainty Calibration and Adaptive Compression ( http://arxiv.org/abs/2101.11353v1 )

ライセンス: Link先を確認
Yufei Cui, Ziquan Liu, Qiao Li, Yu Mao, Antoni B. Chan, Chun Jason Xue(参考訳) ネストネットワーク(nested network)またはスリムネットワーク(slimmable network)は、テスト時間中にアーキテクチャを即座に調整できるニューラルネットワークである。 最近の研究では、トレーニング中に重要なレイヤーのノードを順序づけることができ、リソースのさまざまな構成に最適なネストされたサブネットワークセットを生成する「ネストドドロップアウト」層に焦点を当てています。 しかしながら、ドロップアウトレートはトレーニングプロセス全体において、異なるレイヤ上のハイパーパラメータとして固定される。 したがって、ノードを除去すると、データから学習した軌道ではなく、人間の特定軌道で性能が劣化する。 もう一つの欠点は、生成されたサブネットワークは、よく調整された不確実性のない決定論的ネットワークである。 これら2つの問題に対処するため、ネストニューラルネットワークに対するベイズ的アプローチを開発した。 そこで本研究では,ネストドドロップアウトのパラメータに有用な勾配を与えるDownhill分布から,ネストドドロップアウトのサンプルを低コストで描画する変動順序付けユニットを提案する。 このアプローチに基づいて,ノード分布の順序知識を学習するベイズ型ネストニューラルネットワークを設計する。 実験では, 分類タスクの精度, キャリブレーション, 領域外検出において, 提案手法がネストネットワークを上回っていることを示した。 また、コンピュータビジョンにおける不確実性クリティカルなタスクに関する関連するアプローチを上回っている。

Nested networks or slimmable networks are neural networks whose architectures can be adjusted instantly during testing time, e.g., based on computational constraints. Recent studies have focused on a "nested dropout" layer, which is able to order the nodes of a layer by importance during training, thus generating a nested set of sub-networks that are optimal for different configurations of resources. However, the dropout rate is fixed as a hyper-parameter over different layers during the whole training process. Therefore, when nodes are removed, the performance decays in a human-specified trajectory rather than in a trajectory learned from data. Another drawback is the generated sub-networks are deterministic networks without well-calibrated uncertainty. To address these two problems, we develop a Bayesian approach to nested neural networks. We propose a variational ordering unit that draws samples for nested dropout at a low cost, from a proposed Downhill distribution, which provides useful gradients to the parameters of nested dropout. Based on this approach, we design a Bayesian nested neural network that learns the order knowledge of the node distributions. In experiments, we show that the proposed approach outperforms the nested network in terms of accuracy, calibration, and out-of-domain detection in classification tasks. It also outperforms the related approach on uncertainty-critical tasks in computer vision.
翻訳日:2021-02-01 19:17:17 公開日:2021-01-27
# 雑音化による正規化の解釈と逆投影忠実性項への応用

An Interpretation of Regularization by Denoising and its Application with the Back-Projected Fidelity Term ( http://arxiv.org/abs/2101.11599v1 )

ライセンス: Link先を確認
Einav Yogev-Ofer, Tom Tirer, Raja Giryes(参考訳) 画像復元タスクの大部分は、不適切な問題である。 したがって、最適化に基づく方法は、忠実度と事前(正規化)項の両方からなるコスト関数を使用する。 最近の一連の作業は、既存の画像デノゲーションエンジンの優れたパフォーマンスを活用するRED(Regularization by Denoising)アプローチによって、事前を強制している。 しかし、REDと明示的な事前条件との関係はまだよく理解されていない。 本稿では,二つの貢献を述べる。 まず、赤の勾配は、前の関数の(サブ)勾配と見なすことができるが、その点の分断されたバージョンで取ることができることを示す。 REDは通常比較的小さい騒音レベルで適用されるので、この解釈はREDと従来の勾配の間の類似性を示します。 RED と Back-Projection (BP) の忠実度という用語を、以前の作品で使われている一般的な Least Squares (LS) 用語ではなく組み合わせることを提案します。 従来のグラデーションに対して実証された画像デブレーションと超解像のための BP の LS 上の利点は、RED アプローチに続きます。

The vast majority of image recovery tasks are ill-posed problems. As such, methods that are based on optimization use cost functions that consist of both fidelity and prior (regularization) terms. A recent line of works imposes the prior by the Regularization by Denoising (RED) approach, which exploits the good performance of existing image denoising engines. Yet, the relation of RED to explicit prior terms is still not well understood, as previous work requires too strong assumptions on the denoisers. In this paper, we make two contributions. First, we show that the RED gradient can be seen as a (sub)gradient of a prior function--but taken at a denoised version of the point. As RED is typically applied with a relatively small noise level, this interpretation indicates a similarity between RED and traditional gradients. This leads to our second contribution: We propose to combine RED with the Back-Projection (BP) fidelity term rather than the common Least Squares (LS) term that is used in previous works. We show that the advantages of BP over LS for image deblurring and super-resolution, which have been demonstrated for traditional gradients, carry on to the RED approach.
翻訳日:2021-02-01 19:16:38 公開日:2021-01-27
# Easy-GT: 白血球核の根拠を作るためのオープンソースソフトウェア

Easy-GT: Open-Source Software to Facilitate Making the Ground Truth for White Blood Cells Nucleus ( http://arxiv.org/abs/2101.11654v1 )

ライセンス: Link先を確認
Seyedeh-Zahra Mousavi Kouzehkanan, Islam Tavakoli, Arezoo Alipanah(参考訳) 白血球(WBC)の核は、その検出と分類において重要な役割を果たします。 WBCを分類するために適切な人工知能モデルに適合するために、核の適切な特徴抽出が必要です。 したがって、核を正確に分割する手法を設計する必要がある。 検出された核は、血液学者が同定した基底真理と比較し、核分割法の適切な性能評価を得るべきである。 専門家が手動で根本真理を確立するのは、時間と手間のかかる作業です。 本稿では,WBCs核の基底真実を高速かつ容易に作成するための,Easy-GTと呼ばれるインテリジェントなオープンソースソフトウェアを提案する。 このソフトウェアはまず、95.42%のダイス類似係数(DSC)を持つ新しいOtsusしきい値ベースの方法を用いて核を検知し、その後、設計されたボタンを用いて閾値を変更することによってより正確な基底真理を生成する。 このソフトウェアは、真理形成プロセスを6回以上スピードアップすることができる。

The nucleus of white blood cells (WBCs) plays a significant role in their detection and classification. Appropriate feature extraction of the nucleus is necessary to fit a suitable artificial intelligence model to classify WBCs. Therefore, designing a method is needed to segment the nucleus accurately. The detected nuclei should be compared with the ground truths identified by a hematologist to obtain a proper performance evaluation of the nucleus segmentation method. It is a time-consuming and tedious task for experts to establish the ground truth manually. This paper presents an intelligent open-source software called Easy-GT to create the ground truth of WBCs nucleus faster and easier. This software first detects the nucleus by employing a new otsus thresholding based method with a dice similarity coefficient (DSC) of 95.42 %; the hematologist can then create a more accurate ground truth, using the designed buttons to modify the threshold value. This software can speed up ground truths forming process more than six times.
翻訳日:2021-02-01 19:15:55 公開日:2021-01-27
# 深層ニューラルネットワークを用いたct画像からの大腿骨自動セグメンテーション

Automated femur segmentation from computed tomography images using a deep neural network ( http://arxiv.org/abs/2101.11742v1 )

ライセンス: Link先を確認
P.A. Bjornsson, B. Helgason, H. Palsson, S. Sigurdsson, V. Gudnason, L.M. Ellingsen(参考訳) オステオポローシス(osteoporosis)は、新しい骨の創成が古い骨の喪失に追随しない場合に起こる一般的な骨疾患であり、骨折のリスクが増大する。 50歳以上の成人は特に危険にさらされており、移動性の制限によって生活の質が低下し、孤立と抑うつにつながる可能性がある。 この臨床課題を解決するために、股関節骨折を予後した個人を同定できる堅牢なスクリーニング方法を開発しています。 この方法は有限要素分析を使用し、ヒップのセグメント化されたCT画像に依存します。 現在、近位大腿骨のセグメンテーションには、面倒な作業である手動入力が必要であり、ヒューマンエラーになりやすく、臨床的文脈における方法の実用性が著しく制限される。 今回我々は,深層畳み込みニューラルネットワークを用いて,ctスキャンから大腿骨の高精度,自動化,ロバスト,高速セグメンテーションを作製する大腿骨近位部セグメンテーション法を提案する。 ネットワークアーキテクチャは、入力パッチのより複雑な特徴を抽出するダウンサンプリングパスと、取得した低解像度画像を高解像度に変換するアップサンプリングパスとからなる有名なu-netに基づいている。 スキップ接続により、ダウンサンプリング中に失われた重要な空間情報を回復できます。 モデルは手動で30個のCT画像から訓練し,200個の地中真理手動画像から評価した。 本手法は平均ディス類似度係数 (dsc) と95%パーセンタイルハウスドルフ距離 (hd95) をそれぞれ0.990mmおよび0.981mmとする。

Osteoporosis is a common bone disease that occurs when the creation of new bone does not keep up with the loss of old bone, resulting in increased fracture risk. Adults over the age of 50 are especially at risk and see their quality of life diminished because of limited mobility, which can lead to isolation and depression. We are developing a robust screening method capable of identifying individuals predisposed to hip fracture to address this clinical challenge. The method uses finite element analysis and relies on segmented computed tomography (CT) images of the hip. Presently, the segmentation of the proximal femur requires manual input, which is a tedious task, prone to human error, and severely limits the practicality of the method in a clinical context. Here we present a novel approach for segmenting the proximal femur that uses a deep convolutional neural network to produce accurate, automated, robust, and fast segmentations of the femur from CT scans. The network architecture is based on the renowned u-net, which consists of a downsampling path to extract increasingly complex features of the input patch and an upsampling path to convert the acquired low resolution image into a high resolution one. Skipped connections allow us to recover critical spatial information lost during downsampling. The model was trained on 30 manually segmented CT images and was evaluated on 200 ground truth manual segmentations. Our method delivers a mean Dice similarity coefficient (DSC) and 95th percentile Hausdorff distance (HD95) of 0.990 and 0.981 mm, respectively.
翻訳日:2021-02-01 19:15:18 公開日:2021-01-27
# 厳密条件付き確率的プログラムの構成意味論

Compositional Semantics for Probabilistic Programs with Exact Conditioning ( http://arxiv.org/abs/2101.11351v1 )

ライセンス: Link先を確認
Dario Stein, Sam Staton(参考訳) 一級厳密な条件付き構成を持つガウス確率変数の確率的プログラミング言語を定義する。 この言語の操作的、分数的、方程式的な意味論を与え、条件の交換性のような便利な特性を確立します。 連続ランダム変数の等価性に関する条件は、正確な観測が確率ゼロを持つ可能性があるため、非自明である。 条件付き確率のカテゴリー的定式化を用いることで、我々の言語の良い性質はガウス語に特有ではなく、普遍的な性質から導き出され、より広い設定に一般化できることを示した。 コンディショニングを同型として内部化するCond構造を定義し、正確なコンディショニングで確率的プログラミングのための一般的なコンポジションセマンティクスを提供する。

We define a probabilistic programming language for Gaussian random variables with a first-class exact conditioning construct. We give operational, denotational and equational semantics for this language, establishing convenient properties like exchangeability of conditions. Conditioning on equality of continuous random variables is nontrivial, as the exact observation may have probability zero; this is Borel's paradox. Using categorical formulations of conditional probability, we show that the good properties of our language are not particular to Gaussians, but can be derived from universal properties, thus generalizing to wider settings. We define the Cond construction, which internalizes conditioning as a morphism, providing general compositional semantics for probabilistic programming with exact conditioning.
翻訳日:2021-02-01 19:13:56 公開日:2021-01-27
# フェアネスのバランス:特性関数形式のゲームにおける物理を利用した公正分布

A Balance for Fairness: Fair Distribution Utilising Physics in Games of Characteristic Function Form ( http://arxiv.org/abs/2101.11496v1 )

ライセンス: Link先を確認
Song-Ju Kim, Taiki Takahashi, and Kazuo Sano(参考訳) カオス現代社会では、真の「公平性」の実現に対する需要が高まっています。 ギリシア神話では、テミスは「正義の女神」であり、社会を悪から守るために右手に剣があり、左手に善と悪を測る「判断のバランス」がある。 本研究では,特性関数型ゲームにおける利益の公平な分配手法である「物理利用」を提案する。 具体的には、「核」を計算するための線形プログラミング問題は、重力が働く物理系として考慮し、効率よく解けることを示す。 これにより計算複雑性を大幅に低減できるだけでなく、パラメータのリアルタイムな変化に対応するのに必要な柔軟性も期待できる。

In chaotic modern society, there is an increasing demand for the realization of true 'fairness'. In Greek mythology, Themis, the 'goddess of justice', has a sword in her right hand to protect society from vices, and a 'balance of judgment' in her left hand that measures good and evil. In this study, we propose a fair distribution method 'utilising physics' for the profit in games of characteristic function form. Specifically, we show that the linear programming problem for calculating 'nucleolus' can be efficiently solved by considering it as a physical system in which gravity works. In addition to being able to significantly reduce computational complexity thereby, we believe that this system could have flexibility necessary to respond to real-time changes in the parameter.
翻訳日:2021-02-01 19:13:22 公開日:2021-01-27
# ガード付きTGDにおけるクエリ評価の効率性:非有界アリティケース

Efficiency of Query Evaluation Under Guarded TGDs: The Unbounded Arity Case ( http://arxiv.org/abs/2101.11727v1 )

ライセンス: Link先を確認
Cristina Feier(参考訳) 本稿では,保護型TGD(GTGDs)と結合型クエリ(UCQs)に基づいてオントロジー媒介クエリ(OMQs)を評価する際のパラメータ化複雑性を,リレーショナルシンボルが非有界なアリティを持ち,パラメータがOMQのサイズであるような環境で解析する。 これは、そのようなOMQの帰納的列挙可能クラスの固定パラメータトラクタビリティ(fpt)評価の正確な基準を(広く保持されている指数時間仮説の下で)確立する。 本論文で紹介する主な技術ツールの1つは、パラメータ化された均一CSPの決定からパラメータ化されたOMQ評価へのfpt-reduceである。 この削減の基本的な特徴は、パラメータ化された一様cspのクラスを分類するのに不可欠な測度の保存である: 部分モジュラ幅(unbounded-arity schemasに対するマルクスのよく知られた結果による)とtreewidth(bounded-ar ity schemasに対するgroheの既知の結果による)である。 これにより、非有界および有界アリティケースの両方において、パラメータ化OMQのクラスの評価のための硬度結果を得ることができる。 従来、有界アリティスキーマの場合、これはGroheが採用した構造に対する完全なイントロスペクションを必要とする手法を用いて取り組まれてきた。

The paper analyzes the parameterized complexity of evaluating Ontology Mediated Queries (OMQs) based on Guarded TGDs (GTGDs) and Unions of Conjunctive Queries (UCQs), in the setting where relational symbols might have unbounded arity and where the parameter is the size of the OMQ. It establishes exact criteria for fixed-parameter tractability (fpt) evaluation of recursively enumerable classes of such OMQs (under the widely held Exponential Time Hypothesis). One of the main technical tools introduced in the paper is an fpt-reduction from deciding parameterized uniform CSPs to parameterized OMQ evaluation. A fundamental feature of the reduction is preservation of measures which are known to be essential for classifying classes of parameterized uniform CSPs: submodular width (according to the well known result of Marx for unbounded-arity schemas) and treewidth (according to the well known result of Grohe for bounded-arity schemas). As such, the reduction can be employed to obtain hardness results for evaluation of classes of parameterized OMQs both in the unbounded and in the bounded arity case. Previously, in the case of bounded arity schemas, this has been tackled using a technique requiring full introspection into the construction employed by Grohe.
翻訳日:2021-02-01 19:12:51 公開日:2021-01-27
# 統一ネットワークの分割:深いhp近似

Partition of unity networks: deep hp-approximation ( http://arxiv.org/abs/2101.11256v1 )

ライセンス: Link先を確認
Kookjin Lee, Nathaniel A. Trask, Ravi G. Patel, Mamikon A. Gulian, Eric C. Cyr(参考訳) 近似理論者は、単位と単項の分割を同時にエミュレートする能力を利用して、ディープニューラルネットワークのクラス最高の最適近似速度を確立しました。 そこで我々は,これらの要素を直接アーキテクチャに組み込む統一ネットワーク(POUnets)の分割を提案する。 確率測度を学習するために使用されるタイプの分類アーキテクチャは、空間のメッシュフリー分割を構築するのに使用され、学習可能な係数を持つ多項式空間は各分割に関連付けられる。 結果として生じるhp要素のような近似は、最短二乗最適化器の使用を可能にし、その結果生じるアーキテクチャサイズは空間次元と指数関数的にスケールする必要はなく、次元の呪いを破る。 抽象近似結果は、ネットワーク設計をガイドする望ましい特性を確立する。 2つのアーキテクチャの選択に関する数値的な結果から、POUnets は滑らかな関数に対して hp 収束し、不連続な多数の多項式関数に対して一貫して MLP を上回ります。

Approximation theorists have established best-in-class optimal approximation rates of deep neural networks by utilizing their ability to simultaneously emulate partitions of unity and monomials. Motivated by this, we propose partition of unity networks (POUnets) which incorporate these elements directly into the architecture. Classification architectures of the type used to learn probability measures are used to build a meshfree partition of space, while polynomial spaces with learnable coefficients are associated to each partition. The resulting hp-element-like approximation allows use of a fast least-squares optimizer, and the resulting architecture size need not scale exponentially with spatial dimension, breaking the curse of dimensionality. An abstract approximation result establishes desirable properties to guide network design. Numerical results for two choices of architecture demonstrate that POUnets yield hp-convergence for smooth functions and consistently outperform MLPs for piecewise polynomial functions with large numbers of discontinuities.
翻訳日:2021-02-01 19:12:04 公開日:2021-01-27
# 決定機械:モデル結合法として決定木を解釈する

Decision Machines: Interpreting Decision Tree as a Model Combination Method ( http://arxiv.org/abs/2101.11347v1 )

ライセンス: Link先を確認
Jinxiong Zhang(参考訳) 決定木に基づいて表データの処理は効率的である。 従来の決定木成長法は、その欲深い性質のため、しばしば最適でない木になる。 その固有の構造は、ハードウェアが決定木を並列に実装するオプションを制限する。 ここでは、これらの欠陥を克服するためのバイナリ決定木をコンパクトに表現します。 バイナリ決定木に対するバイナリテストに対する予測の依存性を明示的に定式化し、入力サンプルをルートから適切なリーフノードに導く機能を構築します。 この定式化に基づいて,二分決定木の新しい解釈を導入する。 そして、この定式化を連続関数で近似する。 最後に,決定木をモデルコンビネーション手法として解釈する。 また,いくつかの学習手法を統一する選択予測方式を提案する。

Based on decision trees, it is efficient to handle tabular data. Conventional decision tree growth methods often result in suboptimal trees because of their greedy nature. Their inherent structure limits the options of hardware to implement decision trees in parallel. Here is a compact representation of binary decision trees to overcome these deficiencies. We explicitly formulate the dependence of prediction on binary tests for binary decision trees and construct a function to guide the input sample from the root to the appropriate leaf node. And based on this formulation we introduce a new interpretation of binary decision trees. Then we approximate this formulation via continuous functions. Finally, we interpret the decision tree as a model combination method. And we propose the selection-prediction scheme to unify a few learning methods.
翻訳日:2021-02-01 19:11:27 公開日:2021-01-27
# 脳波とアイトラッキング信号を用いた効率的なビデオ要約フレームワーク

Efficient Video Summarization Framework using EEG and Eye-tracking Signals ( http://arxiv.org/abs/2101.11249v1 )

ライセンス: Link先を確認
Sai Sukruth Bezugam, Swatilekha Majumdar, Chetan Ralekar and Tapan Kumar Gandhi(参考訳) 本稿では,いくつかのキーフレームやビデオスキームでビデオ全体の要点を提示する効率的なビデオ要約フレームワークを提案する。 既存のビデオ要約フレームワークは、コンピュータビジョンの低レベル特徴抽出または高レベルドメインレベル抽出を利用するアルゴリズムに基づいている。 しかし、要約ビデオの究極の利用者である人間は、いまだに最も無視されている側面である。 そこで本論文では,人間の要約における役割を考察し,人間の視覚的注意に基づく要約手法を提案する。 ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。 実験から得られた脳波と視線追跡データを同時に処理し、相当な映像量から有用な情報を含むフレームをセグメント化する。 したがって、フレームセグメンテーションは主に人間の認知的判断に依存している。 本手法では,高い精度と高いリコール係数を維持しながら96.5%の映像を要約する。 最先端技術との比較により,提案手法は映像の要約に要する計算コストを低減し,天井レベルの性能をもたらすことが示された。

This paper proposes an efficient video summarization framework that will give a gist of the entire video in a few key-frames or video skims. Existing video summarization frameworks are based on algorithms that utilize computer vision low-level feature extraction or high-level domain level extraction. However, being the ultimate user of the summarized video, humans remain the most neglected aspect. Therefore, the proposed paper considers human's role in summarization and introduces human visual attention-based summarization techniques. To understand human attention behavior, we have designed and performed experiments with human participants using electroencephalogram (EEG) and eye-tracking technology. The EEG and eye-tracking data obtained from the experimentation are processed simultaneously and used to segment frames containing useful information from a considerable video volume. Thus, the frame segmentation primarily relies on the cognitive judgments of human beings. Using our approach, a video is summarized by 96.5% while maintaining higher precision and high recall factors. The comparison with the state-of-the-art techniques demonstrates that the proposed approach yields ceiling-level performance with reduced computational cost in summarising the videos.
翻訳日:2021-02-01 19:10:58 公開日:2021-01-27
# 腫瘍細胞比計数のためのマルチスケール条件付きディープモデル

A Multi-Scale Conditional Deep Model for Tumor Cell Ratio Counting ( http://arxiv.org/abs/2101.11731v1 )

ライセンス: Link先を確認
Eric Cosatto, Kyle Gerard, Hans-Peter Graf, Maki Ogura, Tomoharu Kiyuna, Kanako C. Hatanaka, Yoshihiro Matsuno, Yutaka Hatanaka(参考訳) 組織学的スライド全体にわたって腫瘍細胞の比を正確に得る方法を提案する。 深層完全畳み込みニューラルネットワークモデルを用いて,h&e維持組織切片の画像上の細胞の検出と分類を訓練した。 徹底した核位置と腫瘍領域からなる病理学者のラベルを使用して、モデルを監督された方法で訓練しました。 異なる倍率で作業する2つのモデルを組み合わせることで、細胞レベルの詳細と周囲のコンテキストの両方をキャプチャして、腫瘍細胞または正常細胞として細胞の検出と分類を成功させることができることを示す。 実際、マルチスケールのコンテキスト情報で単一細胞の分類を条件づけることで、異なる顕微鏡拡大で細胞新奇性と腫瘍範囲を評価する病理学者が使用するプロセスを模倣する。 腫瘍細胞の比率は、各クラスの細胞数を数えることによって容易に得ることができる。 スライド全体を解析するために、それを複数のタイルに分割し、並列に処理します。 全体の腫瘍細胞比を集計することができる。 切除および組織マイクロアレイ(TMA)の肺腫瘍検体を用いた100スライドのデータセットを用いて実験を行った。 重データ増量とバッチ正規化による全畳み込みモデルのトレーニングを行います。 未確認検体では,腫瘍細胞率を6%未満で予測する平均絶対誤差が得られたが,これはヒトの20%よりも有意に良好であり,標的癌薬の処方を目的とした最近の遺伝子パネル試験において,組織サンプルを適切に選択する上で重要である。 我々は、異なる倍率で2つのモデルを訓練することの重要性を示し、受容場のサイズなどのパラメータの選択を正当化するためにアブレーション研究を行う。

We propose a method to accurately obtain the ratio of tumor cells over an entire histological slide. We use deep fully convolutional neural network models trained to detect and classify cells on images of H&E-stained tissue sections. Pathologists' labels consisting of exhaustive nuclei locations and tumor regions were used to trained the model in a supervised fashion. We show that combining two models, each working at a different magnification allows the system to capture both cell-level details and surrounding context to enable successful detection and classification of cells as either tumor-cell or normal-cell. Indeed, by conditioning the classification of a single cell on a multi-scale context information, our models mimic the process used by pathologists who assess cell neoplasticity and tumor extent at different microscope magnifications. The ratio of tumor cells can then be readily obtained by counting the number of cells in each class. To analyze an entire slide, we split it into multiple tiles that can be processed in parallel. The overall tumor cell ratio can then be aggregated. We perform experiments on a dataset of 100 slides with lung tumor specimens from both resection and tissue micro-array (TMA). We train fully-convolutional models using heavy data augmentation and batch normalization. On an unseen test set, we obtain an average mean absolute error on predicting the tumor cell ratio of less than 6%, which is significantly better than the human average of 20% and is key in properly selecting tissue samples for recent genetic panel tests geared at prescribing targeted cancer drugs. We perform ablation studies to show the importance of training two models at different magnifications and to justify the choice of some parameters, such as the size of the receptive field.
翻訳日:2021-02-01 19:10:19 公開日:2021-01-27
# (参考訳) Zero-Shot Skeleton アクション認識のためのシンタクティカルガイド付きジェネラティブ埋め込み [全文訳有]

Syntactically Guided Generative Embeddings for Zero-Shot Skeleton Action Recognition ( http://arxiv.org/abs/2101.11530v1 )

ライセンス: CC BY 4.0
Pranay Gupta, Divyanshu Sharma, Ravi Kiran Sarvadevabhatla(参考訳) Zero-Shot Learning(ZSL)のための新しいシンタクティックガイド生成手法であるSynSEを紹介します。 エンドツーエンドのアプローチは、関連するモダリティ(視覚、言語)内外を制約した、漸進的に洗練された生成的埋め込み空間を学習します。 モーダル間制約は、アクションシーケンスの埋め込みと、対応するアクション記述にタグ付き単語(PoS)の埋め込みの間で定義される。 骨格に基づく行動系列認識のためのSynSEをデプロイする。 当社の設計選択により、SynSE は、トレーニング中に遭遇しない単語を含むアクション記述のシーケンスを、構成的に認識することができます。 我々はまた、信頼に基づくゲーティング機構を通じて、より挑戦的な一般化ゼロショット学習(GZSL)問題にもアプローチを拡張した。 大規模なNTU-60およびNTU-120スケルトン動作データセットに複数分割したゼロショットスケルトン動作認識結果を示すのはこれが初めてである。 この結果は、NTU-60およびNTU-120データセットの強力なベースラインと比較して、ZSLおよびGZSL設定におけるSynSEの最先端のパフォーマンスを示しています。

We introduce SynSE, a novel syntactically guided generative approach for Zero-Shot Learning (ZSL). Our end-to-end approach learns progressively refined generative embedding spaces constrained within and across the involved modalities (visual, language). The inter-modal constraints are defined between action sequence embedding and embeddings of Parts of Speech (PoS) tagged words in the corresponding action description. We deploy SynSE for the task of skeleton-based action sequence recognition. Our design choices enable SynSE to generalize compositionally, i.e., recognize sequences whose action descriptions contain words not encountered during training. We also extend our approach to the more challenging Generalized Zero-Shot Learning (GZSL) problem via a confidence-based gating mechanism. We are the first to present zero-shot skeleton action recognition results on the large-scale NTU-60 and NTU-120 skeleton action datasets with multiple splits. Our results demonstrate SynSE's state of the art performance in both ZSL and GZSL settings compared to strong baselines on the NTU-60 and NTU-120 datasets.
翻訳日:2021-02-01 19:08:08 公開日:2021-01-27