このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211211となっている論文です。

PDF登録状況(公開日: 20211211)

TitleAuthorsAbstract論文公表日・翻訳日
# 非局所グラフニューラルネットワーク

Non-Local Graph Neural Networks ( http://arxiv.org/abs/2005.14612v2 )

ライセンス: Link先を確認
Meng Liu, Zhengyang Wang, Shuiwang Ji(参考訳) 現代のグラフニューラルネットワーク(gnns)は、多層的な局所アグリゲーションを通じてノード埋め込みを学び、ソートグラフ上のアプリケーションで大きな成功を収める。 しかし、異種グラフのタスクは通常非局所集約を必要とする。 さらに、局所集合はいくつかの非可逆グラフに対してさらに有害である。 本稿では,gnnの効率的な注意誘導ソートを用いた,単純かつ効果的な非局所集約フレームワークを提案する。 そこで我々は,様々な非ローカルGNNを開発する。 異種グラフデータセットを分析し,非局所的なGNNを評価するための徹底的な実験を行った。 実験結果から,非局所gnnは,モデル性能と効率の両面で,7つのベンチマークデータセットで従来の最先端手法を著しく上回っていることがわかった。

Modern graph neural networks (GNNs) learn node embeddings through multilayer local aggregation and achieve great success in applications on assortative graphs. However, tasks on disassortative graphs usually require non-local aggregation. In addition, we find that local aggregation is even harmful for some disassortative graphs. In this work, we propose a simple yet effective non-local aggregation framework with an efficient attention-guided sorting for GNNs. Based on it, we develop various non-local GNNs. We perform thorough experiments to analyze disassortative graph datasets and evaluate our non-local GNNs. Experimental results demonstrate that our non-local GNNs significantly outperform previous state-of-the-art methods on seven benchmark datasets of disassortative graphs, in terms of both model performance and efficiency.
翻訳日:2022-11-26 22:56:22 公開日:2021-12-11
# M2P2: アダプティブフュージョンを用いたマルチモーダルパーサーション予測

M2P2: Multimodal Persuasion Prediction using Adaptive Fusion ( http://arxiv.org/abs/2006.11405v2 )

ライセンス: Link先を確認
Chongyang Bai, Haipeng Chen, Srijan Kumar, Jure Leskovec, V.S. Subrahmanian(参考訳) 敵環境における説得的話者の識別は重要な課題である。 国民選挙では、政治家は説得力のある演説者を代表して選挙運動をしたい。 企業が不当な宣伝に直面した場合には、批判的な敵の存在下で、説得力のある支持者にその立場を訴えたい。 議論は、このような逆説の説得の共通基盤を表す。 本稿では,ディベートアウトカム予測(DOP)問題と,講演者の発言前後の投票数の変化を予測するIPP問題という2つの問題を解決する。 DOPは以前から研究されてきたが、我々はIPPを初めて研究している。 DOPに関する過去の研究では、マルチモーダルデータの2つの重要な側面を活用できなかった。 1)複数のモダリティは、しばしば意味的に一致し、 2)異なるモダリティは、予測のための多様な情報を提供することができる。 我々のM2P2(Multimodal Persuasion Prediction)フレームワークは、IPP問題を解決するためにマルチモーダル(音響、視覚、言語)データを使用した最初のフレームワークです。 M2P2は、異なるモジュール間の共有情報を抽出するアライメントモジュールと、異なるモジュールの重みを、別々に訓練された3つのユニモーダル参照モデルからのガイダンスで学習するヘテロジニティモジュールという、2つのモジュールから得られる埋め込みを融合させる新しい適応型融合学習フレームワークを考案した。 DOP用に設計された一般的なIQ2USデータセット上でM2P2をテストする。 また、IPPのためのQPS(Qipashuo、人気の中国の討論番組)という新しいデータセットも紹介する。 M2P2は、両方のデータセットで4つの最近のベースラインを大きく上回っている。

Identifying persuasive speakers in an adversarial environment is a critical task. In a national election, politicians would like to have persuasive speakers campaign on their behalf. When a company faces adverse publicity, they would like to engage persuasive advocates for their position in the presence of adversaries who are critical of them. Debates represent a common platform for these forms of adversarial persuasion. This paper solves two problems: the Debate Outcome Prediction (DOP) problem predicts who wins a debate while the Intensity of Persuasion Prediction (IPP) problem predicts the change in the number of votes before and after a speaker speaks. Though DOP has been previously studied, we are the first to study IPP. Past studies on DOP fail to leverage two important aspects of multimodal data: 1) multiple modalities are often semantically aligned, and 2) different modalities may provide diverse information for prediction. Our M2P2 (Multimodal Persuasion Prediction) framework is the first to use multimodal (acoustic, visual, language) data to solve the IPP problem. To leverage the alignment of different modalities while maintaining the diversity of the cues they provide, M2P2 devises a novel adaptive fusion learning framework which fuses embeddings obtained from two modules -- an alignment module that extracts shared information between modalities and a heterogeneity module that learns the weights of different modalities with guidance from three separately trained unimodal reference models. We test M2P2 on the popular IQ2US dataset designed for DOP. We also introduce a new dataset called QPS (from Qipashuo, a popular Chinese debate TV show ) for IPP. M2P2 significantly outperforms 4 recent baselines on both datasets.
翻訳日:2022-11-25 17:19:40 公開日:2021-12-11
# VAE-KRnetと変分ベイズへの応用

VAE-KRnet and its applications to variational Bayes ( http://arxiv.org/abs/2006.16431v2 )

ライセンス: Link先を確認
Xiaoliang Wan, Shuangqing Wei(参考訳) 本研究では,標準変分オートエンコーダ(vae)と最近開発したフローベース生成モデル(krnet)を組み合わせた,密度推定や近似のためのvae-krnetと呼ばれる生成モデルを提案する。 vae は潜在空間をキャプチャする次元減少技術として使われ、krnet は潜在変数の分布をモデル化するために用いられる。 データと潜伏変数の間の線形モデルを用いて、VAE-KRnetは標準VAEよりも効果的で堅牢であることを示す。 VAE-KRnetは、データ分布または任意の確率密度関数(PDF)を定数に近似する密度モデルとして用いられる。 VAE-KRnetは次元の点で柔軟である。 次元が比較的小さい場合、krnetは元の確率変数の項で分布を効果的に近似することができる。 高次元の場合、VAE-KRnetを用いて次元還元を組み込むことができる。 VAE-KRnetの1つの重要な応用は、後方分布の近似のための変分ベイズである。 変分ベイズアプローチは、通常、モデルと後部の間のkullback-leibler (kl)の分岐の最小化に基づいている。 高次元分布の場合、効率のために余分な仮定がしばしば導入される次元の呪いのために正確な密度モデルを構築することは非常に困難である。 例えば、古典的な平均場アプローチは次元間の相互独立性を前提としており、これはしばしば過単純化によって過小評価された分散をもたらす。 この問題を軽減するために,潜在確率変数と元の確率変数との相互情報の最大化の損失を考慮に入れ,分散の推定が改善されるように低密度領域からの情報をより多く保持する。

In this work, we have proposed a generative model, called VAE-KRnet, for density estimation or approximation, which combines the canonical variational autoencoder (VAE) with our recently developed flow-based generative model, called KRnet. VAE is used as a dimension reduction technique to capture the latent space, and KRnet is used to model the distribution of the latent variable. Using a linear model between the data and the latent variable, we show that VAE-KRnet can be more effective and robust than the canonical VAE. VAE-KRnet can be used as a density model to approximate either data distribution or an arbitrary probability density function (PDF) known up to a constant. VAE-KRnet is flexible in terms of dimensionality. When the number of dimensions is relatively small, KRnet can effectively approximate the distribution in terms of the original random variable. For high-dimensional cases, we may use VAE-KRnet to incorporate dimension reduction. One important application of VAE-KRnet is the variational Bayes for the approximation of the posterior distribution. The variational Bayes approaches are usually based on the minimization of the Kullback-Leibler (KL) divergence between the model and the posterior. For high-dimensional distributions, it is very challenging to construct an accurate density model due to the curse of dimensionality, where extra assumptions are often introduced for efficiency. For instance, the classical mean-field approach assumes mutual independence between dimensions, which often yields an underestimated variance due to oversimplification. To alleviate this issue, we include into the loss the maximization of the mutual information between the latent random variable and the original random variable, which helps keep more information from the region of low density such that the estimation of variance is improved.
翻訳日:2022-11-15 14:05:22 公開日:2021-12-11
# 敵の例をより移譲しやすくする

Making Adversarial Examples More Transferable and Indistinguishable ( http://arxiv.org/abs/2007.03838v2 )

ライセンス: Link先を確認
Junhua Zou, Yexin Duan, Boyu Li, Wu Zhang, Yu Pan, Zhisong Pan(参考訳) 高速勾配標識攻撃シリーズは、敵の例を生成するために使われる一般的な方法である。 しかし, 高速勾配標識攻撃級数に基づくアプローチは, 基本符号構造に制約があるため, 不明瞭性と伝達性のバランスが取れない。 この問題に対処するために,Adam Iterative Fast Gradient Tanh Method (AI-FGTM) という手法を提案する。 さらに、より小さなカーネルと動的ステップサイズも適用され、攻撃成功率をさらに高める敵の例を生成する。 ImageNet互換データセットの大規模な実験により、我々の手法はより識別不能な敵のサンプルを生成し、余分な実行時間やリソースを伴わずにより高い攻撃成功率を達成する。 我々の最高のトランスファーベースの攻撃であるni-ti-di-aitmは、平均成功率89.3%の6つの古典的な防御モデルと、平均成功率82.7%の3つの先進的な防御モデルを騙すことができる。 また,提案手法は平均摂動量を20%近く削減できる。 提案手法は, より優れた転送性と不明瞭性を有する逆例を生成するための新しいベースラインとして機能することを期待している。

Fast gradient sign attack series are popular methods that are used to generate adversarial examples. However, most of the approaches based on fast gradient sign attack series cannot balance the indistinguishability and transferability due to the limitations of the basic sign structure. To address this problem, we propose a method, called Adam Iterative Fast Gradient Tanh Method (AI-FGTM), to generate indistinguishable adversarial examples with high transferability. Besides, smaller kernels and dynamic step size are also applied to generate adversarial examples for further increasing the attack success rates. Extensive experiments on an ImageNet-compatible dataset show that our method generates more indistinguishable adversarial examples and achieves higher attack success rates without extra running time and resource. Our best transfer-based attack NI-TI-DI-AITM can fool six classic defense models with an average success rate of 89.3% and three advanced defense models with an average success rate of 82.7%, which are higher than the state-of-the-art gradient-based attacks. Additionally, our method can also reduce nearly 20% mean perturbation. We expect that our method will serve as a new baseline for generating adversarial examples with better transferability and indistinguishability.
翻訳日:2022-11-12 12:40:21 公開日:2021-12-11
# 音声ストリームからの異常事象検出のための中国語エンドツーエンド音声理解

Ensemble Chinese End-to-End Spoken Language Understanding for Abnormal Event Detection from audio stream ( http://arxiv.org/abs/2010.09235v2 )

ライセンス: Link先を確認
Haoran Wei, Fei Tao, Runze Su, Sen Yang, Ji Liu(参考訳) 従来の音声言語理解(SLU)は2段階から構成されており、第1段階は自動音声認識(ASR)で音声をテキストにマッピングし、第2段階は自然言語理解(NLU)でテキストを意図にマッピングする。 エンドツーエンドのSLUは、単一のディープラーニングモデルを通じて、音声を直接インテントにマップする。 従来のエンドツーエンドのSLUモデルは、主に英語環境において、大規模なSLUデータセットが欠如しているため、音声から特徴を抽出するために1つのASRモデルのみが使用される。 Kuaishouテクノロジーの助けを借りて、中国語の大規模なSLUデータセットを収集し、ライブオーディオストリームの異常事象を検出する。 本稿では,このデータセットに基づいて,中国環境におけるエンドツーエンドsluモデルを提案する。 このアンサンブルSLUモデルは、複数の事前訓練されたASRモデルを用いて階層的特徴を抽出し、音素レベルと単語レベル情報の表現性を向上した。 提案手法は従来のSLUモデルと比較して9.7%の精度向上を実現した。

Conventional spoken language understanding (SLU) consist of two stages, the first stage maps speech to text by automatic speech recognition (ASR), and the second stage maps text to intent by natural language understanding (NLU). End-to-end SLU maps speech directly to intent through a single deep learning model. Previous end-to-end SLU models are primarily used for English environment due to lacking large scale SLU dataset in Chines, and use only one ASR model to extract features from speech. With the help of Kuaishou technology, a large scale SLU dataset in Chinese is collected to detect abnormal event in their live audio stream. Based on this dataset, this paper proposed a ensemble end-to-end SLU model used for Chinese environment. This ensemble SLU models extracted hierarchies features using multiple pre-trained ASR models, leading to better representation of phoneme level and word level information. This proposed approached achieve 9.7% increase of accuracy compared to previous end-to-end SLU model.
翻訳日:2022-10-05 23:28:35 公開日:2021-12-11
# 最適計画の学習:潜在モデルアンサンブルによる不確実性誘導深層探査

Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via Latent Model Ensembles ( http://arxiv.org/abs/2010.14641v3 )

ライセンス: Link先を確認
Tim Seyde, Wilko Schwarting, Sertac Karaman, Daniela Rus(参考訳) インタラクションを通じて複雑なロボットの動作を学ぶには、構造化された探索が必要である。 計画では、長期的なパフォーマンスを最適化する可能性との相互作用を目標としつつ、この目的に結びつく不確実性を減らす必要がある。 本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。 潜在世界モデルと値関数推定を組み合わせることで,無限ホリゾンリターンを予測し,エンセムリングによって関連する不確実性を回復する。 このポリシーは、長期的なパフォーマンスを改善するために最も有望な相互作用を識別し、選択するために、上位信頼境界(UCB)の目標に基づいて訓練される。 我々は,連続的な行動空間における視覚ロボット制御タスクにloveを適用し,平均20%以上のサンプル効率向上を実証した。 スパースで調査が難しい環境では、平均30%以上の改善を実現しています。

Learning complex robot behaviors through interaction requires structured exploration. Planning should target interactions with the potential to optimize long-term performance, while only reducing uncertainty where conducive to this objective. This paper presents Latent Optimistic Value Exploration (LOVE), a strategy that enables deep exploration through optimism in the face of uncertain long-term rewards. We combine latent world models with value function estimation to predict infinite-horizon returns and recover associated uncertainty via ensembling. The policy is then trained on an upper confidence bound (UCB) objective to identify and select the interactions most promising to improve long-term performance. We apply LOVE to visual robot control tasks in continuous action spaces and demonstrate on average more than 20% improved sample efficiency in comparison to state-of-the-art and other exploration objectives. In sparse and hard to explore environments we achieve an average improvement of over 30%.
翻訳日:2022-10-02 11:38:50 公開日:2021-12-11
# cliniqg4qa: 臨床質問応答のドメイン適応のための多様な質問の生成

CliniQG4QA: Generating Diverse Questions for Domain Adaptation of Clinical Question Answering ( http://arxiv.org/abs/2010.16021v3 )

ライセンス: Link先を確認
Xiang Yue and Xinliang Frederick Zhang and Ziyu Yao and Simon Lin and Huan Sun(参考訳) clinical question answering (qa) は、臨床テキストに基づいて、医療専門家からの質問に自動的に答えることを目的としている。 研究によると、あるコーパスでトレーニングされた神経質QAモデルは、異なる機関や別の患者グループからの新しい臨床テキストにうまく一般化できない可能性がある。 この課題に対処するために,質問生成(QG)を活用して新たな臨床状況でQAペアを合成し,手動のアノテーションを必要とせずにQAモデルを向上する,シンプルで効果的なフレームワークであるCliniQG4QAを提案する。 さらに,QAモデルの学習に不可欠な多様な質問を生成するために,既存のQGモデルと併用して生成を多様化する,Seq2seqベースの質問句予測(QPP)モジュールを導入する。 総合実験の結果,我々のフレームワークが生成するqaコーパスは,新たなコンテキストにおけるqaモデル(最大8%の絶対利得)を改善し,qppモジュールが利得を達成する上で重要な役割を担っていることが示された。

Clinical question answering (QA) aims to automatically answer questions from medical professionals based on clinical texts. Studies show that neural QA models trained on one corpus may not generalize well to new clinical texts from a different institute or a different patient group, where large-scale QA pairs are not readily available for model retraining. To address this challenge, we propose a simple yet effective framework, CliniQG4QA, which leverages question generation (QG) to synthesize QA pairs on new clinical contexts and boosts QA models without requiring manual annotations. In order to generate diverse types of questions that are essential for training QA models, we further introduce a seq2seq-based question phrase prediction (QPP) module that can be used together with most existing QG models to diversify the generation. Our comprehensive experiment results show that the QA corpus generated by our framework can improve QA models on the new contexts (up to 8% absolute gain in terms of Exact Match), and that the QPP module plays a crucial role in achieving the gain.
翻訳日:2022-10-01 16:45:25 公開日:2021-12-11
# Visual Adjacency Analysis を用いたページセグメンテーション

Page Segmentation using Visual Adjacency Analysis ( http://arxiv.org/abs/2112.11975v1 )

ライセンス: Link先を確認
Mohammad Bajammal, Ali Mesbah(参考訳) ページセグメンテーション(英: Page segmentation)は、ページをサイドバー、ヘッダ、フッタなどの凝集セグメントに分割するWebページ分析プロセスである。 現在のページセグメンテーションアプローチでは、DOM、テキストコンテンツ、ページのスタイル情報のいずれかを使用する。 しかし、これらのアプローチには、多数のパラメータやページに関する厳密な仮定など、多くの欠点があり、セグメンテーションの精度に悪影響を及ぼす。 局所化隣接領域の視覚的解析に基づく新しいページセグメンテーション手法を提案する。 DOM属性とビジュアル分析を組み合わせて、特定のページの機能を構築し、教師なしクラスタリングをガイドします。 実世界の35のWebページに対するアプローチを評価し,セグメンテーションの有効性と効率について検討した。 その結果,最先端の手法と比較して,精度は平均156%向上し,f-measureは249%向上した。

Page segmentation is a web page analysis process that divides a page into cohesive segments, such as sidebars, headers, and footers. Current page segmentation approaches use either the DOM, textual content, or rendering style information of the page. However, these approaches have a number of drawbacks, such as a large number of parameters and rigid assumptions about the page, which negatively impact their segmentation accuracy. We propose a novel page segmentation approach based on visual analysis of localized adjacency regions. It combines DOM attributes and visual analysis to build features of a given page and guide an unsupervised clustering. We evaluate our approach on 35 real-world web pages, and examine the effectiveness and efficiency of segmentation. The results show that, compared with state-of-the-art, our approach achieves an average of 156% increase in precision and 249% improvement in F-measure.
翻訳日:2021-12-26 13:20:35 公開日:2021-12-11
# 遠隔地における自動喘息モニタリングのための意思決定支援システムの構築

Building a Decision Support System for Automated Mobile Asthma Monitoring in Remote Areas ( http://arxiv.org/abs/2112.11195v1 )

ライセンス: Link先を確認
Chinazunwa Uwaoma, Gunjan Mansingh(参考訳) モバイルコンピューティングの進歩は、スマートフォンをデータ取得、分析、プレゼンテーションのプラットフォームとして利用する健康アプリケーションの開発に道を開いた。 mhealthシステムが広く展開されている領域には、心血管疾患や肺疾患などの長期的な健康状態のモニタリングや、そのような状態の基準値からの変化の検出が含まれる。 喘息は、この病気に伴う経済的、社会的、感情的な負担により、世界中で懸念が高まっている呼吸状態の1つである。 喘息の管理と制御は、攻撃がいつでもどこでも起こりうるので、リアルタイムに状態を一貫した監視によって改善することができる。 本稿では,運動によって引き起こされた喘息の早期症状を捉え解析するために,内蔵センサを搭載したスマートフォンを用いた。 システムデザインは、喘息発作の前兆となる気象条件だけでなく、患者の身体活動のレベルやタイプを計測し分析するための意思決定支援システム技術に基づいている。 予備的な結果は、スマートフォンが他のネットワークデバイスを使わずに喘息症状をモニターし、検出することができることを示している。 これにより、ユーザのデータのプライバシを確保しながら、ヘルスシステムのユーザビリティを高め、システムデプロイメント全体のコストを削減できる。 さらに,特定医療機器へのアクセスが限られ,医療従事者が不足している低所得国において,喘息患者に対する迅速な医療対応のための便利なツールとして,提案システムを利用した。 このようなモニタリングシステムの開発は喘息の世界的な負担軽減にポジティブな反応を示す。

Advances in mobile computing have paved the way for the development of several health applications using smartphone as a platform for data acquisition, analysis and presentation. Such areas where mhealth systems have been extensively deployed include monitoring of long term health conditions like Cardio Vascular Diseases and pulmonary disorders, as well as detection of changes from baseline measurements of such conditions. Asthma is one of the respiratory conditions with growing concern across the globe due to the economic, social and emotional burden associated with the ailment. The management and control of asthma can be improved by consistent monitoring of the condition in realtime since attack could occur anytime and anywhere. This paper proposes the use of smartphone equipped with embedded sensors, to capture and analyze early symptoms of asthma triggered by exercise. The system design is based on Decision Support System techniques for measuring and analyzing the level and type of patients physical activity as well as weather conditions that predispose asthma attack. Preliminary results show that smartphones can be used to monitor and detect asthma symptoms without other networked devices. This would enhance the usability of the health system while ensuring users data privacy, and reducing the overall cost of system deployment. Further, the proposed system can serve as a handy tool for a quick medical response for asthmatics in low income countries where there are limited access to specialized medical devices and shortages of health professionals. Development of such monitoring systems signals a positive response to lessen the global burden of asthma.
翻訳日:2021-12-26 13:20:21 公開日:2021-12-11
# スマートフォンセンサを用いた呼吸健康の身体活動レベルと環境条件閾値の推定

Estimation of Physical Activity Level and Ambient Condition Thresholds for Respiratory Health using Smartphone Sensors ( http://arxiv.org/abs/2112.09068v1 )

ライセンス: Link先を確認
Chinazunwa Uwaoma(参考訳) 身体活動は慢性疾患の主な予防策とされてきたが、悪環境下での激しい身体運動も慢性呼吸器疾患の悪化に寄与していると報告されている。 患者の種類や身体活動のレベルを監視してバランスを維持することは、呼吸器疾患の管理コストと負担を軽減するのに役立つ。 本稿では,運動誘発呼吸状態(eircs)の症状を誘発する身体活動閾値を推定するために,スマートフォンにおける運動センサの可能性を検討する。 焦点は、組込み動作センサから測定値を抽出することで、個人の呼吸健康に許容される活動レベルと活動の種類を決定することである。 計算は、信号等級領域(sma)とエネルギー支出(ee)の相関に基づいて行われる。 また,体温や湿度などの環境条件の変化の影響も,運動時の呼吸障害の要因として考慮した。 健康な個人から収集した実時間データを用いて,ElectRCを用いた個人の身体活動のレベルを調節するツールとして携帯電話の可能性を示した。 呼吸器の健康向上に実験結果を適用した実践的な状況について述べる。

While physical activity has been described as a primary prevention against chronic diseases, strenuous physical exertion under adverse ambient conditions has also been reported as a major contributor to exacerbation of chronic respiratory conditions. Maintaining a balance by monitoring the type and the level of physical activities of affected individuals, could help in reducing the cost and burden of managing respiratory ailments. This paper explores the potentiality of motion sensors in Smartphones to estimate physical activity thresholds that could trigger symptoms of exercise induced respiratory conditions (EiRCs). The focus is on the extraction of measurements from the embedded motion sensors to determine the activity level and the type of activity that is tolerable to individuals respiratory health. The calculations are based on the correlation between Signal Magnitude Area (SMA) and Energy Expenditure (EE). We also consider the effect of changes in the ambient conditions like temperature and humidity, as contributing factors to respiratory distress during physical exercise. Real time data collected from healthy individuals were used to demonstrate the potentiality of a mobile phone as tool to regulate the level of physical activities of individuals with EiRCs. We describe a practical situation where the experimental outcomes can be applied to promote good respiratory health.
翻訳日:2021-12-19 12:28:29 公開日:2021-12-11
# (参考訳) SLOSH:スライスワッセルシュタイン埋め込みによる局所感性ハッシュの設定

SLOSH: Set LOcality Sensitive Hashing via Sliced-Wasserstein Embeddings ( http://arxiv.org/abs/2112.05872v1 )

ライセンス: CC BY 4.0
Yuzhe Lu, Xinran Liu, Andrea Soltoggio, Soheil Kolouri(参考訳) 集合構造データからの学習は、機械学習とコンピュータビジョンの多くの応用において重要な問題である。 本稿では, 近接近傍(ANN)ソリューション, 特に局所性に敏感なハッシュを用いた, 集合構造データからの非パラメトリックおよびデータ非依存学習に焦点を当てた。 入力集合クエリから集合を抽出する問題を考察する。 このような検索問題には 1)集合間の距離/相違を効率的に計算する機構 2) 高速近接探索に適したデータ構造 そこで本研究では,sliced-wasserstein set embeddedを計算効率の良い"set-2-vector"機構として提案する。 集合要素は未知の基底分布からサンプルとして扱われ、スライス・ヴァッサーシュタイン距離を用いて集合を比較する。 本研究では,様々な集合検索データセット上で,slosh(set-locality sensitive hashing)と呼ばれるアルゴリズムの有効性を実証し,一般化平均/プール,fspool(featurewise sort pooling),共分散プーリング(covariance pooling)などの標準組込み手法と比較し,結果の一貫した改善を示す。 結果を複製するコードは以下の通りである。 \href{https://github.com/mint-vu/SLOSH}{https://github.com/mint-vu/SLOSH}。

Learning from set-structured data is an essential problem with many applications in machine learning and computer vision. This paper focuses on non-parametric and data-independent learning from set-structured data using approximate nearest neighbor (ANN) solutions, particularly locality-sensitive hashing. We consider the problem of set retrieval from an input set query. Such retrieval problem requires: 1) an efficient mechanism to calculate the distances/dissimilarities between sets, and 2) an appropriate data structure for fast nearest neighbor search. To that end, we propose Sliced-Wasserstein set embedding as a computationally efficient "set-2-vector" mechanism that enables downstream ANN, with theoretical guarantees. The set elements are treated as samples from an unknown underlying distribution, and the Sliced-Wasserstein distance is used to compare sets. We demonstrate the effectiveness of our algorithm, denoted as Set-LOcality Sensitive Hashing (SLOSH), on various set retrieval datasets and compare our proposed embedding with standard set embedding approaches, including Generalized Mean (GeM) embedding/pooling, Featurewise Sort Pooling (FSPool), and Covariance Pooling and show consistent improvement in retrieval results. The code for replicating our results is available here: \href{https://github.com/mint-vu/SLOSH}{https://github.com/mint-vu/SLOSH}.
翻訳日:2021-12-18 16:23:36 公開日:2021-12-11
# (参考訳) 深いガウス過程に対する疎拡大

A Sparse Expansion For Deep Gaussian Processes ( http://arxiv.org/abs/2112.05888v1 )

ライセンス: CC BY 4.0
Liang Ding and Rui Tuo and Shahin Shahrampour(参考訳) 深層ガウス過程(dgp)は、複雑な深層機械学習モデルの不確かさを定量化するために非パラメトリックなアプローチを可能にする。 DGPモデルの従来の推論手法は、トレーニングと推論のためにカーネル行列を用いた大規模演算を必要とするため、計算の複雑さに悩まされる。 本研究では, テンソルマルコフ・ガウス過程 (TMGP) と呼ばれる, ガウス過程の範囲に基づいて, 正確な推測と予測を行うための効率的なスキームを提案する。 階層展開(hierarchical expansion)と呼ばれるTMGPの誘導近似を構築する。 次に,深部TMGP(DTMGP)モデルを構築し,TMGPの多重階層展開の合成を行う。 提案したDTMGPモデルには以下の特性がある: 1) 各活性化関数の出力は決定論的であり, ウェイトは標準ガウス分布から独立に選択される; (2) トレーニングや予測において、O(polylog(M)) のみ(M) アクティベーション関数はゼロでない出力を持ち、計算効率を大幅に向上する。 実データセットに対する数値実験により、DTMGPの計算効率は他のDGPモデルよりも優れていることを示した。

Deep Gaussian Processes (DGP) enable a non-parametric approach to quantify the uncertainty of complex deep machine learning models. Conventional inferential methods for DGP models can suffer from high computational complexity as they require large-scale operations with kernel matrices for training and inference. In this work, we propose an efficient scheme for accurate inference and prediction based on a range of Gaussian Processes, called the Tensor Markov Gaussian Processes (TMGP). We construct an induced approximation of TMGP referred to as the hierarchical expansion. Next, we develop a deep TMGP (DTMGP) model as the composition of multiple hierarchical expansion of TMGPs. The proposed DTMGP model has the following properties: (1) the outputs of each activation function are deterministic while the weights are chosen independently from standard Gaussian distribution; (2) in training or prediction, only O(polylog(M)) (out of M) activation functions have non-zero outputs, which significantly boosts the computational efficiency. Our numerical experiments on real datasets show the superior computational efficiency of DTMGP versus other DGP models.
翻訳日:2021-12-18 16:04:27 公開日:2021-12-11
# (参考訳) デバイス上方向聴力のためのハイブリッドニューラルネットワーク

Hybrid Neural Networks for On-device Directional Hearing ( http://arxiv.org/abs/2112.05893v1 )

ライセンス: CC BY 4.0
Anran Wang, Maruchi Kim, Hao Zhang, Shyamnath Gollakota(参考訳) デバイス上での指向性聴覚は、特定の方向からオーディオソースを分離し、厳しい人間に受け入れられないレイテンシ要件を達成する必要がある。 ニューラルネットは従来のビームフォーマよりも大幅にパフォーマンスが向上するが、既存のモデルはすべて、計算に制約のあるウェアラブル上での低レイテンシ因果推論をサポートしない。 従来のビームフォーマと独自の軽量ニューラルネットワークを組み合わせたハイブリッドモデルであるDeepBeamを紹介する。 前者は後者の計算負荷を軽減し、その一般化性も向上し、後者はメモリと計算オーバーヘッドをさらに削減し、リアルタイムかつ低遅延操作を可能にするように設計されている。 本評価は,モデルサイズの5倍削減,毎秒の計算量の4倍削減,処理時間の5倍削減,実データへの一般化など,合成データにおける最先端因果推論モデルと同等の性能を示す。 さらに、リアルタイムハイブリッドモデルは、低消費電力ウェアラブルデバイス用に設計されたモバイルcpu上で8msで動作し、エンドツーエンドのレイテンシ17.5msを実現しています。

On-device directional hearing requires audio source separation from a given direction while achieving stringent human-imperceptible latency requirements. While neural nets can achieve significantly better performance than traditional beamformers, all existing models fall short of supporting low-latency causal inference on computationally-constrained wearables. We present DeepBeam, a hybrid model that combines traditional beamformers with a custom lightweight neural net. The former reduces the computational burden of the latter and also improves its generalizability, while the latter is designed to further reduce the memory and computational overhead to enable real-time and low-latency operations. Our evaluation shows comparable performance to state-of-the-art causal inference models on synthetic data while achieving a 5x reduction of model size, 4x reduction of computation per second, 5x reduction in processing time and generalizing better to real hardware data. Further, our real-time hybrid model runs in 8 ms on mobile CPUs designed for low-power wearable devices and achieves an end-to-end latency of 17.5 ms.
翻訳日:2021-12-18 16:03:20 公開日:2021-12-11
# (参考訳) エッジにおけるフェデレーション強化学習

Federated Reinforcement Learning at the Edge ( http://arxiv.org/abs/2112.05908v1 )

ライセンス: CC BY 4.0
Konstantinos Gatsis(参考訳) 現代のサイバーフィジカルアーキテクチャは、異なる物理的場所にあるシステムから収集されたデータを使用して適切な行動を学び、不確定な環境に適応する。 しかし、ネットワークシステムの端にある通信交換はリソースが限られているためコストがかかるため、重要な課題が発生する。 本稿では,分散的に収集した時系列データを用いて強化学習問題を解くために,複数のエージェントが効率的にコミュニケーションする必要がある環境について考察する。 これは、通信ネットワーク上で近似値関数を学習するものとして設定される。 通信効率を達成するためのアルゴリズムとして, 理論的な保証, 実践的実装, 数値評価が提案されている。 このアプローチは、十分な情報を収集した場合にのみ通信するという考え方に基づいている。

Modern cyber-physical architectures use data collected from systems at different physical locations to learn appropriate behaviors and adapt to uncertain environments. However, an important challenge arises as communication exchanges at the edge of networked systems are costly due to limited resources. This paper considers a setup where multiple agents need to communicate efficiently in order to jointly solve a reinforcement learning problem over time-series data collected in a distributed manner. This is posed as learning an approximate value function over a communication network. An algorithm for achieving communication efficiency is proposed, supported with theoretical guarantees, practical implementations, and numerical evaluations. The approach is based on the idea of communicating only when sufficiently informative data is collected.
翻訳日:2021-12-18 15:49:25 公開日:2021-12-11
# (参考訳) 深層学習における神経注意モデル:調査と分類

Neural Attention Models in Deep Learning: Survey and Taxonomy ( http://arxiv.org/abs/2112.05909v1 )

ライセンス: CC0 1.0
Alana Santana and Esther Colombini(参考訳) 注意は、ある情報に選択的に焦点を合わせ、他の知覚可能な情報を無視して、人間の限られた処理ボトルネックに対処できる覚醒状態である。 何十年もの間、哲学、心理学、神経科学、計算の分野で注目される概念と機能が研究されてきた。 現在、この性質はディープニューラルネットワークで広く研究されている。 現在、多くの異なるニューラルアテンションモデルが利用可能であり、過去6年間で非常に活発な研究領域となっている。 注意の理論的な観点からは、本研究は主要な神経注意モデルの批判的分析を提供する。 本稿では,深層学習に先行する理論的側面を裏付ける分類法を提案する。 我々の分類学は、新しい質問と既存の注意機構の理解を構造化する組織構造を提供する。 特に、心理学と神経科学の古典研究から得られた17の基準を定式化し、650以上の論文から得られた51のモデルについて定性的比較と批判的分析を行った。 また,生物の可視性に関する議論,最近の研究動向の強調,今後の展望など,まだ検討されていないいくつかの理論的課題を強調した。

Attention is a state of arousal capable of dealing with limited processing bottlenecks in human beings by focusing selectively on one piece of information while ignoring other perceptible information. For decades, concepts and functions of attention have been studied in philosophy, psychology, neuroscience, and computing. Currently, this property has been widely explored in deep neural networks. Many different neural attention models are now available and have been a very active research area over the past six years. From the theoretical standpoint of attention, this survey provides a critical analysis of major neural attention models. Here we propose a taxonomy that corroborates with theoretical aspects that predate Deep Learning. Our taxonomy provides an organizational structure that asks new questions and structures the understanding of existing attentional mechanisms. In particular, 17 criteria derived from psychology and neuroscience classic studies are formulated for qualitative comparison and critical analysis on the 51 main models found on a set of more than 650 papers analyzed. Also, we highlight several theoretical issues that have not yet been explored, including discussions about biological plausibility, highlight current research trends, and provide insights for the future.
翻訳日:2021-12-18 15:30:39 公開日:2021-12-11
# (参考訳) 品質改善のためのオント推論の自動カスタマイズ

Automated Customization of On-Thing Inference for Quality-of-Experience Enhancement ( http://arxiv.org/abs/2112.06918v1 )

ライセンス: CC BY 4.0
Yang Bai, Lixing Chen, Shaolei Ren, Jie Xu(参考訳) インテリジェントアプリケーションの急速な普及は、ディープラーニング(DL)機能をIoT(Internet-of-Things)にプッシュしている。 ディープニューラルネットワーク(DNN)をIoTデバイスに組み込む新たなツールが出現したにも関わらず、DNNアーキテクチャやIoTデバイス、ユーザの好みの不均一性のため、ユーザへの満足度の高いQuality of Experience(QoE)の提供は依然として難しい。 本稿では,IoTデバイス上でのDL推論の自動カスタマイズ(オンシング推論)について検討し,異なる利用シナリオ下でのユーザに適したDNNを用いて,オンシング推論を設定することでユーザQoEを向上させることを目的とする。 提案手法の中核となるDNN選択モジュールは,ユーザのQoEパターンをオンザフライで学習し,学習知識による推論に最適なDNNを特定する。 様々なユーザqoeパターンを扱うための優れた一般化能力を持つ、新しいオンライン学習アルゴリズムであるneuralucbを活用する。 また、知識伝達手法をNeuralUCBに組み込んで学習プロセスを高速化する。 しかし、NeuralUCBはQoE評価をユーザーから頻繁に求めており、これは無視できない不便を引き起こす。 この問題に対処するため,我々はneuralucbの学習効率を維持しつつ,qoe学習回数を削減するためのフィードバック勧誘スキームを設計する。 フレームワークの実用性を改善するために,qoeを集約した実用的問題についても検討した。 我々は合成データと実世界データの両方について実験を行う。 その結果,本手法はユーザQoEパターンを少ないソリケーションで効率的に学習し,IoTデバイスに対する大幅なQoE向上を実現する。

The rapid uptake of intelligent applications is pushing deep learning (DL) capabilities to Internet-of-Things (IoT). Despite the emergence of new tools for embedding deep neural networks (DNNs) into IoT devices, providing satisfactory Quality of Experience (QoE) to users is still challenging due to the heterogeneity in DNN architectures, IoT devices, and user preferences. This paper studies automated customization for DL inference on IoT devices (termed as on-thing inference), and our goal is to enhance user QoE by configuring the on-thing inference with an appropriate DNN for users under different usage scenarios. The core of our method is a DNN selection module that learns user QoE patterns on-the-fly and identifies the best-fit DNN for on-thing inference with the learned knowledge. It leverages a novel online learning algorithm, NeuralUCB, that has excellent generalization ability for handling various user QoE patterns. We also embed the knowledge transfer technique in NeuralUCB to expedite the learning process. However, NeuralUCB frequently solicits QoE ratings from users, which incurs non-negligible inconvenience. To address this problem, we design feedback solicitation schemes to reduce the number of QoE solicitations while maintaining the learning efficiency of NeuralUCB. A pragmatic problem, aggregated QoE, is further investigated to improve the practicality of our framework. We conduct experiments on both synthetic and real-world data. The results indicate that our method efficiently learns the user QoE pattern with few solicitations and provides drastic QoE enhancement for IoT devices.
翻訳日:2021-12-18 14:36:29 公開日:2021-12-11
# (参考訳) マルチジョブフェデレーション学習による効率的なデバイススケジューリング

Efficient Device Scheduling with Multi-Job Federated Learning ( http://arxiv.org/abs/2112.05928v1 )

ライセンス: CC BY 4.0
Chendi Zhou, Ji Liu, Juncheng Jia, Jingbo Zhou, Yang Zhou, Huaiyu Dai, Dejing Dou(参考訳) 近年、エンドユーザーの複数の(エッジ)デバイスで大量の分散データを目撃しているが、分散データの集約は法律や規制によって機械学習ジョブでは依然として困難である。 フェデレートラーニング(FL)は、センシティブな生データを共有せずに分散データを扱うための効果的なアプローチとして現れ、グローバル機械学習モデルを協調的にトレーニングする。 flのサーバは、トレーニングプロセス中にデバイスを選択(およびスケジュール)する必要がある。 しかしながら、flを用いた複数ジョブ用のデバイスのスケジューリングは、依然として重要かつオープンな問題である。 本稿では,複数のジョブの並列トレーニングプロセスを実現するための,新しいマルチジョブFLフレームワークを提案する。 フレームワークはシステムモデルと2つのスケジューリング方法で構成される。 システムモデルでは、複数のジョブの並列トレーニングプロセスを提案し、多様なジョブのトレーニングプロセスにおいて、様々なデバイスのトレーニング時間とデータフェアネスに基づいてコストモデルを構築する。 コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。 複数のジョブとデータセットで広範な実験を行う。 実験の結果,提案手法はトレーニング時間(最大8.67倍)と精度(最大44.6%)において,ベースラインアプローチよりも有意に優れていた。

Recent years have witnessed a large amount of decentralized data in multiple (edge) devices of end-users, while the aggregation of the decentralized data remains difficult for machine learning jobs due to laws or regulations. Federated Learning (FL) emerges as an effective approach to handling decentralized data without sharing the sensitive raw data, while collaboratively training global machine learning models. The servers in FL need to select (and schedule) devices during the training process. However, the scheduling of devices for multiple jobs with FL remains a critical and open problem. In this paper, we propose a novel multi-job FL framework to enable the parallel training process of multiple jobs. The framework consists of a system model and two scheduling methods. In the system model, we propose a parallel training process of multiple jobs, and construct a cost model based on the training time and the data fairness of various devices during the training process of diverse jobs. We propose a reinforcement learning-based method and a Bayesian optimization-based method to schedule devices for multiple jobs while minimizing the cost. We conduct extensive experimentation with multiple jobs and datasets. The experimental results show that our proposed approaches significantly outperform baseline approaches in terms of training time (up to 8.67 times faster) and accuracy (up to 44.6% higher).
翻訳日:2021-12-18 13:46:08 公開日:2021-12-11
# (参考訳) メディアの記憶可能性の課題を予知するメディアEval 2021の概要

Overview of The MediaEval 2021 Predicting Media Memorability Task ( http://arxiv.org/abs/2112.05982v1 )

ライセンス: CC BY 4.0
Rukiye Savran Kiziltepe, Mihai Gabriel Constantin, Claire-Helene Demarty, Graham Healy, Camilo Fosco, Alba Garcia Seco de Herrera, Sebastian Halder, Bogdan Ionescu, Ana Matran-Fernandez, Alan F. Smeaton and Lorin Sweeney(参考訳) 本稿では,メディアの記憶力を予測するための2021年の課題について述べる。これは今年第4版で,短期的・長期的ビデオの記憶力の予測は依然として難しい課題である。 2021年、trecvid 2019 video-to-textデータセットのサブセットであるmemento10kデータセットを使用して、クロスデータセットの一般化を探求する機会を提供する。 また、脳波(eeg)ベースの予測パイロットサブタスクも導入する。 本稿では,課題の主な側面を概説し,参加者の提出に対するデータセット,評価指標,要件について述べる。

This paper describes the MediaEval 2021 Predicting Media Memorability}task, which is in its 4th edition this year, as the prediction of short-term and long-term video memorability remains a challenging task. In 2021, two datasets of videos are used: first, a subset of the TRECVid 2019 Video-to-Text dataset; second, the Memento10K dataset in order to provide opportunities to explore cross-dataset generalisation. In addition, an Electroencephalography (EEG)-based prediction pilot subtask is introduced. In this paper, we outline the main aspects of the task and describe the datasets, evaluation metrics, and requirements for participants' submissions.
翻訳日:2021-12-18 13:24:51 公開日:2021-12-11
# (参考訳) 氷河セグメンテーションにおけるインタラクティブ可視化と表現解析

Interactive Visualization and Representation Analysis Applied to Glacier Segmentation ( http://arxiv.org/abs/2112.08184v1 )

ライセンス: CC BY 4.0
Minxing Zheng (1), Xinran Miao (1), Kris Sankaran (1) ((1) Department of Statistics, University of Wisconsin - Madison)(参考訳) 解釈性は地球観測問題で注目を集めている。 氷河セグメンテーションモデルの解釈にインタラクティブな可視化と表現分析を適用した。 U-Netからのアクティベーションを可視化し、モデルの性能を理解し評価する。 Shiny Rパッケージを使ってオンラインインターフェースを構築し、予測の包括的なエラー解析を行う。 ユーザはパネルと対話し、モデル障害モードを見つけることができる。 さらに,データ前処理やモデルトレーニングにおいて,ビジュアライゼーションが健全性チェックを実現する方法について論じる。

Interpretability has attracted increasing attention in earth observation problems. We apply interactive visualization and representation analysis to guide interpretation of glacier segmentation models. We visualize the activations from a U-Net to understand and evaluate the model performance. We build an online interface using the Shiny R package to provide comprehensive error analysis of the predictions. Users can interact with the panels and discover model failure modes. Further, we discuss how visualization can provide sanity checks during data preprocessing and model training.
翻訳日:2021-12-18 13:18:50 公開日:2021-12-11
# (参考訳) マルチビューステレオのための曲率誘導動的スケールネットワーク

Curvature-guided dynamic scale networks for Multi-view Stereo ( http://arxiv.org/abs/2112.05999v1 )

ライセンス: CC BY 4.0
Khang Truong Giang, Soohwan Song, and Sungho Jo(参考訳) マルチビューステレオ(MVS)は正確な3次元再構成のための重要な課題である。 直近の研究では, 集約された3次元コストボリュームとその正規化を設計することにより, MVSにおける整合コストボリュームの性能向上を試みた。 本稿では,強固な特徴抽出ネットワークを学習し,他のステップで重計算することなくマッチングコストの性能を向上させることに焦点を当てる。 特に,動的スケール特徴抽出ネットワーク,すなわちCDSFNetを提案する。 複数の新しい畳み込み層で構成され、それぞれが画像表面の通常の曲率でガイドされる各画素に対して適切なパッチスケールを選択することができる。 その結果、cdfsnetは最適なパッチスケールを推定し、参照画像とソース画像の正確なマッチング計算のための識別特徴を学ぶことができる。 頑健な抽出特徴と適切なコスト定式化戦略を組み合わせることで、MVSアーキテクチャによりより正確に深度マップを推定できる。 大規模な実験により,提案手法は複雑な屋外シーンにおける他の最先端手法よりも優れていた。 復元されたモデルの完全性が大幅に向上する。 その結果、他のMVS法よりも高速な実行時および低メモリで高解像度入力を処理できる。 ソースコードはurl{https://github.com/truongkhang/cds-mvsnet}から入手できます。

Multi-view stereo (MVS) is a crucial task for precise 3D reconstruction. Most recent studies tried to improve the performance of matching cost volume in MVS by designing aggregated 3D cost volumes and their regularization. This paper focuses on learning a robust feature extraction network to enhance the performance of matching costs without heavy computation in the other steps. In particular, we present a dynamic scale feature extraction network, namely, CDSFNet. It is composed of multiple novel convolution layers, each of which can select a proper patch scale for each pixel guided by the normal curvature of the image surface. As a result, CDFSNet can estimate the optimal patch scales to learn discriminative features for accurate matching computation between reference and source images. By combining the robust extracted features with an appropriate cost formulation strategy, our resulting MVS architecture can estimate depth maps more precisely. Extensive experiments showed that the proposed method outperforms other state-of-the-art methods on complex outdoor scenes. It significantly improves the completeness of reconstructed models. As a result, the method can process higher resolution inputs within faster run-time and lower memory than other MVS methods. Our source code is available at url{https://github.com/TruongKhang/cds-mvsnet}.
翻訳日:2021-12-17 11:51:30 公開日:2021-12-11
# (参考訳) SGDにおけるミニバッチサンプリングのための直交多項式に基づく決定点過程

Determinantal point processes based on orthogonal polynomials for sampling minibatches in SGD ( http://arxiv.org/abs/2112.06007v1 )

ライセンス: CC0 1.0
Remi Bardenet, Subhro Ghosh, Meixia Lin(参考訳) 確率勾配降下(SGD)は機械学習の基盤となっている。 データ項目の数値Nが大きい場合、SGDは、ミニバッチと呼ばれる元のデータセットの小さなサブセットを使用して、経験的リスクの勾配のバイアスのない推定器を構築することに依存する。 デフォルトのミニバッチ構成では、所望のサイズのサブセットを均一にサンプリングするが、分散低減のために代替案が検討されている。 特に、実験的な証拠は、決定的点過程(dpps)からミニバッチを描き、選択された項目の多様性を好むミニバッチ上の分布を示唆している。 しかし、コアセットのDPPに関する最近の研究のように、DPPがどのように、なぜ助けられるのかを体系的で原則的に理解することは困難である。 本研究では,SGD におけるミニバッチサンプリングのための直交多項式に基づく DPP パラダイムを提案する。 提案手法は,既存のデータに依存しない手法よりも高感度で高感度なデータ分散を実現する。 本手法は,その収束特性を理論的に詳細に解析し,離散データ集合と基礎となる連続領域の間を行き来する手法である。 特に,特定のDPPと制御された近似の列が,一様サンプリングよりもバッチサイズで高速に崩壊するばらつきを持つ勾配推定器にどのように影響するかを示す。 凸目的に対するSGDの既存の有限時間保証と組み合わせると、DPPミニバッチは均一なミニバッチよりも平均二乗近似誤差の小さい境界に導かれる。 さらに,基礎となるdpp(ミニバッチ)をサンプリングすることなく,dppの線形統計量(勾配推定値)を直接サンプリングし,計算オーバーヘッドを低減した最近のアルゴリズムを改良した。 理論的な主張を裏付けるために、詳細な合成と実際のデータ実験を提供する。

Stochastic gradient descent (SGD) is a cornerstone of machine learning. When the number N of data items is large, SGD relies on constructing an unbiased estimator of the gradient of the empirical risk using a small subset of the original dataset, called a minibatch. Default minibatch construction involves uniformly sampling a subset of the desired size, but alternatives have been explored for variance reduction. In particular, experimental evidence suggests drawing minibatches from determinantal point processes (DPPs), distributions over minibatches that favour diversity among selected items. However, like in recent work on DPPs for coresets, providing a systematic and principled understanding of how and why DPPs help has been difficult. In this work, we contribute an orthogonal polynomial-based DPP paradigm for minibatch sampling in SGD. Our approach leverages the specific data distribution at hand, which endows it with greater sensitivity and power over existing data-agnostic methods. We substantiate our method via a detailed theoretical analysis of its convergence properties, interweaving between the discrete data set and the underlying continuous domain. In particular, we show how specific DPPs and a string of controlled approximations can lead to gradient estimators with a variance that decays faster with the batchsize than under uniform sampling. Coupled with existing finite-time guarantees for SGD on convex objectives, this entails that, DPP minibatches lead to a smaller bound on the mean square approximation error than uniform minibatches. Moreover, our estimators are amenable to a recent algorithm that directly samples linear statistics of DPPs (i.e., the gradient estimator) without sampling the underlying DPP (i.e., the minibatch), thereby reducing computational overhead. We provide detailed synthetic as well as real data experiments to substantiate our theoretical claims.
翻訳日:2021-12-17 11:27:58 公開日:2021-12-11
# (参考訳) 線形コンテキストバンディットのシャッフルによるプライバシ増幅

Privacy Amplification via Shuffling for Linear Contextual Bandits ( http://arxiv.org/abs/2112.06008v1 )

ライセンス: CC BY 4.0
Evrard Garcelon and Kamalika Chaudhuri and Vianney Perchet and Matteo Pirotta(参考訳) コンテキストバンディットアルゴリズムは、保護が必要な機密情報を含むコンテキスト情報を利用してパーソナライズされたサービスを提供することが望ましいドメインで広く使われている。 このシナリオに触発されて,差分プライバシー(DP)制約を伴う文脈線形帯域問題について検討した。 文献は、中央集権的(共同DP)か地方(ローカルDP)のプライバシに重点を置いているが、プライバシーのシャッフルモデルを考えると、JDPとDPのプライバシ/ユーティリティトレードオフを実現することが可能であることを示す。 プライバシからシャッフルし、バンディットからバッチ化することで、セントラル(ジョイント)とローカルプライバシの両方を保証しながら、後悔に縛られた$\widetilde{\mathcal{o}}(t^{2/3}/\varepsilon^{1/3})$を持つアルゴリズムを提案する。 以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。

Contextual bandit algorithms are widely used in domains where it is desirable to provide a personalized service by leveraging contextual information, that may contain sensitive information that needs to be protected. Inspired by this scenario, we study the contextual linear bandit problem with differential privacy (DP) constraints. While the literature has focused on either centralized (joint DP) or local (local DP) privacy, we consider the shuffle model of privacy and we show that is possible to achieve a privacy/utility trade-off between JDP and LDP. By leveraging shuffling from privacy and batching from bandits, we present an algorithm with regret bound $\widetilde{\mathcal{O}}(T^{2/3}/\varepsilon^{1/3})$, while guaranteeing both central (joint) and local privacy. Our result shows that it is possible to obtain a trade-off between JDP and LDP by leveraging the shuffle model while preserving local privacy.
翻訳日:2021-12-17 10:55:21 公開日:2021-12-11
# (参考訳) 逆入力, 多様性アンサンブル, 領域フィッティングによる逆例の転送性の向上

Improving the Transferability of Adversarial Examples with Resized-Diverse-Inputs, Diversity-Ensemble and Region Fitting ( http://arxiv.org/abs/2112.06011v1 )

ライセンス: CC BY 4.0
Junhua Zou, Zhisong Pan, Junyang Qiu, Xin Liu, Ting Rui, Wei Li(参考訳) 本稿では,Resized-diverse-inputs (RDIM) と多様性アンサンブル (DEM) とリージョンフィッティング (リージョンフィッティング) という3段階のパイプラインを導入し,トランスファー可能な逆例を生成する。 まず,既存の攻撃間の内的関係を探索し,この関係を活用可能なrdimを提案する。 次に、RDIMのマルチスケールバージョンであるDEMを提案し、マルチスケール勾配を生成する。 最初の2つのステップの後に、イテレーション間で値フィッティングを領域フィッティングに変換する。 RDIMとリージョンフィッティングは追加のランニング時間を必要としないため、これらの3つのステップは他の攻撃とうまく統合することができる。 我々の最良の攻撃は6つのブラックボックス防御を騙し、平均93%の成功率は最先端の勾配ベースの攻撃よりも高い。 さらに、パフォーマンスを改善するために古いメソッドに新しいメソッドを積み重ねるのではなく、既存の攻撃を再考する。 本研究は,攻撃手法の内部関係を探究する出発点として期待されている。 コードはhttps://github.com/278287847/DEMで公開されている。

We introduce a three stage pipeline: resized-diverse-inputs (RDIM), diversity-ensemble (DEM) and region fitting, that work together to generate transferable adversarial examples. We first explore the internal relationship between existing attacks, and propose RDIM that is capable of exploiting this relationship. Then we propose DEM, the multi-scale version of RDIM, to generate multi-scale gradients. After the first two steps we transform value fitting into region fitting across iterations. RDIM and region fitting do not require extra running time and these three steps can be well integrated into other attacks. Our best attack fools six black-box defenses with a 93% success rate on average, which is higher than the state-of-the-art gradient-based attacks. Besides, we rethink existing attacks rather than simply stacking new methods on the old ones to get better performance. It is expected that our findings will serve as the beginning of exploring the internal relationship between attack methods. Codes are available at https://github.com/278287847/DEM.
翻訳日:2021-12-17 10:25:16 公開日:2021-12-11
# (参考訳) 経験誘導モンテカルロ木探索による再合成計画

Retrosynthetic Planning with Experience-Guided Monte Carlo Tree Search ( http://arxiv.org/abs/2112.06028v1 )

ライセンス: CC BY-SA 4.0
Siqi Hong, Hankz Hankui Zhuo, Kebing Jin, Zhanwen Zhou(参考訳) 再合成計画問題は、複雑な分子を分析し、単純な構造ブロックを用いて合成経路を与えることである。 膨大な数の化学反応が組み合わさった可能性の爆発を引き起こし、経験豊富な化学者でさえ最も有望な変換を選択できなかった。 現在のアプローチでは、化学的知識が限られている人や機械で訓練されたスコア関数や、ロールアウトなどの高価な推定手法を用いて探索を誘導している。 本稿では,新しいMCTSをベースとしたレトロシンセティックプランニング手法である {\tt MCTS} を提案し,レトロシンセティックプランニング問題に対処する。 ロールアウトを利用する代わりに、検索中に合成体験から知識を学ぶためのエクスペリエンスガイダンスネットワークを構築します。 ベンチマークUSPTOデータセットの実験では、我々のMCTSは、効率と有効性の両方において最先端のアプローチよりも大幅に改善されている。

Retrosynthetic planning problem is to analyze a complex molecule and give a synthetic route using simple building blocks. The huge number of chemical reactions leads to a combinatorial explosion of possibilities, and even the experienced chemists could not select the most promising transformations. The current approaches rely on human-defined or machine-trained score functions which have limited chemical knowledge or use expensive estimation methods such as rollout to guide the search. In this paper, we propose {\tt MCTS}, a novel MCTS-based retrosynthetic planning approach, to deal with retrosynthetic planning problem. Instead of exploiting rollout, we build an Experience Guidance Network to learn knowledge from synthetic experiences during the search. Experiments on benchmark USPTO datasets show that, our {\tt MCTS} gains significant improvement over state-of-the-art approaches both in efficiency and effectiveness.
翻訳日:2021-12-17 10:10:21 公開日:2021-12-11
# (参考訳) 3Dポイントクラウド分類のための自動データ拡張について

On Automatic Data Augmentation for 3D Point Cloud Classification ( http://arxiv.org/abs/2112.06029v1 )

ライセンス: CC BY 4.0
Wanyue Zhang, Xun Xu, Fayao Liu, Chuan-Sheng Foo(参考訳) データ拡張は、オーバーフィッティングを減らし、学習性能を改善するための重要なテクニックであるが、既存の3Dポイントクラウドデータのデータ拡張はヒューリスティックスに基づいている。 そこで本研究では,バイレベル最適化を用いたデータ拡張戦略の自動学習を提案する。 拡張器は条件付きジェネレータと同様に設計され、モデルのトレーニングに拡張入力を使用する場合、検証セットにおけるベースモデルの損失を最小にすることで最適化される。 この定式化は、3dポイントクラウドでデータ拡張を学ぶためのより原則的な方法を提供する。 標準的なクラウド分類タスクに対する我々のアプローチと、トレーニングと検証/テストセットのミスアライメントによるより困難な設定について評価する。 提案手法は両タスクの競合性能を向上し,検証セットの分布を学習する拡張器の能力についてさらなる知見を提供する。

Data augmentation is an important technique to reduce overfitting and improve learning performance, but existing works on data augmentation for 3D point cloud data are based on heuristics. In this work, we instead propose to automatically learn a data augmentation strategy using bilevel optimization. An augmentor is designed in a similar fashion to a conditional generator and is optimized by minimizing a base model's loss on a validation set when the augmented input is used for training the model. This formulation provides a more principled way to learn data augmentation on 3D point clouds. We evaluate our approach on standard point cloud classification tasks and a more challenging setting with pose misalignment between training and validation/test sets. The proposed strategy achieves competitive performance on both tasks and we provide further insight into the augmentor's ability to learn the validation set distribution.
翻訳日:2021-12-17 09:42:11 公開日:2021-12-11
# (参考訳) 光コヒーレンス断層撮影における多重網膜病理合成のための教師なし画像から画像への変換

Unsupervised Image to Image Translation for Multiple Retinal Pathology Synthesis in Optical Coherence Tomography Scans ( http://arxiv.org/abs/2112.06031v1 )

ライセンス: CC BY 4.0
Hemanth Pasupuleti, G. N. Girish(参考訳) Image to Image Translation (I2I)は、複数のタスクで多くの領域で使われているコンピュータビジョンの問題である。 近年,眼科はI2Iの応用が急速に増加している主要な分野の一つとなった。 そのような応用の1つは、合成網膜光コヒーレンストモグラフィー(OCT)スキャンの生成である。 既存のi2iメソッドでは、通常のスキャンから特定の病理学への画像変換のために複数のモデルのトレーニングが必要である。 この問題に対処するために,1領域の網膜CT画像を複数の領域に翻訳する事前学習型エンコーダを用いた教師なしマルチドメインI2Iネットワークを提案する。 画像は、ドメイン不変コンテンツとドメイン固有スタイルコードに分割され、これらのスタイルコードを事前訓練する。 実験により,提案モデルがMUNITやCycleGANなどの最先端モデルより,多様な病理スキャンを合成することを示す。

Image to Image Translation (I2I) is a challenging computer vision problem used in numerous domains for multiple tasks. Recently, ophthalmology became one of the major fields where the application of I2I is increasing rapidly. One such application is the generation of synthetic retinal optical coherence tomographic (OCT) scans. Existing I2I methods require training of multiple models to translate images from normal scans to a specific pathology: limiting the use of these models due to their complexity. To address this issue, we propose an unsupervised multi-domain I2I network with pre-trained style encoder that translates retinal OCT images in one domain to multiple domains. We assume that the image splits into domain-invariant content and domain-specific style codes, and pre-train these style codes. The performed experiments show that the proposed model outperforms state-of-the-art models like MUNIT and CycleGAN synthesizing diverse pathological scans.
翻訳日:2021-12-17 09:28:10 公開日:2021-12-11
# (参考訳) 行動測定は、個人の脳に情報をエンコードする方法によって予測される

Behavior measures are predicted by how information is encoded in an individual's brain ( http://arxiv.org/abs/2112.06048v1 )

ライセンス: CC BY 4.0
Jennifer Williams, Leila Wehbe(参考訳) 心血管系と筋骨格系の習熟度の違いが個人の運動能力を予測するのと同じように、同じ脳領域が個体間で情報をエンコードする方法の違いは、その行動を説明する可能性がある。 しかし、脳がどのように情報をエンコードするかを研究する際、研究者は異なる種類の情報を処理し、異なる脳領域を調節できる異なる神経画像タスク(言語や運動タスクなど)を選択する。 我々は、脳内の情報のエンコード方法の個人差がタスク固有のものであると仮定し、異なる行動指標を予測する。 そこで本研究では,脳のエンコーディングにおける個人差を識別するために,エンコーディングモデルを用いたフレームワークを提案する。 タスク機能型磁気共鳴イメージングデータを用いて,我々の枠組みを評価する。 この結果から, 符号化モデルによる個人差は, 行動予測の強力なツールであり, 研究者は作業選択と符号化モデルの選択を興味ある行動に最適化すべきであることが示唆された。

Similar to how differences in the proficiency of the cardiovascular and musculoskeletal system predict an individual's athletic ability, differences in how the same brain region encodes information across individuals may explain their behavior. However, when studying how the brain encodes information, researchers choose different neuroimaging tasks (e.g., language or motor tasks), which can rely on processing different types of information and can modulate different brain regions. We hypothesize that individual differences in how information is encoded in the brain are task-specific and predict different behavior measures. We propose a framework using encoding-models to identify individual differences in brain encoding and test if these differences can predict behavior. We evaluate our framework using task functional magnetic resonance imaging data. Our results indicate that individual differences revealed by encoding-models are a powerful tool for predicting behavior, and that researchers should optimize their choice of task and encoding-model for their behavior of interest.
翻訳日:2021-12-17 09:17:28 公開日:2021-12-11
# (参考訳) Auto-Tag: データレイクにおけるタグ付けデータバイサンプル

Auto-Tag: Tagging-Data-By-Example in Data Lakes ( http://arxiv.org/abs/2112.06049v1 )

ライセンス: CC BY 4.0
Yeye He, Jie Song, Yue Wang, Surajit Chaudhuri, Vishal Anil, Blake Lassiter, Yaron Goland, Gaurav Malhotra(参考訳) データレイクが大企業で普及するにつれ、推定されたメタデータによってデータガバナンス(gdprコンプライアンスなど)やデータセット検索などのダウンストリームアプリケーションが可能になるため、データレイク内のデータアセット(ファイルやデータベースなど)に追加メタデータ(セマンティックコラムタイプなど)をタグ付けしたり分類したりする必要が増えている。 今日のエンタープライズデータレイクにはペタバイト単位のデータと数百万のデータアセットがあるため、軽量な推論アルゴリズムと最小限のユーザ入力を使用して、データアセットを‘自動タグ’にすることが可能である。 本研究では,企業データレイクにおける \textit{custom} データ型のデータタグ付けを自動化するコーパス駆動型アプローチであるAuto-Tagを開発する。 Auto-Tagを使用すると、ユーザはタグ付けしたいデータ型を示すために、 \textit{one} の例列を提供するだけでよい。 データレイクの軽量なスキャンを使用してオフラインで構築されたインデックス構造を活用することで、auto-tagは、データレイク内の同じ ``type'' の追加データをタグ付けするために、与えられた列の下位の ``domain'' をインタラクティブな速度でベスト ``describe''' にするために、適切なデータパターンを推論することができる。 Auto-Tagアプローチはカスタムデータ型に対応可能で、正確かつ効率的であることが示されている。 Auto-Tagの一部は、クラウドベースのデータガバナンスとカタログソリューションの‘custom-classification’機能として提供される。

As data lakes become increasingly popular in large enterprises today, there is a growing need to tag or classify data assets (e.g., files and databases) in data lakes with additional metadata (e.g., semantic column-types), as the inferred metadata can enable a range of downstream applications like data governance (e.g., GDPR compliance), and dataset search. Given the sheer size of today's enterprise data lakes with petabytes of data and millions of data assets, it is imperative that data assets can be ``auto-tagged'', using lightweight inference algorithms and minimal user input. In this work, we develop Auto-Tag, a corpus-driven approach that automates data-tagging of \textit{custom} data types in enterprise data lakes. Using Auto-Tag, users only need to provide \textit{one} example column to demonstrate the desired data-type to tag. Leveraging an index structure built offline using a lightweight scan of the data lake, which is analogous to pre-training in machine learning, Auto-Tag can infer suitable data patterns to best ``describe'' the underlying ``domain'' of the given column at an interactive speed, which can then be used to tag additional data of the same ``type'' in data lakes. The Auto-Tag approach can adapt to custom data-types, and is shown to be both accurate and efficient. Part of Auto-Tag ships as a ``custom-classification'' feature in a cloud-based data governance and catalog solution \textit{Azure Purview}.
翻訳日:2021-12-17 09:12:12 公開日:2021-12-11
# (参考訳) FedSoft: 局所的更新によるソフトクラスタ型フェデレーション学習

FedSoft: Soft Clustered Federated Learning with Proximal Local Updating ( http://arxiv.org/abs/2112.06053v1 )

ライセンス: CC BY 4.0
Yichen Ruan, Carlee Joe-Wong(参考訳) 従来、クラスタ化されたフェデレーション学習グループは、同じデータ分散をクラスタに格納することで、すべてのクライアントが1つのデータ分散に独自に関連付けられ、この分散のためのモデルをトレーニングするのに役立ちます。 我々は、このハードアソシエーション仮定をソフトクラスタ化フェデレーション学習に緩和し、各ローカルデータセットが複数のソース分布の混合に従うことを可能にする。 この環境では,ローカルパーソナライズされたモデルと高品質なクラスタモデルの両方をトレーニングするfeedsoftを提案する。 fedsoftは、通信ラウンド毎にクライアントのサブセットから1つの最適化タスクだけを完了するように近距離更新を使用することで、クライアントのワークロードを制限する。 我々は、FedSoftがソース分布の類似性を効果的に活用し、パーソナライズされたモデルとクラスタモデルをうまく学習していることを示す。

Traditionally, clustered federated learning groups clients with the same data distribution into a cluster, so that every client is uniquely associated with one data distribution and helps train a model for this distribution. We relax this hard association assumption to soft clustered federated learning, which allows every local dataset to follow a mixture of multiple source distributions. We propose FedSoft, which trains both locally personalized models and high-quality cluster models in this setting. FedSoft limits client workload by using proximal updates to require the completion of only one optimization task from a subset of clients in every communication round. We show, analytically and empirically, that FedSoft effectively exploits similarities between the source distributions to learn personalized and cluster models that perform well.
翻訳日:2021-12-17 08:56:30 公開日:2021-12-11
# (参考訳) 自律的な衛星通信に向けて - システムレベルの課題に対処するaiベースのフレームワーク

Towards Autonomous Satellite Communications: An AI-based Framework to Address System-level Challenges ( http://arxiv.org/abs/2112.06055v1 )

ライセンス: CC BY-SA 4.0
Juan Jose Garau-Luis and Skylar Eiskowitz and Nils Pachler and Edward Crawley and Bruce Cameron(参考訳) 次世代の衛星コンステレーションは、当社のコネクテッド・ソサエティの将来的なニーズ、すなわち高度に変化可能なデータ・デマンド、モバイル・コネクティビティ、そして未利用地域への到達に対処するために設計されている。 人工知能(AI)と学習ベースの手法は、現在のリソース割り当て機構のスケーラビリティが低く、反応時間が遅いことを考えると、業界において重要な役割を果たすことが期待されている。 aiフレームワークは独立した通信タスクやサブプロブレムで検証されているが、完全に自律的な衛星システムを実現するための明確な道はまだない。 この問題の一部は、システムレベルの視点ではなく、モデルを設計する際のサブプロブレムに焦点を当てることから生じる。 本稿では,衛星の自律性を高めるために満たされるシステムレベルのニーズを特徴付けることによって,このギャップを埋めるとともに,それらに共同で対処する3つのAIベースコンポーネント(Demand Estimator, Offline Planner, Real Time Engine)を導入する。 まず、さまざまなサブ問題に関する広範な文献レビューを行い、システムレベルの目標に欠けているリンクを特定します。 これらのギャップに対応するために、3つの必要なコンポーネントを概説し、それらの相互作用を強調する。 また,現在のモデルをフレームワークに組み込む方法や今後の作業の方向性についても検討する。

The next generation of satellite constellations is designed to better address the future needs of our connected society: highly-variable data demand, mobile connectivity, and reaching more under-served regions. Artificial Intelligence (AI) and learning-based methods are expected to become key players in the industry, given the poor scalability and slow reaction time of current resource allocation mechanisms. While AI frameworks have been validated for isolated communication tasks or subproblems, there is still not a clear path to achieve fully-autonomous satellite systems. Part of this issue results from the focus on subproblems when designing models, instead of the necessary system-level perspective. In this paper we try to bridge this gap by characterizing the system-level needs that must be met to increase satellite autonomy, and introduce three AI-based components (Demand Estimator, Offline Planner, and Real Time Engine) that jointly address them. We first do a broad literature review on the different subproblems and identify the missing links to the system-level goals. In response to these gaps, we outline the three necessary components and highlight their interactions. We also discuss how current models can be incorporated into the framework and possible directions of future work.
翻訳日:2021-12-17 08:29:19 公開日:2021-12-11
# プログラミング知識のトレース:包括的なデータセットと新しいモデル

Programming Knowledge Tracing: A Comprehensive Dataset and A New Model ( http://arxiv.org/abs/2112.08273v1 )

ライセンス: Link先を確認
Renyu Zhu, Dongxiang Zhang, Chengcheng Han, Ming Gao, Xuesong Lu, Weining Qian, Aoying Zhou(参考訳) 本稿では,プログラミング教育の領域における知識のトレースを研究し,二つの重要な貢献を行う。 まず,テキスト問題,知識アノテーション,ユーザ投稿コード,システムログイベントなど,OJシステムにおけるさまざまなオンライン動作を網羅した,最も包括的なデータセットであるBePKTを収集,公開する。 第2に,強化された文脈を利用して学生行動の正確な予測を行う新しいモデルpdktを提案する。 より具体的には、プログラミング問題埋め込みのための二部グラフを構築し、コード埋め込みのための改善された事前学習モデルPLCodeBERTと、効果的な特徴融合のための指数減衰注意を持つ二重系列RNNモデルを設計する。 新しいデータセットBePKTの実験結果から,提案モデルがプログラミング知識の追跡において最先端の性能を確立することを示す。 さらに,PLCodeBERTに基づくコード埋め込み戦略が既存の知識追跡モデルと相補的であることを確認し,その精度をさらに向上させる。 副産物として、PLCodeBERTはコードクローン検出などの他のプログラミング関連タスクのパフォーマンスも向上する。

In this paper, we study knowledge tracing in the domain of programming education and make two important contributions. First, we harvest and publish so far the most comprehensive dataset, namely BePKT, which covers various online behaviors in an OJ system, including programming text problems, knowledge annotations, user-submitted code and system-logged events. Second, we propose a new model PDKT to exploit the enriched context for accurate student behavior prediction. More specifically, we construct a bipartite graph for programming problem embedding, and design an improved pre-training model PLCodeBERT for code embedding, as well as a double-sequence RNN model with exponential decay attention for effective feature fusion. Experimental results on the new dataset BePKT show that our proposed model establishes state-of-the-art performance in programming knowledge tracing. In addition, we verify that our code embedding strategy based on PLCodeBERT is complementary to existing knowledge tracing models to further enhance their accuracy. As a side product, PLCodeBERT also results in better performance in other programming-related tasks such as code clone detection.
翻訳日:2021-12-16 16:50:31 公開日:2021-12-11
# (参考訳) MedAttacker: 医療におけるリスク予測モデルに対するブラックボックス攻撃の探索

MedAttacker: Exploring Black-Box Adversarial Attacks on Risk Prediction Models in Healthcare ( http://arxiv.org/abs/2112.06063v1 )

ライセンス: CC BY 4.0
Muchao Ye and Junyu Luo and Guanjie Zheng and Cao Xiao and Ting Wang and Fenglong Ma(参考訳) ディープニューラルネットワーク(DNN)は、医療診断と治療を提供する健康リスク予測に広く採用されている。 その堅牢性を評価するため、既存の研究では、モデルパラメータがアクセス可能なホワイト/グレイボックス設定で敵攻撃を行う。 しかし、現実のほとんどのモデルはプライベートデータでトレーニングされ、クラウド上のブラックボックスサービスとしてリリースされているにもかかわらず、より現実的なブラックボックス敵攻撃は無視される。 このギャップを埋めるために,MedAttacker という健康リスク予測モデルに対する最初のブラックボックス攻撃手法を提案する。 MedAttacker氏は、強化学習(RL)フレームワークで攻撃された位置を選択する階層的位置選択と、スコアベースの原則で置換を識別する代替選択の2つのステップを通じて、EHRデータによってもたらされる課題に対処する。 特に、EHRの内部の時間的文脈を考慮して、各訪問の貢献スコアと各コードのサリエンシスコアを用いてRL位置選択ポリシーを初期化し、スコア変更によって決定される決定論的代替選択プロセスとうまく統合することができる。 実験では、MedAttackerは一貫して平均的な成功率を達成し、複数の実世界のデータセットにまたがるブラックボックス設定における3つの高度な健康リスク予測モデルを攻撃する場合、最近のホワイトボックス EHR 攻撃テクニックよりも優れています。 また,実験結果に基づき,EHR敵攻撃の防御に関する議論を含む。

Deep neural networks (DNNs) have been broadly adopted in health risk prediction to provide healthcare diagnoses and treatments. To evaluate their robustness, existing research conducts adversarial attacks in the white/gray-box setting where model parameters are accessible. However, a more realistic black-box adversarial attack is ignored even though most real-world models are trained with private data and released as black-box services on the cloud. To fill this gap, we propose the first black-box adversarial attack method against health risk prediction models named MedAttacker to investigate their vulnerability. MedAttacker addresses the challenges brought by EHR data via two steps: hierarchical position selection which selects the attacked positions in a reinforcement learning (RL) framework and substitute selection which identifies substitute with a score-based principle. Particularly, by considering the temporal context inside EHRs, it initializes its RL position selection policy by using the contribution score of each visit and the saliency score of each code, which can be well integrated with the deterministic substitute selection process decided by the score changes. In experiments, MedAttacker consistently achieves the highest average success rate and even outperforms a recent white-box EHR adversarial attack technique in certain cases when attacking three advanced health risk prediction models in the black-box setting across multiple real-world datasets. In addition, based on the experiment results we include a discussion on defending EHR adversarial attacks.
翻訳日:2021-12-16 11:26:48 公開日:2021-12-11
# (参考訳) 構造雑音に対するロバストグラフニューラルネットワークの比較研究

A Comparative Study on Robust Graph Neural Networks to Structural Noises ( http://arxiv.org/abs/2112.06070v1 )

ライセンス: CC BY 4.0
Zeyu Zhang, Yulong Pei(参考訳) グラフニューラルネットワーク(GNN)は、近隣ノード間のメッセージの転送と集約によってノード表現を学習する。 GNNはいくつかのアプリケーションドメインでうまく適用され、有望なパフォーマンスを達成した。 しかし、GNNは、グラフ全体を通してノイズが伝播するメッセージパッシング機構のため、構造ノイズに弱い可能性がある。 一連の堅牢なGNNが提案されているが、異なる構造ノイズで評価されており、一貫性のある設定と体系的に比較されていない。 本研究は,構造雑音の一貫した設定下で異なるタイプのロバストgnnについて,包括的かつ体系的な比較研究を行う。 ノイズの側面から、我々は3つの異なる構造ノイズ、すなわち、地域、コミュニティ、グローバルノイズを設計する。 モデルの観点から,サンプルベース,リビジョンベース,建設ベースのロバストgnnから代表モデルを選択する。 実験結果に基づいて,堅牢なGNN選択のための実用的な提案を行う。

Graph neural networks (GNNs) learn node representations by passing and aggregating messages between neighboring nodes. GNNs have been applied successfully in several application domains and achieved promising performance. However, GNNs could be vulnerable to structural noise because of the message passing mechanism where noise may be propagated through the entire graph. Although a series of robust GNNs have been proposed, they are evaluated with different structural noises, and it lacks a systematic comparison with consistent settings. In this work, we conduct a comprehensive and systematical comparative study on different types of robust GNNs under consistent structural noise settings. From the noise aspect, we design three different levels of structural noises, i.e., local, community, and global noises. From the model aspect, we select some representative models from sample-based, revision-based, and construction-based robust GNNs. Based on the empirical results, we provide some practical suggestions for robust GNNs selection.
翻訳日:2021-12-16 11:08:05 公開日:2021-12-11
# (参考訳) Deep Image Priorの早期停止

Early Stopping for Deep Image Prior ( http://arxiv.org/abs/2112.06074v1 )

ライセンス: CC BY 4.0
Hengkang Wang, Taihui Li, Zhong Zhuang, Tiancong Chen, Hengyue Liang, Ju Sun(参考訳) deep image prior (dip) とその変種は、余分なトレーニングデータなしでコンピュータビジョンの逆問題を解く顕著な可能性を示した。 実用的なDIPモデルは、しばしば実質的に過パラメータ化される。 適合プロセスの間、これらのモデルはまず所望の視覚コンテンツを学習し、次に潜在的なモデリングと観測ノイズ、すなわち過剰フィットをピックアップする。 したがって、ディップの実用性は遷移期を捉えた良い早期停止(es)に依存することが多い。 この点に関して、視覚タスクのディップ作業の大部分は、モデルの可能性を示すのみである -- 基礎的真理に対するピークパフォーマンスを報告しているが、基盤にアクセスせずに操作的にニアピーク性能を得る方法の手がかりは提供していない。 本稿では,ディップの実用性障壁を克服し,複数のビジョンタスクとディップ変種において,ピーク付近の性能を一貫して検出する効率的なes戦略を提案する。 連続したDIP再構成の分散の単純な尺度に基づいて、ES法は既存の手法を上回り、非常に狭い領域でのみ機能するだけでなく、オーバーフィッティングを緩和しようとする多くの手法と組み合わせても有効である。 コードはhttps://github.com/sun-umn/Early_Stopping_for_DIPで公開されている。

Deep image prior (DIP) and its variants have showed remarkable potential for solving inverse problems in computer vision, without any extra training data. Practical DIP models are often substantially overparameterized. During the fitting process, these models learn mostly the desired visual content first, and then pick up the potential modeling and observational noise, i.e., overfitting. Thus, the practicality of DIP often depends critically on good early stopping (ES) that captures the transition period. In this regard, the majority of DIP works for vision tasks only demonstrates the potential of the models -- reporting the peak performance against the ground truth, but provides no clue about how to operationally obtain near-peak performance without access to the groundtruth. In this paper, we set to break this practicality barrier of DIP, and propose an efficient ES strategy, which consistently detects near-peak performance across several vision tasks and DIP variants. Based on a simple measure of dispersion of consecutive DIP reconstructions, our ES method not only outpaces the existing ones -- which only work in very narrow domains, but also remains effective when combined with a number of methods that try to mitigate the overfitting. The code is available at https://github.com/sun-umn/Early_Stopping_for_DIP.
翻訳日:2021-12-16 10:59:01 公開日:2021-12-11
# (参考訳) trec health misinformation track 2021でupvがsbertとquality estimatorsでランク付け

UPV at TREC Health Misinformation Track 2021 Ranking with SBERT and Quality Estimators ( http://arxiv.org/abs/2112.06080v1 )

ライセンス: CC BY 4.0
Ipek Baris Schlicht and Angel Felipe Magnoss\~ao de Paula and Paolo Rosso(参考訳) 検索エンジンの健康情報不足は、個人や公衆の健康に悪影響を及ぼす可能性がある重要な問題である。 この問題を軽減するため、trecは健康情報トラックを組織する。 本稿では,本トラックへの提案について述べる。 BM25とドメイン固有のセマンティック検索エンジンを用いて初期文書を検索する。 その後、品質評価のための健康ニューススキーマを調べ、文書の再ランク付けに適用する。 我々は相互階数融合を用いて異なる成分のスコアをマージする。 最後に、結果を議論し、今後の研究で結論づける。

Health misinformation on search engines is a significant problem that could negatively affect individuals or public health. To mitigate the problem, TREC organizes a health misinformation track. This paper presents our submissions to this track. We use a BM25 and a domain-specific semantic search engine for retrieving initial documents. Later, we examine a health news schema for quality assessment and apply it to re-rank documents. We merge the scores from the different components by using reciprocal rank fusion. Finally, we discuss the results and conclude with future works.
翻訳日:2021-12-16 10:34:07 公開日:2021-12-11
# (参考訳) モチーフグラフ上の一般化信念伝播アルゴリズムの収束性

Convergence of Generalized Belief Propagation Algorithm on Graphs with Motifs ( http://arxiv.org/abs/2112.06087v1 )

ライセンス: CC BY 4.0
Yitao Chen and Deepanshu Vasal(参考訳) 信念伝達は、機械学習における多くの応用のための基本的なメッセージパッシングアルゴリズムである。 信念伝達アルゴリズムは木グラフ上で正確であることが知られている。 しかし、多くのアプリケーションでは、信念伝達はループグラフ上で実行される。 したがって、ループグラフ上の信念伝播の挙動を理解することは、異なる分野の研究者にとって重要なトピックである。 本稿では,モチーフ付きグラフ上の強磁性イジングモデルのベター自由エネルギーの大域的最適化に一般化された信念伝播が収束することを示すモチーフ(三角,ループなど)を用いたグラフ上の一般化された信念伝播アルゴリズムの収束挙動について検討する。

Belief propagation is a fundamental message-passing algorithm for numerous applications in machine learning. It is known that belief propagation algorithm is exact on tree graphs. However, belief propagation is run on loopy graphs in most applications. So, understanding the behavior of belief propagation on loopy graphs has been a major topic for researchers in different areas. In this paper, we study the convergence behavior of generalized belief propagation algorithm on graphs with motifs (triangles, loops, etc.) We show under a certain initialization, generalized belief propagation converges to the global optimum of the Bethe free energy for ferromagnetic Ising models on graphs with motifs.
翻訳日:2021-12-16 10:26:58 公開日:2021-12-11
# (参考訳) 単言語テキストを用いたニューラルネットワーク翻訳のための並列ドメイン文の選択

Selecting Parallel In-domain Sentences for Neural Machine Translation Using Monolingual Texts ( http://arxiv.org/abs/2112.06096v1 )

ライセンス: CC BY-SA 4.0
Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Pieter Spronck(参考訳) 継続的に成長するデータボリュームは、より大きなジェネリックモデルにつながる。 ジェネリックモデルはドメイン固有のケースでは性能が悪い傾向があるため、特定のユースケースは通常除外される。 本研究は,機械翻訳作業において,ジェネリックドメイン(並列テキスト)コーパスからドメイン内データを選択する手法を用いて,このギャップに対処する。 提案手法は,単言語ドメイン固有のデータセットと相似性に応じて,並列汎用ドメインデータ中の文をランク付けする。 次に、最も類似度の高い上位k文を選択し、特定のドメイン内データにチューニングされた新しい機械翻訳システムを訓練する。 実験の結果、このドメイン内データでトレーニングされたモデルは、ジェネリックデータまたはジェネリックデータとドメインデータの混合でトレーニングされたモデルよりも優れています。 すなわち、計算コストとデータサイズが低く、高品質なドメイン固有トレーニングインスタンスを選択する。

Continuously-growing data volumes lead to larger generic models. Specific use-cases are usually left out, since generic models tend to perform poorly in domain-specific cases. Our work addresses this gap with a method for selecting in-domain data from generic-domain (parallel text) corpora, for the task of machine translation. The proposed method ranks sentences in parallel general-domain data according to their cosine similarity with a monolingual domain-specific data set. We then select the top K sentences with the highest similarity score to train a new machine translation system tuned to the specific in-domain data. Our experimental results show that models trained on this in-domain data outperform models trained on generic or a mixture of generic and domain data. That is, our method selects high-quality domain-specific training instances at low computational cost and data size.
翻訳日:2021-12-16 10:16:55 公開日:2021-12-11
# (参考訳) ランダム森林一般化誤差に対する信頼区間

Confidence intervals for the random forest generalization error ( http://arxiv.org/abs/2112.06101v1 )

ライセンス: CC BY 4.0
Marques F., Paulo C(参考訳) 本研究では,ランダム森林の訓練過程において,その一般化誤差のよく知られた計算量的自由点推定だけでなく,森林の再訓練やデータ分割を必要としない一般化誤差に対する信頼区間を計算する経路が存在することを示す。 その構築に関わる計算コストの低さに加えて、この信頼区間は、トレーニングサンプルサイズの観点から、適切なカバレッジと適切な幅縮小率を持つようにシミュレーションによって示される。

We show that underneath the training process of a random forest there lies not only the well known and almost computationally free out-of-bag point estimate of its generalization error, but also a path to compute a confidence interval for the generalization error which does not demand a retraining of the forest or any forms of data splitting. Besides the low computational cost involved in its construction, this confidence interval is shown through simulations to have good coverage and appropriate shrinking rate of its width in terms of the training sample size.
翻訳日:2021-12-16 09:51:43 公開日:2021-12-11
# 振動率に基づく分岐戦略選択手法

Branching Strategy Selection Approach Based on Vivification Ratio ( http://arxiv.org/abs/2112.06917v1 )

ライセンス: Link先を確認
Mao Luo, Chu-Min Li, Xinyun Wu, Shuolin Li, Zhipeng L\"u(参考訳) LRBとVSIDSの最も効果的な分岐戦略は、インスタンスの種類によって異なる。 一般的に、LRBはクラフトインスタンスでより効果的であり、VSIDSはアプリケーションでより効果的である。 しかし、インスタンスのタイプを区別することは難しい。 この欠点を克服するため,我々は,生存率に基づく分岐戦略選択手法を提案する。 このアプローチは、非常に低い生存率のインスタンスを解くために、LRB分岐戦略を使用する。 私たちは近年、satコンペのメイントラックからインスタンスをテストしました。 その結果,提案手法は堅牢であり,解いたインスタンスの数を大幅に増加させることがわかった。 私たちのアプローチの助けを借りて、2020 SATコンペティションのベンチマークで、Maple\_CMが16以上のインスタンスを解決できることに注意してください。

The two most effective branching strategies LRB and VSIDS perform differently on different types of instances. Generally, LRB is more effective on crafted instances, while VSIDS is more effective on application ones. However, distinguishing the types of instances is difficult. To overcome this drawback, we propose a branching strategy selection approach based on the vivification ratio. This approach uses the LRB branching strategy more to solve the instances with a very low vivification ratio. We tested the instances from the main track of SAT competitions in recent years. The results show that the proposed approach is robust and it significantly increases the number of solved instances. It is worth mentioning that, with the help of our approach, the solver Maple\_CM can solve more than 16 instances for the benchmark from the 2020 SAT competition.
翻訳日:2021-12-15 16:08:52 公開日:2021-12-11
# プロセス産業における知的障害診断のための言語指導

Technical Language Supervision for Intelligent Fault Diagnosis in Process Industry ( http://arxiv.org/abs/2112.07356v1 )

ライセンス: Link先を確認
Karl L\"owenmark, Cees Taal, Stephan Schnabel, Marcus Liwicki, and Fredrik Sandin(参考訳) プロセス業界では,人的専門家を支援する自動故障診断手法による状況監視システムにより,保守効率,プロセス持続可能性,職場の安全が向上し,データと機械学習モデルを用いた自動故障診断手法が中心となる。 IFDにおける大きな課題は、モデルのトレーニングと検証に必要なラベルの正確さを欠いた現実的なデータセットの開発と、ラベル付きラボデータでトレーニングされたモデルを異種プロセス産業環境に転送することである。 しかし、ドメインの専門家によって書かれた故障記述や作業順序は、例えば回転機器監視の文脈において、現代の状態監視システムにおいてデジタル化されつつある。 したがって、産業データセットにおける技術的言語アノテーションとしての、欠陥特性と重大性差別に関するドメイン固有知識。 さらに、自然言語処理の最近の進歩により、自然言語アノテーション(nls)という形で、弱い教師付きモデル最適化が可能になる。 これにより、産業データに基礎を置くifdシステムの技術的言語監督(tls)ソリューションを開発するタイムリーな機会が生まれる。 本稿では,過去2年間のNLSの成熟度を調査し,自然言語以外の応用の促進,弱監視手法の急速な開発,そしてこれらの開発から恩恵を受けることができるIFDの現在のトレンドとしての転向学習について検討した。 最後に、最近のNLSイノベーションに触発されたIFDにおけるTLSの統合フレームワークについて述べる。

In the process industry, condition monitoring systems with automated fault diagnosis methods assisthuman experts and thereby improve maintenance efficiency, process sustainability, and workplace safety.Improving the automated fault diagnosis methods using data and machine learning-based models is a centralaspect of intelligent fault diagnosis (IFD). A major challenge in IFD is to develop realistic datasets withaccurate labels needed to train and validate models, and to transfer models trained with labeled lab datato heterogeneous process industry environments. However, fault descriptions and work-orders written bydomain experts are increasingly digitized in modern condition monitoring systems, for example in the contextof rotating equipment monitoring. Thus, domain-specific knowledge about fault characteristics and severitiesexists as technical language annotations in industrial datasets. Furthermore, recent advances in naturallanguage processing enable weakly supervised model optimization using natural language annotations, mostnotably in the form ofnatural language supervision(NLS). This creates a timely opportunity to developtechnical language supervision(TLS) solutions for IFD systems grounded in industrial data, for exampleas a complement to pre-training with lab data to address problems like overfitting and inaccurate out-of-sample generalisation. We surveyed the literature and identify a considerable improvement in the maturityof NLS over the last two years, facilitating applications beyond natural language; a rapid development ofweak supervision methods; and transfer learning as a current trend in IFD which can benefit from thesedevelopments. Finally, we describe a framework for integration of TLS in IFD which is inspired by recentNLS innovations.
翻訳日:2021-12-15 15:27:39 公開日:2021-12-11
# 確率過程としての過去

The Past as a Stochastic Process ( http://arxiv.org/abs/2112.05876v1 )

ライセンス: Link先を確認
David H. Wolpert, Michael H. Price, Stefani A. Crabtree, Timothy A. Kohler, Jurgen Jost, James Evans, Peter F. Stadler, Hajime Shimao, Manfred D. Laubichler(参考訳) 歴史的過程は顕著な多様性を示す。 それにもかかわらず、学者は長い間、パターンを特定し、歴史的俳優や影響を分類しようと試みてきた。 確率的プロセスフレームワークは、時に驚くべきパターンの検出、プロセス内在的および外在的の両方に関連する因果的アクターの同定、そして異なる歴史的ケースの比較を可能にする、大きな歴史的データセットの分析のための構造化されたアプローチを提供する。 データと分析ツールと確率過程の理論的な枠組みの組み合わせは、歴史と考古学における伝統的な物語的アプローチを補完する。

Historical processes manifest remarkable diversity. Nevertheless, scholars have long attempted to identify patterns and categorize historical actors and influences with some success. A stochastic process framework provides a structured approach for the analysis of large historical datasets that allows for detection of sometimes surprising patterns, identification of relevant causal actors both endogenous and exogenous to the process, and comparison between different historical cases. The combination of data, analytical tools and the organizing theoretical framework of stochastic processes complements traditional narrative approaches in history and archaeology.
翻訳日:2021-12-14 19:17:02 公開日:2021-12-11
# データ駆動型制御とモデルベース制御の統合を目指して

Control-Tutored Reinforcement Learning: Towards the Integration of Data-Driven and Model-Based Control ( http://arxiv.org/abs/2112.06018v1 )

ライセンス: Link先を確認
F. De Lellis, M. Coraggio, G. Russo, M. Musolesi, M. di Bernardo(参考訳) 本稿では,環境の近似モデルに基づくフィードバックコントローラが学習プロセスを支援し,そのデータ効率を向上させるアーキテクチャを提案する。 このアーキテクチャは、制御チューニングQラーニング(CTQL)と呼ばれ、2つの代替フレーバーで表現される。 前者は報奨関数の定義に基づいて、制御チューターポリシーがいつ採用されるかを決定するためにブール条件を使用することができるが、後者は確率CTQL(probabilistic CTQL)と呼ばれ、学習中に特定の確率でチューターへの呼び出しを実行することに基づいている。 どちらのアプローチも検証され、OpenAI Gymで定義された倒立振子の安定化を代表問題として、Q-Learningに対して徹底的にベンチマークされる。

We present an architecture where a feedback controller derived on an approximate model of the environment assists the learning process to enhance its data efficiency. This architecture, which we term as Control-Tutored Q-learning (CTQL), is presented in two alternative flavours. The former is based on defining the reward function so that a Boolean condition can be used to determine when the control tutor policy is adopted, while the latter, termed as probabilistic CTQL (pCTQL), is instead based on executing calls to the tutor with a certain probability during learning. Both approaches are validated, and thoroughly benchmarked against Q-Learning, by considering the stabilization of an inverted pendulum as defined in OpenAI Gym as a representative problem.
翻訳日:2021-12-14 19:16:52 公開日:2021-12-11
# 構造的サブドメイン適応と領域逆学習による空間グラフ畳み込みニューラルネットワークによる軸受故障診断

Spatial Graph Convolutional Neural Network via Structured Subdomain Adaptation and Domain Adversarial Learning for Bearing Fault Diagnosis ( http://arxiv.org/abs/2112.06033v1 )

ライセンス: Link先を確認
Mohammadreza Ghorvei, Mohammadreza Kavianpour, Mohammad TH Beheshti, Amin Ramezani(参考訳) 非教師なし領域適応(UDA)は近年,作業条件の変化による異常診断において顕著な結果を示した。 しかし、ほとんどのUDA法はデータの幾何学的構造を考慮していない。 さらに、サブドメイン間の関係を無視したグローバルドメイン適応手法が一般的である。 本稿では,データ構造をモデル化するためにグラフ畳み込みニューラルネットワーク (gcnn) を用いて,2つの重要な特徴を持つ深層領域適応型グラフ畳み込みニューラルネットワーク (dsagcn) を提案する。 第2に、対応するサブドメインとグローバルドメイン間の構造的相違を低減し、サブドメインの分布を調整するために、対向ドメイン適応と局所最大平均相違(LMMD)法を同時に適用する。 CWRUとPaderbornのベアリングデータセットは、DSAGCN法の有効性と比較モデル間の優位性を検証するために使用される。 実験結果は,非教師付き断層診断における高精度なデータ駆動モデルを得るために,構造化サブドメインとドメイン適応手法の整合性を示す。

Unsupervised domain adaptation (UDA) has shown remarkable results in bearing fault diagnosis under changing working conditions in recent years. However, most UDA methods do not consider the geometric structure of the data. Furthermore, the global domain adaptation technique is commonly applied, which ignores the relation between subdomains. This paper addresses mentioned challenges by presenting the novel deep subdomain adaptation graph convolution neural network (DSAGCN), which has two key characteristics: First, graph convolution neural network (GCNN) is employed to model the structure of data. Second, adversarial domain adaptation and local maximum mean discrepancy (LMMD) methods are applied concurrently to align the subdomain's distribution and reduce structure discrepancy between relevant subdomains and global domains. CWRU and Paderborn bearing datasets are used to validate the DSAGCN method's efficiency and superiority between comparison models. The experimental results demonstrate the significance of aligning structured subdomains along with domain adaptation methods to obtain an accurate data-driven model in unsupervised fault diagnosis.
翻訳日:2021-12-14 19:16:38 公開日:2021-12-11
# イテレーティブ・プルーニングによる低複雑性ニューラルデコーダの実現

Achieving Low Complexity Neural Decoders via Iterative Pruning ( http://arxiv.org/abs/2112.06044v1 )

ライセンス: Link先を確認
Vikrant Malik, Rohan Ghosh and Mehul Motani(参考訳) ディープラーニングの進歩は、低レイテンシ通信のためのニューラルデコーダの開発につながった。 しかし、神経デコーダは非常に複雑で、計算量やレイテンシが増加する可能性がある。 我々は,ニューラルネットワークデコーダの重み付けをプルーニングする反復的プルーニング手法(宝くじ仮説アルゴリズムなど)について検討する。 重みの少ないデコーダは、元のモデルの精度を維持しながら、レイテンシと複雑さを低下させる可能性がある。 これにより、計算能力に制限のあるモバイルや他のエッジデバイスに適したニューラルデコーダが実現される。 また,prunedネットワークのビット誤り率性能を向上させるために,ニューラルネットワークデコーダのための半ソフトな決定復号法を提案する。

The advancement of deep learning has led to the development of neural decoders for low latency communications. However, neural decoders can be very complex which can lead to increased computation and latency. We consider iterative pruning approaches (such as the lottery ticket hypothesis algorithm) to prune weights in neural decoders. Decoders with fewer number of weights can have lower latency and lower complexity while retaining the accuracy of the original model. This will make neural decoders more suitable for mobile and other edge devices with limited computational power. We also propose semi-soft decision decoding for neural decoders which can be used to improve the bit error rate performance of the pruned network.
翻訳日:2021-12-14 19:16:19 公開日:2021-12-11
# Smooth Data Priorsによる分散グラフ学習

Distributed Graph Learning with Smooth Data Priors ( http://arxiv.org/abs/2112.05887v1 )

ライセンス: Link先を確認
Isabela Cunha Maia Nobre, Mireille El Gheche, Pascal Frossard(参考訳) グラフ学習は、基礎となるグラフが明示的に与えられていない場合、しばしば構造化データの処理や表現に必要となるステップである。 グラフ学習は一般的に、グラフ信号、すなわちグラフノード上に存在するデータに関する完全な知識で中心的に実行される。 しかし、データ収集が容易でなくても、通信コストが無視できないような設定もある。 そのような場合、分散処理は、データがほとんどローカルに残り、全ての処理が通信グラフ上の隣接ノード間で実行される自然なソリューションとして現れる。 本稿では,対象とするグラフ上でデータが滑らかであると仮定して,ノード上の信号観測からグラフを推定する分散グラフ学習アルゴリズムを提案する。 局所射影制約を持つ分散最適化問題を解き、通信コストを制限しながら有効なグラフを推定する。 この結果から,分散手法は,推定グラフの精度を損なうことなく,集中型アルゴリズムよりも通信コストが低いことがわかった。 また、特に疎ネットワークにおいて、ネットワークサイズの増加に伴って通信コストも向上する。

Graph learning is often a necessary step in processing or representing structured data, when the underlying graph is not given explicitly. Graph learning is generally performed centrally with a full knowledge of the graph signals, namely the data that lives on the graph nodes. However, there are settings where data cannot be collected easily or only with a non-negligible communication cost. In such cases, distributed processing appears as a natural solution, where the data stays mostly local and all processing is performed among neighbours nodes on the communication graph. We propose here a novel distributed graph learning algorithm, which permits to infer a graph from signal observations on the nodes under the assumption that the data is smooth on the target graph. We solve a distributed optimization problem with local projection constraints to infer a valid graph while limiting the communication costs. Our results show that the distributed approach has a lower communication cost than a centralised algorithm without compromising the accuracy in the inferred graph. It also scales better in communication costs with the increase of the network size, especially for sparse networks.
翻訳日:2021-12-14 18:59:32 公開日:2021-12-11
# レコメンデーションのためのグラデーションベース適応による時間の跳躍

Leaping Through Time with Gradient-based Adaptation for Recommendation ( http://arxiv.org/abs/2112.05914v1 )

ライセンス: Link先を確認
Nuttapong Chairatanakul, Hoang NT, Xin Liu, Tsuyoshi Murata(参考訳) 現代の推薦システムは、ユーザの好みやアイテムの人気の変化に適応するために必要である。 このような問題は時間力学問題として知られており、システムモデリングを推奨する主な課題の1つである。 本稿では,時間依存のモデル化にトラジェクトリに基づくメタラーニングを用いることで,時間的動的問題に対するLeapRecという新しい解を提案する。 LeapRecは、グローバル時間跳躍(GTL)と順序時間跳躍(OTL)という2つの補完的なコンポーネントによって、時間ダイナミクスを特徴付ける。 設計により、GTLは、順序のない時間データ間で最も短い学習経路を見つけることによって、長期的なパターンを学習する。 協調的に、otlは時間データの逐次的性質を考慮して短期パターンを学習する。 実験の結果、LeapRecはいくつかのデータセットやレコメンデーションメトリクスで最先端の手法を一貫して上回っていることがわかった。 さらに,GTLとOTLの相互作用に関する実証的研究を行い,長期的および短期的モデリングの効果を示した。

Modern recommender systems are required to adapt to the change in user preferences and item popularity. Such a problem is known as the temporal dynamics problem, and it is one of the main challenges in recommender system modeling. Different from the popular recurrent modeling approach, we propose a new solution named LeapRec to the temporal dynamic problem by using trajectory-based meta-learning to model time dependencies. LeapRec characterizes temporal dynamics by two complement components named global time leap (GTL) and ordered time leap (OTL). By design, GTL learns long-term patterns by finding the shortest learning path across unordered temporal data. Cooperatively, OTL learns short-term patterns by considering the sequential nature of the temporal data. Our experimental results show that LeapRec consistently outperforms the state-of-the-art methods on several datasets and recommendation metrics. Furthermore, we provide an empirical study of the interaction between GTL and OTL, showing the effects of long- and short-term modeling.
翻訳日:2021-12-14 18:59:17 公開日:2021-12-11
# SPDCinv:高次元量子の逆量子光学設計

SPDCinv: Inverse Quantum-Optical Design of High-Dimensional Qudits ( http://arxiv.org/abs/2112.05934v1 )

ライセンス: Link先を確認
Eyal Rozenberg, Aviv Karnieli, Ofir Yesharim, Joshua Foley-Comer, Sivan Trajtenberg-Mills, Daniel Freedman, Alex M. Bronstein, and Ady Arie(参考訳) 量子光学における自発的パラメトリックダウンコンバージョンは、空間的な光のモードを持つ高次元quditを実現するための貴重な資源である。 主要なオープンな課題の1つは、SPDCプロセスで望ましいqudit状態を直接生成する方法である。 この問題は高度な計算学習手法によって解決できるが、全ての相互作用効果を考慮した完全微分可能なアルゴリズムによるspdcプロセスのモデル化が困難であるため、進歩は限られている。 本稿では, これらの制限を克服し, 形状のポンプビームと構造化結晶の実験結果に対して, 物理的に制約された, 微分可能なモデルを導入する。 物理モデルの確率的性質によって引き起こされるいかなる制約も回避し、spdcハミルトニアンの下で進化を支配する動的方程式を統合する。 我々は、低変換光子対の所望の量子状態を達成する非線形量子光学系を設計する逆問題を解決する。 所望の状態は、異なる空間モード間の2階相関または要求密度行列を指定することによって定義される。 非線形体積ホログラムと異なるポンプ形状を学習することにより、最大絡み合った状態を生成する方法を示す。 さらに,ポンプビームの形状を積極的に変更することにより,生成された量子状態に対する全光コヒーレント制御をシミュレートする。 我々の研究は、高次元量子鍵分布や量子情報処理プロトコルの新しい設計などの応用に有用である。 また,SPDCプロセスにおけるスペクトルや時間特性などの他の自由度制御にも容易に適用でき,同様の相互作用を持つ凝縮マター系でも使用することができる。

Spontaneous parametric down-conversion in quantum optics is an invaluable resource for the realization of high-dimensional qudits with spatial modes of light. One of the main open challenges is how to directly generate a desirable qudit state in the SPDC process. This problem can be addressed through advanced computational learning methods; however, due to difficulties in modeling the SPDC process by a fully differentiable algorithm that takes into account all interaction effects, progress has been limited. Here, we overcome these limitations and introduce a physically-constrained and differentiable model, validated against experimental results for shaped pump beams and structured crystals, capable of learning every interaction parameter in the process. We avoid any restrictions induced by the stochastic nature of our physical model and integrate the dynamic equations governing the evolution under the SPDC Hamiltonian. We solve the inverse problem of designing a nonlinear quantum optical system that achieves the desired quantum state of down-converted photon pairs. The desired states are defined using either the second-order correlations between different spatial modes or by specifying the required density matrix. By learning nonlinear volume holograms as well as different pump shapes, we successfully show how to generate maximally entangled states. Furthermore, we simulate all-optical coherent control over the generated quantum state by actively changing the profile of the pump beam. Our work can be useful for applications such as novel designs of high-dimensional quantum key distribution and quantum information processing protocols. In addition, our method can be readily applied for controlling other degrees of freedom of light in the SPDC process, such as the spectral and temporal properties, and may even be used in condensed-matter systems having a similar interaction Hamiltonian.
翻訳日:2021-12-14 18:58:56 公開日:2021-12-11
# 心電図分類のための残差畳み込みニューラルネットワークの最適化

Optimization of Residual Convolutional Neural Network for Electrocardiogram Classification ( http://arxiv.org/abs/2112.06024v1 )

ライセンス: Link先を確認
Zeineb Fki, Boudour Ammar and Mounir Ben Ayed(参考訳) 心電図(ECG)の解釈は臨床情報を与え、心臓機能の評価に役立つ。 特定のarthmiaのクラスに関連付けられた異なるECGパターンが存在する。 畳み込みニューラルネットワークは、実際にはECG処理において最も応用されたディープラーニングアルゴリズムの1つである。 しかし、ディープラーニングモデルでは、チューニングすべきハイパーパラメータがもっとたくさんあります。 畳み込みニューラルネットワークアルゴリズムの最適あるいは最良のハイパーパラメータを選択することは難しい。 多くの場合、最適なモデルが得られるまで、手動で異なる可能な範囲の値でモデルをチューニングします。 ベイズ最適化(BO)と進化アルゴリズムを用いた自動ハイパーパラメータチューニングは、ハーバー手動構成に解決策をもたらす。 本稿では,再帰的1次元畳み込みニューラルネットワークモデル(r-1d-cnn)を2レベルに最適化する。 第1段階では、残差畳み込み層と1次元畳み込みニューラルネットワーク層を訓練して、多層パーセプトロン層が各入力の最終クラスベクトルを生成することができる患者固有のECG特徴を学習する。 このレベルは手作業で、検索スペースの削減を目指している。 2番目のレベルは自動であり、提案アルゴリズムに基づくBOに基づいている。 提案したR-1D-CNNアーキテクチャを2つの公開ECGデータセット上で評価する。 実験結果から,提案アルゴリズムに基づくBOが99.95 %,ベースラインモデルが99.70 %,MIT-BIH データベースが99.70 %となることがわかった。 さらに,提案アーキテクチャをBOで微調整することにより,他のアーキテクチャよりも精度が高いことを示す。 我々のアーキテクチャは、以前の作品と比べて良い結果をもたらし、異なる実験に基づいています。

The interpretation of the electrocardiogram (ECG) gives clinical information and helps in the assessing of the heart function. There are distinct ECG patterns associated with a specific class of arrythmia. The convolutional neural network is actually one of the most applied deep learning algorithms in ECG processing. However, with deep learning models there are many more hyperparameters to tune. Selecting an optimum or best hyperparameter for the convolutional neural network algorithm is challenging. Often, we end up tuning the model manually with different possible range of values until a best fit model is obtained. Automatic hyperparameters tuning using Bayesian optimization (BO) and evolutionary algorithms brings a solution to the harbor manual configuration. In this paper, we propose to optimize the Recurrent one Dimensional Convolutional Neural Network model (R-1D-CNN) with two levels. At the first level, a residual convolutional layer and one-dimensional convolutional neural layers are trained to learn patient-specific ECG features over which the multilayer perceptron layers can learn to produce the final class vectors of each input. This level is manual and aims to lower the search space. The second level is automatic and based on proposed algorithm based BO. Our proposed optimized R-1D-CNN architecture is evaluated on two publicly available ECG Datasets. The experimental results display that the proposed algorithm based BO achieves an optimum rate of 99.95\%, while the baseline model achieves 99.70\% for the MIT-BIH database. Moreover, experiments demonstrate that the proposed architecture fine-tuned with BO achieves a higher accuracy than the other proposed architectures. Our architecture achieves a good result compared to previous works and based on different experiments.
翻訳日:2021-12-14 18:58:29 公開日:2021-12-11
# OstrichRL : 生体力学的ロコモーション研究のための筋骨格オストリッチシミュレーション

OstrichRL: A Musculoskeletal Ostrich Simulation to Study Bio-mechanical Locomotion ( http://arxiv.org/abs/2112.06061v1 )

ライセンス: Link先を確認
Vittorio La Barbera, Fabio Pardo, Yuval Tassa, Monica Daley, Christopher Richards, Petar Kormushev, John Hutchinson(参考訳) 筋運動制御は、様々な分野、特にバイオメカニクス、ロボティクス、グラフィックにまたがる研究トピックである。 モデルが過度に作動し、ダイナミクスが遅延し、非線形であるため、この種の制御は特に難しい。 しかし、これは何百万年にもわたって進化してきた非常によくテストされ調整されたアクチュエーターモデルであり、筋肉-腱ユニットの受動的力と効率的なエネルギー貯蔵と放出を利用する興味深い特性を含んでいる。 筋活動シミュレーションの研究を容易にするため,MuJoCoシミュレータに基づくオストリッチの3次元筋骨格シミュレーションを作成した。 オストリッシュは地球上で最も速い二足歩行の1つであり、筋肉を調節する二足歩行の研究に優れたモデルである。 このモデルは、挿入部位、長さ、陰茎角などの実際の筋肉データを集めるために使用されるCTスキャンと解剖に基づいている。 このモデルと並行して,レファレンスモーショントラッキングや首への到達タスクなど,強化学習タスクのセットも提供しています。 基準動作データは, モデルに前処理し適応した各種行動のモーションキャプチャクリップに基づく。 本稿では,モデルの構築と反復的改善について述べる。 実験で収集した鳥の筋電図データと比較し,筋活動パターンの精度を評価した。 この研究は、高速で使いやすいシミュレーションを提供することで、バイオメカニクス、強化学習、グラフィックス、ロボティクスコミュニティの間の有用な橋渡しになると信じています。

Muscle-actuated control is a research topic of interest spanning different fields, in particular biomechanics, robotics and graphics. This type of control is particularly challenging because models are often overactuated, and dynamics are delayed and non-linear. It is however a very well tested and tuned actuation model that has undergone millions of years of evolution and that involves interesting properties exploiting passive forces of muscle-tendon units and efficient energy storage and release. To facilitate research on muscle-actuated simulation, we release a 3D musculoskeletal simulation of an ostrich based on the MuJoCo simulator. Ostriches are one of the fastest bipeds on earth and are therefore an excellent model for studying muscle-actuated bipedal locomotion. The model is based on CT scans and dissections used to gather actual muscle data such as insertion sites, lengths and pennation angles. Along with this model, we also provide a set of reinforcement learning tasks, including reference motion tracking and a reaching task with the neck. The reference motion data are based on motion capture clips of various behaviors which we pre-processed and adapted to our model. This paper describes how the model was built and iteratively improved using the tasks. We evaluate the accuracy of the muscle actuation patterns by comparing them to experimentally collected electromyographic data from locomoting birds. We believe that this work can be a useful bridge between the biomechanics, reinforcement learning, graphics and robotics communities, by providing a fast and easy to use simulation.
翻訳日:2021-12-14 18:58:04 公開日:2021-12-11
# champ: 集積型フォトニックニューラルネットワークのハードウェア・アウェア・マグニチュード・プルーニング

CHAMP: Coherent Hardware-Aware Magnitude Pruning of Integrated Photonic Neural Networks ( http://arxiv.org/abs/2112.06098v1 )

ライセンス: Link先を確認
Sanmitra Banerjee, Mahdi Nikdast, Sudeep Pasricha, Krishnendu Chakrabarty(参考訳) 本稿では,コヒーレントフォトニックニューラルネットワークのための新しいハードウェア・アウェア・マグニチュード・プルーニング手法を提案する。 提案手法では,ネットワークパラメータの99.45%を推定し,精度を損なうことなく,98.23%の静的電力消費量を削減できる。

We propose a novel hardware-aware magnitude pruning technique for coherent photonic neural networks. The proposed technique can prune 99.45% of network parameters and reduce the static power consumption by 98.23% with a negligible accuracy loss.
翻訳日:2021-12-14 18:57:39 公開日:2021-12-11
# Isabelle/HOLにおける離散強化学習の基礎の定式化

Formalising the Foundations of Discrete Reinforcement Learning in Isabelle/HOL ( http://arxiv.org/abs/2112.05996v1 )

ライセンス: Link先を確認
Mark Chevallier and Jacques Fleuriot(参考訳) 我々はイザベル定理証明器に報酬を伴う有限マルコフ決定過程の形式化を示す。 動的プログラミングに必要な基盤と,そのようなプロセスに対する強化学習エージェントの利用に注目した。 特に、ベルマン方程式は第一原理(スカラーとベクトル形式の両方)から導出し、任意のポリシー p の期待値を生成するベクトル計算を導出し、さらに1未満の割引係数が存在するような普遍的に最適なポリシーの存在を証明する。 最後に、値反復とポリシー反復アルゴリズムが有限時間で動作し、それぞれがエプシロン最適化と完全最適ポリシーを生成することを証明する。

We present a formalisation of finite Markov decision processes with rewards in the Isabelle theorem prover. We focus on the foundations required for dynamic programming and the use of reinforcement learning agents over such processes. In particular, we derive the Bellman equation from first principles (in both scalar and vector form), derive a vector calculation that produces the expected value of any policy p, and go on to prove the existence of a universally optimal policy where there is a discounting factor less than one. Lastly, we prove that the value iteration and the policy iteration algorithms work in finite time, producing an epsilon-optimal and a fully optimal policy respectively.
翻訳日:2021-12-14 18:37:14 公開日:2021-12-11
# 決定論的・差別的模倣(D2-Imitation) : サンプル効率に対する対立的模倣の再考

Deterministic and Discriminative Imitation (D2-Imitation): Revisiting Adversarial Imitation for Sample Efficiency ( http://arxiv.org/abs/2112.06054v1 )

ライセンス: Link先を確認
Mingfei Sun, Sam Devlin, Katja Hofmann and Shimon Whiteson(参考訳) サンプル効率は実世界の応用に適用できる模擬学習法に不可欠である。 多くの研究は、これらのオフ・ポリティクス拡張が元の目的を変えるか複雑な最適化を必要とするかに関わらず、逆の模倣をオフ・ポリティカルに拡張することでサンプルの効率を向上させる。 我々は, 敵意模倣の基礎を再検討し, 敵意訓練やmin-max最適化を必要としない, オフポリシーサンプル効率的なアプローチを提案する。 本定式化は,(1)ベルマン方程式と定常状態-作用分布方程式の類似性により,新しい時間差(TD)学習アプローチを導出し,(2)決定論的政策を用いることで,TD学習を単純化する。 これらの洞察を組み合わせることで、実用的なアルゴリズム、決定論的および判別的模倣(d2-模倣)が生まれ、まずサンプルを2つのリプレイバッファに分割し、それからオフポリシー強化学習を通じて決定論的ポリシーを学ぶ。 実験の結果, D2-Imitation は, 多数の制御タスクにおいて, 対人模倣の非政治的拡張アプローチよりも優れていることがわかった。

Sample efficiency is crucial for imitation learning methods to be applicable in real-world applications. Many studies improve sample efficiency by extending adversarial imitation to be off-policy regardless of the fact that these off-policy extensions could either change the original objective or involve complicated optimization. We revisit the foundation of adversarial imitation and propose an off-policy sample efficient approach that requires no adversarial training or min-max optimization. Our formulation capitalizes on two key insights: (1) the similarity between the Bellman equation and the stationary state-action distribution equation allows us to derive a novel temporal difference (TD) learning approach; and (2) the use of a deterministic policy simplifies the TD learning. Combined, these insights yield a practical algorithm, Deterministic and Discriminative Imitation (D2-Imitation), which operates by first partitioning samples into two replay buffers and then learning a deterministic policy via off-policy reinforcement learning. Our empirical results show that D2-Imitation is effective in achieving good sample efficiency, outperforming several off-policy extension approaches of adversarial imitation on many control tasks.
翻訳日:2021-12-14 18:26:17 公開日:2021-12-11
# マルチアテンション型マルチインスタンス学習

Multi-Attention Multiple Instance Learning ( http://arxiv.org/abs/2112.06071v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) バッグ内の各パッチの隣り合うパッチやインスタンスを考慮に入れたMIL問題(MAMIL)を解決するための新しいマルチアテンションベース手法を提案する。 この方法では、アテンションモジュールの1つが隣接するパッチやインスタンスを考慮し、いくつかのアテンションモジュールを使用してパッチの多様な特徴表現を取得し、1つのアテンションモジュールを使用して異なる特徴表現を結合し、各パッチ(インスタンス)とバッグ全体の正確な分類を提供する。 MAMILにより、単純な分類のための小さな次元の埋め込みという形でパッチとその隣人の複合表現が実現される。 さらに、異なるタイプのパッチを効率的に処理し、複数のアテンションモジュールを使用してバッグ内のパッチの特徴を多様に表現する。 パッチの分類予測を説明するための簡単なアプローチを提案する。 各種データセットを用いた数値実験により,提案手法を明らかにした。

A new multi-attention based method for solving the MIL problem (MAMIL), which takes into account the neighboring patches or instances of each analyzed patch in a bag, is proposed. In the method, one of the attention modules takes into account adjacent patches or instances, several attention modules are used to get a diverse feature representation of patches, and one attention module is used to unite different feature representations to provide an accurate classification of each patch (instance) and the whole bag. Due to MAMIL, a combined representation of patches and their neighbors in the form of embeddings of a small dimensionality for simple classification is realized. Moreover, different types of patches are efficiently processed, and a diverse feature representation of patches in a bag by using several attention modules is implemented. A simple approach for explaining the classification predictions of patches is proposed. Numerical experiments with various datasets illustrate the proposed method.
翻訳日:2021-12-14 18:25:54 公開日:2021-12-11
# 人工胸部CTを用いた人工知能によるCOVID-19の重症度自動評価

Automated assessment of disease severity of COVID-19 using artificial intelligence with synthetic chest CT ( http://arxiv.org/abs/2112.05900v1 )

ライセンス: Link先を確認
Mengqiu Liu, Ying Liu, Yidong Yang, Aiping Liu, Shana Li, Changbing Qu, Xiaohui Qiu, Yang Li, Weifu Lv, Peng Zhang, Jie Wen(参考訳) 背景: 新型コロナウイルス感染症(COVID-19)のパンデミック、特に臨床資源が極端に限られるパンデミックの最盛期には、患者のトリアージが重要である。 目的: 人工胸部CTで肺と肺炎の病変を自動的に分離・定量し, 重症度を評価する方法を開発すること。 材料と方法:本研究では,公共データセットを用いて人工胸部CT画像を生成するためにデータ拡張を取り入れた("Lung Nodule Analysis 2016"の285データセット)。 合成画像とマスクは、2DのU-netニューラルネットワークをトレーニングするために使用され、203のCOVID-19データセットで肺と病変のセグメンテーションを生成するためにテストされた。 疾患重症度スコア (DL: 損傷負荷, DS: 損傷スコア) は, セグメンテーションに基づいて算出した。 Pearson法を用いてDL/DSと臨床検査の相関性を検討した。 p値<0.05は統計的に有意であった。 結果: 自動肺分画と病変分画を手動注記と比較した。 肺分画では, dice類似度係数, jaccard指数, 表面距離の平均値は98.56%, 97.15%, 0.49mmであった。 病変分画の指標は76.95%, 62.54%, 2.36mmであった。 dl/dsとリンパ球比で有意な相関(p<0.05)を示し,r値は-0.561,-0.501であった。 結論: 胸部X線写真とデータ拡張に基づくAIシステムは, 新型コロナウイルス患者の肺と病変の分節化を目的として提案された。 画像所見と臨床検査の相関から、新型コロナウイルスの重症度を評価する潜在的なツールとして、このシステムの価値が示唆された。

Background: Triage of patients is important to control the pandemic of coronavirus disease 2019 (COVID-19), especially during the peak of the pandemic when clinical resources become extremely limited. Purpose: To develop a method that automatically segments and quantifies lung and pneumonia lesions with synthetic chest CT and assess disease severity in COVID-19 patients. Materials and Methods: In this study, we incorporated data augmentation to generate synthetic chest CT images using public available datasets (285 datasets from "Lung Nodule Analysis 2016"). The synthetic images and masks were used to train a 2D U-net neural network and tested on 203 COVID-19 datasets to generate lung and lesion segmentations. Disease severity scores (DL: damage load; DS: damage score) were calculated based on the segmentations. Correlations between DL/DS and clinical lab tests were evaluated using Pearson's method. A p-value < 0.05 was considered as statistical significant. Results: Automatic lung and lesion segmentations were compared with manual annotations. For lung segmentation, the median values of dice similarity coefficient, Jaccard index and average surface distance, were 98.56%, 97.15% and 0.49 mm, respectively. The same metrics for lesion segmentation were 76.95%, 62.54% and 2.36 mm, respectively. Significant (p << 0.05) correlations were found between DL/DS and percentage lymphocytes tests, with r-values of -0.561 and -0.501, respectively. Conclusion: An AI system that based on thoracic radiographic and data augmentation was proposed to segment lung and lesions in COVID-19 patients. Correlations between imaging findings and clinical lab tests suggested the value of this system as a potential tool to assess disease severity of COVID-19.
翻訳日:2021-12-14 18:17:16 公開日:2021-12-11
# AvatarMe++:フォトリアリスティックレンダリングによる顔形状とBRDF推論

AvatarMe++: Facial Shape and BRDF Inference with Photorealistic Rendering-Aware GANs ( http://arxiv.org/abs/2112.05957v1 )

ライセンス: Link先を確認
Alexandros Lattas, Stylianos Moschoglou, Stylianos Ploumpis, Baris Gecer, Abhijeet Ghosh, Stefanos Zafeiriou(参考訳) 過去数年間、顔分析の多くのタスクは驚くべきパフォーマンスを達成し、単一の"in-the-wild"画像から顔生成や3d顔再構成などのアプリケーションを開発した。 それにもかかわらず、我々の知る限りでは、"in-the-wild"画像からレンダリング可能で高解像度な3d顔を生成する方法は存在しない。 (a)トレーニング用の利用可能なデータの不足、及び b)非常に高解像度なデータに適用できる堅牢な方法論の欠如。 そこで本研究では,光リアルなレンダリング可能な3次元顔形状とBRDFを,単一の"夢中"画像から再構成する手法を提案する。 顔の形状と反射率の大規模なデータセットをキャプチャし、それを公開しました。 我々は, 顔の皮膚の正確な拡散と反射, 自己閉塞, 地表面散乱近似を併用した高速な顔フォトリアリスティック微分レンダリング手法を定義した。 そこで我々は, 形状とテクスチャから顔の拡散と特異なBRDF成分を焼成照明で切り離すネットワークを, 最先端の3DMMフィッティング法で再構築した。 本手法は,高解像度の3次元面を1枚の低解像度画像から再構成し,様々な用途でレンダリングし,不毛の谷を橋渡しする。

Over the last years, many face analysis tasks have accomplished astounding performance, with applications including face generation and 3D face reconstruction from a single "in-the-wild" image. Nevertheless, to the best of our knowledge, there is no method which can produce render-ready high-resolution 3D faces from "in-the-wild" images and this can be attributed to the: (a) scarcity of available data for training, and (b) lack of robust methodologies that can successfully be applied on very high-resolution data. In this work, we introduce the first method that is able to reconstruct photorealistic render-ready 3D facial geometry and BRDF from a single "in-the-wild" image. We capture a large dataset of facial shape and reflectance, which we have made public. We define a fast facial photorealistic differentiable rendering methodology with accurate facial skin diffuse and specular reflection, self-occlusion and subsurface scattering approximation. With this, we train a network that disentangles the facial diffuse and specular BRDF components from a shape and texture with baked illumination, reconstructed with a state-of-the-art 3DMM fitting method. Our method outperforms the existing arts by a significant margin and reconstructs high-resolution 3D faces from a single low-resolution image, that can be rendered in various applications, and bridge the uncanny valley.
翻訳日:2021-12-14 18:16:50 公開日:2021-12-11
# オフラインデータからの縮小ポリシーの学習

Learning Contraction Policies from Offline Data ( http://arxiv.org/abs/2112.05911v1 )

ライセンス: Link先を確認
Navid Rezazadeh and Maxwell Kolarich and Solmaz S. Kia and Negar Mehr(参考訳) 本稿では,収縮理論を用いてオフラインデータから収束制御ポリシーを学習するためのデータ駆動手法を提案する。 縮約理論は閉ループ系を本質的に一意な軌道に収束させるポリシーを構築することができる。 技術的なレベルでは、ロボットの軌道が収縮を示す距離計量である収縮計量を特定することは、しばしば非自明である。 本稿では,制御方針とそれに対応する収縮指標を共同で学習し,収縮を強制することを提案する。 これを実現するために,ロボットの状態と入力軌跡からなるオフラインデータセットから,ロボットシステムの暗黙のダイナミクスモデルを学ぶ。 本稿では,この学習ダイナミクスモデルを用いて,収縮ポリシー学習のためのデータ拡張アルゴリズムを提案する。 状態空間内のサンプルをランダムに生成し、学習された動的モデルを通して時間内に伝播し、補助的なサンプル軌道を生成する。 次に,オフラインデータセットからの軌道と生成した補助サンプル軌道との間の距離が時間とともに減少するように,制御ポリシーと縮小メトリックの両方を学習する。 本研究では,ロボットの目標達成タスクを模擬したフレームワークの性能評価を行い,より高速な収束と学習方針の堅牢性を示す。

This paper proposes a data-driven method for learning convergent control policies from offline data using Contraction theory. Contraction theory enables constructing a policy that makes the closed-loop system trajectories inherently convergent towards a unique trajectory. At the technical level, identifying the contraction metric, which is the distance metric with respect to which a robot's trajectories exhibit contraction is often non-trivial. We propose to jointly learn the control policy and its corresponding contraction metric while enforcing contraction. To achieve this, we learn an implicit dynamics model of the robotic system from an offline data set consisting of the robot's state and input trajectories. Using this learned dynamics model, we propose a data augmentation algorithm for learning contraction policies. We randomly generate samples in the state-space and propagate them forward in time through the learned dynamics model to generate auxiliary sample trajectories. We then learn both the control policy and the contraction metric such that the distance between the trajectories from the offline data set and our generated auxiliary sample trajectories decreases over time. We evaluate the performance of our proposed framework on simulated robotic goal-reaching tasks and demonstrate that enforcing contraction results in faster convergence and greater robustness of the learned policy.
翻訳日:2021-12-14 17:44:30 公開日:2021-12-11
# オブジェクトのカウント:一つだけ見るだけでよい

Object Counting: You Only Need to Look at One ( http://arxiv.org/abs/2112.05993v1 )

ライセンス: Link先を確認
Hui Lin, Xiaopeng Hong, Yabin Wang(参考訳) 本稿では,ワンショットオブジェクトカウントの課題に取り組むことを目的とする。 未発見のカテゴリオブジェクトを含むイメージが与えられた場合、タスクの目標は、ひとつの境界ボックスの例しか持たない、望ましいカテゴリ内のすべてのインスタンスを数えることである。 この目的のために、私たちはLook At Oneインスタンス(LaoNet)のみを必要とするカウントモデルを提案します。 まず、特徴相関モジュールは自己関連モジュールと相関関連モジュールを組み合わせて、内部関係と相互関係の両方を学ぶ。 これにより、異なるインスタンス間の回転とサイズの不整合に対してネットワークが堅牢になる。 第二に、スケール集約メカニズムは、異なるスケール情報を持つ特徴の抽出を支援するように設計されている。 LaoNetは、既存の数ショットカウント法と比較して、収束速度の高い学習をしながら最先端の結果を達成する。 コードはもうすぐ入手できる。

This paper aims to tackle the challenging task of one-shot object counting. Given an image containing novel, previously unseen category objects, the goal of the task is to count all instances in the desired category with only one supporting bounding box example. To this end, we propose a counting model by which you only need to Look At One instance (LaoNet). First, a feature correlation module combines the Self-Attention and Correlative-Attention modules to learn both inner-relations and inter-relations. It enables the network to be robust to the inconsistency of rotations and sizes among different instances. Second, a Scale Aggregation mechanism is designed to help extract features with different scale information. Compared with existing few-shot counting methods, LaoNet achieves state-of-the-art results while learning with a high convergence speed. The code will be available soon.
翻訳日:2021-12-14 17:13:10 公開日:2021-12-11
# 色のみの摂動による点雲セグメンテーションの攻撃

Attacking Point Cloud Segmentation with Color-only Perturbation ( http://arxiv.org/abs/2112.05871v1 )

ライセンス: Link先を確認
Jiacen Xu, Zhe Zhou, Boyuan Feng Yufeng Ding, Zhou Li(参考訳) ディープcnn(畳み込みニューラルネットワーク)とgcn(graph convolutional networks)を採用することで、近年の3次元ポイントクラウドセマンティクスセグメンテーションの研究は、優れた性能を達成している。 しかし、これらの複雑なモデルの堅牢性は体系的に分析されていない。 セマンティクスのセグメンテーションが多くの安全クリティカルなアプリケーション(例えば、自動運転や地質センシング)に適用されていることを考えると、この知識のギャップを埋めることが重要である。 点雲に対する敵対攻撃は研究されているが、これらは全て単目的認識を目標としており、摂動は点座標上で行われる。 座標に基づく摂動は物理世界の制約下では実現しそうにない。 そこで本研究では,COLPERというカラーのみの摂動法を提案し,セマンティックセグメンテーションに調整する。 COLPERを屋内データセット(S3DIS)と屋外データセット(Semantic3D)の3点クラウドセグメンテーションモデル(PointNet++、DeepGCNs、RandLA-Net)で評価することにより、ターゲットと非ターゲットの両方の攻撃条件下で、セグメンテーション精度とaIoUを著しく低下させるのに、色のみの摂動が十分であることがわかった。

Recent research efforts on 3D point-cloud semantic segmentation have achieved outstanding performance by adopting deep CNN (convolutional neural networks) and GCN (graph convolutional networks). However, the robustness of these complex models has not been systematically analyzed. Given that semantic segmentation has been applied in many safety-critical applications (e.g., autonomous driving, geological sensing), it is important to fill this knowledge gap, in particular, how these models are affected under adversarial samples. While adversarial attacks against point cloud have been studied, we found all of them were targeting single-object recognition, and the perturbation is done on the point coordinates. We argue that the coordinate-based perturbation is unlikely to realize under the physical-world constraints. Hence, we propose a new color-only perturbation method named COLPER, and tailor it to semantic segmentation. By evaluating COLPER on an indoor dataset (S3DIS) and an outdoor dataset (Semantic3D) against three point cloud segmentation models (PointNet++, DeepGCNs, and RandLA-Net), we found color-only perturbation is sufficient to significantly drop the segmentation accuracy and aIoU, under both targeted and non-targeted attack settings.
翻訳日:2021-12-14 16:47:08 公開日:2021-12-11
# COMPOSER:ビデオにおけるグループ活動の合成学習

COMPOSER: Compositional Learning of Group Activity in Videos ( http://arxiv.org/abs/2112.05892v1 )

ライセンス: Link先を確認
Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf(参考訳) グループアクティビティ認識(gar)は、短いビデオクリップで俳優のグループによって実行されるアクティビティを検出する。 このタスクはシーンエンティティの構成的理解とそれらの間の関係推論を必要とする。 ビデオ内のマルチスケールな意味概念を表現する一連のトークンとして,動画をモデル化することで,garにアプローチする。 マルチスケールトランスフォーマーベースのアーキテクチャであるComposERを提案し,各スケールでトークンに対する注意に基づく推論を行い,グループアクティビティを合成的に学習する。 さらに,シーンバイアスを低減し,モデルの一般化能力を向上させるキーポイントモダリティのみを使用する。 中間スケール表現をクラスタリングし,スケール間のクラスタ割り当ての一貫性を維持しながら,ComposERのマルチスケール表現を改善する。 最後に,補助予測や新たなデータ拡張(アクタドロップアウトなど)といった手法を用いてモデルトレーニングを支援する。 バレーボールデータセットに挑戦する上で,モデルの強みと解釈可能性を示す。 COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。 COMPOSERは、RGB信号に依存する最新のGARメソッドよりも優れており、複数のモダリティを利用するメソッドに対して好意的に比較されている。 私たちのコードは利用可能です。

Group Activity Recognition (GAR) detects the activity performed by a group of actors in a short video clip. The task requires the compositional understanding of scene entities and relational reasoning between them. We approach GAR by modeling the video as a series of tokens that represent the multi-scale semantic concepts in the video. We propose COMPOSER, a Multiscale Transformer based architecture that performs attention-based reasoning over tokens at each scale and learns group activity compositionally. In addition, we only use the keypoint modality which reduces scene biases and improves the generalization ability of the model. We improve the multi-scale representations in COMPOSER by clustering the intermediate scale representations, while maintaining consistent cluster assignments between scales. Finally, we use techniques such as auxiliary prediction and novel data augmentations (e.g., Actor Dropout) to aid model training. We demonstrate the model's strength and interpretability on the challenging Volleyball dataset. COMPOSER achieves a new state-of-the-art 94.5% accuracy with the keypoint-only modality. COMPOSER outperforms the latest GAR methods that rely on RGB signals, and performs favorably compared against methods that exploit multiple modalities. Our code will be available.
翻訳日:2021-12-14 16:46:39 公開日:2021-12-11
# CPRAL: セマンティックセグメンテーションのための協調型パノプティカルアクティブラーニング

CPRAL: Collaborative Panoptic-Regional Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2112.05975v1 )

ライセンス: Link先を確認
Yu Qiao, Jincheng Zhu, Chengjiang Long, Zeyao Zhang, Yuxin Wang, Zhenjun Du, Xin Yang(参考訳) アクティブラーニング(al)を通じて最も代表的な例を取得することは、画像レベルやピクセル単位のアノテーションの労力を最小化することで、多くのデータ依存のコンピュータビジョンタスクに役立つ。 本稿では,セマンティックセグメンテーションタスクに対処するための新しい協調型panoptic-regional active learning framework(cpral)を提案する。 ピクセル毎のアノテーションで最初にサンプリングされた画像の小さなバッチでは、まずpanoptic情報を使用してラベルなしのサンプルを選択します。 セグメンテーションデータセットのクラス不均衡を考慮し、セグメンテーションバイアス選択を実現するためにRegional Gaussian Attention Module (RGA)をインポートする。 サブセットは投票エントロピーで強調され、その後ガウスのカーネルが参加してバイアス領域を最大化する。 また,コンテキストアテンションガイダンスを用いた地域アノテーション向上のためのコンテキストラベル拡張(CLE)を提案する。 セマンティクス非依存の汎光学マッチングと地域バイアス選択と拡張の協調により、CPRALはラベル付けの取り組みと性能のバランスを保ち、セマンティクスの分布を損なうことができる。 我々はCityscapesとBDD10Kデータセットに関する広範な実験を行い、CPRALが最先端の手法よりも優れた結果とラベルの比率が低いことを示す。

Acquiring the most representative examples via active learning (AL) can benefit many data-dependent computer vision tasks by minimizing efforts of image-level or pixel-wise annotations. In this paper, we propose a novel Collaborative Panoptic-Regional Active Learning framework (CPRAL) to address the semantic segmentation task. For a small batch of images initially sampled with pixel-wise annotations, we employ panoptic information to initially select unlabeled samples. Considering the class imbalance in the segmentation dataset, we import a Regional Gaussian Attention module (RGA) to achieve semantics-biased selection. The subset is highlighted by vote entropy and then attended by Gaussian kernels to maximize the biased regions. We also propose a Contextual Labels Extension (CLE) to boost regional annotations with contextual attention guidance. With the collaboration of semantics-agnostic panoptic matching and regionbiased selection and extension, our CPRAL can strike a balance between labeling efforts and performance and compromise the semantics distribution. We perform extensive experiments on Cityscapes and BDD10K datasets and show that CPRAL outperforms the cutting-edge methods with impressive results and less labeling proportion.
翻訳日:2021-12-14 16:46:21 公開日:2021-12-11
# ランダム行列理論を用いたテストセットサイズ

Test Set Sizing Via Random Matrix Theory ( http://arxiv.org/abs/2112.05977v1 )

ライセンス: Link先を確認
Alexander Dubbs(参考訳) 本稿ではランダム行列理論(Random Matrix Theory)の手法を用いて,mデータ点を持つ単純な線形回帰に対して,それぞれ独立なn-次元多変数ガウス関数を求める。 これは「理想」を整合性の基準を満たすものと定義し、即ち経験的モデル誤差は実際の測定ノイズであり、したがってモデルの値や欠如を反映している。 本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解く最初の方法である。 トレーニングセットにおけるデータポイントの数は、m と n にのみ依存する四進多項式 Theorem 1 の根であり、多変量ガウスの共分散行列、真のモデルパラメータ、真の測定ノイズが計算から消える。 これらの問題は、既知のランダム行列モデルの固有値を記述する確率分布であるジャコビアンサンブル(jacobi ensemble)の文脈で議論され、セルバーグとアオモト(aomoto)のスタイルにおける新しい積分を評価することが、重要な数学的困難を悟った。 数学的結果は徹底した計算証拠で裏付けられる。 本論文は,機械学習におけるトレーニング/テストセットサイズの自動選択に向けたステップである。

This paper uses techniques from Random Matrix Theory to find the ideal training-testing data split for a simple linear regression with m data points, each an independent n-dimensional multivariate Gaussian. It defines "ideal" as satisfying the integrity metric, i.e. the empirical model error is the actual measurement noise, and thus fairly reflects the value or lack of same of the model. This paper is the first to solve for the training and test size for any model in a way that is truly optimal. The number of data points in the training set is the root of a quartic polynomial Theorem 1 derives which depends only on m and n; the covariance matrix of the multivariate Gaussian, the true model parameters, and the true measurement noise drop out of the calculations. The critical mathematical difficulties were realizing that the problems herein were discussed in the context of the Jacobi Ensemble, a probability distribution describing the eigenvalues of a known random matrix model, and evaluating a new integral in the style of Selberg and Aomoto. Mathematical results are supported with thorough computational evidence. This paper is a step towards automatic choices of training/test set sizes in machine learning.
翻訳日:2021-12-14 16:30:04 公開日:2021-12-11
# Show and Write: 画像情報付きエンティティ対応ニュース生成

Show and Write: Entity-aware News Generation with Image Information ( http://arxiv.org/abs/2112.05917v1 )

ライセンス: Link先を確認
Zhongping Zhang, Yiwen Gu, Bryan A. Plummer(参考訳) 長い記事を自動的に書くことは、複雑で困難な言語生成タスクです。 先行研究は主に、記事に関するトピックコンテキストとメタデータを提供するために、人間が書いたプロンプトを使ってこれらの記事を生成することに重点を置いてきた。 とは言っても、ニュース記事の生成など、多くのアプリケーションにおいて、これらの記事は画像やキャプションやalt-textと組み合わせられることが多く、これは現実の出来事に基づいており、言語モデルによって正しく認識され予測されにくい多くの異なる名前のエンティティを参照することができる。 この2つの問題に対処するため,本稿では,ニュース画像情報を言語モデルに組み込むための画像情報enginを用いたエンティティ対応ニュース生成手法を提案する。 Enginは、メタデータとキャプションや画像から抽出された名前付きエンティティといった情報の両方を条件としたニュース記事を生成する。 我々はまた、私たちのモデルがニュース中のエンティティ名をよりよく認識し、予測するのに役立つEntity-Awareメカニズムを提案する。 大規模ニュースデータセットであるGoodNewsとVisualNewsで実験を行った。 定量的結果から,本手法は基本モデルよりも4-5ポイント向上することが示された。 定性的な結果は、Enginが生成したテキストがニュース画像とより一致していることを示している。 また,生成した記事に対して品質アノテーション実験を行い,モデルが高品質な記事を生成することを検証した。 最後に,Enginが機械生成物を自動検出する手法に与える影響について検討する。

Automatically writing long articles is a complex and challenging language generation task. Prior work has primarily focused on generating these articles using human-written prompt to provide some topical context and some metadata about the article. That said, for many applications, such as generating news stories, these articles are often paired with images and their captions or alt-text, which in turn are based on real-world events and may reference many different named entities that are difficult to be correctly recognized and predicted by language models. To address these two problems, this paper introduces an Entity-aware News Generation method with Image iNformation, Engin, to incorporate news image information into language models. Engin produces news articles conditioned on both metadata and information such as captions and named entities extracted from images. We also propose an Entity-aware mechanism to help our model better recognize and predict the entity names in news. We perform experiments on two public large-scale news datasets, GoodNews and VisualNews. Quantitative results show that our approach improves article perplexity by 4-5 points over the base models. Qualitative results demonstrate the text generated by Engin is more consistent with news images. We also perform article quality annotation experiment on the generated articles to validate that our model produces higher-quality articles. Finally, we investigate the effect Engin has on methods that automatically detect machine-generated articles.
翻訳日:2021-12-14 16:24:09 公開日:2021-12-11
# 半自動アプローチによるヒンディー語韻律ラベリングデータセット

Prosody Labelled Dataset for Hindi using Semi-Automated Approach ( http://arxiv.org/abs/2112.05973v1 )

ライセンス: Link先を確認
Esha Banerjee, Atul Kr. Ojha, Girish Nath Jha(参考訳) 本研究では,音声から音声への翻訳システムを構築する上でも有用であるASRおよびTSシステムにおけるイントネーションの強化を目的とした,Hindiのための半自動ラベル付き韻律データベースの開発を目的とする。 ヒンディー語には韻律ラベリングの標準は存在しないが、過去の研究者は、ヒンディー語における韻律パターンの振る舞いに関する推論を、知覚的および統計的手法を用いて文学に採用してきた。 このような既存の研究に基づいて、ヒンズー語におけるイントネーション理論にほぼ同意したこの研究は、まずヒンズー語音声データの手作業による韻律コーパスを開発し、その後、自動韻律ラベルを生成するための予測モデルのトレーニングに使用される。 宣言型と尋問型の合計5000文(23,500語)がラベル付けされている。 ピッチアクセント、中間句境界、アクセント句境界の訓練されたモデルの精度は、それぞれ73.40%、93.20%、および43%である。

This study aims to develop a semi-automatically labelled prosody database for Hindi, for enhancing the intonation component in ASR and TTS systems, which is also helpful for building Speech to Speech Machine Translation systems. Although no single standard for prosody labelling exists in Hindi, researchers in the past have employed perceptual and statistical methods in literature to draw inferences about the behaviour of prosody patterns in Hindi. Based on such existing research and largely agreed upon theories of intonation in Hindi, this study attempts to first develop a manually annotated prosodic corpus of Hindi speech data, which is then used for training prediction models for generating automatic prosodic labels. A total of 5,000 sentences (23,500 words) for declarative and interrogative types have been labelled. The accuracy of the trained models for pitch accent, intermediate phrase boundaries and accentual phrase boundaries is 73.40%, 93.20%, and 43% respectively.
翻訳日:2021-12-14 16:23:47 公開日:2021-12-11
# Pseudo-Trigger-aware Pruned Complete Graphによる文書レベルのイベント抽出

Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph ( http://arxiv.org/abs/2112.06013v1 )

ライセンス: Link先を確認
Tong Zhu, Xiaoye Qu, Wenliang Chen, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan, Min Zhang(参考訳) ドキュメントレベルのイベント抽出には2つの大きな課題がある。 1)議論の実体は、異なる文に散在し、 2) イベントトリガーは、しばしば利用できない。 これらの課題に対処するため、従来の研究は主に自己回帰的な方法で議論連鎖を構築することに焦点を当てており、これはトレーニングと推論の両方において非効率である。 従来の研究とは対照的に,PTPCGと呼ばれる高速で軽量なモデルを提案する。 自動選択された疑似トリガーの指導の下で構築されたプルーニングされた完全グラフ上でイベント引数の組み合わせ抽出を行うために,非回帰復号アルゴリズムを設計する。 従来のシステムと比較して,本システムは,トレーニングに3.6%のGPU時間(pfs-days)を要し,推論に最大8.5倍の高速化を実現している。 さらに,このアプローチでは,データセットとトリガとの互換性が向上し,擬似トリガがアノテーション付きトリガの補足となり,さらなる改善が期待できる。

There are two main challenges in document-level event extraction: 1) argument entities are scattered in different sentences, and 2) event triggers are often not available. To address these challenges, most previous studies mainly focus on building argument chains in an autoregressive way, which is inefficient in both training and inference. In contrast to the previous studies, we propose a fast and lightweight model named as PTPCG. We design a non-autoregressive decoding algorithm to perform event argument combination extraction on pruned complete graphs, which are constructed under the guidance of the automatically selected pseudo triggers. Compared to the previous systems, our system achieves competitive results with lower resource consumption, taking only 3.6% GPU time (pfs-days) for training and up to 8.5 times faster for inference. Besides, our approach shows superior compatibility for the datasets with (or without) triggers and the pseudo triggers can be the supplements for annotated triggers to make further improvements.
翻訳日:2021-12-14 16:23:29 公開日:2021-12-11
# 長期学習のためのエンド・ツー・エンドトレーニング

You Only Need End-to-End Training for Long-Tailed Recognition ( http://arxiv.org/abs/2112.05958v1 )

ライセンス: Link先を確認
Zhiwei Zhang, Hongsheng Li(参考訳) 長い尾を持つデータセットの一般化のギャップは、ほとんどのカテゴリが少数のトレーニングサンプルを占有しているためである。 分離トレーニングは、バックボーンと分類器を別々にトレーニングすることで、よりよいパフォーマンスを達成する。 エンド・ツー・エンドモデルのトレーニング(例えばlogits margin-based method)のパフォーマンスが低くなる原因は何でしょう? 本研究は,分類器の学習に影響を与える重要な要因である,低エントロピーのチャネル関連特徴を,分類器に入力する前に同定する。 情報理論の観点からは, クロスエントロピー損失が不均衡データに対して高い相関性を持つ傾向がある理由を考察する。 さらに,分類器重みの勾配,ヘシアンの条件数,ロジッツマージンに基づくアプローチについて理論的に解析し,その影響を証明した。 そこで我々は,まずChannel Whiteningを用いて,重み付けをデカップリングし,スキュード決定境界を再構成するための分類器の入力をデコレーションし,ロジットマージン法と組み合わせて満足な結果を得る方法を提案する。 しかし、マイナークラス数が大きければ、バッチ不均衡とトレーニング参加の増加が、主要なクラスの過剰フィットの原因となる。 また,上記の問題を解決するために,ブロックベース相対バランスバッチサンプリング(b3rs)とバッチ組込みトレーニング(bet)という2つのモジュールを提案する。 CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。

The generalization gap on the long-tailed data sets is largely owing to most categories only occupying a few training samples. Decoupled training achieves better performance by training backbone and classifier separately. What causes the poorer performance of end-to-end model training (e.g., logits margin-based methods)? In this work, we identify a key factor that affects the learning of the classifier: the channel-correlated features with low entropy before inputting into the classifier. From the perspective of information theory, we analyze why cross-entropy loss tends to produce highly correlated features on the imbalanced data. In addition, we theoretically analyze and prove its impacts on the gradients of classifier weights, the condition number of Hessian, and logits margin-based approach. Therefore, we firstly propose to use Channel Whitening to decorrelate ("scatter") the classifier's inputs for decoupling the weight update and reshaping the skewed decision boundary, which achieves satisfactory results combined with logits margin-based method. However, when the number of minor classes are large, batch imbalance and more participation in training cause over-fitting of the major classes. We also propose two novel modules, Block-based Relatively Balanced Batch Sampler (B3RS) and Batch Embedded Training (BET) to solve the above problems, which makes the end-to-end training achieve even better performance than decoupled training. Experimental results on the long-tailed classification benchmarks, CIFAR-LT and ImageNet-LT, demonstrate the effectiveness of our method.
翻訳日:2021-12-14 15:53:38 公開日:2021-12-11
# ElegantRL-Podracer: クラウドネイティブな深層強化学習のためのスケーラブルで柔軟なライブラリ

ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning ( http://arxiv.org/abs/2112.05923v1 )

ライセンス: Link先を確認
Xiao-Yang Liu and Zechu Li and Zhuoran Yang and Jiahao Zheng and Zhaoran Wang and Anwar Walid and Jian Guo and Michael I. Jordan(参考訳) 深層強化学習(DRL)は、ゲームプレイやロボット制御などの応用において、学習と動作に革命をもたらした。 データ収集のコスト、すなわちエージェント環境相互作用から遷移を生成することは、複雑な現実世界の問題においてDRLを採用する上で大きな課題である。 GPUクラウドプラットフォーム上でDRLエージェントをトレーニングするクラウドネイティブパラダイムに従うことは、有望なソリューションだ。 本稿では,複数のレベルで大規模並列トレーニングを行うために,数百万のgpuコアを効率的にサポートするクラウドネイティブ深層強化学習のためのスケーラブルで弾力性のあるライブラリeliterl-podracerを提案する。 ハイレベルなeliterl-podracerでは、トーナメントベースのアンサンブルスキームを使用して、数百ないし数千のgpu上でトレーニングプロセスをオーケストレーションし、リーダボードとトレーニングプール間のインタラクションを数百のポッドでスケジューリングする。 低レベルでは、各ポッドは1つのGPUで7,000近いGPU CUDAコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。 ElegantRL-podracerライブラリは、コンテナ化、マイクロサービス、MLOpsの開発原則に従うことで、高いスケーラビリティ、弾力性、アクセシビリティを提供します。 NVIDIA DGX SuperPODクラウドを用いて、ロコモーションや株式取引における様々なタスクについて広範な実験を行い、ElegantRL-podracerがRLlibを大幅に上回ることを示す。 私たちのコードはgithubから入手できます。

Deep reinforcement learning (DRL) has revolutionized learning and actuation in applications such as game playing and robotic control. The cost of data collection, i.e., generating transitions from agent-environment interactions, remains a major challenge for wider DRL adoption in complex real-world problems. Following a cloud-native paradigm to train DRL agents on a GPU cloud platform is a promising solution. In this paper, we present a scalable and elastic library ElegantRL-podracer for cloud-native deep reinforcement learning, which efficiently supports millions of GPU cores to carry out massively parallel training at multiple levels. At a high-level, ElegantRL-podracer employs a tournament-based ensemble scheme to orchestrate the training process on hundreds or even thousands of GPUs, scheduling the interactions between a leaderboard and a training pool with hundreds of pods. At a low-level, each pod simulates agent-environment interactions in parallel by fully utilizing nearly 7,000 GPU CUDA cores in a single GPU. Our ElegantRL-podracer library features high scalability, elasticity and accessibility by following the development principles of containerization, microservices and MLOps. Using an NVIDIA DGX SuperPOD cloud, we conduct extensive experiments on various tasks in locomotion and stock trading and show that ElegantRL-podracer substantially outperforms RLlib. Our codes are available on GitHub.
翻訳日:2021-12-14 15:48:57 公開日:2021-12-11
# 連続映像の爆発による自己教師付き時空間表現学習

Self-supervised Spatiotemporal Representation Learning by Exploiting Video Continuity ( http://arxiv.org/abs/2112.05883v1 )

ライセンス: Link先を確認
Hanwen Liang, Niamul Quader, Zhixiang Chi, Lizhe Chen, Peng Dai, Juwei Lu, Yang Wang(参考訳) 近年の自己監督型ビデオ表現学習法は,速度や時間順などのビデオの本質的特性を探求することによって,大きな成功を収めている。 この研究は、自己教師付き表現学習のための監督信号を取得するために、ビデオの必須だが未熟な性質である \textit{video continuity} を利用する。 具体的には,映像表現学習のための共有バックボーンを共同で管理する,連続性正当化,不連続性局在化,欠落区間近似という3つの新しい連続性関連前文課題を定式化した。 この自己超越的アプローチは連続知覚ネットワーク(CPNet)と呼ばれ、3つのタスクを完全に解決し、バックボーンネットワークが局所的かつ長距離な動きとコンテキスト表現を学習することを奨励する。 これは、アクション認識、ビデオ検索、アクションローカライゼーションなど、複数の下流タスクにおける先行技術を上回る。 さらに、映像連続性は表現学習のための他の粗粒度ビデオ特性と相補的となり、提案するプリテキストタスクを先行技術に統合することで、多くのパフォーマンス向上が期待できる。

Recent self-supervised video representation learning methods have found significant success by exploring essential properties of videos, e.g. speed, temporal order, etc. This work exploits an essential yet under-explored property of videos, the \textit{video continuity}, to obtain supervision signals for self-supervised representation learning. Specifically, we formulate three novel continuity-related pretext tasks, i.e. continuity justification, discontinuity localization, and missing section approximation, that jointly supervise a shared backbone for video representation learning. This self-supervision approach, termed as Continuity Perception Network (CPNet), solves the three tasks altogether and encourages the backbone network to learn local and long-ranged motion and context representations. It outperforms prior arts on multiple downstream tasks, such as action recognition, video retrieval, and action localization. Additionally, the video continuity can be complementary to other coarse-grained video properties for representation learning, and integrating the proposed pretext task to prior arts can yield much performance gains.
翻訳日:2021-12-14 15:24:34 公開日:2021-12-11
# スムーズスワップ:スムーズなフェイススワッピングの簡易化

Smooth-Swap: A Simple Enhancement for Face-Swapping with Smoothness ( http://arxiv.org/abs/2112.05907v1 )

ライセンス: Link先を確認
Jiseob Kim, Jihoon Lee, Byoung-Tak Zhang(参考訳) 近年,フェース・スワッピング・モデルは世代別品質が向上し,プライバシ保護やエンターテイメントへの応用に注目が集まっている。 しかし、複雑なアーキテクチャと損失関数は、しばしばトレーニングを成功させるために注意深いチューニングを必要とする。 本稿では,複雑な手作りデザインを使わずに,アイデンティティ埋め込みの滑らかさを導出することに焦点を当てた,「スムースススワップ」と呼ばれる新しいフェイススワッピングモデルを提案する。 顔のスワッピングの難しさの要点は不安定な勾配であり、滑らかなアイデンティティ埋め込みによって解決できると仮定する。 Smooth-swapは、教師付きコントラスト学習を用いて訓練された組込み機を採用し、改良されたスムーズさにより、単純なU-Netベースのジェネレータと3つの基本損失関数でさえ、より高速で安定したトレーニングが可能になる。 フェイススワッピングベンチマーク(ffhq、faceforensics++)と顔画像に関する広範囲な実験は、我々のモデルは、アイデンティティ変更の観点から、既存の方法と定量的に、質的にも、あるいは、より優れていることを示している。

In recent years, face-swapping models have progressed in generation quality and drawn attention for their applications in privacy protection and entertainment. However, their complex architectures and loss functions often require careful tuning for successful training. In this paper, we propose a new face-swapping model called `Smooth-Swap', which focuses on deriving the smoothness of the identity embedding instead of employing complex handcrafted designs. We postulate that the gist of the difficulty in face-swapping is unstable gradients and it can be resolved by a smooth identity embedder. Smooth-swap adopts an embedder trained using supervised contrastive learning, where we find its improved smoothness allows faster and stable training even with a simple U-Net-based generator and three basic loss functions. Extensive experiments on face-swapping benchmarks (FFHQ, FaceForensics++) and face images in the wild show that our model is also quantitatively and qualitatively comparable or even superior to existing methods in terms of identity change.
翻訳日:2021-12-14 15:24:15 公開日:2021-12-11
# 医学領域における関係抽出に関する実証的研究

An Empirical Study on Relation Extraction in the Biomedical Domain ( http://arxiv.org/abs/2112.05910v1 )

ライセンス: Link先を確認
Yongkang Li(参考訳) 関係抽出は自然言語処理における根本的な問題である。 既存のモデルの多くは一般領域における関係抽出のために定義される。 しかし、特定の領域(例えばバイオメディシン)での業績はまだ不明である。 このギャップを埋めるために,生物医学研究論文における関係抽出に関する実証的研究を行った。 具体的には、文レベルの関係抽出と文書レベルの関係抽出の両方を検討し、いくつかのベンチマークデータセットで最先端の手法を実行する。 以上の結果から,(1)現行の文書レベルの関係抽出手法は高い一般化能力を有し,(2)既存の手法では,バイオメディシンのモデル微調整に大量のラベル付きデータを必要とすることがわかった。 我々の観察は、この分野の人々に、より効果的な生物医学的関係抽出モデルの開発を促すかもしれない。

Relation extraction is a fundamental problem in natural language processing. Most existing models are defined for relation extraction in the general domain. However, their performance on specific domains (e.g., biomedicine) is yet unclear. To fill this gap, this paper carries out an empirical study on relation extraction in biomedical research articles. Specifically, we consider both sentence-level and document-level relation extraction, and run a few state-of-the-art methods on several benchmark datasets. Our results show that (1) current document-level relation extraction methods have strong generalization ability; (2) existing methods require a large amount of labeled data for model fine-tuning in biomedicine. Our observations may inspire people in this field to develop more effective models for biomedical relation extraction.
翻訳日:2021-12-14 15:09:52 公開日:2021-12-11
# スケーラブルスプリットラーニングのためのサーバサイド局所勾配平均化と学習速度加速

Server-Side Local Gradient Averaging and Learning Rate Acceleration for Scalable Split Learning ( http://arxiv.org/abs/2112.05929v1 )

ライセンス: Link先を確認
Shraman Pal, Mansi Uniyal, Jihong Park, Praneeth Vepakomma, Ramesh Raskar, Mehdi Bennis, Moongu Jeon, Jinho Choi(参考訳) 近年,個人データを用いた分散学習の分野において,大きな進歩を遂げている。 連合学習 (federated learning, fl) とスプリット学習 (sl) は2つの先駆的概念であり,多くのユーザクライアントと大規模モデルに適している。 両方の利点を享受するために、splitfedのようなハイブリッドアプローチが最近登場したが、その基本はいまだに幻想的だ。 本研究では,まずSLの基本ボトルネックを特定し,SGLRという拡張性のあるSLフレームワークを提案する。 SGLRのサーバは分割層で平均される共通勾配を放送し、SplitFedとは対照的にクライアント間で追加の通信をせずにFLをエミュレートする。 一方、SGLRは学習率をサーバサイドとクライアントサイドに分割し、複数のクライアントを並行してサポートするように個別に調整する。 シミュレーションの結果,SGLR は SplitFed を含む他のベースライン SL 法よりも高い精度でエネルギーと通信コストを消費するFL と同等であることがわかった。 二次的な結果として,ベースライン上のSLGRを用いた相互情報によるセンシティブ情報漏洩の増大が観察された。

In recent years, there have been great advances in the field of decentralized learning with private data. Federated learning (FL) and split learning (SL) are two spearheads possessing their pros and cons, and are suited for many user clients and large models, respectively. To enjoy both benefits, hybrid approaches such as SplitFed have emerged of late, yet their fundamentals have still been illusive. In this work, we first identify the fundamental bottlenecks of SL, and thereby propose a scalable SL framework, coined SGLR. The server under SGLR broadcasts a common gradient averaged at the split-layer, emulating FL without any additional communication across clients as opposed to SplitFed. Meanwhile, SGLR splits the learning rate into its server-side and client-side rates, and separately adjusts them to support many clients in parallel. Simulation results corroborate that SGLR achieves higher accuracy than other baseline SL methods including SplitFed, which is even on par with FL consuming higher energy and communication costs. As a secondary result, we observe greater reduction in leakage of sensitive information via mutual information using SLGR over the baselines.
翻訳日:2021-12-14 15:07:46 公開日:2021-12-11
# (参考訳) 非言語通信におけるCNNを用いた唇状態検出のモデル化

Modelling Lips-State Detection Using CNN for Non-Verbal Communications ( http://arxiv.org/abs/2112.04752v2 )

ライセンス: CC BY 4.0
Abtahi Ishmam, Mahmudul Hasan, Md. Saif Hassan Onim, Koushik Roy, Md. Akiful Haque Akif and Hossain Nyeem(参考訳) ビジョンベースのディープラーニングモデルは、音声と聴覚に欠ける秘密のコミュニケーションに期待できる。 このような非言語コミュニケーションは主に手話や表情で研究されているが、リップス状態(つまりオープン・クローズ)ベースの解釈/翻訳システムについては、これまでの研究成果は追跡されていない。 本稿では,唇状態検出のための2つの新しい畳み込みニューラルネットワーク(CNN)モデルについて報告する。 dlibとmediapipeの2つの顕著なリップスランドマーク検出器の上に構築し、6つの主要なランドマークからなるリップスステートモデルを単純化し、その距離をリップス状態分類に使用する。 これにより、唇の開閉をカウントするために両方のモデルが開発され、合計数でシンボルを分類することができる。 モデルの有効性を明らかにするために, フレームレート, 唇運動, 顔角の変化について検討した。 実験結果から, DLIBを用いたモデルでは, 平均1秒あたり6フレーム (FPS) が比較的遅く, 平均95.25%の精度で検出できることがわかった。 対照的にMediaPipeのモデルは、20のFPSと94.4%の精度でより高速なランドマーク検出機能を提供する。 したがって、どちらのモデルも、非言語意味論の唇の状態を自然言語に効果的に解釈することができる。

Vision-based deep learning models can be promising for speech-and-hearing-impaired and secret communications. While such non-verbal communications are primarily investigated with hand-gestures and facial expressions, no research endeavour is tracked so far for the lips state (i.e., open/close)-based interpretation/translation system. In support of this development, this paper reports two new Convolutional Neural Network (CNN) models for lips state detection. Building upon two prominent lips landmark detectors, DLIB and MediaPipe, we simplify lips-state model with a set of six key landmarks, and use their distances for the lips state classification. Thereby, both the models are developed to count the opening and closing of lips and thus, they can classify a symbol with the total count. Varying frame-rates, lips-movements and face-angles are investigated to determine the effectiveness of the models. Our early experimental results demonstrate that the model with DLIB is relatively slower in terms of an average of 6 frames per second (FPS) and higher average detection accuracy of 95.25%. In contrast, the model with MediaPipe offers faster landmark detection capability with an average FPS of 20 and detection accuracy of 94.4%. Both models thus could effectively interpret the lips state for non-verbal semantics into a natural language.
翻訳日:2021-12-14 11:49:57 公開日:2021-12-11
# (参考訳) twitter上で有害かつ保護的な自殺関連コンテンツの検出 - マシンラーニングによるアプローチ

Detecting Potentially Harmful and Protective Suicide-related Content on Twitter: A Machine Learning Approach ( http://arxiv.org/abs/2112.04796v2 )

ライセンス: CC BY-SA 4.0
Hannah Metzler, Hubert Baginski, Thomas Niederkrotenthaler, David Garcia(参考訳) 研究によると、自殺に関連するメディアコンテンツへの露出は自殺率と関連しており、一部のコンテンツの特徴は有害なものや、潜在的に保護効果がある可能性がある。 優れた証拠はいくつかあるが、組織的な大規模調査は一般的に、特にソーシャルメディアデータには欠落している。 大量のtwitterデータを自動ラベル付けするために機械学習手法を適用した。 我々は,自殺関連ツイートを異なるメッセージタイプと問題に分類する新しいアノテーションスキームを開発した。 次に、多数分類器、単語周波数に基づくアプローチ(線形SVM付きTF-IDF)および最先端ディープラーニングモデル(BERT、XLNet)を含む機械学習モデルのベンチマークを訓練した。 この2つのディープラーニングモデルは,2つの分類タスクで最高のパフォーマンスを達成した。まず,自殺意識や予防関連情報の拡散を目的とした行動要求,自殺事例の報告,その他の自殺関連およびオフトピックなツイートを含む,6つの主要なコンテンツカテゴリを分類した。 ディープラーニングモデルは6つのカテゴリの平均で73%以上の精度スコアに達し、f1-scoresは自殺イデオレーションと試行(55%)を除くすべてのカテゴリで69%から85%である。 第2に、オフトピーのツイートから実際の自殺を指す投稿を分離する際、BERTはF1スコアを93%と74%で達成し、ツイートの88%を正しくラベル付けした。 これらの分類性能は、同様のタスクの最先端に匹敵する。 データラベリングをより効率的にすることで、ソーシャルメディアの各種コンテンツが自殺率やヘルプシーキング行動に与える影響について、将来の大規模調査が可能になる。

Research shows that exposure to suicide-related news media content is associated with suicide rates, with some content characteristics likely having harmful and others potentially protective effects. Although good evidence exists for a few selected characteristics, systematic large scale investigations are missing in general, and in particular for social media data. We apply machine learning methods to automatically label large quantities of Twitter data. We developed a novel annotation scheme that classifies suicide-related tweets into different message types and problem- vs. solution-focused perspectives. We then trained a benchmark of machine learning models including a majority classifier, an approach based on word frequency (TF-IDF with a linear SVM) and two state-of-the-art deep learning models (BERT, XLNet). The two deep learning models achieved the best performance in two classification tasks: First, we classified six main content categories, including personal stories about either suicidal ideation and attempts or coping, calls for action intending to spread either problem awareness or prevention-related information, reportings of suicide cases, and other suicide-related and off-topic tweets. The deep learning models reach accuracy scores above 73% on average across the six categories, and F1-scores in between 69% and 85% for all but the suicidal ideation and attempts category (55%). Second, in separating postings referring to actual suicide from off-topic tweets, they correctly labelled around 88% of tweets, with BERT achieving F1-scores of 93% and 74% for the two categories. These classification performances are comparable to the state-of-the-art on similar tasks. By making data labeling more efficient, this work enables future large-scale investigations on harmful and protective effects of various kinds of social media content on suicide rates and on help-seeking behavior.
翻訳日:2021-12-14 11:42:02 公開日:2021-12-11
# pixmix:dreamlike picturesは安全対策を総合的に改善

PixMix: Dreamlike Pictures Comprehensively Improve Safety Measures ( http://arxiv.org/abs/2112.05135v2 )

ライセンス: Link先を確認
Dan Hendrycks and Andy Zou and Mantas Mazeika and Leonard Tang and Bo Li and Dawn Song and Jacob Steinhardt(参考訳) 機械学習の現実世界のアプリケーションでは、信頼性と安全性を備えたシステムは、標準テストセットの精度以上のパフォーマンスの尺度を考慮しなければならない。 その他の目標には、分散(ood)の堅牢性、予測一貫性、敵へのレジリエンス、不確実性の推定の校正、異常な入力の検出機能などがある。 しかしながら、これらの目標に対するパフォーマンス向上は、しばしば、今日のメソッドが他の安全軸のパフォーマンスを犠牲にすることなく達成できないバランスをとる行為である。 例えば、敵のトレーニングは敵の堅牢性を改善するが、他の分類器のパフォーマンス指標を著しく低下させる。 同様に、強固なデータ拡張と正規化技術は、oodの堅牢性を改善するが異常検出を害し、既存のすべての安全対策においてパレート改善が可能かどうかという疑問を提起する。 この課題に対処するために、多数のベースラインを上回り、パレート最適に近いフラクタルなどの画像の自然な構造的複雑さを活用し、安全対策を徹底的に改善する新しいデータ拡張戦略を設計する。

In real-world applications of machine learning, reliable and safe systems must consider measures of performance beyond standard test set accuracy. These other goals include out-of-distribution (OOD) robustness, prediction consistency, resilience to adversaries, calibrated uncertainty estimates, and the ability to detect anomalous inputs. However, improving performance towards these goals is often a balancing act that today's methods cannot achieve without sacrificing performance on other safety axes. For instance, adversarial training improves adversarial robustness but sharply degrades other classifier performance metrics. Similarly, strong data augmentation and regularization techniques often improve OOD robustness but harm anomaly detection, raising the question of whether a Pareto improvement on all existing safety measures is possible. To meet this challenge, we design a new data augmentation strategy utilizing the natural structural complexity of pictures such as fractals, which outperforms numerous baselines, is near Pareto-optimal, and roundly improves safety measures.
翻訳日:2021-12-14 11:29:51 公開日:2021-12-11