このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210929となっている論文です。

PDF登録状況(公開日: 20210929)

TitleAuthorsAbstract論文公表日・翻訳日
# サブシーズン気候予測のための学習モデルと動的モデル:比較と協調

Learning and Dynamical Models for Sub-seasonal Climate Forecasting: Comparison and Collaboration ( http://arxiv.org/abs/2110.05196v1 )

ライセンス: Link先を確認
Sijie He, Xinyan Li, Laurie Trenary, Benjamin A Cash, Timothy DelSole, Arindam Banerjee(参考訳) 亜季節気候予報 (sub-seasonal climate forecasting, ssf) は、2週間から2ヶ月の地平線における気温や降水量などの重要な気候変数の予測である。 熟練したSSFは農業生産性、水文学、水資源管理などの分野においてかなりの社会的価値を持ち、干ばつや山火事のような極端な出来事の緊急計画を立てることになる。 社会的な重要性にもかかわらず、ssfは短期の気象予報と長期の季節予報に比して困難な問題のままである。 近年の研究では、機械学習モデル(ML)がSSFを前進させる可能性を示している。 本稿では,米国西部のssfにおけるサブシーズン実験(subseasonal experiment,subx)プロジェクトにおいて,最新のmlモデル群と物理系力学モデル群との詳細な比較を行った。 さらに、動的モデルからの予測を用いて、MLモデルを強化するメカニズムについて検討する。 実験の結果、平均的にmlモデルは動的モデルよりも優れており、mlモデルは予測においてsubxモデルよりも保守的である傾向が示されている。 さらに,極性渦による寒波などの極端な気象条件下でMLモデルが予測誤差を発生させ,極性事象に対する別のモデルの必要性を浮き彫りにしている。 最後に,MLモデルの入力として動的モデル予測を適切に組み込むことにより,MLモデルの予測性能を大幅に向上させることができることを示す。 作業、動的モデル予測、MLモデルのコードのために構築されたSSFデータセットと、より広範な機械学習コミュニティの利益のための論文がリリースされている。

Sub-seasonal climate forecasting (SSF) is the prediction of key climate variables such as temperature and precipitation on the 2-week to 2-month time horizon. Skillful SSF would have substantial societal value in areas such as agricultural productivity, hydrology and water resource management, and emergency planning for extreme events such as droughts and wildfires. Despite its societal importance, SSF has stayed a challenging problem compared to both short-term weather forecasting and long-term seasonal forecasting. Recent studies have shown the potential of machine learning (ML) models to advance SSF. In this paper, for the first time, we perform a fine-grained comparison of a suite of modern ML models with start-of-the-art physics-based dynamical models from the Subseasonal Experiment (SubX) project for SSF in the western contiguous United States. Additionally, we explore mechanisms to enhance the ML models by using forecasts from dynamical models. Empirical results illustrate that, on average, ML models outperform dynamical models while the ML models tend to be conservatives in their forecasts compared to the SubX models. Further, we illustrate that ML models make forecasting errors under extreme weather conditions, e.g., cold waves due to the polar vortex, highlighting the need for separate models for extreme events. Finally, we show that suitably incorporating dynamical model forecasts as inputs to ML models can substantially improve the forecasting performance of the ML models. The SSF dataset constructed for the work, dynamical model predictions, and code for the ML models are released along with the paper for the benefit of the broader machine learning community.
翻訳日:2021-10-17 05:10:00 公開日:2021-09-29
# (参考訳) dnn支援粒子ベースベイズ関節同期と局在 [全文訳有]

DNN-assisted Particle-based Bayesian Joint Synchronization and Localization ( http://arxiv.org/abs/2110.02771v1 )

ライセンス: CC BY 4.0
Meysam Goodarzi, Vladica Sark, Nebojsa Maletic, Jes\'us Guti\'errez, Giuseppe Caire, and Eckhard Grass(参考訳) 本研究では,超高密度ネットワークにおけるモバイルユーザ(MU)共同同期と局所化(sync\&loc)問題に対処するディープニューラルネットワークを用いたパーティクルフィルタ(DePF)アプローチを提案する。 特に、DePFはMUとアクセスポイント(AP)の間の非対称なタイムスタンプ交換機構をデプロイし、伝統的にMUのクロックオフセットとスキューに関する情報を提供する。 しかし、APとMU間の距離に関する情報も、交換されたタイムスタンプで発生する伝搬遅延に固有のものである。 さらに、受信した同期パケットの到着角度を推定するために、DePFは、同期パケットが経験したチャネルインパルス応答(CIR)によって供給される多重信号分類アルゴリズムを利用する。 また、CIRを利用してリンク条件、すなわちLine-of-Sight(LoS)またはNon-LoSを決定する。 最後に、共役sync\&locを実行するために、depfは、上記の情報片のハイブリッド粒子ベースおよびパラメトリックベイズ再帰フィルタリング(brf)を可能にする粒子ガウス混合体を利用して、musの位置とクロックパラメータを共同で推定する。 シミュレーション結果は,提案アルゴリズムが最先端のスキーム,特に拡張カルマンフィルタと線形化brfに基づくジョイントsync\&locよりも優れていることを検証した。 特に、同期タイムスタンプ交換とcirsのみの描画では、90$\%$のケースでは、絶対位置とクロックオフセット推定誤差がそれぞれ1メートルと2ナノ秒以下である。

In this work, we propose a Deep neural network-assisted Particle Filter-based (DePF) approach to address the Mobile User (MU) joint synchronization and localization (sync\&loc) problem in ultra dense networks. In particular, DePF deploys an asymmetric time-stamp exchange mechanism between the MUs and the Access Points (APs), which, traditionally, provides us with information about the MUs' clock offset and skew. However, information about the distance between an AP and an MU is also intrinsic to the propagation delay experienced by exchanged time-stamps. In addition, to estimate the angle of arrival of the received synchronization packet, DePF draws on the multiple signal classification algorithm that is fed by Channel Impulse Response (CIR) experienced by the sync packets. The CIR is also leveraged on to determine the link condition, i.e. Line-of-Sight (LoS) or Non-LoS. Finally, to perform joint sync\&loc, DePF capitalizes on particle Gaussian mixtures that allow for a hybrid particle-based and parametric Bayesian Recursive Filtering (BRF) fusion of the aforementioned pieces of information and thus jointly estimate the position and clock parameters of the MUs. The simulation results verifies the superiority of the proposed algorithm over the state-of-the-art schemes, especially that of Extended Kalman filter- and linearized BRF-based joint sync\&loc. In particular, only drawing on the synchronization time-stamp exchange and CIRs, for 90$\%$of the cases, the absolute position and clock offset estimation error remain below 1 meter and 2 nanoseconds, respectively.
翻訳日:2021-10-10 13:09:07 公開日:2021-09-29
# (参考訳) 幼児の自閉症スクリーニング分類モデルの開発 [全文訳有]

Development of an autism screening classification model for toddlers ( http://arxiv.org/abs/2110.01410v1 )

ライセンス: CC BY 4.0
Afef Saihi and Hussam Alshraideh(参考訳) 自閉症スペクトラム障害 ASDは、コミュニケーション、社会的相互作用、反復行動の課題に関連する神経発達障害である。 早期介入の開始や治療サービスへのアクセスには,子供の明確な診断が必要である。 しかし、これらの子供たちの自閉症のスクリーニングを早期に妨げる多くの障壁があり、治療介入へのアクセスをさらに遅らせる可能性がある。 幼児におけるASD検出の効率と精度を改善するための有望な方向の1つは、機械学習技術を用いて目的に合う分類器を構築することである。 本稿では,fadi fayez thabtah博士が開発したデータを用いて,早期asdスクリーニングのための機械学習分類器の訓練とテストを行う。 様々な属性に基づき、決定木c4.5、ランダムフォレスト、ニューラルネットワークの3つのモデルを訓練し比較した。 3つのモデルは、テストデータに基づいて非常に優れた精度を提供するが、他の2つのモデルより優れているのはニューラルネットワークである。 本研究は, 乳幼児の早期検診に寄与し, ASD 特性を有する者を同定し, 正式な臨床診断を行う。

Autism spectrum disorder ASD is a neurodevelopmental disorder associated with challenges in communication, social interaction, and repetitive behaviors. Getting a clear diagnosis for a child is necessary for starting early intervention and having access to therapy services. However, there are many barriers that hinder the screening of these kids for autism at an early stage which might delay further the access to therapeutic interventions. One promising direction for improving the efficiency and accuracy of ASD detection in toddlers is the use of machine learning techniques to build classifiers that serve the purpose. This paper contributes to this area and uses the data developed by Dr. Fadi Fayez Thabtah to train and test various machine learning classifiers for the early ASD screening. Based on various attributes, three models have been trained and compared which are Decision tree C4.5, Random Forest, and Neural Network. The three models provided very good accuracies based on testing data, however, it is the Neural Network that outperformed the other two models. This work contributes to the early screening of toddlers by helping identify those who have ASD traits and should pursue formal clinical diagnosis.
翻訳日:2021-10-10 12:45:33 公開日:2021-09-29
# MedPerf:フェデレーションによる医療人工知能のベンチマークプラットフォーム

MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence using Federated Evaluation ( http://arxiv.org/abs/2110.01406v1 )

ライセンス: Link先を確認
Alexandros Karargyris, Renato Umeton, Micah J. Sheller, Alejandro Aristizabal, Johnu George, Srini Bala, Daniel J. Beutel, Victor Bittorf, Akshay Chaudhari, Alexander Chowdhury, Cody Coleman, Bala Desinghu, Gregory Diamos, Debo Dutta, Diane Feddema, Grigori Fursin, Junyi Guo, Xinyuan Huang, David Kanter, Satyananda Kashyap, Nicholas Lane, Indranil Mallick, Pietro Mascagni, Virendra Mehta, Vivek Natarajan, Nikola Nikolov, Nicolas Padoy, Gennady Pekhimenko, Vijay Janapa Reddi, G Anthony Reina, Pablo Ribalta, Jacob Rosenthal, Abhishek Singh, Jayaraman J. Thiagarajan, Anna Wuest, Maria Xenochristou, Daguang Xu, Poonam Yadav, Michael Rosenthal, Massimo Loda, Jason M. Johnson, Peter Mattson(参考訳) 医療AIは、エビデンスベースの医療の実践を支援し、患者の治療をパーソナライズし、コストを削減し、提供者と患者体験を改善することで、医療を前進させる大きな可能性を秘めている。 この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。 このニーズを満たすため、医療領域で機械学習をベンチマークするオープンフレームワークであるMedPerfを構築しています。 medperfは、モデルが異なる評価施設に安全に配布されるフェデレーション評価を可能にし、医療組織に対して、プライバシを優先順位付けしながら、効率的かつ監視されたプロセスでaiモデルのパフォーマンスを評価し検証する権限を与える。 我々は、医療とAIコミュニティが直面する現在の課題、オープンプラットフォームの必要性、MedPerfの設計哲学、現在の実装状況、ロードマップについて説明する。 medperf open benchmarking platformの開発には,研究者や組織も参加してほしいと考えています。

Medical AI has tremendous potential to advance healthcare by supporting the evidence-based practice of medicine, personalizing patient treatment, reducing costs, and improving provider and patient experience. We argue that unlocking this potential requires a systematic way to measure the performance of medical AI models on large-scale heterogeneous data. To meet this need, we are building MedPerf, an open framework for benchmarking machine learning in the medical domain. MedPerf will enable federated evaluation in which models are securely distributed to different facilities for evaluation, thereby empowering healthcare organizations to assess and verify the performance of AI models in an efficient and human-supervised process, while prioritizing privacy. We describe the current challenges healthcare and AI communities face, the need for an open platform, the design philosophy of MedPerf, its current implementation status, and our roadmap. We call for researchers and organizations to join us in creating the MedPerf open benchmarking platform.
翻訳日:2021-10-10 11:05:28 公開日:2021-09-29
# マルチ表現プログラミング - 詳細な記述

Multi Expression Programming -- an in-depth description ( http://arxiv.org/abs/2110.00367v1 )

ライセンス: Link先を確認
Mihai Oltean(参考訳) Multi Expression Programming (MEP) は染色体の線形表現を用いた遺伝的プログラミングの変種である。 MEP個人は複雑なコンピュータプログラムをコードする遺伝子の文字列である。 MEPの個人が式をエンコードする場合、その表現はコンパイラが$C$または$Pascal$式を機械コードに変換する方法に似ている。 ユニークなMEP機能は、問題の複数の解を単一の染色体に格納する能力である。 通常、ベストソリューションはフィットネスの割り当てに選択されます。 シンボリック回帰や分類問題を解くとき(または、トレーニングセットが解かれる前に知られている他の問題)、MEPは1つの溶液を染色体(GP、CGP、GEP、GEなど)に格納する他の技術と同じ複雑さを持つ。 MEP個体にコードされた発現の評価は、染色体の1つの解析によって行うことができる。 交叉と突然変異によって得られる子孫は、常に構文的に正しいMEP個人(コンピュータプログラム)である。 これにより、新たに取得した個人を補修するための余分な処理は不要となる。

Multi Expression Programming (MEP) is a Genetic Programming variant that uses a linear representation of chromosomes. MEP individuals are strings of genes encoding complex computer programs. When MEP individuals encode expressions, their representation is similar to the way in which compilers translate $C$ or $Pascal$ expressions into machine code. A unique MEP feature is the ability to store multiple solutions of a problem in a single chromosome. Usually, the best solution is chosen for fitness assignment. When solving symbolic regression or classification problems (or any other problems for which the training set is known before the problem is solved) MEP has the same complexity as other techniques storing a single solution in a chromosome (such as GP, CGP, GEP or GE). Evaluation of the expressions encoded into an MEP individual can be performed by a single parsing of the chromosome. Offspring obtained by crossover and mutation is always syntactically correct MEP individuals (computer programs). Thus, no extra processing for repairing newly obtained individuals is needed.
翻訳日:2021-10-04 14:41:27 公開日:2021-09-29
# (参考訳) マルチリードECG分類のための畳み込み自由波形変換器 [全文訳有]

Convolution-Free Waveform Transformers for Multi-Lead ECG Classification ( http://arxiv.org/abs/2109.15129v1 )

ライセンス: CC BY 4.0
Annamalai Natarajan, Gregory Boverman, Yale Chang, Corneliu Antonescu, Jonathan Rubin(参考訳) 心電図記録から心電図の異常を検出する波形変換器モデルである2021 PhysioNet/CinC Challengeについて述べる。 6つのデータセットからの約88,000のECG記録を用いて、異なるECGリードサブセットにおける波形変換器モデルの性能を比較した。 公式ランキングでは、チームプリーナは12, 6, 4, 3, 2-Ledセットで9位と15位にランクインした。 波形トランスフォーマモデルでは,ecg-lead部分集合全体のホールドアウトテストで平均チャレンジメトリック0.47を達成した。 全リーダの合計パフォーマンスは、39チーム中11位にランクインしました。

We present our entry to the 2021 PhysioNet/CinC challenge - a waveform transformer model to detect cardiac abnormalities from ECG recordings. We compare the performance of the waveform transformer model on different ECG-lead subsets using approximately 88,000 ECG recordings from six datasets. In the official rankings, team prna ranked between 9 and 15 on 12, 6, 4, 3 and 2-lead sets respectively. Our waveform transformer model achieved an average challenge metric of 0.47 on the held-out test set across all ECG-lead subsets. Our combined performance across all leads placed us at rank 11 out of 39 officially ranking teams.
翻訳日:2021-10-02 10:50:38 公開日:2021-09-29
# (参考訳) プライバシポリシ質問回答アシスタント:クエリガイドによる抽出要約アプローチ [全文訳有]

Privacy Policy Question Answering Assistant: A Query-Guided Extractive Summarization Approach ( http://arxiv.org/abs/2109.14638v1 )

ライセンス: CC BY 4.0
Moniba Keymanesh, Micha Elsner, Srinivasan Parthasarathy(参考訳) プライバシポリシをアクセス可能にする既存の作業では、リスク要因に基づいたカラーコーディングや、ユーザの意識的な合意を支援する要約といった、新たなプレゼンテーション形式が検討されている。 ポリシーとのよりパーソナライズされたインタラクションを容易にするため、本研究では、入力されたユーザクエリに応じて要約を抽出する自動プライバシーポリシー質問応答アシスタントを提案する。 これは、ユーザーがプライバシー関連の質問をポリシーの法的言語と全く異なる言語で明瞭に表現し、システムが調査を理解するのを困難にしているため、難しい課題である。 さらに、この領域の既存の注釈付きデータは制限されている。 我々は、ユーザの質問のスタイルと言語をプライバシーポリシーの言語に近づけるためにパラフレーズすることで、これらの問題に対処する。 我々のコンテンツスコアリングモジュールは、既存のドメイン内のデータを使用してポリシーの関連情報を見つけ、要約に組み込む。 当社のパイプラインでは、privacyqaデータセットで、ユーザクエリの89%に対する回答を見つけることができます。

Existing work on making privacy policies accessible has explored new presentation forms such as color-coding based on the risk factors or summarization to assist users with conscious agreement. To facilitate a more personalized interaction with the policies, in this work, we propose an automated privacy policy question answering assistant that extracts a summary in response to the input user query. This is a challenging task because users articulate their privacy-related questions in a very different language than the legal language of the policy, making it difficult for the system to understand their inquiry. Moreover, existing annotated data in this domain are limited. We address these problems by paraphrasing to bring the style and language of the user's question closer to the language of privacy policies. Our content scoring module uses the existing in-domain data to find relevant information in the policy and incorporates it in a summary. Our pipeline is able to find an answer for 89% of the user queries in the privacyQA dataset.
翻訳日:2021-10-02 10:44:17 公開日:2021-09-29
# (参考訳) FathomNet: 海で人工知能を可能にするグローバルな水中画像トレーニングセット [全文訳有]

FathomNet: A global underwater image training set for enabling artificial intelligence in the ocean ( http://arxiv.org/abs/2109.14646v1 )

ライセンス: CC BY 4.0
Kakani Katija, Eric Orenstein, Brian Schlining, Lonny Lundsten, Kevin Barnard, Giovanna Sainz, Oceane Boulais, Benjamin Woodward, Katy Croff Bell(参考訳) 海を行き来するプラットフォームは、観測とナビゲーションのための高解像度カメラフィードを統合し、大量のビジュアルデータを生成している。 このデータ収集のボリュームとレートは、研究者が処理し分析する能力を急速に上回る可能性がある。 機械学習の最近の進歩は、ビジュアルデータの高速で洗練された分析を可能にするが、データセットの標準化、スパースアノテーションツールの欠如、データ科学者が使用する既存の専門的な画像のフォーマット化と集約が不十分なため、海洋学の世界では限られた成功を収めた。 このニーズに対処するため、私たちは、既存の(そして将来)専門的にキュレートされたデータを利用する公開プラットフォームであるFathomNetを構築しました。 MBARIのVideo Annotation and Reference Systemと注釈付き深海ビデオデータベースは、知識ベースに7Mのアノテーション、1Mのフレームグラブ、5kの用語があり、National Geographic Society(NGS)とNOAAのOcean Exploration and Research(海洋探査・研究局)が貢献している。 fathomnetには1k以上の中水・ベント海の分布があり、海洋動物、水中機器、残骸などの象徴的かつ非音響的な視点がある。 MBARIのROV MiniROVを用いて,FathomNetデータに基づいてトレーニングされた機械学習モデルを,さまざまな機関のビデオデータ(例えば,NGSのDeep Sea Camera SystemとNOAAのROV Deep Discoverer)に適用し,水中動物の自動取得と追跡を可能にする。 FathomNetは、他の海洋コミュニティメンバーによる画像データの開発と統合を続けており、この取り組みにより、科学者、探検家、政策立案者、ストーリーテラー、そして一般大衆が海の理解とケアが可能になる。

Ocean-going platforms are integrating high-resolution camera feeds for observation and navigation, producing a deluge of visual data. The volume and rate of this data collection can rapidly outpace researchers' abilities to process and analyze them. Recent advances in machine learning enable fast, sophisticated analysis of visual data, but have had limited success in the oceanographic world due to lack of dataset standardization, sparse annotation tools, and insufficient formatting and aggregation of existing, expertly curated imagery for use by data scientists. To address this need, we have built FathomNet, a public platform that makes use of existing (and future), expertly curated data. Initial efforts have leveraged MBARI's Video Annotation and Reference System and annotated deep sea video database, which has more than 7M annotations, 1M framegrabs, and 5k terms in the knowledgebase, with additional contributions by National Geographic Society (NGS) and NOAA's Office of Ocean Exploration and Research. FathomNet has over 100k localizations of 1k midwater and benthic classes, and contains iconic and non-iconic views of marine animals, underwater equipment, debris, etc. We will demonstrate how machine learning models trained on FathomNet data can be applied across different institutional video data, (e.g., NGS' Deep Sea Camera System and NOAA's ROV Deep Discoverer), and enable automated acquisition and tracking of midwater animals using MBARI's ROV MiniROV. As FathomNet continues to develop and incorporate more image data from other oceanographic community members, this effort will enable scientists, explorers, policymakers, storytellers, and the public to understand and care for our ocean.
翻訳日:2021-10-02 10:30:59 公開日:2021-09-29
# (参考訳) ネットワーク軌道アプローチとグラフニューラルネットワークによる脳卒中回復表現型 [全文訳有]

Stroke recovery phenotyping through network trajectory approaches and graph neural networks ( http://arxiv.org/abs/2109.14659v1 )

ライセンス: CC BY 4.0
Sanjukta Krishnagopal, Keith Lohse, Robynne Braun(参考訳) 脳卒中は、認知、言語、感覚、運動機能を含む複数の神経領域の障害を特徴とする神経障害の主要な原因である。 これらの領域における臨床回復は、連続性、順序性、間隔性、カテゴリー性といった様々な尺度を用いて追跡され、標準的な多変量回帰アプローチの課題が提示される。 これは、脳卒中研究者が症状の間の複雑な時間発展的な相互作用を総合的に表現する能力を妨げる。 ここでは、ネットワーク科学と機械学習のツールを使用し、これらのデータの基本となるパターンを抽出するのに特に適しており、回復パターンの予測に役立ちます。 提案手法の有用性を実証するため, トラジェクトリ・プロファイル・クラスタリング (TPC) 法を用いて, NINDS tPA 試験のデータを解析し, 5つの離散時間点における11の異なる神経領域の異なる脳卒中回復パターンを同定した。 以上の結果から,症状群と症状重症度の違いを特徴とし,臨床関連脳卒中症候群と一致する3つの異なる脳卒中軌跡プロファイルを同定した。 次に、グラフニューラルネットワークを用いて、患者の軌道プロファイルを早期と後期の時間差で定式化するためのモデルの有効性を検証した。 トラジェクトリ・プロファイル・クラスタリングは多次元縦断データセットにおける臨床関連回復サブタイプを同定し,症状進行サブタイプを早期に予測するための有効な方法であることを示す。 本稿では,脳卒中回復表現のためのネットワークトラジェクトリアプローチを導入した最初の研究であり,そのような新しい計算手法の翻訳を実践的臨床応用に適用することを目的としている。

Stroke is a leading cause of neurological injury characterized by impairments in multiple neurological domains including cognition, language, sensory and motor functions. Clinical recovery in these domains is tracked using a wide range of measures that may be continuous, ordinal, interval or categorical in nature, which presents challenges for standard multivariate regression approaches. This has hindered stroke researchers' ability to achieve an integrated picture of the complex time-evolving interactions amongst symptoms. Here we use tools from network science and machine learning that are particularly well-suited to extracting underlying patterns in such data, and may assist in prediction of recovery patterns. To demonstrate the utility of this approach, we analyzed data from the NINDS tPA trial using the Trajectory Profile Clustering (TPC) method to identify distinct stroke recovery patterns for 11 different neurological domains at 5 discrete time points. Our analysis identified 3 distinct stroke trajectory profiles that align with clinically relevant stroke syndromes, characterized both by distinct clusters of symptoms, as well as differing degrees of symptom severity. We then validated our approach using graph neural networks to determine how well our model performed predictively for stratifying patients into these trajectory profiles at early vs. later time points post-stroke. We demonstrate that trajectory profile clustering is an effective method for identifying clinically relevant recovery subtypes in multidimensional longitudinal datasets, and for early prediction of symptom progression subtypes in individual patients. This paper is the first work introducing network trajectory approaches for stroke recovery phenotyping, and is aimed at enhancing the translation of such novel computational approaches for practical clinical application.
翻訳日:2021-10-02 10:10:18 公開日:2021-09-29
# (参考訳) 特別修正U-Net CNNを用いた衛星画像中の道路分割 [全文訳有]

Segmentation of Roads in Satellite Images using specially modified U-Net CNNs ( http://arxiv.org/abs/2109.14671v1 )

ライセンス: CC BY 4.0
Jonas Bokstaller, Yihang She, Zhehan Fu and Tommaso Macr\`i(参考訳) 画像分類問題は、コンピュータビジョンアルゴリズムとニューラルネットワークの助けを借りて、研究コミュニティによって深く研究されてきた。 本研究の目的は,道路が位置する画像の一部を識別し,これらの部分と他の部分とを分離する,都市景観の衛星画像の分類器を構築することである。 従来のコンピュータビジョンアルゴリズムとは異なり、畳み込みニューラルネットワーク(CNN)はこのタスクに対して正確で信頼性の高い結果を提供する。 提案手法では,スライディングウィンドウを用いて画像全体からパッチを抽出し,より多くのトレーニング/テストデータを生成するデータ拡張を行い,さらにu-net cnnを改良した。 提案手法は、平均Fスコア距離で試験された他のベースラインよりも優れる。

The image classification problem has been deeply investigated by the research community, with computer vision algorithms and with the help of Neural Networks. The aim of this paper is to build an image classifier for satellite images of urban scenes that identifies the portions of the images in which a road is located, separating these portions from the rest. Unlike conventional computer vision algorithms, convolutional neural networks (CNNs) provide accurate and reliable results on this task. Our novel approach uses a sliding window to extract patches out of the whole image, data augmentation for generating more training/testing data and lastly a series of specially modified U-Net CNNs. This proposed technique outperforms all other baselines tested in terms of mean F-score metric.
翻訳日:2021-10-02 09:58:09 公開日:2021-09-29
# (参考訳) 協調ネットワーク制御のためのデータ共有と圧縮 [全文訳有]

Data Sharing and Compression for Cooperative Networked Control ( http://arxiv.org/abs/2109.14675v1 )

ライセンス: CC BY 4.0
Jiangnan Cheng, Marco Pavone, Sachin Katti, Sandeep Chinchali, Ao Tang(参考訳) セルラーや電力負荷パターンなどのネットワークタイムリーデータの共有予測は、トラフィックスケジューリングから発電まで、独立した制御アプリケーションを改善することができる。 通常、予測は下流コントローラのタスク目標を知らずに設計され、したがって平均予測誤差を最適化する。 しかし、このようなタスクに依存しない表現は、しばしば通信網を流れるには大きすぎるため、協調制御のための健全な時間的特徴を強調しない。 本稿では,モジュール型コントローラのタスク目標と協調設計した,簡潔で圧縮性の高い予測手法を提案する。 実セルラー、iot(internet-of-thin gs)、電力負荷データを用いたシミュレーションでは、モデル予測コントローラの性能を少なくとも25-%$で向上させながら、競合メソッドよりも80-%少ないデータを送信することができる。 さらに,古典線形二次レギュレータ(lqr)制御問題のネットワーク型に対する理論的圧縮結果を示す。

Sharing forecasts of network timeseries data, such as cellular or electricity load patterns, can improve independent control applications ranging from traffic scheduling to power generation. Typically, forecasts are designed without knowledge of a downstream controller's task objective, and thus simply optimize for mean prediction error. However, such task-agnostic representations are often too large to stream over a communication network and do not emphasize salient temporal features for cooperative control. This paper presents a solution to learn succinct, highly-compressed forecasts that are co-designed with a modular controller's task objective. Our simulations with real cellular, Internet-of-Things (IoT), and electricity load data show we can improve a model predictive controller's performance by at least $25\%$ while transmitting $80\%$ less data than the competing method. Further, we present theoretical compression results for a networked variant of the classical linear quadratic regulator (LQR) control problem.
翻訳日:2021-10-02 09:52:07 公開日:2021-09-29
# (参考訳) 共変量依存スペクトル解析のための木モデルの適応ベイズ和

Adaptive Bayesian Sum of Trees Model for Covariate Dependent Spectral Analysis ( http://arxiv.org/abs/2109.14677v1 )

ライセンス: CC BY 4.0
Yakun Wang, Zeda Li, and Scott A. Bruce(参考訳) 本稿では,多重共変量と多重時系列のパワースペクトルの関係を推定する,フレキシブルで適応的な非パラメトリック手法を提案する。 提案手法は、複雑な依存関係と共変量とパワースペクトルの間の相互作用を捉え、しばしば生物医学的時系列の研究で観察される。 ツリー内の終端ノードに対応する局所電力スペクトルをベイズ刑罰線形スプラインを用いて非パラメトリックに推定する。 これらの木は、可逆ジャンプmcmc技術を用いて木の変更を逐次検討するベイジアンバックフィッティングマルコフ連鎖モンテカルロ(mcmc)アルゴリズムを用いてランダムで適合すると考えられている。 高次元共変量に対しては、木分割率の空間性誘導性Dirichlet hyperpriorを考慮し、共変量効果のスパース推定と効率的な変数選択を提供する。 木々の後方分布を平均化することにより,複数の共変量間のパワースペクトルのスムーズな変化と急激な変化を両立させることができる。 シミュレーションにより実験性能を評価し,複雑な関係や相互作用を正確に再現する手法の能力を実証した。 提案手法は,他の共変量の存在下でのストライド間隔時系列のパワースペクトルの経年変化を評価することにより,幼児の歩行成熟を研究するために用いられる。

This article introduces a flexible and adaptive nonparametric method for estimating the association between multiple covariates and power spectra of multiple time series. The proposed approach uses a Bayesian sum of trees model to capture complex dependencies and interactions between covariates and the power spectrum, which are often observed in studies of biomedical time series. Local power spectra corresponding to terminal nodes within trees are estimated nonparametrically using Bayesian penalized linear splines. The trees are considered to be random and fit using a Bayesian backfitting Markov chain Monte Carlo (MCMC) algorithm that sequentially considers tree modifications via reversible-jump MCMC techniques. For high-dimensional covariates, a sparsity-inducing Dirichlet hyperprior on tree splitting proportions is considered, which provides sparse estimation of covariate effects and efficient variable selection. By averaging over the posterior distribution of trees, the proposed method can recover both smooth and abrupt changes in the power spectrum across multiple covariates. Empirical performance is evaluated via simulations to demonstrate the proposed method's ability to accurately recover complex relationships and interactions. The proposed methodology is used to study gait maturation in young children by evaluating age-related changes in power spectra of stride interval time series in the presence of other covariates.
翻訳日:2021-10-02 09:26:54 公開日:2021-09-29
# (参考訳) 制約付き政策ランダム化(CRoP)による敵対的政策模倣の緩和 [全文訳有]

Mitigation of Adversarial Policy Imitation via Constrained Randomization of Policy (CRoP) ( http://arxiv.org/abs/2109.14678v1 )

ライセンス: CC BY 4.0
Nancirose Piazza, Vahid Behzadan(参考訳) 深層強化学習(DRL)ポリシーは、敵が模倣学習を利用して観測された行動からターゲットポリシーを再現する不正な複製攻撃に対して脆弱である。 本稿では,このような攻撃に対する緩和手法として,制約付き政策ランダム化(CRoP)を提案する。 CRoPは、性能損失制約下でのランダムな最適動作の実行を誘導する。 CRoPのパラメトリック解析を行い、CRoPの最適性に対処し、敵の予算と損失予測に理論的境界を確立する。 さらに,アタリ環境下でのCRoPの評価実験を行い,政策複製攻撃に対する提案手法の有効性と有効性を示した。

Deep reinforcement learning (DRL) policies are vulnerable to unauthorized replication attacks, where an adversary exploits imitation learning to reproduce target policies from observed behavior. In this paper, we propose Constrained Randomization of Policy (CRoP) as a mitigation technique against such attacks. CRoP induces the execution of sub-optimal actions at random under performance loss constraints. We present a parametric analysis of CRoP, address the optimality of CRoP, and establish theoretical bounds on the adversarial budget and the expectation of loss. Furthermore, we report the experimental evaluation of CRoP in Atari environments under adversarial imitation, which demonstrate the efficacy and feasibility of our proposed method against policy replication attacks.
翻訳日:2021-10-02 09:25:49 公開日:2021-09-29
# (参考訳) ordinal multi-instance learning を用いた内視鏡映像からの潰瘍性大腸炎の重症度の自動推定 [全文訳有]

Automatic Estimation of Ulcerative Colitis Severity from Endoscopy Videos using Ordinal Multi-Instance Learning ( http://arxiv.org/abs/2109.14685v1 )

ライセンス: CC BY 4.0
Evan Schwab and Gabriela Oana Cula and Kristopher Standish and Stephen S. F. Yip and Aleksandar Stojmirovic and Louis Ghanem and Christel Chehoud(参考訳) 潰瘍性大腸炎(英: ulcerative colitis、uc)は、大腸の炎症が再発する慢性炎症性腸疾患である。 UCの重症度は、内視鏡ビデオから粘膜疾患の活性を定量化するMayo Endoscopic Subscore (MES)によって表されることが多い。 臨床試験では、内視鏡ビデオがビデオで観察された最も重篤な疾患活動に基づいてmesを割り当てる。 このため、結腸全体に拡がる重度の炎症は、小さな局所的な領域に制限された重度の炎症を伴う健康な結腸と同じmesを受けることになる。 したがって、大腸全体にわたる疾患活動の程度と治療に対する全体的な反応は、MESによって完全に把握されない可能性がある。 そこで本研究では,内視鏡映像で各フレームのucの重症度を自動的に推定し,大腸全体の疾患活動の高分解能評価を行うことを目的としている。 フレームレベルでの重み付けは高価で、労働集約的で、主観的であるため、ビデオ mesラベルのみからフレームの重み付けを推定する新しい弱教師付き順序分類法を提案する。 臨床治験データを用いて粘膜治癒とUCの寛解を予測し,まず0.92AUCと0.90AUCを達成した。 そして,重度推定において,本モデルが基礎的真理MESラベルとのコーエンのカッパ合意を,専門医のラッター間合意と同等に達成できることを実証する。 これらの結果から,本フレームワークは,より局所的なスコアリングシステムに基づく新しい臨床エンドポイントの基盤となり,臨床試験におけるuc薬剤の有効性を良好に評価できる可能性が示唆された。

Ulcerative colitis (UC) is a chronic inflammatory bowel disease characterized by relapsing inflammation of the large intestine. The severity of UC is often represented by the Mayo Endoscopic Subscore (MES) which quantifies mucosal disease activity from endoscopy videos. In clinical trials, an endoscopy video is assigned an MES based upon the most severe disease activity observed in the video. For this reason, severe inflammation spread throughout the colon will receive the same MES as an otherwise healthy colon with severe inflammation restricted to a small, localized segment. Therefore, the extent of disease activity throughout the large intestine, and overall response to treatment, may not be completely captured by the MES. In this work, we aim to automatically estimate UC severity for each frame in an endoscopy video to provide a higher resolution assessment of disease activity throughout the colon. Because annotating severity at the frame-level is expensive, labor-intensive, and highly subjective, we propose a novel weakly supervised, ordinal classification method to estimate frame severity from video MES labels alone. Using clinical trial data, we first achieved 0.92 and 0.90 AUC for predicting mucosal healing and remission of UC, respectively. Then, for severity estimation, we demonstrate that our models achieve substantial Cohen's Kappa agreement with ground truth MES labels, comparable to the inter-rater agreement of expert clinicians. These findings indicate that our framework could serve as a foundation for novel clinical endpoints, based on a more localized scoring system, to better evaluate UC drug efficacy in clinical trials.
翻訳日:2021-10-02 09:16:28 公開日:2021-09-29
# (参考訳) 視覚支援ビームトラッキング:ディープラーニングによるカメラ画像の適切な利用の検討 [全文訳有]

Vision-Aided Beam Tracking: Explore the Proper Use of Camera Images with Deep Learning ( http://arxiv.org/abs/2109.14686v1 )

ライセンス: CC BY 4.0
Yu Tian, Chenwei Wang(参考訳) カメラ画像を用いたミリ波帯における無線光追跡の問題点について検討する。 特に、使用中のユーザのビームインデックスと軌道で撮影されたカメラ画像に基づいて、次の数回の時点における最適なビームインデックスを予測する。 この問題を解決するために,まず[1] で "viwi" データセットを再構成し,画像反復問題を解消する。 そこで我々は,ディープラーニングアプローチを開発し,様々なモデルコンポーネントを調査し,最高の性能を実現する。 最後に, ビーム予測の精度向上のために, 画像の使用時期, 使用方法について検討する。 この質問に答えるために、ビームシーケンスの標準偏差に基づいてデータセットを3つのクラスタ(LOS、軽NLOS、重NLOS)に分割しました。 実験によって、この画像を使うことは、特に深刻なnlosにある場合にビームトラッキングに役立つことを実証し、そのソリューションは、モデルをトレーニングするために慎重に設計されたデータセットに依存していることを実証する。 一般論として、モデルトレーニング用のNLOSライクなデータを含むと、LOS内のユーザのビームトラッキングにメリットはないが、モデルトレーニング用の軽量なNLOSライクなデータを含むと、真剣なNLOSにおけるユーザのビームトラッキングにメリットがある。

We investigate the problem of wireless beam tracking on mmWave bands with the assistance of camera images. In particular, based on the user's beam indices used and camera images taken in the trajectory, we predict the optimal beam indices in the next few time spots. To resolve this problem, we first reformulate the "ViWi" dataset in [1] to get rid of the image repetition problem. Then we develop a deep learning approach and investigate various model components to achieve the best performance. Finally, we explore whether, when, and how to use the image for better beam prediction. To answer this question, we split the dataset into three clusters -- (LOS, light NLOS, serious NLOS)-like -- based on the standard deviation of the beam sequence. With experiments we demonstrate that using the image indeed helps beam tracking especially when the user is in serious NLOS, and the solution relies on carefully-designed dataset for training a model. Generally speaking, including NLOS-like data for training a model does not benefit beam tracking of the user in LOS, but including light NLOS-like data for training a model benefits beam tracking of the user in serious NLOS.
翻訳日:2021-10-02 09:00:24 公開日:2021-09-29
# (参考訳) カーネルヒルベルト空間における判別器を用いたkl発散の信頼性評価 [全文訳有]

Reliable Estimation of KL Divergence using a Discriminator in Reproducing Kernel Hilbert Space ( http://arxiv.org/abs/2109.14688v1 )

ライセンス: CC BY 4.0
Sandesh Ghimire, Aria Masoomi and Jennifer Dy(参考訳) Kullback Leibler (KL) を2つの分布のサンプルから推定することは、多くの機械学習問題において不可欠である。 この課題をスケーラブルに達成するために,ニューラルネットワーク判別器を用いた変分法が提案されている。 しかし,ニューラルネット判別器を用いたこれらの手法の多くは,推定値の変動(ばらつき)やトレーニングの不安定さに苦しんでいる。 本稿では,統計学習理論と関数空間の複雑性の観点からこの問題を考察し,その原因と解決方法について考察する。 これらの病理の原因は、ニューラルネットワーク識別関数の複雑さに対する制御の欠如であり、それを制御することで軽減できると主張している。 この目的を達成するために 1)再生核ヒルベルト空間(rkhs)における判別器の新規な構成について述べる。 2)KL推定値の誤差確率境界とRKHS空間の判別器の複雑さを理論的に関連付ける。 3)kl発散の信頼性の高い推定のための判別器の複雑性(rkhsノルム)を制御するスケーラブルな方法を提案する。 4) 提案する推定器の整合性を証明する。 kl発散の3つの異なる応用 : klの推定、相互情報の推定、変動ベイズについて、理論で開発された複雑さを制御すれば、kl推定のばらつきを低減し、トレーニングを安定化できることを示す。

Estimating Kullback Leibler (KL) divergence from samples of two distributions is essential in many machine learning problems. Variational methods using neural network discriminator have been proposed to achieve this task in a scalable manner. However, we noted that most of these methods using neural network discriminators suffer from high fluctuations (variance) in estimates and instability in training. In this paper, we look at this issue from statistical learning theory and function space complexity perspective to understand why this happens and how to solve it. We argue that the cause of these pathologies is lack of control over the complexity of the neural network discriminator function and could be mitigated by controlling it. To achieve this objective, we 1) present a novel construction of the discriminator in the Reproducing Kernel Hilbert Space (RKHS), 2) theoretically relate the error probability bound of the KL estimates to the complexity of the discriminator in the RKHS space, 3) present a scalable way to control the complexity (RKHS norm) of the discriminator for a reliable estimation of KL divergence, and 4) prove the consistency of the proposed estimator. In three different applications of KL divergence : estimation of KL, estimation of mutual information and Variational Bayes, we show that by controlling the complexity as developed in the theory, we are able to reduce the variance of KL estimates and stabilize the training
翻訳日:2021-10-02 08:48:50 公開日:2021-09-29
# (参考訳) 微調整されたbertweetモデルの隠れ状態と注意行列を用いたツイート感情の分類 [全文訳有]

Classifying Tweet Sentiment Using the Hidden State and Attention Matrix of a Fine-tuned BERTweet Model ( http://arxiv.org/abs/2109.14692v1 )

ライセンス: CC BY 4.0
Tommaso Macr\`i, Freya Murphy, Yunfan Zou, Yves Zumbach(参考訳) 本稿では,ツイート感情分類に関する研究を紹介する。 我々の仕事はツイートをポジティブかネガティブかのどちらかに分類することだ。 この問題を、埋め込みと分類という2つのステップで解決する。 ベースライン手法には,従来の埋め込み手法と分類アルゴリズムの組み合わせがいくつか含まれている。 さらに,現在最先端のツイート分析モデルであるbertweetを探索し,ツイートの実験的研究に着想を得た,モデルの隠れた状態と注意行列を特徴とする新しいアプローチを提案する。 分類に高いドロップアウト率で訓練された多層パーセプトロンを用いて,提案手法は0.9111の検証精度を実現する。

This paper introduces a study on tweet sentiment classification. Our task is to classify a tweet as either positive or negative. We approach the problem in two steps, namely embedding and classifying. Our baseline methods include several combinations of traditional embedding methods and classification algorithms. Furthermore, we explore the current state-of-the-art tweet analysis model, BERTweet, and propose a novel approach in which features are engineered from the hidden states and attention matrices of the model, inspired by empirical study of the tweets. Using a multi-layer perceptron trained with a high dropout rate for classification, our proposed approach achieves a validation accuracy of 0.9111.
翻訳日:2021-10-02 08:10:22 公開日:2021-09-29
# (参考訳) 一般化クロネッカー積分解による畳み込みニューラルネットワーク圧縮 [全文訳有]

Convolutional Neural Network Compression through Generalized Kronecker Product Decomposition ( http://arxiv.org/abs/2109.14710v1 )

ライセンス: CC BY 4.0
Marawan Gamal Abdel Hameed, Marzieh S. Tahaei, Ali Mosleh, Vahid Partovi Nia(参考訳) 現代の畳み込みニューラルネットワーク(CNN)アーキテクチャは、様々な問題を解決しているにもかかわらず、リソース制約のあるエッジデバイスにデプロイするには大きすぎる。 本稿では,cnnの畳み込み層に必要なメモリ使用量と浮動小数点演算量を削減する。 我々は、Kronecker Product Decompositionを一般化してこれらの層を圧縮し、多次元テンソルに適用し、一般化Kronecker Product Decomposition(GKPD)へと導く。 当社のアプローチでは,任意の畳み込みレイヤのドロップイン代替として使用できる,プラグアンドプレイモジュールが実現されています。 ResNet, MobileNetv2 および SeNet アーキテクチャを用いた CIFAR-10 および ImageNet データセットの画像分類実験の結果,提案手法の有効性を実証した。 gkpdはテンソルトレインやテンソルリングといった最先端の分解法やプルーニングや知識蒸留といった他の関連する圧縮法よりも優れていることが判明した。

Modern Convolutional Neural Network (CNN) architectures, despite their superiority in solving various problems, are generally too large to be deployed on resource constrained edge devices. In this paper, we reduce memory usage and floating-point operations required by convolutional layers in CNNs. We compress these layers by generalizing the Kronecker Product Decomposition to apply to multidimensional tensors, leading to the Generalized Kronecker Product Decomposition(GKPD). Our approach yields a plug-and-play module that can be used as a drop-in replacement for any convolutional layer. Experimental results for image classification on CIFAR-10 and ImageNet datasets using ResNet, MobileNetv2 and SeNet architectures substantiate the effectiveness of our proposed approach. We find that GKPD outperforms state-of-the-art decomposition methods including Tensor-Train and Tensor-Ring as well as other relevant compression methods such as pruning and knowledge distillation.
翻訳日:2021-10-02 07:59:42 公開日:2021-09-29
# (参考訳) beliefbank: 体系的信念概念のための事前学習された言語モデルへの記憶の追加 [全文訳有]

BeliefBank: Adding Memory to a Pre-Trained Language Model for a Systematic Notion of Belief ( http://arxiv.org/abs/2109.14723v1 )

ライセンス: CC BY 4.0
Nora Kassner, Oyvind Tafjord, Hinrich Sch\"utze, Peter Clark(参考訳) 事前訓練された言語モデル (PTLM) には膨大な量の世界知識が含まれているが、専門訓練後の質問に対する一貫性のない回答が得られる。 その結果、モデルが実際に世界について「信じている」ものを特定することが難しくなり、一貫性のない行動や単純なエラーに影響を受けやすくなります。 私たちの目標はこれらの問題を減らすことです。 私たちのアプローチは、PTLMをより広いシステムに組み込むことです。それは、進化を続けるシンボリックな信念記憶(BeliefBank)を含んでいます。 システム全体の信頼一貫性を改善する2つのメカニズムについて述べる。 まず、推論コンポーネント -- 重み付きmaxsatソルバ -- は、他人と著しく衝突する信念を改訂する。 第2に、フィードバックコンポーネントは、既知の信念をコンテキストとして、PTLMに将来的なクエリを発行する。 制御された実験環境では、この2つのメカニズムによってシステム全体の信頼性が向上し、時間とともに答えの正確性と一貫性が向上することが示された。 これは、PTLMベースのアーキテクチャの体系的な概念による最初のステップであり、より一貫性のある世界像を構築でき、モデルの再訓練なしに時間とともに改善できるため重要である。

Although pretrained language models (PTLMs) contain significant amounts of world knowledge, they can still produce inconsistent answers to questions when probed, even after specialized training. As a result, it can be hard to identify what the model actually "believes" about the world, making it susceptible to inconsistent behavior and simple errors. Our goal is to reduce these problems. Our approach is to embed a PTLM in a broader system that also includes an evolving, symbolic memory of beliefs -- a BeliefBank -- that records but then may modify the raw PTLM answers. We describe two mechanisms to improve belief consistency in the overall system. First, a reasoning component -- a weighted MaxSAT solver -- revises beliefs that significantly clash with others. Second, a feedback component issues future queries to the PTLM using known beliefs as context. We show that, in a controlled experimental setting, these two mechanisms result in more consistent beliefs in the overall system, improving both the accuracy and consistency of its answers over time. This is significant as it is a first step towards PTLM-based architectures with a systematic notion of belief, enabling them to construct a more coherent picture of the world, and improve over time without model retraining.
翻訳日:2021-10-02 07:40:56 公開日:2021-09-29
# (参考訳) ヒューマンアクターとaiナレーターとのコラボレーションストーリーテリング [全文訳有]

Collaborative Storytelling with Human Actors and AI Narrators ( http://arxiv.org/abs/2109.14728v1 )

ライセンス: CC BY 4.0
Boyd Branch, Piotr Mirowski, Kory W. Mathewson(参考訳) 大規模な言語モデルはコラボレーティブなストーリーテリングに使用できる。 本稿では, GPT-3 \cite{brown2020 languages} を用いて物語のコナレーションを行う。 aiシステムは、人間の俳優がシーンを実行する間、プロット進行とキャラクタアークを追跡する必要があります。 このイベントは、新しい会話エージェントがプロの即興のチームと創造的なパートナーとしてどのように雇われ、ライブの聴衆の前で長い形態の自発的な物語のナレーションを探求したかを詳述する。 言語モデルに新たな制約を導入して,より長文のテキストを生成するとともに,プロのインプロビゼータのチームによるリハーサルでモデルをテストした。 そして、ヨーロッパでのライブ・シアター・フェスティバルの一環として、2つのライブ・パフォーマンスでこのモデルをテストしました。 演奏後の参加者および演奏者を対象に,AIがナレーターとして果たす役割の評価を行った。 聴衆とパフォーマーは、AIナレーションに肯定的な反応を示し、シーン内のAIキャラクターよりもAIナレーションを好むことを示した。 出演者はAIのナレーションに肯定的に反応し、シーンに導入された創造的で有意義な物語の方向性への熱意を示した。 本研究は,様々な社会的文脈において,異なる言語モデルがいかに人間と協調できるかを検討するための有用なテストベッドとして,即興劇場を支援する。

Large language models can be used for collaborative storytelling. In this work we report on using GPT-3 \cite{brown2020language} to co-narrate stories. The AI system must track plot progression and character arcs while the human actors perform scenes. This event report details how a novel conversational agent was employed as creative partner with a team of professional improvisers to explore long-form spontaneous story narration in front of a live public audience. We introduced novel constraints on our language model to produce longer narrative text and tested the model in rehearsals with a team of professional improvisers. We then field tested the model with two live performances for public audiences as part of a live theatre festival in Europe. We surveyed audience members after each performance as well as performers to evaluate how well the AI performed in its role as narrator. Audiences and performers responded positively to AI narration and indicated preference for AI narration over AI characters within a scene. Performers also responded positively to AI narration and expressed enthusiasm for the creative and meaningful novel narrative directions introduced to the scenes. Our findings support improvisational theatre as a useful test-bed to explore how different language models can collaborate with humans in a variety of social contexts.
翻訳日:2021-10-02 07:23:26 公開日:2021-09-29
# (参考訳) プラグアンドプレイタスク指向対話システムのためのマルチタスク事前学習 [全文訳有]

Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System ( http://arxiv.org/abs/2109.14739v1 )

ライセンス: CC BY 4.0
Yixuan Su, Lei Shu, Elman Mansimov, Arshit Gupta, Deng Cai, Yi-An Lai, Yi Zhang(参考訳) 事前訓練された言語モデルはタスク指向対話(TOD)システムに有用であることが最近示されている。 その成功にもかかわらず、既存の手法はこのタスクをカスケード生成問題として定式化し、異なるサブタスクにまたがるエラーの蓄積とデータアノテーションのオーバーヘッドの増大につながる。 本研究では,タスク指向対話のための統一的なプラグアンドプレイモデルであるPTODを提案する。 さらに,多種多様な対話コーパスから初歩的なtodタスク完了スキルを学習できる,新しい対話型マルチタスク事前学習戦略を提案する。 エンドツーエンド対話モデリング、対話状態追跡、意図分類を含む3つのベンチマークTODタスクにおいて、我々のモデルを広範囲にテストする。 実験の結果,pptodは高リソースシナリオと低リソースシナリオの両方において,評価されたタスクの新たな状態を達成した。 さらに, 従来のSOTA法との比較では, PPTOD が生成する応答は, 人間のアノテータが判断するよりも, 現実的に正確かつ意味的に一貫性があることが示されている。

Pre-trained language models have been recently shown to benefit task-oriented dialogue (TOD) systems. Despite their success, existing methods often formulate this task as a cascaded generation problem which can lead to error accumulation across different sub-tasks and greater data annotation overhead. In this study, we present PPTOD, a unified plug-and-play model for task-oriented dialogue. In addition, we introduce a new dialogue multi-task pre-training strategy that allows the model to learn the primary TOD task completion skills from heterogeneous dialog corpora. We extensively test our model on three benchmark TOD tasks, including end-to-end dialogue modelling, dialogue state tracking, and intent classification. Experimental results show that PPTOD achieves new state of the art on all evaluated tasks in both high-resource and low-resource scenarios. Furthermore, comparisons against previous SOTA methods show that the responses generated by PPTOD are more factually correct and semantically coherent as judged by human annotators.
翻訳日:2021-10-02 07:14:22 公開日:2021-09-29
# (参考訳) 超球面マニフォールドによるニューラルネットワークの学習改善 [全文訳有]

Improvising the Learning of Neural Networks on Hyperspherical Manifold ( http://arxiv.org/abs/2109.14746v1 )

ライセンス: CC BY 4.0
Lalith Bharadwaj Baru, Sai Vardhan Kanumolu, Akshay Patel Shilhora(参考訳) 教師付き設定における畳み込みニューラルネットワーク(CNN)の影響は、大幅なパフォーマンス向上をもたらした。 超球面多様体上のcnnの操作から得られた表現は、顔認識、顔認識、その他の教師付きタスクにおいて洞察に富んだ結果をもたらした。 ユークリッド空間におけるソフトマックスよりも優れた超球直観によって、幅広い活性化関数が発達する。 この研究の主な動機は洞察を提供することである。 まず、立体射影はユークリッド空間(\mathbb{R}^{n}$)から超球面多様体(\mathbb{S}^{n}$)へデータを変換し、角マージン損失のパフォーマンスを分析する。 第二に、立体射影を用いて超球面上に構築された決定境界がニューラルネットワークの学習を必要とすることを証明する。 実験により、既存の最先端の角縁目的関数に立体投影を適用することで、標準画像分類データセット(CIFAR-10,100)の性能が向上することが証明された。 コードはhttps://github.com/b arulalithb/stereo-an gular-margin.com/で公開されている。

The impact of convolution neural networks (CNNs) in the supervised settings provided tremendous increment in performance. The representations learned from CNN's operated on hyperspherical manifold led to insightful outcomes in face recognition, face identification and other supervised tasks. A broad range of activation functions is developed with hypersphere intuition which performs superior to softmax in euclidean space. The main motive of this research is to provide insights. First, the stereographic projection is implied to transform data from Euclidean space ($\mathbb{R}^{n}$) to hyperspherical manifold ($\mathbb{S}^{n}$) to analyze the performance of angular margin losses. Secondly, proving both theoretically and practically that decision boundaries constructed on hypersphere using stereographic projection obliges the learning of neural networks. Experiments have proved that applying stereographic projection on existing state-of-the-art angular margin objective functions led to improve performance for standard image classification data sets (CIFAR-10,100). The code is publicly available at: https://github.com/b arulalithb/stereo-an gular-margin.
翻訳日:2021-10-02 06:45:15 公開日:2021-09-29
# (参考訳) MetaHistoSeg: 病理画像セグメンテーションにおけるメタ学習のためのPythonフレームワーク [全文訳有]

MetaHistoSeg: A Python Framework for Meta Learning in Histopathology Image Segmentation ( http://arxiv.org/abs/2109.14754v1 )

ライセンス: CC BY 4.0
Zheng Yuan, Andre Esteva, Ran Xu(参考訳) デジタル化されたスライドの数が比較的少ないことを考えると、ほとんど深層学習に基づく病理画像のセグメンテーションにおいて、ショットラーニングは標準的なプラクティスである。 領域特異的な病理像分割のために多くのモデルが開発されてきたが、ドメイン間一般化はモデルを適切に検証する上で重要な課題である。 ここでは、組織学的領域にわたるモデルパフォーマンスをベンチマークするツールとデータセットが不足している。 この制限に対処するため、メタ学習とインスタンスベースのトランスファー学習の両方でユニークなシナリオを実装するPythonフレームワークであるMetaHistoSegを紹介します。 カスタマイズされたデータセットとタスクサンプリングスキームを簡単に拡張できるように設計されたこのフレームワークは、研究者に迅速なモデル設計と実験の能力を与える。 組織病理メタデータセット(histopathology meta dataset)は、さまざまながんタイプのアウトオブディストリビューションパフォーマンスのモデルをトレーニングし、検証するためのベンチマークデータセットです。 実験では、メタデータセットでのmetahistosegの使用例を示し、メタラーニングとインスタンスベースのトランスファーラーニングの両方が平均で同等の結果を提供するが、場合によってはタスクが互いに大きな利益をもたらす可能性があることを見出した。

Few-shot learning is a standard practice in most deep learning based histopathology image segmentation, given the relatively low number of digitized slides that are generally available. While many models have been developed for domain specific histopathology image segmentation, cross-domain generalization remains a key challenge for properly validating models. Here, tooling and datasets to benchmark model performance across histopathological domains are lacking. To address this limitation, we introduce MetaHistoSeg - a Python framework that implements unique scenarios in both meta learning and instance based transfer learning. Designed for easy extension to customized datasets and task sampling schemes, the framework empowers researchers with the ability of rapid model design and experimentation. We also curate a histopathology meta dataset - a benchmark dataset for training and validating models on out-of-distribution performance across a range of cancer types. In experiments we showcase the usage of MetaHistoSeg with the meta dataset and find that both meta-learning and instance based transfer learning deliver comparable results on average, but in some cases tasks can greatly benefit from one over the other.
翻訳日:2021-10-02 06:36:15 公開日:2021-09-29
# (参考訳) beta-variational autoencoders latent features による胸部x線画像の分類 [全文訳有]

Chest X-Rays Image Classification from beta-Variational Autoencoders Latent Features ( http://arxiv.org/abs/2109.14760v1 )

ライセンス: CC BY 4.0
Leonardo Crespi, Daniele Loiacono, Arturo Chiti(参考訳) 胸部x線(cxr)は、世界中の日常臨床で用いられる最も一般的な診断技術の一つである。 本稿では,これらの画像から情報を抽出し,それらを分類するために,Deep Learning (DL) 技術を用いて調査・分析することを目的とした研究について述べる。 この方向に進むために、我々はCheXpertデータセット上でいくつかのベータ変数オートエンコーダ(β-VAE)モデルをトレーニングした。これはラベル付きCXRイメージの公開コレクションとして最大である。これらのモデルから、潜伏した特徴を抽出し、他の機械学習モデルをトレーニングするために使用し、ベータ-VAEによって抽出された特徴から元のイメージを分類することができる。 最後に、木ベースのモデルは、さらなるトレーニングやモデルエンジニアリングを必要とせずに結果を改善するために、センセンブラリングに組み合わされた。 技術分類特化モデルの状態を反映した純粋性能の低下を期待して,本手法の有効性と,自動エンコーダが抽出した高次特徴の活用性を示した。

Chest X-Ray (CXR) is one of the most common diagnostic techniques used in everyday clinical practice all around the world. We hereby present a work which intends to investigate and analyse the use of Deep Learning (DL) techniques to extract information from such images and allow to classify them, trying to keep our methodology as general as possible and possibly also usable in a real world scenario without much effort, in the future. To move in this direction, we trained several beta-Variational Autoencoder (beta-VAE) models on the CheXpert dataset, one of the largest publicly available collection of labeled CXR images; from these models, latent features have been extracted and used to train other Machine Learning models, able to classify the original images from the features extracted by the beta-VAE. Lastly, tree-based models have been combined together in ensemblings to improve the results without the necessity of further training or models engineering. Expecting some drop in pure performance with the respect to state of the art classification specific models, we obtained encouraging results, which show the viability of our approach and the usability of the high level features extracted by the autoencoders for classification tasks.
翻訳日:2021-10-02 06:29:24 公開日:2021-09-29
# 海洋生態学における深層学習の可能性 : 概観, 応用, 展望

Unlocking the potential of deep learning for marine ecology: overview, applications, and outlook ( http://arxiv.org/abs/2109.14737v1 )

ライセンス: Link先を確認
Morten Goodwin, Kim Tallaksen Halvorsen, Lei Jiao, Kristian Muri Knausg{\aa}rd, Angela Helen Martin, Marta Moyano, Rebekah A. Oomen, Jeppe Have Rasmussen, Tonje Knutsen S{\o}rdalen, Susanna Huneide Thorbj{\o}rnsen(参考訳) ディープラーニング革命は、ビッグデータのパワーを活用する手段として、私たちの生活のあらゆる科学分野やコーナーに触れている。 海洋生態学は例外ではない。 これらの新しい手法は、センサー、カメラ、音響レコーダーからのデータを、再現性と迅速な方法でリアルタイムで分析する。 市販のアルゴリズムは、デジタル画像やビデオから種を見つけ、数え、分類し、ノイズの多いデータの中で暗号パターンを検出する。 このような機会を利用するには、生態学とデータサイエンスの分野をまたがるコラボレーションが必要です。 本論文は, 海洋生態学者と計算機科学者のギャップを埋めることを目的として, これらの協力の促進と, 海洋生態系管理への深層学習の活用を促進する。 我々は、平易な言語による生態データ分析のための一般的なディープラーニングアプローチを考察し、深層ニューラルネットワークを用いた教師付き学習の手法に注目し、海洋生態学へのディープラーニングの確立および新興の応用を通じて課題と機会を説明する。 可視化データのオブジェクト検出,分類,追跡,セグメンテーションを含むプランクトン,魚,海洋哺乳類,汚染,栄養循環の確立と将来的なケーススタディを用いた。 我々は、複雑なデータセットの管理に関する潜在的な技術進歩や問題を含む、この分野の機会と課題の幅広い見通しで締めくくっている。

The deep learning revolution is touching all scientific disciplines and corners of our lives as a means of harnessing the power of big data. Marine ecology is no exception. These new methods provide analysis of data from sensors, cameras, and acoustic recorders, even in real time, in ways that are reproducible and rapid. Off-the-shelf algorithms can find, count, and classify species from digital images or video and detect cryptic patterns in noisy data. Using these opportunities requires collaboration across ecological and data science disciplines, which can be challenging to initiate. To facilitate these collaborations and promote the use of deep learning towards ecosystem-based management of the sea, this paper aims to bridge the gap between marine ecologists and computer scientists. We provide insight into popular deep learning approaches for ecological data analysis in plain language, focusing on the techniques of supervised learning with deep neural networks, and illustrate challenges and opportunities through established and emerging applications of deep learning to marine ecology. We use established and future-looking case studies on plankton, fishes, marine mammals, pollution, and nutrient cycling that involve object detection, classification, tracking, and segmentation of visualized data. We conclude with a broad outlook of the field's opportunities and challenges, including potential technological advances and issues with managing complex data sets.
翻訳日:2021-10-01 15:09:41 公開日:2021-09-29
# ジキル博士とハイド氏:オフ・ポリシー更新の奇妙な事例

Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates ( http://arxiv.org/abs/2109.14727v1 )

ライセンス: Link先を確認
Romain Laroche, Remi Tachet(参考訳) 政策勾配定理は、政策は現在の政策が訪れた州でのみ更新されるべきであり、これは非政治国家の計画が不十分になり、したがって準最適政策に収束することを意味する。 我々は、政策勾配理論を国家密度に関する政策更新に拡張することで、この計画課題に取り組む。 これらの一般的な方針更新では,更新状態密度の必要十分条件下での最適性への収束が示され,その結果,上記の計画課題が解決される。 また,政策勾配文献において,漸近収束率が有意に改善することを示す。 我々の理論で定められた原則を実装するために、我々は、ジェキル博士とハイド博士(JH)というエージェントを二重の性格で提案する: ジェキル博士は純粋に搾取し、ハイド氏は純粋に探索する。 jhの独立したポリシーは、2つの異なるリプレイバッファを記録できる: 1つのオン・ポリシー (dr jekyll's) と1つのオフ・ポリシー (mr hyde's) であり、それゆえjhのモデルをオン・ポリシーとオフ・ポリシーのアップデートの混合で更新することができる。 アルゴリズムよりも、JHは我々が分析で特定した要件を満たすためにアクター批判アルゴリズムの原則を定義している。 我々は,JHが収束速度を損なうことなく,収束から最適下方策へ回復する優れた能力を示す有限MDPを広範囲に検証した。 また、アルゴリズムの深いバージョンを実装し、有望な結果を示す単純な問題でテストします。

The policy gradient theorem states that the policy should only be updated in states that are visited by the current policy, which leads to insufficient planning in the off-policy states, and thus to convergence to suboptimal policies. We tackle this planning issue by extending the policy gradient theory to policy updates with respect to any state density. Under these generalized policy updates, we show convergence to optimality under a necessary and sufficient condition on the updates' state densities, and thereby solve the aforementioned planning issue. We also prove asymptotic convergence rates that significantly improve those in the policy gradient literature. To implement the principles prescribed by our theory, we propose an agent, Dr Jekyll & Mr Hyde (JH), with a double personality: Dr Jekyll purely exploits while Mr Hyde purely explores. JH's independent policies allow to record two separate replay buffers: one on-policy (Dr Jekyll's) and one off-policy (Mr Hyde's), and therefore to update JH's models with a mixture of on-policy and off-policy updates. More than an algorithm, JH defines principles for actor-critic algorithms to satisfy the requirements we identify in our analysis. We extensively test on finite MDPs where JH demonstrates a superior ability to recover from converging to a suboptimal policy without impairing its speed of convergence. We also implement a deep version of the algorithm and test it on a simple problem where it shows promising results.
翻訳日:2021-10-01 15:07:34 公開日:2021-09-29
# 群衆の外部性を考慮したバッチバンド

Batched Bandits with Crowd Externalities ( http://arxiv.org/abs/2109.14733v1 )

ライセンス: Link先を確認
Romain Laroche, Othmane Safsafi, Raphael Feraud, Nicolas Broutin(参考訳) Batched Multi-Armed Bandits (BMAB) では、各ステップごとにポリシーを更新することはできない。 通常、設定は許容されるポリシー更新の最大数を主張し、アルゴリズムは期待される後悔を最小限に抑えるためにそれらをスケジュールする。 本稿では,BMABアルゴリズムによってポリシー更新のタイミングが制御されるのではなく,各バッチで受信されるデータ量である「textit{crowd}」が,過去のアーム選択の影響を受けていることを示す。 まず、パラメータの近似知識を持つ近似最適に近いポリシーを設計し、ここで$x$が群衆のサイズであり$\epsilon$がパラメータエラーであるような$\mathcal{o}(\sqrt{\frac{\ln x}{x}}+\epsilon)$で後悔することを証明します。 次に、UCBにインスパイアされたアルゴリズムを実装し、$\mathcal{O}\left(\max(K\ln T,\sqrt{T\ln T})\right)$でさらなる後悔を保証する。

In Batched Multi-Armed Bandits (BMAB), the policy is not allowed to be updated at each time step. Usually, the setting asserts a maximum number of allowed policy updates and the algorithm schedules them so that to minimize the expected regret. In this paper, we describe a novel setting for BMAB, with the following twist: the timing of the policy update is not controlled by the BMAB algorithm, but instead the amount of data received during each batch, called \textit{crowd}, is influenced by the past selection of arms. We first design a near-optimal policy with approximate knowledge of the parameters that we prove to have a regret in $\mathcal{O}(\sqrt{\frac{\ln x}{x}}+\epsilon)$ where $x$ is the size of the crowd and $\epsilon$ is the parameter error. Next, we implement a UCB-inspired algorithm that guarantees an additional regret in $\mathcal{O}\left(\max(K\ln T,\sqrt{T\ln T})\right)$, where $K$ is the number of arms and $T$ is the horizon.
翻訳日:2021-10-01 15:07:05 公開日:2021-09-29
# 時系列、ランダムフィールドおよびその他の構造化データに対するカーネル距離測定

Kernel distance measures for time series, random fields and other structured data ( http://arxiv.org/abs/2109.14752v1 )

ライセンス: Link先を確認
Srinjoy Das, Hrushikesh Mhaskar, Alexander Cloninger(参考訳) 本稿では,時系列,確率場,その他の構造化データ間の距離を推定するカーネルベース手法であるkdiffを提案する。 この尺度は、サポートの領域の一部にのみ重なる分布をマッチングするという考え方に基づいている。 提案手法は,従来,ユークリッド計量を用いて提案してきたmpdistに触発され,kdiffは非線形カーネル距離を用いて構築されている。 また、kdiff はインスタンス間の自己類似性と交差類似性の両方を説明でき、距離分布の低い量子を用いて定義される。 自己類似性とクロス類似性を比較することで、関連する信号のノイズや部分的閉塞に対してより堅牢な類似性の測定が可能になる。 提案した測度kdiffは、埋め込みから推定されるカーネル上の最大平均離散距離(MMD)のより一般的な形式である。 kdiffをクラスタリングのための距離測度として用いる分離性条件と、埋め込み分布を2つの成分混合としてモデル化できる分類問題について理論的に検討した。 合成および実時間時系列および画像データのクラスタリングに応用例を示し、kdiffの性能をクラスタリングの競合する距離測定値と比較した。

This paper introduces kdiff, a novel kernel-based measure for estimating distances between instances of time series, random fields and other forms of structured data. This measure is based on the idea of matching distributions that only overlap over a portion of their region of support. Our proposed measure is inspired by MPdist which has been previously proposed for such datasets and is constructed using Euclidean metrics, whereas kdiff is constructed using non-linear kernel distances. Also, kdiff accounts for both self and cross similarities across the instances and is defined using a lower quantile of the distance distribution. Comparing the cross similarity to self similarity allows for measures of similarity that are more robust to noise and partial occlusions of the relevant signals. Our proposed measure kdiff is a more general form of the well known kernel-based Maximum Mean Discrepancy (MMD) distance estimated over the embeddings. Some theoretical results are provided for separability conditions using kdiff as a distance measure for clustering and classification problems where the embedding distributions can be modeled as two component mixtures. Applications are demonstrated for clustering of synthetic and real-life time series and image data, and the performance of kdiff is compared to competing distance measures for clustering.
翻訳日:2021-10-01 15:03:43 公開日:2021-09-29
# アンサンブル類似性蒸留による自己教師付きコントラスト学習

Federated Self-Supervised Contrastive Learning via Ensemble Similarity Distillation ( http://arxiv.org/abs/2109.14611v1 )

ライセンス: Link先を確認
Haizhou Shi, Youcai Zhang, Zijin Shen, Siliang Tang, Yaqian Li, Yandong Guo, Yueting Zhuang(参考訳) 本稿では,未ラベルのクライアントデータによる良好な表現空間の学習の実現可能性について検討する。 既存の作業は、モデルの不均一性には適用されず、プライバシ暴露の危険性がある、教師付きフェデレーション学習手法を自明に継承する。 上記の問題に取り組むために,我々は,従来の教師付き学習パラダイムよりも,自己教師付きコントラスト型ローカルトレーニングが非i.i.d.ネスに対してより強固であることを最初に確認する。 次に,アーキテクチャ非依存な局所トレーニングとコミュニケーション効率の高いグローバルアグリゲーションをサポートする,新しい連合型自己教師付きコントラスト学習フレームワークflesdを提案する。 各通信ラウンドにおいて、サーバはまず、公開データセット上でクライアントの推論された類似度行列のごく一部を収集する。 次に、FLESDは類似度行列をアンサンブルし、類似度蒸留を通じてグローバルモデルを訓練する。 提案手法の有効性を実証実験により検証し、FLESDが既存手法に対して3つの大きな利点があることを示す。 私たちは将来この論文のコードを公開します。

This paper investigates the feasibility of learning good representation space with unlabeled client data in the federated scenario. Existing works trivially inherit the supervised federated learning methods, which does not apply to the model heterogeneity and has the potential risk of privacy exposure. To tackle the problems above, we first identify that self-supervised contrastive local training is more robust against the non-i.i.d.-ness than the traditional supervised learning paradigm. Then we propose a novel federated self-supervised contrastive learning framework FLESD that supports architecture-agnosti c local training and communication-effici ent global aggregation. At each round of communication, the server first gathers a fraction of the clients' inferred similarity matrices on a public dataset. Then FLESD ensembles the similarity matrices and trains the global model via similarity distillation. We verify the effectiveness of our proposed framework by a series of empirical experiments and show that FLESD has three main advantages over the existing methods: it handles the model heterogeneity, is less prone to privacy leak, and is more communication-effici ent. We will release the code of this paper in the future.
翻訳日:2021-10-01 15:02:28 公開日:2021-09-29
# BulletTrain: 境界サンプルマイニングによるロバストニューラルネットワークトレーニングの高速化

BulletTrain: Accelerating Robust Neural Network Training via Boundary Example Mining ( http://arxiv.org/abs/2109.14707v1 )

ライセンス: Link先を確認
Weizhe Hua, Yichi Zhang, Chuan Guo, Zhiru Zhang, G. Edward Suh(参考訳) 近年、ニューラルネットワークの堅牢性は機械学習の中心的なトピックとなっている。 敵対的および共通の腐敗に対するモデルの堅牢性を改善するトレーニングアルゴリズムの多くは、計算上のオーバーヘッドが大きくなり、収束するために最大10倍の前方および後方通過が必要となる。 この非効率性に対処するために,ロバストトレーニングの計算コストを大幅に削減する境界サンプルマイニング手法であるBulletTrain$-$を提案する。 私たちの重要な観察は、少数の例だけが堅牢性を改善するのに有用であるということです。 BulletTrainはこれらの重要な例を動的に予測し、ロバストなトレーニングアルゴリズムを最適化して重要な例に集中する。 この手法を既存のロバストトレーニングアルゴリズムに適用し,cifar-10上の取引とマートに対する2.1$\times$のスピードアップと,cifar-10-cとcifar-100-cにおけるaugmixの1.7$\times$のスピードアップを,クリーンでロバストな精度を低下させることなく達成した。

Neural network robustness has become a central topic in machine learning in recent years. Most training algorithms that improve the model's robustness to adversarial and common corruptions also introduce a large computational overhead, requiring as many as ten times the number of forward and backward passes in order to converge. To combat this inefficiency, we propose BulletTrain $-$ a boundary example mining technique to drastically reduce the computational cost of robust training. Our key observation is that only a small fraction of examples are beneficial for improving robustness. BulletTrain dynamically predicts these important examples and optimizes robust training algorithms to focus on the important examples. We apply our technique to several existing robust training algorithms and achieve a 2.1$\times$ speed-up for TRADES and MART on CIFAR-10 and a 1.7$\times$ speed-up for AugMix on CIFAR-10-C and CIFAR-100-C without any reduction in clean and robust accuracy.
翻訳日:2021-10-01 15:00:40 公開日:2021-09-29
# ルールディエンス環境における説明・認識体験の再現

Explanation-Aware Experience Replay in Rule-Dense Environments ( http://arxiv.org/abs/2109.14711v1 )

ライセンス: Link先を確認
Francesco Sovrano, Alex Raymond and Amanda Prorok(参考訳) 人間の環境は、しばしば明示的で複雑な規則によって規制される。 強化学習(RL)エージェントをそのような環境に組み込むことは、規制された道路での自律運転など、ルールセンスや例外駆動環境でうまく機能する学習メカニズムの開発を動機付ける。 本稿では,experience bufferをexplicationベースでラベル付けされたクラスタに分割することにより,エクスペリエンスを組織化する手法を提案する。 モジュール型ルールセットと9つの学習タスクと互換性のある離散的かつ連続的なナビゲーション環境を提供する。 説明可能なルールセットを持つ環境では、状態遷移を説明付きクラスタに割り当てることで、ルールベースの説明をケースベースの説明に変換する。 これにより、イベントの希少性、重要性、意味に焦点をあてて、カリキュラム的かつタスク指向の方法で経験をサンプリングすることができます。 この概念を説明認識 (xa) と呼ぶ。 クラスタ内およびクラスタ間優先度を用いたXAエクスペリエンス再生(XAER)を行い,DQN,TD3,SACのXA互換バージョンを導入する。 従来の優先経験リプレイベースラインと比較して、これらのアルゴリズムのXAバージョンよりもパフォーマンスが一貫して優れており、説明可能な機能を持つ環境の報酬工学の代わりに説明工学が使用できることを示している。

Human environments are often regulated by explicit and complex rulesets. Integrating Reinforcement Learning (RL) agents into such environments motivates the development of learning mechanisms that perform well in rule-dense and exception-ridden environments such as autonomous driving on regulated roads. In this paper, we propose a method for organising experience by means of partitioning the experience buffer into clusters labelled on a per-explanation basis. We present discrete and continuous navigation environments compatible with modular rulesets and 9 learning tasks. For environments with explainable rulesets, we convert rule-based explanations into case-based explanations by allocating state-transitions into clusters labelled with explanations. This allows us to sample experiences in a curricular and task-oriented manner, focusing on the rarity, importance, and meaning of events. We label this concept Explanation-Awarenes s (XA). We perform XA experience replay (XAER) with intra and inter-cluster prioritisation, and introduce XA-compatible versions of DQN, TD3, and SAC. Performance is consistently superior with XA versions of those algorithms, compared to traditional Prioritised Experience Replay baselines, indicating that explanation engineering can be used in lieu of reward engineering for environments with explainable features.
翻訳日:2021-10-01 15:00:17 公開日:2021-09-29
# 遺伝的変異の同定のための制御変数選択を用いたディープニューラルネットワーク

Deep neural networks with controlled variable selection for the identification of putative causal genetic variants ( http://arxiv.org/abs/2109.14719v1 )

ライセンス: Link先を確認
Peyman H. Kassani, Fred Lu, Yann Le Guen and Zihuai He(参考訳) ディープニューラルネットワーク(DNN)は、高い予測精度のために多くの科学的問題で成功したが、その解釈性が悪いため、遺伝学への応用は依然として困難である。 本稿では、ゲノムシークエンシング研究における因果遺伝子変異の同定のためのDNNにおけるスケーラブルで堅牢な変数選択の問題について考察する。 我々は,DNNの特徴選択において,その確率的性質が解釈可能性の妨げとなり,誤解を招く可能性のある特徴選択のランダム性を明らかにした。 本稿では,遺伝子解析のための可変選択を制御したニューラルネットモデルを提案する。 本手法の利点は,(1)遺伝的変異体の非線形効果を柔軟にモデル化し,統計力を向上させること,(2)誤発見率を厳格に制御するために入力層内の複数のノックオフ,(3)重みパラメータやアクティベーションを著しく低減して計算効率を向上させる階層,(4)特定信号の安定化のための非ランダム化特徴選択を含む。 本手法を広範囲にわたるシミュレーション研究で評価し,アルツハイマー病遺伝子解析に応用した。 提案手法は, 従来の線形・非線形手法と比較して, かなり多くの発見を導出できることを示した。

Deep neural networks (DNN) have been used successfully in many scientific problems for their high prediction accuracy, but their application to genetic studies remains challenging due to their poor interpretability. In this paper, we consider the problem of scalable, robust variable selection in DNN for the identification of putative causal genetic variants in genome sequencing studies. We identified a pronounced randomness in feature selection in DNN due to its stochastic nature, which may hinder interpretability and give rise to misleading results. We propose an interpretable neural network model, stabilized using ensembling, with controlled variable selection for genetic studies. The merit of the proposed method includes: (1) flexible modelling of the non-linear effect of genetic variants to improve statistical power; (2) multiple knockoffs in the input layer to rigorously control false discovery rate; (3) hierarchical layers to substantially reduce the number of weight parameters and activations to improve computational efficiency; (4) de-randomized feature selection to stabilize identified signals. We evaluated the proposed method in extensive simulation studies and applied it to the analysis of Alzheimer disease genetics. We showed that the proposed method, when compared to conventional linear and nonlinear methods, can lead to substantially more discoveries.
翻訳日:2021-10-01 14:59:01 公開日:2021-09-29
# 複数資源による逐次推定--バンドイットの観点から

Sequential Estimation under Multiple Resources: a Bandit Point of View ( http://arxiv.org/abs/2109.14703v1 )

ライセンス: Link先を確認
Alireza Masoumian, Shayan Kiyani, Mohammad Hossein Yassaee(参考訳) 複数資源(SEMR)に基づく逐次推定の問題は、連合した設定で定義される。 SEMRは統計的推定とバンド理論の交叉と見なすことができる。 この問題では、エージェントはパラメータを$\theta$と見積もるためにkリソースに直面します。 エージェントは、適切に選択することで、資源の品質を継続的に学習し、最後に、収集したデータに基づいた推定器を提案する。 本稿では,資源分布がガウス分布であると仮定する。 最終推定器の品質は平均二乗誤差によって評価される。 また、後悔の有意義な概念を定義するために、偏りのない推定者のクラスを制限します。 後悔は、最適分散と比較して最終推定値のばらつきによってエージェントの性能を測定する。 分布がガウス的でない場合であっても,集合の基本極限を決定するための下限を提案する。 また、この下限を達成するための順序最適化アルゴリズムを提供する。

The problem of Sequential Estimation under Multiple Resources (SEMR) is defined in a federated setting. SEMR could be considered as the intersection of statistical estimation and bandit theory. In this problem, an agent is confronting with k resources to estimate a parameter $\theta$. The agent should continuously learn the quality of the resources by wisely choosing them and at the end, proposes an estimator based on the collected data. In this paper, we assume that the resources' distributions are Gaussian. The quality of the final estimator is evaluated by its mean squared error. Also, we restrict our class of estimators to unbiased estimators in order to define a meaningful notion of regret. The regret measures the performance of the agent by the variance of the final estimator in comparison to the optimal variance. We propose a lower bound to determine the fundamental limit of the setting even in the case that the distributions are not Gaussian. Also, we offer an order-optimal algorithm to achieve this lower bound.
翻訳日:2021-10-01 14:56:13 公開日:2021-09-29
# argumentation FrameworksのためのMatrixXソルバー

The MatrixX Solver For Argumentation Frameworks ( http://arxiv.org/abs/2109.14732v1 )

ライセンス: Link先を確認
Maximilian Heinrich(参考訳) MatrixX は Abstract Argumentation Frameworks の解決ツールです。 Argumentation Frameworkの攻撃的および防御的特性は、マトリックススタイルで通知される。 この行列のローと列は、ソルバによって体系的に還元される。 この手順は計算時間を高速化するためにハッシュマップを用いて実装されている。 MatrixXは安定的で完全なセマンティクスに対応しており、ICCMA 2021コンペティション用に設計された。

MatrixX is a solver for Abstract Argumentation Frameworks. Offensive and defensive properties of an Argumentation Framework are notated in a matrix style. Rows and columns of this matrix are systematically reduced by the solver. This procedure is implemented through the use of hash maps in order to accelerate calculation time. MatrixX works for stable and complete semantics and was designed for the ICCMA 2021 competition.
翻訳日:2021-10-01 14:54:50 公開日:2021-09-29
# 不確かさを意識した教師による非教師なし3次元物体検出

Uncertainty-aware Mean Teacher for Source-free Unsupervised Domain Adaptive 3D Object Detection ( http://arxiv.org/abs/2109.14651v1 )

ライセンス: Link先を確認
Deepti Hegde, Vishwanath Sindagi, Velat Kilic, A. Brinton Cooper, Mark Foster, Vishal Patel(参考訳) 擬似ラベルに基づく自己学習アプローチは、ソースフリーな教師なしドメイン適応の一般的な方法である。 しかし、その効果は、ソーストレーニングモデルによって生成されたラベルの品質に依存する。 これらのラベルは信頼度が高く不正確であり、しきい値化メソッドは効果がない。 ラベルノイズによる誤りの強化を避けるため,学習中に誤った擬似ラベルを暗黙的にフィルタリングする不確実性認識平均教師フレームワークを提案する。 モデル不確実性を活用することで、平均教師ネットワークは、不確実な擬似ラベルに対応する損失を下げて暗黙のフィルタリングを行うことができる。 学生と教師のネットワークからの予測を調整しながら,擬似ラベルデータの自動ソフトサンプリングを行う。 クロスデータセットからクロスウェザー条件まで,いくつかのドメイン適応シナリオにおいて本手法を実証し,kitti lidarターゲットデータセット上での最先端性能を実現する。

Pseudo-label based self training approaches are a popular method for source-free unsupervised domain adaptation. However, their efficacy depends on the quality of the labels generated by the source trained model. These labels may be incorrect with high confidence, rendering thresholding methods ineffective. In order to avoid reinforcing errors caused by label noise, we propose an uncertainty-aware mean teacher framework which implicitly filters incorrect pseudo-labels during training. Leveraging model uncertainty allows the mean teacher network to perform implicit filtering by down-weighing losses corresponding uncertain pseudo-labels. Effectively, we perform automatic soft-sampling of pseudo-labeled data while aligning predictions from the student and teacher networks. We demonstrate our method on several domain adaptation scenarios, from cross-dataset to cross-weather conditions, and achieve state-of-the-art performance in these cases, on the KITTI lidar target dataset.
翻訳日:2021-10-01 14:54:46 公開日:2021-09-29
# 逆進行性属性誘導ネットワークによるLR-HR顔幻覚

LR-to-HR Face Hallucination with an Adversarial Progressive Attribute-Induced Network ( http://arxiv.org/abs/2109.14690v1 )

ライセンス: Link先を確認
Nitin Balachandran, Jun-Cheng Chen, Rama Chellappa(参考訳) 低分解能(LR)顔画像は幻覚過程において複数の高分解能(HR)画像に対応し、最終的な超解像結果に対して劇的な同一性変化を引き起こす可能性があるため、顔超解像は困難で非常に不適切な問題である。 そこで本研究では,顔の属性を組み込んだエンド・ツー・エンドのプログレッシブ・ラーニング・フレームワークを提案する。 学習過程に顔属性を組み込んで顔画像の分解を段階的に行うことにより、LRとHR画像のマッピングがより制約され、一対多マッピングにおける曖昧さと不確実性を著しく低減する。 さらに,従来の作品の設定(すなわち16×16顔画像の8倍の超解像)に従って,CelebAデータセットの徹底的な評価を行い,提案手法により,他の最先端のアプローチよりも良好な顔幻覚画像が得られることを示した。

Face super-resolution is a challenging and highly ill-posed problem since a low-resolution (LR) face image may correspond to multiple high-resolution (HR) ones during the hallucination process and cause a dramatic identity change for the final super-resolved results. Thus, to address this problem, we propose an end-to-end progressive learning framework incorporating facial attributes and enforcing additional supervision from multi-scale discriminators. By incorporating facial attributes into the learning process and progressively resolving the facial image, the mapping between LR and HR images is constrained more, and this significantly helps to reduce the ambiguity and uncertainty in one-to-many mapping. In addition, we conduct thorough evaluations on the CelebA dataset following the settings of previous works (i.e. super-resolving by a factor of 8x from tiny 16x16 face images.), and the results demonstrate that the proposed approach can yield satisfactory face hallucination images outperforming other state-of-the-art approaches.
翻訳日:2021-10-01 14:54:31 公開日:2021-09-29
# USIS: 教師なしセマンティック画像合成

USIS: Unsupervised Semantic Image Synthesis ( http://arxiv.org/abs/2109.14715v1 )

ライセンス: Link先を確認
George Eskandar, Mohamed Abdelsamad, Karim Armanious, Bin Yang(参考訳) 意味画像合成(semantic image synthesis,sis)は、セグメンテーションマスクからフォトリアリスティック画像を合成する画像から画像への変換のサブクラスである。 SISは、主に教師付き問題として扱われてきた。 しかし、最先端の手法は大量のラベル付きデータに依存しており、未使用の環境では適用できない。 一方、一般的な画像から画像への翻訳フレームワークは、カラーコードでセマンティックレイアウトを配置し、従来の畳み込みネットワークに供給し、セマンティックコンテンツではなく、外観の対応を学習するため、性能が劣る。 本稿では,ペア設定とペア設定の間の性能ギャップを解消する第一歩として,セマンティック画像合成(USIS)のための新しいアン教師付きパラダイムを提案する。 特に、フレームワークは、自己教師付きセグメンテーション損失を使用して視覚的に分離可能なセマンティクスクラスで画像を出力することを学ぶspadeジェネレータをデプロイする。 さらに, 実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため, 全画像ウェーブレットによる識別手法を提案する。 提案手法は,3つの挑戦的データセット上で検証し,不用意な環境での画質を向上したマルチモーダルフォトリアリスティック画像を生成する能力を実証する。

Semantic Image Synthesis (SIS) is a subclass of image-to-image translation where a photorealistic image is synthesized from a segmentation mask. SIS has mostly been addressed as a supervised problem. However, state-of-the-art methods depend on a huge amount of labeled data and cannot be applied in an unpaired setting. On the other hand, generic unpaired image-to-image translation frameworks underperform in comparison, because they color-code semantic layouts and feed them to traditional convolutional networks, which then learn correspondences in appearance instead of semantic content. In this initial work, we propose a new Unsupervised paradigm for Semantic Image Synthesis (USIS) as a first step towards closing the performance gap between paired and unpaired settings. Notably, the framework deploys a SPADE generator that learns to output images with visually separable semantic classes using a self-supervised segmentation loss. Furthermore, in order to match the color and texture distribution of real images without losing high-frequency information, we propose to use whole image wavelet-based discrimination. We test our methodology on 3 challenging datasets and demonstrate its ability to generate multimodal photorealistic images with an improved quality in the unpaired setting.
翻訳日:2021-10-01 14:54:10 公開日:2021-09-29
# Targeted Gradient Descent: Convolutional Neural Networks Fine-tuningとオンライン学習のための新しい方法

Targeted Gradient Descent: A Novel Method for Convolutional Neural Networks Fine-tuning and Online-learning ( http://arxiv.org/abs/2109.14729v1 )

ライセンス: Link先を確認
Junyu Chen, Evren Asma, and Chung Chan(参考訳) 畳み込みニューラルネットワーク(ConvNet)は通常、同じ分布から引き出された画像を使用してトレーニングされ、テストされる。 ConvNetをさまざまなタスクに一般化するには、さまざまなタスクから描画されたイメージからなる完全なトレーニングデータセットが必要になることが多い。 ほとんどのシナリオでは、プリミティブとして可能なすべての代表データセットを収集することはほぼ不可能である。 新しいデータは、ConvNetが臨床試験でデプロイされた後にのみ利用可能になる可能性がある。 しかし、convnetは分散テストサンプルでアーティファクトを生成する可能性がある。 本研究では,前回の学習から得た知識を保存しながら,前回の課題からデータを再考することなく,事前学習したネットワークを新しいタスクに拡張可能な,新たな微調整手法であるTGDを提案する。 さらに,提案手法により,患者固有のデータのオンライン学習も可能となった。 この方法は、トレーニング済みのConvNetの冗長カーネルを再利用して新しい知識を学ぶというアイデアに基づいている。 ポジトロン線トモグラフィ(PET)画像復調作業におけるTGDの性能と,いくつかの一般的な訓練手法との比較を行った。 臨床画像の結果,TGDはトレーニング・アット・スクラッチと同等に生成し,データ準備とネットワーク訓練時間を有意に短縮した。 さらに重要なのは、実世界のアプリケーションにおけるネットワークの一般化能力を高めるために、テスト研究のオンライン学習を可能にすることだ。

A convolutional neural network (ConvNet) is usually trained and then tested using images drawn from the same distribution. To generalize a ConvNet to various tasks often requires a complete training dataset that consists of images drawn from different tasks. In most scenarios, it is nearly impossible to collect every possible representative dataset as a priori. The new data may only become available after the ConvNet is deployed in clinical practice. ConvNet, however, may generate artifacts on out-of-distribution testing samples. In this study, we present Targeted Gradient Descent (TGD), a novel fine-tuning method that can extend a pre-trained network to a new task without revisiting data from the previous task while preserving the knowledge acquired from previous training. To a further extent, the proposed method also enables online learning of patient-specific data. The method is built on the idea of reusing a pre-trained ConvNet's redundant kernels to learn new knowledge. We compare the performance of TGD to several commonly used training approaches on the task of Positron emission tomography (PET) image denoising. Results from clinical images show that TGD generated results on par with training-from-scratc h while significantly reducing data preparation and network training time. More importantly, it enables online learning on the testing study to enhance the network's generalization capability in real-world applications.
翻訳日:2021-10-01 14:53:45 公開日:2021-09-29
# エゴセントリックハンドオブジェクト干渉検出とその応用

Egocentric Hand-object Interaction Detection and Application ( http://arxiv.org/abs/2109.14734v1 )

ライセンス: Link先を確認
Yao Lu, Walterio W. Mayol-Cuevas(参考訳) 本稿では,自己中心的視点から物体間相互作用を検出する手法を提案する。 大量のデータ駆動判別器を用いた手法である \cite{shan20} とは対照的に,手とオブジェクトの手がかりを利用した新しいワークフローを提案する。 具体的には、ハンドポーズ、ハンドマスク、ハンドオブジェクトマスクを予測するネットワークをトレーニングし、ハンドオブジェクトのインタラクション状態を共同で予測する。 我々はこの手法をシャンらによる最新の研究と比較した。 EPIC-KITCHENS \cite{damen2018scaling} データセットから選択した画像上の \cite{Shan20} は、Shan の (92 %$) と比較した HOI (hand-object Interaction) 検出において、89 % の精度を達成する。 しかし、リアルタイムパフォーマンスの場合、同じマシンで、このメソッドは、shanの($\textbf{1}\sim\textbf{2}$ fps)よりもはるかに効率的な$\textbf{30}$ fpsで実行することができる。 さらに,このアプローチでは,hoiステータス検出を用いてフレームを抽出したスクリプトレスアクティビティをセグメント化することが可能である。 gtea \cite{fathi2011learning} と utgrasp \cite{cai2015scalable} のデータセット上で $\textbf{68.2\%}$ と $\textbf{82.8\%}$ f1 をそれぞれ達成し、soma 法と比較した。

In this paper, we present a method to detect the hand-object interaction from an egocentric perspective. In contrast to massive data-driven discriminator based method like \cite{Shan20}, we propose a novel workflow that utilises the cues of hand and object. Specifically, we train networks predicting hand pose, hand mask and in-hand object mask to jointly predict the hand-object interaction status. We compare our method with the most recent work from Shan et al. \cite{Shan20} on selected images from EPIC-KITCHENS \cite{damen2018scaling} dataset and achieve $89\%$ accuracy on HOI (hand-object interaction) detection which is comparative to Shan's ($92\%$). However, for real-time performance, with the same machine, our method can run over $\textbf{30}$ FPS which is much efficient than Shan's ($\textbf{1}\sim\textbf{2}$ FPS). Furthermore, with our approach, we are able to segment script-less activities from where we extract the frames with the HOI status detection. We achieve $\textbf{68.2\%}$ and $\textbf{82.8\%}$ F1 score on GTEA \cite{fathi2011learning} and the UTGrasp \cite{cai2015scalable} dataset respectively which are all comparative to the SOTA methods.
翻訳日:2021-10-01 14:53:24 公開日:2021-09-29
# 手持ち物体:手持ち操作による複合現実映像誘導のための自動編集

The Object at Hand: Automated Editing for Mixed Reality Video Guidance from Hand-Object Interactions ( http://arxiv.org/abs/2109.14744v1 )

ライセンス: Link先を確認
Yao Lu, Walterio W. Mayol-Cuevas(参考訳) 本稿では,実生活のハンドアクティビティを構成するステップを自動的に抽出する方法について考察する。 これは、複合現実システムにおけるビデオガイダンスの処理、監視、提供のための重要な能力である。 egocentric visionを使って、現実世界のタスクで手とオブジェクトのインタラクションを観察し、ビデオを自動的に構成ステップに分解します。 本手法では,手動オブジェクト間相互作用(HOI)検出,オブジェクト類似度測定,有限状態マシン(FSM)表現を組み合わせて,動画の自動編集を行う。 畳み込みニューラルネットワーク(cnns)とfsmを組み合わせて,実ハンドアクティビティを観察しながら切断セグメントの検出,編集,マージを行う。 我々は,2つのデータセット,gtea\cite{li2015delving}と,中国製茶用データセットについて定量的・定性的にアルゴリズムを評価した。 以上の結果から,手物体間インタラクション動画を高い精度でキーステップセグメントに分割できることがわかった。

In this paper, we concern with the problem of how to automatically extract the steps that compose real-life hand activities. This is a key competence towards processing, monitoring and providing video guidance in Mixed Reality systems. We use egocentric vision to observe hand-object interactions in real-world tasks and automatically decompose a video into its constituent steps. Our approach combines hand-object interaction (HOI) detection, object similarity measurement and a finite state machine (FSM) representation to automatically edit videos into steps. We use a combination of Convolutional Neural Networks (CNNs) and the FSM to discover, edit cuts and merge segments while observing real hand activities. We evaluate quantitatively and qualitatively our algorithm on two datasets: the GTEA\cite{li2015delving}, and a new dataset we introduce for Chinese Tea making. Results show our method is able to segment hand-object interaction videos into key step segments with high levels of precision.
翻訳日:2021-10-01 14:52:50 公開日:2021-09-29
# 局所競合アルゴリズムを用いたスパース表現への適応的アプローチ

Adaptive Approach For Sparse Representations Using The Locally Competitive Algorithm For Audio ( http://arxiv.org/abs/2109.14705v1 )

ライセンス: Link先を確認
Soufiyan Bahadi, Jean Rouat, and \'Eric Plourde(参考訳) Gammachirp filterbankはスパース符号化アルゴリズムのコチェリーを近似するために使われてきた。 指向型グリッド探索最適化により、ガンマチャープのパラメータを適応させ、mpアルゴリズムのスパーシティと再構成品質を改善した。 しかし、各イテレーションにおけるグリッド探索と欲張りなアルゴリズムの組み合わせは計算上必要であり、リアルタイムアプリケーションには適さない。 本稿では、ガンマチャープのパラメータを最適化する適応的手法を提案するが、MPよりもはるかに少ない計算を必要とする局所競合アルゴリズム(LCA)の文脈で述べる。 提案手法は, バックプロパゲーションアルゴリズムを用いて, ガンマチャープのフィルタバンクを自動的に適応するためのLCAのニューラルネットワークアーキテクチャを利用する。 以上の結果から, このアプローチによるLCAの性能向上は, スパーシリティ, 再建品質, 収束時間の観点から示される。 このアプローチは、リアルタイムアプリケーションに対する既存のアプローチを大きく上回る可能性がある。

Gammachirp filterbank has been used to approximate the cochlea in sparse coding algorithms. An oriented grid search optimization was applied to adapt the gammachirp's parameters and improve the Matching Pursuit (MP) algorithm's sparsity along with the reconstruction quality. However, this combination of a greedy algorithm with a grid search at each iteration is computationally demanding and not suitable for real-time applications. This paper presents an adaptive approach to optimize the gammachirp's parameters but in the context of the Locally Competitive Algorithm (LCA) that requires much fewer computations than MP. The proposed method consists of taking advantage of the LCA's neural architecture to automatically adapt the gammachirp's filterbank using the backpropagation algorithm. Results demonstrate an improvement in the LCA's performance with our approach in terms of sparsity, reconstruction quality, and convergence time. This approach can yield a significant advantage over existing approaches for real-time applications.
翻訳日:2021-10-01 14:49:07 公開日:2021-09-29
# 癌サブタイプ予測のための特徴選択と抽出アルゴリズムの検討

A Study of Feature Selection and Extraction Algorithms for Cancer Subtype Prediction ( http://arxiv.org/abs/2109.14648v1 )

ライセンス: Link先を確認
Vaibhav Sinha, Siladitya Dash, Nazma Naskar, and Sk Md Mosaddek Hossain(参考訳) 本研究では,高度に異なる高次元データを用いて,癌サブタイプの分類に使用できる特徴選択アルゴリズムについて検討し,解析する。 2つの異なるオミクスを持つ5種類の癌に対して3つの異なる特徴選択法を適用した。 個別に適用した場合,既存の特徴選択手法は計算コストが高いことを示す。 代わりに、これらのアルゴリズムを順次適用することで、計算コストの低減と予測性能の向上に寄与します。 さらに,いくつかの次元縮小手法を用いて特徴量を減らすことで,機械学習モデルの性能を向上できることを示す。 包括的データ分析と可視化により,この知見を裏付ける。

In this work, we study and analyze different feature selection algorithms that can be used to classify cancer subtypes in case of highly varying high-dimensional data. We apply three different feature selection methods on five different types of cancers having two separate omics each. We show that the existing feature selection methods are computationally expensive when applied individually. Instead, we apply these algorithms sequentially which helps in lowering the computational cost and improving the predictive performance. We further show that reducing the number of features using some dimension reduction techniques can improve the performance of machine learning models in some cases. We support our findings through comprehensive data analysis and visualization.
翻訳日:2021-10-01 14:48:52 公開日:2021-09-29
# マルチラベル学習のためのアクティブリファインメント:擬似ラベルアプローチ

Active Refinement for Multi-Label Learning: A Pseudo-Label Approach ( http://arxiv.org/abs/2109.14676v1 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Wei-I Lin, Miao Xu, Gang Niu, Hsuan-Tien Lin, Masashi Sugiyama(参考訳) MLL(Multi-label Learning)の目標は、あるインスタンスと関連するラベルを一連の概念から関連付けることである。 MLLのこれまでの作業は主に、概念セットが修正されると思われる設定に焦点を当てていたが、多くの現実世界のアプリケーションは、新しい要求を満たすために、セットに新しい概念を導入する必要がある。 1つの一般的なニーズは、元の粗い概念を洗練し、それらをよりきめ細かい概念に分割することであり、そこでは、精細化プロセスは通常、よりきめ細かい概念のために限定されたラベル付きデータから始まる。 そこで本研究では,より詳細な概念を効率的に学習するだけでなく,対話型クエリにより,より情報に富んだアノテーションを戦略的に収集して分類器をさらに改良することを可能にする。 私たちのアプローチにおける重要なアイデアは、ラベルのないエントリに擬似ラベルを割り当てることを学び、その擬似ラベルを利用して下位の分類器をトレーニングし、より良いクエリ戦略を知らせることです。 実験結果から,提案手法が欠落した真実を正確に回復し,ベースライン法よりも予測性能を著しく向上させ,競争力のある学習戦略を促進できることが示された。

The goal of multi-label learning (MLL) is to associate a given instance with its relevant labels from a set of concepts. Previous works of MLL mainly focused on the setting where the concept set is assumed to be fixed, while many real-world applications require introducing new concepts into the set to meet new demands. One common need is to refine the original coarse concepts and split them into finer-grained ones, where the refinement process typically begins with limited labeled data for the finer-grained concepts. To address the need, we formalize the problem into a special weakly supervised MLL problem to not only learn the fine-grained concepts efficiently but also allow interactive queries to strategically collect more informative annotations to further improve the classifier. The key idea within our approach is to learn to assign pseudo-labels to the unlabeled entries, and in turn leverage the pseudo-labels to train the underlying classifier and to inform a better query strategy. Experimental results demonstrate that our pseudo-label approach is able to accurately recover the missing ground truth, boosting the prediction performance significantly over the baseline methods and facilitating a competitive active learning strategy.
翻訳日:2021-10-01 14:48:42 公開日:2021-09-29
# マルチエージェントパス探索のための注意型学習による部分次元拡大

Subdimensional Expansion Using Attention-Based Learning For Multi-Agent Path Finding ( http://arxiv.org/abs/2109.14695v1 )

ライセンス: Link先を確認
Lakshay Virmani, Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) MAPF(Multi-Agent Path Finding)は、各開始点から目標地点までの複数のエージェントに対する競合のないパスを見つける。 MAPFは、エージェントの数に関して、共同構成空間が指数関数的に増加するにつれて困難である。 MAPFプランナーの中で、CBSやM*のような検索ベースの手法は、動的に結合された戦略を用いて、次元の呪いを効果的に回避する:エージェントは、エージェント間の潜在的な衝突が無視される完全に分離された方法で計画される。 一般に、解決すべき紛争の数は、これらのプランナーの実行時間を決定し、既存の作業のほとんどは、これらの紛争を効率的に解決する方法に焦点を当てている。 本研究は,各エージェントの個々の計画を改善することにより,コンフリクト数を削減し,検索効率を向上させることを目的としている。 視覚トランスフォーマーを利用することで,学習ベースの単一エージェントプランナを開発し,地図の構造と衝突の可能性のある他のエージェントの両方に注意を払いながら,単一のエージェントを計画する。 次に、この学習に基づく単一エージェントプランナをM*に統合することにより、LM*と呼ばれる新しいマルチエージェントプランナを開発する。 以上の結果から, m* と比較すると, lm* はより少ないコンフリクトを持つため, より高速に動作し, 高い成功率を享受できることがわかった。 LM*によって計算されたMAPF解がほぼ最適であることを示す。 私たちのコードはhttps://github.com/l akshayvirmani/learni ng-assisted-mstarで利用可能です。

Multi-Agent Path Finding (MAPF) finds conflict-free paths for multiple agents from their respective start to goal locations. MAPF is challenging as the joint configuration space grows exponentially with respect to the number of agents. Among MAPF planners, search-based methods, such as CBS and M*, effectively bypass the curse of dimensionality by employing a dynamically-coupled strategy: agents are planned in a fully decoupled manner at first, where potential conflicts between agents are ignored; and then agents either follow their individual plans or are coupled together for planning to resolve the conflicts between them. In general, the number of conflicts to be resolved decides the run time of these planners and most of the existing work focuses on how to efficiently resolve these conflicts. In this work, we take a different view and aim to reduce the number of conflicts (and thus improve the overall search efficiency) by improving each agent's individual plan. By leveraging a Visual Transformer, we develop a learning-based single-agent planner, which plans for a single agent while paying attention to both the structure of the map and other agents with whom conflicts may happen. We then develop a novel multi-agent planner called LM* by integrating this learning-based single-agent planner with M*. Our results show that for both "seen" and "unseen" maps, in comparison with M*, LM* has fewer conflicts to be resolved and thus, runs faster and enjoys higher success rates. We empirically show that MAPF solutions computed by LM* are near-optimal. Our code is available at https://github.com/l akshayvirmani/learni ng-assisted-mstar .
翻訳日:2021-10-01 14:45:39 公開日:2021-09-29
# ハンドポーズ推定による自我中心の物体相互作用の理解

Understanding Egocentric Hand-Object Interactions from Hand Pose Estimation ( http://arxiv.org/abs/2109.14657v1 )

ライセンス: Link先を確認
Yao Lu and Walterio W. Mayol-Cuevas(参考訳) 本稿では,手が物体と相互作用しているとき,自己中心的視点から手の位置を推定する問題に対処する。 具体的には,エゴセントリック画像を含むデータセット ego-siam を対方向にラベル付けする手法を提案する。 また、収集したペアワイズデータを使って、効率的なエンコーダ-デコーダスタイルのネットワークをトレーニングしています。 これにより、トレーニング効率とテスト精度が向上する可能性がある。 私たちのネットワークは軽量で、古いgpuを使って30fps以上で実行できます。 GANerated データセット上でのエゴセントリックな手-物間相互作用問題を扱うアートワークの状況である Mueller らより優れていることを示す。 本手法の意味情報を保存する能力を示すために,gun-71データセットにおける把持型分類の性能を報告し,予測した3次元ハンドポーズのみを用いてベンチマークを上回った。

In this paper, we address the problem of estimating the hand pose from the egocentric view when the hand is interacting with objects. Specifically, we propose a method to label a dataset Ego-Siam which contains the egocentric images pair-wisely. We also use the collected pairwise data to train our encoder-decoder style network which has been proven efficient in. This could bring extra training efficiency and testing accuracy. Our network is lightweight and can be performed with over 30 FPS with an outdated GPU. We demonstrate that our method outperforms Mueller et al. which is the state of the art work dealing with egocentric hand-object interaction problems on the GANerated dataset. To show the ability to preserve the semantic information of our method, we also report the performance of grasp type classification on GUN-71 dataset and outperforms the benchmark by only using the predicted 3-d hand pose.
翻訳日:2021-10-01 14:43:14 公開日:2021-09-29
# 精度・公正性・説明可能性・分布ロバスト性・対向ロバスト性に関する実証的研究

An Empirical Study of Accuracy, Fairness, Explainability, Distributional Robustness, and Adversarial Robustness ( http://arxiv.org/abs/2109.14653v1 )

ライセンス: Link先を確認
Moninder Singh, Gevorg Ghalachyan, Kush R. Varshney, Reginald E. Bryant(参考訳) aiモデルの信頼を確保するために、モデルの評価が、正確性のような従来のパフォーマンス指標を超えて、公正性、説明可能性、敵対的ロバスト性、分散シフトといった他の次元に拡張されなければならないことがますます明らかになっている。 本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。 その結果,すべての次元において特定のモデルタイプがうまく機能せず,複数の次元で評価されたモデルの選択に関わるトレードオフの種類を示すことができた。

To ensure trust in AI models, it is becoming increasingly apparent that evaluation of models must be extended beyond traditional performance metrics, like accuracy, to other dimensions, such as fairness, explainability, adversarial robustness, and distribution shift. We describe an empirical study to evaluate multiple model types on various metrics along these dimensions on several datasets. Our results show that no particular model type performs well on all dimensions, and demonstrate the kinds of trade-offs involved in selecting models evaluated along multiple dimensions.
翻訳日:2021-10-01 14:40:13 公開日:2021-09-29
# 物のインターネットのためのネットワークトラフィック分類における時間分散特徴学習

Time-Distributed Feature Learning in Network Traffic Classification for Internet of Things ( http://arxiv.org/abs/2109.14696v1 )

ライセンス: Link先を確認
Yoga Suhas Kuruba Manjunath, Sihao Zhao, Xiao-Ping Zhang(参考訳) モノのインターネット(IoT)デバイスは爆発的なネットワークトラフィックをもたらす。 ネットワークトラフィック分類(NTC)は、ネットワークフローの動作を調べる上で不可欠なツールであり、IoTネットワークのパフォーマンスを管理するためには、インターネットサービスプロバイダ(ISP)にNTCが必要である。 本稿では,トラフィックデータを一連の画像として扱う新しいネットワークデータ表現を提案する。 これにより、ネットワークデータをビデオストリームとして実現し、時間分散(TD)特徴学習を採用する。 畳み込みニューラルネットワーク(cnn)とlong short-term memory(lstm)を用いてネットワーク統計データ内の時間的情報を学び、td multi-layer perceptron(mlp)によりフロー間の擬似時間的特徴を学習する。 多数のクラスを持つ大規模データセットを用いて実験を行う。 実験の結果,TD特徴学習はネットワーク分類性能を10%向上させることがわかった。

The plethora of Internet of Things (IoT) devices leads to explosive network traffic. The network traffic classification (NTC) is an essential tool to explore behaviours of network flows, and NTC is required for Internet service providers (ISPs) to manage the performance of the IoT network. We propose a novel network data representation, treating the traffic data as a series of images. Thus, the network data is realized as a video stream to employ time-distributed (TD) feature learning. The intra-temporal information within the network statistical data is learned using convolutional neural networks (CNN) and long short-term memory (LSTM), and the inter pseudo-temporal feature among the flows is learned by TD multi-layer perceptron (MLP). We conduct experiments using a large data-set with more number of classes. The experimental result shows that the TD feature learning elevates the network classification performance by 10%.
翻訳日:2021-10-01 14:40:01 公開日:2021-09-29
# スマートウォッチの生理的・活動的データを用いた外傷後ストレス障害のハイパーarousal event detection

Posttraumatic Stress Disorder Hyperarousal Event Detection Using Smartwatch Physiological and Activity Data ( http://arxiv.org/abs/2109.14743v1 )

ライセンス: Link先を確認
Mahnoosh Sadeghi, Anthony D McDonald, Farzan Sasangohar(参考訳) PTSD(英: Posttraumatic Stress Disorder)は、アメリカ合衆国の退役軍人の約4分の1が戦争地域から帰還する精神疾患である。 PTSDの治療は一般的に、内服療法と薬物の併用である。 しかし、患者は治療セッション以外では最も重篤なptsd症状をしばしば経験する。 モバイルヘルスアプリケーションは、このギャップに対処するかもしれないが、その効果は、継続的監視と時間的介入を可能にする検出能力の現在のギャップによって制限されている。 本稿の目的は,生理的および活動ベースの機械学習アルゴリズムを用いて,超覚醒事象を検出する新しい手法を開発することである。 数日間にわたりptsdと診断された米国退役軍人99名から市販の市販ウェアラブルデバイス向けに開発されたツールを用いて,心拍数や身体加速度などの生理的データと自発的な高覚醒イベントを収集した。 データはランダムフォレスト、サポートベクターマシン、ロジスティック回帰、XGBoostの4つの機械学習アルゴリズムの開発に使用された。 XGBoostモデルはPTSD症状の発症を83%以上の精度で検出し、AUCは0.70である。 SHAP (Post-hoc SHapley Additive exPlanations) 法では, アルゴリズム予測が平均心拍数, 最小心拍数, 平均体加速度と相関していた。 PTSD 症状の発症を検出することは,PTSD の遠隔・連続監視システムの開発の基盤となる可能性がある。 このようなシステムは、定期的な臨床試験以外のPTSD自己管理のためのジャスト・イン・タイムの介入において重要なギャップに対処する可能性がある。

Posttraumatic Stress Disorder (PTSD) is a psychiatric condition affecting nearly a quarter of the United States war veterans who return from war zones. Treatment for PTSD typically consists of a combination of in-session therapy and medication. However; patients often experience their most severe PTSD symptoms outside of therapy sessions. Mobile health applications may address this gap, but their effectiveness is limited by the current gap in continuous monitoring and detection capabilities enabling timely intervention. The goal of this article is to develop a novel method to detect hyperarousal events using physiological and activity-based machine learning algorithms. Physiological data including heart rate and body acceleration as well as self-reported hyperarousal events were collected using a tool developed for commercial off-the-shelf wearable devices from 99 United States veterans diagnosed with PTSD over several days. The data were used to develop four machine learning algorithms: Random Forest, Support Vector Machine, Logistic Regression and XGBoost. The XGBoost model had the best performance in detecting onset of PTSD symptoms with over 83% accuracy and an AUC of 0.70. Post-hoc SHapley Additive exPlanations (SHAP) additive explanation analysis showed that algorithm predictions were correlated with average heart rate, minimum heart rate and average body acceleration. Findings show promise in detecting onset of PTSD symptoms which could be the basis for developing remote and continuous monitoring systems for PTSD. Such systems may address a vital gap in just-in-time interventions for PTSD self-management outside of scheduled clinical appointments.
翻訳日:2021-10-01 14:39:43 公開日:2021-09-29
# 制御と強化学習を応用した2時間スケール確率最適化フレームワーク

A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning ( http://arxiv.org/abs/2109.14756v1 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 最適化変数によってパラメータ化されるマルコフ確率過程から勾配サンプルが生成される最適化問題の解法として,新しい2時間スケール確率勾配法を提案する。 これらの時間変化のサンプルは確率勾配を偏り、依存させ、それが繰り返しの発散につながる可能性がある。 この問題に対処するために、マルコフサンプルから真の勾配を推定するために1スケール、推定した勾配で決定変数を更新するために別のスケールを使用する2段階の更新方式を検討する。 これら2つのイテレートは同時に実装されるが、前者は後者(より小さなステップサイズを使用して)よりも"高速"に更新される。 第1の貢献は,提案する2時間スケール確率勾配法の有限時間複雑性を特徴付けることである。 特に、異なる目的関数、すなわち、pl条件下での強い凸性、凸性、非凸性、一般非凸性の下での収束率に対する明示的な公式を提供する。 第2のコントリビューションは,確率的制御と強化学習問題の解法におけるアクター批判手法の性能に関する研究に,我々の枠組みを適用することである。 まず,線形量子レギュレータに対するオンライン自然アクター-クリティックアルゴリズムについて検討し,$\mathcal{o}(k^{-2/3})$ の収束が達成されることを示す。 このような結果が文献に知られるのはこれが初めてである。 第二に、有限状態および作用空間上の標準的なオンラインアクター批判アルゴリズムを考察し、この問題に特化して導出された最もよく知られたレートを回復する$\mathcal{O}(k^{-2/5})$を導出する。 最後に,収束率を可視化する数値シミュレーションによる理論的解析を支援する。

We study a novel two-time-scale stochastic gradient method for solving optimization problems where the gradient samples are generated from a time-varying Markov random process parameterized by the underlying optimization variable. These time-varying samples make the stochastic gradient biased and dependent, which can potentially lead to the divergence of the iterates. To address this issue, we consider a two-time-scale update scheme, where one scale is used to estimate the true gradient from the Markovian samples and the other scale is used to update the decision variable with the estimated gradient. While these two iterates are implemented simultaneously, the former is updated "faster" (using bigger step sizes) than the latter (using smaller step sizes). Our first contribution is to characterize the finite-time complexity of the proposed two-time-scale stochastic gradient method. In particular, we provide explicit formulas for the convergence rates of this method under different objective functions, namely, strong convexity, convexity, non-convexity under the PL condition, and general non-convexity. Our second contribution is to apply our framework to study the performance of the popular actor-critic methods in solving stochastic control and reinforcement learning problems. First, we study an online natural actor-critic algorithm for the linear-quadratic regulator and show that a convergence rate of $\mathcal{O}(k^{-2/3})$ is achieved. This is the first time such a result is known in the literature. Second, we look at the standard online actor-critic algorithm over finite state and action spaces and derive a convergence rate of $\mathcal{O}(k^{-2/5})$, which recovers the best known rate derived specifically for this problem. Finally, we support our theoretical analysis with numerical simulations where the convergence rate is visualized.
翻訳日:2021-10-01 14:39:16 公開日:2021-09-29
# 射影交互最大化アルゴリズムの同値および最適輸送に対する収束について

On the Convergence of the Projected Alternating Maximization Algorithm for Equitable and Optimal Transport ( http://arxiv.org/abs/2109.15030v1 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma and Lifeng Lai(参考訳) 本稿では、公平な分割問題や複数のエージェントによる最適輸送問題など多くの応用がある等式と最適輸送問題(eot)について述べる。 離散分布の場合、eot問題は線形プログラム(lp)として定式化することができる。 この LP は一般の LP ソルバに対して禁止的に大きいため、Scetbon \etal \cite{scetbon2021equitable } はエントロピー正規化を加えることで問題を摂動することを示唆する。 彼らは、エントロピー正規化 eot の双対を解くために、計画的交互最大化アルゴリズム (pam) を提案した。 本稿では,PAMの収束解析について述べる。 元の eot 問題の原始解を構築するための新しい丸め手順が提案されている。 また,PAMの性能を数値的に向上する外挿手法を取り入れたPAMの変種を提案する。 本論文の結果は,一般最適化問題に対するブロック座標(次)降下法に光を流すことができる。

This paper studies the equitable and optimal transport (EOT) problem, which has many applications such as fair division problems and optimal transport with multiple agents etc. In the discrete distributions case, the EOT problem can be formulated as a linear program (LP). Since this LP is prohibitively large for general LP solvers, Scetbon \etal \cite{scetbon2021equitable } suggests to perturb the problem by adding an entropy regularization. They proposed a projected alternating maximization algorithm (PAM) to solve the dual of the entropy regularized EOT. In this paper, we provide the first convergence analysis of PAM. A novel rounding procedure is proposed to help construct the primal solution for the original EOT problem. We also propose a variant of PAM by incorporating the extrapolation technique that can numerically improve the performance of PAM. Results in this paper may shed lights on block coordinate (gradient) descent methods for general optimization problems.
翻訳日:2021-10-01 14:37:00 公開日:2021-09-29
# back in black: 最近の最先端ブラックボックス攻撃の比較評価

Back in Black: A Comparative Evaluation of Recent State-Of-The-Art Black-Box Attacks ( http://arxiv.org/abs/2109.15031v1 )

ライセンス: Link先を確認
Kaleel Mahmood, Rigel Mahmood, Ethan Rathbun and Marten van Dijk(参考訳) 敵対的機械学習の分野は、2018年以降に作成された論文の量は、ほぼ指数関数的に増加した。 この膨大な情報出力は、適切に処理され、分類されていない。 本稿では,2019年以降の機械学習ブラックボックス攻撃の最近の進歩を体系化することにより,この問題を軽減することを目的とする。 最近のブラックボックス攻撃20件をまとめた。 また, 各論文で用いた敵モデルに対して, 攻撃成功率を理解するための新たな分析法を提案する。 本研究は,近年の攻撃の展開を明らかにするため,幅広い文献を調査し,スコアベース攻撃,意思決定ベース攻撃,転送攻撃,非従来型攻撃の4つのカテゴリに分類した。 さらに,攻撃結果の正確な比較方法を示すための新しい数学的枠組みも提供する。

The field of adversarial machine learning has experienced a near exponential growth in the amount of papers being produced since 2018. This massive information output has yet to be properly processed and categorized. In this paper, we seek to help alleviate this problem by systematizing the recent advances in adversarial machine learning black-box attacks since 2019. Our survey summarizes and categorizes 20 recent black-box attacks. We also present a new analysis for understanding the attack success rate with respect to the adversarial model used in each paper. Overall, our paper surveys a wide body of literature to highlight recent attack developments and organizes them into four attack categories: score based attacks, decision based attacks, transfer attacks and non-traditional attacks. Further, we provide a new mathematical framework to show exactly how attack results can fairly be compared.
翻訳日:2021-10-01 14:36:44 公開日:2021-09-29
# Tiny-CRNN:ローフットプリント設定でウェイクワードの検出をストリーミング

Tiny-CRNN: Streaming Wakeword Detection In A Low Footprint Setting ( http://arxiv.org/abs/2109.14725v1 )

ライセンス: Link先を確認
Mohammad Omar Khursheed, Christin Jose, Rajath Kumar, Gengshen Fu, Brian Kulis, Santosh Kumar Cheekatmalla(参考訳) 本研究では,ウェイクワード検出問題に適用したTiny-CRNN(Tiny Convolutional Recurrent Neural Network)モデルを提案する。 畳み込みニューラルネットワークモデルと比較すると、250kのパラメータ予算における偽受入は、小さなcrnnアーキテクチャに基づくモデルを用いて、パラメータサイズを10%削減することで25%削減することができ、50kのパラメータで偽受入を最大32%削減でき、単語レベルの密集したニューラルネットワークモデルと比較してパラメータサイズを75%削減できることがわかった。 本稿では,CNN,DNN,DNN-HMMモデルと比較し,このアーキテクチャを用いてストリーミングオーディオの推論を行うという課題の解決法と,終末インデックスエラーと遅延の相違について論じる。

In this work, we propose Tiny-CRNN (Tiny Convolutional Recurrent Neural Network) models applied to the problem of wakeword detection, and augment them with scaled dot product attention. We find that, compared to Convolutional Neural Network models, False Accepts in a 250k parameter budget can be reduced by 25% with a 10% reduction in parameter size by using models based on the Tiny-CRNN architecture, and we can get up to 32% reduction in False Accepts at a 50k parameter budget with 75% reduction in parameter size compared to word-level Dense Neural Network models. We discuss solutions to the challenging problem of performing inference on streaming audio with this architecture, as well as differences in start-end index errors and latency in comparison to CNN, DNN, and DNN-HMM models.
翻訳日:2021-10-01 14:34:19 公開日:2021-09-29
# 統合テストと量子損失を用いた株価指数予測

Stock Index Prediction using Cointegration test and Quantile Loss ( http://arxiv.org/abs/2109.15045v1 )

ライセンス: Link先を確認
Jaeyoung Cheong, Heejoon Lee, Minjung Kang(参考訳) 近年,ディープラーニングを用いた在庫予測の研究が活発に行われている。 これは、将来の株価の動きを歴史的傾向に基づいて予測する作業である。 基本値ではなく、チャート上での歴史的動きのパターンにのみ基づく動きを予測するアプローチは、技術的分析と呼ばれ、回帰作業において一変量と多変量に分けることができる。 後者のアプローチでは、モデルの性能を高めるために入力と同様に異なる要素を選択することが重要である。 さらに、その性能はモデルをトレーニングするのにどの損失を使用するかによって異なります。 しかし、ほとんどの研究はモデルの構造の構築に焦点をあてる傾向にあり、学習のインプットとして情報的要因をどう選択するかに焦点が当てられている。 本稿では,統合テストを用いて情報的要因を選択し,質的損失を用いてモデルを学ぶ際に,リターンの観点でよりよい性能を得る手法を提案する。 実験で収集した15の株価指数因子のうち, 質的損失を伴う2つのrnn変種と, 統合試験により得られた5つの因子を比較した。 学習モデルの性能を評価するために累積回帰とシャープ比が用いられた。 実験の結果,提案手法は他の手法よりも優れていた。

Recent researches on stock prediction using deep learning methods has been actively studied. This is the task to predict the movement of stock prices in the future based on historical trends. The approach to predicting the movement based solely on the pattern of the historical movement of it on charts, not on fundamental values, is called the Technical Analysis, which can be divided into univariate and multivariate methods in the regression task. According to the latter approach, it is important to select different factors well as inputs to enhance the performance of the model. Moreover, its performance can depend on which loss is used to train the model. However, most studies tend to focus on building the structures of models, not on how to select informative factors as inputs to train them. In this paper, we propose a method that can get better performance in terms of returns when selecting informative factors using the cointegration test and learning the model using quantile loss. We compare the two RNN variants with quantile loss with only five factors obtained through the cointegration test among the entire 15 stock index factors collected in the experiment. The Cumulative return and Sharpe ratio were used to evaluate the performance of trained models. Our experimental results show that our proposed method outperforms the other conventional approaches.
翻訳日:2021-10-01 14:32:49 公開日:2021-09-29
# 遠隔医療用マルチレベル新生児心と肺音質のリアルタイム評価

Real-Time Multi-Level Neonatal Heart and Lung Sound Quality Assessment for Telehealth Applications ( http://arxiv.org/abs/2109.15127v1 )

ライセンス: Link先を確認
Ethan Grooby, Chiranjibi Sitaula, Davood Fattahi, Reza Sameni, Kenneth Tan, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Guy A. Dumont, Faezeh Marzbanrad(参考訳) デジタル聴診器と遠隔医療を組み合わせることで、胸部音の収集や遠隔監視や診断が容易になる。 胸部の音は新生児の呼吸の健康に関する重要な情報を含んでいる。 しかし、低品質記録は遠隔監視と診断を複雑にする。 本研究では,心肺信号の質を5レベルスケールでリアルタイムに客観的に自動評価し,信号品質がバイタルサイン推定に与える影響を評価するための新しい手法を提案する。 評価には, 妊娠119例, 妊娠119例から計207例の胸部音が得られた。 心電図記録に基づき、新生児集中治療室(nicu)から10名の被験者から30件の記録が同期バイタルサインで得られた。 7つのアノテータは信号の品質を独立して評価した。 自動品質分類では胸音から400種類の特徴を抽出した。 最小冗長性と最大関連性アルゴリズム,クラスバランス,ハイパーパラメータ最適化を用いた特徴選択を行い,多クラス分類と順序回帰アルゴリズムを訓練した。 そして, 適応した既存手法を用いて, 胸部音から心拍数と呼吸速度を自動推定した。 その結果,ベストパフォーマンスモデルの平均2乗誤差(MSE)は0.49,0.61,バランス精度は57%,肺品質は51%であった。 実時間解析における最良性能モデル(<200ms)はmse 0.459 と 0.67 であり, それぞれ 57% と 46% のバランスをとっていた。 実験結果から, 信号品質の向上はバイタルサインエラーの低減につながり, 臨床的使用に必要な絶対誤差が1分間に5回未満の高音質記録のみに留まらず, 信号品質の向上はバイタルサインエラーの低減につながることが示唆された。

Digital stethoscopes in combination with telehealth allow chest sounds to be easily collected and transmitted for remote monitoring and diagnosis. Chest sounds contain important information about a newborn's cardio-respiratory health. However, low-quality recordings complicate the remote monitoring and diagnosis. In this study, a new method is proposed to objectively and automatically assess heart and lung signal quality on a 5-level scale in real-time and to assess the effect of signal quality on vital sign estimation. For the evaluation, a total of 207 10s long chest sounds were taken from 119 preterm and full-term babies. Thirty of the recordings from ten subjects were obtained with synchronous vital signs from the Neonatal Intensive Care Unit (NICU) based on electrocardiogram recordings. As reference, seven annotators independently assessed the signal quality. For automatic quality classification, 400 features were extracted from the chest sounds. After feature selection using minimum redundancy and maximum relevancy algorithm, class balancing, and hyper-parameter optimization, a variety of multi-class and ordinal classification and regression algorithms were trained. Then, heart rate and breathing rate were automatically estimated from the chest sounds using adapted pre-existing methods. The results of subject-wise leave-one-out cross-validation show that the best-performing models had a mean squared error (MSE) of 0.49 and 0.61, and balanced accuracy of 57% and 51% for heart and lung qualities, respectively. The best-performing models for real-time analysis (<200ms) had MSE of 0.459 and 0.67, and balanced accuracy of 57% and 46%, respectively. Our experimental results underscore that increasing the signal quality leads to a reduction in vital sign error, with only high-quality recordings having a mean absolute error of less than 5 beats per minute, as required for clinical usage.
翻訳日:2021-10-01 14:31:53 公開日:2021-09-29
# (参考訳) グラフニューラルネットワークを用いたマルチオブジェクトスペクトロスコピーのための資源割当戦略 [全文訳有]

Graph Neural Network-based Resource Allocation Strategies for Multi-Object Spectroscopy ( http://arxiv.org/abs/2109.13361v2 )

ライセンス: CC BY 4.0
Tianshu Wang, Peter Melchior(参考訳) リソース割当問題は線形計画法によってしばしば解決される。 しかし、実験および観測科学における多くの具体的な割り当て問題は、線形目的関数の形で表現することはできない。 目的が線形であっても、そのパラメータは、割り当てが決定される実験の結果に依存するため、事前には分かっていないかもしれない。 これらの課題に対処するために,学習可能なリソース割り当て戦略のための2部グラフニューラルネットワークアーキテクチャを提案する。 値と制約の項目は、可能な割り当てに対応するエッジで接続されたグラフノードの2つのセットを形成する。 GNNは、ユーザから供給され、科学的に動機づけられた目的関数を最大化するために、シミュレーションや過去の問題の発生を訓練する。 実現可能性違反の量は、システム内の利用可能なslackに関連して調整できる。 本研究では,高多重化したSubaru Prime Focus Spectrographの天体目標選択戦略を最適化し,直勾配勾配の最適化に優れた結果を示し,線形目的関数を用いた現在使用されているソルバの能力を拡張した。 本手法の開発により,アロケーション戦略の迅速な調整と展開,アロケーションパターンの統計解析,リソースアロケーション問題に対する完全微分可能な科学駆動型ソリューションが実現された。

Resource allocation problems are often approached with linear programming techniques. But many concrete allocation problems in the experimental and observational sciences cannot or should not be expressed in the form of linear objective functions. Even if the objective is linear, its parameters may not be known beforehand because they depend on the results of the experiment for which the allocation is to be determined. To address these challenges, we present a bipartite Graph Neural Network architecture for trainable resource allocation strategies. Items of value and constraints form the two sets of graph nodes, which are connected by edges corresponding to possible allocations. The GNN is trained on simulations or past problem occurrences to maximize any user-supplied, scientifically motivated objective function, augmented by an infeasibility penalty. The amount of feasibility violation can be tuned in relation to any available slack in the system. We apply this method to optimize the astronomical target selection strategy for the highly multiplexed Subaru Prime Focus Spectrograph instrument, where it shows superior results to direct gradient descent optimization and extends the capabilities of the currently employed solver which uses linear objective functions. The development of this method enables fast adjustment and deployment of allocation strategies, statistical analyses of allocation patterns, and fully differentiable, science-driven solutions for resource allocation problems.
翻訳日:2021-10-01 11:54:12 公開日:2021-09-29
# DeepPSL: エンドツーエンドの知覚と推論とゼロショット学習への応用

DeepPSL: End-to-end perception and reasoning with applications to zero shot learning ( http://arxiv.org/abs/2109.13662v2 )

ライセンス: Link先を確認
Nigel Duffy, Sai Akhil Puranam, Sridhar Dasaratha, Karmvir Singh Phogat, Sunil Reddy Tiyyagura(参考訳) 本稿では、確率的ソフト論理(PSL)の変種であるDeepPSLを紹介し、推論と知覚を統合したエンドツーエンドのトレーニング可能なシステムを作成する。 PSLは凸グラフィックモデル - Hinge Loss Markov random Field (HL-MRFs) の観点から一階述語論理を表す。 PSLは10億以上の基底ルールのシステムに適用されているので、確率論的論理フレームワークの中でも際立っている。 我々のアプローチの鍵は、ディープニューラルネットワークを用いて一階述語を1次論理で表現し、HL-MRFを通してほぼバックプロパゲートし、一階体系のあらゆる側面を訓練することである。 このアプローチは、ディープラーニングと推論技術を知識ベース学習、マルチタスク学習、説明可能性への応用と統合する上で、興味深い方向を示していると考えています。 画像分類において、DeepPSLをゼロショット学習問題で評価する。 最先端の成果は、我々のアプローチの有用性と柔軟性を示しています。

We introduce DeepPSL a variant of Probabilistic Soft Logic (PSL) to produce an end-to-end trainable system that integrates reasoning and perception. PSL represents first-order logic in terms of a convex graphical model -- Hinge Loss Markov random fields (HL-MRFs). PSL stands out among probabilistic logic frameworks due to its tractability having been applied to systems of more than 1 billion ground rules. The key to our approach is to represent predicates in first-order logic using deep neural networks and then to approximately back-propagate through the HL-MRF and thus train every aspect of the first-order system being represented. We believe that this approach represents an interesting direction for the integration of deep learning and reasoning techniques with applications to knowledge base learning, multi-task learning, and explainability. We evaluate DeepPSL on a zero shot learning problem in image classification. State of the art results demonstrate the utility and flexibility of our approach.
翻訳日:2021-10-01 11:16:34 公開日:2021-09-29
# (参考訳) DENSE MRI画像におけるアトラスとニューラルネットのセマンティックセグメンテーションの比較 [全文訳有]

Comparison of atlas-based and neural-network-based semantic segmentation for DENSE MRI images ( http://arxiv.org/abs/2109.14116v1 )

ライセンス: CC BY 4.0
Elle Buser, Emma Hart, Ben Huenemann(参考訳) 2つのセグメンテーション法(atlas-basedとneural-network-based )を比較し、刺激型エコーmri(dense-mri)データを用いて、脳幹と小脳の変位エンコードにおいて、それぞれがどの程度うまくセグメンテーションできるかを調べた。 このセグメンテーションは,Chiari Malformation type I (CMI) の診断においてバイオマーカーとして提案されている,これらの地域の平均変位を推定するための前提条件である。 数値実験では、両方の方法のセグメンテーションは、訓練された専門家によって提供される手動セグメンテーションに似ている。 全体として、神経ネットワークベースの方法だけでは、アトラスベースの方法よりも正確なセグメンテーションを生成できたが、アトラスベースの方法が脳幹のセグメンテーションに使用される2つの方法と、脳小脳のセグメンテーションに使用されるニューラルネットワークの2つの方法の組み合わせが最も成功している可能性があることがわかった。

Two segmentation methods, one atlas-based and one neural-network-based , were compared to see how well they can each automatically segment the brain stem and cerebellum in Displacement Encoding with Stimulated Echoes Magnetic Resonance Imaging (DENSE-MRI) data. The segmentation is a pre-requisite for estimating the average displacements in these regions, which have recently been proposed as biomarkers in the diagnosis of Chiari Malformation type I (CMI). In numerical experiments, the segmentations of both methods were similar to manual segmentations provided by trained experts. It was found that, overall, the neural-network-based method alone produced more accurate segmentations than the atlas-based method did alone, but that a combination of the two methods -- in which the atlas-based method is used for the segmentation of the brain stem and the neural-network is used for the segmentation of the cerebellum -- may be the most successful.
翻訳日:2021-10-01 01:07:49 公開日:2021-09-29
# (参考訳) ニューラルネットワークのアンサンブル:理論、訓練、および明示的な多様性の重要性 [全文訳有]

Neural Network Ensembles: Theory, Training, and the Importance of Explicit Diversity ( http://arxiv.org/abs/2109.14117v1 )

ライセンス: CC BY 4.0
Wenjing Li, Randy C. Paffenroth, David Berthiaume(参考訳) アンサンブル学習は、複数のベース学習者が戦略的に生成され、1つの複合学習者に結合されるプロセスである。 アンサンブルのパフォーマンスに不可欠な特徴は2つあり、コンポーネント学習者の個性とアンサンブルの全体的な多様性である。 学習者の正確性とアンサンブルの多様性の適切なバランスは、ベンチマークおよび実世界のデータセットにおける機械学習タスクのパフォーマンスを向上させることができ、最近の理論および実践的な研究は、アンサンブルにおける正確性と多様性の間の微妙なトレードオフを実証している。 本稿では、ランダム林やディープニューラルネットワークアンサンブルを含む任意のアンサンブルの最適性を評価し改善するための、より深い理論的理解を提供することにより、現存する文献を拡張する。 また,ニューラルネットワークアンサンブルのための学習アルゴリズムを提案し,標準損失関数を用いて学習した学習者の学習結果と学習結果のアンサンブルとを比較することにより,学習性能が向上することを示す。 我々の重要な洞察は、単に発生によって多様性を発生させるのではなく、アンサンブルにおける多様性を明示的に奨励する方がよいことであり、多様性と学習者の正確性の間のトレードオフに関する厳密な理論的境界は、最適なアレンジがいつ達成されたかを知ることができることである。

Ensemble learning is a process by which multiple base learners are strategically generated and combined into one composite learner. There are two features that are essential to an ensemble's performance, the individual accuracies of the component learners and the overall diversity in the ensemble. The right balance of learner accuracy and ensemble diversity can improve the performance of machine learning tasks on benchmark and real-world data sets, and recent theoretical and practical work has demonstrated the subtle trade-off between accuracy and diversity in an ensemble. In this paper, we extend the extant literature by providing a deeper theoretical understanding for assessing and improving the optimality of any given ensemble, including random forests and deep neural network ensembles. We also propose a training algorithm for neural network ensembles and demonstrate that our approach provides improved performance when compared to both state-of-the-art individual learners and ensembles of state-of-the-art learners trained using standard loss functions. Our key insight is that it is better to explicitly encourage diversity in an ensemble, rather than merely allowing diversity to occur by happenstance, and that rigorous theoretical bounds on the trade-off between diversity and learner accuracy allow one to know when an optimal arrangement has been achieved.
翻訳日:2021-10-01 00:51:59 公開日:2021-09-29
# (参考訳) 難易度を有する不均衡領域の系列におけるメタ学習

Meta Learning on a Sequence of Imbalanced Domains with Difficulty Awareness ( http://arxiv.org/abs/2109.14120v1 )

ライセンス: CC BY 4.0
Zhenyi Wang, Tiehang Duan, Le Fang, Qiuling Suo and Mingchen Gao(参考訳) 進化する環境下でラベル付きサンプルから学習することで新しいオブジェクトを認識することは、現実世界の機械学習システムにおいて優れた一般化能力を得るために重要である。 現在のメタ学習アルゴリズムを横断する典型的な設定は、メタトレーニング中に定常タスク分布を仮定する。 本稿では,ドメインシフトとともにタスク分布が時間とともに変化する,より実践的で困難な環境について検討する。 特に,タスク分布とドメインラベルが自然界で利用できないような現実的なシナリオを考察する。 本稿では,カーネルベースのドメイン変更検出手法と,ドメイン間の不均衡なサイズとドメインの重要度を同時に考慮したメモリ管理機構を提案する。 さらに,メタトレーニング中に効率的な適応的タスクサンプリング手法を導入し,理論的な保証によりタスク勾配のばらつきを著しく低減する。 最後に、不均衡なドメイン配列と様々なドメイン難易度を持つ挑戦的ベンチマークを提案する。 提案手法の有効性を実証し,提案ベンチマークを広範囲に評価した。 私たちはコードを公開しました。

Recognizing new objects by learning from a few labeled examples in an evolving environment is crucial to obtain excellent generalization ability for real-world machine learning systems. A typical setting across current meta learning algorithms assumes a stationary task distribution during meta training. In this paper, we explore a more practical and challenging setting where task distribution changes over time with domain shift. Particularly, we consider realistic scenarios where task distribution is highly imbalanced with domain labels unavailable in nature. We propose a kernel-based method for domain change detection and a difficulty-aware memory management mechanism that jointly considers the imbalanced domain size and domain importance to learn across domains continuously. Furthermore, we introduce an efficient adaptive task sampling method during meta training, which significantly reduces task gradient variance with theoretical guarantees. Finally, we propose a challenging benchmark with imbalanced domain sequences and varied domain difficulty. We have performed extensive evaluations on the proposed benchmark, demonstrating the effectiveness of our method. We made our code publicly available.
翻訳日:2021-10-01 00:29:47 公開日:2021-09-29
# (参考訳) 高次元機能データのための可変選択型非定常ガウス過程判別解析

Non-stationary Gaussian process discriminant analysis with variable selection for high-dimensional functional data ( http://arxiv.org/abs/2109.14171v1 )

ライセンス: CC BY 4.0
W Yu, S Wade, H D Bondell, L Azizi(参考訳) 近年のデータ取得技術の進歩に伴い,高次元分類や特徴選択タスクが普及している。 生物学、ゲノム学、プロテオミクスなどのいくつかの応用分野において、データはその性質において機能し、粗さや非定常性を示すことが多い。 これらの構造は、変数の選択と分類を別々に行う2段階のアプローチに主に依存する一般的な手法にさらに挑戦する。 本稿では,これらのステップを統一的な枠組みで組み合わせた新しいガウス過程判別分析(GPDA)を提案する。 我々のモデルは二層非定常ガウス過程とイジングを結合して微分分散した位置を同定する。 スケーラブルな推論は、スパース逆共分散行列の使用の進歩を利用する変分スキームの開発によって実現される。 シミュレーションデータセットと2つのプロテオミクスデータセット(乳がんとsars-cov-2)における手法の性能を示す。 提案手法は,データ駆動ツールの信頼性向上と社会的受容に不可欠である低計算コストに加えて,説明可能性や不確実性定量化を提供することによって,自らを区別する。

High-dimensional classification and feature selection tasks are ubiquitous with the recent advancement in data acquisition technology. In several application areas such as biology, genomics and proteomics, the data are often functional in their nature and exhibit a degree of roughness and non-stationarity. These structures pose additional challenges to commonly used methods that rely mainly on a two-stage approach performing variable selection and classification separately. We propose in this work a novel Gaussian process discriminant analysis (GPDA) that combines these steps in a unified framework. Our model is a two-layer non-stationary Gaussian process coupled with an Ising prior to identify differentially-distr ibuted locations. Scalable inference is achieved via developing a variational scheme that exploits advances in the use of sparse inverse covariance matrices. We demonstrate the performance of our methodology on simulated datasets and two proteomics datasets: breast cancer and SARS-CoV-2. Our approach distinguishes itself by offering explainability as well as uncertainty quantification in addition to low computational cost, which are crucial to increase trust and social acceptance of data-driven tools.
翻訳日:2021-10-01 00:28:54 公開日:2021-09-29
# (参考訳) 肺CTにおける放射線誘発肺線維症の半監督的分画 [全文訳有]

Semi-Supervised Segmentation of Radiation-Induced Pulmonary Fibrosis from Lung CT Scans with Multi-Scale Guided Dense Attention ( http://arxiv.org/abs/2109.14172v1 )

ライセンス: CC BY 4.0
Guotai Wang, Shuwei Zhai, Giovanni Lasio, Baoshe Zhang, Byong Yi, Shifeng Chen, Thomas J. Macvittie, Dimitris Metaxas, Jinghao Zhou, and Shaoting Zhang(参考訳) CTは放射線誘発肺線維症(PF)のモニタリングにおいて重要な役割を担っている。 しかし, この課題は, あいまいな境界, 不規則な形状, 病変の位置や大きさ, および大量の注釈付きボリューム画像を取得することの難しさによって解決される。 これらの問題を解決するために、PF-Netと呼ばれる新しい畳み込みニューラルネットワークを提案し、擬似ラベル(I-CRAWL)の反復信頼に基づくRefinement and Weightingに基づく半教師付き学習フレームワークに組み込む。 我々のPF-Netは2Dと3Dの畳み込みを組み合わせ、CTボリュームを大きなスライス間隔で扱う。 半教師あり学習において,I-CRAWLは画素レベルの不確実性を考慮した信頼度認識の改良を採用し,画像レベルの不確実性を利用して信頼度に基づく画像重み付けを行い,低品質な疑似ラベルを反復訓練プロセスで抑制する。 放射線誘発性PFによるRhesus MacaquesのCTスキャンによる広範囲な実験により、以下のことが判明した。 1)PF-Netは既存の2D、3D、2.5Dニューラルネットワークよりも高いセグメンテーション精度を実現し、 2) pf病変分節課題に対するi-crawl型半教師あり学習法 肺がんに対する放射線治療の副作用についてPFの診断と臨床評価を改善する可能性が示唆された。

Computed Tomography (CT) plays an important role in monitoring radiation-induced Pulmonary Fibrosis (PF), where accurate segmentation of the PF lesions is highly desired for diagnosis and treatment follow-up. However, the task is challenged by ambiguous boundary, irregular shape, various position and size of the lesions, as well as the difficulty in acquiring a large set of annotated volumetric images for training. To overcome these problems, we propose a novel convolutional neural network called PF-Net and incorporate it into a semi-supervised learning framework based on Iterative Confidence-based Refinement And Weighting of pseudo Labels (I-CRAWL). Our PF-Net combines 2D and 3D convolutions to deal with CT volumes with large inter-slice spacing, and uses multi-scale guided dense attention to segment complex PF lesions. For semi-supervised learning, our I-CRAWL employs pixel-level uncertainty-based confidence-aware refinement to improve the accuracy of pseudo labels of unannotated images, and uses image-level uncertainty for confidence-based image weighting to suppress low-quality pseudo labels in an iterative training process. Extensive experiments with CT scans of Rhesus Macaques with radiation-induced PF showed that: 1) PF-Net achieved higher segmentation accuracy than existing 2D, 3D and 2.5D neural networks, and 2) I-CRAWL outperformed state-of-the-art semi-supervised learning methods for the PF lesion segmentation task. Our method has a potential to improve the diagnosis of PF and clinical assessment of side effects of radiotherapy for lung cancers.
翻訳日:2021-10-01 00:27:29 公開日:2021-09-29
# (参考訳) TSAMT:複数カメラ間の時系列分析に基づく動き伝達 [全文訳有]

TSAMT: Time-Series-Analysis -based Motion Transfer among Multiple Cameras ( http://arxiv.org/abs/2109.14174v1 )

ライセンス: CC BY 4.0
Yaping Zhao, Guanghan Li, Zhongrui Wang(参考訳) 光センサーの進歩とともに、異種カメラを用いたイメージングシステムを構築するのが一般的である。 高分解能(hr)ビデオの取得と分析はハイブリッドセンサーの恩恵を受けているが、複数のカメラの固有の特性は興味深いモーション転送問題を引き起こす。 残念ながら、既存の手法のほとんどは理論的な分析を行わず、集中的なトレーニングデータを必要とする。 本稿では,複数のカメラ間の動き伝達に時系列解析を用いるアルゴリズムを提案する。 具体的には、まず動きデータの季節性を特定し、次に中毒性のある時系列モデルを構築して、カメラ間で転送可能なパターンを抽出する。 我々のアプローチは完全で明確な数学的定式化を持ち、効率的かつ解釈可能である。 実世界データを用いた定量的評価を行い,本手法の有効性を実証する。 さらに, 動き伝達アルゴリズムは, hr映像から抽出した固有パターンを用いたlr映像におけるポーズ推定の促進など, 下流タスクと組み合わせ, 促進できる。 コードはhttps://github.com/I ndigoPurple/TSAMTで入手できる。

Along with advances in optical sensors is the common practice of building an imaging system with heterogeneous cameras. While high-resolution (HR) videos acquisition and analysis are benefited from hybrid sensors, the intrinsic characteristics of multiple cameras lead to an interesting motion transfer problem. Unfortunately, most of the existing methods provide no theoretical analysis and require intensive training data. In this paper, we propose an algorithm using time series analysis for motion transfer among multiple cameras. Specifically, we firstly identify seasonality in motion data and then build an addictive time series model to extract patterns that could be transferred across cameras. Our approach has a complete and clear mathematical formulation, thus being efficient and interpretable. Through quantitative evaluations on real-world data, we demonstrate the effectiveness of our method. Furthermore, our motion transfer algorithm could combine with and facilitate downstream tasks, e.g., enhancing pose estimation on LR videos with inherent patterns extracted from HR ones. Code is available at https://github.com/I ndigoPurple/TSAMT.
翻訳日:2021-09-30 23:58:38 公開日:2021-09-29
# (参考訳) WEDGE: セマンティックセグメンテーションのためのWebイメージ支援ドメイン一般化 [全文訳有]

WEDGE: Web-Image Assisted Domain Generalization for Semantic Segmentation ( http://arxiv.org/abs/2109.14196v1 )

ライセンス: CC BY-SA 4.0
Namyup Kim, Taeyoung Son, Cuiling Lan, Wenjun Zeng, Suha Kwak(参考訳) セマンティクスのセグメンテーションのためのドメインの一般化は、訓練済みのモデルがこれまで見つからなかったドメインでうまく機能することが期待される実際のアプリケーションにおいて、非常に要求される。 課題の1つは、トレーニングのために見当たらない可能性のあるドメインの多様な分布をカバーするデータの欠如である。 本稿では,WEb-image Assisted Domain GEneralization (WEDGE) 方式を提案する。 実世界のデータ配信を探索し、活用するために、気象条件、サイト、照明、カメラスタイルなどの観点から大きな多様性を示すWebcrawledデータセットを収集します。 また、トレーニング中にWebcrawledデータのスタイル表現をソースドメインにインジェクトし、信頼性の高いラベル付き多種多様なスタイルの画像をネットワークで体験し、効果的なトレーニングを行う方法を提案する。 さらに,ネットワークの能力を高めるために,擬似ラベル付きウェブクローリングデータセットを用いてトレーニングを行う。 広範な実験により,本手法が既存のドメイン一般化手法を明らかに上回ることを示した。

Domain generalization for semantic segmentation is highly demanded in real applications, where a trained model is expected to work well in previously unseen domains. One challenge lies in the lack of data which could cover the diverse distributions of the possible unseen domains for training. In this paper, we propose a WEb-image assisted Domain GEneralization (WEDGE) scheme, which is the first to exploit the diversity of web-crawled images for generalizable semantic segmentation. To explore and exploit the real-world data distributions, we collect a web-crawled dataset which presents large diversity in terms of weather conditions, sites, lighting, camera styles, etc. We also present a method which injects the style representation of the web-crawled data into the source domain on-the-fly during training, which enables the network to experience images of diverse styles with reliable labels for effective training. Moreover, we use the web-crawled dataset with predicted pseudo labels for training to further enhance the capability of the network. Extensive experiments demonstrate that our method clearly outperforms existing domain generalization techniques.
翻訳日:2021-09-30 23:50:41 公開日:2021-09-29
# (参考訳) ビタミンのスタイルのように言う人:マルチタスク学習を用いた構文認識対話要約を目指して [全文訳有]

Who says like a style of Vitamin: Towards Syntax-Aware DialogueSummarizatio n using Multi-task Learning ( http://arxiv.org/abs/2109.14199v1 )

ライセンス: CC BY 4.0
Seolhwa Lee, Kisu Yang, Chanjun Park, Jo\~ao Sedoc, Heuiseok Lim(参考訳) 抽象対話要約はいくつかの理由から難しい課題である。 まず、会話における重要な情報の大部分は、さまざまなテキストスタイルによるマルチパーティインタラクションを通じて、発話に散在する。 第二に、対話はしばしば非公式な構造であり、個々の個人は、テキスト要約とは異なり、通常、ニュース記事のような形式的な文書をターゲットとするタスクを個人的視点で表現する。 これらの課題に対処するため,各話者の発話と独特の構文構造との関係に着目した。 話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。 そこで,我々は言語情報(posタグ)を活用して構文認識モデルを構築し,個々の話者から発する文を本質的に区別することで,上記の問題を軽減した。 我々は,構文認識情報と対話要約の両方のマルチタスク学習を行った。 我々の知る限りでは、対話要約タスクにマルチタスク学習を適用する最初の方法である。 SAMSumコーパス(大規模対話要約コーパス)の実験により,バニラモデルにより改善された。 我々は、ベースラインモデルに対するアプローチのコストとメリットをさらに分析します。

Abstractive dialogue summarization is a challenging task for several reasons. First, most of the important pieces of information in a conversation are scattered across utterances through multi-party interactions with different textual styles. Second, dialogues are often informal structures, wherein different individuals express personal perspectives, unlike text summarization, tasks that usually target formal documents such as news articles. To address these issues, we focused on the association between utterances from individual speakers and unique syntactic structures. Speakers have unique textual styles that can contain linguistic information, such as voiceprint. Therefore, we constructed a syntax-aware model by leveraging linguistic information (i.e., POS tagging), which alleviates the above issues by inherently distinguishing sentences uttered from individual speakers. We employed multi-task learning of both syntax-aware information and dialogue summarization. To the best of our knowledge, our approach is the first method to apply multi-task learning to the dialogue summarization task. Experiments on a SAMSum corpus (a large-scale dialogue summarization corpus) demonstrated that our method improved upon the vanilla model. We further analyze the costs and benefits of our approach relative to baseline models.
翻訳日:2021-09-30 23:31:57 公開日:2021-09-29
# (参考訳) 非凸最小値最適化におけるアダム型アルゴリズムの一側収束について

On the One-sided Convergence of Adam-type Algorithms in Non-convex Non-concave Min-max Optimization ( http://arxiv.org/abs/2109.14213v1 )

ライセンス: CC0 1.0
Zehao Dou, Yuanzhi Li(参考訳) 適応勾配法の拡張であるアダム型手法は、教師なし機械学習モデルと教師なし機械学習モデルの訓練において優れた性能を示した。 特に、adam型オプティマイザは、gans(generative adversarial network)のトレーニングのデフォルトツールとして、実証的に広く使われている。 しかし、理論面では、最小化問題におけるアダム型手法の効率性を示す理論的な結果が存在するにもかかわらず、その素晴らしい性能の理由はまだ残っていない。 既存の研究では、高速収束は最も重要な理由の1つと考えられており、特定の仮定の下でミンマックス最適化アルゴリズムの臨界点への収束を理論的に保証するために複数の研究が提案されている。 本稿では、まず、GANのトレーニングにおいて、Adamはトレーニングが成功しても臨界点に収束しないことを実証的に論じる: ジェネレータのみが収束している一方で、差別者の勾配規範はトレーニングを通して高いままである。 これを片側収束と呼ぶ。 実験と理論のギャップを橋渡しし,一方のmvi条件下でのmin-max最適化問題において,adam型アルゴリズムが片側一階定常点に確実に収束することを示す。 また、標準データセットをトレーニングした後、標準GANに対して一方的なMVI条件が満たされることを実証的に検証した。 我々の知る限りでは、これは実験的な観察と、min-max最適化におけるAdam型アルゴリズムの一側収束に関する厳密な理論的保証を提供する最初の結果である。

Adam-type methods, the extension of adaptive gradient methods, have shown great performance in the training of both supervised and unsupervised machine learning models. In particular, Adam-type optimizers have been widely used empirically as the default tool for training generative adversarial networks (GANs). On the theory side, however, despite the existence of theoretical results showing the efficiency of Adam-type methods in minimization problems, the reason of their wonderful performance still remains absent in GAN's training. In existing works, the fast convergence has long been considered as one of the most important reasons and multiple works have been proposed to give a theoretical guarantee of the convergence to a critical point of min-max optimization algorithms under certain assumptions. In this paper, we firstly argue empirically that in GAN's training, Adam does not converge to a critical point even upon successful training: Only the generator is converging while the discriminator's gradient norm remains high throughout the training. We name this one-sided convergence. Then we bridge the gap between experiments and theory by showing that Adam-type algorithms provably converge to a one-sided first order stationary points in min-max optimization problems under the one-sided MVI condition. We also empirically verify that such one-sided MVI condition is satisfied for standard GANs after trained over standard data sets. To the best of our knowledge, this is the very first result which provides an empirical observation and a strict theoretical guarantee on the one-sided convergence of Adam-type algorithms in min-max optimization.
翻訳日:2021-09-30 23:17:29 公開日:2021-09-29
# (参考訳) lightsecagg: 連合学習におけるセキュアアグリゲーション再考 [全文訳有]

LightSecAgg: Rethinking Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2109.14236v1 )

ライセンス: CC BY-SA 4.0
Chien-Sheng Yang, Jinhyun So, Chaoyang He, Songze Li, Qian Yu, Salman Avestimehr(参考訳) セキュアモデルアグリゲーションは、各ユーザの個々のモデルのプライバシを保護すると同時に、グローバルアグリゲーションを可能にすることを目的とした、連邦学習(FL)の重要なコンポーネントである。 グローバルモデルをトレーニングするためのアルゴリズムや、パーソナライズされたFLフレームワークなど、アグリゲーションベースのアプローチにも適用可能だ。 モデルアグリゲーションは、FLシステムのユーザドロップアウトに対する耐性も必要であり、その設計をかなり複雑にする必要があります。 最先端のセキュアアグリゲーションプロトコルは、本質的には、削除されたユーザに属するユーザの復元とキャンセルを可能にするために、マスク世代に使用されるランダムシードの秘密共有に依存している。 しかし、こうしたアプローチの複雑さは、ユーザの減少によって大きく増加する。 我々はlightsecaggという新しいアプローチを提案し、このボトルネックを克服すべく、焦点を「ドロップしたユーザーをランダムにシードした再構築」から「アクティブユーザーのワンショットアグリゲートマスク復元」へと転換した。 具体的には、LightSecAggでは、各ユーザが単一のランダムマスクを生成してローカルモデルを保護します。 そして、このマスクを他のユーザにエンコードして共有し、十分な数のアクティブなユーザの集合マスクを直接、エンコードされたマスクを介してサーバに直接再構築することができる。 我々は、LightSecAggが最先端プロトコルと同じプライバシとドロップアウト・レジリエンスを保証すると同時に、ドロップユーザに対するレジリエンスのオーバーヘッドを大幅に削減することを示す。 さらに,システム最適化は,モデルトレーニングと並列化することで,オフライン処理のランタイムコストを隠蔽する。 現実的なFLシステムにおいて、様々なデータセット上で様々なモデルのトレーニングを行うための広範な実験を通じてLightSecAggを評価し、LightSecAggがトレーニング時間を大幅に短縮し、最大12.7\times$ベースラインでのパフォーマンス向上を実現していることを示す。

Secure model aggregation is a key component of federated learning (FL) that aims at protecting the privacy of each user's individual model, while allowing their global aggregation. It can be applied to any aggregation-based approaches, including algorithms for training a global model, as well as personalized FL frameworks. Model aggregation needs to also be resilient to likely user dropouts in FL system, making its design substantially more complex. State-of-the-art secure aggregation protocols essentially rely on secret sharing of the random-seeds that are used for mask generations at the users, in order to enable the reconstruction and cancellation of those belonging to dropped users. The complexity of such approaches, however, grows substantially with the number of dropped users. We propose a new approach, named LightSecAgg, to overcome this bottleneck by turning the focus from "random-seed reconstruction of the dropped users" to "one-shot aggregate-mask reconstruction of the active users". More specifically, in LightSecAgg each user protects its local model by generating a single random mask. This mask is then encoded and shared to other users, in such a way that the aggregate-mask of any sufficiently large set of active users can be reconstructed directly at the server via encoded masks. We show that LightSecAgg achieves the same privacy and dropout-resiliency guarantees as the state-of-the-art protocols, while significantly reducing the overhead for resiliency to dropped users. Furthermore, our system optimization helps to hide the runtime cost of offline processing by parallelizing it with model training. We evaluate LightSecAgg via extensive experiments for training diverse models on various datasets in a realistic FL system, and demonstrate that LightSecAgg significantly reduces the total training time, achieving a performance gain of up to $12.7\times$ over baselines.
翻訳日:2021-09-30 23:15:56 公開日:2021-09-29
# (参考訳) BLEU, METEOR, BERTScore:感性指向テキストにおける臨界翻訳誤りの評価におけるメトリクス性能の評価 [全文訳有]

BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing Critical Translation Errors in Sentiment-oriented Text ( http://arxiv.org/abs/2109.14250v1 )

ライセンス: CC BY 4.0
Hadeel Saadany, Constantin Orasan(参考訳) ソーシャルメディア企業や当局は、ヘイトスピーチの投稿、暴力の祝賀、あるいは暴言をモニターするために、人工知能(AI)ツールを広範囲に活用している。 AIソフトウェアは、コンピュータを訓練するために大量のデータを必要とするため、オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。 しかし、MTミスは感情指向のユーザ生成コンテンツ(UGC)を翻訳する場合、特に低リソース言語が関与する場合に発生する。 プロセス全体の妥当性は、使用される評価指標が翻訳の品質の信頼できる指示を与えるという仮定に依存している。 本稿では,影響メッセージの重大な誤解を引き起こす機械翻訳エラーを検出するための,自動品質指標の能力を評価する。 本研究は,意味的内容が重大である意味的翻訳における3つの標準的指標の性能を,テキストの感情を歪ませる重要な誤りを伴う意味的翻訳と比較して比較する。 我々は、感情クリティカルエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。

Social media companies as well as authorities make extensive use of artificial intelligence (AI) tools to monitor postings of hate speech, celebrations of violence or profanity. Since AI software requires massive volumes of data to train computers, Machine Translation (MT) of the online content is commonly used to process posts written in several languages and hence augment the data needed for training. However, MT mistakes are a regular occurrence when translating sentiment-oriented user-generated content (UGC), especially when a low-resource language is involved. The adequacy of the whole process relies on the assumption that the evaluation metrics used give a reliable indication of the quality of the translation. In this paper, we assess the ability of automatic quality metrics to detect critical machine translation errors which can cause serious misunderstanding of the affect message. We compare the performance of three canonical metrics on meaningless translations where the semantic content is seriously impaired as compared to meaningful translations with a critical error which exclusively distorts the sentiment of the source text. We conclude that there is a need for fine-tuning of automatic metrics to make them more robust in detecting sentiment critical errors.
翻訳日:2021-09-30 22:16:57 公開日:2021-09-29
# (参考訳) 短文綴り誤り訂正のための階層型文字タガー [全文訳有]

Hierarchical Character Tagger for Short Text Spelling Error Correction ( http://arxiv.org/abs/2109.14259v1 )

ライセンス: CC BY 4.0
Mengyi Gao, Canran Xu, Peng Shi(参考訳) 綴り誤り訂正問題に対する最先端のアプローチには、大きなトレーニングセットを必要とするTransformerベースのSeq2Seqモデルと、トークンレベルのラベル空間を含むBERTのようなTransformerエンコーダに基づくシーケンスラベルモデルがあり、したがって大きな事前定義された語彙辞書がある。 本稿では,短い文字スペル誤り訂正のための階層型文字タガーモデル(hctagger)を提案する。 テキストエンコーダとして文字レベルで事前学習された言語モデルを使用し、文字レベルの編集を予測して元のテキストをエラーのない形式に変換し、ラベルスペースを小さくする。 復号化のために,モデルパラメータを余分に導入することなく,長期ラベル分布の問題を軽減する階層型マルチタスク手法を提案する。 2つの公開ミススペル補正データセットの実験では、HCTaggerは既存のモデルよりも正確ではるかに高速なアプローチであることが示されている。

State-of-the-art approaches to spelling error correction problem include Transformer-based Seq2Seq models, which require large training sets and suffer from slow inference time; and sequence labeling models based on Transformer encoders like BERT, which involve token-level label space and therefore a large pre-defined vocabulary dictionary. In this paper we present a Hierarchical Character Tagger model, or HCTagger, for short text spelling error correction. We use a pre-trained language model at the character level as a text encoder, and then predict character-level edits to transform the original text into its error-free form with a much smaller label space. For decoding, we propose a hierarchical multi-task approach to alleviate the issue of long-tail label distribution without introducing extra model parameters. Experiments on two public misspelling correction datasets demonstrate that HCTagger is an accurate and much faster approach than many existing models.
翻訳日:2021-09-30 22:09:39 公開日:2021-09-29
# (参考訳) 深部強化学習に基づく自動車追従モデルの定式化と検証 [全文訳有]

Formulation and validation of a car-following model based on deep reinforcement learning ( http://arxiv.org/abs/2109.14268v1 )

ライセンス: CC BY 4.0
Fabian Hart, Ostap Okhrin, Martin Treiber(参考訳) 我々は,深層強化学習に基づく新しい車追従モデルを提案し,検証する。 本モデルでは,既存の追従軌道を再現するのではなく,車追従系と自由系に対して与えられた報酬関数の最大化を訓練する。 所望の速度、時間ギャップ、加速度などの報酬関数のパラメータは、Intelligent Driver Model (IDM)のような従来のモデルに似ており、異なる運転スタイルを明示的に実装することができる。 さらに、従来のニューラルネットワークモデルのブラックボックスの性質を部分的に引き上げる。 このモデルは、現実的なリーダーのキネマティクスを反映したornstein-uhlenbeckプロセスによって制御されるリードスピードプロファイルに基づいて訓練される。 これにより任意の運転状況とトレーニングデータの無限供給が可能になる。 報酬関数の様々なパラメータ化や、様々な人工的および実際のリーダーデータに対して、モデルは無条件にストリング安定し、快適で、クラッシュフリーであることが判明した。 弦の安定性は、人工軌道と真のリード軌道に続く5人の従者からなる小隊でテストされている。 相対的ギャップの良さに比例したIDMの相互比較では,従来のモデルよりも高い報奨率を示し,適合性も良好であった。

We propose and validate a novel car following model based on deep reinforcement learning. Our model is trained to maximize externally given reward functions for the free and car-following regimes rather than reproducing existing follower trajectories. The parameters of these reward functions such as desired speed, time gap, or accelerations resemble that of traditional models such as the Intelligent Driver Model (IDM) and allow for explicitly implementing different driving styles. Moreover, they partially lift the black-box nature of conventional neural network models. The model is trained on leading speed profiles governed by a truncated Ornstein-Uhlenbeck process reflecting a realistic leader's kinematics. This allows for arbitrary driving situations and an infinite supply of training data. For various parameterizations of the reward functions, and for a wide variety of artificial and real leader data, the model turned out to be unconditionally string stable, comfortable, and crash-free. String stability has been tested with a platoon of five followers following an artificial and a real leading trajectory. A cross-comparison with the IDM calibrated to the goodness-of-fit of the relative gaps showed a higher reward compared to the traditional model and a better goodness-of-fit.
翻訳日:2021-09-30 21:58:10 公開日:2021-09-29
# (参考訳) 仮想ネットワーク機能チェーンにおける異常検出のための逐次ディープラーニングアーキテクチャ [全文訳有]

Sequential Deep Learning Architectures for Anomaly Detection in Virtual Network Function Chains ( http://arxiv.org/abs/2109.14276v1 )

ライセンス: CC BY-SA 4.0
Chungjun Lee, Jibum Hong, DongNyeong Heo, Heeyoul Choi(参考訳) ソフトウェア定義ネットワーク(SDN)とネットワーク機能仮想化(NFV)は、ネットワークサービスの効率的なプロビジョニングを可能にしている。 しかし、仮想化サービスの状態を監視、保証するための新しいタスクも立ち上げており、異常検出もその1つだ。 サービス機能チェーン(SFC)における仮想ネットワーク機能のための異常検出システム(ADS)を実装するためのデータ駆動型アプローチが数多く存在する。 本稿では,ADSのためのより高度なディープラーニングモデルを開発することを目的とする。 従来のアプローチでは、ランダムフォレスト(RF)、グラデーションブースティングマシン(GBM)、ディープニューラルネットワーク(DNN)といった学習アルゴリズムを使用していた。 しかし、これらのモデルはデータのシーケンシャルな依存関係を利用していない。 さらに、訓練されたSFC設定のみに適用できるため、制限されている。 そこで本研究では,チェーン内の時系列パターンと仮想ネットワーク関数(VNF)の逐次パターンを可変長で学習するシーケンシャルディープラーニングモデルを提案する。 その結果,提案モデルでは検出性能が向上し,VNFの数が異なるSFCに適用できることがわかった。

Software-defined networking (SDN) and network function virtualization (NFV) have enabled the efficient provision of network service. However, they also raised new tasks to monitor and ensure the status of virtualized service, and anomaly detection is one of such tasks. There have been many data-driven approaches to implement anomaly detection system (ADS) for virtual network functions in service function chains (SFCs). In this paper, we aim to develop more advanced deep learning models for ADS. Previous approaches used learning algorithms such as random forest (RF), gradient boosting machine (GBM), or deep neural networks (DNNs). However, these models have not utilized sequential dependencies in the data. Furthermore, they are limited as they can only apply to the SFC setting from which they were trained. Therefore, we propose several sequential deep learning models to learn time-series patterns and sequential patterns of the virtual network functions (VNFs) in the chain with variable lengths. As a result, the suggested models improve detection performance and apply to SFCs with varying numbers of VNFs.
翻訳日:2021-09-30 21:41:53 公開日:2021-09-29
# (参考訳) 自信を持て! 信頼度校正による信頼できるグラフニューラルネットワークを目指して [全文訳有]

Be Confident! Towards Trustworthy Graph Neural Networks via Confidence Calibration ( http://arxiv.org/abs/2109.14285v1 )

ライセンス: CC BY 4.0
Xiao Wang, Hongrui Liu, Chuan Shi, Cheng Yang(参考訳) グラフニューラルネットワーク(GNN)は目覚ましい精度を達成したが、信頼に値する結果がまだ探索されていない。 これまでの研究では、多くの現代のニューラルネットワークが予測を過信していることが示唆されていたが、驚くべきことに、GNNが主に反対方向、すなわちGNNが過信であることがわかった。 そのため、GNNの信頼性校正が望まれている。 本稿では,トポロジーを考慮したポストホックキャリブレーション関数を設計し,信頼性の高いGNNモデルを提案する。 具体的には,まず,グラフ内の信頼度分布がホモフィイ性を持っていることを検証し,この発見はキャリブレーションgnnモデル(cagcn)の設計を刺激し,キャリブレーション関数を学ぶ。 CaGCNはGNNのロジットから各ノードの校正された信頼度へのユニークな変換を得ることができ、一方、そのような変換はクラス間の順序を保ち、精度保存性を満たすことができる。 さらに,キャリブレーションgnnを自己学習フレームワークに適用することで,信頼性の高い疑似ラベルをキャリブレーション信頼度で得ることができ,さらにパフォーマンスが向上することを示す。 広範な実験により,提案モデルの有効性をキャリブレーションと精度の両面で実証した。

Despite Graph Neural Networks (GNNs) have achieved remarkable accuracy, whether the results are trustworthy is still unexplored. Previous studies suggest that many modern neural networks are over-confident on the predictions, however, surprisingly, we discover that GNNs are primarily in the opposite direction, i.e., GNNs are under-confident. Therefore, the confidence calibration for GNNs is highly desired. In this paper, we propose a novel trustworthy GNN model by designing a topology-aware post-hoc calibration function. Specifically, we first verify that the confidence distribution in a graph has homophily property, and this finding inspires us to design a calibration GNN model (CaGCN) to learn the calibration function. CaGCN is able to obtain a unique transformation from logits of GNNs to the calibrated confidence for each node, meanwhile, such transformation is able to preserve the order between classes, satisfying the accuracy-preserving property. Moreover, we apply the calibration GNN to self-training framework, showing that more trustworthy pseudo labels can be obtained with the calibrated confidence and further improve the performance. Extensive experiments demonstrate the effectiveness of our proposed model in terms of both calibration and accuracy.
翻訳日:2021-09-30 21:31:01 公開日:2021-09-29
# (参考訳) 信頼性のある確率予測のオンライン集約

Online Aggregation of Probability Forecasts with Confidence ( http://arxiv.org/abs/2109.14309v1 )

ライセンス: CC BY 4.0
Vladimir V'yugin and Vladimir Trunov(参考訳) 本稿では,専門的助言(PEA)による予測における数値実験と理論的展開について述べる。 ある実験では、温度に応じて消費電力を予測し、実際のデータを使用する。 依存のパターンは季節や時間によって変化するため、ドメインは自然に「専門分野」の異なる専門家によってpeaの定式化を認めている。 いくつかの競合する手法が確率分布関数の形でオンライン予測を行う場合を考える。 確率予測と結果との相同性を損失関数(スコアリング規則)により測定する。 連続結果に対するスコアリングルールの一般的な例は、連続ランク付き確率スコア(crps)である。 本稿では,確率的予測を組み合わせることの問題点をPEAフレームワークで考察する。 CRPSは混合損失関数であり、CRPSを損失関数として用いたVovkアグリゲーションアルゴリズムの後悔に対する時間非依存上界が得られることを示す。 また、このスキームに専門専門家の手法の「smooth」バージョンを組み込むことにより、専門専門家の確率的予測と、その能力の重複する領域を組み合わせられるようにする。

The paper presents numerical experiments and some theoretical developments in prediction with expert advice (PEA). One experiment deals with predicting electricity consumption depending on temperature and uses real data. As the pattern of dependence can change with season and time of the day, the domain naturally admits PEA formulation with experts having different ``areas of expertise''. We consider the case where several competing methods produce online predictions in the form of probability distribution functions. The dissimilarity between a probability forecast and an outcome is measured by a loss function (scoring rule). A popular example of scoring rule for continuous outcomes is Continuous Ranked Probability Score (CRPS). In this paper the problem of combining probabilistic forecasts is considered in the PEA framework. We show that CRPS is a mixable loss function and then the time-independent upper bound for the regret of the Vovk aggregating algorithm using CRPS as a loss function can be obtained. Also, we incorporate a ``smooth'' version of the method of specialized experts in this scheme which allows us to combine the probabilistic predictions of the specialized experts with overlapping domains of their competence.
翻訳日:2021-09-30 21:11:42 公開日:2021-09-29
# (参考訳) エッジデバイスのためのGoogle Neural Network Models:機械学習推論ボットの解析と緩和 [全文訳有]

Google Neural Network Models for Edge Devices: Analyzing and Mitigating Machine Learning Inference Bottlenecks ( http://arxiv.org/abs/2109.14320v1 )

ライセンス: CC BY 4.0
Amirali Boroumand, Saugata Ghose, Berkin Akin, Ravi Narayanaswami, Geraldo F. Oliveira, Xiaoyu Ma, Eric Shiu, Onur Mutlu(参考訳) 新しいエッジコンピューティングプラットフォームには、幅広いニューラルネットワーク(NN)モデルの推論を加速できる機械学習(ML)アクセラレータが含まれることが多い。 これらのモデルは、エッジコンピューティングプラットフォームの限られた領域とエネルギー制約に適合するように設計されており、それぞれが様々なアプリケーション(例えば、顔検出、音声認識、翻訳、画像キャプション、ビデオ分析)をターゲットにしている。 エッジMLアクセラレータの動作を理解するため、商用のGoogle Edge TPUの性能を特徴付け、24のGoogle edge NNモデル(広範囲のNNモデルタイプにまたがる)を使用して各モデル内の各NN層を解析する。 エッジtpuには,(1)ピーク時の計算スループットをかなり下回って動作し,(2)理論的エネルギー効率をかなり下回って動作し,(3)メモリシステムは大きなエネルギーと性能のボトルネックとなっている,という3つの大きな欠点がある。 我々の特徴は、Edge TPUのオールサイズでモノリシックな設計は、異なるNNモデルと同じNNモデル内の異なるNN層の両方で高い均一性を無視し、我々が観察する欠点を生んでいることを示している。 我々はMensaと呼ばれる新しい加速フレームワークを提案する。 Mensaには、複数の異種エッジMLアクセラレータ(オンチップとニアデータアクセラレータの両方を含む)が組み込まれており、それぞれがNNモデルとレイヤの特定のサブセットの特性に対応している。 NN推論では、各NN層に対して、各アクセラレータの最適性と層間通信コストを考慮し、どのアクセラレーターをどのレイヤにスケジュールするかを判断する。 平均24個のGoogleエッジNNモデルにまたがって、MensaはEdge TPUでエネルギー効率とスループットを3.0xと3.1xで改善し、Eyeriss〜v2で2.4xと4.3xで改善した。

Emerging edge computing platforms often contain machine learning (ML) accelerators that can accelerate inference for a wide range of neural network (NN) models. These models are designed to fit within the limited area and energy constraints of the edge computing platforms, each targeting various applications (e.g., face detection, speech recognition, translation, image captioning, video analytics). To understand how edge ML accelerators perform, we characterize the performance of a commercial Google Edge TPU, using 24 Google edge NN models (which span a wide range of NN model types) and analyzing each NN layer within each model. We find that the Edge TPU suffers from three major shortcomings: (1) it operates significantly below peak computational throughput, (2) it operates significantly below its theoretical energy efficiency, and (3) its memory system is a large energy and performance bottleneck. Our characterization reveals that the one-size-fits-all, monolithic design of the Edge TPU ignores the high degree of heterogeneity both across different NN models and across different NN layers within the same NN model, leading to the shortcomings we observe. We propose a new acceleration framework called Mensa. Mensa incorporates multiple heterogeneous edge ML accelerators (including both on-chip and near-data accelerators), each of which caters to the characteristics of a particular subset of NN models and layers. During NN inference, for each NN layer, Mensa decides which accelerator to schedule the layer on, taking into account both the optimality of each accelerator for the layer and layer-to-layer communication costs. Averaged across all 24 Google edge NN models, Mensa improves energy efficiency and throughput by 3.0x and 3.1x over the Edge TPU, and by 2.4x and 4.3x over Eyeriss~v2, a state-of-the-art accelerator.
翻訳日:2021-09-30 21:10:42 公開日:2021-09-29
# (参考訳) グラフポーリングのための分布知識埋め込み [全文訳有]

Distribution Knowledge Embedding for Graph Pooling ( http://arxiv.org/abs/2109.14333v1 )

ライセンス: CC BY 4.0
Kaixuan Chen, Jie Song, Shunyu Liu, Na Yu, Zunlei Feng, Mingli Song(参考訳) グラフレベルの表現学習は、グラフ全体で動作する下流タスクの重要なステップである。 この問題に対する最も一般的なアプローチはグラフプーリングであり、ノードの特徴は通常、グラフ表現を得るために平均化または要約される。 しかし、平均化や集計のようなプール操作は必然的に大量の情報が失われ、最終的なパフォーマンスが著しく低下する可能性がある。 本稿では,グラフレベルのダウンストリームタスクにおいて重要なのは,トポロジ構造だけでなく,ノードのサンプル化による分布も含んでいることを論じる。 そこで,既存のグラフニューラルネットワーク(GNN)をベースとして,GNN上の分布としてグラフを表現した分散知識埋め込み(DKEPool)と呼ばれる新しいプラグアンドプレイプールモジュールを提案する。 DKEPoolネットワークは、表現学習を構造学習と分布学習の2つの段階に分解する。 構造学習は、構造情報が得られたノードの特徴を更新する再帰的な近傍集約スキームに従う。 一方、分布学習はノードの相互接続を省略し、全てのノードが表現する分布にもっと焦点をあてる。 大規模な実験により、提案されたDKEPoolは最先端の手法よりも大きく、一貫して優れていることが示された。

Graph-level representation learning is the pivotal step for downstream tasks that operate on the whole graph. The most common approach to this problem heretofore is graph pooling, where node features are typically averaged or summed to obtain the graph representations. However, pooling operations like averaging or summing inevitably cause massive information missing, which may severely downgrade the final performance. In this paper, we argue what is crucial to graph-level downstream tasks includes not only the topological structure but also the distribution from which nodes are sampled. Therefore, powered by existing Graph Neural Networks (GNN), we propose a new plug-and-play pooling module, termed as Distribution Knowledge Embedding (DKEPool), where graphs are rephrased as distributions on top of GNNs and the pooling goal is to summarize the entire distribution information instead of retaining a certain feature vector by simple predefined pooling operations. A DKEPool network de facto disassembles representation learning into two stages, structure learning and distribution learning. Structure learning follows a recursive neighborhood aggregation scheme to update node features where structure information is obtained. Distribution learning, on the other hand, omits node interconnections and focuses more on the distribution depicted by all the nodes. Extensive experiments demonstrate that the proposed DKEPool significantly and consistently outperforms the state-of-the-art methods.
翻訳日:2021-09-30 20:25:21 公開日:2021-09-29
# (参考訳) BeginnerからMasterへ: 深層学習に基づく単一画像超解法に関する調査 [全文訳有]

From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution ( http://arxiv.org/abs/2109.14335v1 )

ライセンス: CC BY 4.0
Juncheng Li, Zehua Pei, Tieyong Zeng(参考訳) 単一像超解像(SISR)は画像処理において重要な課題であり、画像システムの解像度を高めることを目的としている。 近年、SISRは大きな飛躍を遂げ、ディープラーニング(DL)の助けを借りて有望な成果を上げている。 本稿では,DLをベースとしたSISR手法の概要を述べるとともに,再現効率,再現精度,知覚精度などの目標に応じてグループ化する。 具体的には,まず,問題定義,研究の背景,およびsisrの意義について述べる。 第2に,ベンチマークデータセット,アップサンプリング手法,最適化目標,画像品質評価手法などの関連研究を紹介する。 第3に,sisrの詳細な調査を行い,そのドメイン固有の応用について述べる。 第4に,古典的なSISR手法の再構築結果を直感的に示す。 最後に、SISRに残っているいくつかの問題について議論し、新しいトレンドと今後の方向性について要約する。 これはSISRの徹底的な調査であり、研究者がSISRをより深く理解し、この分野のよりエキサイティングな研究を促すのに役立つ。 SISRの調査プロジェクトはhttps://github.com/C V-JunchengLi/SISR-Su rveyで提供されている。

Single-image super-resolution (SISR) is an important task in image processing, which aims to enhance the resolution of imaging systems. Recently, SISR has made a huge leap and has achieved promising results with the help of deep learning (DL). In this survey, we give an overview of DL-based SISR methods and group them according to their targets, such as reconstruction efficiency, reconstruction accuracy, and perceptual accuracy. Specifically, we first introduce the problem definition, research background, and the significance of SISR. Secondly, we introduce some related works, including benchmark datasets, upsampling methods, optimization objectives, and image quality assessment methods. Thirdly, we provide a detailed investigation of SISR and give some domain-specific applications of it. Fourthly, we present the reconstruction results of some classic SISR methods to intuitively know their performance. Finally, we discuss some issues that still exist in SISR and summarize some new trends and future directions. This is an exhaustive survey of SISR, which can help researchers better understand SISR and inspire more exciting research in this field. An investigation project for SISR is provided in https://github.com/C V-JunchengLi/SISR-Su rvey.
翻訳日:2021-09-30 20:08:00 公開日:2021-09-29
# (参考訳) Larisa Ivanovna氏: コードスイッチングフールは多言語NLUモデルです [全文訳有]

Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models ( http://arxiv.org/abs/2109.14350v1 )

ライセンス: CC BY 4.0
Alexey Birshert and Ekaterina Artemova(参考訳) タスク指向対話アシスタントの開発には、多くの言語を理解する能力が必要である。 NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。 このような言語間移動のセットアップモデルでは、結合意図認識とスロットフィリングにおいて顕著な性能を示す。 しかしながら、既存のベンチマークではコードスイッチによる発話が欠如しており、文法構造が複雑であるため収集やラベル付けが困難である。 NLUモデルの評価は、コードスイッチングがスコープから外されているため、バイアスがあり制限されているように見える。 本研究は, 認識された手法を用いて, 有理で自然に発音されるコード切替発話を生成し, それらを用いて合成コード切替テストセットを作成する。 実験の結果,最先端のNLUモデルではコードスイッチングができないことがわかった。 最悪の場合、セマンティックな精度で評価されたパフォーマンスは、言語全体の80\%から15\%まで低下する。 さらに, 合成符号混合データに対する事前学習は, 単言語データと同等のレベルで, 提案するテストセットの性能維持に寄与することを示した。 最後に、異なる言語ペアを分析して、言語が近いほど、NLUモデルの方が、その変更を処理できることを示す。 これは多言語モデルがどのように言語間の伝達を行うかについての共通理解と一致している。

Practical needs of developing task-oriented dialogue assistants require the ability to understand many languages. Novel benchmarks for multilingual natural language understanding (NLU) include monolingual sentences in several languages, annotated with intents and slots. In such setup models for cross-lingual transfer show remarkable performance in joint intent recognition and slot filling. However, existing benchmarks lack of code-switched utterances, which are difficult to gather and label due to complexity in the grammatical structure. The evaluation of NLU models seems biased and limited, since code-switching is being left out of scope. Our work adopts recognized methods to generate plausible and naturally-sounding code-switched utterances and uses them to create a synthetic code-switched test set. Based on experiments, we report that the state-of-the-art NLU models are unable to handle code-switching. At worst, the performance, evaluated by semantic accuracy, drops as low as 15\% from 80\% across languages. Further we show, that pre-training on synthetic code-mixed data helps to maintain performance on the proposed test set at a comparable level with monolingual data. Finally, we analyze different language pairs and show that the closer the languages are, the better the NLU model handles their alternation. This is in line with the common understanding of how multilingual models conduct transferring between languages
翻訳日:2021-09-30 19:22:41 公開日:2021-09-29
# (参考訳) 多言語ファクトリンク [全文訳有]

Multilingual Fact Linking ( http://arxiv.org/abs/2109.14364v1 )

ライセンス: CC BY 4.0
Keshav Kolluru, Martin Rezk, Pat Verga, William Cohen and Partha Talukdar(参考訳) 知識集約型NLPタスクは、自然言語テキストと知識グラフ(KG)の事実をリンクする利点がある。 事実そのものは言語に依存しないが、KGの事実ラベル(すなわち、事実の言語固有の表現)はいくつかの言語にのみ存在する。 これにより、限られた言語のセット以外の言語の文にKG事実をリンクすることは困難になる。 この問題に対処するために,KGの事実ラベルが文の言語で利用できない場合でも,KGで表現された事実と対応する事実とをリンクさせることが目的であるMFL(Multilingual Fact Linking)の課題を紹介する。 この領域の研究を容易にするために、新しい評価データセットIndicLinkを提案する。 このデータセットには11,293件のウィキデータ事実と、英語と6つのインド語にまたがる6,429の文が含まれている。 本稿では,デュアルエンコーダに基づく検索と,有効なkg事実のみを出力するように制約されたseq2seqベースの生成モデルを組み合わせた検索+生成モデルrefcogを提案する。 ReFCoGはPrecision@1で10.7 ptsの標準Retrieval+Re-levelモデルを上回っている。 この利益にもかかわらず、このモデルは52.1の総合スコアを達成し、task.refcogコードとindiclinkデータはhttps://github.com/s aikeshav/mflで利用可能である。

Knowledge-intensive NLP tasks can benefit from linking natural language text with facts from a Knowledge Graph (KG). Although facts themselves are language-agnostic, the fact labels (i.e., language-specific representation of the fact) in the KG are often present only in a few languages. This makes it challenging to link KG facts to sentences in languages other than the limited set of languages. To address this problem, we introduce the task of Multilingual Fact Linking (MFL) where the goal is to link fact expressed in a sentence to corresponding fact in the KG, even when the fact label in the KG is not available in the language of the sentence. To facilitate research in this area, we present a new evaluation dataset, IndicLink. This dataset contains 11,293 linked WikiData facts and 6,429 sentences spanning English and six Indian languages. We propose a Retrieval+Generation model, ReFCoG, that can scale to millions of KG facts by combining Dual Encoder based retrieval with a Seq2Seq based generation model which is constrained to output only valid KG facts. ReFCoG outperforms standard Retrieval+Re-ranking models by 10.7 pts in Precision@1. In spite of this gain, the model achieves an overall score of 52.1, showing ample scope for improvement in the task.ReFCoG code and IndicLink data are available at https://github.com/S aiKeshav/mfl
翻訳日:2021-09-30 19:04:42 公開日:2021-09-29
# (参考訳) EdinSaar@WMT21:北ドイツ低資源多言語NTT [全文訳有]

EdinSaar@WMT21: North-Germanic Low-Resource Multilingual NMT ( http://arxiv.org/abs/2109.14368v1 )

ライセンス: CC BY-SA 4.0
Svetlana Tchistiakova, Jesujoba Alabi, Koel Dutta Chowdhury, Sourav Dutta and Dana Ruiter(参考訳) 我々は,第6回機械翻訳会議(WMT2021)において,北ゲルマン語用多言語低リソース翻訳の共通タスクに対するEdinSaarの提出について述べる。 我々はアイスランド語(is)、ノルウェー語(nb)、スウェーデン語(sv)への翻訳のための多言語翻訳モデルを提出する。 我々は,多言語事前学習,逆翻訳,微調整,アンサンブルなど,様々な実験手法を用いている。 ほとんどの翻訳方向では、我々のモデルは他の提出されたシステムより優れている。

We describe the EdinSaar submission to the shared task of Multilingual Low-Resource Translation for North Germanic Languages at the Sixth Conference on Machine Translation (WMT2021). We submit multilingual translation models for translations to/from Icelandic (is), Norwegian-Bokmal (nb), and Swedish (sv). We employ various experimental approaches, including multilingual pre-training, back-translation, fine-tuning, and ensembling. In most translation directions, our models outperform other submitted systems.
翻訳日:2021-09-30 18:49:24 公開日:2021-09-29
# (参考訳) フェアネス駆動型プライベートコラボレーティブ機械学習 [全文訳有]

Fairness-Driven Private Collaborative Machine Learning ( http://arxiv.org/abs/2109.14376v1 )

ライセンス: CC BY 4.0
Dana Pessach, Tamir Tassa, Erez Shmueli(参考訳) 機械学習アルゴリズムのパフォーマンスは、より大きなデータセットでトレーニングすることで大幅に改善される。 医療やファイナンスなどの多くのドメインでは、複数のパーティがそれぞれ限られた量のデータにアクセスし、協力し、データを共有すれば、より大きなデータセットを得ることができる。 しかし、このようなデータ共有は大きなプライバシー問題をもたらす。 近年,プライベート・コラボレーティブ・機械学習の手法が研究されているが,そのようなコラボレーティブ・アルゴリズムの公平性は見過ごされている。 本研究では,協調機械学習アルゴリズムの公平性を高めるための,プライバシ保存前処理機構を提案する。 提案手法による実験により,精度のわずかな妥協だけで,公平性を大幅に向上できることを示す。

The performance of machine learning algorithms can be considerably improved when trained over larger datasets. In many domains, such as medicine and finance, larger datasets can be obtained if several parties, each having access to limited amounts of data, collaborate and share their data. However, such data sharing introduces significant privacy challenges. While multiple recent studies have investigated methods for private collaborative machine learning, the fairness of such collaborative algorithms was overlooked. In this work we suggest a feasible privacy-preserving pre-process mechanism for enhancing fairness of collaborative machine learning algorithms. Our experimentation with the proposed method shows that it is able to enhance fairness considerably with only a minor compromise in accuracy.
翻訳日:2021-09-30 18:36:41 公開日:2021-09-29
# (参考訳) ufo-vit:softmaxのない高性能リニアビジョントランスフォーマー [全文訳有]

UFO-ViT: High Performance Linear Vision Transformer without Softmax ( http://arxiv.org/abs/2109.14382v1 )

ライセンス: CC BY 4.0
Jeong-geun Song(参考訳) ビジョントランスフォーマーはコンピュータビジョンタスクにおいて最も重要なモデルの1つとなっている。 それらは初期の畳み込みネットワークを上回っているが、複雑さは従来の自己追跡アルゴリズムを使用する際の大きな欠点の1つだ。 本稿では,UFO-ViT(Unit Force Operated Vision Trnasformer)を提案する。 ufo-vitは自己着脱による行数をほとんど変更せず、性能の低下を伴わずに線形複雑性を達成する。 提案手法は,画像分類と密集した予測タスクにおいて,ほとんどのトランスフォーマティブモデルに勝っている。

Vision transformers have become one of the most important models for computer vision tasks. While they outperform earlier convolutional networks, the complexity quadratic to $N$ is one of the major drawbacks when using traditional self-attention algorithms. Here we propose the UFO-ViT(Unit Force Operated Vision Trnasformer), novel method to reduce the computations of self-attention by eliminating some non-linearity. Modifying few of lines from self-attention, UFO-ViT achieves linear complexity without the degradation of performance. The proposed models outperform most transformer-based models on image classification and dense prediction tasks through most capacity regime.
翻訳日:2021-09-30 18:20:30 公開日:2021-09-29
# (参考訳) neural knitworks: パッチ付きニューラルネットワーク暗黙表現ネットワーク [全文訳有]

Neural Knitworks: Patched Neural Implicit Representation Networks ( http://arxiv.org/abs/2109.14406v1 )

ライセンス: CC BY 4.0
Mikolaj Czerkawski, Javier Cardona, Robert Atkinson, Craig Michie, Ivan Andonovic, Carmine Clemente, Christos Tachtatzis(参考訳) コーディネートベースのマルチレイヤパーセプトロン(MLP)ネットワークは、ニューラルな暗黙表現を学習できるが、内部画像合成アプリケーションでは動作しない。 畳み込みニューラルネットワーク(CNN)は通常、より大きなモデルに代えて、様々な内部生成タスクに代えて使用される。 本稿では,画像パッチの分散を逆行的に最適化し,パッチ予測間の一貫性を強制することにより画像合成を実現する,自然画像のニューラルネットワークによる暗黙的表現学習のためのアーキテクチャであるneural knitworkを提案する。 我々の知る限りでは、画像の塗布、超解像、復調といった合成作業に適した座標ベースのMLPの実装はこれが初めてである。 これら3つのタスクをトレーニングすることで,提案手法の有用性を実証する。 その結果,ピクセルではなくパッチを用いた自然画像のモデリングにより,忠実度が高い結果が得られた。 結果として得られたモデルは、他のCNNベースのソリューションよりも80%少ないパラメータを必要とする一方で、同等のパフォーマンスとトレーニング時間を達成する。

Coordinate-based Multilayer Perceptron (MLP) networks, despite being capable of learning neural implicit representations, are not performant for internal image synthesis applications. Convolutional Neural Networks (CNNs) are typically used instead for a variety of internal generative tasks, at the cost of a larger model. We propose Neural Knitwork, an architecture for neural implicit representation learning of natural images that achieves image synthesis by optimizing the distribution of image patches in an adversarial manner and by enforcing consistency between the patch predictions. To the best of our knowledge, this is the first implementation of a coordinate-based MLP tailored for synthesis tasks such as image inpainting, super-resolution, and denoising. We demonstrate the utility of the proposed technique by training on these three tasks. The results show that modeling natural images using patches, rather than pixels, produces results of higher fidelity. The resulting model requires 80% fewer parameters than alternative CNN-based solutions while achieving comparable performance and training time.
翻訳日:2021-09-30 18:07:05 公開日:2021-09-29
# (参考訳) PyHard:データ中心分析をサポートするために硬度埋め込みを生成する新しいツール [全文訳有]

PyHard: a novel tool for generating hardness embeddings to support data-centric analysis ( http://arxiv.org/abs/2109.14430v1 )

ライセンス: CC BY 4.0
Pedro Yuri Arbs Paiva, Kate Smith-Miles, Maria Gabriela Valeriano and Ana Carolina Lorena(参考訳) 機械学習(ML)システムを成功させるためには、高品質なデータと十分に調整された学習モデルを持つことが不可欠である。 しかし、データセットの品質を評価するにはどうすればよいのか? そして、データセット上のモデルの強みと弱みをどうやって明らかにできるのか? 我々の新しいツールであるPyHardは、インスタンス空間分析(ISA)と呼ばれる方法論を用いて、複数のMLモデルの予測性能と推定インスタンス硬度メタ機能に関連するデータセットの硬度埋め込みを生成する。 この空間は、観察が分類の難しさについて線形に分布するように構築されている。 ユーザは、この埋め込みを複数の方法で視覚的に操作でき、データセットの個々の観察に従って、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。 我々は,この分析がmlモデルに挑戦し,より綿密に検査する価値のあるハードな観察のポケットの同定と,mlモデルの強みと弱みの領域の明確化にどのように寄与するかを,covid-19の予後データセットで示す。

For building successful Machine Learning (ML) systems, it is imperative to have high quality data and well tuned learning models. But how can one assess the quality of a given dataset? And how can the strengths and weaknesses of a model on a dataset be revealed? Our new tool PyHard employs a methodology known as Instance Space Analysis (ISA) to produce a hardness embedding of a dataset relating the predictive performance of multiple ML models to estimated instance hardness meta-features. This space is built so that observations are distributed linearly regarding how hard they are to classify. The user can visually interact with this embedding in multiple ways and obtain useful insights about data and algorithmic performance along the individual observations of the dataset. We show in a COVID prognosis dataset how this analysis supported the identification of pockets of hard observations that challenge ML models and are therefore worth closer inspection, and the delineation of regions of strengths and weaknesses of ML models.
翻訳日:2021-09-30 17:53:07 公開日:2021-09-29
# (参考訳) 胸部X線分類のためのマルチロスアンサンブル深層学習

Multi-loss ensemble deep learning for chest X-ray classification ( http://arxiv.org/abs/2109.14433v1 )

ライセンス: CC BY 4.0
Sivaramakrishnan Rajaraman, Ghada Zamzmi, Sameer Antani(参考訳) クラス不均衡は、異常なサンプルの数が通常のサンプルの数より少ない医療画像分類タスクにおいて一般的である。 不均衡な分類の難しさは、データセットのサイズや分布といった他の問題によって複合化される。 ディープニューラルネットワークの信頼性の高いトレーニングは、このようなクラス不均衡な状況における大きな課題であり続けている。 ディープニューラルネットワークのトレーニングに使用される損失関数は、バランスの取れたタスクと不均衡なタスクの両方のパフォーマンスに大きな影響を与えます。 現在、クロスエントロピー損失は、バランスと非バランスの分類タスクのデファクト損失関数として残っている。 しかし、この損失は全てのクラスに等しい学習を主張し、ほとんどのサンプルを多数正規クラスとして分類する。 各種の損失関数を分類し, クラス不均衡分類に適したものを特定するために, DLモデルを訓練するための新しい損失関数を提案し, 正常な肺, 肺炎, ウイルス性肺炎の徴候を示すため, 小児胸部X線を分類する多クラス分類設定においてその性能を解析する。 また,様々な損失関数で訓練されたモデルの予測レベルおよびモデルレベルアンサンブルを構築し,分類性能を向上させる。 そこで本研究では,各モデルとそのアンサンブルが,胸部X線をそれぞれのカテゴリに分類するために,病状を示す領域を正確に学習するために,モデル行動の解釈のための局所化研究を行った。

Class imbalance is common in medical image classification tasks, where the number of abnormal samples is fewer than the number of normal samples. The difficulty of imbalanced classification is compounded by other issues such as the size and distribution of the dataset. Reliable training of deep neural networks continues to be a major challenge in such class-imbalanced conditions. The loss function used to train the deep neural networks highly impact the performance of both balanced and imbalanced tasks. Currently, the cross-entropy loss remains the de-facto loss function for balanced and imbalanced classification tasks. This loss, however, asserts equal learning to all classes, leading to the classification of most samples as the majority normal class. To provide a critical analysis of different loss functions and identify those suitable for class-imbalanced classification, we benchmark various state-of-the-art loss functions and propose novel loss functions to train a DL model and analyze its performance in a multiclass classification setting that classifies pediatric chest X-rays as showing normal lungs, bacterial pneumonia, or viral pneumonia manifestations. We also construct prediction-level and model-level ensembles of the models that are trained with various loss functions to improve classification performance. We performed localization studies to interpret model behavior to ensure that the individual models and their ensembles precisely learned the regions of interest showing disease manifestations to classify the chest X-rays to their respective categories.
翻訳日:2021-09-30 17:46:51 公開日:2021-09-29
# (参考訳) 人間計画戦略の自動発見と説明

Automatic discovery and description of human planning strategies ( http://arxiv.org/abs/2109.14493v1 )

ライセンス: CC BY 4.0
Julian Skirzynski, Yash Raj Jain, Falk Lieder(参考訳) 科学的発見は、データ内のパターンを見つけ出し、これらのパターンを説明する洞察に富んだ仮説を作成することを懸念する。 しかし人工知能(AI)の進歩によって、科学的な発見の一部を自動化することが可能になった。 この作業では、人間の計画を理解するために戦略発見にAIを活用します。 最先端の手法では、人間の計画の過程に関するデータは、しばしば類似した行動をグループ化し、それらの集団の根底にあるであろう戦略の言葉による記述を定式化するために用いられる。 ここではこの2つのステップを自動化します。 我々のアルゴリズムはHuman-Interpretと呼ばれ、擬似学習を用いて、マウスラブMDPパラダイムを用いた心理学実験で収集されたプロセストレースデータを記述する。 そして、事前に定義された述語辞書を使って、その公式を自然言語に変換する。 我々は,これまで研究者が手動で調べてきたベンチマークデータセットを用いて,本手法を検証した。 得られた人的計画戦略の記述は、人為的な記述とほぼ同程度に理解できる。 また、手動で発見されたあらゆる種類の人間の計画戦略のかなりの割合をカバーしている。 人間の計画に関するすべての推論が自動的に行われるので、この手法は科学者の時間と労力を節約します。 これにより、未発見の認知戦略を多くの新しい意思決定環境、人口、タスク、ドメインに、より迅速にスケールアップすることが可能になります。 これらの結果を踏まえると,本研究は心理学における科学的発見を加速する可能性があり,その一般性から他の分野の問題にまで及ぶと考えられる。

Scientific discovery concerns finding patterns in data and creating insightful hypotheses that explain these patterns. Traditionally, this process required human ingenuity, but with the galloping advances in artificial intelligence (AI) it becomes feasible to automate some parts of scientific discovery. In this work we leverage AI for strategy discovery for understanding human planning. In the state-of-the-art methods data about the process of human planning is often used to group similar behaviors together and formulate verbal descriptions of the strategies which might underlie those groups. Here, we automate these two steps. Our algorithm, called Human-Interpret, uses imitation learning to describe process-tracing data collected in psychological experiments with the Mouselab-MDP paradigm in terms of a procedural formula. Then, it translates that formula to natural language using a pre-defined predicate dictionary. We test our method on a benchmark data set that researchers have previously scrutinized manually. We find that the descriptions of human planning strategies obtained automatically are about as understandable as human-generated descriptions. They also cover a substantial proportion of all types of human planning strategies that had been discovered manually. Our method saves scientists' time and effort as all the reasoning about human planning is done automatically. This might make it feasible to more rapidly scale up the search for yet undiscovered cognitive strategies to many new decision environments, populations, tasks, and domains. Given these results, we believe that the presented work may accelerate scientific discovery in psychology, and due to its generality, extend to problems from other fields.
翻訳日:2021-09-30 17:45:51 公開日:2021-09-29
# (参考訳) pac-bayes情報ボトルネック [全文訳有]

PAC-Bayes Information Bottleneck ( http://arxiv.org/abs/2109.14509v1 )

ライセンス: CC BY 4.0
Zifeng Wang, Shao-Lun Huang, Ercan E. Kuruoglu, Jimeng Sun, Xi Chen, Yefeng Zheng(参考訳) 情報ボトルネック(ib)は、符号化表現の正確性と簡潔さの間のトレードオフを描いている。 IBは、ニューラルネットワーク(NN)の目的と行動の説明と、より良い表現の学習に成功した。 しかし、いまだにIBの普遍性に対する批判があり、例えば、相転移は通常消え、表現圧縮は一般化とは因果関係がなく、IBは決定論的ケースでは自明である。 本研究では,学習したNNの重み付けの精度と複雑さのトレードオフに基づいて,新しいICBを構築する。 我々は、重みに格納された情報がPAC-Bayes一般化能力に束縛されているため、この新たなISBはNNの目的に対するより確かな接続であり、PAC-Bayes IB(PIB)と命名する。 PIBでは、一般に位相遷移現象を同定し、圧縮と一般化の因果関係を固化することができる。 次に,pibの抽出可能な解を導出し,マルコフ連鎖モンテカルロサンプリングによる確率的推論アルゴリズムを設計する。 我々は広範囲な実験を通じて自らの主張を実証する。 また,提案アルゴリズムの優れたNN訓練における優位性についても検証した。

Information bottleneck (IB) depicts a trade-off between the accuracy and conciseness of encoded representations. IB has succeeded in explaining the objective and behavior of neural networks (NNs) as well as learning better representations. However, there are still critics of the universality of IB, e.g., phase transition usually fades away, representation compression is not causally related to generalization, and IB is trivial in deterministic cases. In this work, we build a new IB based on the trade-off between the accuracy and complexity of learned weights of NNs. We argue that this new IB represents a more solid connection to the objective of NNs since the information stored in weights bounds their PAC-Bayes generalization capability, hence we name it as PAC-Bayes IB (PIB). On PIB, we can identify the phase transition phenomenon in general cases and solidify the causality between compression and generalization. We then derive a tractable solution of PIB and design a stochastic inference algorithm by Markov chain Monte Carlo sampling. We empirically verify our claims through extensive experiments. We also substantiate the superiority of the proposed algorithm on training better NNs.
翻訳日:2021-09-30 17:44:42 公開日:2021-09-29
# (参考訳) モデル不確実性を考慮したオンラインロバスト強化学習

Online Robust Reinforcement Learning with Model Uncertainty ( http://arxiv.org/abs/2109.14523v1 )

ライセンス: CC BY 4.0
Yue Wang, Shaofeng Zou(参考訳) ロバスト強化学習(RL)は、不確実なMDPに対して最悪の性能を最適化する政策を見つけることである。 本稿では,モデルのないロバストなRLに着目し,不確実性集合は単一標本軌道を逐次生成する不特定MDPを中心に定義され,不確実性は未知であると考えられる。 未知の不確実性集合を推定するサンプルベースアプローチを開発し、オンラインおよびインクリメンタルな方法で実装可能な、堅牢なQ-ラーニングアルゴリズム(タブラルケース)とロバストなTDCアルゴリズム(関数近似設定)を設計する。 頑健なQ-ラーニングアルゴリズムでは、最適なロバストQ関数に収束することが証明され、ロバストなTDCアルゴリズムでは、漸近的に静止点に収束することが証明される。 roy et al., 2017の結果とは異なり、我々のアルゴリズムは収束を保証するためにディスカウント係数に関する追加条件を必要としない。 さらに、2つのアルゴリズムの有限時間誤差境界を特徴づけ、ロバストなQ-ラーニングアルゴリズムとロバストなTDCアルゴリズムの両方がバニラアルゴリズムと同等の速度で収束することを示した。 我々の数値実験は、我々のアルゴリズムの堅牢性をさらに証明している。 我々のアプローチは、TD、SARSA、その他のGTDアルゴリズムなど、他の多くのアルゴリズムを堅牢化するために容易に拡張できる。

Robust reinforcement learning (RL) is to find a policy that optimizes the worst-case performance over an uncertainty set of MDPs. In this paper, we focus on model-free robust RL, where the uncertainty set is defined to be centering at a misspecified MDP that generates a single sample trajectory sequentially and is assumed to be unknown. We develop a sample-based approach to estimate the unknown uncertainty set and design a robust Q-learning algorithm (tabular case) and robust TDC algorithm (function approximation setting), which can be implemented in an online and incremental fashion. For the robust Q-learning algorithm, we prove that it converges to the optimal robust Q function, and for the robust TDC algorithm, we prove that it converges asymptotically to some stationary points. Unlike the results in [Roy et al., 2017], our algorithms do not need any additional conditions on the discount factor to guarantee the convergence. We further characterize the finite-time error bounds of the two algorithms and show that both the robust Q-learning and robust TDC algorithms converge as fast as their vanilla counterparts(within a constant factor). Our numerical experiments further demonstrate the robustness of our algorithms. Our approach can be readily extended to robustify many other algorithms, e.g., TD, SARSA, and other GTD algorithms.
翻訳日:2021-09-30 17:22:15 公開日:2021-09-29
# (参考訳) マルチモード遅延ランダム化による野生の視覚誘導四足歩行 [全文訳有]

Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay Randomization ( http://arxiv.org/abs/2109.14549v1 )

ライセンス: CC0 1.0
Chieko Sarah Imai, Minghao Zhang, Yuchen Zhang, Marcin Kierebinski, Ruihan Yang, Yuzhe Qin, Xiaolong Wang(参考訳) 複雑な環境で四足歩行ロボットのためのロバストな視覚誘導コントローラーの開発は、様々な障害物、ダイナミックな周囲、不均一な地形を持つ、非常に困難である。 強化学習(rl)は、シミュレーションで視覚入力を含むアジャイルロコモーションスキルに有望なパラダイムを提供するが、現実の世界にrlポリシーを展開することは依然として非常に難しい。 私たちの重要な洞察は、ドメインギャップの相違を除いて、シミュレーションと実世界の視覚的な外観において、制御パイプラインからの遅延も大きな困難の原因であるということです。 本稿では,Multi-Modal Delay Randomization (MMDR)を提案する。 具体的には,実ハードウェアの遅延をランダムにサンプリングした過去の観測結果を用いてシミュレートし,固有感覚と視覚の両方を再現する。 我々は、予め定義されたコントローラや参照動作を使わずに、物理シミュレータのエンドツーエンド制御のためのRLポリシーをトレーニングし、実のA1四足歩行ロボットに直接展開する。 複雑な地形や障害物のある異なる屋外環境において,提案手法を評価する。 ロボットが高速でスムーズに動き、障害物を回避し、ベースラインよりも大幅に改善できることを実証する。 ビデオ付きプロジェクトページはhttps://mehooz.githu b.io/mmdr-wild/。

Developing robust vision-guided controllers for quadrupedal robots in complex environments, with various obstacles, dynamical surroundings and uneven terrains, is very challenging. While Reinforcement Learning (RL) provides a promising paradigm for agile locomotion skills with vision inputs in simulation, it is still very challenging to deploy the RL policy in the real world. Our key insight is that aside from the discrepancy in the domain gap, in visual appearance between the simulation and the real world, the latency from the control pipeline is also a major cause of difficulty. In this paper, we propose Multi-Modal Delay Randomization (MMDR) to address this issue when training RL agents. Specifically, we simulate the latency of real hardware by using past observations, sampled with randomized periods, for both proprioception and vision. We train the RL policy for end-to-end control in a physical simulator without any predefined controller or reference motion, and directly deploy it on the real A1 quadruped robot running in the wild. We evaluate our method in different outdoor environments with complex terrains and obstacles. We demonstrate the robot can smoothly maneuver at a high speed, avoid the obstacles, and show significant improvement over the baselines. Our project page with videos is at https://mehooz.githu b.io/mmdr-wild/.
翻訳日:2021-09-30 17:20:48 公開日:2021-09-29
# (参考訳) 雑音ラベル学習のためのロバストな時間感覚 [全文訳有]

Robust Temporal Ensembling for Learning with Noisy Labels ( http://arxiv.org/abs/2109.14563v1 )

ライセンス: CC BY 4.0
Abel Brown, Benedikt Schifferer, Robert DiPietro(参考訳) ノイズラベル付きディープニューラルネットワークのトレーニングの成功は、ほとんどの実世界のデータセットには、ある程度のラベル付きデータが含まれているため、必須の機能である。 ラベルノイズは、通常の教師付き学習アプローチを著しく劣化させる。 本稿では,頑健な時間的アンサンブル(RTE)を半教師付き正規化法と組み合わせ,ノイズロス学習を実現する。 CIFAR-10, CIFAR-100, ImageNet, WebVision, およびFood-101Nデータセットにまたがって, 近年のラベルフィルタリングや修正の傾向を推し進めながら, 最先端のパフォーマンスを実現することを実証した。 最後に,RTEはCIFAR-10-Cを用いた入力ノイズに対する競合汚損強度を保ち,80%のノイズ比であっても平均汚損誤差(mCE)が13.50%となるのに対して,26.9% mCEはクリーンデータに対する標準的な手法であることを示す。

Successful training of deep neural networks with noisy labels is an essential capability as most real-world datasets contain some amount of mislabeled data. Left unmitigated, label noise can sharply degrade typical supervised learning approaches. In this paper, we present robust temporal ensembling (RTE), which combines robust loss with semi-supervised regularization methods to achieve noise-robust learning. We demonstrate that RTE achieves state-of-the-art performance across the CIFAR-10, CIFAR-100, ImageNet, WebVision, and Food-101N datasets, while forgoing the recent trend of label filtering and/or fixing. Finally, we show that RTE also retains competitive corruption robustness to unforeseen input noise using CIFAR-10-C, obtaining a mean corruption error (mCE) of 13.50% even in the presence of an 80% noise ratio, versus 26.9% mCE with standard methods on clean data.
翻訳日:2021-09-30 16:59:21 公開日:2021-09-29
# (参考訳) クラウドベースのマイクロサービスの分割(ディープラーニングによる) [全文訳有]

Partitioning Cloud-based Microservices (via Deep Learning) ( http://arxiv.org/abs/2109.14569v1 )

ライセンス: CC BY 4.0
Rahul Yedida, Rahul Krishna, Anup Kalia, Tim Menzies, Jin Xiao, Maja Vukovic(参考訳) クラウドベースのソフトウェアには多くの利点がある。 サービスが多くの独立したコンポーネントに分割されると、更新が容易になります。 また、ピーク時の需要では、クラウドサービスのスケーリングが簡単になる(CPUを増やせばよい)。 そのため、モノリシックなエンタープライズアプリケーションをクラウドベースのマイクロサービスに分割している組織は多い。 最近、このパーティショニングタスクを単純化するために機械学習を使った作業が数多く行われている。 多くの研究にもかかわらず、一般的なものとして単一の分割法は推奨できない。 より具体的には、これらの以前のソリューションは"脆い';すなわち、1つのデータセットの1つの目標に対してうまく機能するなら、多くのデータセットや複数の目標に適用すれば、サブ最適となる。 一般に有用なパーティショニング方法を見つけるために,我々は深く提案する。 このアルゴリズムはCO-GCN深層学習分割生成器を拡張する (a)新規損失機能、及び (b)ハイパーパラメータの最適化。 私たちの実験で示されているように、DEEPLYは一般的に、複数のデータセットや目標に対して以前の作業(CO-GCNなど)より優れています。 我々の知る限りでは、このような安定なハイパーパラメータ最適化のSEにおける最初のレポートである。 この作業の再利用を支援するために、https://bit.ly/2whff lb.com/で深くオンラインで利用できる。

Cloud-based software has many advantages. When services are divided into many independent components, they are easier to update. Also, during peak demand, it is easier to scale cloud services (just hire more CPUs). Hence, many organizations are partitioning their monolithic enterprise applications into cloud-based microservices. Recently there has been much work using machine learning to simplify this partitioning task. Despite much research, no single partitioning method can be recommended as generally useful. More specifically, those prior solutions are "brittle''; i.e. if they work well for one kind of goal in one dataset, then they can be sub-optimal if applied to many datasets and multiple goals. In order to find a generally useful partitioning method, we propose DEEPLY. This new algorithm extends the CO-GCN deep learning partition generator with (a) a novel loss function and (b) some hyper-parameter optimization. As shown by our experiments, DEEPLY generally outperforms prior work (including CO-GCN, and others) across multiple datasets and goals. To the best of our knowledge, this is the first report in SE of such stable hyper-parameter optimization. To aid reuse of this work, DEEPLY is available on-line at https://bit.ly/2WhfF lB.
翻訳日:2021-09-30 16:36:31 公開日:2021-09-29
# (参考訳) 混乱行列とキャリブレーションによる人間の予測とモデル確率の組合せ [全文訳有]

Combining Human Predictions with Model Probabilities via Confusion Matrices and Calibration ( http://arxiv.org/abs/2109.14591v1 )

ライセンス: CC BY 4.0
Gavin Kerrigan, Padhraic Smyth, Mark Steyvers(参考訳) 機械学習モデルの一般的なユースケースは、人間の意思決定者の能力を高めることだ。 人間やモデルが完全に正確でない分類タスクでは、高いパフォーマンスを得るための重要なステップは、相対的な強度を活用する方法で個々の予測を組み合わせることである。 本研究では,モデルの確率的出力と人間のクラスレベルの出力を組み合わせたアルゴリズムの開発を行う。 理論的には、組み合わせモデルの精度は、個々の人間とモデルの精度だけでなく、モデルの自信によっても駆動される。 CIFAR-10とImageNetのサブセットによる画像分類に関する実証的な結果は、そのようなモデルとモデルの組み合わせはモデルや人間単独よりも一貫して精度が高く、組み合わせ手法のパラメータは10個のラベル付きデータポイントで効果的に推定できることを示している。

An increasingly common use case for machine learning models is augmenting the abilities of human decision makers. For classification tasks where neither the human or model are perfectly accurate, a key step in obtaining high performance is combining their individual predictions in a manner that leverages their relative strengths. In this work, we develop a set of algorithms that combine the probabilistic output of a model with the class-level output of a human. We show theoretically that the accuracy of our combination model is driven not only by the individual human and model accuracies, but also by the model's confidence. Empirical results on image classification with CIFAR-10 and a subset of ImageNet demonstrate that such human-model combinations consistently have higher accuracies than the model or human alone, and that the parameters of the combination method can be estimated effectively with as few as ten labeled datapoints.
翻訳日:2021-09-30 16:18:23 公開日:2021-09-29
# (参考訳) メタ学習のための一般化境界:情報理論解析 [全文訳有]

Generalization Bounds For Meta-Learning: An Information-Theoreti c Analysis ( http://arxiv.org/abs/2109.14595v1 )

ライセンス: CC BY 4.0
Qi Chen, Changjian Shui, Mario Marchand(参考訳) メタラーニングアルゴリズムの一般化特性に関する新しい情報理論解析を導出する。 具体的には,従来の学習-学習フレームワークと,モデル非依存型メタ学習(maml)アルゴリズムの共通理解を提案する。 さらに,MAMLの確率的変種に対するデータ依存の一般化も提案する。 勾配の正方形ノルムに依存する以前の境界と比較して、シミュレーションデータとよく知られた数ショットベンチマークの両方の実証的検証は、我々の境界がほとんどの状況で桁違いにタイトであることを示している。

We derive a novel information-theoreti c analysis of the generalization property of meta-learning algorithms. Concretely, our analysis proposes a generic understanding of both the conventional learning-to-learn framework and the modern model-agnostic meta-learning (MAML) algorithms. Moreover, we provide a data-dependent generalization bound for a stochastic variant of MAML, which is non-vacuous for deep few-shot learning. As compared to previous bounds that depend on the square norm of gradients, empirical validations on both simulated data and a well-known few-shot benchmark show that our bound is orders of magnitude tighter in most situations.
翻訳日:2021-09-30 15:34:48 公開日:2021-09-29
# 音声合成学習の副産物として携帯電話, 音節, 単語が出現するか? --計算による調査

Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? -- A computational investigation ( http://arxiv.org/abs/2109.14200v1 )

ライセンス: Link先を確認
Khazar Khorrami, Okko R\"as\"anen(参考訳) 言語学習の幼児は、音声の識別、単語のセグメント化、単語の意味の関連付けを学習する。 このような能力の段階的な発達は疑わしいが、これらのスキルの正確な性質と根底にある精神的表現はまだ不明である。 並行して、計算学的研究により、音声と同時参照的曖昧な視覚入力の間の統計的学習により、音声の基本的理解が達成できることが示されている。 これらのモデルは、言語単位の表現のような事前の言語知識がなく、特にそのような単位をターゲットとした学習メカニズムも持たない。 このことは、音素、音節、単語などの言語単位の知識が、実際に、他のモダリティにおける音声と表現間の翻訳をサポートする潜在表現として出現し、学習者の学習目標に近づかないかどうかという疑問を提起している。 本研究では,この概念をいわゆる潜在言語仮説(llh)として定式化し,言語表現学習と知覚モダリティ内外の一般的な予測処理を結びつける。 LLHのオーディオ視覚的側面が既存の計算研究によって支持されている範囲を概観する。 次に,視聴覚横断学習のための異なるニューラルネットワークモデルを用いた大規模学習シミュレーションを行い,合成音声と実音声データとの学習の比較を行った。 本研究は,言語選択性や時間特性に関連する相補的評価指標を用いて,入力音声の音声的,音韻的,語彙的,語彙的構造を反映しているか否かを検討する。 その結果、表現が関連付けられていることがわかった。

Decades of research has studied how language learning infants learn to discriminate speech sounds, segment words, and associate words with their meanings. While gradual development of such capabilities is unquestionable, the exact nature of these skills and the underlying mental representations yet remains unclear. In parallel, computational studies have shown that basic comprehension of speech can be achieved by statistical learning between speech and concurrent referentially ambiguous visual input. These models can operate without prior linguistic knowledge such as representations of linguistic units, and without learning mechanisms specifically targeted at such units. This has raised the question of to what extent knowledge of linguistic units, such as phone(me)s, syllables, and words, could actually emerge as latent representations supporting the translation between speech and representations in other modalities, and without the units being proximal learning targets for the learner. In this study, we formulate this idea as the so-called latent language hypothesis (LLH), connecting linguistic representation learning to general predictive processing within and across sensory modalities. We review the extent that the audiovisual aspect of LLH is supported by the existing computational studies. We then explore LLH further in extensive learning simulations with different neural network models for audiovisual cross-situational learning, and comparing learning from both synthetic and real speech data. We investigate whether the latent representations learned by the networks reflect phonetic, syllabic, or lexical structure of input speech by utilizing an array of complementary evaluation metrics related to linguistic selectivity and temporal characteristics of the representations. As a result, we find that representations associated...
翻訳日:2021-09-30 15:05:08 公開日:2021-09-29
# ダブルq学習における推定バイアスについて

On the Estimation Bias in Double Q-Learning ( http://arxiv.org/abs/2109.14419v1 )

ライセンス: Link先を確認
Zhizhou Ren, Guangxiang Zhu, Hao Hu, Beining Han, Jianglun Chen, Chongjie Zhang(参考訳) ダブルQ-ラーニングは、ベルマン演算において最大推定値を取ることによって生じる過大評価バイアスを低減する古典的な方法である。 深層q学習パラダイムにおけるその変種は、信頼性の高い価値予測と学習性能の向上に大きな期待を示している。 しかしながら、先行研究で示されているように、ダブルq学習は完全に偏りがなく、過小評価バイアスに苦しむ。 本稿では,そのような過小評価バイアスがベルマン作用素の下で複数の最適でない不動点をもたらすことを示す。 非最適定常解への収束の懸念に対処するために,二重q-learningにおける過大評価バイアスに対する部分的修正として,単純かつ効果的なアプローチを提案する。 このアプローチは、ターゲット値のバウンドに近似動的プログラミングを利用する。 Atariベンチマークタスクにおいて提案手法を広範囲に評価し,ベースラインアルゴリズムよりも大幅に改善したことを示す。

Double Q-learning is a classical method for reducing overestimation bias, which is caused by taking maximum estimated values in the Bellman operation. Its variants in the deep Q-learning paradigm have shown great promise in producing reliable value prediction and improving learning performance. However, as shown by prior work, double Q-learning is not fully unbiased and suffers from underestimation bias. In this paper, we show that such underestimation bias may lead to multiple non-optimal fixed points under an approximated Bellman operator. To address the concerns of converging to non-optimal stationary solutions, we propose a simple but effective approach as a partial fix for the underestimation bias in double Q-learning. This approach leverages an approximate dynamic programming to bound the target value. We extensively evaluate our proposed method in the Atari benchmark tasks and demonstrate its significant improvement over baseline algorithms.
翻訳日:2021-09-30 15:04:21 公開日:2021-09-29
# 分散学習の理論に向けて

Towards a theory of out-of-distribution learning ( http://arxiv.org/abs/2109.14501v1 )

ライセンス: Link先を確認
Ali Geisa, Ronak Mehta, Hayden S. Helm, Jayanta Dey, Eric Eaton, Carey E. Priebe, Joshua T. Vogelstein(参考訳) 学習とは何か? 20世紀の学習理論の形式化 - 人工知能の革命を沈降させた -- は、主に、トレーニングデータが評価分布と同じ分布からサンプル化されているという仮定の下で学習することに焦点を当てている。 この仮定は、21$^{st}$センチュリー実世界データ問題の特徴付けに不適当であり、これは典型的には、トレーニングデータ分布と異なる評価分布(分散学習と呼ばれる)によって特徴づけられる。 そこで我々は,その仮定を緩和することにより,学習可能性の形式的定義に小さな変更を加える。 次に、学習者が与えられた問題に対してデータを活用することができる量を、それが分配問題であるかどうかに関わらず定量化するために、 \textbf{learning efficiency} (le)を導入する。 次に、学習可能性の一般化された概念間の関係を定義し、証明し、このフレームワークがトランスファー、マルチタスク、メタ、継続学習、生涯学習を特徴付けるのに十分一般的であることを示す。 この統一が実世界の問題における経験的実践と理論的指導の間のギャップを埋めるのに役立つことを願っている。 最後に、生物学習は特定のOOD課題において機械学習アルゴリズムよりも優れ続けているため、このフレームワークが生物学的学習を形式化する能力の限界について論じ、今後の研究のために複数の道が提案される。

What is learning? 20 century formalizations of learning theory -- which precipitated revolutions in artificial intelligence -- focus primarily on \textit{in-distribution} learning, that is, learning under the assumption that the training data are sampled from the same distribution as the evaluation distribution. This assumption renders these theories inadequate for characterizing 21$^{st}$ century real world data problems, which are typically characterized by evaluation distributions that differ from the training data distributions (referred to as out-of-distribution learning). We therefore make a small change to existing formal definitions of learnability by relaxing that assumption. We then introduce \textbf{learning efficiency} (LE) to quantify the amount a learner is able to leverage data for a given problem, regardless of whether it is an in- or out-of-distribution problem. We then define and prove the relationship between generalized notions of learnability, and show how this framework is sufficiently general to characterize transfer, multitask, meta, continual, and lifelong learning. We hope this unification helps bridge the gap between empirical practice and theoretical guidance in real world problems. Finally, because biological learning continues to outperform machine learning algorithms on certain OOD challenges, we discuss the limitations of this framework vis-\'a-vis its ability to formalize biological learning, suggesting multiple avenues for future research.
翻訳日:2021-09-30 15:04:08 公開日:2021-09-29
# 顔認識システムに対する輝度非依存な逆例について

On Brightness Agnostic Adversarial Examples Against Face Recognition Systems ( http://arxiv.org/abs/2109.14205v1 )

ライセンス: Link先を確認
Inderjeet Singh, Satoru Momiyama, Kazuya Kakizaki, Toshinori Araki(参考訳) 本稿では,顔認識システム(frss)に対する新しい逆例生成手法を提案する。 逆例(英: adversarial example, AX)とは、ターゲットシステムによる誤った予測を意図的に生成した画像である。 本手法で生成した軸は実世界の明るさ変化でも頑健なままである。 本手法は,攻撃生成過程におけるカリキュラム学習の概念を活用しつつ,非線形輝度変換を行う。 本手法は,デジタル・物理分野における総合的な実験研究で従来の手法よりも優れていることを示す。 さらに、この方法により、明るさ非依存のAXに対するFRSの実用的リスク評価が可能となる。

This paper introduces a novel adversarial example generation method against face recognition systems (FRSs). An adversarial example (AX) is an image with deliberately crafted noise to cause incorrect predictions by a target system. The AXs generated from our method remain robust under real-world brightness changes. Our method performs non-linear brightness transformations while leveraging the concept of curriculum learning during the attack generation procedure. We demonstrate that our method outperforms conventional techniques from comprehensive experimental investigations in the digital and physical world. Furthermore, this method enables practical risk assessment of FRSs against brightness agnostic AXs.
翻訳日:2021-09-30 15:03:43 公開日:2021-09-29
# 道路網による細粒度都市交通流推定

Road Network Guided Fine-Grained Urban Traffic Flow Inference ( http://arxiv.org/abs/2109.14251v1 )

ライセンス: Link先を確認
Lingbo Liu and Mengmeng Liu and Guanbin Li and Ziyi Wu and Liang Lin(参考訳) 粗粒のトラフィックフローの正確な推定は、コスト削減のためのトラフィック監視センサーの数を大幅に削減する上で、ますます重要な問題である。 本研究は,道路網と交通流の相関性が高いことに着目し,従来の道路網の外部要因として完全に無視されたり,単に扱われていたりする。 この問題を解決するために,道路網の先行知識を明示的に活用し,詳細な交通流の空間分布を学習する新しい道路対応交通流磁化器(RATFM)を提案する。 具体的には,道路ネットワークの意味的特徴を抽出するために,まず多方向1次元畳み込み層を導入する。 次に,道路網の特徴と粗粒流の特徴を取り入れ,道路関連交通の流れの短距離空間分布モデルを定式化する。 さらに,道路網の特徴を問合せとして,トランスフォーマーアーキテクチャを用いて交通流の長距離空間分布を抽出する。 本手法は道路認識推論機構を利用して,高品質な交通流図を作成できる。 3つの実世界のデータセットに対する大規模な実験により、提案されたRATFMは様々なシナリオ下で最先端のモデルより優れていることが示された。

Accurate inference of fine-grained traffic flow from coarse-grained one is an emerging yet crucial problem, which can help greatly reduce the number of traffic monitoring sensors for cost savings. In this work, we notice that traffic flow has a high correlation with road network, which was either completely ignored or simply treated as an external factor in previous works. To facilitate this problem, we propose a novel Road-Aware Traffic Flow Magnifier (RATFM) that explicitly exploits the prior knowledge of road networks to fully learn the road-aware spatial distribution of fine-grained traffic flow. Specifically, a multi-directional 1D convolutional layer is first introduced to extract the semantic feature of the road network. Subsequently, we incorporate the road network feature and coarse-grained flow feature to regularize the short-range spatial distribution modeling of road-relative traffic flow. Furthermore, we take the road network feature as a query to capture the long-range spatial distribution of traffic flow with a transformer architecture. Benefiting from the road-aware inference mechanism, our method can generate high-quality fine-grained traffic flow maps. Extensive experiments on three real-world datasets show that the proposed RATFM outperforms state-of-the-art models under various scenarios.
翻訳日:2021-09-30 15:03:36 公開日:2021-09-29
# テーブルテニスにおける細粒度動作分類とセグメンテーションのための3ストリーム3D/1DCNN

Three-Stream 3D/1D CNN for Fine-Grained Action Classification and Segmentation in Table Tennis ( http://arxiv.org/abs/2109.14306v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin (MPI-EVA), Jenny Benois-Pineau (UB), Renaud P\'eteri (MIA), Julien Morlier (UB)(参考訳) 本稿では,スポーツにおける微粒なアクション分類のための時空間的・時間的畳み込みを伴う3ストリームネットワークを通じてビデオから抽出したモダリティの融合手法を提案する。 TTStroke-21データセットに適用され、テーブルテニスゲームの未トリミングビデオで構成されている。 ゴールは、ビデオ中のテーブルテニスストロークを検出して分類することであり、プレイヤーにパフォーマンスを改善するためのフィードバックを提供することを目的とした、より大きなスキームの第一歩である。 3つのモードは生のRGBデータ、計算された光学フロー、プレイヤーの推定ポーズである。 ネットワークは、注意ブロックを持つ3つのブランチで構成される。 機能は、双線形層を使用してネットワークの最新バージョンで融合される。 従来のアプローチと比較すると、3つのモダリティを用いることで、時間境界が既知のストロークの分類と関節分割と分類という、両方のタスクにおけるより高速な収束とより良いパフォーマンスが可能になる。 また、選手に対してよりリッチなフィードバックを提供するため、姿勢をさらに調査する。

This paper proposes a fusion method of modalities extracted from video through a three-stream network with spatio-temporal and temporal convolutions for fine-grained action classification in sport. It is applied to TTStroke-21 dataset which consists of untrimmed videos of table tennis games. The goal is to detect and classify table tennis strokes in the videos, the first step of a bigger scheme aiming at giving feedback to the players for improving their performance. The three modalities are raw RGB data, the computed optical flow and the estimated pose of the player. The network consists of three branches with attention blocks. Features are fused at the latest stage of the network using bilinear layers. Compared to previous approaches, the use of three modalities allows faster convergence and better performances on both tasks: classification of strokes with known temporal boundaries and joint segmentation and classification. The pose is also further investigated in order to offer richer feedback to the athletes.
翻訳日:2021-09-30 15:03:15 公開日:2021-09-29
# コントラスト映像言語セグメンテーション

Contrastive Video-Language Segmentation ( http://arxiv.org/abs/2109.14131v1 )

ライセンス: Link先を確認
Chen Liang, Yawei Luo, Yu Wu and Yi Yang(参考訳) 本稿では,映像コンテンツにおいて自然言語文で参照される特定の対象を分割する問題に着目し,ピンポイント視覚言語関係を定式化する。 既存の試みは主に、グリッドレベルのマルチモーダル特徴融合のような暗黙的な方法でそのような関係を構築するが、このパラダイムの下で意味的に類似したオブジェクトを区別することは問題視されている。 本研究では,参照対象と言語記述を直接調整し,フレーム間を分離するコントラスト学習目標を用いて,視覚的・言語的モダリティを明示的に絡み合わせることを提案する。 さらに,劣化問題を解決するために,言語関連チャネルフィルタと相対的ハードインスタンス構築という2つの補完的ハードインスタンスマイニング戦略を提案する。 彼らは、ネットワークが視覚的に識別可能な機能を除外し、コントラストトレーニング中に難解なオブジェクトに焦点を合わせることを奨励する。 A2D Sentences と J-HMDB Sentences の2つのベンチマークにおいて,本手法の最先端性能を定量的に検証し,ベースライン上の意味論的類似オブジェクトのより正確な区別を定性的に示す。

We focus on the problem of segmenting a certain object referred by a natural language sentence in video content, at the core of formulating a pinpoint vision-language relation. While existing attempts mainly construct such relation in an implicit way, i.e., grid-level multi-modal feature fusion, it has been proven problematic to distinguish semantically similar objects under this paradigm. In this work, we propose to interwind the visual and linguistic modalities in an explicit way via the contrastive learning objective, which directly aligns the referred object and the language description and separates the unreferred content apart across frames. Moreover, to remedy for the degradation problem, we present two complementary hard instance mining strategies, i.e., Language-relevant Channel Filter and Relative Hard Instance Construction. They encourage the network to exclude visual-distinguishab le feature and to focus on easy-confused objects during the contrastive training. Extensive experiments on two benchmarks, i.e., A2D Sentences and J-HMDB Sentences, quantitatively demonstrate the state-of-the-arts performance of our method and qualitatively show the more accurate distinguishment between semantically similar objects over baselines.
翻訳日:2021-09-30 15:02:45 公開日:2021-09-29
# ジョイントスロットモデリングによる対話状態追跡の改善

Improving Dialogue State Tracking by Joint Slot Modeling ( http://arxiv.org/abs/2109.14144v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Yi-Ting Yeh(参考訳) 対話状態追跡モデルはタスク指向対話システムにおいて重要な役割を果たす。 しかし、そのほとんどは入力を条件に独立してスロットタイプをモデル化している。 モデルが同じデータ型を共有するスロットタイプと混同される可能性があることを発見した。 この問題を軽減するために,スロットを共同でモデル化するTripPy-MRFとTripPy-LSTMを提案する。 その結果、上記の混乱を緩和でき、データセットのマルチウォズ2.1を58.7から61.3にプッシュできることがわかった。 私たちの実装はhttps://github.com/c tinray/trippy-jointで利用可能です。

Dialogue state tracking models play an important role in a task-oriented dialogue system. However, most of them model the slot types conditionally independently given the input. We discover that it may cause the model to be confused by slot types that share the same data type. To mitigate this issue, we propose TripPy-MRF and TripPy-LSTM that models the slots jointly. Our results show that they are able to alleviate the confusion mentioned above, and they push the state-of-the-art on dataset MultiWoZ 2.1 from 58.7 to 61.3. Our implementation is available at https://github.com/C TinRay/Trippy-Joint.
翻訳日:2021-09-30 15:02:23 公開日:2021-09-29
# KAUSTにおけるアラビア語知覚分析2021コンペティションの概要

Overview of the Arabic Sentiment Analysis 2021 Competition at KAUST ( http://arxiv.org/abs/2109.14456v1 )

ライセンス: Link先を確認
Hind Alamro, Manal Alshehri, Basma Alharbi, Zuhair Khayyat, Manal Kalkatawi, Inji Ibrahim Jaber, Xiangliang Zhang(参考訳) 本稿では,King Abdullah University of Science and Technology(KAUST)が主催するアラビア語知覚分析チャレンジの概要を紹介する。 この課題の課題は、与えられたツイートをポジティブ、ネガティブ、ニュートラルの3つのカテゴリの1つに分類する機械学習モデルを開発することである。 最近リリースしたASADデータセットから、トレーニング用の55Kツイート、検証用の20Kツイート、参加チームのパフォーマンスをリーダーボードにランク付けするhttps://www.kaggle.c om/c/arabic-sentimen t-analysis-2021-kaus tに基づいて、競合他社に提供します。 この競技会は74チーム(99チーム)から合計1247の応募を受けた。 最終的な勝者は、トレーニングと検証セットと同じ分布を持つ20Kツイートの別のプライベートセットによって決定される。 本稿では,コンペティションにおける主な知見を述べるとともに,上位のチームが使用する手法とツールについて概説する。 100Kラベル付きツイートの全データセットも、https://www.kaggle.c om/c/arabic-sentimen t-analysis-2021-kaus t/dataで公開されている。

This paper provides an overview of the Arabic Sentiment Analysis Challenge organized by King Abdullah University of Science and Technology (KAUST). The task in this challenge is to develop machine learning models to classify a given tweet into one of the three categories Positive, Negative, or Neutral. From our recently released ASAD dataset, we provide the competitors with 55K tweets for training, and 20K tweets for validation, based on which the performance of participating teams are ranked on a leaderboard, https://www.kaggle.c om/c/arabic-sentimen t-analysis-2021-kaus t. The competition received in total 1247 submissions from 74 teams (99 team members). The final winners are determined by another private set of 20K tweets that have the same distribution as the training and validation set. In this paper, we present the main findings in the competition and summarize the methods and tools used by the top ranked teams. The full dataset of 100K labeled tweets is also released for public usage, at https://www.kaggle.c om/c/arabic-sentimen t-analysis-2021-kaus t/data.
翻訳日:2021-09-30 15:02:15 公開日:2021-09-29
# リカレントニューラルネットワークの確率的一般化について

On the Provable Generalization of Recurrent Neural Networks ( http://arxiv.org/abs/2109.14142v1 )

ライセンス: Link先を確認
Lifu Wang, Bo Shen, Bo Hu, Xing Cao(参考訳) リカレントニューラルネットワーク(RNN)はディープラーニングの基本構造である。 近年,過パラメータ化ニューラルネットワークの学習過程を研究対象とし,過パラメータ化ネットワークが証明可能な一般化誤差境界を用いて,いくつかの注目すべき概念クラスで関数を学習できることを実証した。 本稿では、ランダム初期化を伴うRNNのトレーニングと一般化を解析し、最近の研究に対して次のような改善を加えている。 1) 入力シーケンス$x=(X_1,X_2,...,X_L)$に対して、以前の研究は、$f(\beta^T_lX_l)$の和である関数を学習し、||X_l||\leq\epsilon$の正規化条件を必要とする。 本稿では,神経接核行列の詳細な解析を用いて,正規化条件を伴わない関数を学習するための一般化誤差を証明し,いくつかの注目すべき概念クラスが,入力長$l$でほぼ多項的にスケーリングする反復数とサンプル数で学習可能であることを示す。 さらに,$f(\beta^t[x_{l_1},...,x_{l_n}]) という形で入力列の n-変数関数を学習する新たな結果を証明した。 関数 $f(X_l)$ の和。 また、$n$ または $l_0=\max(l_1,..,l_n)-\mi n(l_1,..,l_n)$ が小さい場合、$f(\beta^t[x_{l_1},...,x_{l_n}])$ は、入力長$l$ でほぼ多義的にスケーリングするサンプルと数反復で学習可能である。

Recurrent Neural Network (RNN) is a fundamental structure in deep learning. Recently, some works study the training process of over-parameterized neural networks, and show that over-parameterized networks can learn functions in some notable concept classes with a provable generalization error bound. In this paper, we analyze the training and generalization for RNNs with random initialization, and provide the following improvements over recent works: 1) For a RNN with input sequence $x=(X_1,X_2,...,X_L)$, previous works study to learn functions that are summation of $f(\beta^T_lX_l)$ and require normalized conditions that $||X_l||\leq\epsilon$ with some very small $\epsilon$ depending on the complexity of $f$. In this paper, using detailed analysis about the neural tangent kernel matrix, we prove a generalization error bound to learn such functions without normalized conditions and show that some notable concept classes are learnable with the numbers of iterations and samples scaling almost-polynomially in the input length $L$. 2) Moreover, we prove a novel result to learn N-variables functions of input sequence with the form $f(\beta^T[X_{l_1},...,X_{l_N}])$, which do not belong to the ``additive'' concept class, i,e., the summation of function $f(X_l)$. And we show that when either $N$ or $l_0=\max(l_1,..,l_N)-\mi n(l_1,..,l_N)$ is small, $f(\beta^T[X_{l_1},...,X_{l_N}])$ will be learnable with the number iterations and samples scaling almost-polynomially in the input length $L$.
翻訳日:2021-09-30 15:01:56 公開日:2021-09-29
# 選択的推論によるワッサーシュタイン距離の厳密な統計的推測

Exact Statistical Inference for the Wasserstein Distance by Selective Inference ( http://arxiv.org/abs/2109.14206v1 )

ライセンス: Link先を確認
Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 本稿では,ワッサースタイン距離の統計的推定について検討し,注目度が高く,様々な機械学習タスクに適用されている。 文献ではいくつかの研究が提案されているが、ほとんど全てが漸近近似に基づいており、有限サンプルの有効性はない。 本研究では,条件付き選択推論(si)の概念に触発されたwasserstein距離の正確な(非漸近的)推論法を提案する。 我々の知る限り、これは一次元問題だけでなく多次元問題にも適用可能な有限サンプル被覆保証付きワッサーシュタイン距離に対する有効な信頼区間(CI)を提供する最初の方法である。 提案手法の有効性を,合成データセットと実世界のデータセットの両方で評価する。

In this paper, we study statistical inference for the Wasserstein distance, which has attracted much attention and has been applied to various machine learning tasks. Several studies have been proposed in the literature, but almost all of them are based on asymptotic approximation and do not have finite-sample validity. In this study, we propose an exact (non-asymptotic) inference method for the Wasserstein distance inspired by the concept of conditional Selective Inference (SI). To our knowledge, this is the first method that can provide a valid confidence interval (CI) for the Wasserstein distance with finite-sample coverage guarantee, which can be applied not only to one-dimensional problems but also to multi-dimensional problems. We evaluate the performance of the proposed method on both synthetic and real-world datasets.
翻訳日:2021-09-30 15:01:07 公開日:2021-09-29
# 多様体データのフローベースモデル

Flow Based Models For Manifold Data ( http://arxiv.org/abs/2109.14216v1 )

ライセンス: Link先を確認
Mingtian Zhang and Yitong Sun and Steven McDonagh and Chen Zhang(参考訳) フローに基づく生成モデルは通常、観測空間と同一の次元を持つ潜在空間を定義する。 しかし、多くの問題では、データは、彼らがネイティブに居住する完全なアンビエントデータ空間ではなく、より低次元の多様体に居住する。 このようなシナリオでは、フローベースのモデルは、その密度が常にデータ多様体からサポートされるため、データ構造を正確に表現することはできない。 さらに、同じ潜在性とデータ空間の次元の要求は、現代のフローモデルの複雑さを不要に増やすことができる。 これらの問題に対処するために,我々は,サンプル生成と表現品質の両方に利点を与える多様体を事前に学習することを提案する。 我々のアプローチの補助的な利点は、データ分布の本質的な次元を識別する能力である。

Flow-based generative models typically define a latent space with dimensionality identical to the observational space. In many problems, however, the data does not populate the full ambient data-space that they natively reside in, rather inhabiting a lower-dimensional manifold. In such scenarios, flow-based models are unable to represent data structures exactly as their density will always have support off the data manifold, potentially resulting in degradation of model performance. In addition, the requirement for equal latent and data space dimensionality can unnecessarily increase complexity for contemporary flow models. Towards addressing these problems, we propose to learn a manifold prior that affords benefits to both sample generation and representation quality. An auxiliary benefit of our approach is the ability to identify the intrinsic dimension of the data distribution.
翻訳日:2021-09-30 15:00:54 公開日:2021-09-29
# 回帰核ヒルベルト空間における二元分類のための勾配に基づく変数選択

A gradient-based variable selection for binary classification in reproducing kernel Hilbert space ( http://arxiv.org/abs/2109.14282v1 )

ライセンス: Link先を確認
Jongkyeong Kang and Seung Jun Shin(参考訳) 可変選択は高次元データ解析において必須である。 様々な変数選択法が開発されているが、ほとんどは線形モデルの仮定に依存している。 本稿では、カーネルヒルベルト空間 (rkhs) を再現して定義される大マージン分類器に対する非パラメトリック変数選択法を提案する。 本研究では,大マージン分類器の勾配に基づく表現を提案し,群ラッソペナルティによって勾配関数を正則化し,変数選択に自然に繋がるスパース勾配を求める。 グループワイド・マジョライズ・デセントアルゴリズム(GMD, Yang and Zou, 2015)は, 提案した問題を多数のパラメータで効率的に解くために提案されている。 我々は、チューニング手順を促進するために、強いシーケンシャルルール(Tibshirani et al., 2012)を採用する。 推定分類器のリスクバウンドとその勾配を得ることにより,提案手法の選択一貫性を確立する。 最後に,提案手法の有望な性能をシミュレーションと実データ図解を用いて実証する。

Variable selection is essential in high-dimensional data analysis. Although various variable selection methods have been developed, most rely on the linear model assumption. This article proposes a nonparametric variable selection method for the large-margin classifier defined by reproducing the kernel Hilbert space (RKHS). we propose a gradient-based representation of the large-margin classifier and then regularize the gradient functions by the group-lasso penalty to obtain sparse gradients that naturally lead to the variable selection. The groupwise-majorizati on-decent algorithm (GMD, Yang and Zou, 2015) is proposed to efficiently solve the proposed problem with a large number of parameters. We employ the strong sequential rule (Tibshirani et al., 2012) to facilitate the tuning procedure. The selection consistency of the proposed method is established by obtaining the risk bound of the estimated classifier and its gradient. Finally, we demonstrate the promising performance of the proposed method through simulations and real data illustration.
翻訳日:2021-09-30 15:00:42 公開日:2021-09-29
# オンラインメタ学習における動的回帰分析

Dynamic Regret Analysis for Online Meta-Learning ( http://arxiv.org/abs/2109.14375v1 )

ライセンス: Link先を確認
Parvin Nazari, Esmaile Khorram(参考訳) オンラインメタラーニングフレームワークは、継続的な生涯学習設定のための強力なツールとして生まれました。 エージェントの目標は、タスクが次々に直面する間に、事前の経験に基づいて新しいタスクをすばやく学習することだ。 この定式化には2つのレベルがある: メタリアナーを学習する外部レベルと、現在のタスクから少量のデータしか持たないタスク固有のモデルを学ぶ内部レベルである。 既存の手法はオンラインメタラーニングフレームワークに対して静的な後悔分析を提供するが、グローバルな予測から環境の変化を扱う動的後悔の観点からパフォーマンスを確立する。 また,adam と adagrad の両方をカバーする適応勾配法(adaptive gradient method)の一般化版を構築し,外部レベルでメタリアナーを学ぶ。 我々は統計的に解析を行い, 期待する中で, 反復数tと学習者のパラメータに明示的に依存する局所的局所的後悔を証明した。 また,パラメータの適切な選択による提案アルゴリズムの収束率に高い確率境界を示す。

The online meta-learning framework has arisen as a powerful tool for the continual lifelong learning setting. The goal for an agent is to quickly learn new tasks by drawing on prior experience, while it faces with tasks one after another. This formulation involves two levels: outer level which learns meta-learners and inner level which learns task-specific models, with only a small amount of data from the current task. While existing methods provide static regret analysis for the online meta-learning framework, we establish performance in terms of dynamic regret which handles changing environments from a global prospective. We also build off of a generalized version of the adaptive gradient methods that covers both ADAM and ADAGRAD to learn meta-learners in the outer level. We carry out our analyses in a stochastic setting, and in expectation prove a logarithmic local dynamic regret which depends explicitly on the total number of iterations T and parameters of the learner. Apart from, we also indicate high probability bounds on the convergence rates of proposed algorithm with appropriate selection of parameters, which have not been argued before.
翻訳日:2021-09-30 15:00:27 公開日:2021-09-29
# サイド情報としてのDNAを用いたファイングラインドゼロショット学習

Fine-Grained Zero-Shot Learning with DNA as Side Information ( http://arxiv.org/abs/2109.14133v1 )

ライセンス: Link先を確認
Sarkhan Badirli, Zeynep Akata, George Mohler, Christine Picard, Murat Dundar(参考訳) きめ細かいゼロショット学習タスクは、見知らぬクラスに識別情報を転送するために、ある種のサイド情報を必要とする。 手動でアノテートした視覚属性は非常に高価で、多くのクラスで入手するには実用的ではないため、本研究では、DNAをサイド情報として初めて、種をきめ細かいゼロショット分類に利用した。 ミトコンドリアDNAは進化生物学における遺伝マーカーとして重要な役割を担い、生物の種分類においてほぼ完璧な精度を達成するために用いられている。 我々は,画像空間における階層構造を確立するためにdna情報を用いた単純な階層ベイズモデルを実装し,未認識の階層に対するサーロゲートクラスを定義するために局所前処理を用いる。 ベンチマーク CUB データセットでは,DNA は概して,副次情報としてワードベクトルよりもアクセスしやすい代替手段として期待できることを示す。 特に、細粒度種名に対するロバストな単語表現を得ることは、自由形式のテキストでこれらの種に関する情報が限られている場合、実践可能な目標ではない。 千種を超える種から得られたdna情報を用いた、新たにコンパイルされた細粒度昆虫データセットでは、ベイズ的アプローチが最先端技術を上回ることが示されている。

Fine-grained zero-shot learning task requires some form of side-information to transfer discriminative information from seen to unseen classes. As manually annotated visual attributes are extremely costly and often impractical to obtain for a large number of classes, in this study we use DNA as side information for the first time for fine-grained zero-shot classification of species. Mitochondrial DNA plays an important role as a genetic marker in evolutionary biology and has been used to achieve near-perfect accuracy in the species classification of living organisms. We implement a simple hierarchical Bayesian model that uses DNA information to establish the hierarchy in the image space and employs local priors to define surrogate classes for unseen ones. On the benchmark CUB dataset, we show that DNA can be equally promising yet in general a more accessible alternative than word vectors as a side information. This is especially important as obtaining robust word representations for fine-grained species names is not a practicable goal when information about these species in free-form text is limited. On a newly compiled fine-grained insect dataset that uses DNA information from over a thousand species, we show that the Bayesian approach outperforms state-of-the-art by a wide margin.
翻訳日:2021-09-30 15:00:09 公開日:2021-09-29
# 深部モデルインバージョンを用いた対物発電機の設計

Designing Counterfactual Generators using Deep Model Inversion ( http://arxiv.org/abs/2109.14274v1 )

ライセンス: Link先を確認
Jayaraman J. Thiagarajan, Vivek Narayanaswamy, Deepta Rajan, Jason Liang, Akshay Chaudhari, Andreas Spanias(参考訳) モデル予測の望ましい変更を生成しながら、与えられた画像に小さな解釈可能な変化を合成する説明技術が、ブラックボックスモデルのイントロスペクションに人気を集めている。 一般には偽物(counterfactuals)と呼ばれ、合成された説明は(容易に解釈できるため)識別可能な変化を含むとともに(データ多様体との一貫性)現実的なものである必要がある。 本稿では,実際のトレーニングデータではなく,訓練された深層分類器にのみアクセス可能な場合に焦点を当てる。 トレーニング分布からイメージを合成する深層モデルを逆転する問題も検討されているが,本研究の目的は,与えられたクエリ画像に対する反実的説明を生成するための深部逆転アプローチを開発することである。 条件付き画像合成の有効性に拘わらず,既存の深層逆変換法は有意義な反事実を生成するには不十分であることを示す。 我々は、深部インバージョンを改善するためのdisC(Deep Inversion for Synthesizing Counterfactuals)を提案する。 (a)より強い画像の先行 b) 新しい多様体の整合性目標を組み込んだもの (c) プログレッシブ最適化戦略を採用する。 視覚的に意味のある説明を生成することに加えて,ディスクからの反事実は分類子決定境界の学習に有効であり,未知のテスト時間破壊に対して頑健であることがわかった。

Explanation techniques that synthesize small, interpretable changes to a given image while producing desired changes in the model prediction have become popular for introspecting black-box models. Commonly referred to as counterfactuals, the synthesized explanations are required to contain discernible changes (for easy interpretability) while also being realistic (consistency to the data manifold). In this paper, we focus on the case where we have access only to the trained deep classifier and not the actual training data. While the problem of inverting deep models to synthesize images from the training distribution has been explored, our goal is to develop a deep inversion approach to generate counterfactual explanations for a given query image. Despite their effectiveness in conditional image synthesis, we show that existing deep inversion methods are insufficient for producing meaningful counterfactuals. We propose DISC (Deep Inversion for Synthesizing Counterfactuals) that improves upon deep inversion by utilizing (a) stronger image priors, (b) incorporating a novel manifold consistency objective and (c) adopting a progressive optimization strategy. We find that, in addition to producing visually meaningful explanations, the counterfactuals from DISC are effective at learning classifier decision boundaries and are robust to unknown test-time corruptions.
翻訳日:2021-09-30 14:59:46 公開日:2021-09-29
# 1つの損失:単一のコサイン類似性に基づく学習目標によるディープハッシュ

One Loss for All: Deep Hashing with a Single Cosine Similarity based Learning Objective ( http://arxiv.org/abs/2109.14449v1 )

ライセンス: Link先を確認
Jiun Tian Hoe and Kam Woh Ng and Tianyu Zhang and Chee Seng Chan and Yi-Zhe Song and Tao Xiang(参考訳) ディープハッシュモデルは通常、学習されたバイナリハッシュコードの識別と量子化エラーの最小化という2つの学習目標を持つ。 ビットバランスやコードの直交性といったさらなる制約があるため、既存のモデルでは多数の(>4)損失を採用することは珍しくない。 これにより、モデルのトレーニングが難しくなり、その効果が損なわれる。 本研究では,1つの学習目的しか持たない新しい深層ハッシュモデルを提案する。 具体的には,連続符号と対応する2次直交符号とのコサイン類似性を最大化することで,ハッシュ符号の判別性と量子化誤差の最小化を両立できることを示す。 さらに、この学習目的により、バッチ正規化(bn)層を単純に使用することでコードバランシングを実現し、ラベル平滑化によってマルチラベル分類も容易になる。 結果は、様々な損失の重みを調整する面倒を全て取り除く、一筋の深いハッシュモデルである。 重要な点は、大規模インスタンス検索ベンチマーク3つで最先端のマルチロスハッシュモデルよりも優れており、多くの場合かなりのマージンで性能が向上していることだ。 コードはhttps://github.com/k amwoh/orthohashで入手できる。

A deep hashing model typically has two main learning objectives: to make the learned binary hash codes discriminative and to minimize a quantization error. With further constraints such as bit balance and code orthogonality, it is not uncommon for existing models to employ a large number (>4) of losses. This leads to difficulties in model training and subsequently impedes their effectiveness. In this work, we propose a novel deep hashing model with only a single learning objective. Specifically, we show that maximizing the cosine similarity between the continuous codes and their corresponding binary orthogonal codes can ensure both hash code discriminativeness and quantization error minimization. Further, with this learning objective, code balancing can be achieved by simply using a Batch Normalization (BN) layer and multi-label classification is also straightforward with label smoothing. The result is an one-loss deep hashing model that removes all the hassles of tuning the weights of various losses. Importantly, extensive experiments show that our model is highly effective, outperforming the state-of-the-art multi-loss hashing models on three large-scale instance retrieval benchmarks, often by significant margins. Code is available at https://github.com/k amwoh/orthohash
翻訳日:2021-09-30 14:59:23 公開日:2021-09-29
# Grouptron: Group-Aware Dense Crowd Trajectory Forecastingのための動的マルチスケールグラフ畳み込みネットワーク

Grouptron: Dynamic Multi-Scale Graph Convolutional Networks for Group-Aware Dense Crowd Trajectory Forecasting ( http://arxiv.org/abs/2109.14128v1 )

ライセンス: Link先を確認
Rui Zhou, Hongyu Zhou, Masayoshi Tomizuka, Jiachen Li, and Zhuo Xu(参考訳) 高度にダイナミックでインタラクティブなシーンにおける人間の歩行者軌跡の正確かつ長期予測は、長年の課題である。 データ駆動アプローチの最近の進歩は、予測精度の面で大幅に改善されている。 しかし,グループ認識分析の欠如は予測モデルの性能を制限している。 これは、歩行者がグループ内で移動し、グループ間の相互作用が非常に複雑でダイナミックな場面で特に顕著である。 本稿では,歩行者グループ検出を活用し,個々のレベル,グループレベル,シーンレベルの情報を活用し,シーンの理解と表現を改善するマルチスケール動的予測フレームワークgrouptronを提案する。 本手法は,歩行者群を同定し,個人,グループ,シーンレベルで時空間グラフを作成するために時空間クラスタリングアルゴリズムを用いる。 そしてグラフニューラルネットワークを使って、さまざまなスケールのダイナミクスをエンコードし、さまざまなスケールにエンコードして軌道予測を行う。 本手法の有効性を実証するために広範囲比較・アブレーション実験を行った。 ETH/UCYベンチマークデータセットの最先端手法と比較して, 最終変位誤差(FDE)は9.3%減少し, より密集した場面では16.1%減少する。

Accurate, long-term forecasting of human pedestrian trajectories in highly dynamic and interactive scenes is a long-standing challenge. Recent advances in using data-driven approaches have achieved significant improvements in terms of prediction accuracy. However, the lack of group-aware analysis has limited the performance of forecasting models. This is especially apparent in highly populated scenes, where pedestrians are moving in groups and the interactions between groups are extremely complex and dynamic. In this paper, we present Grouptron, a multi-scale dynamic forecasting framework that leverages pedestrian group detection and utilizes individual-level, group-level, and scene-level information for better understanding and representation of the scenes. Our approach employs spatio-temporal clustering algorithms to identify pedestrian groups, creates spatio-temporal graphs at the individual, group, and scene levels. It then uses graph neural networks to encode dynamics at different scales and incorporates encoding across different scales for trajectory prediction. We carried out extensive comparisons and ablation experiments to demonstrate the effectiveness of our approach. Our method achieves 9.3% decrease in final displacement error (FDE) compared with state-of-the-art methods on ETH/UCY benchmark datasets, and 16.1% decrease in FDE in more crowded scenes where extensive human group interactions are more frequently present.
翻訳日:2021-09-30 14:58:38 公開日:2021-09-29
# fastcorrect 2: 自動音声認識のための複数候補の高速誤り訂正

FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition ( http://arxiv.org/abs/2109.14420v1 )

ライセンス: Link先を確認
Yichong Leng, Xu Tan, Rui Wang, Linchen Zhu, Jin Xu, Linquan Liu, Tao Qin, Xiang-Yang Li, Edward Lin, Tie-Yan Liu(参考訳) 誤り訂正は自動音声認識(ASR)において、生成された文を後処理するために広く用いられ、さらに単語誤り率(WER)を低減することができる。 複数の候補はビームサーチによってASRシステムによって生成されるが、現在の誤り訂正手法は一度に1つの文だけを訂正することができ、複数の候補の投票効果を利用して誤りトークンを検知し修正することができない。 本研究では,複数のASR候補を入力として取り込んだ誤り訂正モデルであるFastCorrect 2を提案する。 FastCorrect2は、複数のソース文を処理するエンコーダと、各ソーストークンの予測期間に基づいて調整されたソース文から並列にターゲット文を生成するデコーダとからなる、高速推論のための非自己回帰生成を採用する。 しかし、複数のソース文を扱う場合、いくつかの問題がある。 第一に、しばしば長さが異なるため、複数の元文からの投票効果を利用するのは非自明である。 そこで本研究では,複数文間のトークンアライメントの程度をトークンと発音の類似性の観点から最大化する新しいアライメントアルゴリズムを提案する。 第二に、デコーダは1つの調整されたソース文のみを入力とし、複数のソース文が存在する。 そこで我々は,デコーダの最適候補を検出する候補予測器を開発した。 我々の社内データセットとAISHELL-1の実験により、FastCorrect 2は、単一の候補を持つ前の修正モデルよりもWERをさらに3.2%と2.6%削減できることを示した。 FastCorrect 2は、カスケードされた再描画および修正パイプラインよりも優れたパフォーマンスを実現し、ASRの統一後処理モジュールとして機能する。

Error correction is widely used in automatic speech recognition (ASR) to post-process the generated sentence, and can further reduce the word error rate (WER). Although multiple candidates are generated by an ASR system through beam search, current error correction approaches can only correct one sentence at a time, failing to leverage the voting effect from multiple candidates to better detect and correct error tokens. In this work, we propose FastCorrect 2, an error correction model that takes multiple ASR candidates as input for better correction accuracy. FastCorrect 2 adopts non-autoregressive generation for fast inference, which consists of an encoder that processes multiple source sentences and a decoder that generates the target sentence in parallel from the adjusted source sentence, where the adjustment is based on the predicted duration of each source token. However, there are some issues when handling multiple source sentences. First, it is non-trivial to leverage the voting effect from multiple source sentences since they usually vary in length. Thus, we propose a novel alignment algorithm to maximize the degree of token alignment among multiple sentences in terms of token and pronunciation similarity. Second, the decoder can only take one adjusted source sentence as input, while there are multiple source sentences. Thus, we develop a candidate predictor to detect the most suitable candidate for the decoder. Experiments on our inhouse dataset and AISHELL-1 show that FastCorrect 2 can further reduce the WER over the previous correction model with single candidate by 3.2% and 2.6%, demonstrating the effectiveness of leveraging multiple candidates in ASR error correction. FastCorrect 2 achieves better performance than the cascaded re-scoring and correction pipeline and can serve as a unified post-processing module for ASR.
翻訳日:2021-09-30 14:58:14 公開日:2021-09-29
# マルチタスク学習による大規模クラッシュローカライズ

Large-scale Crash Localization using Multi-Task Learning ( http://arxiv.org/abs/2109.14326v1 )

ライセンス: Link先を確認
Manish Shetty, Chetan Bansal, Suman Nath, Sean Bowles, Henry Wang, Ozgur Arman, Siamak Ahari(参考訳) クラッシュのデバッギングにおける重要なステップであるクラッシュローカライゼーションは、非常に多くの多様なアプリケーションやプラットフォーム、根本原因を扱う場合、難しい。 大規模なエラー報告システム、例えばwindows error reporting (wer)は、一般的に手動で開発されたルールとヒューリスティックを使用して、クラッシュの原因となったフレームをローカライズする。 新しいアプリケーションや機能は日常的に導入され、既存のアプリケーションは新しい環境の下で実行されるため、新しいルールを開発し、既存のものを維持することは非常に困難になります。 我々はこの問題に対処するためのデータ駆動ソリューションを提案する。 まず、362kのクラッシュに関する最初の大規模な実証研究から始め、現場で数万のアプリケーションが動作しているとwerに報告した。 この分析は、クラッシュの発生場所と方法、クラッシュの原因となる方法に関する貴重な洞察を提供する。 これらの知見により,スタックトレース中の非難フレームを識別する新しいマルチタスクシーケンスラベリング手法であるDeepAnalyzeを開発することができる。 我々は、当社のモデルを4つの人気のあるmicrosoftアプリケーションから100万以上の現実世界のクラッシュで評価し、同じアプリケーションのクラッシュを正確にローカライズするだけでなく、ゼロないし極めて少ないトレーニングデータを持つ他のアプリケーションのクラッシュローカライズをブートストラップする、ひとつのアプリケーションからのクラッシュでトレーニングされたdeepanalyzeを示しました。

Crash localization, an important step in debugging crashes, is challenging when dealing with an extremely large number of diverse applications and platforms and underlying root causes. Large-scale error reporting systems, e.g., Windows Error Reporting (WER), commonly rely on manually developed rules and heuristics to localize blamed frames causing the crashes. As new applications and features are routinely introduced and existing applications are run under new environments, developing new rules and maintaining existing ones become extremely challenging. We propose a data-driven solution to address the problem. We start with the first large-scale empirical study of 362K crashes and their blamed methods reported to WER by tens of thousands of applications running in the field. The analysis provides valuable insights on where and how the crashes happen and what methods to blame for the crashes. These insights enable us to develop DeepAnalyze, a novel multi-task sequence labeling approach for identifying blamed frames in stack traces. We evaluate our model with over a million real-world crashes from four popular Microsoft applications and show that DeepAnalyze, trained with crashes from one set of applications, not only accurately localizes crashes of the same applications, but also bootstraps crash localization for other applications with zero to very little additional training data.
翻訳日:2021-09-30 14:57:27 公開日:2021-09-29
# 負荷と再生可能エネルギーの不確実性を考慮した日頭統合型エネルギーシステムスケジューリング

Digital Twins based Day-ahead Integrated Energy System Scheduling under Load and Renewable Energy Uncertainties ( http://arxiv.org/abs/2109.14423v1 )

ライセンス: Link先を確認
Minglei You and Qian Wang and Hongjian Sun and Ivan Castro and Jing Jiang(参考訳) 統合エネルギーシステム(IES)のディジタルツイン(DT)を構築することにより、DTの予測能力を利用して、様々なエネルギーコンバータ間の調整を改善し、エネルギー効率、コスト削減、二酸化炭素排出量の削減を促進することができる。 本稿は,実用iessが複数の不確実性源と複雑な環境に苦しむという事実を動機とする。 この問題に対処するため,新しいdtベースデイアヘッドスケジューリング手法を提案する。 物理IESは仮想空間におけるマルチベクトルエネルギーシステムとしてモデル化され、物理IESと相互作用してその操作を操作する。 ディープニューラルネットワークは、過去の予測エラーと日々の予測の両方から学習することで、統計的コスト削減スケジューリングを訓練する。 IESのケーススタディによれば、提案したDTベースの手法は、既存の予測ベースのスケジューリング手法と比較して、IESの運用コストを63.5%削減できる。 また、電気自動車と熱エネルギー貯蔵装置の両方が提案手法において積極的な役割を担っており、将来のエネルギーシステム統合と脱炭の重要性を強調している。

By constructing digital twins (DT) of an integrated energy system (IES), one can benefit from DT's predictive capabilities to improve coordinations among various energy converters, hence enhancing energy efficiency, cost savings and carbon emission reduction. This paper is motivated by the fact that practical IESs suffer from multiple uncertainty sources, and complicated surrounding environment. To address this problem, a novel DT-based day-ahead scheduling method is proposed. The physical IES is modelled as a multi-vector energy system in its virtual space that interacts with the physical IES to manipulate its operations. A deep neural network is trained to make statistical cost-saving scheduling by learning from both historical forecasting errors and day-ahead forecasts. Case studies of IESs show that the proposed DT-based method is able to reduce the operating cost of IES by 63.5%, comparing to the existing forecast-based scheduling methods. It is also found that both electric vehicles and thermal energy storages play proactive roles in the proposed method, highlighting their importance in future energy system integration and decarbonisation.
翻訳日:2021-09-30 14:57:03 公開日:2021-09-29
# マルチエージェントQ-Learningを用いたアンタングリングブレイド

Untangling Braids with Multi-agent Q-Learning ( http://arxiv.org/abs/2109.14502v1 )

ライセンス: Link先を確認
Abdullah Khan, Alexei Vernitski, Alexei Lisitsa(参考訳) 我々は強化学習を用いて、ろうそくを解き放つ問題に対処する。 2本と3本鎖の編み込み実験を行った。 2人の競合するプレーヤーがブレイドを絡めて絡むことを学びます。 我々は、エージェントを強化学習問題に接続する方法として広く使われているOpenAI Gym環境と組み合わさっている。 その結果、システムを訓練すればするほど、おびただしいプレイヤーが身動きが取れなくなるという証拠が得られます。 同時に、我々のタングリングプレーヤーは、絡み合った編み物のよい例を生み出します。

We use reinforcement learning to tackle the problem of untangling braids. We experiment with braids with 2 and 3 strands. Two competing players learn to tangle and untangle a braid. We interface the braid untangling problem with the OpenAI Gym environment, a widely used way of connecting agents to reinforcement learning problems. The results provide evidence that the more we train the system, the better the untangling player gets at untangling braids. At the same time, our tangling player produces good examples of tangled braids.
翻訳日:2021-09-30 14:56:42 公開日:2021-09-29
# 多クラス混合モデルにおける分類規則の誤り率制御

Error rate control for classification rules in multiclass mixture models ( http://arxiv.org/abs/2109.14235v1 )

ライセンス: Link先を確認
Tristan Mary-Huard (GQE-Le Moulon, MIA-Paris), Vittorio Perduca (MAP5 - UMR 8145), Gilles Blanchard (LMO, DATASHAPE), Martin-Magniette Marie-Laure (IPS2 (UMR\_9213 / UMR\_1403), MIA-Paris)(参考訳) 有限混合モデルの文脈では、同じクラスにおける分類誤差率を制御しながら、興味のあるクラスにおいてできるだけ多くの観測を分類する問題を考える。 統計的テスト理論の枠組みで行われていることと同様に、異なるタイプiとタイプiiのような分類エラー率を、それらの関連する最適規則と共に定義することができ、最適性は、いくつかの名目レベルでタイプiエラー率を制御する一方で、タイプiiエラー率を最小化するものとして定義される。 まず, 最適分類規則の探索は, 古典的最大 a posteriori (map) 規則を適用する観測空間内の最適領域を探索することに帰着することを示した。 制御すべき誤分類率に応じて、最適領域の形状と、実際に最適な分類規則を計算するためのヒューリスティックが提供される。 特に、マルチクラスFDRのような最適規則が定義され、ほとんどのアプリケーションで使用される閾値付きMAP規則と比較される。 シミュレーションデータと実データの両方において、fdrのような最適規則はしきい値付きマップ規則よりも保守的でないことが示されている。

In the context of finite mixture models one considers the problem of classifying as many observations as possible in the classes of interest while controlling the classification error rate in these same classes. Similar to what is done in the framework of statistical test theory, different type I and type II-like classification error rates can be defined, along with their associated optimal rules, where optimality is defined as minimizing type II error rate while controlling type I error rate at some nominal level. It is first shown that finding an optimal classification rule boils down to searching an optimal region in the observation space where to apply the classical Maximum A Posteriori (MAP) rule. Depending on the misclassification rate to be controlled, the shape of the optimal region is provided, along with a heuristic to compute the optimal classification rule in practice. In particular, a multiclass FDR-like optimal rule is defined and compared to the thresholded MAP rules that is used in most applications. It is shown on both simulated and real datasets that the FDR-like optimal rule may be significantly less conservative than the thresholded MAP rule.
翻訳日:2021-09-30 14:56:32 公開日:2021-09-29
# 暗黙の生成コプラ

Implicit Generative Copulas ( http://arxiv.org/abs/2109.14567v1 )

ライセンス: Link先を確認
Tim Janke, Mohamed Ghanmi, Florian Steinke(参考訳) copulasは多変量分布をモデル化するための強力なツールであり、不定辺分布と結合依存性構造を別々に推定することができる。 しかしながら、既知のパラメトリックコプラは特に高次元において限定的な柔軟性を提供するが、一般的に用いられる非パラメトリック法は次元の呪いに苦しむ。 一般的な治療は条件付き二変量コプラのツリーベースの階層を構築することである。 本稿では,暗黙的生成ニューラルネットワークに基づく柔軟な,概念的には単純な代替案を提案する。 主要な課題は、推定されたコプラ分布の限界均一性を保証することである。 非特定辺縁を持つ多変量潜在分布を学習し,所望の依存関係構造を学習することでこれを実現する。 確率積分変換を適用することで、パラメトリックな仮定や適切な木構造を見つける必要なしに、高次元のコプラ分布からサンプルを得ることができる。 ファイナンス、物理、画像生成による合成および実データ実験は、このアプローチの性能を示している。

Copulas are a powerful tool for modeling multivariate distributions as they allow to separately estimate the univariate marginal distributions and the joint dependency structure. However, known parametric copulas offer limited flexibility especially in high dimensions, while commonly used non-parametric methods suffer from the curse of dimensionality. A popular remedy is to construct a tree-based hierarchy of conditional bivariate copulas. In this paper, we propose a flexible, yet conceptually simple alternative based on implicit generative neural networks. The key challenge is to ensure marginal uniformity of the estimated copula distribution. We achieve this by learning a multivariate latent distribution with unspecified marginals but the desired dependency structure. By applying the probability integral transform, we can then obtain samples from the high-dimensional copula distribution without relying on parametric assumptions or the need to find a suitable tree structure. Experiments on synthetic and real data from finance, physics, and image generation demonstrate the performance of this approach.
翻訳日:2021-09-30 14:56:13 公開日:2021-09-29
# 3D SimCLR と Monte Carlo Dropout を用いた3次元医用画像解析のための自己教師付き学習

Self-Supervised Learning for 3D Medical Image Analysis using 3D SimCLR and Monte Carlo Dropout ( http://arxiv.org/abs/2109.14288v1 )

ライセンス: Link先を確認
Yamen Ali, Aiham Taleb, Marina M. -C. H\"ohne and Christoph Lippert(参考訳) 自己教師付き学習手法は、ラベル付きデータの必要性を減らすために教師付き下流タスクに転送可能なラベル付きデータから意味のある表現を学ぶために使用できる。 本稿では,コントラスト型(SimCLR)法に基づく3次元自己監督手法を提案する。 さらに,推定フェーズ中にベイズニューラルネットワーク(モンテカルロドロップアウト)を使用することで,下流タスクの結果をさらに高めることができることを示す。 2つの医療画像分割タスクのモデルを紹介します。 i) 3次元mriによる脳腫瘍の分画 二 膵腫瘍の3次元CTからの剥離。 提案手法が下流データ効率と性能の両方において有効であることを示す。

Self-supervised learning methods can be used to learn meaningful representations from unlabeled data that can be transferred to supervised downstream tasks to reduce the need for labeled data. In this paper, we propose a 3D self-supervised method that is based on the contrastive (SimCLR) method. Additionally, we show that employing Bayesian neural networks (with Monte-Carlo Dropout) during the inference phase can further enhance the results on the downstream tasks. We showcase our models on two medical imaging segmentation tasks: i) Brain Tumor Segmentation from 3D MRI, ii) Pancreas Tumor Segmentation from 3D CT. Our experimental results demonstrate the benefits of our proposed methods in both downstream data-efficiency and performance.
翻訳日:2021-09-30 14:55:58 公開日:2021-09-29
# 線形二次制御における最小期待後悔

Minimal Expected Regret in Linear Quadratic Control ( http://arxiv.org/abs/2109.14429v1 )

ライセンス: Link先を確認
Yassir Jedra, Alexandre Proutiere(参考訳) 状態遷移および状態-作用遷移行列が$A$および$B$である線形二次制御系におけるオンライン学習の問題について考察する。 オンライン学習アルゴリズムを考案し、その期待する後悔の保証を提供する。 この後悔は 時給$t$ は上限より上です (i) by $\widetilde{o}((d_u+d_x)\sqrt{d_xt})$ when $a$ と $b$ は未知である。 (ii) by $\widetilde{O}(d_x^2\log(T))$ if only $A$ is unknown, and (iii) by $\widetilde{O}(d_x(d_u+d_x)\log(T))$ if $B$が未知で、ある穏やかな非退化条件下では$d_x$と$d_u$はそれぞれ状態と制御入力の次元を表す。 これらの残念なスケーリングは、シナリオにおける既存の下位境界と一致するため、$T$, $d_x$, $d_u$で最小限である (i)$d_x\le d_u$ [SF20] の場合、シナリオ (ii) [lai1986] 我々の上界も シナリオで最適だと推測します (三)(この設定では下限は知られていない) 既存のオンラインアルゴリズムは、(典型的には指数関数的に)成長期間のエポックで進行する。 制御ポリシーは、各エポック内で固定され、$A$と$B$における推定誤差の分析をかなり単純化する。 このアルゴリズムは、A$とB$の推定値と結果の制御ポリシーを、私たちが望むように、おそらくすべてのステップで、頻繁に更新できるような、確実な等価性規制の単純な変種である。 このような一定変化の制御ポリシがこれらの見積のパフォーマンスに与える影響の定量化と,その後悔は,本稿で取り組んだ技術的課題の1つである。

We consider the problem of online learning in Linear Quadratic Control systems whose state transition and state-action transition matrices $A$ and $B$ may be initially unknown. We devise an online learning algorithm and provide guarantees on its expected regret. This regret at time $T$ is upper bounded (i) by $\widetilde{O}((d_u+d_x)\sqrt{d_xT})$ when $A$ and $B$ are unknown, (ii) by $\widetilde{O}(d_x^2\log(T))$ if only $A$ is unknown, and (iii) by $\widetilde{O}(d_x(d_u+d_x)\log(T))$ if only $B$ is unknown and under some mild non-degeneracy condition ($d_x$ and $d_u$ denote the dimensions of the state and of the control input, respectively). These regret scalings are minimal in $T$, $d_x$ and $d_u$ as they match existing lower bounds in scenario (i) when $d_x\le d_u$ [SF20], and in scenario (ii) [lai1986]. We conjecture that our upper bounds are also optimal in scenario (iii) (there is no known lower bound in this setting). Existing online algorithms proceed in epochs of (typically exponentially) growing durations. The control policy is fixed within each epoch, which considerably simplifies the analysis of the estimation error on $A$ and $B$ and hence of the regret. Our algorithm departs from this design choice: it is a simple variant of certainty-equivalenc e regulators, where the estimates of $A$ and $B$ and the resulting control policy can be updated as frequently as we wish, possibly at every step. Quantifying the impact of such a constantly-varying control policy on the performance of these estimates and on the regret constitutes one of the technical challenges tackled in this paper.
翻訳日:2021-09-30 14:55:17 公開日:2021-09-29
# 連続時間切替力学系の変分推論

Variational Inference for Continuous-Time Switching Dynamical Systems ( http://arxiv.org/abs/2109.14492v1 )

ライセンス: Link先を確認
Lukas K\"ohs, Bastian Alt, Heinz Koeppl(参考訳) 動的システムの切り替えは、例えば自然科学や工学の応用のような時系列データの推論のための強力で解釈可能なモデリングフレームワークを提供する。 生物学や離散イベントシステムなどの多くの領域は自然に連続的に記述されるので、従属拡散過程を変調するマルコフジャンプ過程に基づくモデルを示す。 我々は,前縁密度と後縁密度の厳密な進化方程式を提供するが,その直接解は計算上難解である。 そこで我々は,拡散レベルにおけるガウス過程近似とマルコフジャンプ過程の後方推定を組み合わせた,新しい連続時間変分推論アルゴリズムを開発した。 パスワイズkullback-leiblerダイバージェンスを最小化することで (i)実軸上の任意の点に対するベイズ的潜在状態推定と (ii)変分期待最大化を利用した未知系パラメータの点推定 モデル仮定と実例を用いてアルゴリズムを広範囲に評価した。

Switching dynamical systems provide a powerful, interpretable modeling framework for inference in time-series data in, e.g., the natural sciences or engineering applications. Since many areas, such as biology or discrete-event systems, are naturally described in continuous time, we present a model based on an Markov jump process modulating a subordinated diffusion process. We provide the exact evolution equations for the prior and posterior marginal densities, the direct solutions of which are however computationally intractable. Therefore, we develop a new continuous-time variational inference algorithm, combining a Gaussian process approximation on the diffusion level with posterior inference for Markov jump processes. By minimizing the path-wise Kullback-Leibler divergence we obtain (i) Bayesian latent state estimates for arbitrary points on the real axis and (ii) point estimates of unknown system parameters, utilizing variational expectation maximization. We extensively evaluate our algorithm under the model assumption and for real-world examples.
翻訳日:2021-09-30 14:54:42 公開日:2021-09-29
# プロキシードメインの身体内エージェント開発・評価における有用性の検討

On Assessing the Usefulness of Proxy Domains for Developing and Evaluating Embodied Agents ( http://arxiv.org/abs/2109.14516v1 )

ライセンス: Link先を確認
Anthony Courchesne (1 and 2), Andrea Censi (3) and Liam Paull (1 and 2) ((1) Mila, (2) Universit\'e de Montr\'eal, (3) ETH Z\"urich)(参考訳) 多くの場合、展開されるターゲットドメイン上でエージェントを開発、評価することは不可能または非現実的です。 これはロボット工学において特に当てはまり、ハードウェアの実験はシミュレーションよりもはるかに困難である。 学習ベースのエージェントの場合、これは間違いなくそうである。 この目的のために、近年はますます現実的で高い忠実度シミュレータの開発に力を入れている。 しかし、特に、ターゲットドメインでうまく機能するエージェントを構築するという私たちの最終目的を達成するのに、それがどれだけ役に立つかという点で、`proxy domain' がいかによいかを評価するための原則的な方法が欠けている。 本研究では,このニーズに対処する手法を検討する。 まず、しばしば混ざり合ったプロキシドメインの2つの使い方を明確に分けます。 1) エージェント性能の忠実な予測者としての能力 2)学習に役立つツールとしての能力。 本稿では、プロキシドメインの役割を明確にし、異なるプロキシドメインの有用性を比較するために、新しいプロキシ有用性(PU)メトリクスを確立することを試みる。 本稿では、プロキシドメインの予測能力を評価するための相対予測PUと、学習データを生成するツールとしてのプロキシの有用性を定量化する学習PUを提案する。 さらに、プロキシの値は、解決に使われているタスクに条件付けされていることを議論する。 システム識別によって真理を得るためのプロキシドメインのパラメータを最適化するために、これらの新しいメトリクスをどのように利用できるかを示す。

In many situations it is either impossible or impractical to develop and evaluate agents entirely on the target domain on which they will be deployed. This is particularly true in robotics, where doing experiments on hardware is much more arduous than in simulation. This has become arguably more so in the case of learning-based agents. To this end, considerable recent effort has been devoted to developing increasingly realistic and higher fidelity simulators. However, we lack any principled way to evaluate how good a ``proxy domain'' is, specifically in terms of how useful it is in helping us achieve our end objective of building an agent that performs well in the target domain. In this work, we investigate methods to address this need. We begin by clearly separating two uses of proxy domains that are often conflated: 1) their ability to be a faithful predictor of agent performance and 2) their ability to be a useful tool for learning. In this paper, we attempt to clarify the role of proxy domains and establish new proxy usefulness (PU) metrics to compare the usefulness of different proxy domains. We propose the relative predictive PU to assess the predictive ability of a proxy domain and the learning PU to quantify the usefulness of a proxy as a tool to generate learning data. Furthermore, we argue that the value of a proxy is conditioned on the task that it is being used to help solve. We demonstrate how these new metrics can be used to optimize parameters of the proxy domain for which obtaining ground truth via system identification is not trivial.
翻訳日:2021-09-30 14:54:29 公開日:2021-09-29
# 読字・翻訳の学習によるアラビア語読字の改善

Improving Arabic Diacritization by Learning to Diacritize and Translate ( http://arxiv.org/abs/2109.14150v1 )

ライセンス: Link先を確認
Brian Thompson, Ali Alshehri(参考訳) 本稿では,モデルのダイアログ化と翻訳を両立させるマルチタスク学習手法を提案する。 提案手法は,大規模で容易に利用可能なbitextコーパスを活用し,データのスパーシティに対処する。 さらに、翻訳には暗黙の言語的・意味的知識が必要であり、診断タスクの曖昧さを解決するのに役立ちます。 我々はこの手法をPenn Arabic Treebankに適用し、最新の単語誤り率4.79%を報告した。 また,本手法をよりよく理解するために手動および自動分析を行い,診断における課題のいくつかを強調した。

We propose a novel multitask learning method for diacritization which trains a model to both diacritize and translate. Our method addresses data sparsity by exploiting large, readily available bitext corpora. Furthermore, translation requires implicit linguistic and semantic knowledge, which is helpful for resolving ambiguities in the diacritization task. We apply our method to the Penn Arabic Treebank and report a new state-of-the-art word error rate of 4.79%. We also conduct manual and automatic analysis to better understand our method and highlight some of the remaining challenges in diacritization.
翻訳日:2021-09-30 14:54:06 公開日:2021-09-29
# デジタル人文科学プロジェクトにおけるスケールと表現の問題における反射性

Reflexivity in Issues of Scale and Representation in a Digital Humanities Project ( http://arxiv.org/abs/2109.14184v1 )

ライセンス: Link先を確認
Annie T. Chen, Camille Lyans Cole(参考訳) 本稿では,自然言語処理とデータ解析と可視化技術を組み合わせたパイプラインの開発で遭遇した問題点について考察する。 コーパスの特徴(数十年にわたる1人の日記からなる)は、表現の問題における概念的課題と、歴史的研究の源泉としての余裕の両方を提示する。 我々は、視覚化の生成と解釈に特に焦点をあてたチームコンテキストでこれらの問題を考察する。

In this paper, we explore issues that we have encountered in developing a pipeline that combines natural language processing with data analysis and visualization techniques. The characteristics of the corpus - being comprised of diaries of a single person spanning several decades - present both conceptual challenges in terms of issues of representation, and affordances as a source for historical research. We consider these issues in a team context with a particular focus on the generation and interpretation of visualizations.
翻訳日:2021-09-30 14:53:58 公開日:2021-09-29
# 文脈に基づくロマン・ウルドゥーからウルドゥー文字翻訳システム

Context based Roman-Urdu to Urdu Script Transliteration System ( http://arxiv.org/abs/2109.14197v1 )

ライセンス: Link先を確認
H Muhammad Shakeel, Rashid Khan, Muhammad Waheed(参考訳) 現在、日々のコンピュータは人間にとって必要であり、検索エンジン、テキスト処理、ショートメッセージングサービス、音声チャット、テキスト認識など多くの分野で非常に有用である。 ここ数年から、言語スクリプトの記述をサポートするために、多くのツールや技術が開発されている。 アラビア語、ウルドゥー語、ペルシア語、チェイン語、韓国語といったアジアの言語のほとんどはローマ字で書かれている。 ローマ字は、非ラテン文字を持つ言語の翻訳に最も一般的に用いられる。 入力としてurdu文字を書くには、すでに存在する多くのレイアウトがある。 urduスピーカーは、ユーザーがurdu言語キーボードに慣れていないため、異なるアプリケーションでroman-urduを使うのを好む。 本研究の目的は、roman-urdu to urduスクリプトの文脈ベースの書き起こしを改善することである。 本稿では,翻訳問題を効果的に解決するアルゴリズムを提案する。 このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。 マッチが見つかったら、テキストエディタにワードを表示します。 一番高い頻度の単語は、レキシコンに複数の一致がある場合に表示される。 最初のエンコードされた変換されたインスタンスを表示し、マッチの単一のインスタンスが見つからない場合はデフォルトに設定し、そのコンテキストに応じて与えられた曖昧な単語を所望の場所に調整する。 このアルゴリズムの結果、文脈上でラマン・ウルドゥをウルドゥー語に翻訳する他のモデルやアルゴリズムと比較して効率と重要性が証明された。

Now a day computer is necessary for human being and it is very useful in many fields like search engine, text processing, short messaging services, voice chatting and text recognition. Since last many years there are many tools and techniques that have been developed to support the writing of language script. Most of the Asian languages like Arabic, Urdu, Persian, Chains and Korean are written in Roman alphabets. Roman alphabets are the most commonly used for transliteration of languages, which have non-Latin scripts. For writing Urdu characters as an input, there are many layouts which are already exist. Mostly Urdu speaker prefer to use Roman-Urdu for different applications, because mostly user is not familiar with Urdu language keyboard. The objective of this work is to improve the context base transliteration of Roman-Urdu to Urdu script. In this paper, we propose an algorithm which effectively solve the transliteration issues. The algorithm work like, convert the encoding roman words into the words in the standard Urdu script and match it with the lexicon. If match found, then display the word in the text editor. The highest frequency words are displayed if more than one match found in the lexicon. Display the first encoded and converted instance and set it to the default if there is not a single instance of the match is found and then adjust the given ambiguous word to their desire location according to their context. The outcome of this algorithm proved the efficiency and significance as compare to other models and algorithms which work for transliteration of Raman-Urdu to Urdu on context.
翻訳日:2021-09-30 14:53:49 公開日:2021-09-29
# EDGAR-CORPUS:数十億ドルのトークンが世界初

EDGAR-CORPUS: Billions of Tokens Make The World Go Round ( http://arxiv.org/abs/2109.14394v1 )

ライセンス: Link先を確認
Lefteris Loukas, Manos Fergadiotis, Ion Androutsopoulos, Prodromos Malakasiotis(参考訳) EDGAR-CORPUSは,25年以上にわたる米国すべての上場企業からの年次報告をまとめた,新たなコーパスである。 我々の知る限り、EDGAR-CORPUSは、現在利用可能な最大の金融NLPコーパスである。 すべてのレポートはダウンロードされ、対応する項目(セクション)に分割され、クリーンで使いやすいJSON形式で提供される。 We use EDGAR-CORPUS to training and release EDGAR-W2V, which is WORD2VEC embeddeds for the financial domain。 これらの組込みを金融nlpタスクのバッテリに採用し,汎用グローブ組込みや既存のファイナンシャルワード組込みよりもその優位を示す。 我々はまた、将来の年次レポートのダウンロードと抽出を容易にするツールキットであるEDGAR-CRAWLERをオープンソース化した。

We release EDGAR-CORPUS, a novel corpus comprising annual reports from all the publicly traded companies in the US spanning a period of more than 25 years. To the best of our knowledge, EDGAR-CORPUSis the largest financial NLP corpus available to date. All the reports are downloaded, split into their corresponding items (sections), and provided in a clean, easy-to-use JSON format. We use EDGAR-CORPUS to train and release EDGAR-W2V, which are WORD2VEC embeddings for the financial domain. We employ these embeddings in a battery of financial NLP tasks and showcase their superiority over generic GloVe embeddings and other existing financial word embeddings. We also open-source EDGAR-CRAWLER, a toolkit that facilitates downloading and extracting future annual reports.
翻訳日:2021-09-30 14:53:24 公開日:2021-09-29
# StoryDB: 幅広い多言語ナラティブデータセット

StoryDB: Broad Multi-language Narrative Dataset ( http://arxiv.org/abs/2109.14396v1 )

ライセンス: Link先を確認
Alexey Tikhonov and Igor Samenko and Ivan P. Yamshchikov(参考訳) 本稿では,物語の多言語データセットであるStoryDBについて述べる。 StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 各言語は500以上の物語を含む。 いくつかの言語は20000以上の物語を含んでいる。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグでラベル付けされる。 コーパスは、多彩な話題や言語の変化を示し、低リソースを含む様々な言語における自然言語処理における物語の役割を研究するためのリソースとして機能する。 また,このデータセットを用いて,mDistillBERT,mBERT, XLM-RoBERTaという3つの現代多言語モデルのベンチマークを行う方法を示した。

This paper presents StoryDB - a broad multi-language dataset of narratives. StoryDB is a corpus of texts that includes stories in 42 different languages. Every language includes 500+ stories. Some of the languages include more than 20 000 stories. Every story is indexed across languages and labeled with tags such as a genre or a topic. The corpus shows rich topical and language variation and can serve as a resource for the study of the role of narrative in natural language processing across various languages including low resource ones. We also demonstrate how the dataset could be used to benchmark three modern multilanguage models, namely, mDistillBERT, mBERT, and XLM-RoBERTa.
翻訳日:2021-09-30 14:53:11 公開日:2021-09-29
# BiQUE:知識グラフのバイカテニオン埋め込み

BiQUE: Biquaternionic Embeddings of Knowledge Graphs ( http://arxiv.org/abs/2109.14401v1 )

ライセンス: Link先を確認
Jia Guo and Stanley Kok(参考訳) 知識グラフ埋め込み(kges)はマルチリレーショナル知識グラフ(kgs)をコンパクトにエンコードする。 既存のKGEモデルは、関係パターンをモデル化するための幾何学的操作に依存している。 ユークリッド回転は対称性のようなパターンをモデル化するのに有用であるが、階層的意味論を表現できない。 対照的に双曲モデルは階層関係のモデル化に有効であるが、円回転が優れているパターンではうまく機能しない。 KGEモデルでは、KGの多元関係を完全にカバーするために、複数の幾何変換を統一することが重要である。 そこで我々は,双四元数を用いて多元幾何学的変換(viz.,スケーリング,変換,ユークリッド回転,双曲回転)を統合する新しいモデルbiqueを提案する。 BiQUEは、トレーニング中に幾何演算子の間で最良のトレードオフを行い、それぞれの関係に最適なもの(またはそれらの組み合わせ)を選ぶ。 5つのデータセットの実験は、BiQUEの有効性を示している。

Knowledge graph embeddings (KGEs) compactly encode multi-relational knowledge graphs (KGs). Existing KGE models rely on geometric operations to model relational patterns. Euclidean (circular) rotation is useful for modeling patterns such as symmetry, but cannot represent hierarchical semantics. In contrast, hyperbolic models are effective at modeling hierarchical relations, but do not perform as well on patterns on which circular rotation excels. It is crucial for KGE models to unify multiple geometric transformations so as to fully cover the multifarious relations in KGs. To do so, we propose BiQUE, a novel model that employs biquaternions to integrate multiple geometric transformations, viz., scaling, translation, Euclidean rotation, and hyperbolic rotation. BiQUE makes the best trade-offs among geometric operators during training, picking the best one (or their best combination) for each relation. Experiments on five datasets show BiQUE's effectiveness.
翻訳日:2021-09-30 14:53:03 公開日:2021-09-29
# 組織構造から組織行動形式化へ

From Organisational Structure to Organisational Behaviour Formalisation ( http://arxiv.org/abs/2109.14381v1 )

ライセンス: Link先を確認
Catholijn M. Jonker and Jan Treur(参考訳) 組織構造と組織行動との関係を理解することは、組織モデリングの領域において興味深い根本的な課題である。 組織構造の仕様は通常、より詳細なダイナミクスから抽象するダイアグラム形式を持つ。 一方、エージェントシステムの動的性質は、しばしばいくつかの時相言語における論理公式の組の形で特定される。 本稿では,この2つの視点を一つの枠組みで組み合わせる方法について述べる。 組織構造内のアグリゲーションレベルやその他の要素の異なる場合、動的特性のセットをどのように指定するかを示す。 組織構造は、これらの複数の動的特性のセット間の(中間レベルの)関係の構造を提供する。 このように組織構造は、組織行動のダイナミクスの形式化に反映される。 アプローチの有効性を説明するために、AGRの組織モデルの構造と振る舞いの両方を統合した仕様として、正式な基礎が提示される。

To understand how an organisational structure relates to organisational behaviour is an interesting fundamental challenge in the area of organisation modelling. Specifications of organisational structure usually have a diagrammatic form that abstracts from more detailed dynamics. Dynamic properties of agent systems, on the other hand, are often specified in the form of a set of logical formulae in some temporal language. This paper addresses the question how these two perspectives can be combined in one framework. It is shown how for different aggregation levels and other elements within an organisation structure, sets of dynamic properties can be specified. Organisational structure provides a structure of (interlevel) relationships between these multiple sets of dynamic properties. Thus organisational structure is reflected in the formalisation of the dynamics of organisational behaviour. To illustrate the effectiveness of the approach a formal foundation is presented for the integrated specification of both structure and behaviour of an AGR organisation model.
翻訳日:2021-09-30 14:52:47 公開日:2021-09-29
# 視覚的接地型概念構成

Visually Grounded Concept Composition ( http://arxiv.org/abs/2109.14115v1 )

ライセンス: Link先を確認
Bowen Zhang, Hexiang Hu, Linlu Qiu, Peter Shaw, Fei Sha(参考訳) 我々は,テキストの複雑な概念を原始的な概念から合成し,それらを画像にグラウンド化する方法を検討する。 本稿では,構成分析の上に構築され,帰納的結合概念と述語関数からなる概念関係グラフ(crg)を提案する。 一方,概念学習においてCRGを活用するために,Composerと呼ばれる概念合成ニューラルネットワークを提案する。 具体的には、原始概念と全構成概念の両方の基底を画像に整列させることで学習し、合成する学習がテキストと画像のマッチング精度で測定されたより堅牢な基底化結果をもたらすことを示す。 特に,粗粒度と粗粒度中間レベル(あるいは単語レベル)の両方で形成される接地概念をモデル化できる。 コンストラクタは、評価データがトレーニングデータから有意な複合分散を有する場合、マッチング精度が顕著に向上する。

We investigate ways to compose complex concepts in texts from primitive ones while grounding them in images. We propose Concept and Relation Graph (CRG), which builds on top of constituency analysis and consists of recursively combined concepts with predicate functions. Meanwhile, we propose a concept composition neural network called Composer to leverage the CRG for visually grounded concept learning. Specifically, we learn the grounding of both primitive and all composed concepts by aligning them to images and show that learning to compose leads to more robust grounding results, measured in text-to-image matching accuracy. Notably, our model can model grounded concepts forming at both the finer-grained sentence level and the coarser-grained intermediate level (or word-level). Composer leads to pronounced improvement in matching accuracy when the evaluation data has significant compound divergence from the training data.
翻訳日:2021-09-30 14:51:46 公開日:2021-09-29
# 顔偽造検出のためのデュアルアテンション機構と特徴融合によるxceptionの改善

Improved Xception with Dual Attention Mechanism and Feature Fusion for Face Forgery Detection ( http://arxiv.org/abs/2109.14136v1 )

ライセンス: Link先を確認
Hao Lin, Weiqi Luo, Kangkang Wei and Minglin Liu(参考訳) ディープラーニング技術の急速な発展に伴い、deepfakeによる顔偽造がソーシャルメディア上で広く広まり、深刻な社会問題を引き起こしている。 近年, 顔の偽造検出が研究のホットスポットとなり, これまで多くの手法が提案されてきた。 しかし,低品質・多種多様な画像に対して,既存手法の検出性能はまだまだ不十分である。 本稿では,二重注意機構によるxceptionの改良と,顔偽造検出のための特徴融合を提案する。 元のXceptionモデルと異なり、コンボリューションの異なるレベルを用いて顔画像の異なる高セマンティックな特徴を抽出し、それらの高セマンティックな特徴を洗練・再構成するために、畳み込みブロックアテンションモジュールと特徴融合を導入する。 出口流では,自己認識機構と深度分離可能な畳み込みを用いて,融合した特徴のグローバル情報と局所情報を別々に学習し,提案モデルの能力の分類を改善する。 3つのDeepfakeデータセットで評価した実験結果から,提案手法はXceptionの他,有効性と一般化能力の両面で優れていることが示された。

With the rapid development of deep learning technology, more and more face forgeries by deepfake are widely spread on social media, causing serious social concern. Face forgery detection has become a research hotspot in recent years, and many related methods have been proposed until now. For those images with low quality and/or diverse sources, however, the detection performances of existing methods are still far from satisfactory. In this paper, we propose an improved Xception with dual attention mechanism and feature fusion for face forgery detection. Different from the middle flow in original Xception model, we try to catch different high-semantic features of the face images using different levels of convolution, and introduce the convolutional block attention module and feature fusion to refine and reorganize those high-semantic features. In the exit flow, we employ the self-attention mechanism and depthwise separable convolution to learn the global information and local information of the fused features separately to improve the classification the ability of the proposed model. Experimental results evaluated on three Deepfake datasets demonstrate that the proposed method outperforms Xception as well as other related methods both in effectiveness and generalization ability.
翻訳日:2021-09-30 14:51:31 公開日:2021-09-29
# 画像キャプションのための幾何エンタングル型ビジュアルセマンティックトランス

Geometry-Entangled Visual Semantic Transformer for Image Captioning ( http://arxiv.org/abs/2109.14137v1 )

ライセンス: Link先を確認
Ling Cheng, Wei Wei, Feida Zhu, Yong Liu, Chunyan Miao(参考訳) 画像キャプションの最近の進歩は、視覚と視覚の融合や、幾何学的な注意の洗練が特徴である。 しかし、これらの融合モデルでは、相互および注意の細分化のための幾何学的情報の欠如が依然として批判されている。 一方、幾何学的注意に基づくモデルでは、視覚的情報と意味的情報の間にモダリティのギャップがある。 本稿では,ビジュアル・セマンティック・フュージョンとジオメトリ・エイド・アテンション・リファインメントの相補的利点を実現するために,GEVST(Geometry-Enta ngled Visual Semantic Transformer)ネットワークを提案する。 具体的には、Dense-Capモデルが最初に対応する幾何情報を持つ高密度キャプションを提案する。 そして、視覚情報と意味情報の間のモダリティギャップを埋める能力でGEVSTを強化するために、4つの並列トランスフォーマーエンコーダVV(Pure Visual)、VS(Semantic Fused Visual)、SV(Visual fused Semantic)、SS(Pure Semantic)を最終キャプション生成のために構築する。 視覚的および意味的な幾何学的特徴は、FusionモジュールとSelf-Attentionモジュールで、より注意を向けるために使用される。 本モデルの有効性を検証するため,MS-COCOデータセット上で広範囲な実験を行い,実験結果から,GEVSTモデルが有望な性能向上が得られることが示された。

Recent advancements of image captioning have featured Visual-Semantic Fusion or Geometry-Aid attention refinement. However, those fusion-based models, they are still criticized for the lack of geometry information for inter and intra attention refinement. On the other side, models based on Geometry-Aid attention still suffer from the modality gap between visual and semantic information. In this paper, we introduce a novel Geometry-Entangled Visual Semantic Transformer (GEVST) network to realize the complementary advantages of Visual-Semantic Fusion and Geometry-Aid attention refinement. Concretely, a Dense-Cap model proposes some dense captions with corresponding geometry information at first. Then, to empower GEVST with the ability to bridge the modality gap among visual and semantic information, we build four parallel transformer encoders VV(Pure Visual), VS(Semantic fused to Visual), SV(Visual fused to Semantic), SS(Pure Semantic) for final caption generation. Both visual and semantic geometry features are used in the Fusion module and also the Self-Attention module for better attention measurement. To validate our model, we conduct extensive experiments on the MS-COCO dataset, the experimental results show that our GEVST model can obtain promising performance gains.
翻訳日:2021-09-30 14:51:07 公開日:2021-09-29
# 教師なしリアイドのハイブリッドダイナミックコントラストと確率蒸留

Hybrid Dynamic Contrast and Probability Distillation for Unsupervised Person Re-Id ( http://arxiv.org/abs/2109.14157v1 )

ライセンス: Link先を確認
De Cheng, Jingyu Zhou, Nannan Wang, Xinbo Gao(参考訳) re-id (unsupervised person re-id) は,読解世界ビデオ監視システムにおける実用的応用により,注目を集めている。 従来の教師なしのre-idは、主にクラスタの分類やメトリック学習の目的とクラスタリングと微調整を交互に行う方法に基づいている。 しかし、A person Re-Id はオープンセットの問題であるため、クラスタリングベースのメソッドは、多くの不適切なインスタンスを排除したり、インスタンスを間違ったクラスタにグループ化することが多いため、トレーニングサンプル全体をフルに利用することはできない。 これらの問題を解決するために,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。 教師なしRe-Id問題を局所-言語的動的コントラスト学習と自己教師付き確率蒸留の枠組みに統合する。 特に,本提案手法は,各インスタンスの自己コントラストレベルと確率蒸留の両方から,クラスタ化および非クラスタ化インスタンスの自己教師型信号の最大値をメモリベース非パラメトリック方式で生成することができる。 さらに,提案する地域間コントラスト学習のハイブリッドは,効果的かつ堅牢なトレーニングのための情報的かつ価値のあるトレーニング例を最大限活用することができる。 提案手法は, 純粋に教師なしと教師なしの両方のドメイン適応実験条件下で, 最先端の手法よりも優れた性能が得られることを示す。

Unsupervised person re-identification (Re-Id) has attracted increasing attention due to its practical application in the read-world video surveillance system. The traditional unsupervised Re-Id are mostly based on the method alternating between clustering and fine-tuning with the classification or metric learning objectives on the grouped clusters. However, since person Re-Id is an open-set problem, the clustering based methods often leave out lots of outlier instances or group the instances into the wrong clusters, thus they can not make full use of the training samples as a whole. To solve these problems, we present the hybrid dynamic cluster contrast and probability distillation algorithm. It formulates the unsupervised Re-Id problem into an unified local-to-global dynamic contrastive learning and self-supervised probability distillation framework. Specifically, the proposed method can make the utmost of the self-supervised signals of all the clustered and un-clustered instances, from both the instances' self-contrastive level and the probability distillation respective, in the memory-based non-parametric manner. Besides, the proposed hybrid local-to-global contrastive learning can take full advantage of the informative and valuable training examples for effective and robust training. Extensive experiment results show that the proposed method achieves superior performances to state-of-the-art methods, under both the purely unsupervised and unsupervised domain adaptation experiment settings.
翻訳日:2021-09-30 14:50:40 公開日:2021-09-29
# AIタスクによる意味コミュニケーション

Semantic Communications With AI Tasks ( http://arxiv.org/abs/2109.14170v1 )

ライセンス: Link先を確認
Yang Yang, Caili Guo, Fangfang Liu, Chuanhong Liu, Lunan Sun, Qizheng Sun, Jiujiu Chen(参考訳) 無線ネットワークの「接続するもの」から「接続されたインテリジェンス」への急進的なパラダイムシフトは、シャンノやウィーバーの構想と一致する。 本稿では,人工知能タスク(SC-AIT)を用いた意味コミュニケーション手法を提案する。 まずSC-AITのアーキテクチャを詳述する。 次に,提案するアーキテクチャに基づき,画像分類タスクにsc-aitを実装する。 表面欠陥検出のためのSC-AITの試作も行われている。 実験の結果,SC-AITは帯域幅の要求がはるかに低く,技術レベルでの通信に比べて40\%以上の分類精度が得られることがわかった。 セマンティックコミュニケーションの今後の動向と課題も明らかにされる。

A radical paradigm shift of wireless networks from ``connected things'' to ``connected intelligence'' undergoes, which coincides with the Shanno and Weaver's envisions: Communications will transform from the technical level to the semantic level. This article proposes a semantic communication method with artificial intelligence tasks (SC-AIT). First, the architecture of SC-AIT is elaborated. Then, based on the proposed architecture, we implement SC-AIT for a image classifications task. A prototype of SC-AIT is also established for surface defect detection, is conducted. Experimental results show that SC-AIT has much lower bandwidth requirements, and can achieve more than $40\%$ classification accuracy gains compared with the communications at the technical level. Future trends and key challenges for semantic communications are also identified.
翻訳日:2021-09-30 14:50:16 公開日:2021-09-29
# ピクセルアライメントと自己学習に基づく意味セグメンテーションにおける教師なし領域適応

Unsupervised Domain Adaptation in Semantic Segmentation Based on Pixel Alignment and Self-Training ( http://arxiv.org/abs/2109.14219v1 )

ライセンス: Link先を確認
Hexin Dong, Fei Yu, Jie Zhao, Bin Dong and Li Zhang(参考訳) 本稿では,画素アライメントと自己学習に基づく教師なしクロスモダリティドメイン適応手法を提案する。 ピクセルアライメントは、ceT1スキャンをhrT2モダリティに転送することで、トレーニングセグメンテーションモデルのドメインシフトを低減する。 自己学習は、セグメントネットワークの決定境界をhrT2スキャンの分布に適合させる。 実験の結果,PASTは非UDAベースラインよりも有意に優れており,CrossMoDAバリデーションフェーズのLeadboardでは平均Diceスコア0.8395でランク2を受けた。

This paper proposes an unsupervised cross-modality domain adaptation approach based on pixel alignment and self-training. Pixel alignment transfers ceT1 scans to hrT2 modality, helping to reduce domain shift in the training segmentation model. Self-training adapts the decision boundary of the segmentation network to fit the distribution of hrT2 scans. Experiment results show that PAST has outperformed the non-UDA baseline significantly, and it received rank-2 on CrossMoDA validation phase Leaderboard with a mean Dice score of 0.8395.
翻訳日:2021-09-30 14:50:04 公開日:2021-09-29
# 自己監督型変圧器とラベルのない物体の局所化

Localizing Objects with Self-Supervised Transformers and no Labels ( http://arxiv.org/abs/2109.14279v1 )

ライセンス: Link先を確認
Oriane Sim\'eoni and Gilles Puy and Huy V. Vo and Simon Roburin and Spyros Gidaris and Andrei Bursuc and Patrick P\'erez and Renaud Marlet and Jean Ponce(参考訳) 監視なしで画像コレクション内のオブジェクトをローカライズすることは、高価なアノテーションキャンペーンを避けるのに役立つ。 本稿では,自己指導型視覚変換器のアクティベーション機能を活用する,この問題に対する簡単なアプローチを提案する。 LOSTは外部オブジェクトの提案やイメージコレクションの探索を一切必要とせず、単一のイメージ上で動作します。 しかし、pascal voc 2012では、最先端のオブジェクト発見メソッドを最大8コロークポイントで上回っている。 また,検出対象に対するクラス非依存検出器の訓練により,結果がさらに7ポイント向上することを示した。 さらに,教師なしオブジェクト発見タスクにおいて有望な結果を示す。 結果を再現するコードは https://github.com/v aleoai/LOST で確認できる。

Localizing objects in image collections without supervision can help to avoid expensive annotation campaigns. We propose a simple approach to this problem, that leverages the activation features of a vision transformer pre-trained in a self-supervised manner. Our method, LOST, does not require any external object proposal nor any exploration of the image collection; it operates on a single image. Yet, we outperform state-of-the-art object discovery methods by up to 8 CorLoc points on PASCAL VOC 2012. We also show that training a class-agnostic detector on the discovered objects boosts results by another 7 points. Moreover, we show promising results on the unsupervised object discovery task. The code to reproduce our results can be found at https://github.com/v aleoai/LOST.
翻訳日:2021-09-30 14:49:52 公開日:2021-09-29
# 複雑な背景下での変圧器による赤外小型ターゲット検出

Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds ( http://arxiv.org/abs/2109.14379v1 )

ライセンス: Link先を確認
Fangcen Liu, Chenqiang Gao, Fang Chen, Deyu Meng, Wangmeng Zuo, Xinbo Gao(参考訳) 赤外線小ディムターゲット検出は、赤外線サーチ・トラッキングシステムにおける重要な技術の一つである。 赤外線小ディムターゲットと類似する局所領域は背景全体に拡がっているため,画像特徴間の相互作用情報を広範囲に依存して探究し,対象と背景の差異を探究することはロバストな検出に不可欠である。 しかし、既存のディープラーニングベースの手法は畳み込みニューラルネットワークの局所性によって制限されるため、大規模な依存関係をキャプチャする能力が損なわれる。 そこで本研究では,変換器を用いた赤外小型目標検出手法を提案する。 画像特徴の相互作用情報をより広い範囲で学習するために,変圧器の自己着脱機構を採用する。 さらに,小型ターゲットのさらなる特徴を学習するための機能拡張モジュールを設計する。 その後、u-netライクなスキップ接続操作を備えたデコーダを採用し、検出結果を得る。 2つの公開データセットに対する大規模な実験は、最先端の手法よりも提案手法の明らかな優位性を示している。

The infrared small-dim target detection is one of the key techniques in the infrared search and tracking system. Since the local regions which similar to infrared small-dim targets spread over the whole background, exploring the interaction information amongst image features in large-range dependencies to mine the difference between the target and background is crucial for robust detection. However, existing deep learning-based methods are limited by the locality of convolutional neural networks, which impairs the ability to capture large-range dependencies. To this end, we propose a new infrared small-dim target detection method with the transformer. We adopt the self-attention mechanism of the transformer to learn the interaction information of image features in a larger range. Additionally, we design a feature enhancement module to learn more features of small-dim targets. After that, we adopt a decoder with the U-Net-like skip connection operation to get the detection result. Extensive experiments on two public datasets show the obvious superiority of the proposed method over state-of-the-art methods.
翻訳日:2021-09-30 14:49:39 公開日:2021-09-29
# CCTrans: Transformerによるクラウドカウントの簡略化と改善

CCTrans: Simplifying and Improving Crowd Counting with Transformer ( http://arxiv.org/abs/2109.14483v1 )

ライセンス: Link先を確認
Ye Tian, Xiangxiang Chu, Hongpeng Wang(参考訳) 群集カウントに使われる最近の手法は、局所的な特徴を抽出する強力な能力を持つ畳み込みニューラルネットワーク(CNN)に基づいている。 しかしcnnは、レセプティブフィールドが限られているため、本質的にグローバルコンテキストのモデリングに失敗する。 しかし、変換器はグローバルコンテキストを容易にモデル化できる。 本稿では,設計パイプラインを簡易化するCCTransという簡単な手法を提案する。 具体的には,ピラミッド型視覚トランスフォーマーのバックボーンを用いて,階層型特徴集約 (pfa) モデルによる低レベル・高レベル機能の統合,マルチスケール拡張畳み込み (multi-scale dilated convolution, mdc) を用いた効率的な回帰ヘッドによる密度マップの予測を行う。 さらに、パイプラインの損失関数を調整します。 提案手法は,弱く,完全教師付き群数で,いくつかのベンチマークにおいて,新たな最先端結果が得られることを示す実験を行った。 また、現在、NWPU-Crowdのリーダーボードで第1位にランクされている。 私たちのコードは利用可能になります。

Most recent methods used for crowd counting are based on the convolutional neural network (CNN), which has a strong ability to extract local features. But CNN inherently fails in modeling the global context due to the limited receptive fields. However, the transformer can model the global context easily. In this paper, we propose a simple approach called CCTrans to simplify the design pipeline. Specifically, we utilize a pyramid vision transformer backbone to capture the global crowd information, a pyramid feature aggregation (PFA) model to combine low-level and high-level features, an efficient regression head with multi-scale dilated convolution (MDC) to predict density maps. Besides, we tailor the loss functions for our pipeline. Without bells and whistles, extensive experiments demonstrate that our method achieves new state-of-the-art results on several benchmarks both in weakly and fully-supervised crowd counting. Moreover, we currently rank No.1 on the leaderboard of NWPU-Crowd. Our code will be made available.
翻訳日:2021-09-30 14:49:24 公開日:2021-09-29
# 生成確率的画像彩色

Generative Probabilistic Image Colorization ( http://arxiv.org/abs/2109.14518v1 )

ライセンス: Link先を確認
Chie Furusawa, Shinya Kitaoka, Michael Li, Yuri Odagiri(参考訳) 本稿では,確率モデルの列を訓練し,ノイズ破壊の各ステップを反転させる拡散に基づく生成過程である生成確率画像のカラー化を提案する。 入力として線引き画像が与えられた場合,複数のカラー化画像が提案される。 したがって,本手法は着色問題の性質に悪影響を及ぼす。 ライン描画画像のカラー化に関する包括的実験を行い,推定サンプルの限界分布を補正するスコアベースmcmc法の影響を報告し,さらにモデルの組み合わせと生成画像の類似性について比較した。 比較的小さなトレーニングデータセットのみを用いて,モード崩壊を回避し,追加の制約や損失,代替トレーニング条件による再トレーニングを必要としない,多種多様なカラー化候補を生成する手法を実験的に開発した。 提案手法は,初期値のバイアスを用いた色条件画像生成タスクだけでなく,実用的な画像補完や塗装タスクにも有効である。

We propose Generative Probabilistic Image Colorization, a diffusion-based generative process that trains a sequence of probabilistic models to reverse each step of noise corruption. Given a line-drawing image as input, our method suggests multiple candidate colorized images. Therefore, our method accounts for the ill-posed nature of the colorization problem. We conducted comprehensive experiments investigating the colorization of line-drawing images, report the influence of a score-based MCMC approach that corrects the marginal distribution of estimated samples, and further compare different combinations of models and the similarity of their generated images. Despite using only a relatively small training dataset, we experimentally develop a method to generate multiple diverse colorization candidates which avoids mode collapse and does not require any additional constraints, losses, or re-training with alternative training conditions. Our proposed approach performed well not only on color-conditional image generation tasks using biased initial values, but also on some practical image completion and inpainting tasks.
翻訳日:2021-09-30 14:49:05 公開日:2021-09-29
# ヘビーメイクアップ転送のための詳細領域適応正規化

Detailed Region-Adaptive Normalization for Heavy Makeup Transfer ( http://arxiv.org/abs/2109.14525v1 )

ライセンス: Link先を確認
Yueming Lyu, Peibin Chen, Jingna Sun, Xu Wang, Jing Dong, Tieniu Tan(参考訳) 近年、顔のメイクスタイルを異なる顔間で転送する際の効率と柔軟性から、顔のメイクスタイルの移動が注目されている。 近年の作品は現実的な成果を上げているが、多くは複数の色と微妙な詳細で重厚なメイクスタイルを扱わなかった。 そこで我々は,異なるポーズや表現に対するロバスト性を維持しつつ,重い化粧品の移動を処理する新しいGANモデルを提案する。 まず,複数の層から地域別メイクアップ特徴を学習するために,メークアップマルチ抽出ネットワークを導入する。 そこで, 精密領域適応正規化(Detailed Region-Adaptive Normalization)と呼ばれるキー転送モジュールを提案し, 異なるレベルのメイクスタイルを適応的に融合させ, ヘビーメイク転送の品質を大幅に向上させる。 2つのコンポーネントからの出力により、メイクアップ転送ネットワークはメイクアップ転送を行う。 提案手法の有効性を評価するため,多種多様なヘビースタイルを含む新しいメイクアップデータセットを収集した。 実験により,本手法は化粧スタイルの軽さと重厚さを両立させ,ポーズや表現に頑健であることがわかった。

In recent years, facial makeup transfer has attracted growing attention due to its efficiency and flexibility in transferring makeup styles between different faces. Although recent works have achieved realistic results, most of them fail to handle heavy makeup styles with multiple colors and subtle details. Hence we propose a novel GAN model to handle heavy makeup transfer, while maintaining the robustness to different poses and expressions. Firstly, a Makeup Multi-Extraction Network is introduced to learn region-wise makeup features from multiple layers. Then, a key transferring module called Detailed Region-Adaptive Normalization is proposed to fuse different levels of makeup styles in an adaptive way, making great improvement to the quality of heavy makeup transfer. With the outputs from the two components, Makeup Transfer Network is used to perform makeup transfer. To evaluate the efficacy of our proposed method, we collected a new makeup dataset containing a wide range of heavy styles. Experiments show that our method achieves state-of-the-art results both on light and heavy makeup styles, and is robust to different poses and expressions.
翻訳日:2021-09-30 14:48:50 公開日:2021-09-29
# Vitruvion:パラメトリックCADスケッチの生成モデル

Vitruvion: A Generative Model of Parametric CAD Sketches ( http://arxiv.org/abs/2109.14124v1 )

ライセンス: Link先を確認
Ari Seff, Wenda Zhou, Nick Richardson, Ryan P. Adams(参考訳) CAD(Parametric Computer-Aided Design)は、自転車ペダルから飛行機、プリント回路基板に至るまで、エンジニアが物理的構造を特定する主要な方法である。 パラメトリックCADのキーとなる特徴は、設計意図が幾何学的プリミティブだけでなく、要素間のパラメータ化制約によって符号化されることである。 この関係仕様は制約プログラムの構成と見なすことができ、編集が設計の他の部分に一貫性を持って伝播することを可能にする。 機械学習は、これらの構造の生成的モデリングを通じて設計プロセスを加速する興味深い可能性を提供し、自動補完、制約推論、条件合成などの新しいツールを可能にする。 本研究では,現代機械設計の基本的な計算構築ブロックを構成するパラメトリックCADスケッチの生成モデルを提案する。 当社のモデルはsketchgraphsデータセットから実世界の設計に基づいてトレーニングされ、初期座標とサンプルされたプリミティブを参照する制約によって、自己回帰的にスケッチをプリミティブのシーケンスとして合成します。 モデルからのサンプルは標準CADソフトウェアで使用される制約グラフ表現と一致するため、下流の設計タスクに従って直接インポート、解決、編集される。 さらに,部分スケッチ(プライマー)や手書きスケッチのイメージなど,様々な文脈でモデルを条件付けする。 提案手法の評価は,リアルなCADスケッチを合成する能力と,機械設計のワークフローを支援する可能性を示す。

Parametric computer-aided design (CAD) tools are the predominant way that engineers specify physical structures, from bicycle pedals to airplanes to printed circuit boards. The key characteristic of parametric CAD is that design intent is encoded not only via geometric primitives, but also by parameterized constraints between the elements. This relational specification can be viewed as the construction of a constraint program, allowing edits to coherently propagate to other parts of the design. Machine learning offers the intriguing possibility of accelerating the design process via generative modeling of these structures, enabling new tools such as autocompletion, constraint inference, and conditional synthesis. In this work, we present such an approach to generative modeling of parametric CAD sketches, which constitute the basic computational building blocks of modern mechanical design. Our model, trained on real-world designs from the SketchGraphs dataset, autoregressively synthesizes sketches as sequences of primitives, with initial coordinates, and constraints that reference back to the sampled primitives. As samples from the model match the constraint graph representation used in standard CAD software, they may be directly imported, solved, and edited according to downstream design tasks. In addition, we condition the model on various contexts, including partial sketches (primers) and images of hand-drawn sketches. Evaluation of the proposed approach demonstrates its ability to synthesize realistic CAD sketches and its potential to aid the mechanical design workflow.
翻訳日:2021-09-30 14:48:05 公開日:2021-09-29
# 疾患進行モデリングのための外部メモリネットワークを用いた時間クラスタリング

Temporal Clustering with External Memory Network for Disease Progression Modeling ( http://arxiv.org/abs/2109.14147v1 )

ライセンス: Link先を確認
Zicong Zhang, Changchang Yin, Ping Zhang(参考訳) 疾患進行モデリング(DPM)は、特定の疾患の進行の重症度を定量的に測定するために数学的枠組みを使用する。 DPMは、健康状態の予測、疾患ステージの分類、疾患軌跡の評価など、多くの点で有用である。 近年、電子健康記録(EHR)が広く利用可能になり、データ駆動機械学習の幅広い応用が進み、DPMは大きな注目を集めているが、大きな課題は2つ残っている。 i) EHRに不規則性, 不均一性, 長期依存性があるため, 既存のDPM法では包括的患者表現ができない場合がある。 (II) EHRの多数の記録が対象疾患と無関係である可能性がある。 既存のモデルの多くは、ターゲットに関連するイベントを明示的にキャプチャする代わりに、関連する情報に自動的に焦点を合わせることを学びます。 そこで本研究では,同様の病態を有する患者をグループ化して疾患クラスタ/ステージを形成するdpmのための,外部メモリネットワーク(tc-emnet)を用いた時間的クラスタリングを提案する。 TC-EMNetは、入力データから内部の複雑さを捉えるために可変オートエンコーダ(VAE)を使用し、外部メモリワークを使用して長期距離情報をキャプチャし、どちらも包括的な患者の状態を生成するのに役立つ。 最後に、k-meansアルゴリズムが抽出された包括的患者状態をクラスタ化し、疾患の進行を捉える。 2つの実世界のデータセットの実験により、我々のモデルは最先端の手法と競合するクラスタリング性能を示し、臨床的に意味のあるクラスタを識別できることを示した。 抽出した患者状態の可視化は,提案モデルがベースラインよりも優れた患者状態を生成することを示す。

Disease progression modeling (DPM) involves using mathematical frameworks to quantitatively measure the severity of how certain disease progresses. DPM is useful in many ways such as predicting health state, categorizing disease stages, and assessing patients disease trajectory etc. Recently, with wider availability of electronic health records (EHR) and the broad application of data-driven machine learning method, DPM has attracted much attention yet remains two major challenges: (i) Due to the existence of irregularity, heterogeneity and long-term dependency in EHRs, most existing DPM methods might not be able to provide comprehensive patient representations. (ii) Lots of records in EHRs might be irrelevant to the target disease. Most existing models learn to automatically focus on the relevant information instead of explicitly capture the target-relevant events, which might make the learned model suboptimal. To address these two issues, we propose Temporal Clustering with External Memory Network (TC-EMNet) for DPM that groups patients with similar trajectories to form disease clusters/stages. TC-EMNet uses a variational autoencoder (VAE) to capture internal complexity from the input data and utilizes an external memory work to capture long term distance information, both of which are helpful for producing comprehensive patient states. Last but not least, k-means algorithm is adopted to cluster the extracted comprehensive patient states to capture disease progression. Experiments on two real-world datasets show that our model demonstrates competitive clustering performance against state-of-the-art methods and is able to identify clinically meaningful clusters. The visualization of the extracted patient states shows that the proposed model can generate better patient states than the baselines.
翻訳日:2021-09-30 14:47:40 公開日:2021-09-29
# 適応型多層コントラストグラフニューラルネットワーク

Adaptive Multi-layer Contrastive Graph Neural Networks ( http://arxiv.org/abs/2109.14159v1 )

ライセンス: Link先を確認
Shuhao Shi, Pengfei Xie, Xu Luo, Kai Qiao, Linyuan Wang, Jian Chen and Bin Yan(参考訳) 本稿では,グラフニューラルネットワークのための自己教師付き学習フレームワークであるadaptive multi-layer contrastive graph neural networks (amc-gnn)を提案する。 AMC-GNNはデータ拡張によって2つのグラフビューを生成し、グラフニューラルネットワークエンコーダの出力埋め込みを比較して、下流タスクに使用できる特徴表現を得る。 amc-gnnはアテンション機構を通じて異なる層への埋め込みの重要性を学習することができ、グラフコントラストエンコーダのトレーニングに補助エンコーダが導入された。 初期層と最終埋め込み空間における正の対の表現の一貫性を最大化することにより精度を向上する。 AMC-GNNフレームワークを使用して、Cora、Citeseer、Pubmed、DBLP引用ネットワークデータセット、新たに提案された4つのデータセット、Co-author-CS、Co-author-Physics、Amazon-Computers、Amazon-Photoの4つのグラフベンチマークを使用して、結果が一貫して改善されることを示す。

We present Adaptive Multi-layer Contrastive Graph Neural Networks (AMC-GNN), a self-supervised learning framework for Graph Neural Network, which learns feature representations of sample data without data labels. AMC-GNN generates two graph views by data augmentation and compares different layers' output embeddings of Graph Neural Network encoders to obtain feature representations, which could be used for downstream tasks. AMC-GNN could learn the importance weights of embeddings in different layers adaptively through the attention mechanism, and an auxiliary encoder is introduced to train graph contrastive encoders better. The accuracy is improved by maximizing the representation's consistency of positive pairs in the early layers and the final embedding space. Our experiments show that the results can be consistently improved by using the AMC-GNN framework, across four established graph benchmarks: Cora, Citeseer, Pubmed, DBLP citation network datasets, as well as four newly proposed datasets: Co-author-CS, Co-author-Physics, Amazon-Computers, Amazon-Photo.
翻訳日:2021-09-30 14:47:08 公開日:2021-09-29
# マルチラベル分類ネットワークは、彼らが知らないことを知ることができるか?

Can multi-label classification networks know what they don't know? ( http://arxiv.org/abs/2109.14162v1 )

ライセンス: Link先を確認
Haoran Wang, Weitang Liu, Alex Bocchieri, Yixuan Li(参考訳) アウトオブディストリビューション(ood)の不確実性の推定は、オープンワールド環境で機械学習モデルを安全にデプロイするための中心的な課題である。 マルチクラス分類におけるOOD検出の方法が改良されている一方で,OOD検出手法は未探索のままであり,初歩的手法を用いている。 複数ラベルからのエネルギースコアを集約することにより,OODインジケータのスコアを簡易かつ効果的に推定するJointEnergyを提案する。 共同エネルギーは, 確率的視点から数学的に解釈できることを示す。 以上の結果から,複数ラベルのジョイント情報の取得に失敗する最大スコアに基づく従来手法よりも一貫した改善が得られた。 提案手法はMS-COCO, PASCAL-VOC, NUS-WIDEを含む3つの共通マルチラベル分類ベンチマークにおいて有効であることを示す。 その結果,fpr95は従来のベストベースラインと比較して最大10.05%削減でき,最新性能が得られた。

Estimating out-of-distribution (OOD) uncertainty is a central challenge for safely deploying machine learning models in the open-world environment. Improved methods for OOD detection in multi-class classification have emerged, while OOD detection methods for multi-label classification remain underexplored and use rudimentary techniques. We propose JointEnergy, a simple and effective method, which estimates the OOD indicator scores by aggregating energy scores from multiple labels. We show that JointEnergy can be mathematically interpreted from a joint likelihood perspective. Our results show consistent improvement over previous methods that are based on the maximum-valued scores, which fail to capture joint information from multiple labels. We demonstrate the effectiveness of our method on three common multi-label classification benchmarks, including MS-COCO, PASCAL-VOC, and NUS-WIDE. We show that JointEnergy can reduce the FPR95 by up to 10.05% compared to the previous best baseline, establishing state-of-the-art performance.
翻訳日:2021-09-30 14:46:45 公開日:2021-09-29
# 早期停止トラバース戦略による効率的な強化特徴選択

Efficient Reinforced Feature Selection via Early Stopping Traverse Strategy ( http://arxiv.org/abs/2109.14180v1 )

ライセンス: Link先を確認
Kunpeng Liu, Pengfei Wang, Dongjie Wang, Wan Du, Dapeng Oliver Wu, Yanjie Fu(参考訳) 本稿では,モンテカルロの単エージェント型強化特徴選択(MCRFS)手法と,早期停止(ES)戦略と報酬レベル対話(RI)戦略の2つの効率改善戦略を提案する。 機能選択は、所定の下流機械学習タスクに最適な機能サブセットを見つけることを目的とした、データ前提の最も重要な技術の1つである。 その効果と効率を改善するために、膨大な研究がなされている。 近年,マルチエージェント強化特徴選択(MARFS)は特徴選択の性能向上に大きく貢献している。 しかし、MARFSは計算コストの重い負担に悩まされ、現実のシナリオでは適用が大幅に制限される。 本稿では,1つのエージェントで特徴集合全体をトラバースし,各特徴集合を1つずつ選択するか選択しないかを決定する効率的な強化特徴選択手法を提案する。 具体的には、まず1つの行動ポリシーを開発し、それを機能セットをトラバースし、トレーニングデータを生成する。 そして、トレーニングデータに基づいて目標ポリシーを評価し、ベルマン方程式により目標ポリシーを改善する。 さらに,重要度を漸進的にサンプリングし,スキューデータの除去によるトレーニング効率向上のための早期停止戦略を提案する。 早期停止戦略では、行動ポリシーは、重要サンプリング重量に反比例する確率でトラバースを停止する。 さらに,報酬レベルの外部アドバイスを通じてトレーニング効率を向上させるための報酬レベルの対話戦略を提案する。 最後に,提案手法の優位性を示すために,実世界のデータに関する広範な実験を設計する。

In this paper, we propose a single-agent Monte Carlo based reinforced feature selection (MCRFS) method, as well as two efficiency improvement strategies, i.e., early stopping (ES) strategy and reward-level interactive (RI) strategy. Feature selection is one of the most important technologies in data prepossessing, aiming to find the optimal feature subset for a given downstream machine learning task. Enormous research has been done to improve its effectiveness and efficiency. Recently, the multi-agent reinforced feature selection (MARFS) has achieved great success in improving the performance of feature selection. However, MARFS suffers from the heavy burden of computational cost, which greatly limits its application in real-world scenarios. In this paper, we propose an efficient reinforcement feature selection method, which uses one agent to traverse the whole feature set, and decides to select or not select each feature one by one. Specifically, we first develop one behavior policy and use it to traverse the feature set and generate training data. And then, we evaluate the target policy based on the training data and improve the target policy by Bellman equation. Besides, we conduct the importance sampling in an incremental way, and propose an early stopping strategy to improve the training efficiency by the removal of skew data. In the early stopping strategy, the behavior policy stops traversing with a probability inversely proportional to the importance sampling weight. In addition, we propose a reward-level interactive strategy to improve the training efficiency via reward-level external advice. Finally, we design extensive experiments on real-world data to demonstrate the superiority of the proposed method.
翻訳日:2021-09-30 14:46:23 公開日:2021-09-29
# 孤立カーネルによる次元の呪いを破る

Breaking the curse of dimensionality with Isolation Kernel ( http://arxiv.org/abs/2109.14198v1 )

ライセンス: Link先を確認
Kai Ming Ting, Takashi Washio, Ye Zhu, Yang Xu(参考訳) 次元の呪いは異なる側面で研究されてきた。 しかし、呪いを破るというのはあり得ない。 私たちは最近導入されたIsolation Kernelを使って、呪いを破ることができることを初めて示します。 低次元および高次元でのインデックス付き探索、スペクトルと密度ピークのクラスタリング、svm分類、t-sne可視化において、距離、ガウス、線形カーネルと比較して、分離カーネルのみが一貫して機能することを示す。 このことは、既存の計量ベースのLipschitz連続カーネルと比較して、分離カーネルが呪いを破る証明可能な能力を持つ唯一のカーネルである、という理論解析によって裏付けられている。

The curse of dimensionality has been studied in different aspects. However, breaking the curse has been elusive. We show for the first time that it is possible to break the curse using the recently introduced Isolation Kernel. We show that only Isolation Kernel performs consistently well in indexed search, spectral & density peaks clustering, SVM classification and t-SNE visualization in both low and high dimensions, compared with distance, Gaussian and linear kernels. This is also supported by our theoretical analyses that Isolation Kernel is the only kernel that has the provable ability to break the curse, compared with existing metric-based Lipschitz continuous kernels.
翻訳日:2021-09-30 14:45:59 公開日:2021-09-29
# 因子グラフのための等変ニューラルネットワーク

Equivariant Neural Network for Factor Graphs ( http://arxiv.org/abs/2109.14218v1 )

ライセンス: Link先を確認
Fan-Yun Sun, Jonathan Kuck, Hao Tang, Stefano Ermon(参考訳) 因子グラフデータ構造で使われるいくつかの指標は、基礎となる確率分布を変更することなく置換することができる。 因子グラフ上で推論を行うアルゴリズムは、理想的には、ノードのグローバルなインデックス、係数内の変数順序、変数割り当て順序の置換に不変または不変であるべきである。 しかし、既存のニューラルネットワークベースの推論手順では、この帰納バイアスを活用できない。 本稿では、これらの因子グラフの同型特性を正確に特徴付け、因子同型ニューラルネットワーク(FE-NBP)と因子同型グラフニューラルネットワーク(FE-GNN)の2つの推論モデルを提案する。 FE-NBP は BP を一般化し、因子グラフの各特性を尊重するニューラルネットワークであり、FE-GNN は表現性を高めるために同型性を緩和する表現的 GNN モデルである。 FE-NBPとFE-GNNはともに、小さなデータセット上で最先端のパフォーマンスを達成し、FE-GNNは大規模データセット上で最先端のパフォーマンスを達成します。

Several indices used in a factor graph data structure can be permuted without changing the underlying probability distribution. An algorithm that performs inference on a factor graph should ideally be equivariant or invariant to permutations of global indices of nodes, variable orderings within a factor, and variable assignment orderings. However, existing neural network-based inference procedures fail to take advantage of this inductive bias. In this paper, we precisely characterize these isomorphic properties of factor graphs and propose two inference models: Factor-Equivariant Neural Belief Propagation (FE-NBP) and Factor-Equivariant Graph Neural Networks (FE-GNN). FE-NBP is a neural network that generalizes BP and respects each of the above properties of factor graphs while FE-GNN is an expressive GNN model that relaxes an isomorphic property in favor of greater expressivity. Empirically, we demonstrate on both real-world and synthetic datasets, for both marginal inference and MAP inference, that FE-NBP and FE-GNN together cover a range of sample complexity regimes: FE-NBP achieves state-of-the-art performance on small datasets while FE-GNN achieves state-of-the-art performance on large datasets.
翻訳日:2021-09-30 14:45:31 公開日:2021-09-29
# 材料構造予測のためのEBSDグラインド知識グラフ表現学習

EBSD Grain Knowledge Graph Representation Learning for Material Structure-Property Prediction ( http://arxiv.org/abs/2109.14248v1 )

ライセンス: Link先を確認
Chao Shu, Zhuoran Xin, Cheng Xie(参考訳) この微細構造は材料の必須部分であり、材料の遺伝子を貯蔵し、材料の物理的および化学的性質に決定的な影響を与える。 物質遺伝工学プログラムは、材料組成・プロセス・組織・性能の関係を確立し、材料のリバースデザインを実現し、新たな材料の研究・開発を加速することを目的としている。 しかしながら、金属分析、XRD分析、EBSD分析などの材料科学の組織分析法は、組織構造と性能の完全な定量的関係を直接的に確立することはできない。 そこで本研究では,データ知識に基づく組織表現とパフォーマンス予測手法を提案し,定量的な構造・性能関係を求める。 まず、EBSDに基づく知識グラフを構築し、その材料のメソスコピックな微細構造を記述する。 そして、グラフ注意に基づくグラフ表現学習ネットワークを構築し、EBSD組織知識グラフをネットワークに入力してグラフレベルの特徴埋め込みを得る。 最後に、グラフレベルの特徴埋め込みをグラフ特徴マッピングネットワークに入力し、材料の機械的特性を得る。 実験の結果,本手法は従来の機械学習やマシンビジョン手法よりも優れていることがわかった。

The microstructure is an essential part of materials, storing the genes of materials and having a decisive influence on materials' physical and chemical properties. The material genetic engineering program aims to establish the relationship between material composition/process, organization, and performance to realize the reverse design of materials, thereby accelerating the research and development of new materials. However, tissue analysis methods of materials science, such as metallographic analysis, XRD analysis, and EBSD analysis, cannot directly establish a complete quantitative relationship between tissue structure and performance. Therefore, this paper proposes a novel data-knowledge-drive n organization representation and performance prediction method to obtain a quantitative structure-performanc e relationship. First, a knowledge graph based on EBSD is constructed to describe the material's mesoscopic microstructure. Then a graph representation learning network based on graph attention is constructed, and the EBSD organizational knowledge graph is input into the network to obtain graph-level feature embedding. Finally, the graph-level feature embedding is input to a graph feature mapping network to obtain the material's mechanical properties. The experimental results show that our method is superior to traditional machine learning and machine vision methods.
翻訳日:2021-09-30 14:45:09 公開日:2021-09-29
# apple tasting再訪:ベイズ的アプローチによるオンラインバイナリ分類の部分監視

Apple Tasting Revisited: Bayesian Approaches to Partially Monitored Online Binary Classification ( http://arxiv.org/abs/2109.14412v1 )

ライセンス: Link先を確認
James A. Grant, David S. Leslie(参考訳) 学習者がラベル(0ドルまたは1ドル)を未知の真のクラスを持つ項目に逐次割り当てるオンライン二項分類の変種を考える。 もし、しかし、学習者が1ドルのラベルを選択すると、すぐにアイテムの本当のラベルを観察する。 学習者は、短期分類精度と長期情報ゲインとのトレードオフに直面している。 この問題は以前、"apple tasting"問題という名前で研究されてきた。 我々は,この問題を側面情報を伴う部分的監視問題として再検討し,ロジスティック回帰モデルを用いて,アイテムの特徴と真のクラスとの関連性に注目した。 我々の主な貢献は、この問題に対するトンプソンサンプリング(TS)の性能に関する研究である。 近年開発された情報理論ツールを用いて,tsが先行手法に対する改善命令のベイズ的後悔を実現したことを示す。 さらに,P\'{o}lya-Gamma拡張によるTSとInformation Directed Smplingの効率的な近似が,既存の手法よりも優れた実験性能を持つことを示す。

We consider a variant of online binary classification where a learner sequentially assigns labels ($0$ or $1$) to items with unknown true class. If, but only if, the learner chooses label $1$ they immediately observe the true label of the item. The learner faces a trade-off between short-term classification accuracy and long-term information gain. This problem has previously been studied under the name of the `apple tasting' problem. We revisit this problem as a partial monitoring problem with side information, and focus on the case where item features are linked to true classes via a logistic regression model. Our principal contribution is a study of the performance of Thompson Sampling (TS) for this problem. Using recently developed information-theoreti c tools, we show that TS achieves a Bayesian regret bound of an improved order to previous approaches. Further, we experimentally verify that efficient approximations to TS and Information Directed Sampling via P\'{o}lya-Gamma augmentation have superior empirical performance to existing methods.
翻訳日:2021-09-30 14:44:50 公開日:2021-09-29
# 自己学習のための多クラス確率境界

Multi-class Probabilistic Bounds for Self-learning ( http://arxiv.org/abs/2109.14422v1 )

ライセンス: Link先を確認
Vasilii Feofanov and Emilie Devijver and Massih-Reza Amini(参考訳) 自己学習(セルフラーニング)は、ラベル付きおよびラベルなしの観察の両方で学習するための古典的なアプローチであり、所定の閾値を超えた信頼スコアを持つラベルなしトレーニングインスタンスに擬似ラベルを与える。 同時に、擬似ラベル技術はエラーを起こしやすく、ラベルなしのトレーニングデータにノイズの多いラベルを追加するリスクも負う。 本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。 まず、多クラス多数決分類器のリスクに対して、トランスダクティブなバウンダリを導出する。 この結果に基づき、トランスダクティブ境界を最小化する擬似ラベルのしきい値を自動的に選択する。 次に、擬似ラベルデータの場合の多数決分類器の誤りを分析するために、誤ラベル誤りモデルを導入する。 不完全なラベルが与えられた場合、多数決エラーに対して確率的C-boundを導出する。 異なるデータセットにおける実験結果から, 最先端の半教師付きアプローチと比較して, フレームワークの有効性が示された。

Self-learning is a classical approach for learning with both labeled and unlabeled observations which consists in giving pseudo-labels to unlabeled training instances with a confidence score over a predetermined threshold. At the same time, the pseudo-labeling technique is prone to error and runs the risk of adding noisy labels into unlabeled training data. In this paper, we present a probabilistic framework for analyzing self-learning in the multi-class classification scenario with partially labeled data. First, we derive a transductive bound over the risk of the multi-class majority vote classifier. Based on this result, we propose to automatically choose the threshold for pseudo-labeling that minimizes the transductive bound. Then, we introduce a mislabeling error model to analyze the error of the majority vote classifier in the case of the pseudo-labeled data. We derive a probabilistic C-bound over the majority vote error when an imperfect label is given. Empirical results on different data sets show the effectiveness of our framework compared to several state-of-the-art semi-supervised approaches.
翻訳日:2021-09-30 14:44:35 公開日:2021-09-29
# データグラフにおけるモデル不確実性に対する疫学的アプローチ

An epistemic approach to model uncertainty in data-graphs ( http://arxiv.org/abs/2109.14112v1 )

ライセンス: Link先を確認
Sergio Abriola, Santiago Cifuentes, Mar\'ia Vanina Mart\'inez, Nina Pardal, Edwin Pin(参考訳) グラフデータベースは、さまざまなタイプのデータ間の複雑な関係を効果的に表現し処理できるデータモデルとして、広く成功しています。 他のタイプのデータリポジトリと同様に、グラフデータベースは、彼らが表現しようとする現実世界のデータに関して、エラーや不一致に悩まされる可能性がある。 本研究では,これまでリレーショナルデータベースで提案されていた確率的アンクルグラフデータベースの概念を探求し,観測された(クリーンでない)グラフデータベースが,実際には世界を正しくモデル化するクリーンなデータベースのノイズバージョンである,という考え方を捉えた。 例えば、あらゆる種類の聖職者の誤りや意図しないデータの変換など、観測に関わる可能性のある要素が多数存在するため、クリーンな(不確実な)データベースが汚染される可能性のあるあらゆる方法で分布を記述する確率論的モデルが想定される。 このモデルに基づいて、データクリーニングと確率的クエリ応答という2つの計算問題を定義し、データベースの変換が(サブセット)削除または(スーパーセット)ノードとエッジの追加によって引き起こされる可能性があることを考慮し、両者の複雑さについて検討する。

Graph databases are becoming widely successful as data models that allow to effectively represent and process complex relationships among various types of data. As with any other type of data repository, graph databases may suffer from errors and discrepancies with respect to the real-world data they intend to represent. In this work we explore the notion of probabilistic unclean graph databases, previously proposed for relational databases, in order to capture the idea that the observed (unclean) graph database is actually the noisy version of a clean one that correctly models the world but that we know partially. As the factors that may be involved in the observation can be many, e.g, all different types of clerical errors or unintended transformations of the data, we assume a probabilistic model that describes the distribution over all possible ways in which the clean (uncertain) database could have been polluted. Based on this model we define two computational problems: data cleaning and probabilistic query answering and study for both of them their corresponding complexity when considering that the transformation of the database can be caused by either removing (subset) or adding (superset) nodes and edges.
翻訳日:2021-09-30 14:44:17 公開日:2021-09-29
# コンセプトドリフトの存在下での税関不正検出

Customs Fraud Detection in the Presence of Concept Drift ( http://arxiv.org/abs/2109.14155v1 )

ライセンス: Link先を確認
Tung-Duong Mai and Kien Hoang and Aitolkyn Baigutanova and Gaukhartas Alina and Sundong Kim(参考訳) 取引パターンの変更は、税関詐欺の検出において重要である。 新しい商品が輸入され、新しい詐欺が発生すると、限られた予算内で既知の詐欺と未知の詐欺の両方を検出するために、ドリフトアウェア詐欺検出システムが必要である。 本稿では,税関不正検出に使用される搾取と探索戦略のバランスを制御する適応的選択手法であるadaptを提案する。 ADAPTはモデルの性能トレンドと概念のドリフトを利用して、毎回最高の探査比率を決定する。 数年間の4カ国のデータによる実験は、各国が不正検出システムを維持するために異なる量の調査を必要としていることを示している。 ADAPTを用いたシステムは、データセットに徐々に適応し、高い性能で適切な探索比を求めることができる。

Capturing the changing trade pattern is critical in customs fraud detection. As new goods are imported and novel frauds arise, a drift-aware fraud detection system is needed to detect both known frauds and unknown frauds within a limited budget. The current paper proposes ADAPT, an adaptive selection method that controls the balance between exploitation and exploration strategies used for customs fraud detection. ADAPT makes use of the model performance trends and the amount of concept drift to determine the best exploration ratio at every time. Experiments on data from four countries over several years show that each country requires a different amount of exploration for maintaining its fraud detection system. We find the system with ADAPT can gradually adapt to the dataset and find the appropriate amount of exploration ratio with high performance.
翻訳日:2021-09-30 14:43:55 公開日:2021-09-29
# 次のバスケットレコメンデーションの現実チェック

A Next Basket Recommendation Reality Check ( http://arxiv.org/abs/2109.14233v1 )

ライセンス: Link先を確認
Ming Li, Sami Jullien, Mozhdeh Ariannezhad, Maarten de Rijke(参考訳) 次のバスケットレコメンデーション(nbr)システムの目標は、前のバスケットのシーケンスに基づいて、ユーザに次のバスケットのアイテムを推奨することである。 近年,最先端性能を主張する複雑なモジュールを持つ手法が提案されている。 彼らは予測されたバスケットを調べることは滅多になく、観察された改善の直感的な理由、例えば表現の改善、意図や関係のキャプチャなどを提供します。 本稿では, 繰り返しと探索の区別を主眼とした, 次回のバスケット推薦手法の評価について, 従来使用されていた項目(リピート項目)と新項目(探索項目)の区別を中心に, 新たなアングルを提案する。 NBRモデルの繰り返し/爆発率と性能を測定する指標のセットを提案する。 これらの新しい指標を用いて、最先端のNBRモデルを分析する。 本研究の結果は,既存のNBR法で達成された実際の進歩の程度と,改善の根本原因を明らかにするのに役立つ。 全体として、我々の研究はNBRの評価問題に光を当て、このタスクのモデル設計に関する有用な洞察を提供する。

The goal of a next basket recommendation (NBR) system is to recommend items for the next basket for a user, based on the sequence of their prior baskets. Recently, a number of methods with complex modules have been proposed that claim state-of-the-art performance. They rarely look into the predicted basket and just provide intuitive reasons for the observed improvements, e.g., better representation, capturing intentions or relations, etc. We provide a novel angle on the evaluation of next basket recommendation methods, centered on the distinction between repetition and exploration: the next basket is typically composed of previously consumed items (i.e., repeat items) and new items (i.e, explore items). We propose a set of metrics that measure the repeat/explore ratio and performance of NBR models. Using these new metrics, we analyze state-of-the-art NBR models. The results of our analysis help to clarify the extent of the actual progress achieved by existing NBR methods as well as the underlying reasons for the improvements. Overall, our work sheds light on the evaluation problem of NBR and provides useful insights into the model design for this task.
翻訳日:2021-09-30 14:43:42 公開日:2021-09-29
# 教師なし行動計画を用いた深層強化学習の安全性向上

Improving Safety in Deep Reinforcement Learning using Unsupervised Action Planning ( http://arxiv.org/abs/2109.14325v1 )

ライセンス: Link先を確認
Hao-Lun Hsu, Qiuhua Huang, Sehoon Ha(参考訳) 深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。 本研究では,信頼地域政策最適化 (TRPO) や近親政策最適化 (PPO) などのオンライン強化学習アルゴリズムの安全性向上を目的とした,教師なし行動計画手法を提案する。 我々は、危険状況からエージェントを救い出す「回復」行動の履歴をすべて別個の「安全」バッファに保存し、エージェントが同様の状態に遭遇した場合に最適な回復行動を見つけることによって、安全に配慮した強化学習を設計する。 この機能は,類似状態を問うアルゴリズムを必要とするため,教師なし学習アルゴリズムであるk平均クラスタリングを用いて,提案した安全性機構を実装した。 ナビゲーションと操作をカバーする6つのロボット制御タスクについて,提案アルゴリズムの評価を行った。 提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬が得られることを示す。 補足ビデオは、https://youtu.be/AFT eWSohILo.comで見ることができる。

One of the key challenges to deep reinforcement learning (deep RL) is to ensure safety at both training and testing phases. In this work, we propose a novel technique of unsupervised action planning to improve the safety of on-policy reinforcement learning algorithms, such as trust region policy optimization (TRPO) or proximal policy optimization (PPO). We design our safety-aware reinforcement learning by storing all the history of "recovery" actions that rescue the agent from dangerous situations into a separate "safety" buffer and finding the best recovery action when the agent encounters similar states. Because this functionality requires the algorithm to query similar states, we implement the proposed safety mechanism using an unsupervised learning algorithm, k-means clustering. We evaluate the proposed algorithm on six robotic control tasks that cover navigation and manipulation. Our results show that the proposed safety RL algorithm can achieve higher rewards compared with multiple baselines in both discrete and continuous control problems. The supplemental video can be found at: https://youtu.be/AFT eWSohILo.
翻訳日:2021-09-30 14:43:24 公開日:2021-09-29
# 医療iotシステムにおけるセキュアなマルチパーティ計算ベースのプライバシー保護データ分析

Secure Multi-Party Computation based Privacy Preserving Data Analysis in Healthcare IoT Systems ( http://arxiv.org/abs/2109.14334v1 )

ライセンス: Link先を確認
Kevser \c{S}ahinba\c{s} and Ferhat Ozgur Catak(参考訳) 近年,インターネット・オブ・シングス(IoT)技術が急速に発展し,医療分野における大きな発展と設備を提供し,日常生活を改善することで,医療分野で多くのイノベーションが経験されている。 IoTは人や情報技術、ショッピングのスピードアップを橋渡しする。 これらの理由から、IoTテクノロジは大規模に使用され始めている。 医療サービスにおけるIoT技術の利用、慢性疾患のモニタリング、健康モニタリング、迅速な介入、早期診断や治療などにより、医療サービスのデリバリが容易になる。 しかし、デジタル環境に転送されたデータは、プライバシー漏洩の脅威となる。 無許可の人々はそれらを使用しており、個人の健康とプライバシーに対する悪意ある攻撃があった。 本研究では,連合学習に基づくプライバシ問題を扱うモデルを提案することを目的とする。 さらに、セキュアなマルチパーティ計算を適用する。 提案モデルでは,広範囲なプライバシとデータ解析を行い,高い性能を実現する。

Recently, many innovations have been experienced in healthcare by rapidly growing Internet-of-Things (IoT) technology that provides significant developments and facilities in the health sector and improves daily human life. The IoT bridges people, information technology and speed up shopping. For these reasons, IoT technology has started to be used on a large scale. Thanks to the use of IoT technology in health services, chronic disease monitoring, health monitoring, rapid intervention, early diagnosis and treatment, etc. facilitates the delivery of health services. However, the data transferred to the digital environment pose a threat of privacy leakage. Unauthorized persons have used them, and there have been malicious attacks on the health and privacy of individuals. In this study, it is aimed to propose a model to handle the privacy problems based on federated learning. Besides, we apply secure multi party computation. Our proposed model presents an extensive privacy and data analysis and achieve high performance.
翻訳日:2021-09-30 14:43:06 公開日:2021-09-29
# 早期インターレース映像の多フレーム関節強化

Multi-frame Joint Enhancement for Early Interlaced Videos ( http://arxiv.org/abs/2109.14151v1 )

ライセンス: Link先を確認
Yang Zhao, Yanbo Ma, Yuan Chen, Wei Jia, Ronggang Wang, Xiaoping Liu(参考訳) 初期のインターレースビデオは、通常、複数のインターレースと複雑な圧縮アーティファクトを含んでいるため、視覚品質が著しく低下する。 近年, 早期ビデオの高精細化技術は大きな進歩を遂げているが, 補間に関する関連研究はいまだに欠落している。 従来の手法は主に単純なインターレース機構に焦点を当てており、実際のアーリービデオでは複雑なアーティファクトを扱うことができない。 最近のinterlaced video reconstruction deep deinterlacing modelsは、重要な時間的情報を無視しながら、単一のフレームのみに焦点を当てている。 そこで本稿では,空間的垂直補間モジュール,時間的アライメントと融合モジュール,最終精細モジュールの3つのモジュールからなる,早期インターレースビデオのためのマルチフレーム・デインターレースネットワーク・ジョイント・エンハンスメント・ネットワークを提案する。 提案手法は,マルチフィールドの時間的冗長性を用いて,初期映像中の複雑なアーティファクトを効果的に除去する。 実験の結果,提案手法は合成データセットと実世界の早期インターレースビデオの両方に対して高品質な結果を得ることができることがわかった。

Early interlaced videos usually contain multiple and interlacing and complex compression artifacts, which significantly reduce the visual quality. Although the high-definition reconstruction technology for early videos has made great progress in recent years, related research on deinterlacing is still lacking. Traditional methods mainly focus on simple interlacing mechanism, and cannot deal with the complex artifacts in real-world early videos. Recent interlaced video reconstruction deep deinterlacing models only focus on single frame, while neglecting important temporal information. Therefore, this paper proposes a multiframe deinterlacing network joint enhancement network for early interlaced videos that consists of three modules, i.e., spatial vertical interpolation module, temporal alignment and fusion module, and final refinement module. The proposed method can effectively remove the complex artifacts in early videos by using temporal redundancy of multi-fields. Experimental results demonstrate that the proposed method can recover high quality results for both synthetic dataset and real-world early interlaced videos.
翻訳日:2021-09-30 14:41:46 公開日:2021-09-29
# REFLACXは胸部X線異常の局所化のためのレポートとアイトラッキングデータである

REFLACX, a dataset of reports and eye-tracking data for localization of abnormalities in chest x-rays ( http://arxiv.org/abs/2109.14187v1 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Mingyuan Zhang, William F. Auffermann, Jessica Chan, Phuong-Anh T. Duong, Vivek Srikumar, Trafton Drew, Joyce D. Schroeder, Tolga Tasdizen(参考訳) ディープラーニングは、胸部x線における異常の分類に最近成功したが、自然画像データセットに比べてデータセットは小さい。 異常ローカライゼーションのスーパービジョンは、トレーニングされたモデルを改善することを示し、部分的にデータセットサイズを補償している。 しかし、これらの異常を明示的にラベル付けるには専門家が必要であり、非常に時間がかかる。 本研究では,視線追跡装置を用いて視線位置とマイクロホンをキャプチャし,レポートの指示をキャプチャし,読書室のセットアップを模倣し,大規模データセットに対して潜在的にスケーラブルな暗黙的ローカライズデータを収集する手法を提案する。 得られたREFLACX(Reports and Eye-Tracking Data for Localization of Abnormalities in Chest X-rays)データセットは5人の放射線学者によってラベル付けされ、3,032個のアイトラッキングデータとタイムスタンプされたレポートの書き起こしが含まれている。 また,肺と心臓を囲むバウンディングボックスや,異常の局所化と画像レベルのラベルからなるバリデーションラベルも提供する。 さらに、データの小さなサブセットには、すべての放射線科医からの読み出しが含まれており、レート間スコアの計算を可能にしている。

Deep learning has shown recent success in classifying anomalies in chest x-rays, but datasets are still small compared to natural image datasets. Supervision of abnormality localization has been shown to improve trained models, partially compensating for dataset sizes. However, explicitly labeling these anomalies requires an expert and is very time-consuming. We propose a method for collecting implicit localization data using an eye tracker to capture gaze locations and a microphone to capture a dictation of a report, imitating the setup of a reading room, and potentially scalable for large datasets. The resulting REFLACX (Reports and Eye-Tracking Data for Localization of Abnormalities in Chest X-rays) dataset was labeled by five radiologists and contains 3,032 synchronized sets of eye-tracking data and timestamped report transcriptions. We also provide bounding boxes around lungs and heart and validation labels consisting of ellipses localizing abnormalities and image-level labels. Furthermore, a small subset of the data contains readings from all radiologists, allowing for the calculation of inter-rater scores.
翻訳日:2021-09-30 14:41:28 公開日:2021-09-29
# 3d morphable face モデルにおける同一性表現の曖昧性

Identity-Expression Ambiguity in 3D Morphable Face Models ( http://arxiv.org/abs/2109.14203v1 )

ライセンス: Link先を確認
Bernhard Egger, Skylar Sutherland, Safa C. Medin, Joshua Tenenbaum(参考訳) 3D形態モデル(3D Morphable Models)は、顔のモデル化によく用いられる生成モデルのクラスである。 典型的には、2Dデータからの3D再構成のような不適切な問題に適用される。 この問題の像形成過程におけるいくつかの曖昧さは明確に研究されている。 同一性と表現の多様性の非直交性は3d morphableモデルにおいて同一性表現の曖昧さを生じさせ、実際には表現と同一性は直交性に遠く及ばず、驚くほど相互に説明できることを示した。 以前報告された曖昧さは逆レンダリング設定でのみ発生するが、3次元形状生成プロセス自体にアイデンティティ表現の曖昧さが現れる。 この効果を逆レンダリングタスクを通じて直接3d形状を用いて実演し,高品質な3dスキャンで構築した2つの人気モデルと,大規模な2d画像とビデオから構築したモデルを用いて実演する。 我々は,この問題が逆レンダリングに与える影響を考察し,同一性や表現変形に先立って,純粋に統計学的に解決できないことを確かめる。

3D Morphable Models are a class of generative models commonly used to model faces. They are typically applied to ill-posed problems such as 3D reconstruction from 2D data. Several ambiguities in this problem's image formation process have been studied explicitly. We demonstrate that non-orthogonality of the variation in identity and expression can cause identity-expression ambiguity in 3D Morphable Models, and that in practice expression and identity are far from orthogonal and can explain each other surprisingly well. Whilst previously reported ambiguities only arise in an inverse rendering setting, identity-expression ambiguity emerges in the 3D shape generation process itself. We demonstrate this effect with 3D shapes directly as well as through an inverse rendering task, and use two popular models built from high quality 3D scans as well as a model built from a large collection of 2D images and videos. We explore this issue's implications for inverse rendering and observe that it cannot be resolved by a purely statistical prior on identity and expression deformations.
翻訳日:2021-09-30 14:41:06 公開日:2021-09-29
# 人工膝関節置換術におけるαマット推論を用いたMultipath CNN

Multipath CNN with alpha matte inference for knee tissue segmentation from MRI ( http://arxiv.org/abs/2109.14249v1 )

ライセンス: Link先を確認
Sheheryar Khan, Basim Azam, Yongcheng Yao, Weitian Chen(参考訳) 磁気共鳴画像(MRI)による膝組織の精密セグメント化は定量的なイメージングと診断において重要である。 畳み込みニューラルネットワーク(CNN)は、低組織コントラストや構造的不均一性などの画像特異的適応の欠如により限界があり、不完全なセグメンテーション結果をもたらす。 本稿では, 深層学習に基づく膝組織分割の自動分割フレームワークを提案する。 エンコーダデコーダに基づくセグメンテーションネットワークと低階テンソル再構成セグメンテーションネットワークを組み合わせた,新しいマルチパスCNN方式を提案する。 MRIテンソルサブブロックの低位再構成は、膝組織の構造的および形態学的変化を利用するために導入された。 CNNからのセグメンテーションをさらに改善するため、マルチパスCNNから高、中、低信頼領域を定義するために、重畳された領域を効果的に活用するトリマップ生成を提案する。 低ランクの再構成入力を持つ二次経路は、一次セグメンテーションネットワークが潜在的に失敗し、境界領域を見渡すことができる条件を緩和する。 トリマップとソース入力をブレンドすることにより、セグメンテーションの結果をアルファマットング問題として解決する。 変形性関節症イニシアチブ(oai)データセットと自己作成スキャンの実験は,提案法の有効性を検証する。 本研究は, 軟骨切片を用いた厚みマップの診断への応用を具体的に示す。

Precise segmentation of knee tissues from magnetic resonance imaging (MRI) is critical in quantitative imaging and diagnosis. Convolutional neural networks (CNNs), which are state of the art, have limitations owing to the lack of image-specific adaptation, such as low tissue contrasts and structural inhomogeneities, thereby leading to incomplete segmentation results. This paper presents a deep learning based automatic segmentation framework for knee tissue segmentation. A novel multipath CNN-based method is proposed, which consists of an encoder decoder-based segmentation network in combination with a low rank tensor-reconstructed segmentation network. Low rank reconstruction in MRI tensor sub-blocks is introduced to exploit the structural and morphological variations in knee tissues. To further improve the segmentation from CNNs, trimap generation, which effectively utilizes superimposed regions, is proposed for defining high, medium and low confidence regions from the multipath CNNs. The secondary path with low rank reconstructed input mitigates the conditions in which the primary segmentation network can potentially fail and overlook the boundary regions. The outcome of the segmentation is solved as an alpha matting problem by blending the trimap with the source input. Experiments on Osteoarthritis Initiative (OAI) datasets and a self prepared scan validate the effectiveness of the proposed method. We specifically demonstrate the application of the proposed method in a cartilage segmentation based thickness map for diagnosis purposes.
翻訳日:2021-09-30 14:40:49 公開日:2021-09-29
# フレキシブルブラインドJPEGアーティファクト除去に向けて

Towards Flexible Blind JPEG Artifacts Removal ( http://arxiv.org/abs/2109.14573v1 )

ライセンス: Link先を確認
Jiaxi Jiang, Kai Zhang, Radu Timofte(参考訳) JPEG画像アーティファクト削除の異なる品質要因を扱うために、単一の深いブラインドモデルをトレーニングすることは、実用上の利便性のために、かなりの注目を集めている。 しかし、既存のディープブラインド法は品質因子を予測せずに直接画像を再構成するので、非盲検法として出力を制御する柔軟性が欠如している。 この問題を解決するために,本論文では,人工物除去と細部保存のトレードオフを制御するために,調整可能な品質因子を予測できるフレキシブルブラインド畳み込みニューラルネットワークfbcnnを提案する。 具体的には、FBCNNは、デカップラーモジュールを介してJPEGイメージから品質因子を分離し、予測された品質因子を、フレキシブルな制御のために品質因子注意ブロックを介して、後続のコンストラクタモジュールに埋め込む。 さらに,1ピクセルのシフトしか持たない非整列型JPEG画像では,既存の手法ではフェールする傾向にあり,トレーニングデータを増大させるダブルJPEG劣化モデルを提案する。 1枚のJPEG画像、より一般的な2枚のJPEG画像、実世界のJPEG画像に対する大規模な実験により、我々の提案したFBCNNは、定量的メトリクスと視覚的品質の両方の観点から、最先端の手法に対して好適な性能を達成することを示した。

Training a single deep blind model to handle different quality factors for JPEG image artifacts removal has been attracting considerable attention due to its convenience for practical usage. However, existing deep blind methods usually directly reconstruct the image without predicting the quality factor, thus lacking the flexibility to control the output as the non-blind methods. To remedy this problem, in this paper, we propose a flexible blind convolutional neural network, namely FBCNN, that can predict the adjustable quality factor to control the trade-off between artifacts removal and details preservation. Specifically, FBCNN decouples the quality factor from the JPEG image via a decoupler module and then embeds the predicted quality factor into the subsequent reconstructor module through a quality factor attention block for flexible control. Besides, we find existing methods are prone to fail on non-aligned double JPEG images even with only a one-pixel shift, and we thus propose a double JPEG degradation model to augment the training data. Extensive experiments on single JPEG images, more general double JPEG images, and real-world JPEG images demonstrate that our proposed FBCNN achieves favorable performance against state-of-the-art methods in terms of both quantitative metrics and visual quality.
翻訳日:2021-09-30 14:40:28 公開日:2021-09-29
# 一般化には確率的訓練は必要ない

Stochastic Training is Not Necessary for Generalization ( http://arxiv.org/abs/2109.14119v1 )

ライセンス: Link先を確認
Jonas Geiping, Micah Goldblum, Phillip E. Pope, Michael Moeller, Tom Goldstein(参考訳) 確率勾配降下(SGD)の暗黙的な正則化は、ニューラルネットワークで観察される印象的な一般化行動に基礎があると広く信じられている。 本研究では,sgdとほぼ同等のcifar-10において,データ拡張の有無に関わらず,現代的なアーキテクチャを用いて,非確率的なフルバッチトレーニングによって強力なパフォーマンスを実現することを実証する。 この目的のために,修正ハイパーパラメータを用い,sgdの暗黙的正則化を明示的正則化に完全に置き換えることができることを示す。 このことは、確率的サンプリングの性質に大きく依存して一般化を説明する理論が不完全であることを強く示唆している。 基本的には、深層学習は確率的に成功することができる。 さらに,フルバッチトレーニングの難易度は,その最適化特性と,mlコミュニティが最適化器とハイパーパラメータの調整に費やした不釣り合いな時間と労力の結果であることが示唆された。

It is widely believed that the implicit regularization of stochastic gradient descent (SGD) is fundamental to the impressive generalization behavior we observe in neural networks. In this work, we demonstrate that non-stochastic full-batch training can achieve strong performance on CIFAR-10 that is on-par with SGD, using modern architectures in settings with and without data augmentation. To this end, we utilize modified hyperparameters and show that the implicit regularization of SGD can be completely replaced with explicit regularization. This strongly suggests that theories that rely heavily on properties of stochastic sampling to explain generalization are incomplete, as strong generalization behavior is still observed in the absence of stochastic sampling. Fundamentally, deep learning can succeed without stochasticity. Our observations further indicate that the perceived difficulty of full-batch training is largely the result of its optimization properties and the disproportionate time and effort spent by the ML community tuning optimizers and hyperparameters for small-batch training.
翻訳日:2021-09-30 14:38:45 公開日:2021-09-29
# 平衡状態の過度差分によるフィードバックスパイクニューラルネットワークの訓練

Training Feedback Spiking Neural Networks by Implicit Differentiation on the Equilibrium State ( http://arxiv.org/abs/2109.14247v1 )

ライセンス: Link先を確認
Mingqing Xiao, Qingyan Meng, Zongpeng Zhang, Yisen Wang, Zhouchen Lin(参考訳) spiking neural networks (snns) は、ニューロモルフィックなハードウェア上でエネルギー効率の良い実装を可能にする脳にインスパイアされたモデルである。 しかし、スパイキングニューロンモデルの不連続のため、SNNの教師付きトレーニングは依然として難しい問題である。 既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣し、その問題に対処するスパイク時間に関して代理デリバティブまたは計算勾配を使用する。 これらのアプローチは近似誤差を蓄積するか、あるいは既存のスパイクによって限られた情報のみを伝達し、通常、大きなメモリコストと生物学的不確実性を持つ時間ステップに沿って情報伝達を必要とする。 本研究では,より脳に近いフィードバックスパイキングニューラルネットワークについて検討し,フォワード計算の正確な逆数に依存しない新しい学習法を提案する。 まず, フィードバック接続を持つsnsの平均点火速度は, 時間とともに徐々に平衡状態へと発展し, 固定点方程式に従うことを示した。 そして、この方程式のブラックボックスソルバとしてフィードバックSNNのフォワード計算を眺め、この方程式上の暗黙の微分を利用することにより、正確なフォワード手順を考慮せずにパラメータの勾配を計算することができる。 このように、前方および後方の手順を分離するので、微分不能なスパイキング関数の問題は回避される。 また,他の平衡計算のみを必要とする暗黙的微分の生物学的可能性についても簡単に論じる。 MNIST, Fashion-MNIST, N-MNIST, CIFAR-10, CIFAR-100の広範囲にわたる実験により, 少数の時間ステップで少ないニューロンとパラメータを持つフィードバックモデルに対して, 本手法の優れた性能を示した。 私たちのコードはhttps://github.com/p kuxmq/IDE-FSNN.comで利用可能です。

Spiking neural networks (SNNs) are brain-inspired models that enable energy-efficient implementation on neuromorphic hardware. However, the supervised training of SNNs remains a hard problem due to the discontinuity of the spiking neuron model. Most existing methods imitate the backpropagation framework and feedforward architectures for artificial neural networks, and use surrogate derivatives or compute gradients with respect to the spiking time to deal with the problem. These approaches either accumulate approximation errors or only propagate information limitedly through existing spikes, and usually require information propagation along time steps with large memory costs and biological implausibility. In this work, we consider feedback spiking neural networks, which are more brain-like, and propose a novel training method that does not rely on the exact reverse of the forward computation. First, we show that the average firing rates of SNNs with feedback connections would gradually evolve to an equilibrium state along time, which follows a fixed-point equation. Then by viewing the forward computation of feedback SNNs as a black-box solver for this equation, and leveraging the implicit differentiation on the equation, we can compute the gradient for parameters without considering the exact forward procedure. In this way, the forward and backward procedures are decoupled and therefore the problem of non-differentiable spiking functions is avoided. We also briefly discuss the biological plausibility of implicit differentiation, which only requires computing another equilibrium. Extensive experiments on MNIST, Fashion-MNIST, N-MNIST, CIFAR-10, and CIFAR-100 demonstrate the superior performance of our method for feedback models with fewer neurons and parameters in a small number of time steps. Our code is avaiable at https://github.com/p kuxmq/IDE-FSNN.
翻訳日:2021-09-30 14:38:27 公開日:2021-09-29
# マルチフィンガーロボットグリップのためのシミュレーションに基づくベイズ推定

Simulation-based Bayesian inference for multi-fingered robotic grasping ( http://arxiv.org/abs/2109.14275v1 )

ライセンス: Link先を確認
Norman Marlier, Olivier Br\"uls, Gilles Louppe(参考訳) 多指ロボットハンドリングは、普遍的なピッキングとデクスタース操作のための、否定できない踏み台だ。 しかし、マルチフィンガーグリッパーは、その豊富な非スムースな接触ダイナミクスやセンサーノイズのため、制御が難しいままである。 本研究では,ロボットの動作環境における全確率的前方シミュレーションを通じてベイズ後方推定を行い,システムの不確かさの多くをロバストに計算し,手の配置を計画することを目的とする。 提案手法は, 確率関数の簡明なサロゲートに依存するか, 最大確率推定を直接予測することを試みたが, ディープニューラルネットワークを用いた完全ベイズ推定のための新しいシミュレーションベースアプローチを提案する。 手の配置は、結果として生じる後肢の無形および微分可能な表現を直接最適化することによって見出される。 構成空間の幾何学は、神経後方を通るリーマン多様体最適化手順を提案することによって説明される。 シミュレーションと物理ベンチマークは、プロシージャの高い成功率を示す。

Multi-fingered robotic grasping is an undeniable stepping stone to universal picking and dexterous manipulation. Yet, multi-fingered grippers remain challenging to control because of their rich nonsmooth contact dynamics or because of sensor noise. In this work, we aim to plan hand configurations by performing Bayesian posterior inference through the full stochastic forward simulation of the robot in its environment, hence robustly accounting for many of the uncertainties in the system. While previous methods either relied on simplified surrogates of the likelihood function or attempted to learn to directly predict maximum likelihood estimates, we bring a novel simulation-based approach for full Bayesian inference based on a deep neural network surrogate of the likelihood-to-eviden ce ratio. Hand configurations are found by directly optimizing through the resulting amortized and differentiable expression for the posterior. The geometry of the configuration space is accounted for by proposing a Riemannian manifold optimization procedure through the neural posterior. Simulation and physical benchmarks demonstrate the high success rate of the procedure.
翻訳日:2021-09-30 14:37:56 公開日:2021-09-29
# モデル予測エージェントのための学習ダイナミクスモデル

Learning Dynamics Models for Model Predictive Agents ( http://arxiv.org/abs/2109.14311v1 )

ライセンス: Link先を確認
Michael Lutter, Leonard Hasenclever, Arunkumar Byravan, Gabriel Dulac-Arnold, Piotr Trochim, Nicolas Heess, Josh Merel, Yuval Tassa(参考訳) モデルベースの強化学習では、データから \textit{dynamics model} を学び、次にこのモデルを使用して振る舞いを最適化する。 これらのラインに関する最近の研究の多くは、問題定義、モデル学習、計画を含む、特定の設計選択のセットを示している。 複数の貢献を考えると、それぞれの効果を評価するのは難しい。 本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデル(シミュレーター)との比較により明らかにすることを目的としている。 まず、DeepMind Control Suiteの5つのドメイン上のモデルフリーエージェントのトレーニングシーケンスから、リッチなデータセットを収集します。 第2に,フィードフォワードダイナミクスモデルを教師付きでトレーニングし,センシムリング,確率性,多段階トレーニング,時間ステップサイズなど,異なるモデル設計選択を変更・分析しながら,プランナーの性能を評価する。 定量的解析の他に,質的知見の組,親指の規則,学習力学モデルを用いた計画のための今後の研究方向について述べる。 結果のビデオはhttps://sites.google .com/view/learning-b etter-modelsで見ることができる。

Model-Based Reinforcement Learning involves learning a \textit{dynamics model} from data, and then using this model to optimise behaviour, most often with an online \textit{planner}. Much of the recent research along these lines presents a particular set of design choices, involving problem definition, model learning and planning. Given the multiple contributions, it is difficult to evaluate the effects of each. This paper sets out to disambiguate the role of different design choices for learning dynamics models, by comparing their performance to planning with a ground-truth model -- the simulator. First, we collect a rich dataset from the training sequence of a model-free agent on 5 domains of the DeepMind Control Suite. Second, we train feed-forward dynamics models in a supervised fashion, and evaluate planner performance while varying and analysing different model design choices, including ensembling, stochasticity, multi-step training and timestep size. Besides the quantitative analysis, we describe a set of qualitative findings, rules of thumb, and future research directions for planning with learned dynamics models. Videos of the results are available at https://sites.google .com/view/learning-b etter-models.
翻訳日:2021-09-30 14:37:37 公開日:2021-09-29
# スパース密度分解による相関クラスタリングのための線形時間と空間アルゴリズム

Sublinear Time and Space Algorithms for Correlation Clustering via Sparse-Dense Decompositions ( http://arxiv.org/abs/2109.14528v1 )

ライセンス: Link先を確認
Sepehr Assadi, Chen Wang(参考訳) 本稿では,この問題に対して,高効率な時間と空間の複雑さを持つ部分線形アルゴリズムを導出する(最小不一致)相関クラスタリングの解法を提案する。 特に、$n$-vertex $(+/-)$-labeled graphs $g$: -- 確率の高い部分線形時間アルゴリズムは、$(+)$-labeled edges $g$の隣接リストへのアクセスを仮定して、$g$ in $o(n\log^2{n})$ の定数近似クラスタリングを返す。 以前は、この問題を乗算近似を保証するサブ線形時間アルゴリズムは知られていない。 -- 確率の高い半ストリーミングアルゴリズムは、定数近似クラスタリングとして$o(n\log{n})$スペースに$g$を返し、グラフのエッジに1つのパスで$g$を渡す(このメモリは入力サイズよりほぼ2倍小さい)。 従来、o(n^2)$空間を持つ単一パスアルゴリズムは、近似保証なしでは知られていた。 提案手法の主な要素は,グラフカラー化の文献で広く用いられているスパース線グラフ分解への新規な接続である。 我々の知る限り、この接続はグラフカラー化以外の分解の最初の応用であり、特に相関クラスタリング問題に対して、独立した関心を持つことができる。

We present a new approach for solving (minimum disagreement) correlation clustering that results in sublinear algorithms with highly efficient time and space complexity for this problem. In particular, we obtain the following algorithms for $n$-vertex $(+/-)$-labeled graphs $G$: -- A sublinear-time algorithm that with high probability returns a constant approximation clustering of $G$ in $O(n\log^2{n})$ time assuming access to the adjacency list of the $(+)$-labeled edges of $G$ (this is almost quadratically faster than even reading the input once). Previously, no sublinear-time algorithm was known for this problem with any multiplicative approximation guarantee. -- A semi-streaming algorithm that with high probability returns a constant approximation clustering of $G$ in $O(n\log{n})$ space and a single pass over the edges of the graph $G$ (this memory is almost quadratically smaller than input size). Previously, no single-pass algorithm with $o(n^2)$ space was known for this problem with any approximation guarantee. The main ingredient of our approach is a novel connection to sparse-dense graph decompositions that are used extensively in the graph coloring literature. To our knowledge, this connection is the first application of these decompositions beyond graph coloring, and in particular for the correlation clustering problem, and can be of independent interest.
翻訳日:2021-09-30 14:37:19 公開日:2021-09-29
# 深部時空間風力予測

Deep Spatio-Temporal Wind Power Forecasting ( http://arxiv.org/abs/2109.14530v1 )

ライセンス: Link先を確認
Jiangyuan Li and Mohammadreza Armandpour(参考訳) 再生可能エネルギーの消費が増加するにつれて、風力発電の予測が研究者の間で注目を集めている。 本稿では,エンコーダ・デコーダ構造に基づく深層学習手法を提案する。 本モデルでは,風力タービンが生み出す風力を,他のタービンと比較して空間的位置と過去の風速データを用いて予測する。 このように、タービン固有の予測を行うために、空間依存と時間的傾向を効果的に統合する。 既存の作業に対する我々の方法の利点は要約できる。 1) 風速の予測をまず必要とせず, 過去の風速に基づいて直接風力を予測する。 2)長期依存を効果的に捉えることができる 3)我々のモデルは,他の深層学習法に比べてスケーラブルで効率的である。 本モデルの有効性をベンチマーク実世界のデータセットで実証する。

Wind power forecasting has drawn increasing attention among researchers as the consumption of renewable energy grows. In this paper, we develop a deep learning approach based on encoder-decoder structure. Our model forecasts wind power generated by a wind turbine using its spatial location relative to other turbines and historical wind speed data. In this way, we effectively integrate spatial dependency and temporal trends to make turbine-specific predictions. The advantages of our method over existing work can be summarized as 1) it directly predicts wind power based on historical wind speed, without the need for prediction of wind speed first, and then using a transformation; 2) it can effectively capture long-term dependency 3) our model is more scalable and efficient compared with other deep learning based methods. We demonstrate the efficacy of our model on the benchmarks real-world datasets.
翻訳日:2021-09-30 14:36:44 公開日:2021-09-29
# PINNup:周波数アップスケーリングとニューロン分割を用いたロバストニューラルネットワークウェーブフィールドソリューション

PINNup: Robust neural network wavefield solutions using frequency upscaling and neuron splitting ( http://arxiv.org/abs/2109.14536v1 )

ライセンス: Link先を確認
Xinquan Huang, Tariq Alkhalifah(参考訳) 物理インフォームドニューラルネットワーク(PINN)による周波数領域散乱波面の解法は、地震モデリングとインバージョンに大きな可能性を秘めている。 しかし、高周波波動場を扱う場合、その精度と訓練コストは応用を制限する。 そこで本研究では,低周波波波場に対する事前学習モデルからの情報を活用しつつ,ニューラルネットワークモデルのサイズを増加させ,高精度解への収束を高速化する,周波数上昇とニューロン分割を用いた新しい実装を提案する。 数値計算の結果, ランダム初期化を用いたPINNと比較して, 提案したPINNは収束性と精度の点で顕著な優位性を示し, 2層モデルでニューロンベースの高周波波動解を実現できることがわかった。

Solving for the frequency-domain scattered wavefield via physics-informed neural network (PINN) has great potential in seismic modeling and inversion. However, when dealing with high-frequency wavefields, its accuracy and training cost limits its applications. Thus, we propose a novel implementation of PINN using frequency upscaling and neuron splitting, which allows the neural network model to grow in size as we increase the frequency while leveraging the information from the pre-trained model for lower-frequency wavefields, resulting in fast convergence to high-accuracy solutions. Numerical results show that, compared to the commonly used PINN with random initialization, the proposed PINN exhibits notable superiority in terms of convergence and accuracy and can achieve neuron based high-frequency wavefield solutions with a two-hidden-layer model.
翻訳日:2021-09-30 14:36:34 公開日:2021-09-29
# ディープラーニングにおけるアクティベーション関数の包括的調査と性能解析

A Comprehensive Survey and Performance Analysis of Activation Functions in Deep Learning ( http://arxiv.org/abs/2109.14545v1 )

ライセンス: Link先を確認
Shiv Ram Dubey, Satish Kumar Singh, Bidyut Baran Chaudhuri(参考訳) ニューラルネットワークは近年、多くの問題を解決するために著しく成長している。 様々なタイプのニューラルネットワークが、様々な種類の問題に対処するために導入されている。 しかしながら、ニューラルネットワークの主な目標は、階層階層構造を使用して、非線形分離可能な入力データをより線形分離可能な抽象特徴に変換することである。 これらの層は線型関数と非線形関数の組み合わせである。 最もポピュラーで一般的な非線形層は、ロジスティックシグモド、タン、ReLU、ELU、Swish、Mishといった活性化関数(AF)である。 本稿では,深層学習のためのニューラルネットワークにおけるafsについて,総括的概要と調査を行った。 Logistic Sigmoid や Tanh ベース,ReLU ベース,ELU ベース,Learning ベースなど,さまざまな AF のクラスが紹介されている。 出力範囲, 単調性, 滑らか性などのAFの特性も指摘されている。 また、異なるタイプのデータ上で異なるネットワークを持つ18の最先端AFの性能比較を行う。 afsの洞察は、研究者がさらなる研究を行い、実践者が異なる選択の中から選択するのに役立つ。 実験的な比較に使われるコードは、 \url{https://github.com/s hivram 1987/activatedfuncti ons} でリリースされる。

Neural networks have shown tremendous growth in recent years to solve numerous problems. Various types of neural networks have been introduced to deal with different types of problems. However, the main goal of any neural network is to transform the non-linearly separable input data into more linearly separable abstract features using a hierarchy of layers. These layers are combinations of linear and nonlinear functions. The most popular and common non-linearity layers are activation functions (AFs), such as Logistic Sigmoid, Tanh, ReLU, ELU, Swish and Mish. In this paper, a comprehensive overview and survey is presented for AFs in neural networks for deep learning. Different classes of AFs such as Logistic Sigmoid and Tanh based, ReLU based, ELU based, and Learning based are covered. Several characteristics of AFs such as output range, monotonicity, and smoothness are also pointed out. A performance comparison is also performed among 18 state-of-the-art AFs with different networks on different types of data. The insights of AFs are presented to benefit the researchers for doing further research and practitioners to select among different choices. The code used for experimental comparison is released at: \url{https://github.com/s hivram1987/Activatio nFunctions}.
翻訳日:2021-09-30 14:36:18 公開日:2021-09-29
# 超スペクトルイメージングのためのプログラマブルスペクトルフィルタアレイ

Programmable Spectral Filter Arrays for Hyperspectral Imaging ( http://arxiv.org/abs/2109.14450v1 )

ライセンス: Link先を確認
Aswin C. Sankaranarayanan, Vishwanath Saragadam, Vijay Rengarajan, Ryuichi Tadano, Tuo Zhuang, Hideki Oyaizu, Jun Murayama(参考訳) 光のスペクトル次元の変調は、計算イメージングに多くの応用がある。 これを実現する技術はたくさんあるが、空間的に変化し、プログラム可能なスペクトルフィルタを実装する技術は少ない。 本稿では,このような機能を実現するための光学設計について述べる。 我々の重要な洞察は、液晶セルの配列を提供するため、液晶空間光変調器を用いて、空間的に変化するスペクトル変調を実装できることであり、それぞれがプログラム可能なスペクトルフィルタアレイとして機能することを目的としている。 この知見に依拠して、その能力を実現するための光学的図式と関連する実験室のプロトタイプを提供し、光学的および計算的革新を用いた実装上の課題にも対処します。 単像・複数像のハイパースペクトルイメージングや,その材料識別への応用など,プロトタイプのユニークな操作点をいくつか紹介する。

Modulating the spectral dimension of light has numerous applications in computational imaging. While there are many techniques for achieving this, there are few, if any, for implementing a spatially-varying and programmable spectral filter. This paper provides an optical design for implementing such a capability. Our key insight is that spatially-varying spectral modulation can be implemented using a liquid crystal spatial light modulator since it provides an array of liquid crystal cells, each of which can be purposed to act as a programmable spectral filter array. Relying on this insight, we provide an optical schematic and an associated lab prototype for realizing the capability, as well as address the associated challenges at implementation using optical and computational innovations. We show a number of unique operating points with our prototype including single- and multi-image hyperspectral imaging, as well as its application in material identification.
翻訳日:2021-09-30 14:35:26 公開日:2021-09-29
# 2次ニューラルodeオプティマイザ

Second-Order Neural ODE Optimizer ( http://arxiv.org/abs/2109.14158v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen, Evangelos A. Theodorou(参考訳) 本稿では,神経常微分方程式(neural ordinary differential equation,neural odes)を学習するための新しい2次最適化フレームワークを提案する。 彼らのトレーニングは、後方ODEを解くことで、既に高価な勾配計算を伴っているため、効率的な2階法を導出することは、非常に非自明なものとなる。 それにもかかわらず、近年の深層ネットワークの最適制御(OC)解釈に触発されて、差分プログラミングと呼ばれる特定の連続時間OC手法が、同じO(1)メモリコストで高階導関数に対して下位のODEを導出できることを示した。 我々はさらに,二階微分の低ランク表現を探索し,クロネッカー因子分解の助けを借りて,より効率的な事前条件付き更新をもたらすことを示した。 その結果, 画像分類, 生成フロー, 時系列予測などの様々な応用において, 壁時計時間における一階ベースラインよりもはるかに高速に収束する。 また,ニューラルODEの統合時間や2次フィードバックポリシなどの直接的なアーキテクチャ最適化も実現し,ディープラーニングにおける最適化分析の原則的ツールとしてのOCの観点を強化した。

We propose a novel second-order optimization framework for training the emerging deep continuous-time models, specifically the Neural Ordinary Differential Equations (Neural ODEs). Since their training already involves expensive gradient computation by solving a backward ODE, deriving efficient second-order methods becomes highly nontrivial. Nevertheless, inspired by the recent Optimal Control (OC) interpretation of training deep networks, we show that a specific continuous-time OC methodology, called Differential Programming, can be adopted to derive backward ODEs for higher-order derivatives at the same O(1) memory cost. We further explore a low-rank representation of the second-order derivatives and show that it leads to efficient preconditioned updates with the aid of Kronecker-based factorization. The resulting method converges much faster than first-order baselines in wall-clock time, and the improvement remains consistent across various applications, e.g. image classification, generative flow, and time-series prediction. Our framework also enables direct architecture optimization, such as the integration time of Neural ODEs, with second-order feedback policies, strengthening the OC perspective as a principled tool of analyzing optimization in deep learning.
翻訳日:2021-09-30 14:34:58 公開日:2021-09-29
# Anderson Acceleration の線形漸近収束:固定点解析

Linear Asymptotic Convergence of Anderson Acceleration: Fixed-Point Analysis ( http://arxiv.org/abs/2109.14176v1 )

ライセンス: Link先を確認
Hans De Sterck and Yunhui He(参考訳) AA($m$) の漸近収束、すなわち、固定点法を加速する$x_{k+1}=q(x_{k})$,$x_k \in R^n$に対して、窓サイズ$m$のアンダーソン加速度を研究する。 AA($m$)による収束加速は広く観測されているが、よく理解されていない。 固定点反復関数 $q(x)$ が微分可能であり、固定点法自体の収束がルート線型である場合を考える。 AA($m$) 収束のいくつかの顕著な性質を数値的に同定する: まず、AA($m$) 列が$\{x_k\}$ 収束するが、根線形収束係数は初期条件に強く依存する。 次に、AA($m$)加速度係数$\beta^{(k)}$は収束しないが、$\{x_k\}$が$x^*$に収束すると振動する。 これらの観測に光を当てるために、AA($m$) 反復を拡張固定点反復 $z_{k+1} =\Psi(z_k)$, $z_k \in R^{n(m+1)}$ と書き、$\Psi(z)$ と $\beta(z)$ の連続性と微分性を分析する。 加速度係数のベクトル $\beta(z)$ が固定点 $z^*$ において連続でないことが分かる。 しかし、$\beta(z)$ の不連続性にもかかわらず、反復関数 $\Psi(z)$ はリプシッツ連続かつ AA(1) に対して$z^*$ で方向微分可能であることを示し、ほとんどの場合、$m>1$ でこれを AA($m$) に一般化する。 さらに、$\psi(z)$ は$z^*$ で微分可能でないことが分かる。 次に、これらの理論的な発見が、観測されたAA($m$)の収束挙動にどのように関係するかを論じる。 z^*$ における $\beta(z)$ の不連続性により、$\beta^{(k)}$ は $\{x_k\}$ で振動し、$x^*$ に収束し、$\psi(z)$ の非微分性により aa($m$) 列は初期条件に強く依存するルート線形収束因子に収束する。 さらなる数値的な結果が得られた。

We study the asymptotic convergence of AA($m$), i.e., Anderson acceleration with window size $m$ for accelerating fixed-point methods $x_{k+1}=q(x_{k})$, $x_k \in R^n$. Convergence acceleration by AA($m$) has been widely observed but is not well understood. We consider the case where the fixed-point iteration function $q(x)$ is differentiable and the convergence of the fixed-point method itself is root-linear. We identify numerically several conspicuous properties of AA($m$) convergence: First, AA($m$) sequences $\{x_k\}$ converge root-linearly but the root-linear convergence factor depends strongly on the initial condition. Second, the AA($m$) acceleration coefficients $\beta^{(k)}$ do not converge but oscillate as $\{x_k\}$ converges to $x^*$. To shed light on these observations, we write the AA($m$) iteration as an augmented fixed-point iteration $z_{k+1} =\Psi(z_k)$, $z_k \in R^{n(m+1)}$ and analyze the continuity and differentiability properties of $\Psi(z)$ and $\beta(z)$. We find that the vector of acceleration coefficients $\beta(z)$ is not continuous at the fixed point $z^*$. However, we show that, despite the discontinuity of $\beta(z)$, the iteration function $\Psi(z)$ is Lipschitz continuous and directionally differentiable at $z^*$ for AA(1), and we generalize this to AA($m$) with $m>1$ for most cases. Furthermore, we find that $\Psi(z)$ is not differentiable at $z^*$. We then discuss how these theoretical findings relate to the observed convergence behaviour of AA($m$). The discontinuity of $\beta(z)$ at $z^*$ allows $\beta^{(k)}$ to oscillate as $\{x_k\}$ converges to $x^*$, and the non-differentiabilit y of $\Psi(z)$ allows AA($m$) sequences to converge with root-linear convergence factors that strongly depend on the initial condition. Additional numerical results illustrate our findings.
翻訳日:2021-09-30 14:34:35 公開日:2021-09-29
# クリロフ法としてのアンダーソン加速と漸近収束解析への応用

Anderson Acceleration as a Krylov Method with Application to Asymptotic Convergence Analysis ( http://arxiv.org/abs/2109.14181v1 )

ライセンス: Link先を確認
Hans De Sterck and Yunhui He(参考訳) アンダーソン加速度は、固定点法 $x_{k+1}=q(x_{k})$, $x_k \in \mathbb{R}^n$ の収束を加速するために広く用いられる。 線形固定点法 $x_{k+1}=Mx_{k}+b$ の場合、AA($m$) の多項式残差更新式、すなわちウィンドウサイズ $m$ のアンダーソン加速度を得る。 aa($k$) を使って再帰的に定義された初期イテレート $x_k$, $k=0, \ldots, m$ の標準的な aa($m$) メソッドは、クリロフ空間法である。 これは直ちに、AA($m$) の $k$ 反復は再起動せずに$k$ の残余を GMRES の $k$ の繰り返しより小さな残余を生成できないことを意味する(ただし、(ウィンドウ化された) AA($m$) と再起動された GMRES($m$) の相対収束速度については何も示さない)。 多重クリロフ法の概念を導入し、一般の初期イデアルが $\{x_0, \ldots, x_m\}$ を多重クリロフ法とすることを示す。 AA($m$)残差多項式は、繰り返し数が増えるにつれてエラー反復行列$M$のパワーが初期残差に作用する周期記憶効果を観測する。 直交関係, AA(1) 加速度係数 $\beta_k$ 上の下界, 加速度係数 $\beta_k$ を含まない AA(1) 残留および残留多項式に対する明示的な非線形再帰など, これらの多項式残差更新式に基づいてさらにいくつかの結果を得る。 これらの結果を用いて,AA(1)の漸近収束係数に対する初期推定の影響について検討した。

Anderson acceleration is widely used for accelerating the convergence of fixed-point methods $x_{k+1}=q(x_{k})$, $x_k \in \mathbb{R}^n$. We consider the case of linear fixed-point methods $x_{k+1}=M x_{k}+b$ and obtain polynomial residual update formulas for AA($m$), i.e., Anderson acceleration with window size $m$. We find that the standard AA($m$) method with initial iterates $x_k$, $k=0, \ldots, m$ defined recursively using AA($k$), is a Krylov space method. This immediately implies that $k$ iterations of AA($m$) cannot produce a smaller residual than $k$ iterations of GMRES without restart (but without implying anything about the relative convergence speed of (windowed) AA($m$) versus restarted GMRES($m$)). We introduce the notion of multi-Krylov method and show that AA($m$) with general initial iterates $\{x_0, \ldots, x_m\}$ is a multi-Krylov method. We find that the AA($m$) residual polynomials observe a periodic memory effect where increasing powers of the error iteration matrix $M$ act on the initial residual as the iteration number increases. We derive several further results based on these polynomial residual update formulas, including orthogonality relations, a lower bound on the AA(1) acceleration coefficient $\beta_k$, and explicit nonlinear recursions for the AA(1) residuals and residual polynomials that do not include the acceleration coefficient $\beta_k$. We apply these results to study the influence of the initial guess on the asymptotic convergence factor of AA(1).
翻訳日:2021-09-30 14:33:33 公開日:2021-09-29
# 多エージェント強化学習のための情報基盤に基づく行動表現学習

Information-Bottlene ck-Based Behavior Representation Learning for Multi-agent Reinforcement learning ( http://arxiv.org/abs/2109.14188v1 )

ライセンス: Link先を確認
Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang(参考訳) 多エージェント深部強化学習では、他のエージェントの十分かつコンパクトな情報を抽出し、アルゴリズムの効率的な収束とスケーラビリティを達成することが重要である。 標準的な枠組みでは、そのような情報の蒸留は暗黙的かつ解釈不能な方法で行われるか、情報圧縮と表現上の有用性の関係を反映できないコスト関数で明示的に行われる。 本稿では,多エージェント強化学習(IBORM)のための他エージェントの行動表現学習について,他のエージェントの行動に関連するコンパクトで情報的表現が確立された低次元マッピングエンコーダを明示的に求める。 IBORMは、情報ボトルネック原理を利用して観測情報を圧縮し、他のエージェントの行動に関連する十分な情報を協調決定に用いながら保持する。 IBORMは暗黙的な行動表現学習や明示的な行動表現学習と比較して、情報圧縮やユーティリティを明示的に考慮せずに、最も高速な収束率と学習ポリシーの最高の性能を提供することを示した。

In multi-agent deep reinforcement learning, extracting sufficient and compact information of other agents is critical to attain efficient convergence and scalability of an algorithm. In canonical frameworks, distilling of such information is often done in an implicit and uninterpretable manner, or explicitly with cost functions not able to reflect the relationship between information compression and utility in representation. In this paper, we present Information-Bottlene ck-based Other agents' behavior Representation learning for Multi-agent reinforcement learning (IBORM) to explicitly seek low-dimensional mapping encoder through which a compact and informative representation relevant to other agents' behaviors is established. IBORM leverages the information bottleneck principle to compress observation information, while retaining sufficient information relevant to other agents' behaviors used for cooperation decision. Empirical results have demonstrated that IBORM delivers the fastest convergence rate and the best performance of the learned policies, as compared with implicit behavior representation learning and explicit behavior representation learning without explicitly considering information compression and utility.
翻訳日:2021-09-30 14:32:53 公開日:2021-09-29
# (機械)離散アルゴリズムの実証的性能向上のための学習

(Machine) Learning to Improve the Empirical Performance of Discrete Algorithms ( http://arxiv.org/abs/2109.14271v1 )

ライセンス: Link先を確認
Imran Adham, Jesus De Loera, Zhenyang Zhang(参考訳) 本稿では,専門家の知識を必要とせず,アルゴリズムによる意思決定や推薦を行うためのデータ駆動型経験ベースフレームワークについて述べる。 我々は,Simplex法におけるピボットルールの選択と,全対最短経路アルゴリズムの選択という,2つのアルゴリズムケーススタディの性能を改善した。 我々は、人間の意見なしに与えられたデータに対して最適なアルゴリズムを選択するために機械学習手法を訓練する。 ニューラルネットワークと強化された決定木という,2種類のテクニックを使用します。 1) 当社の選択フレームワークでは,固定デフォルトのpivotルールのみを使用して,全体的なパフォーマンスを改善するさまざまなpivotルールを推奨しています。 長年にわたり、専門家は最も急なピボットルールをお気に入りのピボットルールと認識していた。 我々のデータ分析では、最も急なエッジによるイテレーションの数は、人間の知識を裏付ける最適な選択よりも4%以上多くないが、今回は機械学習を使って得られた知識を裏付ける。 ここでは,傾斜強調木を用いた推奨システムを提案する。 2) 最短経路問題では, 訓練したモデルが大きく改善され, 我々の選択は, 最適選択から平均.07パーセント離れている。 結論は、私たちが使用している機械学習手法の影響を受けないようです。 2つのアルゴリズム問題の並列解析を試みたが、本質的な違いがあることは明らかである。 例えば、全ペア最短経路問題において、グラフ密度は妥当な予測子であるが、単純な方法において決定のための類似のパラメータは存在しない。

This paper discusses a data-driven, empirically-based framework to make algorithmic decisions or recommendations without expert knowledge. We improve the performance of two algorithmic case studies: the selection of a pivot rule for the Simplex method and the selection of an all-pair shortest paths algorithm. We train machine learning methods to select the optimal algorithm for given data without human expert opinion. We use two types of techniques, neural networks and boosted decision trees. We concluded, based on our experiments, that: 1) Our selection framework recommends various pivot rules that improve overall total performance over just using a fixed default pivot rule. Over many years experts identified steepest-edge pivot rule as a favorite pivot rule. Our data analysis corroborates that the number of iterations by steepest-edge is no more than 4 percent more than the optimal selection which corroborates human expert knowledge, but this time the knowledge was obtained using machine learning. Here our recommendation system is best when using gradient boosted trees. 2) For the all-pairs shortest path problem, the models trained made a large improvement and our selection is on average .07 percent away from the optimal choice. The conclusions do not seem to be affected by the machine learning method we used. We tried to make a parallel analysis of both algorithmic problems, but it is clear that there are intrinsic differences. For example, in the all-pairs shortest path problem the graph density is a reasonable predictor, but there is no analogous single parameter for decisions in the Simplex method.
翻訳日:2021-09-30 14:32:32 公開日:2021-09-29
# 部分検出による知的交通信号制御のための深層強化Qラーニング

Deep Reinforcement Q-Learning for Intelligent Traffic Signal Control with Partial Detection ( http://arxiv.org/abs/2109.14337v1 )

ライセンス: Link先を確認
Romain Ducrocq and Nadir Farhi(参考訳) インテリジェントな信号制御装置は、DQNアルゴリズムをトラフィック光ポリシー最適化に適用し、リアルタイムトラフィックに信号を調整することで、トラフィックの混雑を効率的に軽減する。 しかし、文献のほとんどの命題は、交点にある全ての車両が検出される、非現実的なシナリオであると考えている。 近年、新しい無線通信技術により、インフラストラクチャーによるコネクテッドカーのコスト効率の高い検出が可能になっている。 現在装備されている全艦隊のごく一部に過ぎず、低い検出率で実行することが可能な方法が望ましい。 本稿では,連結車両と部分的に観測可能な環境において,孤立した交差点における交通信号制御を最適化する深層強化q学習モデルを提案する。 まず、RLフレームワーク内の新しいDQNモデルを示す。 我々は,部分可観測環境のための新しい状態表現と交通信号制御のための新たな報酬関数を導入し,ネットワークアーキテクチャと調整されたハイパーパラメータを提供する。 次に,複数のシナリオの数値シミュレーションにおいて,モデルの性能を2段階に分けて評価する。 まず、既存のアクティベートされたコントローラに対する完全な検出、次に接続された車両の割合に対する損失推定を伴う部分検出。 最後に、得られた結果から、許容かつ最適な性能レベルを持つ検出率のしきい値を定義する。

Intelligent traffic signal controllers, applying DQN algorithms to traffic light policy optimization, efficiently reduce traffic congestion by adjusting traffic signals to real-time traffic. Most propositions in the literature however consider that all vehicles at the intersection are detected, an unrealistic scenario. Recently, new wireless communication technologies have enabled cost-efficient detection of connected vehicles by infrastructures. With only a small fraction of the total fleet currently equipped, methods able to perform under low detection rates are desirable. In this paper, we propose a deep reinforcement Q-learning model to optimize traffic signal control at an isolated intersection, in a partially observable environment with connected vehicles. First, we present the novel DQN model within the RL framework. We introduce a new state representation for partially observable environments and a new reward function for traffic signal control, and provide a network architecture and tuned hyper-parameters. Second, we evaluate the performances of the model in numerical simulations on multiple scenarios, in two steps. At first in full detection against existing actuated controllers, then in partial detection with loss estimates for proportions of connected vehicles. Finally, from the obtained results, we define thresholds for detection rates with acceptable and optimal performance levels.
翻訳日:2021-09-30 14:32:07 公開日:2021-09-29
# (参考訳) ディープラーニングの教訓を用いたニューラルネットワークの学習

Training Spiking Neural Networks Using Lessons From Deep Learning ( http://arxiv.org/abs/2109.12894v2 )

ライセンス: CC BY 4.0
Jason K. Eshraghian and Max Ward and Emre Neftci and Xinxin Wang and Gregor Lenz and Girish Dwivedi and Mohammed Bennamoun and Doo Seok Jeong and Wei D. Lu(参考訳) 脳はより効率的なニューラルネットワークを開発するためのインスピレーションを探すのに最適な場所だ。 シナプスやニューロンの内部活動は、ディープラーニングの未来がどのようなものになるのかを垣間見せてくれる。 本稿では, 深層学習, 勾配降下, バックプロパゲーション, 神経科学などの数十年にわたる研究から学んだ教訓を, 生物学的にもっともらしいスパイクニューラルネットワークに適用する方法を示す。 本稿では,スパイクとしてのデータの符号化と学習プロセスの微妙な相互作用,ニューラルネットワークのスパイクに勾配に基づく学習を適用することの課題と解決,時間的バックプロパゲーションとスパイクタイミング依存の可塑性との微妙な関係,生物学的に有効なオンライン学習への深層学習の取り組みについて検討する。 いくつかのアイデアは広く受け入れられ、神経形工学のコミュニティで広く使われていますが、他のアイデアはここで初めて提示または正当化されます。

The brain is the perfect place to look for inspiration to develop more efficient neural networks. The inner workings of our synapses and neurons provide a glimpse at what the future of deep learning might look like. This paper shows how to apply the lessons learnt from several decades of research in deep learning, gradient descent, backpropagation and neuroscience to biologically plausible spiking neural neural networks. This paper explores the delicate interplay between encoding data as spikes and the learning process; the challenges and solutions of applying gradient-based learning to spiking neural networks; the subtle link between temporal backpropagation and spike timing dependent plasticity, and how deep learning might move towards biologically plausible online learning. Some ideas are well accepted and commonly used amongst the neuromorphic engineering community, while others are presented or justified for the first time here.
翻訳日:2021-09-30 12:15:54 公開日:2021-09-29
# (参考訳) 圧縮的視覚表現 [全文訳有]

Compressive Visual Representations ( http://arxiv.org/abs/2109.12909v2 )

ライセンス: CC BY 4.0
Kuang-Huei Lee, Anurag Arnab, Sergio Guadarrama, John Canny, Ian Fischer(参考訳) 人間の監督なしにうまく一般化する効果的な視覚表現を学ぶことは、さまざまなタスクに機械学習を適用するための基本的な問題である。 近年,SimCLRとBYOLの2種類の自己教師型手法,コントラッシブラーニングと潜伏型ブートストラッピングが大きな進歩を遂げている。 この研究では、これらのアルゴリズムに明示的な情報圧縮を加えることで、より良くより堅牢な表現が得られると仮定する。 我々は、条件付きエントロピーボトルネック(CEB)の目的に適合するSimCLRとBYOLの定式化を開発し、学習した表現の圧縮量を測定・制御し、下流タスクへの影響を観察することで、これを検証する。 さらに,リプシッツ連続性と圧縮の関係について検討し,我々が学習したエンコーダのリプシッツ定数に従属可能な下界を示す。 リプシッツ連続性はロバスト性と密接に関連しているため、なぜ圧縮モデルの方がロバストなのかの新しい説明を提供する。 実験により、simclrとbyolに圧縮を加えることで、幅広い領域シフトの線形評価精度とモデルロバスト性が大幅に向上することを確認した。 特にBYOLの圧縮版は、ResNet-50でImageNetで76.0%、ResNet-50 2xで78.8%の線形評価精度を実現している。

Learning effective visual representations that generalize well without human supervision is a fundamental problem in order to apply Machine Learning to a wide variety of tasks. Recently, two families of self-supervised methods, contrastive learning and latent bootstrapping, exemplified by SimCLR and BYOL respectively, have made significant progress. In this work, we hypothesize that adding explicit information compression to these algorithms yields better and more robust representations. We verify this by developing SimCLR and BYOL formulations compatible with the Conditional Entropy Bottleneck (CEB) objective, allowing us to both measure and control the amount of compression in the learned representation, and observe their impact on downstream tasks. Furthermore, we explore the relationship between Lipschitz continuity and compression, showing a tractable lower bound on the Lipschitz constant of the encoders we learn. As Lipschitz continuity is closely related to robustness, this provides a new explanation for why compressed models are more robust. Our experiments confirm that adding compression to SimCLR and BYOL significantly improves linear evaluation accuracies and model robustness across a wide range of domain shifts. In particular, the compressed version of BYOL achieves 76.0% Top-1 linear evaluation accuracy on ImageNet with ResNet-50, and 78.8% with ResNet-50 2x.
翻訳日:2021-09-30 12:14:50 公開日:2021-09-29
# (参考訳) harrisz$^+$:次世代画像マッチングパイプラインのためのharris corner選択 [全文訳有]

HarrisZ$^+$: Harris Corner Selection for Next-Gen Image Matching Pipelines ( http://arxiv.org/abs/2109.12925v3 )

ライセンス: CC BY 4.0
Fabio Bellavia and Dmytro Mishkin(参考訳) 多くのコンピュータビジョンタスクでその役割があるため、画像マッチングは研究者による積極的な調査の対象となり、より識別しやすい特徴記述子や、より堅牢なマッチング戦略へと導かれてきた。 これらの成果にもかかわらず、画像マッチングパイプラインの基部におけるキーポイント抽出プロセスは、同等の進歩を見せていない。 本稿では、HarrisZ角検出器のアップグレードであるHarrisz$^{+}$について、画像マッチングパイプラインの他のステップの改善を相乗的に進めるために最適化した。 Harrisz$^{+}$ は設定パラメータのチューニングからなるだけでなく、HarrisZ が定義した選択基準をさらに洗練し、画像上によりよく分布し、より高いローカライゼーション精度のキーポイントを提供する。 harrisz$^{+}$を含む画像マッチングパイプラインは、他のモダンなコンポーネントとともに、従来の画像マッチングパイプラインの最先端のベンチマークで得られた。

Due to its role in many computer vision tasks, image matching has been subjected to an active investigation by researchers, which has lead to better and more discriminant feature descriptors and to more robust matching strategies, also thanks to the advent of the deep learning and the increased computational power of the modern hardware. Despite of these achievements, the keypoint extraction process at the base of the image matching pipeline has not seen equivalent progresses. This paper presents Harrisz$^{+}$, an upgrade to the HarrisZ corner detector, optimized to synergically take advance of the recent improvements of the other steps of the image matching pipeline. Harrisz$^{+}$ does not only consists of a tuning of the setup parameters, but introduces further refinements to the selection criteria delineated by HarrisZ, so providing more, yet discriminative, keypoints, which are better distributed on the image and with higher localization accuracy. The image matching pipeline including Harrisz$^{+}$, together with the other modern components, obtained in different recent matching benchmarks state-of-the-art results among the classic image matching pipelines, closely following results of the more recent fully deep end-to-end trainable approaches.
翻訳日:2021-09-30 11:39:38 公開日:2021-09-29
# もっと活発にしろ! 変分オートエンコーダの意味とサンプル表現の差異を理解する

Be More Active! Understanding the Differences between Mean and Sampled Representations of Variational Autoencoders ( http://arxiv.org/abs/2109.12679v2 )

ライセンス: Link先を確認
Lisa Bonheme and Marek Grzes(参考訳) 変分オートエンコーダが異種表現を学習する能力は、実用的応用に魅力的である。 しかし、下流のタスクに一般的に使用される平均表現は、通常、アンタングルメントが測定されるサンプルよりも相関性が高いことが最近示されている。 本稿では,学習表現のサブセットであるアクティブ変数のみが有用な情報をエンコードし,残り(パッシブ変数)は破棄されるという,選択的後方崩壊のレンズを通してこの観察を洗練する。 まず、当初サンプル表現のために提案された既存の定義を拡張し、各表現において活性変数が等しく非絡み合っていることを示す。 この新たな定義と、乱れlibからの事前学習モデルに基づいて、受動的変数を分離し、平均表現とサンプル表現の相違に責任があることを示す。 具体的には、受動的変数は他の変数と平均表現において高い相関スコアを示し、サンプル変数では完全に相関しない。 したがって、それらの高い相関関係が示唆するものにもかかわらず、平均表現は下流タスクアプリケーションにとっていまだに良い候補である、と結論づける。 しかし、特に相関した特徴に敏感なモデルを使用する場合、受動的変数を削除することは有益である。

The ability of Variational Autoencoders to learn disentangled representations has made them appealing for practical applications. However, their mean representations, which are generally used for downstream tasks, have recently been shown to be more correlated than their sampled counterpart, on which disentanglement is usually measured. In this paper, we refine this observation through the lens of selective posterior collapse, which states that only a subset of the learned representations, the active variables, is encoding useful information while the rest (the passive variables) is discarded. We first extend the existing definition, originally proposed for sampled representations, to mean representations and show that active variables are equally disentangled in both representations. Based on this new definition and the pre-trained models from disentanglement lib, we then isolate the passive variables and show that they are responsible for the discrepancies between mean and sampled representations. Specifically, passive variables exhibit high correlation scores with other variables in mean representations while being fully uncorrelated in sampled ones. We thus conclude that despite what their higher correlation might suggest, mean representations are still good candidates for downstream tasks applications. However, it may be beneficial to remove their passive variables, especially when used with models sensitive to correlated features.
翻訳日:2021-09-30 11:24:04 公開日:2021-09-29
# オーロラの識別と分類に対する対比学習アプローチ

A Contrastive Learning Approach to Auroral Identification and Classification ( http://arxiv.org/abs/2109.13899v2 )

ライセンス: Link先を確認
Jeremiah W. Johnson, Swathi Hari, Donald Hampton, Hyunju K. Connor, Amy Keesee(参考訳) 教師なし学習アルゴリズムは、コンピュータビジョンのベンチマークタスクにおける教師付きアルゴリズムに匹敵する精度を達成し始めているが、その実用性はまだ実証されていない。 本研究では,オーロラ画像分類の課題に対する教師なし学習の新たな応用について述べる。 具体的には、イベントの時間履歴からの画像データとサブストーム(themis)によるマクロなインタラクションを用いて構築したオーロラ画像データセットにおいて、表現のコントラスト学習(simclr)アルゴリズムのためのシンプルなフレームワークを修正し、適用する。 私たちはそれを証明します (a) 画像の学習表現に適合する単純な線形分類器は、最先端の分類性能を達成し、現在のベンチマークで約10ポイントの分類精度を向上させる。 b) 学習された表現は、手動で割り当てられたカテゴリよりも多くのクラスタに自然にクラスタ化され、既存の分類は過度に粗く、オーロラ型、近地太陽風条件、地球表面の地磁気障害の間の重要な関係を曖昧にすることを示唆している。 さらに、このモデルは、このデータセットの以前のベンチマークよりもはるかに軽量であり、パラメータの数の25\%未満の領域を必要とする。 当社のアプローチは、運用目的の確立されたしきい値を超え、デプロイメントと利用の準備ができています。

Unsupervised learning algorithms are beginning to achieve accuracies comparable to their supervised counterparts on benchmark computer vision tasks, but their utility for practical applications has not yet been demonstrated. In this work, we present a novel application of unsupervised learning to the task of auroral image classification. Specifically, we modify and adapt the Simple framework for Contrastive Learning of Representations (SimCLR) algorithm to learn representations of auroral images in a recently released auroral image dataset constructed using image data from Time History of Events and Macroscale Interactions during Substorms (THEMIS) all-sky imagers. We demonstrate that (a) simple linear classifiers fit to the learned representations of the images achieve state-of-the-art classification performance, improving the classification accuracy by almost 10 percentage points over the current benchmark; and (b) the learned representations naturally cluster into more clusters than exist manually assigned categories, suggesting that existing categorizations are overly coarse and may obscure important connections between auroral types, near-earth solar wind conditions, and geomagnetic disturbances at the earth's surface. Moreover, our model is much lighter than the previous benchmark on this dataset, requiring in the area of fewer than 25\% of the number of parameters. Our approach exceeds an established threshold for operational purposes, demonstrating readiness for deployment and utilization.
翻訳日:2021-09-30 11:23:43 公開日:2021-09-29
# 文脈言語モデルにおける語彙曖昧性のパターン

Patterns of Lexical Ambiguity in Contextualised Language Models ( http://arxiv.org/abs/2109.13032v2 )

ライセンス: Link先を確認
Janosch Haber, Massimo Poesio(参考訳) 文脈化言語モデルの中心的な側面の1つは、語彙的に曖昧な単語の意味を文脈によって区別できることである。 本稿では,多義性を示す単語形式の文脈的埋め込みが,従来の多義性とホモニミーの区別を反映しているかを検討する。 そこで本研究では,段階的単語感覚の類似性と共述的受容性に関する拡張された人間注釈付きデータセットを導入し,埋め込みの類似性が意味の類似性をどの程度正確に予測するかを評価する。 どちらのタイプの人間の判断も、多義的解釈の類似性は意味の同一性とホモニーミーの連続性にあることを示している。 しかし,ポリセムの類似度評価において有意な差が見られ,異なるタイプのポリセミック感覚変化に対して一貫したパターンが形成される。 このように、我々のデータセットは語彙的曖昧性の複雑さの大部分を捉え、文脈的埋め込みのための現実的なテストベッドを提供することができる。 テストされたモデルの中で、BERT Largeは、収集された単語感覚類似度評価と最強の相関を示すが、観察された類似度パターンを一貫して再現するのは難しい。 組込みに基づくあいまいな単語をクラスタリングする場合、同義語とある種の多義語交替を区別する信頼性が高いが、他の言語では一貫して失敗する。

One of the central aspects of contextualised language models is that they should be able to distinguish the meaning of lexically ambiguous words by their contexts. In this paper we investigate the extent to which the contextualised embeddings of word forms that display multiplicity of sense reflect traditional distinctions of polysemy and homonymy. To this end, we introduce an extended, human-annotated dataset of graded word sense similarity and co-predication acceptability, and evaluate how well the similarity of embeddings predicts similarity in meaning. Both types of human judgements indicate that the similarity of polysemic interpretations falls in a continuum between identity of meaning and homonymy. However, we also observe significant differences within the similarity ratings of polysemes, forming consistent patterns for different types of polysemic sense alternation. Our dataset thus appears to capture a substantial part of the complexity of lexical ambiguity, and can provide a realistic test bed for contextualised embeddings. Among the tested models, BERT Large shows the strongest correlation with the collected word sense similarity ratings, but struggles to consistently replicate the observed similarity patterns. When clustering ambiguous word forms based on their embeddings, the model displays high confidence in discerning homonyms and some types of polysemic alternations, but consistently fails for others.
翻訳日:2021-09-30 11:23:19 公開日:2021-09-29
# PDC-Net+: 拡張確率密度対応ネットワーク

PDC-Net+: Enhanced Probabilistic Dense Correspondence Network ( http://arxiv.org/abs/2109.13912v2 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Radu Timofte and Luc Van Gool(参考訳) 一対のイメージ間の堅牢で正確な対応を確立することは、多くのアプリケーションで長年続くコンピュータビジョンの問題である。 伝統的にスパースメソッドに支配されているが、新興の密集したアプローチはキーポイント検出ステップを避ける説得力のある代替パラダイムを提供する。 しかし, 大変位, 咬合, 均質領域において, 密集流の推定は不正確であることが多い。 ポーズ推定や画像操作,3次元再構成などの実世界の応用に高密度な手法を適用するためには,予測された一致の信頼度を推定することが重要である。 本稿では,信頼性の高い信頼度マップと共に正確な密接度を推定できる拡張確率的密接対応ネットワークpdc-net+を提案する。 フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。 特に、予測分布を制約付き混合モデルとしてパラメトリ化し、正確な流れ予測と外れ値の両方をより良くモデル化する。 さらに, 自己監督訓練の文脈において, 堅牢で一般化可能な不確実性予測に適した, アーキテクチャと強化されたトレーニング戦略を開発した。 本手法は,複数の挑戦的幾何マッチングとオプティカルフローデータセットの最先端結果を得る。 さらに,ポーズ推定,3次元再構成,画像に基づく局所化,画像検索のタスクに対する確率的信頼度推定の有用性を検証する。 コードとモデルはhttps://github.com/p runetruong/densematc hingで入手できる。

Establishing robust and accurate correspondences between a pair of images is a long-standing computer vision problem with numerous applications. While classically dominated by sparse methods, emerging dense approaches offer a compelling alternative paradigm that avoids the keypoint detection step. However, dense flow estimation is often inaccurate in the case of large displacements, occlusions, or homogeneous regions. In order to apply dense methods to real-world applications, such as pose estimation, image manipulation, or 3D reconstruction, it is therefore crucial to estimate the confidence of the predicted matches. We propose the Enhanced Probabilistic Dense Correspondence Network, PDC-Net+, capable of estimating accurate dense correspondences along with a reliable confidence map. We develop a flexible probabilistic approach that jointly learns the flow prediction and its uncertainty. In particular, we parametrize the predictive distribution as a constrained mixture model, ensuring better modelling of both accurate flow predictions and outliers. Moreover, we develop an architecture and an enhanced training strategy tailored for robust and generalizable uncertainty prediction in the context of self-supervised training. Our approach obtains state-of-the-art results on multiple challenging geometric matching and optical flow datasets. We further validate the usefulness of our probabilistic confidence estimation for the tasks of pose estimation, 3D reconstruction, image-based localization, and image retrieval. Code and models are available at https://github.com/P runeTruong/DenseMatc hing.
翻訳日:2021-09-30 11:22:53 公開日:2021-09-29
# 交通紛争における戦略的人間関係の分類

A taxonomy of strategic human interactions in traffic conflicts ( http://arxiv.org/abs/2109.13367v2 )

ライセンス: Link先を確認
Atrisha Sarkar, Kate Larson, Krzysztof Czarnecki(参考訳) 近年,自律走行車(AV)が交通状況をナビゲートするために,AVにおける戦略行動計画のためのゲーム理論モデルに注目が集まっている。 しかしながら、一般的な分類学の欠如は、モデルが生成する戦略のより広範な理解と、AVが実行すべき安全な戦略を特定するための安全仕様の開発を妨げている。 交通紛争におけるインタラクションの共通パターンに基づいて, エージェントの初期反応とその後のエージェントの行動に対する反応の次元に沿って, 戦略的相互作用の分類法を開発する。 さらに,戦略プランナーが生成する戦略を分類学のカテゴリに自動マッピングするプロセスを示し,車両と車両の相互作用シミュレーションに基づいて,avs,qlk,サブゲームにおける戦略計画に使用される2つの一般的な解概念を,それらのカテゴリに関して評価した。

In order to enable autonomous vehicles (AV) to navigate busy traffic situations, in recent years there has been a focus on game-theoretic models for strategic behavior planning in AVs. However, a lack of common taxonomy impedes a broader understanding of the strategies the models generate as well as the development of safety specification to identity what strategies are safe for an AV to execute. Based on common patterns of interaction in traffic conflicts, we develop a taxonomy for strategic interactions along the dimensions of agents' initial response to right-of-way rules and subsequent response to other agents' behavior. Furthermore, we demonstrate a process of automatic mapping of strategies generated by a strategic planner to the categories in the taxonomy, and based on vehicle-vehicle and vehicle-pedestrian interaction simulation, we evaluate two popular solution concepts used in strategic planning in AVs, QLk and Subgame perfect $\epsilon$-Nash Equilibrium, with respect to those categories.
翻訳日:2021-09-30 11:22:34 公開日:2021-09-29
# 進化的マルチタスクの半ダース以上の実世界応用

Half a Dozen Real-World Applications of Evolutionary Multitasking and More ( http://arxiv.org/abs/2109.13101v3 )

ライセンス: Link先を確認
Abhishek Gupta, Lei Zhou, Yew-Soon Ong, Zefeng Chen, Yaqing Hou(参考訳) 最近まで、異なる最適化問題インスタンス(あるいはタスク)にまたがって進化したスキルを移す可能性はほとんどなかった。 進化的マルチタスク(EMT)の概念はこのギャップを埋める。 これにより、集団の暗黙の並列性が解き放たれ、一連のタスクを共同で解決する。 初期段階であったにもかかわらず、EMTのアイデアは、様々な現実世界のアプリケーションで約束を示し始めた。 近年の進歩の背景には,本論文の貢献が2つある。 まず,本論文におけるEMTの応用指向探索について概説し,それぞれの適用領域に応じて6つの広いカテゴリにまとめる。 各カテゴリは、マルチタスクに対する基本的なモチベーションを詳述し、代表的な実験研究(文献を参照)を含んでいる。 第2に、実践的関心の一般的な問題、異なる分野にまたがる問題の定式化を、EMTの新しい光で変換できるレシピのセットを提案する。 我々は,既存のEMT手法の実用性を明らかにするとともに,実世界展開のための新しいアルゴリズムに向けた今後の研究を提起する。

Until recently, the potential to transfer evolved skills across distinct optimization problem instances (or tasks) was seldom explored in evolutionary computation. The concept of evolutionary multitasking (EMT) fills this gap. It unlocks a population's implicit parallelism to jointly solve a set of tasks, hence creating avenues for skills transfer between them. Despite it being early days, the idea of EMT has begun to show promise in a range of real-world applications. In the backdrop of recent advances, the contribution of this paper is twofold. First, we present a review of several application-oriented explorations of EMT in the literature, assimilating them into half a dozen broad categories according to their respective application areas. Each category elaborates fundamental motivations to multitask, and contains a representative experimental study (referred from the literature). Second, we present a set of recipes by which general problem formulations of practical interest, those that cut across different disciplines, could be transformed in the new light of EMT. We intend our discussions to underscore the practical utility of existing EMT methods, and spark future research toward novel algorithms crafted for real-world deployment.
翻訳日:2021-09-30 11:22:17 公開日:2021-09-29