このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210707となっている論文です。

PDF登録状況(公開日: 20210707)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ADS-Bデータに基づく空路クラスタリングの簡易化 [全文訳有]

A Simplified Framework for Air Route Clustering Based on ADS-B Data ( http://arxiv.org/abs/2107.12869v1 )

ライセンス: CC BY 4.0
Quan Duong, Tan Tran, Duc-Thinh Pham, An Mai(参考訳) 飛行トラフィックの量は時間とともに増加するため、戦略的トラフィックフロー管理は、トラフィックデータ全体をモデル化するために大量の計算リソースを必要とするため、難しい問題のひとつとなっている。 一方、ads-b(automatic dependent surveillance- broadcast)技術は、飛行士と地上管制スタッフの両方に、特定の地域における航空機の位置と速度について安全かつ効率的に情報を提供する有望なデータ技術であると考えられている。 そこで本稿では,ADS-Bデータに基づく空港間の典型的な航空路の検出を支援するための簡易な枠組みを提案する。 具体的には、空港間の飛行経路の減少に寄与する類似性対策に基づき、フライトトラフィックを主要なグループに分類する。 実のところ,我々の枠組みは,空気流最適化の計算コストを実質的に低減し,運用性能を評価するために考慮することができる。 最後に,提案手法の適用可能性を示すために,3つの異なる空港のADS-B交通便データを用いて実験を行った。 検出された2つの空港間の典型的な経路は、クラスタリング性能を測定するために2つの指標を組み合わせて視覚検査に人間の判断を取り入れることで有望な結果を示す。

The volume of flight traffic gets increasing over the time, which makes the strategic traffic flow management become one of the challenging problems since it requires a lot of computational resources to model entire traffic data. On the other hand, Automatic Dependent Surveillance - Broadcast (ADS-B) technology has been considered as a promising data technology to provide both flight crews and ground control staff the necessary information safely and efficiently about the position and velocity of the airplanes in a specific area. In the attempt to tackle this problem, we presented in this paper a simplified framework that can support to detect the typical air routes between airports based on ADS-B data. Specifically, the flight traffic will be classified into major groups based on similarity measures, which helps to reduce the number of flight paths between airports. As a matter of fact, our framework can be taken into account to reduce practically the computational cost for air flow optimization and evaluate the operational performance. Finally, in order to illustrate the potential applications of our proposed framework, an experiment was performed using ADS-B traffic flight data of three different pairs of airports. The detected typical routes between each couple of airports show promising results by virtue of combining two indices for measuring the clustering performance and incorporating human judgment into the visual inspection.
翻訳日:2021-08-01 14:03:07 公開日:2021-07-07
# (参考訳) 地下鉄網におけるネットワーク乗降遅延の日・季節変動 [全文訳有]

Day-to-day and seasonal regularity of network passenger delay for metro networks ( http://arxiv.org/abs/2107.14094v1 )

ライセンス: CC BY 4.0
Panchamy Krishnakumari, Oded Cats and Hans van Lint(参考訳) ユーザ満足度とトランジットイメージを改善するため、世界中の交通サービスプロバイダは遅延補償を提供している。 スマートカードデータは、ネットワーク全体で乗客の遅延を推定し、サービスパフォーマンスの監視を支援する。 しかしながら、サービスの信頼性の向上と乗客の遅延の低減を優先するためには、ほとんどの乗客の遅延が発生している駅や線路などのシステムコンポーネントを特定することが最重要である。 そこで本研究では,個々の軌道からネットワーク利用者の遅延を推定する手法を提案する。 乗客軌道に沿った遅延を,対応する線路セグメント遅延,初期待ち時間,移動遅延に分解する。 我々は、公共交通機関網に関して、平均旅客遅延と全乗客遅延の2つの異なるタイプの乗客遅延を区別する。 これら2つの量に時間的クラスタリングを適用して,トランジットネットワークの遅延パターンの日次的および季節的規則性を明らかにする。 この推定とクラスタリング手法はワシントン大都市圏ネットワークから1年間のデータで実証される。 データはスケジュール情報と、2017年8月から2018年8月までの地下鉄ネットワークの旅客列車割り当てを含むスマートカードデータで構成されている。 その結果,1日平均乗車遅延は比較的安定していることがわかった。 時間的クラスタリングは発音と再帰性を示し、そのため、特定の月ごとに異なる特徴を持つ毎日のパターンと毎週のパターンを予測できる。

In an effort to improve user satisfaction and transit image, transit service providers worldwide offer delay compensations. Smart card data enables the estimation of passenger delays throughout the network and aid in monitoring service performance. Notwithstanding, in order to prioritize measures for improving service reliability and hence reducing passenger delays, it is paramount to identify the system components - stations and track segments - where most passenger delay occurs. To this end, we propose a novel method for estimating network passenger delay from individual trajectories. We decompose the delay along a passenger trajectory into its corresponding track segment delay, initial waiting time and transfer delay. We distinguish between two different types of passenger delay in relation to the public transit network: average passenger delay and total passenger delay. We employ temporal clustering on these two quantities to reveal daily and seasonal regularity in delay patterns of the transit network. The estimation and clustering methods are demonstrated on one year of data from Washington metro network. The data consists of schedule information and smart card data which includes passenger-train assignment of the metro network for the months of August 2017 to August 2018. Our findings show that the average passenger delay is relatively stable throughout the day. The temporal clustering reveals pronounced and recurrent and thus predictable daily and weekly patterns with distinct characteristics for certain months.
翻訳日:2021-08-01 13:54:41 公開日:2021-07-07
# 分散型自律組織プラットフォーム選択のための意思決定モデル--3つの産業ケーススタディ

A Decision Model for Decentralized Autonomous Organization Platform Selection: Three Industry Case Studies ( http://arxiv.org/abs/2107.14093v1 )

ライセンス: Link先を確認
Elena Baninemeh (1), Siamak Farshidi (2), Slinger Jansen (1) ((1) Department of Information and Computer Science at Utrecht University, Utrecht, the Netherlands, (2) Informatics Institute at University of Amsterdam, Amsterdam, the Netherlands)(参考訳) オンラインガバナンスの新しい形態としての分散型自律型組織は、人々のグループを介するブロックチェーンプラットフォームにデプロイされたスマートコントラクトの集合体である。 アラゴンやコロニーのような分散型の自治組織プラットフォームは、そのような組織の発展プロセスを促進するために市場に導入されている。 組織にとって最適なプラットフォームを選択することは、人気度、開発者の可用性、ガバナンスの問題、それらのプラットフォームの一貫性のあるドキュメントなど、決定基準のかなりの数を考慮する必要がある。 さらに、組織における意思決定者は、各分野の専門家ではないため、これらのプラットフォームに関する不揮発性知識を継続的に取得し、自らを更新し続けなければならない。 本稿では,ソフトウェア生産におけるマルチクリトリア意思決定問題に対して,ソフトウェア技術者を支援するための理論的枠組みを開発し,分散自律型組織プラットフォーム選択問題に対するマルチクリトリア意思決定問題として決定モデルを提案する。 意思決定者支援における意思決定モデルの有効性と効率を評価するために、3つの分散自律型組織の文脈で3つの業界ケーススタディを実施した。

Decentralized autonomous organizations as a new form of online governance arecollections of smart contracts deployed on a blockchain platform that intercede groupsof people. A growing number of Decentralized Autonomous Organization Platforms,such as Aragon and Colony, have been introduced in the market to facilitate thedevelopment process of such organizations. Selecting the best fitting platform ischallenging for the organizations, as a significant number of decision criteria, such aspopularity, developer availability, governance issues, and consistent documentation ofsuch platforms, should be considered. Additionally, decision-makers at theorganizations are not experts in every domain, so they must continuously acquirevolatile knowledge regarding such platforms and keep themselves updated.Accordingly, a decision model is required to analyze the decision criteria usingsystematic identification and evaluation of potential alternative solutions for adevelopment project. We have developed a theoretical framework to assist softwareengineers with a set of Multi-Criteria Decision-Making problems in software production.This study presents a decision model as a Multi-Criteria Decision-Making problem forthe decentralized autonomous organization platform selection problem. Weconducted three industry case studies in the context of three decentralizedautonom ous organizations to evaluate the effectiveness and efficiency of the decisionmodel in assisting decision-makers.
翻訳日:2021-08-01 11:00:59 公開日:2021-07-07
# (参考訳) 集中治療室における抗菌性多剤耐性獲得のための時系列カーネルの利用と寸法低減について [全文訳有]

On the Use of Time Series Kernel and Dimensionality Reduction to Identify the Acquisition of Antimicrobial Multidrug Resistance in the Intensive Care Unit ( http://arxiv.org/abs/2107.10398v1 )

ライセンス: CC0 1.0
\'Oscar Escudero-Arnanz, Joaqu\'in Rodr\'iguez-\'Alvarez, Karl {\O}yvind Mikalsen, Robert Jenssen, Cristina Soguero-Ruiz(参考訳) 集中治療室 (ICU) に入院した患者に対する抗微生物多剤耐性 (AMR) の獲得は, 世界的な関心事である。 2004年から2020年にかけて、フエンラブラダ大学病院(マドリッド大学)のICUで記録された3476人の多変量時系列(MTS)データを分析した。 icu滞在中にamrを取得した患者は18\%であった。 本研究の目的は,amrの開発を早期に予測することである。 そのために、時系列クラスタカーネル(TCK)を活用して、TS間の類似性を学習する。 カーネルとしてのTCKの有効性を評価するため、可視化および分類タスクにいくつかの次元削減手法を適用した。 実験の結果、TCKは、ICU滞在後48時間にAMRを取得する患者のグループを識別することができ、また、優れた分類能力も提供することが示された。

The acquisition of Antimicrobial Multidrug Resistance (AMR) in patients admitted to the Intensive Care Units (ICU) is a major global concern. This study analyses data in the form of multivariate time series (MTS) from 3476 patients recorded at the ICU of University Hospital of Fuenlabrada (Madrid) from 2004 to 2020. 18\% of the patients acquired AMR during their stay in the ICU. The goal of this paper is an early prediction of the development of AMR. Towards that end, we leverage the time-series cluster kernel (TCK) to learn similarities between MTS. To evaluate the effectiveness of TCK as a kernel, we applied several dimensionality reduction techniques for visualization and classification tasks. The experimental results show that TCK allows identifying a group of patients that acquire the AMR during the first 48 hours of their ICU stay, and it also provides good classification capabilities.
翻訳日:2021-07-25 13:52:19 公開日:2021-07-07
# 多相オートエンコーダによる異常検出

Anomaly Detection Based on Multiple-Hypothesis Autoencoder ( http://arxiv.org/abs/2107.08790v1 )

ライセンス: Link先を確認
JoonSung Lee, YeongHyeon Park(参考訳) 近年,自動エンコーダ(AE)に基づくモデルが異常検出の分野で広く利用されている。 正規データで訓練されたモデルは、異常データに対するより大きな復元誤差を生成する。 復元誤差を観測して異常なデータが決定されるか否か。 産業分野で異常なデータを得るには、多くのコストと時間が必要です。 したがって、モデルは正規データのみを訓練し、推論フェーズで異常データを検出する。 しかし、潜時空間において、AEの入力データの復元領域が制限される。 そこで本研究では,複数のデコーダからなるマルチハイブリッドオートエンコーダ(MH-AE)モデルを提案する。 MH-AEモデルはデコーダ間の競合を通じて復元面積を増加させる。 提案手法は,各種入力データセットの従来のAEと比較して異常検出性能が向上していることを示す。

Recently Autoencoder(AE) based models are widely used in the field of anomaly detection. A model trained with normal data generates a larger restoration error for abnormal data. Whether or not abnormal data is determined by observing the restoration error. It takes a lot of cost and time to obtain abnormal data in the industrial field. Therefore the model trains only normal data and detects abnormal data in the inference phase. However, the restoration area for the input data of AE is limited in the latent space. To solve this problem, we propose Multiple-hypothesis Autoencoder(MH-AE) model composed of several decoders. MH-AE model increases the restoration area through contention between decoders. The proposed method shows that the anomaly detection performance is improved compared to the traditional AE for various input datasets.
翻訳日:2021-07-25 11:56:51 公開日:2021-07-07
# 重症心不全患者の血中乳酸値の予測:多施設コホート研究

Prediction of Blood Lactate Values in Critically Ill Patients: A Retrospective Multi-center Cohort Study ( http://arxiv.org/abs/2107.07582v1 )

ライセンス: Link先を確認
Behrooz Mamandipoor, Wesley Yeung, Louis Agha-Mir-Salim, David J. Stone, Venet Osmani, Leo Anthony Celi(参考訳) 目的。 乳酸血清中の乳酸濃度の上昇は重症患者の死亡率の強力な予測因子である。 乳酸値が上昇する可能性が高くなる患者を特定することで、医師に注意を喚起し、血液検査の頻度を誘導することができる。 機械学習モデルがその後の乳酸血清の変化を予測できるかどうかを検討する。 方法。 MIMIC-IIIおよびeICU-CRDデータセットを用いた血清乳酸変化予測と,MIMIC-IIIコホート上のeICUコホートの外的検証を行った。 乳酸初期濃度は, 正常群 (2 mmol/L), 軽群 (2-4 mmol/L), 重群 (>4 mmol/L) の3群に分類された。 結果は, 群間での乳酸値の上昇または低下に基づいて決定された。 また, ラクテート変化を10%以上と定義して感度解析を行い, その後のラクテート測定値間の時間間隔が予測性能に及ぼす影響についても検討した。 結果。 LSTMモデルでは,健常群が0.77(95% CI 0.762-0.771),軽度群が0.77(95% CI 0.768-0.772),重度群が0.85(95% CI 0.840-0.851),外的妥当性がわずかに低下したMIC-III患者の血清乳酸値の低下を予測できた。 結論。 lstmは血清乳酸値が低下した患者に対して良好な識別率を示した。 これらの結果に基づく臨床判断支援ツールの利用が意思決定と患者の成果に正の影響を与えるかどうかを評価するためには,臨床研究が必要である。

Purpose. Elevations in initially obtained serum lactate levels are strong predictors of mortality in critically ill patients. Identifying patients whose serum lactate levels are more likely to increase can alert physicians to intensify care and guide them in the frequency of tending the blood test. We investigate whether machine learning models can predict subsequent serum lactate changes. Methods. We investigated serum lactate change prediction using the MIMIC-III and eICU-CRD datasets in internal as well as external validation of the eICU cohort on the MIMIC-III cohort. Three subgroups were defined based on the initial lactate levels: i) normal group (<2 mmol/L), ii) mild group (2-4 mmol/L), and iii) severe group (>4 mmol/L). Outcomes were defined based on increase or decrease of serum lactate levels between the groups. We also performed sensitivity analysis by defining the outcome as lactate change of >10% and furthermore investigated the influence of the time interval between subsequent lactate measurements on predictive performance. Results. The LSTM models were able to predict deterioration of serum lactate values of MIMIC-III patients with an AUC of 0.77 (95% CI 0.762-0.771) for the normal group, 0.77 (95% CI 0.768-0.772) for the mild group, and 0.85 (95% CI 0.840-0.851) for the severe group, with a slightly lower performance in the external validation. Conclusion. The LSTM demonstrated good discrimination of patients who had deterioration in serum lactate levels. Clinical studies are needed to evaluate whether utilization of a clinical decision support tool based on these results could positively impact decision-making and patient outcomes.
翻訳日:2021-07-25 11:56:42 公開日:2021-07-07
# (参考訳) 勾配エピソディックメモリにおける二次プログラムの固定版 [全文訳有]

A Fixed Version of Quadratic Program in Gradient Episodic Memory ( http://arxiv.org/abs/2107.07384v1 )

ライセンス: CC BY-SA 4.0
Wei Zhou, Yiying Li(参考訳) グラデーションエピソディックメモリは、既に獲得した知識を忘れることなく、新しい問題を素早く解決する、連続学習の新しい方法である。 しかし,論文研究の過程で,二次プログラムの双対問題の証明にはいくつかの問題があったことが判明した。

Gradient Episodic Memory is indeed a novel method for continual learning, which solves new problems quickly without forgetting previously acquired knowledge. However, in the process of studying the paper, we found there were some problems in the proof of the dual problem of Quadratic Program, so here we give our fixed version for this problem.
翻訳日:2021-07-18 13:45:16 公開日:2021-07-07
# (参考訳) 機械学習によるインド洋の熱帯性サイクロン強度の推定 [全文訳有]

Tropical cyclone intensity estimations over the Indian ocean using Machine Learning ( http://arxiv.org/abs/2107.05573v1 )

ライセンス: CC BY 4.0
Koushik Biswas, Sandeep Kumar, Ashish Kumar Pandey(参考訳) 熱帯サイクロンは地球上で最も強力で破壊的な自然現象の一つである。 熱帯の嵐と豪雨は洪水を引き起こし、人間の命と経済的損失につながる。 サイクロンを伴う壊滅的な風は沿岸部だけでなく、遠くの地域にも大きな影響を与える。 本研究は,北インド洋上の熱帯性サイクロンの強度推定,特にサイクロン濃度と最大持続表面風速(MSWS)に着目した。 我々は様々な機械学習アルゴリズムを用いてサイクロングレードとmswsを推定する。 我々は,原産地,年代,時間,緯度,経度,推定中央圧力,圧力低下をモデルの特徴として用いた。 我々は,連続変数であるmswsのカテゴリー的結果変数,サイクロン次数,回帰モデルに対して,マルチクラス分類モデルを用いる。 北インド洋上で28年間最高の軌道データを用いて、精度は88%、MSWSは2.3の根平均二乗誤差(RMSE)を推定する。 上位カテゴリー(5-7)では、平均98.84%まで精度が向上する。 北インド洋における最近の熱帯サイクロンであるvayuとfaniを用いて実験を行った。 年次では, それぞれ93.22%, 95.23%, MSWSでは2.2および3.4のRMSE, 0.99および0.99のR^2$を得た。

Tropical cyclones are one of the most powerful and destructive natural phenomena on earth. Tropical storms and heavy rains can cause floods, which lead to human lives and economic loss. Devastating winds accompanying cyclones heavily affect not only the coastal regions, even distant areas. Our study focuses on the intensity estimation, particularly cyclone grade and maximum sustained surface wind speed (MSWS) of a tropical cyclone over the North Indian Ocean. We use various machine learning algorithms to estimate cyclone grade and MSWS. We have used the basin of origin, date, time, latitude, longitude, estimated central pressure, and pressure drop as attributes of our models. We use multi-class classification models for the categorical outcome variable, cyclone grade, and regression models for MSWS as it is a continuous variable. Using the best track data of 28 years over the North Indian Ocean, we estimate grade with an accuracy of 88% and MSWS with a root mean square error (RMSE) of 2.3. For higher grade categories (5-7), accuracy improves to an average of 98.84%. We tested our model with two recent tropical cyclones in the North Indian Ocean, Vayu and Fani. For grade, we obtained an accuracy of 93.22% and 95.23% respectively, while for MSWS, we obtained RMSE of 2.2 and 3.4 and $R^2$ of 0.99 and 0.99, respectively.
翻訳日:2021-07-18 13:43:19 公開日:2021-07-07
# (参考訳) ビッグデータイメージング研究の臨床的翻訳における機械学習の課題

Challenges for machine learning in clinical translation of big data imaging studies ( http://arxiv.org/abs/2107.05630v1 )

ライセンス: CC BY 4.0
Nicola K Dinsdale, Emma Bluemke, Vaanathi Sundaresan, Mark Jenkinson, Stephen Smith, Ana IL Namburete(参考訳) ディープラーニング画像解析法と大規模画像データセットの組み合わせは、神経科学と疫学のイメージングに多くの機会をもたらす。 しかしながら、多くのニューロイメージングタスクに適用されたディープラーニングの成功にもかかわらず、大規模データセットと処理ツールの臨床的翻訳には障壁が残っている。 ここでは、これらを克服するための主な課題とアプローチについて検討する。 我々は、データの可用性、解釈可能性、評価、論理的課題に関する問題に焦点を合わせ、研究分野の外でビッグデータのディープラーニングアプローチが完全に成功するためには、まだ克服すべき課題について議論する。

The combination of deep learning image analysis methods and large-scale imaging datasets offers many opportunities to imaging neuroscience and epidemiology. However, despite the success of deep learning when applied to many neuroimaging tasks, there remain barriers to the clinical translation of large-scale datasets and processing tools. Here, we explore the main challenges and the approaches that have been explored to overcome them. We focus on issues relating to data availability, interpretability, evaluation and logistical challenges, and discuss the challenges we believe are still to be overcome to enable the full success of big data deep learning approaches to be experienced outside of the research field.
翻訳日:2021-07-18 13:36:38 公開日:2021-07-07
# (参考訳) WeightScale: ニューラルネットワークの重み変化を解釈する [全文訳有]

WeightScale: Interpreting Weight Change in Neural Networks ( http://arxiv.org/abs/2107.07005v1 )

ライセンス: CC BY 4.0
Ayush Manish Agrawal, Atharva Tendle, Harshvardhan Sikka, Sahib Singh(参考訳) ニューラルネットワークの学習ダイナミクスを解釈することは、ネットワークの学習方法とより良いトレーニングと設計アプローチの開発に有用な洞察を与える。 本稿では,層単位の相対的重み変化を計測し,次元の縮小と非常に深いネットワークへの拡張を可能にするクラスタリングを組み合わせることで,新たなトレンドを動的に集約することで,ニューラルネットワークにおける学習を解釈する手法を提案する。 このアプローチを用いて、さまざまな最先端ネットワークにおける視覚タスクのコンテキストにおける学習を調査し、タスクの複雑さがネットワークのより深い層における階層的学習にどのように影響するかなど、これらのネットワークの学習行動に関する洞察を提供する。

Interpreting the learning dynamics of neural networks can provide useful insights into how networks learn and the development of better training and design approaches. We present an approach to interpret learning in neural networks by measuring relative weight change on a per layer basis and dynamically aggregating emerging trends through combination of dimensionality reduction and clustering which allows us to scale to very deep networks. We use this approach to investigate learning in the context of vision tasks across a variety of state-of-the-art networks and provide insights into the learning behavior of these networks, including how task complexity affects layer-wise learning in deeper layers of networks.
翻訳日:2021-07-18 13:35:44 公開日:2021-07-07
# ハイジャックされたレビューの特定

Identifying Hijacked Reviews ( http://arxiv.org/abs/2107.05385v1 )

ライセンス: Link先を確認
Monika Daryani and James Caverlee(参考訳) 偽レビューとレビュー操作は、世界中のオンラインマーケットプレースで問題になりつつある。 レビューハイジャック(review hijacking)は、非倫理的な売り手が既存の製品ページを「ハイジャック(hijack)」し、タイトル、写真、説明などの製品の詳細を全く異なる製品で更新する、新しいレビュー操作手法である。 以前のレビューがまだ添付されているので、新しいアイテムは見栄えが良く見える。 しかし、レビューハイジャックの公開データセットはなく、この戦術に関する文献ではほとんど知られていない。 Hence, this paper proposes a three-part study: (i) we propose a framework to generate synthetically labeled data for review hijacking by swapping products and reviews; (ii) then, we evaluate the potential of both a Twin LSTM network and BERT sequence pair classifier to distinguish legitimate reviews from hijacked ones using this data; and (iii) we then deploy the best performing model on a collection of 31K products (with 6.5 M reviews) in the original data, where we find 100s of previously unknown examples of review hijacking.

Fake reviews and review manipulation are growing problems on online marketplaces globally. Review Hijacking is a new review manipulation tactic in which unethical sellers "hijack" an existing product page (usually one with many positive reviews), then update the product details like title, photo, and description with those of an entirely different product. With the earlier reviews still attached, the new item appears well-reviewed. However, there are no public datasets of review hijacking and little is known in the literature about this tactic. Hence, this paper proposes a three-part study: (i) we propose a framework to generate synthetically labeled data for review hijacking by swapping products and reviews; (ii) then, we evaluate the potential of both a Twin LSTM network and BERT sequence pair classifier to distinguish legitimate reviews from hijacked ones using this data; and (iii) we then deploy the best performing model on a collection of 31K products (with 6.5 M reviews) in the original data, where we find 100s of previously unknown examples of review hijacking.
翻訳日:2021-07-18 12:35:39 公開日:2021-07-07
# 半教師付き学習を用いたエンド・ツー・エンドリッチ転写スタイル自動音声認識

End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised Learning ( http://arxiv.org/abs/2107.05382v1 )

ライセンス: Link先を確認
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Shota Orihashi, Naoki Makishima(参考訳) 本稿では,小規模・大規模共通書き起こし型データセットから,エンド・ツー・エンドのリッチ書き起こし型自動音声認識(rt-asr)システムを構築するための半教師あり学習手法を提案する。 自発的な音声タスクでは、フィラー、単語断片、笑い、せきなど様々な音声現象が発生する。 しばしば含まれます 一般的な転写はこれらの現象に特別な認識を与えないが、リッチな転写はそれらをテキストトークンと同様に特別な現象トークンに明示的に変換する。 前回の研究では、テキストと現象のトークンはエンドツーエンドで同時に推定された。 しかし、大規模なリッチな転写スタイルのデータセットがしばしば利用できないため、正確なRT-ASRシステムを構築するのは難しい。 この問題を解決するために,本手法ではリッチなリクリプションスタイルデータセットと共通リクリプションスタイルのデータセットを同時に使用する。 半教師付き学習における鍵となるプロセスは、共通の転写型データセットを擬似リッチな転写型データセットに変換することです。 この目的のために,トランスフォーマティブ・オートレグレッシブ・モデリングにおいて,現象トークンが生成されるか否かを制御するスタイルトークンを導入する。 このモデリングは、擬似リッチな転写スタイルのデータセットを生成し、擬似および原文のデータセットからRT-ASRシステムを構築するために使用される。 自発性ASR課題に対する実験により,提案手法の有効性が示された。

We propose a semi-supervised learning method for building end-to-end rich transcription-style automatic speech recognition (RT-ASR) systems from small-scale rich transcription-style and large-scale common transcription-style datasets. In spontaneous speech tasks, various speech phenomena such as fillers, word fragments, laughter and coughs, etc. are often included. While common transcriptions do not give special awareness to these phenomena, rich transcriptions explicitly convert them into special phenomenon tokens as well as textual tokens. In previous studies, the textual and phenomenon tokens were simultaneously estimated in an end-to-end manner. However, it is difficult to build accurate RT-ASR systems because large-scale rich transcription-style datasets are often unavailable. To solve this problem, our training method uses a limited rich transcription-style dataset and common transcription-style dataset simultaneously. The Key process in our semi-supervised learning is to convert the common transcription-style dataset into a pseudo-rich transcription-style dataset. To this end, we introduce style tokens which control phenomenon tokens are generated or not into transformer-based autoregressive modeling. We use this modeling for generating the pseudo-rich transcription-style datasets and for building RT-ASR system from the pseudo and original datasets. Our experiments on spontaneous ASR tasks showed the effectiveness of the proposed method.
翻訳日:2021-07-18 12:34:38 公開日:2021-07-07
# 進化的計算はヴォイニッヒ写本の解読に役立つか?

Can Evolutionary Computation Help us to Crib the Voynich Manuscript ? ( http://arxiv.org/abs/2107.05381v1 )

ライセンス: Link先を確認
Daniel Devatman Hromada(参考訳) 本稿では,Voynich Manuscript は偽造ではなく,むしろ真正な内容の符号化である,という仮定とは別に,Voynichian glyph と候補音韻値の最適マッピングを求める進化的アルゴリズムを提案する。 デコードアルゴリズムの中核となるコンポーネントは、適合関数の最大化プロセスであり、最も最適な置換ルールのセットを見つけることを目的としており、原稿(私たちがカレンダと呼ぶ)の一部を女性名のリストに書き起こすことができる。 これにより、300枚のカレンダートークンのうち数十個を女性名に一貫して書き起こせる文字置換規則が設定され、その結果は「大衆」と「芸術の状況」の両方をはるかに超え、写本を解読する仮の手段となった。 さらに、異なる言語から派生した名前リストを潜在的なベビーベッドとして使うことで、我々の `adaptive'' メソッドは、原稿が書かれた言語の識別にも役立ちます。 現在わかる限りでは、我々の実験の結果、写本の暦部はバルトスラヴ語、バルカン語、ヘブライ語のストラタに由来する名前を含んでいることを示している。 プリモ (primo, highest fitness value) は、cribリストがトークンのペナルティメイト位置にある特定のイフィックスを含む場合、例えば、slavic \textbf{feminine diminutives} (すなわち、slavic) のように取得される。 --ka-not-aで終わる名前。 最も成功したシナリオでは、35個のvoynicheseトークンに含まれる240文字が書き起こされた。 secundoは、ヘブライ語から派生したcribの場合、個々の文字の順番が逆転したヴォイニチアントークンを転写する際に、適応プロセス全体がかなり良い適合値に収束し、男性名ではなく女性名のリストをcribとして使用する。

Departing from the postulate that Voynich Manuscript is not a hoax but rather encodes authentic contents, our article presents an evolutionary algorithm which aims to find the most optimal mapping between voynichian glyphs and candidate phonemic values. Core component of the decoding algorithm is a process of maximization of a fitness function which aims to find most optimal set of substitution rules allowing to transcribe the part of the manuscript -- which we call the Calendar -- into lists of feminine names. This leads to sets of character subsitution rules which allow us to consistently transcribe dozens among three hundred calendar tokens into feminine names: a result far surpassing both ``popular'' as well as "state of the art" tentatives to crack the manuscript. What's more, by using name lists stemming from different languages as potential cribs, our ``adaptive'' method can also be useful in identification of the language in which the manuscript is written. As far as we can currently tell, results of our experiments indicate that the Calendar part of the manuscript contains names from baltoslavic, balkanic or hebrew language strata. Two further indications are also given: primo, highest fitness values were obtained when the crib list contains names with specific infixes at token's penultimate position as is the case, for example, for slavic \textbf{feminine diminutives} (i.e. names ending with -ka and not -a). In the most successful scenario, 240 characters contained in 35 distinct Voynichese tokens were successfully transcribed. Secundo, in case of crib stemming from Hebrew language, whole adaptation process converges to significantly better fitness values when transcribing voynichian tokens whose order of individual characters have been reversed, and when lists feminine and not masculine names are used as the crib.
翻訳日:2021-07-18 12:32:14 公開日:2021-07-07
# グラフ畳み込みGRUネットワークを用いた短時間ストリームフロー予測

Short-term Hourly Streamflow Prediction with Graph Convolutional GRU Networks ( http://arxiv.org/abs/2107.07039v1 )

ライセンス: Link先を確認
Muhammed Sit, Bekir Demiray and Ibrahim Demir(参考訳) 気候変動による洪水の頻度と影響は増加すると予想されている。 資産の被害と死亡率の観点からその影響を準備し緩和するために、流れを予測し、結果として洪水を起こすことが不可欠である。 本稿では,上流河川網を用いたセンサ位置における36時間の流速予測のためのグラフ畳み込みGRUモデルを提案する。 実験結果に示すように,本研究で提示するモデルは,短期の流速予測において,学習領域の持続性ベースラインおよび畳み込み2方向gruネットワークよりも優れた性能を提供する。

The frequency and impact of floods are expected to increase due to climate change. It is crucial to predict streamflow, consequently flooding, in order to prepare and mitigate its consequences in terms of property damage and fatalities. This paper presents a Graph Convolutional GRUs based model to predict the next 36 hours of streamflow for a sensor location using the upstream river network. As shown in experiment results, the model presented in this study provides better performance than the persistence baseline and a Convolutional Bidirectional GRU network for the selected study area in short-term streamflow prediction.
翻訳日:2021-07-18 12:27:49 公開日:2021-07-07
# 図書館員らしくない:ai on the nature, value, and future of lis

Not Quite 'Ask a Librarian': AI on the Nature, Value, and Future of LIS ( http://arxiv.org/abs/2107.05383v1 )

ライセンス: Link先を確認
Jesse David Dinneen and Helen Bubinger(参考訳) Webデータに基づいてトレーニングされたAI言語モデルは、人間の知識や公共の感情を反映した散文を生成するが、新しい洞察や予測も含んでいる。 世界最高の言語モデルであるgpt-3に,lis学者から長年の注目を集める図書館情報科学(lis)の性質,価値,未来に関する15の難問を質問した。 私たちは45の異なる回答からハイライトを紹介します。それは、格子や似顔絵から、未来の興味深い視点、そして不安なビジョンまで、AI言語モデルの現在のパフォーマンスをLISがカスタマイズしたデモを提供します。 また、この方法でAIを使って研究アイデアを予測したり生成したりする可能性についても考察する。 最後に、読者が自分自身で検討し評価するための全応答ログをオンラインで公開しました。

AI language models trained on Web data generate prose that reflects human knowledge and public sentiments, but can also contain novel insights and predictions. We asked the world's best language model, GPT-3, fifteen difficult questions about the nature, value, and future of library and information science (LIS), topics that receive perennial attention from LIS scholars. We present highlights from its 45 different responses, which range from platitudes and caricatures to interesting perspectives and worrisome visions of the future, thus providing an LIS-tailored demonstration of the current performance of AI language models. We also reflect on the viability of using AI to forecast or generate research ideas in this way today. Finally, we have shared the full response log online for readers to consider and evaluate for themselves.
翻訳日:2021-07-18 12:26:40 公開日:2021-07-07
# アセット独立レジームスイッチングモデルによるリスク調整リターン予測

Predicting Risk-adjusted Returns using an Asset Independent Regime-switching Model ( http://arxiv.org/abs/2107.05535v1 )

ライセンス: Link先を確認
Nicklas Werge(参考訳) 金融市場は時間とともに様々な市場体制を切り替える傾向にあり、定常性に基づくモデルは持続不可能である。 隠れマルコフモデルに基づくリスク調整リターン予測のために,アセットクラスに依存しないレジームスイッチングモデルを構築する。 この枠組みは、商品、通貨、株式、固定所得市場といった幅広い金融市場の市場体制を区別することができる。 提案手法では, 定常張力に直接影響し, 転倒レベルを変化させる粘着特性を用いる。 約20年間の日次金融市場の変化を分析し,リスク調整リターン予測の指標について検討した。 サンプル外観測の実証実験は、雄牛、クマ、高ボラティリティ期間を正確に検出し、望ましいターンオーバーレベルを維持しながら、リスク調整されたリターンを改善する。

Financial markets tend to switch between various market regimes over time, making stationarity-based models unsustainable. We construct a regime-switching model independent of asset classes for risk-adjusted return predictions based on hidden Markov models. This framework can distinguish between market regimes in a wide range of financial markets such as the commodity, currency, stock, and fixed income market. The proposed method employs sticky features that directly affect the regime stickiness and thereby changing turnover levels. An investigation of our metric for risk-adjusted return predictions is conducted by analyzing daily financial market changes for almost twenty years. Empirical demonstrations of out-of-sample observations obtain an accurate detection of bull, bear, and high volatility periods, improving risk-adjusted returns while keeping a preferable turnover level.
翻訳日:2021-07-18 12:26:26 公開日:2021-07-07
# Scopeformer:脳内出血分類のためのn-CNN-ViTハイブリッドモデル

Scopeformer: n-CNN-ViT Hybrid Model for Intracranial Hemorrhage Classification ( http://arxiv.org/abs/2107.04575v1 )

ライセンス: Link先を確認
Yassine Barhoumi, Rasool Ghulam(参考訳) 本稿では,最近登場した視覚トランスフォーマー(vit)モデルを改善するために,畳み込みニューラルネットワーク(cnns)のアンサンブルからなる特徴発生器バックボーンを提案する。 われわれはRSNAの頭蓋内出血分類問題,すなわちCTスライスから様々な出血型を同定した。 複数のxception cnnを用いて抽出された複数の特徴マップを徐々に積み重ねることで、vitモデルのための特徴量豊富な入力を開発できることを示す。 我々のアプローチは、ViTモデルが複数のレベルで関連する機能に注意を払うことを可能にする。 さらに,様々なパラダイムを用いたn-cnnの事前学習は多様な特徴セットをもたらし,提案するn-cnn-vitの性能をさらに向上させる。 重み付き対数損失値0.0708の試験精度98.04%を達成した。 提案アーキテクチャは,機能抽出に使用されるCNNの数とViTのサイズの両方において,モジュール化と拡張性を備えている。

We propose a feature generator backbone composed of an ensemble of convolutional neuralnetworks (CNNs) to improve the recently emerging Vision Transformer (ViT) models. We tackled the RSNA intracranial hemorrhage classification problem, i.e., identifying various hemorrhage types from computed tomography (CT) slices. We show that by gradually stacking several feature maps extracted using multiple Xception CNNs, we can develop a feature-rich input for the ViT model. Our approach allowed the ViT model to pay attention to relevant features at multiple levels. Moreover, pretraining the n CNNs using various paradigms leads to a diverse feature set and further improves the performance of the proposed n-CNN-ViT. We achieved a test accuracy of 98.04% with a weighted logarithmic loss value of 0.0708. The proposed architecture is modular and scalable in both the number of CNNs used for feature extraction and the size of the ViT.
翻訳日:2021-07-12 13:35:56 公開日:2021-07-07
# (参考訳) 説明可能なレコメンデーションのための評価とアスペクトベースの意見グラフ埋め込み [全文訳有]

Rating and aspect-based opinion graph embeddings for explainable recommendations ( http://arxiv.org/abs/2107.03385v1 )

ライセンス: CC0 1.0
Iv\'an Cantador, Andr\'es Carvallo, Fernando Diez(参考訳) ニューラルネットワークの埋め込みの成功は、さまざまな機械学習や情報検索タスクに知識グラフを使うことに対する関心を新たに高めた。 特に、グラフ埋め込みに基づく最近の推奨手法は最先端のパフォーマンスを示している。 一般に、これらの手法は潜在格付けパターンとコンテンツの特徴をエンコードする。 本稿では,従来の研究と異なり,テキストレビューで表現された評価とアスペクトに基づく意見情報を組み合わせたグラフから抽出した埋め込みを活用することを提案する。 次に、AmazonとYelpが6つのドメインで生成したグラフに対して、最先端のグラフ埋め込み技術を適用し、評価し、ベースラインレコメンデータを上回っます。 また,提案手法は,ユーザから推奨項目に関する意見を対象とする説明を提供するという利点がある。

The success of neural network embeddings has entailed a renewed interest in using knowledge graphs for a wide variety of machine learning and information retrieval tasks. In particular, recent recommendation methods based on graph embeddings have shown state-of-the-art performance. In general, these methods encode latent rating patterns and content features. Differently from previous work, in this paper, we propose to exploit embeddings extracted from graphs that combine information from ratings and aspect-based opinions expressed in textual reviews. We then adapt and evaluate state-of-the-art graph embedding techniques over graphs generated from Amazon and Yelp reviews on six domains, outperforming baseline recommenders. Additionally, our method has the advantage of providing explanations that involve the coverage of aspect-based opinions given by users about recommended items.
翻訳日:2021-07-09 22:50:10 公開日:2021-07-07
# (参考訳) 自動睡眠ステージングアルゴリズムに基づく睡眠症候群の発症検出 [全文訳有]

Sleep syndromes onset detection based on automatic sleep staging algorithm ( http://arxiv.org/abs/2107.03387v1 )

ライセンス: CC BY 4.0
Tim Cvetko, Tinkara Robek(参考訳) 本稿では,2つのモジュールからなるアルゴリズムに基づいて,レスレス脚症候群,不眠症を含む睡眠症候群の早期発症を予測するための新しい手法と実践的アプローチを提案する。 高速フーリエ変換を脳波記録の30秒間のエポックに応用し、局所的な時間周波数情報を提供し、深い畳み込みLSTMニューラルネットワークを睡眠段階分類のために訓練する。 脳波データからの睡眠ステージ検出の自動化は、毎日の睡眠障害に対処する大きな可能性を秘めている。 そこで,本研究では,信号処理と統計のベストを組み合わせた新しい睡眠ステージ分類法を提案する。 本研究では,PhyloNet Sleep European Data Format (EDF)データベースを用いた。 コード評価の結果、精度は86.43、精度は77.76、リコールは93.32、F1スコアは89.12、最終誤差は0.09だった。

In this paper, we propose a novel method and a practical approach to predicting early onsets of sleep syndromes, including restless leg syndrome, insomnia, based on an algorithm that is comprised of two modules. A Fast Fourier Transform is applied to 30 seconds long epochs of EEG recordings to provide localized time-frequency information, and a deep convolutional LSTM neural network is trained for sleep stage classification. Automating sleep stages detection from EEG data offers great potential to tackling sleep irregularities on a daily basis. Thereby, a novel approach for sleep stage classification is proposed which combines the best of signal processing and statistics. In this study, we used the PhysioNet Sleep European Data Format (EDF) Database. The code evaluation showed impressive results, reaching an accuracy of 86.43, precision of 77.76, recall of 93,32, F1-score of 89.12 with the final mean false error loss of 0.09.
翻訳日:2021-07-09 22:40:14 公開日:2021-07-07
# (参考訳) 有価証券市場機会の特定による金融時系列類似度の測定 [全文訳有]

Measuring Financial Time Series Similarity With a View to Identifying Profitable Stock Market Opportunities ( http://arxiv.org/abs/2107.03926v1 )

ライセンス: CC BY 4.0
Rian Dolphin, Barry Smyth, Yang Xu and Ruihai Dong(参考訳) 株式リターンの予測は、市場の非常に確率的な性質と、取引量や価格に影響を与える可能性のある膨大な要因や事象のため、難しい問題である。 それにもかかわらず、これは機械学習研究にとって魅力的なターゲットであることが証明されている。 本稿では,過去の価格データのみを用いて株式市場のリターンを予測するケースベース推論手法について述べる。 私たちは、ケースベースの株価予測の障害の1つは、将来の予測の基礎として類似した価格履歴を特定することに関して、適切な類似度指標の欠如であると主張している -- 伝統的なユークリッドと相関に基づくアプローチは、様々な理由により有効ではない -- この点に関して、この研究の重要な貢献は、過去の価格データを比較するための新しい類似度指標の開発である。 このメトリックの利点と、実世界のアプリケーションにおけるケースベースアプローチを、様々なベンチマークと比較して示します。

Forecasting stock returns is a challenging problem due to the highly stochastic nature of the market and the vast array of factors and events that can influence trading volume and prices. Nevertheless it has proven to be an attractive target for machine learning research because of the potential for even modest levels of prediction accuracy to deliver significant benefits. In this paper, we describe a case-based reasoning approach to predicting stock market returns using only historical pricing data. We argue that one of the impediments for case-based stock prediction has been the lack of a suitable similarity metric when it comes to identifying similar pricing histories as the basis for a future prediction -- traditional Euclidean and correlation based approaches are not effective for a variety of reasons -- and in this regard, a key contribution of this work is the development of a novel similarity metric for comparing historical pricing data. We demonstrate the benefits of this metric and the case-based approach in a real-world application in comparison to a variety of conventional benchmarks.
翻訳日:2021-07-09 22:31:28 公開日:2021-07-07
# (参考訳) マルチモーダルグリオーマセグメンテーションのためのgaussian process prior variational autoencoderによるモダリティ補完 [全文訳有]

Modality Completion via Gaussian Process Prior Variational Autoencoders for Multi-Modal Glioma Segmentation ( http://arxiv.org/abs/2107.03442v1 )

ライセンス: CC BY 4.0
Mohammad Hamghalam, Alejandro F. Frangi, Baiying Lei, and Amber L. Simpson(参考訳) 多プロトコルMRI(Magnetic Resonance Imaging)を含む大規模な研究では、品質の悪い患者のために1つまたは複数のサブモダリティを見逃すことがある(例)。 イメージングアーティファクト、取得失敗、または画像検査を中断した廊下。 特定のプロトコルはスキャン時間に制限があるため利用できない場合や、2つの独立した研究のイメージングプロトコルを遡及的に調和させる場合もあります。 欠落した画像のモダリティは、欠落したスキャンによって提供された補完的な情報が失われるため、セグメンテーションフレームワークに挑戦する。 本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。 MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。 既存のサブモダリティのサブセット毎にひとつのネットワークを設計するか、フィーチャーマップをミックスするフレームワークを使用する代わりに、利用可能なすべてのサンプルに基づいて、単一のモデルから不足したデータを生成することができる。 mgp-vaeは4つのサブモダリティのうち2つまたは3つが欠落している脳腫瘍のセグメンテーションに応用可能である。 BraTS'19データセットのサブモダリティを欠いた競合セグメンテーションベースラインに対する実験は、セグメンテーションタスクに対するMGP-VAEモデルの有効性を示す。

In large studies involving multi protocol Magnetic Resonance Imaging (MRI), it can occur to miss one or more sub-modalities for a given patient owing to poor quality (e.g. imaging artifacts), failed acquisitions, or hallway interrupted imaging examinations. In some cases, certain protocols are unavailable due to limited scan time or to retrospectively harmonise the imaging protocols of two independent studies. Missing image modalities pose a challenge to segmentation frameworks as complementary information contributed by the missing scans is then lost. In this paper, we propose a novel model, Multi-modal Gaussian Process Prior Variational Autoencoder (MGP-VAE), to impute one or more missing sub-modalities for a patient scan. MGP-VAE can leverage the Gaussian Process (GP) prior on the Variational Autoencoder (VAE) to utilize the subjects/patients and sub-modalities correlations. Instead of designing one network for each possible subset of present sub-modalities or using frameworks to mix feature maps, missing data can be generated from a single model based on all the available samples. We show the applicability of MGP-VAE on brain tumor segmentation where either, two, or three of four sub-modalities may be missing. Our experiments against competitive segmentation baselines with missing sub-modality on BraTS'19 dataset indicate the effectiveness of the MGP-VAE model for segmentation tasks.
翻訳日:2021-07-09 22:19:52 公開日:2021-07-07
# (参考訳) Heavily Abbreviated Manuscripts: HTRエンジン対テキスト正規化アプローチ [全文訳有]

Handling Heavily Abbreviated Manuscripts: HTR engines vs text normalisation approaches ( http://arxiv.org/abs/2107.03450v1 )

ライセンス: CC BY-SA 4.0
Jean-Baptiste Camps and Chahan Vidal-Gor\`ene and Marguerite Vernet(参考訳) 略語は手書きの資料、特に中世や近代西洋の写本でよく見られるが、その拡張に対する計算的アプローチに関する以前の研究は少ない。 しかし、略語は手書きのテキスト認識や自然言語処理タスクのような計算手法に特に挑戦している。 多くの場合、前処理は最終的にソースのデジタイズされた画像から正規化されたテキストへと導かれる。 このような正規化テキストを直接取得するために、正規化テキスト(例えば、拡張、非省略)テキストでhtrエンジンをトレーニングするか、プロセスを個別のステップに分解して、認識、単語分割、正規化の専門モデルを使用することで、異なる設定を探索する。 ここでのケーススタディは中世ラテン語の伝統に由来する。

Although abbreviations are fairly common in handwritten sources, particularly in medieval and modern Western manuscripts, previous research dealing with computational approaches to their expansion is scarce. Yet abbreviations present particular challenges to computational approaches such as handwritten text recognition and natural language processing tasks. Often, pre-processing ultimately aims to lead from a digitised image of the source to a normalised text, which includes expansion of the abbreviations. We explore different setups to obtain such a normalised text, either directly, by training HTR engines on normalised (i.e., expanded, disabbreviated) text, or by decomposing the process into discrete steps, each making use of specialist models for recognition, word segmentation and normalisation. The case studies considered here are drawn from the medieval Latin tradition.
翻訳日:2021-07-09 22:09:41 公開日:2021-07-07
# (参考訳) ジェット火災帯におけるMLに基づくセグメンテーションモデルの比較 [全文訳有]

Comparing ML based Segmentation Models on Jet Fire Radiation Zone ( http://arxiv.org/abs/2107.03461v1 )

ライセンス: CC BY 4.0
Carmina P\'erez-Guerrero, Adriana Palacios, Gilberto Ochoa-Ruiz, Christian Mata, Miguel Gonzalez-Mendoza, Luis Eduardo Falc\'on-Morales(参考訳) リスクアセスメントはどの職場でも関係があるが、可燃性や危険物質を扱う場合の予測不可能性があり、それだけでは火災事故の検出が不十分である可能性がある。 この例として、火炎の熱流束が近くの機器に届き、破滅的な結果によってドミノ効果の確率が劇的に上昇するジェット火災がある。 このため、リスク管理の観点からは、火災事故の特徴付けが重要である。 このような特徴の1つは、火炎内の異なる放射線領域のセグメンテーションであり、本稿では、この問題を解決するために、いくつかの伝統的なコンピュータビジョンとディープラーニングセグメンテーションアプローチに関する探索的研究を行う。 異なるアプローチを訓練し評価するためにプロパンジェット火災のデータセットを使用し、画像のゾーン分布と背景の違いを考慮すると、データの不均衡を緩和しようとする異なる損失関数も検討される。 さらに、異なる指標は、専門家の基準によく似た評価を行うために専門家が行う手動ランキングと相関する。 ハウスドルフ距離と随伴乱数指数は相関率が最も高い指標であり,unetアーキテクチャの重み付きクロスエントロピー損失による最良の結果を得た。 これらの結果は将来の研究で、セグメンテーションマスクからより幾何学的な情報を抽出したり、他の種類の火災事故にも適用することができる。

Risk assessment is relevant in any workplace, however there is a degree of unpredictability when dealing with flammable or hazardous materials so that detection of fire accidents by itself may not be enough. An example of this is the impingement of jet fires, where the heat fluxes of the flame could reach nearby equipment and dramatically increase the probability of a domino effect with catastrophic results. Because of this, the characterization of such fire accidents is important from a risk management point of view. One such characterization would be the segmentation of different radiation zones within the flame, so this paper presents an exploratory research regarding several traditional computer vision and Deep Learning segmentation approaches to solve this specific problem. A data set of propane jet fires is used to train and evaluate the different approaches and given the difference in the distribution of the zones and background of the images, different loss functions, that seek to alleviate data imbalance, are also explored. Additionally, different metrics are correlated to a manual ranking performed by experts to make an evaluation that closely resembles the expert's criteria. The Hausdorff Distance and Adjsted Random Index were the metrics with the highest correlation and the best results were obtained from the UNet architecture with a Weighted Cross-Entropy Loss. These results can be used in future research to extract more geometric information from the segmentation masks or could even be implemented on other types of fire accidents.
翻訳日:2021-07-09 21:58:17 公開日:2021-07-07
# (参考訳) 音声の視覚的・文脈的アプローチによるカテゴリー的・連続的な感情認識 [全文訳有]

An audiovisual and contextual approach for categorical and continuous emotion recognition in-the-wild ( http://arxiv.org/abs/2107.03465v1 )

ライセンス: CC BY 4.0
Panagiotis Antoniadis, Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos(参考訳) 本研究は,第2回ワークショップの構内における映像に基づく音声・視覚感情認識の課題と,愛着的行動分析(abaw)に関するコンペティションについて述べる。 顔の特徴の抽出にのみ依存する標準的な方法論は、頭/体方向、解像度の低さ、照明の悪さなどにより、前述の情緒的情報の源が到達できない場合、正確な感情予測に欠けることが多い。 我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を軽減することを目指している。 標準的なcnn-rnnカスケードは、seq2seq(sequence-to- sequence)学習のための提案モデルのバックボーンを構成する。 入力モダリティである \textit{rgb} による学習とは別に,メル・スペクトログラムのシーケンスを操作するオーラルストリームを構築する。 Affect-in-the-Wild-2 (Aff-Wild2) データセットの挑戦的かつ新たに構築された実験により、既存のアプローチよりもメソッドの優位性を検証するとともに、上記の全てのモジュールをネットワークアンサンブルに適切に組み込むことにより、オフィシャル検証セットにおいて、先行した最高の認識スコアを超えることができる。 すべてのコードはPyTorch\footnote{\url{https://pytorch.org/ }}を使って実装され、一般公開されている。

In this work we tackle the task of video-based audio-visual emotion recognition, within the premises of the 2nd Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Standard methodologies that rely solely on the extraction of facial features often fall short of accurate emotion prediction in cases where the aforementioned source of affective information is inaccessible due to head/body orientation, low resolution and poor illumination. We aspire to alleviate this problem by leveraging bodily as well as contextual features, as part of a broader emotion recognition framework. A standard CNN-RNN cascade constitutes the backbone of our proposed model for sequence-to-sequence (seq2seq) learning. Apart from learning through the \textit{RGB} input modality, we construct an aural stream which operates on sequences of extracted mel-spectrograms. Our extensive experiments on the challenging and newly assembled Affect-in-the-wild-2 (Aff-Wild2) dataset verify the superiority of our methods over existing approaches, while by properly incorporating all of the aforementioned modules in a network ensemble, we manage to surpass the previous best published recognition scores, in the official validation set. All the code was implemented using PyTorch\footnote{\url{https://pytorch.org/ }} and is publicly available\footnote{\url{https://github.com/P anosAntoniadis/NTUA- ABAW2021}}.
翻訳日:2021-07-09 21:49:08 公開日:2021-07-07
# (参考訳) 心配、対処、辞任―パンデミック後の感情反応の繰り返し調査 [全文訳有]

Worry, coping and resignation -- A repeated-measures study on emotional responses after a year in the pandemic ( http://arxiv.org/abs/2107.03466v1 )

ライセンス: CC BY 4.0
Maximilian Mozes, Isabelle van der Vegt, Bennett Kleinberg(参考訳) 新型コロナウイルス(COVID-19)のロックダウン対策の導入と正常化の見通しは、社会的な変化を求めている。 最も差し迫った質問は、個人がどのようにパンデミックに適応するかだ。 本稿では,パンデミックに対する情緒的反応を反復的に検討する。 データは2020年4月(厳格なロックダウン措置中)、2021年4月(予防接種プログラムが推進された時)に収集された。 参加者に感情を報告し,テキストデータで表現するように求めた。 統計検査の結果、パンデミックに対する調整が改善する傾向が示された。 しかし, クラスター分析により, より複雑な異種パターンが示唆された。 言語学的解析により、トピックとn-gramの周波数が予防接種プログラムに注意を向け、一般の心配から遠ざかることが判明した。 リスクの高い人々を識別する公共精神保健活動の意義について考察する。 データセットは公開されています。

The introduction of COVID-19 lockdown measures and an outlook on return to normality are demanding societal changes. Among the most pressing questions is how individuals adjust to the pandemic. This paper examines the emotional responses to the pandemic in a repeated-measures design. Data (n=1698) were collected in April 2020 (during strict lockdown measures) and in April 2021 (when vaccination programmes gained traction). We asked participants to report their emotions and express these in text data. Statistical tests revealed an average trend towards better adjustment to the pandemic. However, clustering analyses suggested a more complex heterogeneous pattern with a well-coping and a resigning subgroup of participants. Linguistic computational analyses uncovered that topics and n-gram frequencies shifted towards attention to the vaccination programme and away from general worrying. Implications for public mental health efforts in identifying people at heightened risk are discussed. The dataset is made publicly available.
翻訳日:2021-07-09 21:41:23 公開日:2021-07-07
# (参考訳) 格子を用いた可変ランダムアクセスメモリ [全文訳有]

Differentiable Random Access Memory using Lattices ( http://arxiv.org/abs/2107.03474v1 )

ライセンス: CC BY 4.0
Adam P. Goucher, Rajan Troll(参考訳) サイズに関係なく、数十億のエントリにスケールする、$O(1)$パフォーマンスを持つ可変ランダムアクセスメモリモジュールを導入する。 設計は選択された格子の点にエントリを格納し、対称性を利用して任意の点の最も近い近傍を効率的に計算する。 これに基づいて、単一のメモリ層で標準的なニューラルネットワークアーキテクチャを拡張すれば、計算オーバーヘッドを無視できるメモリ制限までパラメータ数をスケールでき、同等のコストで精度が向上します。 大きな言語モデリングタスクでは、これらの拡張モデルは、変更されていないトランスフォーマーベースラインを大幅に上回っている。 テスト対象の限界までメモリサイズを拡大し続けることが分かりました。

We introduce a differentiable random access memory module with $O(1)$ performance regardless of size, scaling to billions of entries. The design stores entries on points of a chosen lattice to calculate nearest neighbours of arbitrary points efficiently by exploiting symmetries. Augmenting a standard neural network architecture with a single memory layer based on this, we can scale the parameter count up to memory limits with negligible computational overhead, giving better accuracy at similar cost. On large language modelling tasks, these enhanced models with larger capacity significantly outperform the unmodified transformer baseline. We found continued scaling with memory size up to the limits tested.
翻訳日:2021-07-09 21:27:02 公開日:2021-07-07
# (参考訳) ダウンリンクデバイス選択によるフェデレーション学習 [全文訳有]

Federated Learning with Downlink Device Selection ( http://arxiv.org/abs/2107.03510v1 )

ライセンス: CC0 1.0
Mohammad Mohammadi Amiri, Sanjeev R. Kulkarni, H. Vincent Poor(参考訳) 我々は,無線ネットワークのエッジにおいて,プライバシーに敏感なデータを用いてグローバルモデルを協調訓練するフェデレーションエッジ学習について検討した。 パラメータサーバ(PS)は、グローバルモデルを追跡し、無線エッジデバイスと共有して、プライベートローカルデータを使用したトレーニングを行う。 次にデバイスは、グローバルモデルを更新するために使用されるローカルモデルのアップデートをpsに送信する。 このアルゴリズムは、PS-to-Deviceおよびデバイス-to-PSリンクの転送を伴い、グローバルモデルが収束するまで継続する。 本研究では,PSがデバイスとグローバルモデルを共有するダウンリンクチャネルに基づくデバイス選択について検討する。 デジタルダウンリンク伝送を行い、各イテレーションでトレーニングを行うために、デバイスのサブセットを選択する部分的デバイス参加フレームワークを設計する。 したがって、放送チャンネルの共有性に起因する全装置参加ケースと比較して、参加装置は、より少ないデータ集合に対してグローバルモデルを更新する価格で、グローバルモデルをより良く推定することができる。 各イテレーションでPSは、各デバイスで利用可能な最後のグローバルモデル推定に基づいて、さまざまな量子化されたグローバルモデル更新を、さまざまな参加デバイスにブロードキャストする。 mnistデータセットとバイアス分布を用いた画像分類実験の結果から,参加機器の最適数について検討した。

We study federated edge learning, where a global model is trained collaboratively using privacy-sensitive data at the edge of a wireless network. A parameter server (PS) keeps track of the global model and shares it with the wireless edge devices for training using their private local data. The devices then transmit their local model updates, which are used to update the global model, to the PS. The algorithm, which involves transmission over PS-to-device and device-to-PS links, continues until the convergence of the global model or lack of any participating devices. In this study, we consider device selection based on downlink channels over which the PS shares the global model with the devices. Performing digital downlink transmission, we design a partial device participation framework where a subset of the devices is selected for training at each iteration. Therefore, the participating devices can have a better estimate of the global model compared to the full device participation case which is due to the shared nature of the broadcast channel with the price of updating the global model with respect to a smaller set of data. At each iteration, the PS broadcasts different quantized global model updates to different participating devices based on the last global model estimates available at the devices. We investigate the best number of participating devices through experimental results for image classification using the MNIST dataset with biased distribution.
翻訳日:2021-07-09 21:16:38 公開日:2021-07-07
# (参考訳) インターネットを利用した統合フォグクラウドコンピューティングにおけるエネルギー効率の高いフェデレーション学習 [全文訳有]

Energy Efficient Federated Learning in Integrated Fog-Cloud Computing Enabled Internet-of-Things Networks ( http://arxiv.org/abs/2107.03520v1 )

ライセンス: CC BY 4.0
Mohammed S. Al-Abiad, Md. Zoheb Hassan, Md. Jahangir Hossain(参考訳) 我々は,IoT(Internet-of-Thi ngs)ネットワークを統合したフォグクラウドコンピューティングにおいて,FL(Federated Learning)のエネルギー消費を削減するための資源割り当て方式を検討した。 想定されたシステムでは、IoTデバイスは複数のフォグアクセスポイント(F-AP)を介して集中クラウドサーバ(CS)に接続される。 ローカルモデルをトレーニングするシナリオを2つ検討する。 最初のシナリオでは、ローカルモデルをIoTデバイスでトレーニングし、F-APはローカルモデルパラメータをCSにアップロードする。 第2のシナリオでは、IoTデバイスから収集されたデータに基づいて、ローカルモデルをF-APでトレーニングし、F-APはCSと協力してモデルパラメータを更新する。 我々の目標は,fl時間制約下での両シナリオのエネルギー消費を最小化することである。 この目標に向けて、IoTデバイスのスケジューリングをF-APと共同で最適化し、電力割り当て、F-APでの計算周波数割り当てを2つのサブプロブレムに分割する。 第1サブプロブレムではIoTデバイスのスケジューリングと電力割り当てを最適化し、第2サブプロブレムでは計算周波数割り当てを最適化する。 それぞれのシナリオについて,2つのサブ問題を反復的に解くためのコンフリクトグラフベースのソリューションを開発した。 シミュレーション結果から,提案手法はエネルギー消費最小化の観点からかなりの性能向上を達成した。 シミュレーションの結果,多数のiotデバイスと大規模データサイズにおいて,f-apsではなく,iotデバイスでのローカルモデルのトレーニングの方がエネルギー効率がよいことが明らかとなった。

We investigate resource allocation scheme to reduce the energy consumption of federated learning (FL) in the integrated fog-cloud computing enabled Internet-of-things (IoT) networks. In the envisioned system, IoT devices are connected with the centralized cloud server (CS) via multiple fog access points (F-APs). We consider two different scenarios for training the local models. In the first scenario, local models are trained at the IoT devices and the F-APs upload the local model parameters to the CS. In the second scenario, local models are trained at the F-APs based on the collected data from the IoT devices and the F-APs collaborate with the CS for updating the model parameters. Our objective is to minimize the overall energy-consumption of both scenarios subject to FL time constraint. Towards this goal, we devise a joint optimization of scheduling of IoT devices with the F-APs, transmit power allocation, computation frequency allocation at the devices and F-APs and decouple it into two subproblems. In the first subproblem, we optimize the IoT device scheduling and power allocation, while in the second subproblem, we optimize the computation frequency allocation. For each scenario, we develop a conflict graph based solution to iteratively solve the two subproblems. Simulation results show that the proposed two schemes achieve a considerable performance gain in terms of the energy consumption minimization. The presented simulation results interestingly reveal that for a large number of IoT devices and large data sizes, it is more energy efficient to train the local models at the IoT devices instead of the F-APs.
翻訳日:2021-07-09 21:04:29 公開日:2021-07-07
# E2E会話型AIの安全性問題:フレームワークとツール

Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling ( http://arxiv.org/abs/2107.03451v1 )

ライセンス: Link先を確認
Emily Dinan, Gavin Abercrombie, A. Stevie Bergman, Shannon Spruit, Dirk Hovy, Y-Lan Boureau, Verena Rieser(参考訳) 過去数年間、エンド・ツー・エンドの神経会話エージェントは、人間とのチットチャットの会話能力を大幅に向上させてきた。 しかし、これらのモデルは、しばしばインターネットから大きなデータセットで訓練され、その結果、有害な言語や有害な言語など、このデータから望ましくない振る舞いを学ぶ可能性がある。 そのため研究者は、これらのモデルのリリース方法と時期の問題に対処しなければならない。 本稿では,エンド・ツー・エンドの対話型AIの安全性に関する問題点を調査し,最近および関連研究について論じる。 私たちは、価値、潜在的なポジティブな影響、潜在的な害の間の緊張を強調し、価値に敏感な設計の傾向に従い、これらのモデルのリリースの可否と方法を決定するためのフレームワークを提供します。 さらに、トレーニングやエンドツーエンドの会話型AIモデルのリリースに関して、研究者がよりよいインフォームド決定を行えるようなツールセットも提供しています。

Over the last several years, end-to-end neural conversational agents have vastly improved in their ability to carry a chit-chat conversation with humans. However, these models are often trained on large datasets from the internet, and as a result, may learn undesirable behaviors from this data, such as toxic or otherwise harmful language. Researchers must thus wrestle with the issue of how and when to release these models. In this paper, we survey the problem landscape for safety for end-to-end conversational AI and discuss recent and related work. We highlight tensions between values, potential positive impact and potential harms, and provide a framework for making decisions about whether and how to release these models, following the tenets of value-sensitive design. We additionally provide a suite of tools to enable researchers to make better-informed decisions about training and releasing end-to-end conversational AI models.
翻訳日:2021-07-09 13:49:08 公開日:2021-07-07
# 公正表現に対する不可能な結果

Impossibility results for fair representations ( http://arxiv.org/abs/2107.03483v1 )

ライセンス: Link先を確認
Tosca Lechner, Shai Ben-David, Sushant Agarwal and Nivasini Ananthakrishnan(参考訳) 機械学習における公正意識の高まりと、データ表現がデータ処理タスクにおいて持つ中心的な役割の実現により、公正なデータ表現の概念に明らかな関心がある。 このような表現の目標は、表現の下でデータに基づいて訓練されたモデル(例えば、分類器)が、公正な制約を尊重することを保証することである。 このような表現は、さまざまなタスクにおけるモデルのトレーニングや、生のデータ(表現デザイナーとして知られる)と、その表現の下でデータを使用して予測モデルを学び、決定を下す可能性のある悪意のあるエージェントの間のデータフィルタリングとして機能する場合に有用である。 最近の研究論文の長いリストは、これらの目標を達成するためのツールの提供に取り組んでいる。 しかし、これは基本的に無駄な努力であることを証明します。 ラベルに依存しないDigital Parity Fairnessを達成するという基本的な目標でさえ、限界データ分布がシフトすると失敗する。 Odds Equality のようなより洗練された公正の概念は、その公正性を評価するタスク固有のラベル付け規則を考慮に入れない表現によって保証できない(たとえ限界データの分布が優先事項であるとしても)。 さらに、自明なケースを除いて、2つの異なるタスクに対するオッズ平等を保証できる表現は存在しない。 結論のいくつかは直感的であるが、そのような不合理性の明快な言明を定式化(そして証明)し、しばしば、公正表現に関する最近の多くの研究によって伝えられた印象と対比する。

With the growing awareness to fairness in machine learning and the realization of the central role that data representation has in data processing tasks, there is an obvious interest in notions of fair data representations. The goal of such representations is that a model trained on data under the representation (e.g., a classifier) will be guaranteed to respect some fairness constraints. Such representations are useful when they can be fixed for training models on various different tasks and also when they serve as data filtering between the raw data (known to the representation designer) and potentially malicious agents that use the data under the representation to learn predictive models and make decisions. A long list of recent research papers strive to provide tools for achieving these goals. However, we prove that this is basically a futile effort. Roughly stated, we prove that no representation can guarantee the fairness of classifiers for different tasks trained using it; even the basic goal of achieving label-independent Demographic Parity fairness fails once the marginal data distribution shifts. More refined notions of fairness, like Odds Equality, cannot be guaranteed by a representation that does not take into account the task specific labeling rule with respect to which such fairness will be evaluated (even if the marginal data distribution is known a priory). Furthermore, except for trivial cases, no representation can guarantee Odds Equality fairness for any two different tasks, while allowing accurate label predictions for both. While some of our conclusions are intuitive, we formulate (and prove) crisp statements of such impossibilities, often contrasting impressions conveyed by many recent works on fair representations.
翻訳日:2021-07-09 13:47:35 公開日:2021-07-07
# CSDI:確率的時系列インプットのための条件付きスコアベース拡散モデル

CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation ( http://arxiv.org/abs/2107.03502v1 )

ライセンス: Link先を確認
Yusuke Tashiro, Jiaming Song, Yang Song, Stefano Ermon(参考訳) 時系列における不足価値の計算は、医療と金融に多くの応用がある。 自己回帰モデルは時系列計算の自然な候補であるが、スコアベースの拡散モデルは画像生成や音声合成など多くのタスクにおいて自己回帰モデルを含む既存のモデルよりも優れており、時系列計算には有望である。 本稿では,観測データに条件付きスコアベース拡散モデルを用いた新しい時系列計算法であるCSDI(Conditional Score-based Diffusion Model for Imputation)を提案する。 既存のスコアベースアプローチとは異なり、条件拡散モデルはインプテーションのために明示的に訓練され、観測値間の相関を利用することができる。 医療データと環境データでは、CSDIは一般的なパフォーマンス指標の既存の確率論的計算方法よりも40-70%改善している。 さらに、CSDIによる決定論的計算は、最先端の決定論的計算法と比較して誤差を5-20%削減する。 さらに、CSDIは時系列補間や確率予測にも適用でき、既存のベースラインと競合する。

The imputation of missing values in time series has many applications in healthcare and finance. While autoregressive models are natural candidates for time series imputation, score-based diffusion models have recently outperformed existing counterparts including autoregressive models in many tasks such as image generation and audio synthesis, and would be promising for time series imputation. In this paper, we propose Conditional Score-based Diffusion models for Imputation (CSDI), a novel time series imputation method that utilizes score-based diffusion models conditioned on observed data. Unlike existing score-based approaches, the conditional diffusion model is explicitly trained for imputation and can exploit correlations between observed values. On healthcare and environmental data, CSDI improves by 40-70% over existing probabilistic imputation methods on popular performance metrics. In addition, deterministic imputation by CSDI reduces the error by 5-20% compared to the state-of-the-art deterministic imputation methods. Furthermore, CSDI can also be applied to time series interpolation and probabilistic forecasting, and is competitive with existing baselines.
翻訳日:2021-07-09 13:47:08 公開日:2021-07-07
# LanguageRefer:3次元視覚グラウンドのための空間言語モデル

LanguageRefer: Spatial-Language Model for 3D Visual Grounding ( http://arxiv.org/abs/2107.03438v1 )

ライセンス: Link先を確認
Junha Roh, Karthik Desingh, Ali Farhadi, Dieter Fox(参考訳) 人間の指示を理解でき、近い将来に有意義なタスクを遂行できるロボットを実現するためには、実世界の3Dシーンで共通の物体を識別するための参照言語を理解可能な学習モデルを開発することが重要である。 本稿では,3次元視覚接地問題に対する空間言語モデルを提案する。 具体的には、潜在的対象候補の3次元有界ボックスを備えた点雲の形で再構成された3次元シーンと、シーン内の対象対象に言及する言語発話とを考慮し、対象対象候補の集合から対象対象対象を識別する。 我々の空間言語モデルは、境界ボックスからの空間埋め込みと DistilBert から埋め込まれた微調整言語を結合したトランスフォーマーベースアーキテクチャを使用し、3D シーンのオブジェクト間の理由から対象物を見つける。 このモデルは, referit3d が提案する visio-linguistic データセット上での競合性を示す。 知覚雑音から切り離された空間的推論タスクの性能、精度の観点からの視点依存発話の影響、ロボット工学応用のための視点アノテーションのさらなる分析を行う。

To realize robots that can understand human instructions and perform meaningful tasks in the near future, it is important to develop learned models that can understand referential language to identify common objects in real-world 3D scenes. In this paper, we develop a spatial-language model for a 3D visual grounding problem. Specifically, given a reconstructed 3D scene in the form of a point cloud with 3D bounding boxes of potential object candidates, and a language utterance referring to a target object in the scene, our model identifies the target object from a set of potential candidates. Our spatial-language model uses a transformer-based architecture that combines spatial embedding from bounding-box with a finetuned language embedding from DistilBert and reasons among the objects in the 3D scene to find the target object. We show that our model performs competitively on visio-linguistic datasets proposed by ReferIt3D. We provide additional analysis of performance in spatial reasoning tasks decoupled from perception noise, the effect of view-dependent utterances in terms of accuracy, and view-point annotations for potential robotics applications.
翻訳日:2021-07-09 13:46:06 公開日:2021-07-07
# 低ビットシフトネットワークの効果的なトレーニングのための$s^3$ : sign-sparse-shift reparametrization

$S^3$: Sign-Sparse-Shift Reparametrization for Effective Training of Low-bit Shift Networks ( http://arxiv.org/abs/2107.03453v1 )

ライセンス: Link先を確認
Xinlin Li, Bang Liu, Yaoliang Yu, Wulong Liu, Chunjing Xu, Vahid Partovi Nia(参考訳) シフトニューラルネットワークは、高価な乗算演算を取り除き、連続重みを低ビットの離散値に量子化し、従来のニューラルネットワークと比較して高速でエネルギー効率のよい計算複雑性を低減する。 しかし、既存のシフトネットワークは重量初期化に敏感であり、勾配の消失と重量標識凍結問題に起因する劣化性能が得られる。 これらの問題に対処するために,我々は低ビットシフトネットワークを訓練する新しい手法である s 低ビット再パラメータ化を提案する。 本手法は, 離散パラメータを符号スパースシフト3次元に分解する。 このようにして、全精度ネットワークと同様の重み付けダイナミクスを持ち、重み初期化に敏感な低ビットネットワークを効率的に学習する。 提案手法はシフトニューラルネットワークのバウンダリをプッシュし,3ビットシフトネットワークが画像ネット上のtop-1精度の点で,全精度よりも優れていることを示す。

Shift neural networks reduce computation complexity by removing expensive multiplication operations and quantizing continuous weights into low-bit discrete values, which are fast and energy efficient compared to conventional neural networks. However, existing shift networks are sensitive to the weight initialization, and also yield a degraded performance caused by vanishing gradient and weight sign freezing problem. To address these issues, we propose S low-bit re-parameterization, a novel technique for training low-bit shift networks. Our method decomposes a discrete parameter in a sign-sparse-shift 3-fold manner. In this way, it efficiently learns a low-bit network with a weight dynamics similar to full-precision networks and insensitive to weight initialization. Our proposed training method pushes the boundaries of shift neural networks and shows 3-bit shift networks out-performs their full-precision counterparts in terms of top-1 accuracy on ImageNet.
翻訳日:2021-07-09 13:45:48 公開日:2021-07-07
# 双方向マッチングのための深層学習

Deep Learning for Two-Sided Matching ( http://arxiv.org/abs/2107.03427v1 )

ライセンス: Link先を確認
Sai Srivatsa Ravindranath, Zhe Feng, Shira Li, Jonathan Ma, Scott D. Kominers, David C. Parkes(参考訳) 我々は,双方向マッチングをモデル化するために多層ニューラルネットワークを使用し,戦略耐性と安定性の間の設計空間を探索する。 両方の特性が同時に達成できないことはよく知られているが、この設計空間における効率的なフロンティアは理解されていない。 我々は、遅延受容(市場の片側のみ安定かつ戦略保護)とランダム化されたシリアル独裁(戦略保護だが、安定ではない)の凸結合によって達成できるものよりも、安定性と戦略-防御-サブストラテティカルに優れた妥協を達成できることを実証的に示す。

We initiate the use of a multi-layer neural network to model two-sided matching and to explore the design space between strategy-proofness and stability. It is well known that both properties cannot be achieved simultaneously but the efficient frontier in this design space is not understood. We show empirically that it is possible to achieve a good compromise between stability and strategy-proofness-s ubstantially better than that achievable through a convex combination of deferred acceptance (stable and strategy-proof for only one side of the market) and randomized serial dictatorship (strategy-proof but not stable).
翻訳日:2021-07-09 13:44:22 公開日:2021-07-07
# マルチセンターイメージングのためのフェデレートラーニング : 心血管疾患における検討

Federated Learning for Multi-Center Imaging Diagnostics: A Study in Cardiovascular Disease ( http://arxiv.org/abs/2107.03901v1 )

ライセンス: Link先を確認
Akis Linardos, Kaisar Kushibar, Sean Walsh, Polyxeni Gkontra, Karim Lekadir(参考訳) 深層学習モデルは、正確かつ効率的な疾患診断を可能にすることができるが、これまでのところ、医療の世界に存在するデータ不足によって妨げられている。 自動診断研究は、低出力のシングルセンターデータセットによって制限されており、いくつかの結果は約束されているが、機関間のデータの均一性を考慮していないため、他の機関への一般化性は疑問視されている。 モデルが患者のプライバシを保護する分散的な方法でトレーニングされるようにすることで、フェデレーション学習は、厳格なマルチセンター研究を可能にすることによって、これらの問題を緩和することを約束する。 心血管性磁気共鳴(CMR)のモダリティに関する第1回研究報告を行い,肥大型心筋症(HCM)の診断を中心に,M&MデータセットとACDCデータセットのサブセットから得られた4つのセンターを用いた。 我々は,行動認識を前提とした3d-cnnネットワークを適応させ,モデルに事前情報を組み込む2つの異なる方法と,異なる学習選択に対する影響を体系的に分析する4つのデータ拡張セットを探索する。 データのサイズが小さい(4つのセンターから180の被験者を抽出)にもかかわらず、フェデレートされた学習が従来の集中型学習と競合する有望な結果をもたらすことを示す。 さらに、連邦訓練モデルでは堅牢性が向上し、ドメインシフトの影響に敏感であることが判明した。

Deep learning models can enable accurate and efficient disease diagnosis, but have thus far been hampered by the data scarcity present in the medical world. Automated diagnosis studies have been constrained by underpowered single-center datasets, and although some results have shown promise, their generalizability to other institutions remains questionable as the data heterogeneity between institutions is not taken into account. By allowing models to be trained in a distributed manner that preserves patients' privacy, federated learning promises to alleviate these issues, by enabling diligent multi-center studies. We present the first federated learning study on the modality of cardiovascular magnetic resonance (CMR) and use four centers derived from subsets of the M\&M and ACDC datasets, focusing on the diagnosis of hypertrophic cardiomyopathy (HCM). We adapt a 3D-CNN network pretrained on action recognition and explore two different ways of incorporating shape prior information to the model, and four different data augmentation set-ups, systematically analyzing their impact on the different collaborative learning choices. We show that despite the small size of data (180 subjects derived from four centers), the privacy preserving federated learning achieves promising results that are competitive with traditional centralized learning. We further find that federatively trained models exhibit increased robustness and are more sensitive to domain shift effects.
翻訳日:2021-07-09 13:43:57 公開日:2021-07-07
# ネットワーク学習 - ネットワークにおける分散トレーニングと推論

In-Network Learning: Distributed Training and Inference in Networks ( http://arxiv.org/abs/2107.03433v1 )

ライセンス: Link先を確認
Matei Moldoveanu, Abdellatif Zaidi(参考訳) 現代の機械学習技術をモバイルデバイスやワイヤレスネットワークに活用することで、重要な新しいサービスを実現する可能性があると広く認識されている。 しかし、これは本質的にデータと処理能力の両方が無線ネットワーク内で高度に分散しているため、重大な課題となる。 本稿では,複数のデータストリームと処理ユニットを用いた学習アルゴリズムとアーキテクチャを開発した。 特に、この分析は、推論がどのようにネットワークを伝播し、融合するかを明らかにする。 提案手法の設計基準と帯域幅要件について検討した。 また、一般的な無線無線アクセスにおけるニューラルネットワークを用いた実装の側面についても論じ、最先端技術に対するメリットを示す実験を行う。

It is widely perceived that leveraging the success of modern machine learning techniques to mobile devices and wireless networks has the potential of enabling important new services. This, however, poses significant challenges, essentially due to that both data and processing power are highly distributed in a wireless network. In this paper, we develop a learning algorithm and an architecture that make use of multiple data streams and processing units, not only during the training phase but also during the inference phase. In particular, the analysis reveals how inference propagates and fuses across a network. We study the design criterion of our proposed method and its bandwidth requirements. Also, we discuss implementation aspects using neural networks in typical wireless radio access; and provide experiments that illustrate benefits over state-of-the-art techniques.
翻訳日:2021-07-09 13:43:01 公開日:2021-07-07
# ジェネリックコンテキスト帯域のモデル選択

Model Selection for Generic Contextual Bandits ( http://arxiv.org/abs/2107.03455v1 )

ライセンス: Link先を確認
Avishek Ghosh, Abishek Sankararaman and Kannan Ramchandran(参考訳) 一般化可能性仮定の下では,一般確率的文脈帯域のモデル選択の問題を考える。 そこで本研究では,適応的文脈的バンドイット({\ttfamily acb})と呼ばれる逐次改良型アルゴリズムを提案する。 我々は,このアルゴリズムが適応的であること,すなわち,レヴィらの最先端の文脈的帯域幅アルゴリズムであるFALCON} の残差率に適合していることを証明する。 al'20 真のモデルクラスの知識が必要です。 正しいモデルクラスを知らないという価格は、後悔境界における第二次項に寄与する加法項に過ぎません。 このコストはモデルクラスが識別しやすくなり、逆もまたより小さくなるという直感的な特性を持っている。 次に、より単純な探索列コミット (ETC) スタイルのアルゴリズムは、真のモデルクラスを知らないにもかかわらず、 {\tt Family FALCON} とのマッチングの後悔率を得ることを示した。 しかし、モデル選択のコストは予想通り in {\ttfamily acb} よりも高い。 さらに、未知のスパーシティを持つ線形バンディット設定に適用される {\ttfamily acb} は、線形設定に合わせたアルゴリズムによって以前に確立されたモデル選択保証を秩序的に回復する。

We consider the problem of model selection for the general stochastic contextual bandits under the realizability assumption. We propose a successive refinement based algorithm called Adaptive Contextual Bandit ({\ttfamily ACB}), that works in phases and successively eliminates model classes that are too simple to fit the given instance. We prove that this algorithm is adaptive, i.e., the regret rate order-wise matches that of {\ttfamily FALCON}, the state-of-art contextual bandit algorithm of Levi et. al '20, that needs knowledge of the true model class. The price of not knowing the correct model class is only an additive term contributing to the second order term in the regret bound. This cost possess the intuitive property that it becomes smaller as the model class becomes easier to identify, and vice-versa. We then show that a much simpler explore-then-commit (ETC) style algorithm also obtains a regret rate of matching that of {\ttfamily FALCON}, despite not knowing the true model class. However, the cost of model selection is higher in ETC as opposed to in {\ttfamily ACB}, as expected. Furthermore, {\ttfamily ACB} applied to the linear bandit setting with unknown sparsity, order-wise recovers the model selection guarantees previously established by algorithms tailored to the linear setting.
翻訳日:2021-07-09 13:42:51 公開日:2021-07-07
# シンプルに保つ:マルチパラグラフテキストの教師なし単純化

Keep it Simple: Unsupervised Simplification of Multi-Paragraph Text ( http://arxiv.org/abs/2107.03444v1 )

ライセンス: Link先を確認
Philippe Laban and Tobias Schnabel and Paul Bennett and Marti A. Hearst(参考訳) この作業は、unsupervised text simplificationに対する新しいアプローチであるfind it simple (kis)であり、fluency、salience、simpleという3つのプロパティで報酬のバランスをとることを学ぶ。 そこで本モデルでは,報酬を最適化する新しいアルゴリズム(k-SCST)を訓練し,そのモデルが複数の候補の簡易化を提案し,各候補の報酬を計算し,平均報酬よりも優れた候補を奨励する。 最後に,テキスト単純化の評価手法として,現実的なテキスト理解タスクを提案する。 英語のニュースドメインでテストすると、KiSモデルは強い教師付きベースラインを4つ以上のSARIポイントで上回り、オリジナルのテキストと比較して精度を保ちながら理解タスクを平均18%高速化するのに役立つ。 コード提供: https://github.com/t ingofurro/keep_it_si mple

This work presents Keep it Simple (KiS), a new approach to unsupervised text simplification which learns to balance a reward across three properties: fluency, salience and simplicity. We train the model with a novel algorithm to optimize the reward (k-SCST), in which the model proposes several candidate simplifications, computes each candidate's reward, and encourages candidates that outperform the mean reward. Finally, we propose a realistic text comprehension task as an evaluation method for text simplification. When tested on the English news domain, the KiS model outperforms strong supervised baselines by more than 4 SARI points, and can help people complete a comprehension task an average of 18% faster while retaining accuracy, when compared to the original text. Code available: https://github.com/t ingofurro/keep_it_si mple
翻訳日:2021-07-09 13:39:14 公開日:2021-07-07
# 変圧器モデルによるテキストのコヒーレンスの測定 シャッフルテストの再調整

Can Transformer Models Measure Coherence In Text? Re-Thinking the Shuffle Test ( http://arxiv.org/abs/2107.03448v1 )

ライセンス: Link先を確認
Philippe Laban and Luke Dai and Lucas Bandarkar and Marti A. Hearst(参考訳) シュッフルテストは、NLPモデルがテキストのコヒーレンスを計測できるかどうかを評価する最も一般的なタスクである。 最近の研究では、RoBERTaモデルを微調整するだけで、最先端の97.8%に近い精度を達成できることが示されている。 我々は、この卓越したパフォーマンスがテキストコヒーレンスの良いモデルにつながる可能性は低いと主張し、Shuffleテストがゼロショット設定でアプローチされるべきであることを示唆している。 我々は、生成トランスや双方向トランスフォーマなどの一般的なモデルを評価し、より大きなアーキテクチャが最初から高い性能を実現することを見出します。 最後に、ブロックのシャッフルサイズを増大させることにより、元の修正であるk-Block Shuffle Testを提案する。 人間の読み取り性能は高い(95%の精度)が、ブロックサイズが大きくなるにつれてモデル性能は94%から78%に低下し、NLPモデルをベンチマークする概念上は単純な課題となっている。 コード提供: https://github.com/t ingofurro/shuffle_te st/

The Shuffle Test is the most common task to evaluate whether NLP models can measure coherence in text. Most recent work uses direct supervision on the task; we show that by simply finetuning a RoBERTa model, we can achieve a near perfect accuracy of 97.8%, a state-of-the-art. We argue that this outstanding performance is unlikely to lead to a good model of text coherence, and suggest that the Shuffle Test should be approached in a Zero-Shot setting: models should be evaluated without being trained on the task itself. We evaluate common models in this setting, such as Generative and Bi-directional Transformers, and find that larger architectures achieve high-performance out-of-the-box. Finally, we suggest the k-Block Shuffle Test, a modification of the original by increasing the size of blocks shuffled. Even though human reader performance remains high (around 95% accuracy), model performance drops from 94% to 78% as block size increases, creating a conceptually simple challenge to benchmark NLP models. Code available: https://github.com/t ingofurro/shuffle_te st/
翻訳日:2021-07-09 13:38:57 公開日:2021-07-07
# POSLAN: ポスト埋め込みをエンコードした位置と言語でチャットを遠ざける

POSLAN: Disentangling Chat with Positional and Language encoded Post Embeddings ( http://arxiv.org/abs/2107.03529v1 )

ライセンス: Link先を確認
Bhashithe Abeysinghe, Dhara Shah, Chris Freas, Robert Harrison, Rajshekhar Sunderraman(参考訳) ほとんどのオンラインメッセージスレッドは本質的にごちゃごちゃになり、新しいユーザや、中断後の既存ユーザであれば、スレッドで議論されているものを理解するのに苦労するでしょう。 同様に、メッセージスレッドの応答を散らかすと、メッセージの解析が難しい問題になる。 議論が行われているプラットフォームがメッセージの返信関係を検索する機能を提供していない場合、クラッタをアンタングする必要性ははるかに高くなる。 これは、構造的な学習問題として \cite{wang2011learning} 句が使われるという興味深い問題をもたらす。 スレッド内のポストに対するベクトル埋め込みを作成し、あるメッセージがどこにあるかというコンテキストに関して言語的特徴と位置的特徴の両方をキャプチャする。 これらの埋め込みをポストに使用して、類似性に基づく接続行列を計算し、グラフに変換する。 プルーニング機構を使用すると、結果グラフを使用してスレッド内のポストの応答関係を検出することができる。 チャットの発見または分離のプロセスは教師なしのメカニズムとして保持される。 メタデータに制限のあるTelegramから得られたデータセットについて実験結果を示す。

Most online message threads inherently will be cluttered and any new user or an existing user visiting after a hiatus will have a difficult time understanding whats being discussed in the thread. Similarly cluttered responses in a message thread makes analyzing the messages a difficult problem. The need for disentangling the clutter is much higher when the platform where the discussion is taking place does not provide functions to retrieve reply relations of the messages. This introduces an interesting problem to which \cite{wang2011learning} phrases as a structural learning problem. We create vector embeddings for posts in a thread so that it captures both linguistic and positional features in relation to a context of where a given message is in. Using these embeddings for posts we compute a similarity based connectivity matrix which then converted into a graph. After employing a pruning mechanisms the resultant graph can be used to discover the reply relation for the posts in the thread. The process of discovering or disentangling chat is kept as an unsupervised mechanism. We present our experimental results on a data set obtained from Telegram with limited meta data.
翻訳日:2021-07-09 13:38:38 公開日:2021-07-07
# コンピュータビジョンとディープラーニングにおけるテンソル法

Tensor Methods in Computer Vision and Deep Learning ( http://arxiv.org/abs/2107.03436v1 )

ライセンス: Link先を確認
Yannis Panagakis, Jean Kossaifi, Grigorios G. Chrysos, James Oldfield, Mihalis A. Nicolaou, Anima Anandkumar, Stefanos Zafeiriou(参考訳) テンソル(英: Tensors)は、複数の次元の視覚データを自然に表現できるデータ構造である。 構造的、潜在的セマンティック空間と高次相互作用を効率的に捉えることができ、テンソルは幅広いコンピュータビジョン問題において長い歴史を持つ。 コンピュータビジョンにおけるディープラーニングパラダイムシフトの出現により、テンソルはさらに根本的なものになった。 実際、畳み込みや注意機構といった現代のディープラーニングアーキテクチャにおける重要な要素は、容易にテンソルマッピングとみなすことができる。 実際、テンソル法は、メモリと計算効率のよいネットワークアーキテクチャの設計、ランダムノイズや敵攻撃に対するロバスト性の改善、ディープネットワークの理論的理解の支援など、ディープラーニングにおいて重要な応用を見出している。 本稿では,視覚データ解析とコンピュータビジョンアプリケーションを中心に,表現学習とディープラーニングの文脈におけるテンソル法とテンソル法について,深く実践的なレビューを行う。 具体的には,テンソルに基づくビジュアルデータ解析法の基本的研究に加えて,特にディープラーニングアーキテクチャにおけるテンソル手法の漸進的な増加と,コンピュータビジョンアプリケーションにおけるその影響に焦点をあてる。 さらに,新参者がこのような概念を素早く把握できるようにするために,論文の重要な側面をカバーするとともに,tensorlyでステップバイステップで実装したpythonノートブックを提供する。

Tensors, or multidimensional arrays, are data structures that can naturally represent visual data of multiple dimensions. Inherently able to efficiently capture structured, latent semantic spaces and high-order interactions, tensors have a long history of applications in a wide span of computer vision problems. With the advent of the deep learning paradigm shift in computer vision, tensors have become even more fundamental. Indeed, essential ingredients in modern deep learning architectures, such as convolutions and attention mechanisms, can readily be considered as tensor mappings. In effect, tensor methods are increasingly finding significant applications in deep learning, including the design of memory and compute efficient network architectures, improving robustness to random noise and adversarial attacks, and aiding the theoretical understanding of deep networks. This article provides an in-depth and practical review of tensors and tensor methods in the context of representation learning and deep learning, with a particular focus on visual data analysis and computer vision applications. Concretely, besides fundamental work in tensor-based visual data analysis methods, we focus on recent developments that have brought on a gradual increase of tensor methods, especially in deep learning architectures, and their implications in computer vision applications. To further enable the newcomer to grasp such concepts quickly, we provide companion Python notebooks, covering key aspects of the paper and implementing them, step-by-step with TensorLy.
翻訳日:2021-07-09 13:38:13 公開日:2021-07-07
# 説明可能なパターン分類のための反復認識型長期認知ネットワーク

Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern Classification ( http://arxiv.org/abs/2107.03423v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles, Yamisleydi Salgueiro, Isel Grau, Maikel Leon Espinosa(参考訳) パターン分類問題の機械学習ソリューションは現在、社会や産業に広く展開されている。 しかしながら、最も正確なモデルの透明性と説明責任の欠如は、しばしば有意義で安全な使用を妨げる。 したがって、説明可能な人工知能メカニズムを開発する必要がある。 機能貢献を要約するモデル非依存な方法が存在するが、その解釈可能性はブラックボックスモデルによる特定の予測に限定される。 オープンな課題は、(リカレント)ニューラルネットワークのような伝統的にブラックボックスと見なされるモデルのクラスでさえも、内在的な解釈可能性を持ち、独自の説明を生み出すモデルを開発することである。 本稿では,構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。 本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。 性能に影響を与えることなく解釈性をサポートするために、モデルは非線形性を制御することができる準非線形推論則を通じてより柔軟性を取り入れる。 さらに,学習可能なパラメータを計算するための決定論的学習手法を導入しながら,一意の固定点による問題を回避する再認識決定モデルを提案する。 シミュレーションにより, 現状の白黒ボックスと比較すると, 解釈可能なモデルでは競合性能が得られた。

Machine learning solutions for pattern classification problems are nowadays widely deployed in society and industry. However, the lack of transparency and accountability of most accurate models often hinders their meaningful and safe use. Thus, there is a clear need for developing explainable artificial intelligence mechanisms. There exist model-agnostic methods that summarize feature contributions, but their interpretability is limited to specific predictions made by black-box models. An open challenge is to develop models that have intrinsic interpretability and produce their own explanations, even for classes of models that are traditionally considered black boxes like (recurrent) neural networks. In this paper, we propose an LTCN-based model for interpretable pattern classification of structured data. Our method brings its own mechanism for providing explanations by quantifying the relevance of each feature in the decision process. For supporting the interpretability without affecting the performance, the model incorporates more flexibility through a quasi-nonlinear reasoning rule that allows controlling nonlinearity. Besides, we propose a recurrence-aware decision model that evades the issues posed by unique fixed points while introducing a deterministic learning method to compute the learnable parameters. The simulations show that our interpretable model obtains competitive performance when compared to the state-of-the-art white and black boxes.
翻訳日:2021-07-09 13:31:42 公開日:2021-07-07
# グラフに基づくレコメンダシステムにおけるマルチサイド露光バイアスの緩和

A Graph-based Approach for Mitigating Multi-sided Exposure Bias in Recommender Systems ( http://arxiv.org/abs/2107.03415v1 )

ライセンス: Link先を確認
Masoud Mansoury, Himan Abdollahpouri, Mykola Pechenizkiy, Bamshad Mobasher, Robin Burke(参考訳) フェアネスはレコメンダシステムにおける重要なシステムレベルの目標であり、近年の広範な研究の対象となっている。 特定のフェアネスの形式はサプライヤの露出フェアネスであり、ユーザに提供するレコメンデーションにおいて、サプライヤ全体のアイテムの公平なカバレッジを確保することを目的としている。 これは、エンドユーザーだけでなく、商品の公正な表現を望む商品販売者や生産者といった他の利害関係者にとっても、ユーティリティを最適化することが重要となるマルチステークホルダーレコメンデーションシナリオにおいて特に重要である。 このタイプのサプライヤーフェアネスは、人気バイアスを緩和し、レコメンデーションにおけるロングテールアイテムのカバレッジを改善するために、総数の多様性を高めようとすることで達成される。 本稿では,アイテムやサプライヤーの露出公平性を改善するため,推奨生成後のポスト処理アプローチとして動作する汎用グラフベースアルゴリズムであるfairmatchを提案する。 このアルゴリズムは、可視性が低い高品質のアイテムや、サプライヤーからの最後のレコメンデーションリストへの露出が低いアイテムを反復的に追加する。 2つのデータセットに関する包括的な実験と、最先端のベースラインとの比較により、FairMatchは露出公正性と集約多様性を大幅に改善する一方で、レコメンデーションの許容レベルを維持している。

Fairness is a critical system-level objective in recommender systems that has been the subject of extensive recent research. A specific form of fairness is supplier exposure fairness where the objective is to ensure equitable coverage of items across all suppliers in recommendations provided to users. This is especially important in multistakeholder recommendation scenarios where it may be important to optimize utilities not just for the end-user, but also for other stakeholders such as item sellers or producers who desire a fair representation of their items. This type of supplier fairness is sometimes accomplished by attempting to increasing aggregate diversity in order to mitigate popularity bias and to improve the coverage of long-tail items in recommendations. In this paper, we introduce FairMatch, a general graph-based algorithm that works as a post processing approach after recommendation generation to improve exposure fairness for items and suppliers. The algorithm iteratively adds high quality items that have low visibility or items from suppliers with low exposure to the users' final recommendation lists. A comprehensive set of experiments on two datasets and comparison with state-of-the-art baselines show that FairMatch, while significantly improves exposure fairness and aggregate diversity, maintains an acceptable level of relevance of the recommendations.
翻訳日:2021-07-09 13:30:54 公開日:2021-07-07
# 深層学習プログラムにおけるデザインの匂い--経験的研究

Design Smells in Deep Learning Programs: An Empirical Study ( http://arxiv.org/abs/2107.02279v2 )

ライセンス: Link先を確認
Amin Nikanjam, Foutse Khomh(参考訳) 現在、多くの業界でディープラーニング(DL)ベースのソフトウェアシステムの採用が増えているのを目撃しています。 DLプログラムを設計するには、ディープニューラルネットワーク(DNN)を構築し、データセットでそれをトレーニングする必要がある。 このプロセスでは、開発者は複数のアーキテクチャ(例えば、タイプ、サイズ、数、レイヤの順序)と構成(例えば、最適化、正規化メソッド、アクティベーション関数)を選択してDLモデルの品質に影響を与え、その結果、ソフトウェアの品質を決定する必要がある。 未定または設計のdlモデルは、うまくトレーニングできるが、本番環境に配備されると性能が低下する可能性がある。 dlプログラムにおける設計の臭いは、dlコンポーネントの開発中に取られた設計および/または構成上の判断が貧弱であり、dlベースのソフトウェアシステムの品質(すなわち予測精度)に悪影響を及ぼす可能性が高い。 本稿では,産業用途に広く用いられている,一般的なdlアーキテクチャであるディープフィードフォワードニューラルネットワークのための8種類の設計臭のカタログを提案する。 DL設計に関する既存の文献のレビューと、659個のDLプログラムを手動で検査し、性能問題と設計の非効率性について検討した。 臭いは、そのコンテキスト、結果、推奨リファクタリングを説明することで特定されます。 提案したデザインの匂いが与える影響に関する実証的証拠を提供するため,81人のDL開発者を対象に調査を行った。 一般に、開発者は提案された設計の臭いが設計や実装の問題の反映であると認識し、合意レベルは47 %から68 %の間である。

Nowadays, we are witnessing an increasing adoption of Deep Learning (DL) based software systems in many industries. Designing a DL program requires constructing a deep neural network (DNN) and then training it on a dataset. This process requires that developers make multiple architectural (e.g., type, size, number, and order of layers) and configuration (e.g., optimizer, regularization methods, and activation functions) choices that affect the quality of the DL models, and consequently software quality. An under-specified or poorly-designed DL model may train successfully but is likely to perform poorly when deployed in production. Design smells in DL programs are poor design and-or configuration decisions taken during the development of DL components, that are likely to have a negative impact on the performance (i.e., prediction accuracy) and then quality of DL based software systems. In this paper, we present a catalogue of 8 design smells for a popular DL architecture, namely deep Feedforward Neural Networks which is widely employed in industrial applications. The design smells were identified through a review of the existing literature on DL design and a manual inspection of 659 DL programs with performance issues and design inefficiencies. The smells are specified by describing their context, consequences, and recommended refactorings. To provide empirical evidence on the relevance and perceived impact of the proposed design smells, we conducted a survey with 81 DL developers. In general, the developers perceived the proposed design smells as reflective of design or implementation problems, with agreement levels varying between 47\% and 68\%.
翻訳日:2021-07-09 13:24:15 公開日:2021-07-07
# 連合学習のためのネットワークエッジにおける資源管理

Management of Resource at the Network Edge for Federated Learning ( http://arxiv.org/abs/2107.03428v1 )

ライセンス: Link先を確認
Silvana Trindade, Luiz F. Bittencourt, Nelson L. S. da Fonseca(参考訳) フェデレーション学習は、エッジでのトレーニングのための有望なソリューションとして検討され、エンドデバイスが他のエンティティとデータを共有せずにモデルをトレーニングする。 これらの学習モデルの実行はリソースが限られているエッジで行われるため、新しいソリューションを開発する必要がある。 本稿では,エッジにおける資源管理に関する最近の研究について述べるとともに,エッジにおける連合学習の実行を可能にするための課題と今後の方向性について述べる。 本稿では、リソースの発見、デプロイメント、ロードバランシング、マイグレーション、エネルギー効率など、この管理のいくつかの問題について論じる。

Federated learning has been explored as a promising solution for training at the edge, where end devices collaborate to train models without sharing data with other entities. Since the execution of these learning models occurs at the edge, where resources are limited, new solutions must be developed. In this paper, we describe the recent work on resource management at the edge, and explore the challenges and future directions to allow the execution of federated learning at the edge. Some of the problems of this management, such as discovery of resources, deployment, load balancing, migration, and energy efficiency will be discussed in the paper.
翻訳日:2021-07-09 13:23:14 公開日:2021-07-07
# iowarain: 気象レーダーと量的降雨推定に基づく州全体の雨イベントデータセット

IowaRain: A Statewide Rain Event Dataset Based on Weather Radars and Quantitative Precipitation Estimation ( http://arxiv.org/abs/2107.03432v1 )

ライセンス: Link先を確認
Muhammed Sit, Bong-Chul Seo and Ibrahim Demir(参考訳) 気候変動に対処するための効果的な環境計画と管理は、機械学習と従来の物理モデルによる広範な環境モデリングによって達成できる。 これらのモデルの開発と改善のためには、実践者や研究者は、環境の専門知識によって準備され、処理される包括的なベンチマークデータセットが必要である。 本研究では,国立気象サービス次世代気象レーダ(NEXRAD)システムから取得したアイオワ州(2016-2019)の降雨状況について,定量的降雨量推定システムを用いて解析した。 本研究で提示されたデータセットは,予測モデルと規範モデルの両方への道を開くことによって,災害監視,応答,リカバリに利用することができる。

Effective environmental planning and management to address climate change could be achieved through extensive environmental modeling with machine learning and conventional physical models. In order to develop and improve these models, practitioners and researchers need comprehensive benchmark datasets that are prepared and processed with environmental expertise that they can rely on. This study presents an extensive dataset of rainfall events for the state of Iowa (2016-2019) acquired from the National Weather Service Next Generation Weather Radar (NEXRAD) system and processed by a quantitative precipitation estimation system. The dataset presented in this study could be used for better disaster monitoring, response and recovery by paving the way for both predictive and prescriptive modeling.
翻訳日:2021-07-09 13:23:03 公開日:2021-07-07
# ニューラルネットワークにおける自己組織化臨界

Self-organized criticality in neural networks ( http://arxiv.org/abs/2107.03402v1 )

ライセンス: Link先を確認
Mikhail I. Katsnelson, Vitaly Vanchurin, Tom Westerhout(参考訳) ニューラルネットワークの学習力学は、解析的にも数値的にも、自己組織的臨界状態に一般的に惹きつけられていることを実証する。 この効果は、非訓練変数間のクォート相互作用(例)でモデル化することができる。 ニューロンの状態)と訓練可能な変数(例) 重量行列)。 非訓練変数は確率平衡に向かって急速に駆動され、訓練変数は幅広いスケールでスケール不変分布によって記述される学習平衡に向かってゆっくりと駆動される。 この結果は、多くの物理・生物学的システムで観測されるスケールの不変性は、ある種の学習力学によるもので、宇宙がニューラルネットワークであるという主張を支持することを示唆している。

We demonstrate, both analytically and numerically, that learning dynamics of neural networks is generically attracted towards a self-organized critical state. The effect can be modeled with quartic interactions between non-trainable variables (e.g. states of neurons) and trainable variables (e.g. weight matrix). Non-trainable variables are rapidly driven towards stochastic equilibrium and trainable variables are slowly driven towards learning equilibrium described by a scale-invariant distribution on a wide range of scales. Our results suggest that the scale invariance observed in many physical and biological systems might be due to some kind of learning dynamics and support the claim that the universe might be a neural network.
翻訳日:2021-07-09 13:22:04 公開日:2021-07-07
# BumbleBee:音楽用トランスフォーマー

BumbleBee: A Transformer for Music ( http://arxiv.org/abs/2107.03443v1 )

ライセンス: Link先を確認
Lucas Fenaux and Maria Juliana Quintero(参考訳) 私たちは、MIDI音楽データを生成するトランスフォーマーモデルであるBumbleBeeを紹介します。 我々は,拡張スライディングウインドウを用いてアテンション層を計算するロングフォーム生成モデルを実装することで,長いシーケンスに適用されるトランスフォーマーの問題に取り組む。 結果と音楽変換器と長短項メモリ(LSTM)を比較し,その結果をベンチマークする。 この分析はピアノMIDIファイル、特に他の研究ですでに使われているJSB合唱団データセットを用いて行われる(Huang et al., 2018)。

We will introduce BumbleBee, a transformer model that will generate MIDI music data . We will tackle the issue of transformers applied to long sequences by implementing a longformer generative model that uses dilating sliding windows to compute the attention layers. We will compare our results to that of the music transformer and Long-Short term memory (LSTM) to benchmark our results. This analysis will be performed using piano MIDI files, in particular , the JSB Chorales dataset that has already been used for other research works (Huang et al., 2018)
翻訳日:2021-07-09 13:21:54 公開日:2021-07-07
# Deep Network Approximation: 固定数のニューロンによる任意精度の実現

Deep Network Approximation: Achieving Arbitrary Accuracy with Fixed Number of Neurons ( http://arxiv.org/abs/2107.02397v2 )

ライセンス: Link先を確認
Zuowei Shen and Haizhao Yang and Shijun Zhang(参考訳) 本稿では,有限個のニューロンを持つすべての連続関数に対する普遍近似性を実現する,単純なフィードフォワードニューラルネットワークを開発した。 これらのニューラルネットワークは、単純な連続活性化関数$\sigma$で設計されており、三角波関数とソフトサイン関数を利用するため、単純である。 我々は、$\sigma$-activated network with width $36d(2d+1)$ and depth $11$が任意に小さい誤差で$d$-dimensioanl hypercube上の任意の連続関数を近似できることを証明する。 したがって、教師付き学習とその関連する回帰問題に対して、これらのネットワークによって生成される仮説空間は、36d(2d+1)\times 11$は連続函数の空間において密度が高い。 さらに、画像分類と信号分類から生じる分類関数は、$36d(2d+1)$とdeep $112$の幅を持つ$\sigma$-activatedネットワークと$\mathbb{R}^d$の対に非結合な有界部分集合が存在し、同じクラスのサンプルが同じ部分集合にあるという仮説空間で生成される。

This paper develops simple feed-forward neural networks that achieve the universal approximation property for all continuous functions with a fixed finite number of neurons. These neural networks are simple because they are designed with a simple and computable continuous activation function $\sigma$ leveraging a triangular-wave function and a softsign function. We prove that $\sigma$-activated networks with width $36d(2d+1)$ and depth $11$ can approximate any continuous function on a $d$-dimensioanl hypercube within an arbitrarily small error. Hence, for supervised learning and its related regression problems, the hypothesis space generated by these networks with a size not smaller than $36d(2d+1)\times 11$ is dense in the space of continuous functions. Furthermore, classification functions arising from image and signal classification are in the hypothesis space generated by $\sigma$-activated networks with width $36d(2d+1)$ and depth $12$, when there exist pairwise disjoint closed bounded subsets of $\mathbb{R}^d$ such that the samples of the same class are located in the same subset.
翻訳日:2021-07-09 10:28:14 公開日:2021-07-07
# (参考訳) 強化学習を用いた非リジッド地形上の四足歩行 [全文訳有]

Quadruped Locomotion on Non-Rigid Terrain using Reinforcement Learning ( http://arxiv.org/abs/2107.02955v1 )

ライセンス: CC BY-SA 4.0
Taehei Kim, Sung-Hee Lee(参考訳) 足のついたロボットは多様な地形を歩ける必要がある。 本稿では,非剛性動的地形におけるロコモーション学習のための強化学習フレームワークを提案する。 具体的には、我々のフレームワークは、ロボットの足で押すと受動的に上下するタイルのマトリックスからなる平らな弾性地形上で四足歩行を生成できる。 55cmのトレーニングを受けたロボットは、最大5cmまで沈むことができる地形を歩ける。 我々は,この移動を可能にする一連の観察用語と報酬項を提案し,エンドエフェクタ履歴とエンドエフェクタ速度項を観察に含めることが重要であることを見出した。 様々な地形条件でロボットを訓練することで,本手法の有効性を示す。

Legged robots need to be capable of walking on diverse terrain conditions. In this paper, we present a novel reinforcement learning framework for learning locomotion on non-rigid dynamic terrains. Specifically, our framework can generate quadruped locomotion on flat elastic terrain that consists of a matrix of tiles moving up and down passively when pushed by the robot's feet. A trained robot with 55cm base length can walk on terrain that can sink up to 5cm. We propose a set of observation and reward terms that enable this locomotion; in which we found that it is crucial to include the end-effector history and end-effector velocity terms into observation. We show the effectiveness of our method by training the robot with various terrain conditions.
翻訳日:2021-07-09 03:24:22 公開日:2021-07-07
# (参考訳) 結晶-電子顕微鏡データによる単一粒子配向と3次元マップ再構成の同時学習 [全文訳有]

End-to-End Simultaneous Learning of Single-particle Orientation and 3D Map Reconstruction from Cryo-electron Microscopy Data ( http://arxiv.org/abs/2107.02958v1 )

ライセンス: CC BY 4.0
Youssef S. G. Nashed, Frederic Poitevin, Harshit Gupta, Geoffrey Woollard, Michael Kagan, Chuck Yoon, Daniel Ratner(参考訳) 低温電子顕微鏡(cryo-EM)は、同じ生体分子の異なるコピーから任意の向きに画像を提供する。 本稿では,無作為初期化から生物分子の平均3dマップを再構築しながら,cryo-emデータから個々の粒子配向を学習するエンドツーエンド非教師付きアプローチを提案する。 このアプローチは自動エンコーダアーキテクチャに依存しており、潜在空間はデコーダが線形射影モデルに従って画像を形成するために使用する向きとして明示的に解釈される。 本手法はシミュレーションデータを用いて評価し,未知粒子配向の雑音およびctfによる2次元投影画像から3次元粒子マップを再構成できることを示す。

Cryogenic electron microscopy (cryo-EM) provides images from different copies of the same biomolecule in arbitrary orientations. Here, we present an end-to-end unsupervised approach that learns individual particle orientations from cryo-EM data while reconstructing the average 3D map of the biomolecule, starting from a random initialization. The approach relies on an auto-encoder architecture where the latent space is explicitly interpreted as orientations used by the decoder to form an image according to the linear projection model. We evaluate our method on simulated data and show that it is able to reconstruct 3D particle maps from noisy- and CTF-corrupted 2D projection images of unknown particle orientations.
翻訳日:2021-07-09 03:12:00 公開日:2021-07-07
# (参考訳) GLiT:グローバルおよびローカル画像変換器のためのニューラルアーキテクチャ検索 [全文訳有]

GLiT: Neural Architecture Search for Global and Local Image Transformer ( http://arxiv.org/abs/2107.02960v1 )

ライセンス: CC BY 4.0
Boyu Chen, Peixia Li, Chuming Li, Baopu Li, Lei Bai, Chen Lin, Ming Sun, Junjie yan, Wanli Ouyang(参考訳) 画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャ探索(NAS)手法を提案する。 近年,cnnベースのバックボーンを持たないトランスフォーマーが画像認識の性能向上に寄与している。 しかし、トランスフォーマーはnlpタスク用に設計されており、画像認識に直接使用される場合に最適化される可能性がある。 トランスフォーマの視覚的表現能力を向上させるために,新たな探索空間と探索アルゴリズムを提案する。 具体的には,画像内の局所的相関を計算コストが少なく明示的にモデル化する局所性モジュールを提案する。 ローカリティモジュールでは、検索アルゴリズムがグローバル情報とローカル情報の間を自由に切り離し、各モジュールの低レベルな設計選択を最適化できるように、検索空間を定義します。 大規模な探索空間に起因する問題に対処するため,進化的アルゴリズムと別途2段階から最適な視覚変換器を探索する階層型ニューラルネットワーク探索法を提案する。 imagenetデータセットに関する広範な実験は、画像分類のためのresnetファミリ(例:resnet101)とベースラインvitよりも、より識別的で効率的なトランスフォーマーの変種を見つけることができることを示している。

We introduce the first Neural Architecture Search (NAS) method to find a better transformer architecture for image recognition. Recently, transformers without CNN-based backbones are found to achieve impressive performance for image recognition. However, the transformer is designed for NLP tasks and thus could be sub-optimal when directly used for image recognition. In order to improve the visual representation ability for transformers, we propose a new search space and searching algorithm. Specifically, we introduce a locality module that models the local correlations in images explicitly with fewer computational cost. With the locality module, our search space is defined to let the search algorithm freely trade off between global and local information as well as optimizing the low-level design choice in each module. To tackle the problem caused by huge search space, a hierarchical neural architecture search method is proposed to search the optimal vision transformer from two levels separately with the evolutionary algorithm. Extensive experiments on the ImageNet dataset demonstrate that our method can find more discriminative and efficient transformer variants than the ResNet family (e.g., ResNet101) and the baseline ViT for image classification.
翻訳日:2021-07-09 02:51:12 公開日:2021-07-07
# (参考訳) 定重符号を用いたDNN透かしにおけるプルーニング攻撃の免疫 [全文訳有]

Immunization of Pruning Attack in DNN Watermarking Using Constant Weight Code ( http://arxiv.org/abs/2107.02961v1 )

ライセンス: CC BY 4.0
Minoru Kuribayashi, Tatsuya Yasui, Asad Malik, Nobuo Funabiki(参考訳) DNNモデルの知的財産権の保護を確保するため,元タスクの性能を著しく低下させることなく,副次情報をモデルに挿入する手法が検討されている。 dnnのウォーターマーキングの脅威の一つは、モデル内の重要なニューロンがより速くコンパクトに、またウォーターマーキングを取り除くためにプルーニングされるようなプルーニング攻撃である。 本研究では,プルーニング攻撃に対するチャネル符号化手法について検討する。 チャネルモデルはデジタル画像のような従来のモデルとは全く異なるため、DNNの透かしにどのようなエンコーディング方法が適しているかは未解決の問題である。 一定重み付き符号を用いてプルーニング攻撃の効果を免疫する新しい符号化手法を提案する。 我々の知る限りでは、これはDNN透かしの符号化技術を導入し、プルーニング攻撃に対して堅牢にするための最初の研究である。

To ensure protection of the intellectual property rights of DNN models, watermarking techniques have been investigated to insert side-information into the models without seriously degrading the performance of original task. One of the threats for the DNN watermarking is the pruning attack such that less important neurons in the model are pruned to make it faster and more compact as well as to remove the watermark. In this study, we investigate a channel coding approach to resist the pruning attack. As the channel model is completely different from conventional models like digital images, it has been an open problem what kind of encoding method is suitable for DNN watermarking. A novel encoding approach by using constant weight codes to immunize the effects of pruning attacks is presented. To the best of our knowledge, this is the first study that introduces an encoding technique for DNN watermarking to make it robust against pruning attacks.
翻訳日:2021-07-09 02:36:29 公開日:2021-07-07
# (参考訳) Dense Object Detectorをアンタングルする [全文訳有]

Disentangle Your Dense Object Detector ( http://arxiv.org/abs/2107.02963v1 )

ライセンス: CC BY 4.0
Zehui Chen, Chenhongyi Yang, Qiaofei Li, Feng Zhao, Zhengjun Zha, Feng Wu(参考訳) 深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。 しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。 本稿では,1) 分類ヘッドに正の値が割り当てられたサンプルのみを用いて回帰ヘッドを訓練し,2) 分類と回帰は並列ヘッドアーキテクチャで定義された同一の入力特徴と計算場を共有し,3) 異なる特徴ピラミッド層に分散されたサンプルは,損失を計算する際に等しく扱われる。 我々はまず,このような結合が持続的な性能向上につながることを示す一連の実験を行った。 そこで本研究では,既存の高密度物体検出器に簡易かつ効果的に対角化機構を設計・統合するDED(Disentangled Dense Object Detector)を提案する。 MS COCOベンチマークの大規模な実験により、当社のアプローチは、レチナネット、FCOS、ATSSベースラインにおける2mAP、2.4mAP、2.2mAPの絶対的な改善を無視できないオーバーヘッドで達成できることが示された。 特に,COCOテストデブセットで55.0 mAP,WIDER FACEのハードサブセットで93.5 APに達し,これらの2つの競合ベンチマークで新たな最先端性能を実現する。 コードはhttps://github.com/z ehuichen123/ddodで入手できる。

Deep learning-based dense object detectors have achieved great success in the past few years and have been applied to numerous multimedia applications such as video understanding. However, the current training pipeline for dense detectors is compromised to lots of conjunctions that may not hold. In this paper, we investigate three such important conjunctions: 1) only samples assigned as positive in classification head are used to train the regression head; 2) classification and regression share the same input feature and computational fields defined by the parallel head architecture; and 3) samples distributed in different feature pyramid layers are treated equally when computing the loss. We first carry out a series of pilot experiments to show disentangling such conjunctions can lead to persistent performance improvement. Then, based on these findings, we propose Disentangled Dense Object Detector (DDOD), in which simple and effective disentanglement mechanisms are designed and integrated into the current state-of-the-art dense object detectors. Extensive experiments on MS COCO benchmark show that our approach can lead to 2.0 mAP, 2.4 mAP and 2.2 mAP absolute improvements on RetinaNet, FCOS, and ATSS baselines with negligible extra overhead. Notably, our best model reaches 55.0 mAP on the COCO test-dev set and 93.5 AP on the hard subset of WIDER FACE, achieving new state-of-the-art performance on these two competitive benchmarks. Code is available at https://github.com/z ehuichen123/DDOD.
翻訳日:2021-07-09 02:29:24 公開日:2021-07-07
# (参考訳) 3次元形状のFew-Shotセグメンテーションのための距離空間の学習 [全文訳有]

Learn to Learn Metric Space for Few-Shot Segmentation of 3D Shapes ( http://arxiv.org/abs/2107.02972v1 )

ライセンス: CC0 1.0
Xiang Li, Lingjing Wang, Yi Fang(参考訳) 近年,3次元形状のセグメンテーションのための教師付き学習手法が多数報告されており,様々なベンチマークデータセットで顕著な性能が達成されている。 これらの教師あり手法は、見えないテストセットの一般化能力を保証するために、ディープニューラルネットワークを訓練するために大量の注釈データを必要とする。 本稿では,いくつかのラベル付きサンプルのみを未確認のクラスに提供した,数発の3次元形状分割のためのメタラーニング手法を提案する。 これを実現するために,距離空間における点ラベル問題として形状セグメンテーションを扱う。 具体的には,まず,入力形状を埋め込み空間に変換するメタメトリック学習器を設計し,各オブジェクトの適切な距離空間を点埋め込みに基づいて学習する。 そして,各クラスに対して,いくつかのサポート形状から部分固有プロトタイプ表現を抽出するためのメトリック学習器を設計し,学習したメトリック空間において,各ポイントと最寄りのプロトタイプとをマッチングして,クエリ形状に対してポイント毎のセグメンテーションを行う。 距離に基づく損失関数は、点埋め込み間の距離を動的に変化させることで、部分間の類似性を最小化しながら、部分内類似性を最大化する。 サポート情報をフル活用するためにデュアルセグメンテーションブランチが採用されており、サポートとクエリプロトタイプ間の一貫性を暗黙的に奨励している。 本稿では,ShapeNet部データセットにおける提案手法の優れた性能を,既存のベースラインや最先端の半教師手法と比較し,いくつかのシナリオで示す。

Recent research has seen numerous supervised learning-based methods for 3D shape segmentation and remarkable performance has been achieved on various benchmark datasets. These supervised methods require a large amount of annotated data to train deep neural networks to ensure the generalization ability on the unseen test set. In this paper, we introduce a meta-learning-based method for few-shot 3D shape segmentation where only a few labeled samples are provided for the unseen classes. To achieve this, we treat the shape segmentation as a point labeling problem in the metric space. Specifically, we first design a meta-metric learner to transform input shapes into embedding space and our model learns to learn a proper metric space for each object class based on point embeddings. Then, for each class, we design a metric learner to extract part-specific prototype representations from a few support shapes and our model performs per-point segmentation over the query shapes by matching each point to its nearest prototype in the learned metric space. A metric-based loss function is used to dynamically modify distances between point embeddings thus maximizes in-part similarity while minimizing inter-part similarity. A dual segmentation branch is adopted to make full use of the support information and implicitly encourages consistency between the support and query prototypes. We demonstrate the superior performance of our proposed on the ShapeNet part dataset under the few-shot scenario, compared with well-established baseline and state-of-the-art semi-supervised methods.
翻訳日:2021-07-09 01:56:12 公開日:2021-07-07
# (参考訳) ram-vo: less is more in visual odometry [全文訳有]

RAM-VO: Less is more in Visual Odometry ( http://arxiv.org/abs/2107.02974v1 )

ライセンス: CC BY 4.0
Iury Cleveston, Esther L. Colombini(参考訳) 人間の監督なしに運用できる車両を作るには、エージェントのポーズを決定する必要がある。 視覚オドメトリ (VO) アルゴリズムは入力画像からの視覚的変化のみを用いてエゴモーションを推定する。 最新のvo手法では畳み込みニューラルネットワーク(cnn)を用いたディープラーニング技術が広く実装されており、高解像度画像を扱う際にかなりのコストがかかる。 さらに、VOタスクでは、より多くの入力データがより良い予測を意味するわけではない。 したがって、計算効率が高く軽量なアーキテクチャの実装は不可欠である。 そこで本研究では,視覚計測のためのRAM-VO(Recurrent Attention Model)の拡張を提案する。 RAM-VOは情報の視覚的および時間的表現を改善し、堅牢なポリシーを学ぶためにPPOアルゴリズムを実装している。 その結果,RAM-VOは,約300万のパラメータを用いて,単眼入力画像から自由度6自由度で回帰できることがわかった。 さらに、KITTIデータセットの実験では、利用可能なビジュアル情報の5.7%しか使用せず、RAM-VOが競合する結果を達成することを示した。

Building vehicles capable of operating without human supervision requires the determination of the agent's pose. Visual Odometry (VO) algorithms estimate the egomotion using only visual changes from the input images. The most recent VO methods implement deep-learning techniques using convolutional neural networks (CNN) extensively, which add a substantial cost when dealing with high-resolution images. Furthermore, in VO tasks, more input data does not mean a better prediction; on the contrary, the architecture may filter out useless information. Therefore, the implementation of computationally efficient and lightweight architectures is essential. In this work, we propose the RAM-VO, an extension of the Recurrent Attention Model (RAM) for visual odometry tasks. RAM-VO improves the visual and temporal representation of information and implements the Proximal Policy Optimization (PPO) algorithm to learn robust policies. The results indicate that RAM-VO can perform regressions with six degrees of freedom from monocular input images using approximately 3 million parameters. In addition, experiments on the KITTI dataset demonstrate that RAM-VO achieves competitive results using only 5.7% of the available visual information.
翻訳日:2021-07-09 01:38:39 公開日:2021-07-07
# (参考訳) robocup@home education 2020 best performance: robobreizh, a modular approach [全文訳有]

RoboCup@Home Education 2020 Best Performance: RoboBreizh, a modular approach ( http://arxiv.org/abs/2107.02978v1 )

ライセンス: CC BY 4.0
Antoine Dizet and C\'edric Le Bono and Am\'elie Legeleux and Ma\"elic neau and C\'edric Buche(参考訳) 毎年、robocup@homeコンペティションはチームとロボットの能力に挑戦している。 2020年、RoboCup@Home Educationの課題がオンライン化され、通常の競争ルールが変更された。 本稿では,RoboBreizhチームが優勝した最新の成果を紹介する。 これらの開発には、pepperロボットがローカル環境を理解し、行動し、適応できるようにする複数のモジュールがリンクされている。 最新の技術はナビゲーションや対話に使われている。 第一の貢献は、ユーザの意図を検出するために、オブジェクト検出とポーズ推定技術を組み合わせることである。 第2の貢献は,ペッパーロボットのスキルを向上させる新たな動きを簡単に学ぶためのデモンストレーションによる学習だ。 この提案は、2020年のrobocup@home education challengeのベストパフォーマンス賞を受賞した。

Every year, the Robocup@Home competition challenges teams and robots' abilities. In 2020, the RoboCup@Home Education challenge was organized online, altering the usual competition rules. In this paper, we present the latest developments that lead the RoboBreizh team to win the contest. These developments include several modules linked to each other allowing the Pepper robot to understand, act and adapt itself to a local environment. Up-to-date available technologies have been used for navigation and dialogue. First contribution includes combining object detection and pose estimation techniques to detect user's intention. Second contribution involves using Learning by Demonstrations to easily learn new movements that improve the Pepper robot's skills. This proposal won the best performance award of the 2020 RoboCup@Home Education challenge.
翻訳日:2021-07-09 01:19:06 公開日:2021-07-07
# (参考訳) SinSpell: Sinhalaの総合的なスペルチェッカー [全文訳有]

SinSpell: A Comprehensive Spelling Checker for Sinhala ( http://arxiv.org/abs/2107.02983v1 )

ライセンス: CC BY 4.0
Upuli Liyanapathirana, Kaumini Gunasinghe, Gihan Dias(参考訳) SinSpellはSinhala言語のための包括的なスペルチェッカーで、主にスリランカで1600万人以上の人々が話している。 しかし、最近までシンハラは許容範囲の綴りチェッカーを持っていなかった。 Sinspellは現在も唯一のオープンソースのSinhalaスペルチェッカーである。 SinSpellはスペルエラーを識別し、修正を提案する。 また、明らかなエラーを自動修正するモジュールも含まれている。 精度を維持するため、SinSpellはHunspellをベースとしたルールベースのシステムとして設計された。 いくつかのソースから一連の単語がコンパイルされ、検証された。 これらは形態学クラスに分類され,各クラスに有効な根,接尾辞,接頭辞が同定され,不規則な単語や例外のリストが得られた。 シンハラ文書のコーパスの誤りは分析され、一般的に誤用される単語と一般的な誤りの種類が同定された。 最も一般的な誤りは母音の長さと類似の発声文字であった。 不正確な型付けとエンコーディングによるエラーも発見された。 この分析は提案生成器と自動修正器の開発に用いられた。

We have built SinSpell, a comprehensive spelling checker for the Sinhala language which is spoken by over 16 million people, mainly in Sri Lanka. However, until recently, Sinhala had no spelling checker with acceptable coverage. Sinspell is still the only open source Sinhala spelling checker. SinSpell identifies possible spelling errors and suggests corrections. It also contains a module which auto-corrects evident errors. To maintain accuracy, SinSpell was designed as a rule-based system based on Hunspell. A set of words was compiled from several sources and verified. These were divided into morphological classes, and the valid roots, suffixes and prefixes for each class were identified, together with lists of irregular words and exceptions. The errors in a corpus of Sinhala documents were analysed and commonly misspelled words and types of common errors were identified. We found that the most common errors were in vowel length and similar sounding letters. Errors due to incorrect typing and encoding were also found. This analysis was used to develop the suggestion generator and auto-corrector.
翻訳日:2021-07-09 01:11:50 公開日:2021-07-07
# (参考訳) spectrumformer:trans formsを用いたハイパースペクトル画像分類の再考 [全文訳有]

SpectralFormer: Rethinking Hyperspectral Image Classification with Transformers ( http://arxiv.org/abs/2107.02988v1 )

ライセンス: CC BY 4.0
Danfeng Hong and Zhu Han and Jing Yao and Lianru Gao and Bing Zhang and Antonio Plaza and Jocelyn Chanussot(参考訳) ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴付けられ、微妙なスペクトルの差を捉えて、物質の微細な識別を可能にする。 局所的な文脈モデリング能力に優れており、畳み込みニューラルネットワーク(CNN)はHS画像分類において強力な特徴抽出器であることが証明されている。 しかし、cnnは固有のネットワークバックボーンの制限のため、スペクトルシグネチャのシーケンス属性のマイニングや表現に失敗している。 この問題を解決するために,トランスフォーマーを用いた逐次的視点からHS画像分類を再考し,新しいバックボーンネットワークである \ul{SpectralFormer} を提案する。 古典的な変換器のバンドワイド表現以外にも、SpectralFormerは、隣接するHS画像の帯域からスペクトル局所的なシーケンス情報を学習し、グループワイドのスペクトル埋め込みを生成することができる。 さらに,層間伝搬プロセスにおいて貴重な情報を失う可能性を減らすため,層間接続を考案し,層間における「ソフト」残差の融合を適応的に学習することにより,メモリのようなコンポーネントを浅層から深層へ伝達する。 提案されたSpectralFormerは、非常に柔軟なバックボーンネットワークであり、ピクセルとパッチの両方の入力に適用可能である点に注意が必要だ。 提案したSpectralFormerの3つのHSデータセットに対する分類性能の評価を行い,従来のトランスフォーマーよりも優れた性能を示し,最先端のバックボーンネットワークと比較して大幅に改善した。 この作業のコードは再現性のために \url{https://sites.google .com/view/danfeng-ho ng} で入手できる。

Hyperspectral (HS) images are characterized by approximately contiguous spectral information, enabling the fine identification of materials by capturing subtle spectral discrepancies. Owing to their excellent locally contextual modeling ability, convolutional neural networks (CNNs) have been proven to be a powerful feature extractor in HS image classification. However, CNNs fail to mine and represent the sequence attributes of spectral signatures well due to the limitations of their inherent network backbone. To solve this issue, we rethink HS image classification from a sequential perspective with transformers, and propose a novel backbone network called \ul{SpectralFormer}. Beyond band-wise representations in classic transformers, SpectralFormer is capable of learning spectrally local sequence information from neighboring bands of HS images, yielding group-wise spectral embeddings. More significantly, to reduce the possibility of losing valuable information in the layer-wise propagation process, we devise a cross-layer skip connection to convey memory-like components from shallow to deep layers by adaptively learning to fuse "soft" residuals across layers. It is worth noting that the proposed SpectralFormer is a highly flexible backbone network, which can be applicable to both pixel- and patch-wise inputs. We evaluate the classification performance of the proposed SpectralFormer on three HS datasets by conducting extensive experiments, showing the superiority over classic transformers and achieving a significant improvement in comparison with state-of-the-art backbone networks. The codes of this work will be available at \url{https://sites.google .com/view/danfeng-ho ng} for the sake of reproducibility.
翻訳日:2021-07-09 01:04:01 公開日:2021-07-07
# (参考訳) 異質性を利用したベイズモデルにおける分解フィードバックからの学習 [全文訳有]

Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian Modeling ( http://arxiv.org/abs/2107.03003v1 )

ライセンス: CC BY 4.0
Kai Wang, Bryan Wilder, Sze-chuan Suen, Bistra Dilkina, Milind Tambe(参考訳) 複数のサブコンポーネントからなる複雑なシステムの学習と最適化には大きな関心があり、これらのコンポーネントはエージェントや自律センサーである可能性がある。 この話題に関する豊富な文献の中で、エージェントベースおよびドメイン固有シミュレーションは複雑なダイナミクスとサブグループ相互作用を捉えることができるが、そのようなシミュレーションを最適化することは計算的にもアルゴリズム的にも困難である。 ガウス過程 (GPs) のようなベイズ的アプローチは、基礎となる力学への計算的に引くことができる近似を学ぶのに使えるが、典型的には複雑な系の部分群に関する詳細な情報を無視している。 我々は、グループベースの異質性とダイナミクスを捉えた分解フィードバックのアイデアを提唱することで、両方の世界の最良のものを見つけ出そうとする。 サブグループ分解フィードバックを組み込むために,新しい分解GP回帰を導入する。 修正された回帰は、従来の手法に比べて明らかにばらつきが低く、したがってより正確な後続法であり、サブグループフィードバックを利用する分解されたGP-UCB最適化アルゴリズムを導入することもできる。 この手法のベイズ的性質により、最適化アルゴリズムは収束と非回帰性に関する理論的保証をもって追跡可能である。 本研究の幅広い適用性を示すために,我々は,異種集団における感染症対策と分散気象センサの割り当てという,2つの異なる社会問題に対してアルゴリズムを実行する。 実験の結果,本手法は最新技術と比較して著しく改善することが示された。

There is significant interest in learning and optimizing a complex system composed of multiple sub-components, where these components may be agents or autonomous sensors. Among the rich literature on this topic, agent-based and domain-specific simulations can capture complex dynamics and subgroup interaction, but optimizing over such simulations can be computationally and algorithmically challenging. Bayesian approaches, such as Gaussian processes (GPs), can be used to learn a computationally tractable approximation to the underlying dynamics but typically neglect the detailed information about subgroups in the complicated system. We attempt to find the best of both worlds by proposing the idea of decomposed feedback, which captures group-based heterogeneity and dynamics. We introduce a novel decomposed GP regression to incorporate the subgroup decomposed feedback. Our modified regression has provably lower variance -- and thus a more accurate posterior -- compared to previous approaches; it also allows us to introduce a decomposed GP-UCB optimization algorithm that leverages subgroup feedback. The Bayesian nature of our method makes the optimization algorithm trackable with a theoretical guarantee on convergence and no-regret property. To demonstrate the wide applicability of this work, we execute our algorithm on two disparate social problems: infectious disease control in a heterogeneous population and allocation of distributed weather sensors. Experimental results show that our new method provides significant improvement compared to the state-of-the-art.
翻訳日:2021-07-09 00:41:17 公開日:2021-07-07
# (参考訳) 実世界における深層強化学習の進展評価--ドメイン非依存研究とドメイン特化研究の連携 [全文訳有]

Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research ( http://arxiv.org/abs/2107.03015v1 )

ライセンス: CC BY-SA 4.0
Juan Jose Garau-Luis and Edward Crawley and Bruce Cameron(参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)は多くの実世界の自律システムを改善するための潜在的なフレームワークと考えられている。 それでも、現実世界でのデプロイメントの成功は、DRLモデルの大部分をパスする必要のあるテストである。 本研究では、ドメインに依存しないコミュニティとドメイン固有のコミュニティの両方の研究成果をレビューし、評価することで、この問題に焦点を当てる。 一方、DRLの課題を包括的に要約し、それらを緩和するための異なる提案をまとめ、ドメインに依存しない5つの研究のギャップを特定するのに役立つ。 一方、ドメイン固有の観点から異なる成功ストーリーについて議論し、なぜ他のモデルがデプロイされないのかについて議論する。 最後に、両方の観点で経理を前進させる方法を取り上げます。

Deep Reinforcement Learning (DRL) is considered a potential framework to improve many real-world autonomous systems; it has attracted the attention of multiple and diverse fields. Nevertheless, the successful deployment in the real world is a test most of DRL models still need to pass. In this work we focus on this issue by reviewing and evaluating the research efforts from both domain-agnostic and domain-specific communities. On one hand, we offer a comprehensive summary of DRL challenges and summarize the different proposals to mitigate them; this helps identifying five gaps of domain-agnostic research. On the other hand, from the domain-specific perspective, we discuss different success stories and argue why other models might fail to be deployed. Finally, we take up on ways to move forward accounting for both perspectives.
翻訳日:2021-07-09 00:16:11 公開日:2021-07-07
# (参考訳) selfcf: 自己教師付き協調フィルタリングのためのシンプルなフレームワーク [全文訳有]

SelfCF: A Simple Framework for Self-supervised Collaborative Filtering ( http://arxiv.org/abs/2107.03019v1 )

ライセンス: CC BY 4.0
Xin Zhou, Aixin Sun, Yong Liu, Jie Zhang, Chunyan Miao(参考訳) 協調フィルタリング(CF)は、観察された相互作用からユーザや項目の情報的潜在表現を学習するために広く用いられる。 既存のCFベースの手法では、異なる項目を識別するために負のサンプリングが一般的である。 すなわち、観測されたユーザとイテムのペアは正のインスタンスとして扱われ、観測されていないペアは負のインスタンスと見なされ、トレーニングのために定義された分布の下でサンプリングされる。 大規模なデータセットに対する負のサンプリングによるトレーニングは計算コストが高い。 さらに、トレーニングデータセットで観測された陽性項目を選択することを避けるため、負の項目を定義された分布の下で慎重にサンプリングする必要がある。 必然的に、トレーニングデータセットからサンプリングされた負の項目は、テストセットで陽性になる可能性がある。 近年、自己教師付き学習(SSL)は、ネガティブサンプルなしでモデルを学習するための強力なツールとして登場した。 本稿では,暗黙的なフィードバックを伴うレコメンダシナリオのために特別に設計された自己教師付き協調フィルタリングフレームワーク(selfcf)を提案する。 SelfCFの主な考え方は、ユーザ/イテムIDの生入力を拡大できないため、バックボーンネットワークによって生成された出力の埋め込みを強化することである。 従来のcfモデルとグラフベースモデルの両方を含む様々なバックボーンネットワークに適用可能な3つの出力摂動手法を提案し,検討する。 フレームワークに2つの一般的なレコメンデーションモデルをカプセル化することにより、3つのデータセットの実験により、フレームワークの最高のパフォーマンスは、監督対象よりも同等か優れていることが示されています。 また、SelfCFは、ベースラインとして別のセルフ教師付きフレームワークと比較して、平均8.93\%のパフォーマンスを向上できることを示す。 ソースコードはhttps://github.com/e noche/selfcf。

Collaborative filtering (CF) is widely used to learn an informative latent representation of a user or item from observed interactions. Existing CF-based methods commonly adopt negative sampling to discriminate different items. That is, observed user-item pairs are treated as positive instances; unobserved pairs are considered as negative instances and are sampled under a defined distribution for training. Training with negative sampling on large datasets is computationally expensive. Further, negative items should be carefully sampled under the defined distribution, in order to avoid selecting an observed positive item in the training dataset. Unavoidably, some negative items sampled from the training dataset could be positive in the test set. Recently, self-supervised learning (SSL) has emerged as a powerful tool to learn a model without negative samples. In this paper, we propose a self-supervised collaborative filtering framework (SelfCF), that is specially designed for recommender scenario with implicit feedback. The main idea of SelfCF is to augment the output embeddings generated by backbone networks, because it is infeasible to augment raw input of user/item ids. We propose and study three output perturbation techniques that can be applied to different types of backbone networks including both traditional CF models and graph-based models. By encapsulating two popular recommendation models into the framework, our experiments on three datasets show that the best performance of our framework is comparable or better than the supervised counterpart. We also show that SelfCF can boost up the performance by up to 8.93\% on average, compared with another self-supervised framework as the baseline. Source codes are available at: https://github.com/e noche/SelfCF.
翻訳日:2021-07-08 23:44:03 公開日:2021-07-07
# (参考訳) Versatile Image TranslationとManipulationのための2レベル特徴アライメント [全文訳有]

Bi-level Feature Alignment for Versatile Image Translation and Manipulation ( http://arxiv.org/abs/2107.03021v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Kaiwen Cui, Aoran Xiao, Shijian Lu, Ling Shao(参考訳) generative adversarial networks (gans) は画像翻訳と操作において大きな成功を収めている。 しかし、忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて大きな課題である。 本稿では,対応関係を明示的に構築することで,画像生成における意味的・スタイル的指導を実現する多彩な画像翻訳・操作フレームワークを提案する。 高い対応性を構築することによって生じる二次的複雑性に対処するため,ブロックワイド特徴のランク付けにトップ$kの演算を併用し,メモリコストを大幅に削減するブロック特徴間の重み付けを行うバイレベル特徴アライメント戦略を導入する。 勾配伝播を阻害する指数スワップを含むトップ$kの演算では、非微分不可能なトップ$kの演算を正規化アースモービルの問題で近似し、その勾配が効果的に逆伝播できるようにすることを提案する。 さらに,個々の意味領域の座標を構築し,対応関係を構築しながらテクスチャ構造を保存する新しい意味位置符号化機構を設計する。 さらに,組込み対応の信頼性に応じて特徴を適応的に融合することによりミスマッチ問題を緩和する,新たな信頼度機能インジェクションモジュールを設計した。 実験の結果,本手法は最先端技術と比較して質的,定量的に優れた性能を発揮することがわかった。 コードは \href{https://github.com/f nzhan/rabit}{https://github.com/f nzhan/rabit} で入手できる。

Generative adversarial networks (GANs) have achieved great success in image translation and manipulation. However, high-fidelity image generation with faithful style control remains a grand challenge in computer vision. This paper presents a versatile image translation and manipulation framework that achieves accurate semantic and style guidance in image generation by explicitly building a correspondence. To handle the quadratic complexity incurred by building the dense correspondences, we introduce a bi-level feature alignment strategy that adopts a top-$k$ operation to rank block-wise features followed by dense attention between block features which reduces memory cost substantially. As the top-$k$ operation involves index swapping which precludes the gradient propagation, we propose to approximate the non-differentiable top-$k$ operation with a regularized earth mover's problem so that its gradient can be effectively back-propagated. In addition, we design a novel semantic position encoding mechanism that builds up coordinate for each individual semantic region to preserve texture structures while building correspondences. Further, we design a novel confidence feature injection module which mitigates mismatch problem by fusing features adaptively according to the reliability of built correspondences. Extensive experiments show that our method achieves superior performance qualitatively and quantitatively as compared with the state-of-the-art. The code is available at \href{https://github.com/f nzhan/RABIT}{https://github.com/f nzhan/RABIT}.
翻訳日:2021-07-08 23:22:19 公開日:2021-07-07
# (参考訳) ノイズ)損失関数からのコドメイン分離性とラベル推論について [全文訳有]

On Codomain Separability and Label Inference from (Noisy) Loss Functions ( http://arxiv.org/abs/2107.03022v1 )

ライセンス: CC BY 4.0
Abhinav Aggarwal, Shiva Prasad Kasiviswanathan, Zekun Xu, Oluwaseyi Feyisetan, Nathanael Teissier(参考訳) 機械学習の分類器は、性能評価のために損失関数に依存しており、しばしばプライベートな(隠された)データセットに依存している。 ラベル推論は、最近、隠れたデータセットにアクセスすることなく、選択された予測ベクトルで評価された(おそらく摂動された)損失関数値から、このプライベートデータセットの基底真理ラベルを再構築する問題として導入された。 既存の結果は、この推論がクロスエントロピー損失のような特定の損失関数上で可能であることを証明している。 本稿では,任意の(ノイズの多い)損失関数値からラベル推論が可能となる必要かつ十分な条件について,コドメイン分離性の概念を導入する。 この概念を用いることで、共通の活性化関数を持つマルチクラスクロスエントロピーやブレグマンの発散に基づく損失を含む多くの一般的な損失関数に対して、任意のノイズレベルに対するラベル推論攻撃を設計できることを示す。 これらの攻撃は実際のニューラルネットワークモデルでも実行可能であることを実証し、この設定における有限精度算術の役割を形式的かつ実証的に論じる。

Machine learning classifiers rely on loss functions for performance evaluation, often on a private (hidden) dataset. Label inference was recently introduced as the problem of reconstructing the ground truth labels of this private dataset from just the (possibly perturbed) loss function values evaluated at chosen prediction vectors, without any other access to the hidden dataset. Existing results have demonstrated this inference is possible on specific loss functions like the cross-entropy loss. In this paper, we introduce the notion of codomain separability to formally study the necessary and sufficient conditions under which label inference is possible from any (noisy) loss function values. Using this notion, we show that for many commonly used loss functions, including multiclass cross-entropy with common activation functions and some Bregman divergence-based losses, it is possible to design label inference attacks for arbitrary noise levels. We demonstrate that these attacks can also be carried out through actual neural network models, and argue, both formally and empirically, the role of finite precision arithmetic in this setting.
翻訳日:2021-07-08 22:55:34 公開日:2021-07-07
# (参考訳) 敵対的攻撃による画像のキャプション生成制御 [全文訳有]

Controlled Caption Generation for Images Through Adversarial Attacks ( http://arxiv.org/abs/2107.03050v1 )

ライセンス: CC0 1.0
Nayyer Aafaq, Naveed Akhtar, Wei Liu, Mubarak Shah and Ajmal Mian(参考訳) ディープラーニングは、敵の例に弱いことが分かる。 しかし,画像キャプション生成における逆の感受性は低い。 画像特徴抽出のための畳み込みニューラルネットワーク(CNN)とキャプション生成のためのリカレントニューラルネットワーク(RNN)の2つの主要コンポーネントからなるエンコーダ・デコーダ・フレームワークを採用する。 特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。 既存のメソッドは、ビジュアルエンコーダの分類層を攻撃するか、言語モデルから勾配をバックプロパゲーションする。 対照的に、入力画像の内部表現を模倣したニューラルイメージキャプションの逆例を作成するためのGANベースのアルゴリズムを提案し、入力画像の深い特徴が再帰的ネットワークを介して制御された誤ったキャプション生成を可能にする。 我々の貢献は、言語コンポーネントを持つ視覚システムに対する敵攻撃を理解するための新たな洞察を提供する。 提案手法は総合評価のための2つの戦略を用いる。 第1は、ニューラルイメージキャプションシステムが、ターゲット画像キャプションを出力するために誤用できるかどうかを調べる。 後者は、予測されたキャプションにキーワードの可能性を分析する。 実験により,cnn隠れレイヤに基づく効果的な逆画像を作成し,キャプションフレームワークを騙すことができることを示した。 さらに,提案した攻撃は高い伝達性を有することがわかった。 我々の研究はニューラルイメージキャプションに新たな堅牢性をもたらす。

Deep learning is found to be vulnerable to adversarial examples. However, its adversarial susceptibility in image caption generation is under-explored. We study adversarial examples for vision and language models, which typically adopt an encoder-decoder framework consisting of two major components: a Convolutional Neural Network (i.e., CNN) for image feature extraction and a Recurrent Neural Network (RNN) for caption generation. In particular, we investigate attacks on the visual encoder's hidden layer that is fed to the subsequent recurrent network. The existing methods either attack the classification layer of the visual encoder or they back-propagate the gradients from the language model. In contrast, we propose a GAN-based algorithm for crafting adversarial examples for neural image captioning that mimics the internal representation of the CNN such that the resulting deep features of the input image enable a controlled incorrect caption generation through the recurrent network. Our contribution provides new insights for understanding adversarial attacks on vision systems with language component. The proposed method employs two strategies for a comprehensive evaluation. The first examines if a neural image captioning system can be misled to output targeted image captions. The second analyzes the possibility of keywords into the predicted captions. Experiments show that our algorithm can craft effective adversarial images based on the CNN hidden layers to fool captioning framework. Moreover, we discover the proposed attack to be highly transferable. Our work leads to new robustness implications for neural image captioning.
翻訳日:2021-07-08 22:20:20 公開日:2021-07-07
# (参考訳) 一元ネットワークの確率的分割:クラスタリングに基づく深部近似 [全文訳有]

Probabilistic partition of unity networks: clustering based deep approximation ( http://arxiv.org/abs/2107.03066v1 )

ライセンス: CC BY 4.0
Nat Trask, Mamikon Gulian, Andy Huang, Kookjin Lee(参考訳) 一元ネットワーク(POU-Nets)の分割は回帰とPDEの解の代数収束率を実現することができるが、訓練パラメータの経験的チューニングを必要とする。 ガウス雑音モデルを用いてPOU-Netを拡張し、最大損失の勾配に基づく最小化が可能な確率的一般化を得る。 得られたアーキテクチャは、ノイズのないデータとノイズの多いデータの空間的表現を、局所誤差の推定器を提供する分散のための閉形式表現とガウス混合として提供する。 トレーニングプロセスは関数値の相関に基づいて入力空間を著しくシャープに分割する。 このトレーニングポイントの分類は、回帰の局所化を著しく改善し、高次多項式近似の利用を可能にする階層的洗練戦略に適合する。 このフレームワークはガウス過程の回帰よりも大規模なデータセットに好適にスケールし、深層ニューラルネットワークの表現力を活用しながら、他の確率論的ディープラーニング手法による高価なトレーニングを回避しながら、空間的に異なる不確実性を実現する。 標準のディープニューラルネットワークと比較して、このフレームワークは、パーティションのローカライゼーションを調整するために正規化器を使わずにhp収束を示す。 高次元・低次元の性能を定量化するベンチマークを提供し、高次元空間内のデータの潜在次元にのみ依存する収束率を示す。 最後に,半導体デバイスのPDEシミュレーションの新たなオープンソースデータセットを導入し,物理的に解釈可能な低次基底の教師なし抽出を行う。

Partition of unity networks (POU-Nets) have been shown capable of realizing algebraic convergence rates for regression and solution of PDEs, but require empirical tuning of training parameters. We enrich POU-Nets with a Gaussian noise model to obtain a probabilistic generalization amenable to gradient-based minimization of a maximum likelihood loss. The resulting architecture provides spatial representations of both noiseless and noisy data as Gaussian mixtures with closed form expressions for variance which provides an estimator of local error. The training process yields remarkably sharp partitions of input space based upon correlation of function values. This classification of training points is amenable to a hierarchical refinement strategy that significantly improves the localization of the regression, allowing for higher-order polynomial approximation to be utilized. The framework scales more favorably to large data sets as compared to Gaussian process regression and allows for spatially varying uncertainty, leveraging the expressive power of deep neural networks while bypassing expensive training associated with other probabilistic deep learning methods. Compared to standard deep neural networks, the framework demonstrates hp-convergence without the use of regularizers to tune the localization of partitions. We provide benchmarks quantifying performance in high/low-dimensions, demonstrating that convergence rates depend only on the latent dimension of data within high-dimensional space. Finally, we introduce a new open-source data set of PDE-based simulations of a semiconductor device and perform unsupervised extraction of a physically interpretable reduced-order basis.
翻訳日:2021-07-08 22:05:22 公開日:2021-07-07
# (参考訳) 誤差関数の非対称コストに基づく分散適応アルゴリズム [全文訳有]

Distributed adaptive algorithm based on the asymmetric cost of error functions ( http://arxiv.org/abs/2107.03067v1 )

ライセンス: CC BY 4.0
Sihai Guan, Qing Cheng, Yong Zhao(参考訳) 本稿では、拡散戦略と線形線形コスト(LLC)、二次二次コスト(QQC)、線形指数コスト(LEC)を各分散ネットワークノードで組み合わせ、拡散LLLMS(DLLCLMS)、拡散QCLMS(DQQCLMS)、拡散LECLMS(DLECLMS)を組み合わせた非対称コスト関数の観点から、新しい拡散適応推定アルゴリズムのファミリーを提案する。 これら3つの拡散アルゴリズムの平均推定誤差の安定性と計算複雑性を理論的に解析する。 最後に,これら3つの拡散アルゴリズムの優越性を検証するために実験シミュレーションを行った。 DLLCLMS, DQQCLMS, DLECLMSアルゴリズムはDSELMS, DRVSSLMS, DLLADアルゴリズムよりも入力信号やインパルスノイズに強い。 理論的解析と実験の結果から,提案するdllclms,dqqclms,dlec lmsアルゴリズムは,無名の線形系を,変動可能な衝動雑音環境と異なる入力信号環境下で推定する場合に優れた性能を示すことがわかった。

In this paper, a family of novel diffusion adaptive estimation algorithm is proposed from the asymmetric cost function perspective by combining diffusion strategy and the linear-linear cost (LLC), quadratic-quadratic cost (QQC), and linear-exponential cost (LEC), at all distributed network nodes, and named diffusion LLCLMS (DLLCLMS), diffusion QQCLMS (DQQCLMS), and diffusion LECLMS (DLECLMS), respectively. Then the stability of mean estimation error and computational complexity of those three diffusion algorithms are analyzed theoretically. Finally, several experiment simulation results are designed to verify the superiority of those three proposed diffusion algorithms. Experimental simulation results show that DLLCLMS, DQQCLMS, and DLECLMS algorithms are more robust to the input signal and impulsive noise than the DSELMS, DRVSSLMS, and DLLAD algorithms. In brief, theoretical analysis and experiment results show that those proposed DLLCLMS, DQQCLMS, and DLECLMS algorithms have superior performance when estimating the unknown linear system under the changeable impulsive noise environments and different types of input signals.
翻訳日:2021-07-08 21:52:17 公開日:2021-07-07
# (参考訳) クラスタリングに基づく都市域におけるハブ・スポットロジスティックスネットワークの設計 [全文訳有]

Hub and Spoke Logistics Network Design for Urban Region with Clustering-Based Approach ( http://arxiv.org/abs/2107.03080v1 )

ライセンス: CC BY 4.0
Quan Duong and Dang Nguyen and Quoc Nguyen(参考訳) 本研究では,物流産業において,価格と時間の両方に需要が敏感な競争戦略として効率的な流通ネットワークを提供するため,都市域における物流ネットワークの設計に効果的なモデリングとアプローチを提案する。 ハブ数を選択し、ハブにスポークを割り当て、フロー分布とハブの位置検出を行うためのマルチステージアプローチが導入された。 具体的には、目的関数を持つファジィクラスタリングモデルは、近似輸送コストを最小化することを目的としており、次のフェーズでは、ドメインの専門家の助けを借りて、ハブ間の需要キャパシティのバランスにフォーカスし、その後、ネットワーク内の施設位置車両ルーティング問題を導入する。 この手法の利点を実証するため、ホーチミン市インフラのインフラ条件に特有な実際の運用データに対して、設計ネットワークとその実際の輸送コストについて実験を行った。 さらに,ネットワーク設計の意思決定プロセスに寄与する管理的洞察を開発するために,フロー分布における設計ネットワークの柔軟性と計算実験を示す。

This study aims to propose effective modeling and approach for designing a logistics network in the urban area in order to offer an efficient flow distribution network as a competitive strategy in the logistics industry where demand is sensitive to both price and time. A multi-stage approach is introduced to select the number of hubs and allocate spokes to the hubs for flow distribution and hubs' location detection. Specifically, a fuzzy clustering model with the objective function is to minimize the approximate transportation cost is employed, in the next phase is to focus on balancing the demand capacity among the hubs with the help of domain experts, afterward, the facility location vehicle routing problems within the network is introduced. To demonstrate the approach's advantages, an experiment was performed on the designed network and its actual transportation cost for the real operational data in which specific to the Ho Chi Minh city infrastructure conditions. Additionally, we show the flexibility of the designed network in the flow distribution and its computational experiments to develop the managerial insights which contribute to the network design decision-making process.
翻訳日:2021-07-08 21:36:07 公開日:2021-07-07
# (参考訳) チャネル容量学習のための識別的相互情報推定器 [全文訳有]

Discriminative Mutual Information Estimators for Channel Capacity Learning ( http://arxiv.org/abs/2107.03084v1 )

ライセンス: CC BY-SA 4.0
Nunzio A. Letizia and Andrea M. Tonello(参考訳) チャネル容量は、通信チャネル上で情報を確実に送信できる最大レートを表すため、現代の通信システムの発展において重要な役割を果たす。 それでも、ほとんどのチャネルでは、クローズドフォームのキャパシティ表現を見つけることはオープンな課題である。 これは、チャネル入力と出力の間の相互情報の計算と、チャネル入力における信号分布に関する最大化とを2つ実行する必要があるためである。 本稿では,両タスクについて述べる。 暗黙的な生成モデルに着想を得て,任意の種類のメモリレスチャネルに対して,チャネル容量を自動的に学習する新しい協調フレームワークを提案する。 特に,まず,識別的相互情報推定器(DIME)と呼ばれる,敵対的ネットワークの訓練に一般的に使用される識別器から直接相互情報を推定する手法を開発した。 第2に、判別器をcorticalと呼ばれる協調的チャネル容量学習フレームワークに含め、判別器は依存するチャネルと独立したチャネルの入出力サンプルの区別を学習し、生成器は、判別器が最高の性能を示す最適なチャネル入力分布を生成する。 最後に、協調値関数の特定の選択がチャネル容量推定問題を解くことを実証する。 シミュレーションの結果,提案手法は精度が高いことがわかった。

Channel capacity plays a crucial role in the development of modern communication systems as it represents the maximum rate at which information can be reliably transmitted over a communication channel. Nevertheless, for the majority of channels, finding a closed-form capacity expression remains an open challenge. This is because it requires to carry out two formidable tasks a) the computation of the mutual information between the channel input and output, and b) its maximization with respect to the signal distribution at the channel input. In this paper, we address both tasks. Inspired by implicit generative models, we propose a novel cooperative framework to automatically learn the channel capacity, for any type of memory-less channel. In particular, we firstly develop a new methodology to estimate the mutual information directly from a discriminator typically deployed to train adversarial networks, referred to as discriminative mutual information estimator (DIME). Secondly, we include the discriminator in a cooperative channel capacity learning framework, referred to as CORTICAL, where a discriminator learns to distinguish between dependent and independent channel input-output samples while a generator learns to produce the optimal channel input distribution for which the discriminator exhibits the best performance. Lastly, we prove that a particular choice of the cooperative value function solves the channel capacity estimation problem. Simulation results demonstrate that the proposed method offers high accuracy.
翻訳日:2021-07-08 21:29:56 公開日:2021-07-07
# (参考訳) MACCIF-TDNN:TDNN話者検証におけるチャンネルとコンテキスト相互依存性の特徴の多面的集約 [全文訳有]

MACCIF-TDNN: Multi aspect aggregation of channel and context interdependence features in TDNN-based speaker verification ( http://arxiv.org/abs/2107.03104v1 )

ライセンス: CC BY 4.0
Fangyuan Wang, Zhigang Song, Hongchen Jiang, Bo Xu(参考訳) 最近の話者検証の最先端結果のほとんどは、Xベクターとその後続の変種によって達成されている。 本稿では,TDNN(Time Delay Neural Network)に基づくマルチアスペクトから,チャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。 まず、SE-Res2BlocksをECAPA-TDNNのように使用し、チャネル間依存性を明示的にモデル化し、チャネル特徴の適応的なキャリブレーションを実現し、従来のTDNN法と比較してより粒度の細かいマルチスケールでローカルコンテキスト特徴を処理する。 次に,Transformerのエンコーダ構造を用いて,発話レベルにおけるグローバルコンテキスト相互依存性の特徴をモデル化し,時間的特性の長期化を図る。 プール層の前に、SE-Res2BlocksとTransformerエンコーダの出力を集約し、それぞれが学習した補完チャネルとコンテキスト相互依存機能を活用する。 最後に、単一の注意統計プーリングを実行する代わりに、複数の側面から特徴を区別できるマルチヘッド方式でプーリングメソッドを拡張することにも有益である。 提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。

Most of the recent state-of-the-art results for speaker verification are achieved by X-vector and its subsequent variants. In this paper, we propose a new network architecture which aggregates the channel and context interdependence features from multi aspect based on Time Delay Neural Network (TDNN). Firstly, we use the SE-Res2Blocks as in ECAPA-TDNN to explicitly model the channel interdependence to realize adaptive calibration of channel features, and process local context features in a multi-scale way at a more granular level compared with conventional TDNN-based methods. Secondly, we explore to use the encoder structure of Transformer to model the global context interdependence features at an utterance level which can capture better long term temporal characteristics. Before the pooling layer, we aggregate the outputs of SE-Res2Blocks and Transformer encoder to leverage the complementary channel and context interdependence features learned by themself respectively. Finally, instead of performing a single attentive statistics pooling, we also find it beneficial to extend the pooling method in a multi-head way which can discriminate features from multiple aspect. The proposed MACCIF-TDNN architecture can outperform most of the state-of-the-art TDNN-based systems on VoxCeleb1 test sets.
翻訳日:2021-07-08 21:08:26 公開日:2021-07-07
# (参考訳) ディープニューラルネットワークを用いたウルドゥーニュースの階層的テキスト分類 [全文訳有]

Hierarchical Text Classification of Urdu News using Deep Neural Network ( http://arxiv.org/abs/2107.03141v1 )

ライセンス: CC BY 4.0
Taimoor Ahmed Javed, Waseem Shahzad, Umair Arshad(参考訳) デジタルテキストはインターネット上で日々増えています。 テキストを整理する情報処理方法の改善を必要とする大規模で異質なデータの集合を分類することは極めて困難である。 コーパスの大規模な分類には、階層構造におけるテキストデータの分類を目的とした階層的テキスト分類を用いるのが一般的である。 テキストの分類にはいくつかのアプローチが提案されているが、ほとんどの研究は英語で行われている。 本稿では,スポーツ,技術,エンタテインメントというジャンルに属する8つのオンラインニュースサイトから51,325文の文を,ウルドゥー語による階層的ニュース分類のための深層学習モデルを提案する。 本論文の目的は,(1)階層型テキスト分類のためのウルドゥー語で人手による注釈付きニュースデータセットを開発すること,(2)階層型多層LSTM(HMLSTM)と呼ばれるLSTM機構に基づいて提案したモデルを用いてウルドゥー語ニュースを階層型に分類することである。 テキスト表現レイヤは、ワード2vec埋め込みを用いて単語をベクトルに変換するテキスト表現と、クラス階層のレベル毎に1つのLSTM層をトレーニングする、エンドツーエンドの完全接続深層LSTMネットワークであるUrdu Hierarchical LSTM Layer(UHLSTML)の2つのモジュールから構成される。 我々は,urdu news dataset for hierarchy text classification (undhtc) という自己作成データセットについて広範な実験を行った。 その結果,提案手法は階層的テキスト分類に非常に有効であり,ベースライン法を大幅に上回り,ディープニューラルモデルと比較して良好な結果を得た。

Digital text is increasing day by day on the internet. It is very challenging to classify a large and heterogeneous collection of data, which require improved information processing methods to organize text. To classify large size of corpus, one common approach is to use hierarchical text classification, which aims to classify textual data in a hierarchical structure. Several approaches have been proposed to tackle classification of text but most of the research has been done on English language. This paper proposes a deep learning model for hierarchical text classification of news in Urdu language - consisting of 51,325 sentences from 8 online news websites belonging to the following genres: Sports; Technology; and Entertainment. The objectives of this paper are twofold: (1) to develop a large human-annotated dataset of news in Urdu language for hierarchical text classification; and (2) to classify Urdu news hierarchically using our proposed model based on LSTM mechanism named as Hierarchical Multi-layer LSTMs (HMLSTM). Our model consists of two modules: Text Representing Layer, for obtaining text representation in which we use Word2vec embedding to transform the words to vector and Urdu Hierarchical LSTM Layer (UHLSTML) an end-to-end fully connected deep LSTMs network to perform automatic feature learning, we train one LSTM layer for each level of the class hierarchy. We have performed extensive experiments on our self created dataset named as Urdu News Dataset for Hierarchical Text Classification (UNDHTC). The result shows that our proposed method is very effective for hierarchical text classification and it outperforms baseline methods significantly and also achieved good results as compare to deep neural model.
翻訳日:2021-07-08 21:00:04 公開日:2021-07-07
# (参考訳) 多領域画像超解像のための深層残留星生成逆ネットワーク [全文訳有]

A Deep Residual Star Generative Adversarial Network for multi-domain Image Super-Resolution ( http://arxiv.org/abs/2107.03145v1 )

ライセンス: CC BY 4.0
Rao Muhammad Umer, Asad Munir, Christian Micheloni(参考訳) 近年,最先端のsingle image super- resolution (sisr) 法の多くが,深層畳み込みニューラルネットワーク (dcnns) を用いて見事な性能を達成している。 既存のSR法は、固定された劣化設定、すなわち、性能が制限されている。 通常、低解像度(LR)画像のバイコビックダウンスケーリング。 しかし、現実の環境では、バイコビックLR、双線形LR、最も近い隣のLR、または実LRとなるLR劣化過程は未知である。 したがって、ほとんどのSR手法は1つのネットワーク内で複数の劣化設定を扱うのに非効率で非効率である。 多重劣化に対処するため、すなわち、 マルチドメイン画像の超解像を参照し、単一モデルのみを用いて複数のLR領域に対してLR画像の超解像を超解像する新鮮でスケーラブルなアプローチである、深層超解像残差StarGAN(SR2*GAN)を提案する。 提案手法は1つのジェネレータと識別器ネットワークでStarGANのようなネットワークトポロジーで訓練される。 定量的・定性的実験における提案手法の有効性を他の最先端手法と比較して実証する。

Recently, most of state-of-the-art single image super-resolution (SISR) methods have attained impressive performance by using deep convolutional neural networks (DCNNs). The existing SR methods have limited performance due to a fixed degradation settings, i.e. usually a bicubic downscaling of low-resolution (LR) image. However, in real-world settings, the LR degradation process is unknown which can be bicubic LR, bilinear LR, nearest-neighbor LR, or real LR. Therefore, most SR methods are ineffective and inefficient in handling more than one degradation settings within a single network. To handle the multiple degradation, i.e. refers to multi-domain image super-resolution, we propose a deep Super-Resolution Residual StarGAN (SR2*GAN), a novel and scalable approach that super-resolves the LR images for the multiple LR domains using only a single model. The proposed scheme is trained in a StarGAN like network topology with a single generator and discriminator networks. We demonstrate the effectiveness of our proposed approach in quantitative and qualitative experiments compared to other state-of-the-art methods.
翻訳日:2021-07-08 20:42:54 公開日:2021-07-07
# (参考訳) ファウショットニューラルテキスト生成のための学習事例選択について [全文訳有]

On Training Instance Selection for Few-Shot Neural Text Generation ( http://arxiv.org/abs/2107.03176v1 )

ライセンス: CC BY 4.0
Ernie Chang, Xiaoyu Shen, Hui-Syuan Yeh, Vera Demberg(参考訳) 大規模な事前学習された言語モデルは、テキスト生成の劇的な改善につながった。 印象的なパフォーマンスは、少数のインスタンス(フェウショット設定)でのみ微調整することで達成できます。 それでも、ほとんどすべての以前の作業は、ごく少数のトレーニングインスタンスを選択するためにランダムサンプリングを適用するだけだ。 選択戦略とそれがモデルのパフォーマンスにどのように影響するかにほとんど注意が払われていない。 本稿では,マイトショットニューラルテキスト生成におけるインスタンス選択のトレーニングについて検討する。 選択決定はラベル付きデータのみに基づいて行われ、ラベル付きコストの予算の下でアノテートすべき最も価値のあるデータポイントを特定する。 少数のトレーニングインスタンスは多種多様で、データ分散全体を表すべきだという直感に基づいて、k-meansクラスタリングを用いた簡単な選択戦略を提案する。 提案手法では,データ対テキスト生成,文書要約,質問生成という3つのテキスト生成タスクにおいて,生成モデルがランダムサンプリングを一貫して上回っていることを示す。 この取り組みが、このほとんど未調査領域にもっと注意を向けることを願っている。

Large-scale pretrained language models have led to dramatic improvements in text generation. Impressive performance can be achieved by finetuning only on a small number of instances (few-shot setting). Nonetheless, almost all previous work simply applies random sampling to select the few-shot training instances. Little to no attention has been paid to the selection strategies and how they would affect model performance. In this work, we present a study on training instance selection in few-shot neural text generation. The selection decision is made based only on the unlabeled data so as to identify the most worthwhile data points that should be annotated under some budget of labeling cost. Based on the intuition that the few-shot training instances should be diverse and representative of the entire data distribution, we propose a simple selection strategy with K-means clustering. We show that even with the naive clustering-based approach, the generation models consistently outperform random sampling on three text generation tasks: data-to-text generation, document summarization and question generation. We hope that this work will call for more attention on this largely unexplored area.
翻訳日:2021-07-08 20:34:10 公開日:2021-07-07
# (参考訳) タイムアウェアな古代中国文訳と推論 [全文訳有]

Time-Aware Ancient Chinese Text Translation and Inference ( http://arxiv.org/abs/2107.03179v1 )

ライセンス: CC BY 4.0
Ernie Chang, Yow-Ting Shiue, Hui-Syuan Yeh, Vera Demberg(参考訳) 本稿では,古代漢文の翻訳に関する課題である,(1)時代差による言語的差異は,品質の悪い翻訳につながり,(2)ほとんどの翻訳では,テキストを理解する上で非常に重要な文脈情報が欠落している,という問題に対処することを目的とする。 この目的のために,過去の翻訳手法を改良し,次のように提案する。 モデルが翻訳と特定の時代の両方を予測するマルチラベル予測タスクとしてタスクを再構成する。 時間的文脈も補助情報として使用されるので,言語的ギャップを埋めるのに有効である。 % 一般化の自然なステップとして、現代中国語の翻訳を軸に多言語出力を生成する。 %) が, 高品質な翻訳出力を生成するためのフレームワークの有効性を実験的に示し, 収集したタスク固有の並列コーパス上でも検証した。 時系列情報にアノテートされた並列コーパス上での枠組みを検証するとともに,品質翻訳出力の生成に実験的に有効性を示す。 将来の研究のために、コードとデータ https://github.com/o rina1123/time-aware- ancient-text-transla tion をリリースします。

In this paper, we aim to address the challenges surrounding the translation of ancient Chinese text: (1) The linguistic gap due to the difference in eras results in translations that are poor in quality, and (2) most translations are missing the contextual information that is often very crucial to understanding the text. To this end, we improve upon past translation techniques by proposing the following: We reframe the task as a multi-label prediction task where the model predicts both the translation and its particular era. We observe that this helps to bridge the linguistic gap as chronological context is also used as auxiliary information. % As a natural step of generalization, we pivot on the modern Chinese translations to generate multilingual outputs. %We show experimentally the efficacy of our framework in producing quality translation outputs and also validate our framework on a collected task-specific parallel corpus. We validate our framework on a parallel corpus annotated with chronology information and show experimentally its efficacy in producing quality translation outputs. We release both the code and the data https://github.com/o rina1123/time-aware- ancient-text-transla tion for future research.
翻訳日:2021-07-08 20:26:30 公開日:2021-07-07
# (参考訳) 航空画像を用いた都市樹種分類 [全文訳有]

Urban Tree Species Classification Using Aerial Imagery ( http://arxiv.org/abs/2107.03182v1 )

ライセンス: CC BY 4.0
Emily Waters, Mahdi Maktabdar Oghaz, Lakshmi Babu Saheer(参考訳) 都市樹は気温の調整、エネルギー消費の削減、都市大気の質の向上、風速の低減、ヒートアイランド効果の緩和に寄与している。 都市木はまた、温室効果ガスの最大の要因である大気中の二酸化炭素を捕獲し貯蔵することで、気候変動の緩和と地球温暖化に重要な役割を果たしている。 航空画像を用いた樹木の自動検出と種分類は,持続的森林管理と都市木管理の強力なツールとなる。 そこで本研究では,まず,google mapの航空画像を用いて都市樹木のラベル付きデータセットを生成するパイプラインを提供するとともに,vggやresnetなどの深層畳み込みニューラルネットワークモデルが,異なるパラメータによる都市樹木の分類問題をどのように扱うかを検討する。 実験結果から,本種の平均精度は6種に対して60%であった。

Urban trees help regulate temperature, reduce energy consumption, improve urban air quality, reduce wind speeds, and mitigating the urban heat island effect. Urban trees also play a key role in climate change mitigation and global warming by capturing and storing atmospheric carbon-dioxide which is the largest contributor to greenhouse gases. Automated tree detection and species classification using aerial imagery can be a powerful tool for sustainable forest and urban tree management. Hence, This study first offers a pipeline for generating labelled dataset of urban trees using Google Map's aerial images and then investigates how state of the art deep Convolutional Neural Network models such as VGG and ResNet handle the classification problem of urban tree aerial images under different parameters. Experimental results show our best model achieves an average accuracy of 60% over 6 tree species.
翻訳日:2021-07-08 20:18:11 公開日:2021-07-07
# (参考訳) 長期短期記憶ネットワークを用いた熱帯サイクロンの強度予測 [全文訳有]

Intensity Prediction of Tropical Cyclones using Long Short-Term Memory Network ( http://arxiv.org/abs/2107.03187v1 )

ライセンス: CC BY 4.0
Koushik Biswas, Sandeep Kumar, Ashish Kumar Pandey(参考訳) 熱帯サイクロンは多様な強度を持ち、強度が十分高い場合、生命や特性が大幅に失われることがある。 したがって、熱帯サイクロンの経時的な強度の予測は極めて重要である。 本研究では, 最大表面持続風速 (msws) を用いて熱帯サイクロンの強度を予測するための, bidirectional long short-term memory network (bilstm) モデルアーキテクチャを提案する。 提案モデルでは,MSWSの高度化(最大72時間)を極めて高精度に予測できる。 1982年から2018年にかけて,北インド洋の熱帯性サイクロンにモデルを適用し,近年の2つの熱帯性サイクロン(ファニとバユ)の性能を確認した。 このモデルは次の3, 12, 24, 36, 48, 60, 72時間のMSWS(結び目)を平均絶対誤差 1.52, 3.66, 5.88, 7.42, 8.96, 10.15, 11.92 で予測する。

Tropical cyclones can be of varied intensity and cause a huge loss of lives and property if the intensity is high enough. Therefore, the prediction of the intensity of tropical cyclones advance in time is of utmost importance. We propose a novel stacked bidirectional long short-term memory network (BiLSTM) based model architecture to predict the intensity of a tropical cyclone in terms of Maximum surface sustained wind speed (MSWS). The proposed model can predict MSWS well advance in time (up to 72 h) with very high accuracy. We have applied the model on tropical cyclones in the North Indian Ocean from 1982 to 2018 and checked its performance on two recent tropical cyclones, namely, Fani and Vayu. The model predicts MSWS (in knots) for the next 3, 12, 24, 36, 48, 60, and 72 hours with a mean absolute error of 1.52, 3.66, 5.88, 7.42, 8.96, 10.15, and 11.92, respectively.
翻訳日:2021-07-08 20:09:34 公開日:2021-07-07
# (参考訳) 任意サロゲート実験からのネスト対物同定 [全文訳有]

Nested Counterfactual Identification from Arbitrary Surrogate Experiments ( http://arxiv.org/abs/2107.03190v1 )

ライセンス: CC BY 4.0
Juan D Correa, Sanghack Lee, Elias Bareinboim(参考訳) Ladder of Causation』では、エージェントが興味を持つ3つの質的な異なるタイプのアクティビティ、すなわち(観察的)観察、行為(インターベンショナル)、想像(数値的)について記述している(Pearl and Mackenzie, 2018)。 因果的階層によって課せられる推論上の課題は、データがシステム内で観察または介入するエージェントによって収集される(第1層と第2層)のに対して、その目標は、実際に何が起きたかとは対照的に、何が起きたかを理解することである。 観察から介入まで、層間推論が許される条件については、確かな理解があるが、反事実量をターゲットにする場合には、結果がやや不足する。 本稿では,観測と実験の任意の組み合わせから,営巣反事実の同定について検討する。 具体的には、ネストされた反ファクトのより明確な定義に基づいて、任意のネストされた反ファクトを非ネスト化されたものにマッピングできる反ファクト的非ネスト定理(CUT)を証明する。 例えば、調停と公平性分析の応用は通常、ネストを必要とする直接的、間接的、刺激的な効果の概念を誘発する。 第2に,観測分布と実験分布の任意の組み合わせから反事実同定を行うための十分かつ必要なグラフィカル条件を提案する。 最後に、ネストした偽物を特定するための効率的かつ完全なアルゴリズムを開発し、クエリの式を返すアルゴリズムの失敗は、それが特定できないことを示唆している。

The Ladder of Causation describes three qualitatively different types of activities an agent may be interested in engaging in, namely, seeing (observational), doing (interventional), and imagining (counterfactual) (Pearl and Mackenzie, 2018). The inferential challenge imposed by the causal hierarchy is that data is collected by an agent observing or intervening in a system (layers 1 and 2), while its goal may be to understand what would have happened had it taken a different course of action, contrary to what factually ended up happening (layer 3). While there exists a solid understanding of the conditions under which cross-layer inferences are allowed from observations to interventions, the results are somewhat scarcer when targeting counterfactual quantities. In this paper, we study the identification of nested counterfactuals from an arbitrary combination of observations and experiments. Specifically, building on a more explicit definition of nested counterfactuals, we prove the counterfactual unnesting theorem (CUT), which allows one to map arbitrary nested counterfactuals to unnested ones. For instance, applications in mediation and fairness analysis usually evoke notions of direct, indirect, and spurious effects, which naturally require nesting. Second, we introduce a sufficient and necessary graphical condition for counterfactual identification from an arbitrary combination of observational and experimental distributions. Lastly, we develop an efficient and complete algorithm for identifying nested counterfactuals; failure of the algorithm returning an expression for a query implies it is not identifiable.
翻訳日:2021-07-08 20:01:10 公開日:2021-07-07
# (参考訳) グラフ化は重要なこと:説明可能なグラフベースのレコメンデーションでアスペクトの意見と評価を活用する [全文訳有]

Graphing else matters: exploiting aspect opinions and ratings in explainable graph-based recommendations ( http://arxiv.org/abs/2107.03226v1 )

ライセンス: CC0 1.0
Iv\'an Cantador, Andr\'es Carvallo, Fernando Diez, Denis Parra(参考訳) ニューラルネットワークの埋め込みの成功は、さまざまな機械学習や情報検索タスクに知識グラフを使うことに対する関心を新たに高めた。 特に、グラフ埋め込みに基づく現在のレコメンデーションメソッドは最先端のパフォーマンスを示している。 これらの手法は一般に遅延評価パターンとコンテンツ特徴を符号化する。 本稿では,従来の研究と異なり,テキストレビューで表現された評価とアスペクトに基づく意見情報を組み合わせたグラフから抽出した埋め込みを活用することを提案する。 次に、AmazonとYelpが6つのドメインで生成したグラフに対して、最先端のグラフ埋め込み技術を適用し、評価し、ベースラインレコメンデータを上回っます。 提案手法は,ユーザから推奨項目に関する側面に基づく意見を活用できる説明を提供するという利点がある。 さらに,類似ユーザの最も好ましくない側面に関する情報を入力グラフの埋め込みから得ることが可能な可視化ダッシュボードにおいて,アスペクト意見を解説として活用した推薦の適用性を示す例を示す。

The success of neural network embeddings has entailed a renewed interest in using knowledge graphs for a wide variety of machine learning and information retrieval tasks. In particular, current recommendation methods based on graph embeddings have shown state-of-the-art performance. These methods commonly encode latent rating patterns and content features. Different from previous work, in this paper, we propose to exploit embeddings extracted from graphs that combine information from ratings and aspect-based opinions expressed in textual reviews. We then adapt and evaluate state-of-the-art graph embedding techniques over graphs generated from Amazon and Yelp reviews on six domains, outperforming baseline recommenders. Our approach has the advantage of providing explanations which leverage aspect-based opinions given by users about recommended items. Furthermore, we also provide examples of the applicability of recommendations utilizing aspect opinions as explanations in a visualization dashboard, which allows obtaining information about the most and least liked aspects of similar users obtained from the embeddings of an input graph.
翻訳日:2021-07-08 19:45:21 公開日:2021-07-07
# (参考訳) ラベルなし衛星画像のためのスケーラブルなデータバランシング [全文訳有]

Scalable Data Balancing for Unlabeled Satellite Imagery ( http://arxiv.org/abs/2107.03227v1 )

ライセンス: CC BY 4.0
Deep Patel, Erin Gao, Anirudh Koul, Siddha Ganju, Meher Anand Kasam(参考訳) データ不均衡は機械学習におけるユビキタスな問題である。 大規模な収集と注釈付きデータセットでは、頻繁なクラスをアンサンプリングし、まれなクラスをオーバーサンプリングすることで、データ不均衡を手作業で緩和するか、インプテーションと拡張技術で計画する。 両方のケースでデータのバランスをとるにはラベルが必要です。 言い換えれば、注釈付きデータだけがバランスをとることができる。 完全な注釈付きデータセットの収集は、特にnasaの35pb地球画像データセットのような大規模衛星システムでは困難である。 nasaの地球画像データセットはラベルされていないが、地球画像の場合の土地と水の分布など、その不均衡についての仮説に依存するデータソースの暗黙的な特性がある。 ラベルなしデータのバランスをとるための新しい反復法を提案する。 本手法は画像ラベルのプロキシとして画像埋め込みを利用してデータのバランスを保ち、最終的にトレーニングされた場合、全体的な精度が向上する。

Data imbalance is a ubiquitous problem in machine learning. In large scale collected and annotated datasets, data imbalance is either mitigated manually by undersampling frequent classes and oversampling rare classes, or planned for with imputation and augmentation techniques. In both cases balancing data requires labels. In other words, only annotated data can be balanced. Collecting fully annotated datasets is challenging, especially for large scale satellite systems such as the unlabeled NASA's 35 PB Earth Imagery dataset. Although the NASA Earth Imagery dataset is unlabeled, there are implicit properties of the data source that we can rely on to hypothesize about its imbalance, such as distribution of land and water in the case of the Earth's imagery. We present a new iterative method to balance unlabeled data. Our method utilizes image embeddings as a proxy for image labels that can be used to balance data, and ultimately when trained increases overall accuracy.
翻訳日:2021-07-08 19:30:09 公開日:2021-07-07
# (参考訳) Pseudo-Evidentiality TrainingによるマルチホップQAのロバスト化 [全文訳有]

Robustifying Multi-hop QA through Pseudo-Evidentiality Training ( http://arxiv.org/abs/2107.03242v1 )

ライセンス: CC BY 4.0
Kyungjae Lee, Seung-won Hwang, Sang-eun Han and Dohyeon Lee(参考訳) 本稿では,正解法を使わずに正解するマルチホップ質問応答モデルのバイアス問題について検討する。 これらのモデルを堅牢化するひとつの方法は、正しい答えだけでなく、正しい推論チェーンで答えることである。 既存の方向はモデルに推論チェーンをアノテートし、高価な追加アノテーションを必要とする。 これとは対照的に,このようなアノテーションを使わずに,解答予測が正しい証拠によって支えられているかどうかを判断する新たなアプローチを提案する。 代わりに、証拠文の有無に関わらず、反事実的な回答信頼の変化を比較して「実証的」な注釈を生成する。 提案手法は,HotpotQAにおける元の集合とチャレンジセットに基づいて検証し,マルチホップ推論において正確かつ堅牢であることを示す。

This paper studies the bias problem of multi-hop question answering models, of answering correctly without correct reasoning. One way to robustify these models is by supervising to not only answer right, but also with right reasoning chains. An existing direction is to annotate reasoning chains to train models, requiring expensive additional annotations. In contrast, we propose a new approach to learn evidentiality, deciding whether the answer prediction is supported by correct evidences, without such annotations. Instead, we compare counterfactual changes in answer confidence with and without evidence sentences, to generate "pseudo-evidentiality " annotations. We validate our proposed model on an original set and challenge set in HotpotQA, showing that our method is accurate and robust in multi-hop reasoning.
翻訳日:2021-07-08 19:26:33 公開日:2021-07-07
# (参考訳) 対人ロバスト性理解におけるラベルの不確かさの取り込み [全文訳有]

Incorporating Label Uncertainty in Understanding Adversarial Robustness ( http://arxiv.org/abs/2107.03250v1 )

ライセンス: CC BY 4.0
Xiao Zhang and David Evans(参考訳) 逆機械学習における基本的な問題は、与えられたタスクに対して堅牢な分類器が存在するかどうかである。 測定の集中度を研究することで,データラベルを考慮せずに,この目標に向けて研究が進められている。 分類タスクに必須なデータラベルを無視するため、標準集中度は分類問題の本質的ロバスト性を完全に特徴づけることができないと主張する。 ラベルの不確かさの新たな定義に基づいて、最先端モデルによって誘導される誤差領域が、ランダムに選択されたサブセットよりもはるかに高いラベルの不確かさを持つことを示した。 この観測は,ラベルの不確実性を考慮した濃度推定アルゴリズムの適用を動機付け,ベンチマーク画像分類問題に対するより正確な固有ロバスト性測定を行う。 さらに,ラベルの不確実性に基づく分類器への禁忌オプションの追加が,モデルのクリーンかつ堅牢な精度の向上に役立つことを示す実証的証拠を提供する。

A fundamental question in adversarial machine learning is whether a robust classifier exists for a given task. A line of research has made progress towards this goal by studying concentration of measure, but without considering data labels. We argue that the standard concentration fails to fully characterize the intrinsic robustness of a classification problem, since it ignores data labels which are essential to any classification task. Building on a novel definition of label uncertainty, we empirically demonstrate that error regions induced by state-of-the-art models tend to have much higher label uncertainty compared with randomly-selected subsets. This observation motivates us to adapt a concentration estimation algorithm to account for label uncertainty, resulting in more accurate intrinsic robustness measures for benchmark image classification problems. We further provide empirical evidence showing that adding an abstain option for classifiers based on label uncertainty can help improve both the clean and robust accuracies of models.
翻訳日:2021-07-08 18:57:51 公開日:2021-07-07
# (参考訳) 議論に基づく結論の対比的説明 [全文訳有]

Contrastive Explanations for Argumentation-Based Conclusions ( http://arxiv.org/abs/2107.03265v1 )

ライセンス: CC BY 4.0
AnneMarie Borg and Floris Bex(参考訳) 本稿では,形式的議論の対比的説明について論じる。ある議論(事実)が受け入れられる理由と,別の議論(フォイル)が様々な拡張に基づく意味論で受け入れられない理由を問う。 議論に基づく結論の説明に関する最近の研究は、議論の(非)受容に対する最小限の説明を提供することに重点を置いている。 しかし、いまだに欠けているのは、対照的な説明の適切な議論に基づく解釈である。 抽象的および構造化された議論における対照的な説明が有意義である条件と、議論が暗黙のうねりを明確化する方法を示す。

In this paper we discuss contrastive explanations for formal argumentation - the question why a certain argument (the fact) can be accepted, whilst another argument (the foil) cannot be accepted under various extension-based semantics. The recent work on explanations for argumentation-based conclusions has mostly focused on providing minimal explanations for the (non-)acceptance of arguments. What is still lacking, however, is a proper argumentation-based interpretation of contrastive explanations. We show under which conditions contrastive explanations in abstract and structured argumentation are meaningful, and how argumentation allows us to make implicit foils explicit.
翻訳日:2021-07-08 18:13:36 公開日:2021-07-07
# (参考訳) 現代オーソグラフィーにおけるフィンランド古文学テキストの書体化 [全文訳有]

Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography ( http://arxiv.org/abs/2107.03266v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar(参考訳) フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。 フィンランドには、古い出版物をデジタル化し、研究用に利用するためのプロジェクトがいくつかある。 しかし、そのようなデータに現代のNLP手法を用いることは大きな課題となる。 本稿では,古文学フィンランド語の現代綴りへの正規化と補間を同時に行う手法を提案する。 我々の最良のモデルは、Agricolaによって書かれたテキストの96.3\%の精度と、他の現代のアウトオブドメインテキストの87.7\%の精度に達する。 このメソッドはzenodoとgithubで自由に利用できます。

Texts written in Old Literary Finnish represent the first literary work ever written in Finnish starting from the 16th century. There have been several projects in Finland that have digitized old publications and made them available for research use. However, using modern NLP methods in such data poses great challenges. In this paper we propose an approach for simultaneously normalizing and lemmatizing Old Literary Finnish into modern spelling. Our best model reaches to 96.3\% accuracy in texts written by Agricola and 87.7\% accuracy in other contemporary out-of-domain text. Our method has been made freely available on Zenodo and Github.
翻訳日:2021-07-08 17:47:14 公開日:2021-07-07
# (参考訳) MD-split+:高次元の局所等角推論 [全文訳有]

MD-split+: Practical Local Conformal Inference in High Dimensions ( http://arxiv.org/abs/2107.03280v1 )

ライセンス: CC BY 4.0
Benjamin LeRoy and David Zhao(参考訳) モデル予測の不確実性の定量化は、単なるポイント予測以上のものを求める実践者にとって共通の目標である。 最小仮定を必要とする不確実性定量化のツールの一つが共形推論であり、ブラックボックスモデルの確率的に妥当な予測領域を作成するのに役立つ。 古典的共形予測は限界有効性しか示さないが、多くの状況では局所的に有効な予測領域が望ましい。 ローカライズされた共形予測を適用する場合、機能空間 x を分割する最善の決定は、まだ未解決の問題である。 本稿では,条件密度推定モデルの局所化モデルの性能に基づいて,Xパーティションを生成する,実用的な局所共形手法MD-split+を提案する。 提案手法は,複雑な実世界データの設定を処理し,高次元入力にスケールする。 我々は, 条件付き等角的推論手法を用いて, 局所的分割が期待される行動と哲学的に整合する方法について論じる。 また,本手法を他の局所共形アプローチと比較した。

Quantifying uncertainty in model predictions is a common goal for practitioners seeking more than just point predictions. One tool for uncertainty quantification that requires minimal assumptions is conformal inference, which can help create probabilistically valid prediction regions for black box models. Classical conformal prediction only provides marginal validity, whereas in many situations locally valid prediction regions are desirable. Deciding how best to partition the feature space X when applying localized conformal prediction is still an open question. We present MD-split+, a practical local conformal approach that creates X partitions based on localized model performance of conditional density estimation models. Our method handles complex real-world data settings where such models may be misspecified, and scales to high-dimensional inputs. We discuss how our local partitions philosophically align with expected behavior from an unattainable conditional conformal inference approach. We also empirically compare our method against other local conformal approaches.
翻訳日:2021-07-08 17:36:21 公開日:2021-07-07
# (参考訳) DORA:効率的なコンテキストをもつタスク指向対話システムのポリシー最適化に向けて [全文訳有]

DORA: Toward Policy Optimization for Task-oriented Dialogue System with Efficient Context ( http://arxiv.org/abs/2107.03286v1 )

ライセンス: CC BY 4.0
Hyunmin Jeon, Gary Geunbae Lee(参考訳) 近年,教師あり学習(SL)の欠点を解決するために潜在動作を用いてタスク指向対話システムに強化学習(RL)を適用している。 本稿では,slを用いたリカレントアクションポリシを最適化する対話システム(dora)と,リカレント対話ポリシを用いた対話システムの最適化にrlを適用したマルチドメインタスク指向対話システムを提案する。 この対話ポリシーは、単語レベルとハイレベルの両方のポリシーとして明示的なシステムアクションを繰り返し生成する。 その結果、対話履歴全体ではなく、効率的なコンテキストを考慮した明示的なシステムアクションポリシーを用いることで、SLとRLの両方のステップにおいて、DORAは明確に最適化されている。 システムアクションは解釈可能かつ制御可能であるが、潜在アクションはそうではない。 DORAはMultiWOZ 2.0で6.6ポイント、MultiWOZ 2.1で10.9ポイント改善した。

Recently, reinforcement learning (RL) has been applied to task-oriented dialogue systems by using latent actions to solve shortcomings of supervised learning (SL). In this paper, we propose a multi-domain task-oriented dialogue system, called Dialogue System with Optimizing a Recurrent Action Policy using Efficient Context (DORA), that uses SL, with subsequently applied RL to optimize dialogue systems using a recurrent dialogue policy. This dialogue policy recurrently generates explicit system actions as a both word-level and high-level policy. As a result, DORA is clearly optimized during both SL and RL steps by using an explicit system action policy that considers an efficient context instead of the entire dialogue history. The system actions are both interpretable and controllable, whereas the latent actions are not. DORA improved the success rate by 6.6 points on MultiWOZ 2.0 and by 10.9 points on MultiWOZ 2.1.
翻訳日:2021-07-08 17:21:20 公開日:2021-07-07
# (参考訳) 未知分布の信頼による予測 [全文訳有]

Predicting with Confidence on Unseen Distributions ( http://arxiv.org/abs/2107.03315v1 )

ライセンス: CC BY 4.0
Devin Guillory, Vaishaal Shankar, Sayna Ebrahimi, Trevor Darrell, Ludwig Schmidt(参考訳) 近年の研究では、トレーニング分布に近いが異なる分布から得られたデータに基づいてモデルを評価する場合、機械学習モデルの性能が著しく異なることが示されている。 その結果,未知分布におけるモデル性能の予測は重要な課題である。 我々の研究は、ドメイン適応と予測の不確実性文学の技法を結びつけ、ラベル付きデータにアクセスすることなく、未知の分布に挑戦するモデルの精度を予測できる。 分布シフトの文脈では、分布距離はモデルの適用や新しい領域の性能向上によく用いられるが、これらの調査では精度推定やその他の予測の不確実性は無視されることが多い。 本稿では,Frechet 距離や最大平均離散度などの分布距離を広範囲に調査することにより,分布シフト時の信頼性評価を導出できないと判断する。 一方,分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。 具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。 $DoC$は、ImageNet-Vid-RobustやImageNet-Renditionデータセットなど、現実的で困難な分散シフトにおいて、予測エラーをほぼ半分(46\%$)削減する。

Recent work has shown that the performance of machine learning models can vary substantially when models are evaluated on data drawn from a distribution that is close to but different from the training distribution. As a result, predicting model performance on unseen distributions is an important challenge. Our work connects techniques from domain adaptation and predictive uncertainty literature, and allows us to predict model accuracy on challenging unseen distributions without access to labeled data. In the context of distribution shift, distributional distances are often used to adapt models and improve their performance on new domains, however accuracy estimation, or other forms of predictive uncertainty, are often neglected in these investigations. Through investigating a wide range of established distributional distances, such as Frechet distance or Maximum Mean Discrepancy, we determine that they fail to induce reliable estimates of performance under distribution shift. On the other hand, we find that the difference of confidences (DoC) of a classifier's predictions successfully estimates the classifier's performance change over a variety of shifts. We specifically investigate the distinction between synthetic and natural distribution shifts and observe that despite its simplicity DoC consistently outperforms other quantifications of distributional difference. $DoC$ reduces predictive error by almost half ($46\%$) on several realistic and challenging distribution shifts, e.g., on the ImageNet-Vid-Robust and ImageNet-Rendition datasets.
翻訳日:2021-07-08 16:45:37 公開日:2021-07-07
# (参考訳) 確率的半非負行列分解--skellamに基づく枠組み [全文訳有]

Probabilistic semi-nonnegative matrix factorization: a Skellam-based framework ( http://arxiv.org/abs/2107.03317v1 )

ライセンス: CC BY-SA 4.0
Benoit Fuentes, Ga\"el Richard(参考訳) 我々は,Skellam-SNMFと呼ばれる半負行列分解(SNMF)に対応する新しい確率モデルを提案する。 先行成分,スケラム分布型隠れ変数,観測データからなる階層的生成モデルである。 2つの推論アルゴリズムが導出される: 最大emph{a reari}推定のための期待最大化(EM)アルゴリズムと、全ベイズ推定のための変分ベイズEM(VBEM)アルゴリズム。 このskellamベースのモデルから、実数値のターゲットデータ$x$と、$\mathcal{d}\left(x\mid\lambda_{0},\lambda_{1}\right)=0\leftrightarrow x=\lambda_{0}-\lambda_{1}$という2つの非負のパラメータ$\lambda_{0}$と$\lambda_{1}$の間の新しい分岐も導入します。 最後に,これらの新しいアルゴリズムについて実験的研究を行い,その動作を解明し,自動クラスタリングのタスクにおいて,実データに対する従来のsnmfアプローチに勝ることを証明する。

We present a new probabilistic model to address semi-nonnegative matrix factorization (SNMF), called Skellam-SNMF. It is a hierarchical generative model consisting of prior components, Skellam-distributed hidden variables and observed data. Two inference algorithms are derived: Expectation-Maximiza tion (EM) algorithm for maximum \emph{a posteriori} estimation and Variational Bayes EM (VBEM) for full Bayesian inference, including the estimation of parameters prior distribution. From this Skellam-based model, we also introduce a new divergence $\mathcal{D}$ between a real-valued target data $x$ and two nonnegative parameters $\lambda_{0}$ and $\lambda_{1}$ such that $\mathcal{D}\left(x\mid\lambda_{0},\lambda_{1}\right)=0\Leftrightarrow x=\lambda_{0}-\lambda_{1}$, which is a generalization of the Kullback-Leibler (KL) divergence. Finally, we conduct experimental studies on those new algorithms in order to understand their behavior and prove that they can outperform the classic SNMF approach on real data in a task of automatic clustering.
翻訳日:2021-07-08 16:25:16 公開日:2021-07-07
# (参考訳) $\ell_2$正規化のアルゴリズムビューと経路追従アルゴリズム

An algorithmic view of $\ell_2$ regularization and some path-following algorithms ( http://arxiv.org/abs/2107.03322v1 )

ライセンス: CC BY 4.0
Yunzhang Zhu and Renxiong Liu(参考訳) 凸損失関数に対する$\ell_2$-regularized Solution pathと通常の微分方程式(ODE)の解との等価性を確立する。 この等価性は、解経路を勾配降下のハイブリッドの流れと見なすことができ、ニュートン法は経験的損失に適用でき、これは信頼領域法と呼ばれる広く使われている最適化手法に類似している。 これは$\ell_2$正規化の興味深いアルゴリズム的なビューを提供し、$\ell_2$正規化解パスは経験的損失の勾配流と似ているという従来の見解とは対照的である。 特に,ホモトピー法の基本アルゴリズムとしてニュートン法と勾配降下法をそれぞれ考慮し,解経路上の近似誤差率を定式化する。 重要なことに、この理論は解経路の任意に小さい部分最適性を保証する格子点を選択するための新しいスキームを提案する。 計算コストの観点からは、解経路全体に対して$\epsilon$-suboptima lityを達成するためには、ニュートン法に必要なニュートンのステップの数は$\mathcal o(\epsilon^{-1/2})$であり、勾配降下法に必要な勾配ステップの数は$\mathcal o\left(\epsilon^{-1} \ln(\epsilon^{-1})\right)である。 最後に,提案する経路追従アルゴリズムの有効性を示す例として,$\ell_2$-regularize d logistic regressionを用いた。

We establish an equivalence between the $\ell_2$-regularized solution path for a convex loss function, and the solution of an ordinary differentiable equation (ODE). Importantly, this equivalence reveals that the solution path can be viewed as the flow of a hybrid of gradient descent and Newton method applying to the empirical loss, which is similar to a widely used optimization technique called trust region method. This provides an interesting algorithmic view of $\ell_2$ regularization, and is in contrast to the conventional view that the $\ell_2$ regularization solution path is similar to the gradient flow of the empirical loss.New path-following algorithms based on homotopy methods and numerical ODE solvers are proposed to numerically approximate the solution path. In particular, we consider respectively Newton method and gradient descent method as the basis algorithm for the homotopy method, and establish their approximation error rates over the solution path. Importantly, our theory suggests novel schemes to choose grid points that guarantee an arbitrarily small suboptimality for the solution path. In terms of computational cost, we prove that in order to achieve an $\epsilon$-suboptima lity for the entire solution path, the number of Newton steps required for the Newton method is $\mathcal O(\epsilon^{-1/2})$, while the number of gradient steps required for the gradient descent method is $\mathcal O\left(\epsilon^{-1} \ln(\epsilon^{-1})\right)$. Finally, we use $\ell_2$-regularized logistic regression as an illustrating example to demonstrate the effectiveness of the proposed path-following algorithms.
翻訳日:2021-07-08 16:00:43 公開日:2021-07-07
# (参考訳) AGD-Autoencoder:脳腫瘍分離用深部畳み込みオートエンコーダ [全文訳有]

AGD-Autoencoder: Attention Gated Deep Convolutional Autoencoder for Brain Tumor Segmentation ( http://arxiv.org/abs/2107.03323v1 )

ライセンス: CC0 1.0
Tim Cvetko(参考訳) 脳腫瘍のセグメンテーションは、医療画像解析において難しい問題である。 エンドポイントは、fmriスクリーニングで脳腫瘍領域を正確に識別するサルエントマスクを生成することである。 本稿では、エッジ検出ユニットとアテンションゲートネットワークの両方を利用して、fMRI画像から局所領域の強調と分割を行う脳腫瘍セグメンテーションのための新しいアテンションゲート(AGモデル)を提案する。 この特徴により、損傷領域(外部組織局在)を明示的に指さし、古典的なコンピュータビジョン技術に従って分類(分類)する必要がなくなる。 AGはディープ畳み込みニューラルネットワーク(CNN)に容易に統合できる。 最小の計算オーバーヘッドが必要であり、AGは感度を著しく向上させる。 注意ゲート機構と併用したエッジ検出器は,0.78のiouに達する十分な脳セグメンテーション手法を提供する。

Brain tumor segmentation is a challenging problem in medical image analysis. The endpoint is to generate the salient masks that accurately identify brain tumor regions in an fMRI screening. In this paper, we propose a novel attention gate (AG model) for brain tumor segmentation that utilizes both the edge detecting unit and the attention gated network to highlight and segment the salient regions from fMRI images. This feature enables us to eliminate the necessity of having to explicitly point towards the damaged area(external tissue localization) and classify(classificat ion) as per classical computer vision techniques. AGs can easily be integrated within the deep convolutional neural networks(CNNs). Minimal computional overhead is required while the AGs increase the sensitivity scores significantly. We show that the edge detector along with an attention gated mechanism provide a sufficient enough method for brain segmentation reaching an IOU of 0.78
翻訳日:2021-07-08 15:59:17 公開日:2021-07-07
# (参考訳) 線形回帰に対する適応型弾性ネットS推定器によるロバスト可変選択と推定

Robust Variable Selection and Estimation Via Adaptive Elastic Net S-Estimators for Linear Regression ( http://arxiv.org/abs/2107.03325v1 )

ライセンス: CC BY 4.0
David Kepplinger(参考訳) 重み付き誤差分布と異常値予測器は高次元回帰問題においてユビキタスであり、適切に対処しなければ統計的解析の妥当性を著しく損なうことができる。 これらの悪条件下でのより信頼性の高い推定のために,変数選択と係数推定を同時に行う新しいロバスト正規化推定器を提案する。 この推定器は適応PENSEと呼ばれ、残差のスケールに関する事前の知識がなく、誤差分布に関するモーメント条件も持たない。 提案した推定器は、非常に重み付き誤差分布や予測器や残余の異常な汚染の下でも信頼性の高い結果を与える。 重要なことは、これらの困難な設定においても適応PENSEによる変数選択は安定である。 シミュレーションおよび実データ集合の数値的研究は, 汚染試料における他の頑健な正規化推定器と比較して, クリーンサンプルにおける古典的正規化推定器と比較して, より優れた有限サンプル性能を示す。

Heavy-tailed error distributions and predictors with anomalous values are ubiquitous in high-dimensional regression problems and can seriously jeopardize the validity of statistical analyses if not properly addressed. For more reliable estimation under these adverse conditions, we propose a new robust regularized estimator for simultaneous variable selection and coefficient estimation. This estimator, called adaptive PENSE, possesses the oracle property without prior knowledge of the scale of the residuals and without any moment conditions on the error distribution. The proposed estimator gives reliable results even under very heavy-tailed error distributions and aberrant contamination in the predictors or residuals. Importantly, even in these challenging settings variable selection by adaptive PENSE remains stable. Numerical studies on simulated and real data sets highlight superior finite-sample performance in a vast range of settings compared to other robust regularized estimators in the case of contaminated samples and competitiveness compared to classical regularized estimators in clean samples.
翻訳日:2021-07-08 15:54:02 公開日:2021-07-07
# (参考訳) 深層ニューラルネットワークの不確実性に関する調査

A Survey of Uncertainty in Deep Neural Networks ( http://arxiv.org/abs/2107.03342v1 )

ライセンス: CC BY 4.0
Jakob Gawlikowski, Cedrique Rovile Njieutcheu Tassi, Mohsin Ali, Jongseok Lee, Matthias Humt, Jianxiang Feng, Anna Kruspe, Rudolph Triebel, Peter Jung, Ribana Roscher, Muhammad Shahzad, Wen Yang, Richard Bamler, Xiao Xiang Zhu(参考訳) その拡大により、ニューラルネットワークの予測に対する信頼性がますます重要になった。 しかし、基礎的なニューラルネットワークは確実な見積を提供せず、過度または不信感に苦しむ。 多くの研究者が、ニューラルネットワークの予測の不確実性を理解し、定量化している。 その結果、異なるタイプの不確実性が特定され、ニューラルネットワークにおける不確実性の測定と定量化のための様々なアプローチが提案されている。 この研究は、ニューラルネットワークにおける不確実性推定の包括的概要を提供し、この分野の最近の進歩をレビューし、現在の課題を強調し、潜在的研究機会を特定する。 これは、ニューラルネットワークにおける不確実性推定に関心のある人に、この分野での事前知識を前提とせずに、幅広い概要と導入を提供することを目的としている。 最も重要な不確実性源を包括的に紹介し、再現可能なモデル不確実性への分離と再現可能なデータ不確実性について述べる。 決定論的ニューラルネットワーク、ベイズニューラルネットワーク、ニューラルネットワークのアンサンブル、テスト時間データ拡張アプローチに基づくこれらの不確実性のモデリングを導入し、これらの分野の異なる分野と最新の発展について論じる。 本稿では,不確実性の尺度,ニューラルネットワークのキャリブレーション手法について検討し,既存のベースラインと実装の概要について述べる。 さまざまな分野における幅広い課題からの異なる例では、実用上の不確実性に関するニーズと課題が示される。 また,現在のミッションクリティカルおよび安全クリティカルな現実世界の応用方法の実用的限界について論じ,そのような手法を広く活用するための次のステップを展望する。

Due to their increasing spread, confidence in neural network predictions became more and more important. However, basic neural networks do not deliver certainty estimates or suffer from over or under confidence. Many researchers have been working on understanding and quantifying uncertainty in a neural network's prediction. As a result, different types and sources of uncertainty have been identified and a variety of approaches to measure and quantify uncertainty in neural networks have been proposed. This work gives a comprehensive overview of uncertainty estimation in neural networks, reviews recent advances in the field, highlights current challenges, and identifies potential research opportunities. It is intended to give anyone interested in uncertainty estimation in neural networks a broad overview and introduction, without presupposing prior knowledge in this field. A comprehensive introduction to the most crucial sources of uncertainty is given and their separation into reducible model uncertainty and not reducible data uncertainty is presented. The modeling of these uncertainties based on deterministic neural networks, Bayesian neural networks, ensemble of neural networks, and test-time data augmentation approaches is introduced and different branches of these fields as well as the latest developments are discussed. For a practical application, we discuss different measures of uncertainty, approaches for the calibration of neural networks and give an overview of existing baselines and implementations. Different examples from the wide spectrum of challenges in different fields give an idea of the needs and challenges regarding uncertainties in practical applications. Additionally, the practical limitations of current methods for mission- and safety-critical real world applications are discussed and an outlook on the next steps towards a broader usage of such methods is given.
翻訳日:2021-07-08 15:53:08 公開日:2021-07-07
# (参考訳) 二階情報の効率的な行列フリー近似と刈り取りと最適化への応用 [全文訳有]

Efficient Matrix-Free Approximations of Second-Order Information, with Applications to Pruning and Optimization ( http://arxiv.org/abs/2107.03356v1 )

ライセンス: CC BY 4.0
Elias Frantar, Eldar Kurtic, Dan Alistarh(参考訳) 損失関数の局所曲率情報を効率的に近似することは、ディープニューラルネットワークの最適化と圧縮の鍵となるツールである。 しかし、既存の2次情報を近似する手法の多くは計算コストやストレージコストが高く、実用性を制限できる。 本研究では,経験的フィッシャー行列によるヘッシアンの古典的な近似のように,ヘッシアンをランク1の行列の和として近似できる場合の逆ヘッシアンベクトル積(ihvps)を推定するための行列フリーな線形時間アプローチについて検討する。 M-FACと呼ばれるフレームワークの一部として、2つの新しいアルゴリズムを提案する: 最初のアルゴリズムはネットワーク圧縮に最適化され、逆 Hessian の任意の要素に対して$O(dm^2)$プリ計算、$O(dm)$計算、$O(dm)$クエリコスト$O(m)$で階数1の行列の和として与えられる場合、次元$d$で IHVPを計算できる。 第2のアルゴリズムは最適化設定を目標とし,最適化ステップのスライディングウィンドウ上で推定される逆ヘシアンと,事前条件付きSGDに必要な勾配方向との間の積の計算を行う。 IHVPの計算に$O(dm + m^2)$と$O(dm + m^3)$を、スライディングウィンドウから勾配を追加したり取り除いたりするためのアルゴリズムを与える。 これら2つのアルゴリズムは、既存の二階法に比べて計算オーバーヘッドの少ないネットワークプルーニングと最適化に最先端の結果をもたらす。 実装は[10]と[18]で利用可能です。

Efficiently approximating local curvature information of the loss function is a key tool for optimization and compression of deep neural networks. Yet, most existing methods to approximate second-order information have high computational or storage costs, which can limit their practicality. In this work, we investigate matrix-free, linear-time approaches for estimating Inverse-Hessian Vector Products (IHVPs) for the case when the Hessian can be approximated as a sum of rank-one matrices, as in the classic approximation of the Hessian by the empirical Fisher matrix. We propose two new algorithms as part of a framework called M-FAC: the first algorithm is tailored towards network compression and can compute the IHVP for dimension $d$, if the Hessian is given as a sum of $m$ rank-one matrices, using $O(dm^2)$ precomputation, $O(dm)$ cost for computing the IHVP, and query cost $O(m)$ for any single element of the inverse Hessian. The second algorithm targets an optimization setting, where we wish to compute the product between the inverse Hessian, estimated over a sliding window of optimization steps, and a given gradient direction, as required for preconditioned SGD. We give an algorithm with cost $O(dm + m^2)$ for computing the IHVP and $O(dm + m^3)$ for adding or removing any gradient from the sliding window. These two algorithms yield state-of-the-art results for network pruning and optimization with lower computational overhead relative to existing second-order methods. Implementations are available at [10] and [18].
翻訳日:2021-07-08 15:51:54 公開日:2021-07-07
# (参考訳) 強制等方性乱流の時空間超解像再構成のための各種深層学習手法の比較研究 [全文訳有]

A comparative study of various Deep Learning techniques for spatio-temporal Super-Resolution reconstruction of Forced Isotropic Turbulent flows ( http://arxiv.org/abs/2107.03361v1 )

ライセンス: CC BY 4.0
T.S.Sachin Venkatesh, Rajat Srivastava, Pratyush Bhatt, Prince Tyagi, Raj Kumar Singh(参考訳) 超解像度は、画像やビデオの解像度をアップスケールし、低解像度データから高忠実度画像の再構成を可能にする革新的な技術である。 本研究では,ESPCN,ESRGAN,TecoGA Nなどの最先端機械学習技術を用いて,低分解能流れ場データから高分解能流れ場を再構築する,空間的・時間的に乱流場の超解像解析を行う。 この研究で使用されるデータセットは、ジョンズホプキンス乱流データベース(JHTDB)の一部である「等方性1024粗い」データセットから抽出される。 超高解像度モデルの実装に必要な計算資源と時間を最小限にするため、事前学習したモデルを活用し、ニーズに合わせて微調整した。 この方法で提示される利点は、通常の単一構造モデルの期待と結果を大きく超える。 これらのモデルによって得られた結果はmse, psnr, sam, vif, scc測定値を用いて比較され, 上述した結果を評価し, 計算能力と出力品質のバランスを求め, 乱流場の空間的および時間的超解像に対する最も正確かつ効率的なモデルを明らかにする。

Super-resolution is an innovative technique that upscales the resolution of an image or a video and thus enables us to reconstruct high-fidelity images from low-resolution data. This study performs super-resolution analysis on turbulent flow fields spatially and temporally using various state-of-the-art machine learning techniques like ESPCN, ESRGAN and TecoGAN to reconstruct high-resolution flow fields from low-resolution flow field data, especially keeping in mind the need for low resource consumption and rapid results production/verificat ion. The dataset used for this study is extracted from the 'isotropic 1024 coarse' dataset which is a part of Johns Hopkins Turbulence Databases (JHTDB). We have utilized pre-trained models and fine tuned them to our needs, so as to minimize the computational resources and the time required for the implementation of the super-resolution models. The advantages presented by this method far exceed the expectations and the outcomes of regular single structure models. The results obtained through these models are then compared using MSE, PSNR, SAM, VIF and SCC metrics in order to evaluate the upscaled results, find the balance between computational power and output quality, and then identify the most accurate and efficient model for spatial and temporal super-resolution of turbulent flow fields.
翻訳日:2021-07-08 15:18:21 公開日:2021-07-07
# (参考訳) オンライン動作検出のための長期短時間変圧器 [全文訳有]

Long Short-Term Transformer for Online Action Detection ( http://arxiv.org/abs/2107.03377v1 )

ライセンス: CC BY 4.0
Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Xia, Zhuowen Tu, Stefano Soatto(参考訳) 本稿では,オンライン行動検出のための時間的モデリングアルゴリズムであるLong Short-term TRansformer(LSTR)を提案する。 LSTRエンコーダは、広範に長い時間枠(例えば、2048の長距離フレーム最大8分)から粗大な歴史的情報を動的に活用できるとともに、短い時間枠(例えば、32の短距離フレーム最大8秒)に焦点を当てたLSTRデコーダにより、進行中のイベントの詳細な特徴をモデル化する。 以前の研究と比較すると、LSTRはよりヒューリスティックなアルゴリズム設計で長い動画を効果的かつ効率的にモデル化する方法を提供する。 LSTRは、既存の最先端のアプローチよりも、標準のオンラインアクション検出ベンチマークTHUMOS'14、TVSeries、HACS Segmentで大幅に改善されている。 広範囲にわたる経験分析により、長期記憶と短期記憶のセットアップとLSTRの設計選択が検証される。

In this paper, we present Long Short-term TRansformer (LSTR), a new temporal modeling algorithm for online action detection, by employing a long- and short-term memories mechanism that is able to model prolonged sequence data. It consists of an LSTR encoder that is capable of dynamically exploiting coarse-scale historical information from an extensively long time window (e.g., 2048 long-range frames of up to 8 minutes), together with an LSTR decoder that focuses on a short time window (e.g., 32 short-range frames of 8 seconds) to model the fine-scale characterization of the ongoing event. Compared to prior work, LSTR provides an effective and efficient method to model long videos with less heuristic algorithm design. LSTR achieves significantly improved results on standard online action detection benchmarks, THUMOS'14, TVSeries, and HACS Segment, over the existing state-of-the-art approaches. Extensive empirical analysis validates the setup of the long- and short-term memories and the design choices of LSTR.
翻訳日:2021-07-08 15:07:28 公開日:2021-07-07
# (参考訳) ニューラルマーク点過程における性能飽和の緩和:アーキテクチャと損失関数 [全文訳有]

Mitigating Performance Saturation in Neural Marked Point Processes: Architectures and Loss Functions ( http://arxiv.org/abs/2107.03354v1 )

ライセンス: CC BY 4.0
Tianbo Li, Tianze Luo, Yiping Ke, Sinno Jialin Pan(参考訳) 分散イベントシーケンスは、実際に一般的に発生する。 最近の研究ラインでは、属性付きイベントシーケンスを扱う従来のツールであるマークポイントプロセスという統計モデルにニューラルネットワークを組み込むことに焦点を当てている。 ニューラルマークポイントプロセスは、確率論的モデルとニューラルネットワークの表現力の良好な解釈性を持っている。 しかし,ネットワークアーキテクチャが複雑化し,規模が大きくなるにつれて,ニューラルマークポイントプロセスの性能が常に向上しているとは限りません。 これは、ニューラルネットワークのマークされた点過程の一般化誤差が、ネットワーク表現能力とモデル仕様の両方によって同時に決定されるためである。 したがって、2つの主要な結論を導き出すことができる: まず、単純なネットワーク構造は、いくつかのケースで複雑なものほどはうまく機能しない; 2つめは、適切な確率的仮定を使用することは、ネットワークの複雑さを改善するのと同じくらい重要である。 本稿では, グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案し, 並列機構により容易に高速化できることを示す。 本研究では,条件付き強度関数に特定の仮定を課すのではなく,時間間隔の分布を直接考慮し,モーメントマッチング機構を用いた比例損失を用いて最適化とモデル選択を提案する。 実験結果から,GCHPはトレーニング時間を大幅に削減でき,時間間確率仮定による確率比損失はモデル性能を大幅に改善できることがわかった。

Attributed event sequences are commonly encountered in practice. A recent research line focuses on incorporating neural networks with the statistical model -- marked point processes, which is the conventional tool for dealing with attributed event sequences. Neural marked point processes possess good interpretability of probabilistic models as well as the representational power of neural networks. However, we find that performance of neural marked point processes is not always increasing as the network architecture becomes more complicated and larger, which is what we call the performance saturation phenomenon. This is due to the fact that the generalization error of neural marked point processes is determined by both the network representational ability and the model specification at the same time. Therefore we can draw two major conclusions: first, simple network structures can perform no worse than complicated ones for some cases; second, using a proper probabilistic assumption is as equally, if not more, important as improving the complexity of the network. Based on this observation, we propose a simple graph-based network structure called GCHP, which utilizes only graph convolutional layers, thus it can be easily accelerated by the parallel mechanism. We directly consider the distribution of interarrival times instead of imposing a specific assumption on the conditional intensity function, and propose to use a likelihood ratio loss with a moment matching mechanism for optimization and model selection. Experimental results show that GCHP can significantly reduce training time and the likelihood ratio loss with interarrival time probability assumptions can greatly improve the model performance.
翻訳日:2021-07-08 14:34:30 公開日:2021-07-07
# 離散状態空間における構造劣化拡散モデル

Structured Denoising Diffusion Models in Discrete State-Spaces ( http://arxiv.org/abs/2107.03006v1 )

ライセンス: Link先を確認
Jacob Austin, Daniel Johnson, Jonathan Ho, Danny Tarlow and Rianne van den Berg(参考訳) denoising diffusion probabilistic models (ddpms) (ho et al。 2020年) は連続状態空間における画像および波形生成に関する印象的な結果を示した。 本稿では,Hoogeboom等の多項拡散モデルを一般化した離散データに対する拡散様生成モデルであるD3PM(Disdisrete Denoising Diffusion Probabilistic Models)を紹介する。 2021年、一様遷移確率を持つ腐敗プロセスを超越することで。 これには連続空間におけるガウス核を模倣する遷移行列、埋め込み空間における最も近い隣人に基づく行列、吸収状態を導入する行列が含まれる。 第3に、拡散モデルと自己回帰モデルとマスクベースの生成モデルとの接続を描くことができる。 遷移行列の選択は、画像およびテキスト領域における結果の改善につながる重要な設計決定であることを示す。 また,変分下界と補助的クロスエントロピー損失を組み合わせた新たな損失関数を導入する。 テキストの場合、このモデルクラスはlm1b上の大きな語彙にスケールしながら、文字レベルのテキスト生成で強い結果を得る。 画像データセットCIFAR-10では,サンプルの品質にアプローチし,連続空間DDPMモデルのログ類似度を超えた。

Denoising diffusion probabilistic models (DDPMs) (Ho et al. 2020) have shown impressive results on image and waveform generation in continuous state spaces. Here, we introduce Discrete Denoising Diffusion Probabilistic Models (D3PMs), diffusion-like generative models for discrete data that generalize the multinomial diffusion model of Hoogeboom et al. 2021, by going beyond corruption processes with uniform transition probabilities. This includes corruption with transition matrices that mimic Gaussian kernels in continuous space, matrices based on nearest neighbors in embedding space, and matrices that introduce absorbing states. The third allows us to draw a connection between diffusion models and autoregressive and mask-based generative models. We show that the choice of transition matrix is an important design decision that leads to improved results in image and text domains. We also introduce a new loss function that combines the variational lower bound with an auxiliary cross entropy loss. For text, this model class achieves strong results on character-level text generation while scaling to large vocabularies on LM1B. On the image dataset CIFAR-10, our models approach the sample quality and exceed the log-likelihood of the continuous-space DDPM model.
翻訳日:2021-07-08 14:18:21 公開日:2021-07-07
# Exact Learning Augmented Naive Bayes Classifier

Exact Learning Augmented Naive Bayes Classifier ( http://arxiv.org/abs/2107.03018v1 )

ライセンス: Link先を確認
Shouta Sugahara and Maomi Ueno(参考訳) 過去の研究では、クラス変数の条件ログ確率(CLL)を最大化して得られたベイズネットワーク(BN)の分類精度が、特徴変数からすると、限界確率(ML)を最大化したものよりも高いことが示されている。 しかし、初期の研究における2つのスコアのパフォーマンスの違いは、正確な学習アルゴリズムではなく近似学習アルゴリズムを使用したことによる可能性がある。 本稿では,BNの分類精度をCLLを用いた近似学習とMLを用いた正確な学習と比較する。 その結果,MLを最大化したBNの分類精度は,CLLを最大化したBNよりも高いことがわかった。 しかし, mlを用いた正確な学習bnsの分類精度は, サンプルサイズが小さく, クラス変数が多数の親を持つ場合, 他の手法に比べて有意に低下することが示された。 そこで本研究では,親のいないクラス変数を確実に保証する,正確な学習支援型ベイズ分類器 (ANB) を提案する。 提案手法は, 正確に学習されたBNと同一のクラス後部を漸近的に推定することを保証する。 比較実験により提案手法の優れた性能を示した。

Earlier studies have shown that classification accuracies of Bayesian networks (BNs) obtained by maximizing the conditional log likelihood (CLL) of a class variable, given the feature variables, were higher than those obtained by maximizing the marginal likelihood (ML). However, differences between the performances of the two scores in the earlier studies may be attributed to the fact that they used approximate learning algorithms, not exact ones. This paper compares the classification accuracies of BNs with approximate learning using CLL to those with exact learning using ML. The results demonstrate that the classification accuracies of BNs obtained by maximizing the ML are higher than those obtained by maximizing the CLL for large data. However, the results also demonstrate that the classification accuracies of exact learning BNs using the ML are much worse than those of other methods when the sample size is small and the class variable has numerous parents. To resolve the problem, we propose an exact learning augmented naive Bayes classifier (ANB), which ensures a class variable with no parents. The proposed method is guaranteed to asymptotically estimate the identical class posterior to that of the exactly learned BN. Comparison experiments demonstrated the superior performance of the proposed method.
翻訳日:2021-07-08 14:18:04 公開日:2021-07-07
# レグレットのないニューラルコンテクスト帯域

Neural Contextual Bandits without Regret ( http://arxiv.org/abs/2107.03144v1 )

ライセンス: Link先を確認
Parnian Kassraie, Andreas Krause(参考訳) コンテキストバンディットは、例えばレコメンダシステムにおいて重要な応用を含む、与えられたサイド情報を与える順序決定のためのリッチなモデルである。 ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅に対する新しいアルゴリズムを提案する。 本稿では,完全連結ネットワークと畳み込みネットワークの両方を考慮して,この一般文脈列の設定における部分線形後悔境界の証明のオープン問題を解く。 そこで本研究では,ニューラルネットワークを用いたバンドイット最適化アルゴリズムであるntk-ucbをまず解析し,ntkの最大情報量である$\gamma_t$(学習の難しさを捉える複雑性パラメータ)を用いてその後悔を限定した。 NTK に対する $\gamma_T$ の有界性は独立な関心事かもしれない。 次に、ニューラルネットワークに基づくアルゴリズムNN-UCBを紹介し、その後悔がNTK-UCBのそれを追跡することを示す。 報酬関数に関する広範な非パラメトリック仮定の下で、我々のアプローチは、$d$が文脈の次元であるような$\tilde{\mathcal{O}}(T^{-1/2d})$ rateで最適ポリシーに収束する。

Contextual bandits are a rich model for sequential decision making given side information, with important applications, e.g., in recommender systems. We propose novel algorithms for contextual bandits harnessing neural networks to approximate the unknown reward function. We resolve the open problem of proving sublinear regret bounds in this setting for general context sequences, considering both fully-connected and convolutional networks. To this end, we first analyze NTK-UCB, a kernelized bandit optimization algorithm employing the Neural Tangent Kernel (NTK), and bound its regret in terms of the NTK maximum information gain $\gamma_T$, a complexity parameter capturing the difficulty of learning. Our bounds on $\gamma_T$ for the NTK may be of independent interest. We then introduce our neural network based algorithm NN-UCB, and show that its regret closely tracks that of NTK-UCB. Under broad non-parametric assumptions about the reward function, our approach converges to the optimal policy at a $\tilde{\mathcal{O}}(T^{-1/2d})$ rate, where $d$ is the dimension of the context.
翻訳日:2021-07-08 14:17:43 公開日:2021-07-07
# kafisto: 確率最適化のためのkalmanフィルタフレームワーク

KaFiStO: A Kalman Filtering Framework for Stochastic Optimization ( http://arxiv.org/abs/2107.03331v1 )

ライセンス: Link先を確認
Aram Davtyan, Sepehr Sameni, Llukman Cerkezi, Givi Meishvilli, Adam Bielski, Paolo Favaro(参考訳) 最適化はしばしば決定論的問題として扱われ、解は勾配降下のような反復的な手順によって見つかる。 しかし、ニューラルネットワークをトレーニングする場合、サンプルのサブセットのランダムな選択により、損失関数は(イテレーション)時間とともに変化する。 このランダム化は最適化問題を確率的な問題に変える。 我々は,この損失を参照の最適化に関して,ノイズの多い観測と見なすことを提案する。 この損失の解釈は、雑音測定から未知のパラメータを推定するために再帰的定式化を設計するため、カルマンフィルタを最適化器として採用することができる。 さらに,未知パラメータの進化に対するカルマンフィルタの動的モデルを用いて,MomentumやAdamのような高度な手法の勾配ダイナミクスを捉えることができることを示す。 この確率最適化手法をKaFiStOと呼ぶ。 KaFiStOは、ニューラルネットワークをトレーニングするための、実装が容易で、スケーラブルで、効率的な方法である。 また、複数のニューラルネットワークアーキテクチャおよびコンピュータビジョンや言語モデリングなどの機械学習タスクにわたる既存の最適化アルゴリズムと同等かそれ以上のパラメータ推定結果が得られることを示す。

Optimization is often cast as a deterministic problem, where the solution is found through some iterative procedure such as gradient descent. However, when training neural networks the loss function changes over (iteration) time due to the randomized selection of a subset of the samples. This randomization turns the optimization problem into a stochastic one. We propose to consider the loss as a noisy observation with respect to some reference optimum. This interpretation of the loss allows us to adopt Kalman filtering as an optimizer, as its recursive formulation is designed to estimate unknown parameters from noisy measurements. Moreover, we show that the Kalman Filter dynamical model for the evolution of the unknown parameters can be used to capture the gradient dynamics of advanced methods such as Momentum and Adam. We call this stochastic optimization method KaFiStO. KaFiStO is an easy to implement, scalable, and efficient method to train neural networks. We show that it also yields parameter estimates that are on par with or better than existing optimization algorithms across several neural network architectures and machine learning tasks, such as computer vision and language modeling.
翻訳日:2021-07-08 14:17:19 公開日:2021-07-07
# 転送学習のための微分可能アーキテクチャpruning

Differentiable Architecture Pruning for Transfer Learning ( http://arxiv.org/abs/2107.03375v1 )

ライセンス: Link先を確認
Nicolo Colombo and Yang Gao(参考訳) 与えられた大規模モデルからサブアーキテクチャを抽出するための勾配に基づく新しいアプローチを提案する。 ネットワークアーキテクチャと対応する重みを区別できない既存のプルーニングメソッドとは対照的に、アーキテクチャプルーニングスキームは、異なるタスクを解決するためにうまく再トレーニングできる、転送可能な新しい構造を生成します。 大規模なデータセットでアーキテクチャをトレーニングすることができるが、新しいタスクでそれらを微調整することのできるデータポイントはごくわずかである。 重みとは無関係に任意に低複雑性のアーキテクチャを学習する新しい勾配に基づくアルゴリズムを定式化する。 既存の大規模ニューラルモデルによって定義された探索空間を前提として,アーキテクチャ探索タスクを複雑性に見合ったサブセット選択問題として再構成し,2温度緩和方式で解く。 理論的収束保証を提供し、実データ上で提案した伝達学習戦略を検証する。

We propose a new gradient-based approach for extracting sub-architectures from a given large model. Contrarily to existing pruning methods, which are unable to disentangle the network architecture and the corresponding weights, our architecture-pruning scheme produces transferable new structures that can be successfully retrained to solve different tasks. We focus on a transfer-learning setup where architectures can be trained on a large data set but very few data points are available for fine-tuning them on new tasks. We define a new gradient-based algorithm that trains architectures of arbitrarily low complexity independently from the attached weights. Given a search space defined by an existing large neural model, we reformulate the architecture search task as a complexity-penalized subset-selection problem and solve it through a two-temperature relaxation scheme. We provide theoretical convergence guarantees and validate the proposed transfer-learning strategy on real data.
翻訳日:2021-07-08 14:17:04 公開日:2021-07-07
# 電子健康記録における非構造化データのニューラル自然言語処理

Neural Natural Language Processing for Unstructured Data in Electronic Health Records: a Review ( http://arxiv.org/abs/2107.02975v1 )

ライセンス: Link先を確認
Irene Li, Jessica Pan, Jeremy Goldwasser, Neha Verma, Wai Pan Wong, Muhammed Yavuz Nuzumlal{\i}, Benjamin Rosand, Yixin Li, Matthew Zhang, David Chang, R. Andrew Taylor, Harlan M. Krumholz and Dragomir Radev(参考訳) 電子健康記録(ehrs)は、患者の医療イベントと観察のデジタルコレクションであり、医療においてユビキタスであり、医療のデリバリー、オペレーション、研究に不可欠である。 この中心的な役割にもかかわらず、EHRは自動処理が困難である。 EHRに格納されている情報のほぼ半分は、構造化されていないテキスト(例)である。 プロバイダノート、オペレーションレポート)と、セカンダリ使用のための大部分が未対応である。 しかし、近年、ニューラルネットワークと自然言語処理(NLP)に対するディープラーニングのアプローチが大幅に進歩し、様々なタスクにおいて従来の統計システムやルールベースのシステムよりも優れています。 本稿では,現在のニューラルネットワークを用いたEHRアプリケーションのためのNLP法について概説する。 我々は,質問応答,表現型,知識グラフ,医療対話,多言語性,解釈可能性など,タスクの幅広い範囲,すなわち分類と予測,単語の埋め込み,抽出,生成,その他のトピックに焦点を当てる。

Electronic health records (EHRs), digital collections of patient healthcare events and observations, are ubiquitous in medicine and critical to healthcare delivery, operations, and research. Despite this central role, EHRs are notoriously difficult to process automatically. Well over half of the information stored within EHRs is in the form of unstructured text (e.g. provider notes, operation reports) and remains largely untapped for secondary use. Recently, however, newer neural network and deep learning approaches to Natural Language Processing (NLP) have made considerable advances, outperforming traditional statistical and rule-based systems on a variety of tasks. In this survey paper, we summarize current neural NLP methods for EHR applications. We focus on a broad scope of tasks, namely, classification and prediction, word embeddings, extraction, generation, and other topics such as question answering, phenotyping, knowledge graphs, medical dialogue, multilinguality, interpretability, etc.
翻訳日:2021-07-08 14:16:49 公開日:2021-07-07
# EchoEA: エンティティ間のエコー情報とエンティティアライメントの関係

EchoEA: Echo Information between Entities and Relations for Entity Alignment ( http://arxiv.org/abs/2107.03054v1 )

ライセンス: Link先を確認
Xueyuan Lin, Haihong E, Wenyu Song, Haoran Luo(参考訳) エンティティアライメント(EA)とは、異なる知識グラフ(KG)から現実世界で同じオブジェクトを参照するエンティティを見つけることである。 複数のソースからKGを自動的に統合する上で重要な役割を果たす。 グラフニューラルネットワーク(GNN)に基づく既存の知識グラフ埋め込み(KGE)手法は,一方向関係情報を用いた実体表現を向上する有望な結果を得た。 さらに、ラベル付きトレーニングデータを要求するためにセミスーパービジョンを導入する方法も増えている。 しかし、(1)不十分な相互作用: 実体と関係の間の相互作用が不十分に利用される。 2)低品質ブートストラッピング: 生成された半教師付きデータは低品質である。 本稿では、エンティティ情報をリレーショナルに拡散し、エンティティにエコーバックするために自己アライメント機構を利用する新しいフレームワークecho entity alignment(echoea)を提案する。 関係表現はエンティティ表現から動的に計算される。 対称的に、次の実体表現は、十分な相互作用を示す関係表現から動的に計算される。 さらに, 属性結合型双方向グローバルフィルタ戦略 (ABGS) を提案し, ブートストラップの改善, 偽サンプルの削減, 高品質なトレーニングデータを生成する。 実世界の3つの言語間データセットの実験結果は、平均で96\%程度安定しており、我々のアプローチは最先端の手法よりも優れているだけでなく、既存のKGE手法にも普遍的で転送可能であることを示している。

Entity alignment (EA) is to discover entities referring to the same object in the real world from different knowledge graphs (KGs). It plays an important role in automatically integrating KGs from multiple sources. Existing knowledge graph embedding (KGE) methods based on Graph Neural Networks (GNNs) have achieved promising results, which enhance entity representation with relation information unidirectionally. Besides, more and more methods introduce semi-supervision to ask for more labeled training data. However, two challenges still exist in these methods: (1) Insufficient interaction: The interaction between entities and relations is insufficiently utilized. (2) Low-quality bootstrapping: The generated semi-supervised data is of low quality. In this paper, we propose a novel framework, Echo Entity Alignment (EchoEA), which leverages self-attention mechanism to spread entity information to relations and echo back to entities. The relation representation is dynamically computed from entity representation. Symmetrically, the next entity representation is dynamically calculated from relation representation, which shows sufficient interaction. Furthermore, we propose attribute-combined bi-directional global-filtered strategy (ABGS) to improve bootstrapping, reduce false samples and generate high-quality training data. The experimental results on three real-world cross-lingual datasets are stable at around 96\% at hits@1 on average, showing that our approach not only significantly outperforms the state-of-the-art methods, but also is universal and transferable for existing KGE methods.
翻訳日:2021-07-08 14:16:33 公開日:2021-07-07
# テキスト分類のためのデータ拡張に関する調査

A Survey on Data Augmentation for Text Classification ( http://arxiv.org/abs/2107.03158v1 )

ライセンス: Link先を確認
Markus Bayer, Marc-Andr\'e Kaufhold, Christian Reuter(参考訳) データ拡張(Data augmentation)は、機械学習のトレーニングデータの変換による人工的な生成であり、機械学習の分野にわたって広く研究されている分野である。 モデルの一般化能力を高めるのに役立つが、目標を正規化することで限られた量のトレーニングデータを克服し、プライバシを保護するために使用されるデータ量を制限することなど、他の多くの課題や問題にも対処できる。 本調査は,データ増補(C1)の目標と適用の正確な記述と,既存の作業のための分類(C2)に基づいて,テキスト分類のためのデータ増補手法について検討し,研究者や実践者に対する簡潔かつ包括的な概要の実現を目的とする。 分類学から派生して,100以上のメソッドを12の異なるグループに分割し,どのメソッドが有望かを示す最先端のリファレンス(C4。 最後に、将来の作業のためのビルディングブロックを構成する研究視点を付与する(C5)。

Data augmentation, the artificial creation of training data for machine learning by transformations, is a widely studied research field across machine learning disciplines. While it is useful for increasing the generalization capabilities of a model, it can also address many other challenges and problems, from overcoming a limited amount of training data over regularizing the objective to limiting the amount data used to protect privacy. Based on a precise description of the goals and applications of data augmentation (C1) and a taxonomy for existing works (C2), this survey is concerned with data augmentation methods for textual classification and aims to achieve a concise and comprehensive overview for researchers and practitioners (C3). Derived from the taxonomy, we divided more than 100 methods into 12 different groupings and provide state-of-the-art references expounding which methods are highly promising (C4). Finally, research perspectives that may constitute a building block for future work are given (C5).
翻訳日:2021-07-08 14:16:09 公開日:2021-07-07
# 心理計測学習を用いた階層的意味セグメンテーション

Hierarchical Semantic Segmentation using Psychometric Learning ( http://arxiv.org/abs/2107.03212v1 )

ライセンス: Link先を確認
Lu Yin, Vlado Menkovski, Shiwei Liu, Mykola Pechenizkiy(参考訳) 画像データの一部に意味を割り当てることが意味的イメージセグメンテーションの目標である。 機械学習手法、特に教師付き学習は、セマンティックセグメンテーションとして定式化された様々なタスクで一般的に使用される。 教師付き学習アプローチにおける大きな課題の1つは、画像データに存在する意味に関して専門家が持つ豊富な知識を表現し、収集することである。 これに対して、通常はラベルの固定セットが指定され、専門家は与えられたラベルで画像のピクセル、パッチ、セグメントに注釈を付ける。 しかし一般に、クラスの集合は画像に存在する豊富な意味情報を完全に捉えていない。 例えば、病理画像などの医用画像では、細胞の様々な部分が病理学者の専門知識に基づいてグループ化され、サブグループ化される。 画像における概念の正確な意味表現を実現するには、アノテーションの知識の完全な深さにアクセスする必要がある。 本研究では,サイコメトリックテストに基づくセグメンテーションアノテーションを専門家から収集する手法を開発した。 本手法は, 画像のセマンティックセグメンテーションを可能にするパッチレベルの画像埋め込みを実現するために, 心理測定テスト手順, アクティブクエリ選択, クエリ拡張, ディープメトリック学習モデルから構成される。 本稿では, 合成画像, 空中画像, 組織像について評価し, 提案手法の有用性を示す。

Assigning meaning to parts of image data is the goal of semantic image segmentation. Machine learning methods, specifically supervised learning is commonly used in a variety of tasks formulated as semantic segmentation. One of the major challenges in the supervised learning approaches is expressing and collecting the rich knowledge that experts have with respect to the meaning present in the image data. Towards this, typically a fixed set of labels is specified and experts are tasked with annotating the pixels, patches or segments in the images with the given labels. In general, however, the set of classes does not fully capture the rich semantic information present in the images. For example, in medical imaging such as histology images, the different parts of cells could be grouped and sub-grouped based on the expertise of the pathologist. To achieve such a precise semantic representation of the concepts in the image, we need access to the full depth of knowledge of the annotator. In this work, we develop a novel approach to collect segmentation annotations from experts based on psychometric testing. Our method consists of the psychometric testing procedure, active query selection, query enhancement, and a deep metric learning model to achieve a patch-level image embedding that allows for semantic segmentation of images. We show the merits of our method with evaluation on the synthetically generated image, aerial image and histology image.
翻訳日:2021-07-08 14:15:51 公開日:2021-07-07
# NLP技術を使用したAndroidセキュリティ: レビュー

Android Security using NLP Techniques: A Review ( http://arxiv.org/abs/2107.03072v1 )

ライセンス: Link先を確認
Sevil Sen and Burcu Can(参考訳) Androidはアタッカーが最もターゲットとするプラットフォームの一つだ。 攻撃者が技術を改善する一方で、静的および動的解析に基づく従来のソリューションも進化している。 アプリケーションコードに加えて、Androidアプリケーションにはいくつかのメタデータがあり、アプリケーションのセキュリティ分析に役立ちます。 従来のアプリケーション配布メカニズムとは異なり、androidアプリケーションはモバイル市場に一元的に配布される。 したがって、アプリケーションパッケージの横には、アプリ開発者やアプリユーザが提供するアプリ情報が含まれています。 テキストデータの処理と理解に使用される自然言語処理(NLP)の進歩とともに、このような有用なテキストデータの提供が可能になったことで、研究者はAndroidセキュリティにおけるNLP技術の使用について調査するに至った。 特に、NLPに基づくセキュリティソリューションは、過去5年間で加速しており、有用であることが証明されている。 本研究は,これらの提案を概観し,今後の研究の方向性を探究するものである。 主に、NLPベースのソリューションを4つのカテゴリに分類される: 記述から行動への忠実さ、記述生成、プライバシー、マルウェア検出。

Android is among the most targeted platform by attackers. While attackers are improving their techniques, traditional solutions based on static and dynamic analysis have been also evolving. In addition to the application code, Android applications have some metadata that could be useful for security analysis of applications. Unlike traditional application distribution mechanisms, Android applications are distributed centrally in mobile markets. Therefore, beside application packages, such markets contain app information provided by app developers and app users. The availability of such useful textual data together with the advancement in Natural Language Processing (NLP) that is used to process and understand textual data has encouraged researchers to investigate the use of NLP techniques in Android security. Especially, security solutions based on NLP have accelerated in the last 5 years and proven to be useful. This study reviews these proposals and aim to explore possible research directions for future studies by presenting state-of-the-art in this domain. We mainly focus on NLP-based solutions under four categories: description-to-behav iour fidelity, description generation, privacy and malware detection.
翻訳日:2021-07-08 14:15:31 公開日:2021-07-07
# 慶喜:GANによる現実的なダンマク生成を目指して

Keiki: Towards Realistic Danmaku Generation via Sequential GANs ( http://arxiv.org/abs/2107.02991v1 )

ライセンス: Link先を確認
Ziqi Wang, Jialin Liu, Georgios N. Yannakakis(参考訳) 検索に基づくプロシーデュラルコンテンツ生成手法が最近,弾道地獄ゲームの自動生成に導入されている。 しかし、検索に基づく手法では、ダンマクのパターンを明示的にモデル化することはほとんどできず、結果のレベルは非現実的に見えることが多い。 本稿では,ダンマクをパラメトリックなシーケンスとして表現し,ダンマクの逐次動作をモデル化する,Keikiという新しいゲームプラットフォームを提案する。 我々は,生成したダンマクの品質を定量化するために,3種類の生成逆ネットワーク(GAN)と3つの指標を用いた。 時系列 GAN と周期空間 GAN は,評価指標,人間設計ダンマクからの逸脱,生成ダンマクの多様性において,異なる競争性能を示した。 ここでは,ゲームにおける時系列コンテンツ生成のための時系列GANの可能性を示す予備実験を行った。

Search-based procedural content generation methods have recently been introduced for the autonomous creation of bullet hell games. Search-based methods, however, can hardly model patterns of danmakus -- the bullet hell shooting entity -- explicitly and the resulting levels often look non-realistic. In this paper, we present a novel bullet hell game platform named Keiki, which allows the representation of danmakus as a parametric sequence which, in turn, can model the sequential behaviours of danmakus. We employ three types of generative adversarial networks (GANs) and test Keiki across three metrics designed to quantify the quality of the generated danmakus. The time-series GAN and periodic spatial GAN show different yet competitive performance in terms of the evaluation metrics adopted, their deviation from human-designed danmakus, and the diversity of generated danmakus. The preliminary experimental studies presented here showcase that potential of time-series GANs for sequential content generation in games.
翻訳日:2021-07-08 14:15:18 公開日:2021-07-07
# RISAN:ロバストなインスタンス特定アテンションネットワーク

RISAN: Robust Instance Specific Abstention Network ( http://arxiv.org/abs/2107.03090v1 )

ライセンス: Link先を確認
Bhavya Kalra, Kulin Shah and Naresh Manwani(参考訳) 本稿では,インスタンス固有のabstain(reject option)バイナリ分類子を学習するための深層アーキテクチャを提案する。 提案手法は,kulin shah と naresh manwani が "online active learning of reject option classificationifiers ", aaai, 2020" で記述した2つのシグモイド損失関数をパフォーマンス尺度として用いる。 二重シグモイドの損失は分類基準で分類される。 また, 二重シグモイド損失の過剰リスクにより, 0-d-1損失の過剰リスクが上界であることが示唆された。 我々は,reject オプション分類器に対する提案アーキテクチャの一般化誤差境界を導出する。 提案手法の有効性を示すため,いくつかの実世界データセットを実験した。 我々は,提案手法が最先端手法に匹敵する性能を発揮するだけでなく,ラベルノイズにも頑健であることを示す。 また、留意決定に対応するネットワークによって学習された重要な特徴を可視化して観察する。

In this paper, we propose deep architectures for learning instance specific abstain (reject option) binary classifiers. The proposed approach uses double sigmoid loss function as described by Kulin Shah and Naresh Manwani in ("Online Active Learning of Reject Option Classifiers", AAAI, 2020), as a performance measure. We show that the double sigmoid loss is classification calibrated. We also show that the excess risk of 0-d-1 loss is upper bounded by the excess risk of double sigmoid loss. We derive the generalization error bounds for the proposed architecture for reject option classifiers. To show the effectiveness of the proposed approach, we experiment with several real world datasets. We observe that the proposed approach not only performs comparable to the state-of-the-art approaches, it is also robust against label noise. We also provide visualizations to observe the important features learned by the network corresponding to the abstaining decision.
翻訳日:2021-07-08 14:15:00 公開日:2021-07-07
# リチウムイオン電池の故障予測のための規則化に基づく連続学習

Regularization-based Continual Learning for Fault Prediction in Lithium-Ion Batteries ( http://arxiv.org/abs/2107.03336v1 )

ライセンス: Link先を確認
Benjamin Maschler, Sophia Tatiyosyan and Michael Weyrich(参考訳) 近年、リチウムイオン電池の使用は、例えば、多くの産業分野の製品に拡大している。 車 電動工具 医療機器 初期の予測とバッテリーの欠陥の堅牢な理解は、これらの分野での製品品質を大幅に向上させる可能性がある。 データ駆動障害予測に対する現在のアプローチは、トレーニングされたプロセスの正確な結果を提供するが、多くの場合、変更に柔軟に適応する能力がない。 運用パラメータや環境パラメータなどです 継続的学習はこのような柔軟性を約束し、以前の学習した知識を新しいタスクに自動適応させることができる。 そこで本稿では,実際のバッテリ摩耗データセットに基づいて実装,評価,比較を行う正則化戦略群と,連続学習アプローチの違いについて述べる。 オンラインの弾性重み強化は最高の結果をもたらすが、すべての検討手法と同様に、その性能はタスク特性やタスクシーケンスに強く依存しているようである。

In recent years, the use of lithium-ion batteries has greatly expanded into products from many industrial sectors, e.g. cars, power tools or medical devices. An early prediction and robust understanding of battery faults could therefore greatly increase product quality in those fields. While current approaches for data-driven fault prediction provide good results on the exact processes they were trained on, they often lack the ability to flexibly adapt to changes, e.g. in operational or environmental parameters. Continual learning promises such flexibility, allowing for an automatic adaption of previously learnt knowledge to new tasks. Therefore, this article discusses different continual learning approaches from the group of regularization strategies, which are implemented, evaluated and compared based on a real battery wear dataset. Online elastic weight consolidation delivers the best results, but, as with all examined approaches, its performance appears to be strongly dependent on task characteristics and task sequence.
翻訳日:2021-07-08 14:14:39 公開日:2021-07-07
# 良条件正規化流れを用いた対数凹面分布の普遍近似

Universal Approximation for Log-concave Distributions using Well-conditioned Normalizing Flows ( http://arxiv.org/abs/2107.02951v1 )

ライセンス: Link先を確認
Holden Lee, Chirag Pabbaraju, Anish Sevekari, Andrej Risteski(参考訳) 正規化フローは、抽出可能な可能性を持つ潜在変数生成モデルの広く使われているクラスである。 affine-coupling (dinh et al, 2014-16) モデルは特に一般的な正規化フローの一種であり、潜在可観測変量変換のヤコビアンは三角形であり、線形時間で計算できる。 アフィンカップリングが広く使われているにもかかわらず、アーキテクチャの特別な構造は、その表現力を理解することを困難にしている。 普遍近似の問題は、最近3つの平行論文(huang et al.,2020;zhang et al.,2020;koehler et al.,2020)によって解決された。 不条件ヤコビアンが確率に基づく訓練の障害となるため、基本的な疑問は残る: どの分布をよく条件付きアフィンカップリングフローを用いて近似することができるか? 本稿では, 良好なアフィン結合流を用いて, 対数凹面分布を近似できることを示す。 証明技法の観点からは、アフィンカップリング・アーキテクチャー、アンダーガムド・ランジュバン・ダイナミクス(ギブス測度からサンプルするためにしばしば用いられる確率微分方程式)とh\'enon写像(シンプレクティック微分同相写像の研究で現れる構造化力学系)の深い関係を解明し、活用する。 我々は入力分布のパッド化バージョンを iid Gaussian と近似する -- Koehler らによる戦略である。 (2020) 条件が良くなると実験的に観測されたが, 理論的根拠は得られなかった。 したがって,本証明は正規化フローの訓練におけるガウスパディングの利点に関する理論的証拠となる。

Normalizing flows are a widely used class of latent-variable generative models with a tractable likelihood. Affine-coupling (Dinh et al, 2014-16) models are a particularly common type of normalizing flows, for which the Jacobian of the latent-to-observable -variable transformation is triangular, allowing the likelihood to be computed in linear time. Despite the widespread usage of affine couplings, the special structure of the architecture makes understanding their representational power challenging. The question of universal approximation was only recently resolved by three parallel papers (Huang et al.,2020;Zhang et al.,2020;Koehler et al.,2020) -- who showed reasonably regular distributions can be approximated arbitrarily well using affine couplings -- albeit with networks with a nearly-singular Jacobian. As ill-conditioned Jacobians are an obstacle for likelihood-based training, the fundamental question remains: which distributions can be approximated using well-conditioned affine coupling flows? In this paper, we show that any log-concave distribution can be approximated using well-conditioned affine-coupling flows. In terms of proof techniques, we uncover and leverage deep connections between affine coupling architectures, underdamped Langevin dynamics (a stochastic differential equation often used to sample from Gibbs measures) and H\'enon maps (a structured dynamical system that appears in the study of symplectic diffeomorphisms). Our results also inform the practice of training affine couplings: we approximate a padded version of the input distribution with iid Gaussians -- a strategy which Koehler et al.(2020) empirically observed to result in better-conditioned flows, but had hitherto no theoretical grounding. Our proof can thus be seen as providing theoretical evidence for the benefits of Gaussian padding when training normalizing flows.
翻訳日:2021-07-08 14:13:50 公開日:2021-07-07
# ガウス過程モデルを用いたグローバル探索と局所探索の併用

Combined Global and Local Search for Optimization with Gaussian Process Models ( http://arxiv.org/abs/2107.03217v1 )

ライセンス: Link先を確認
Qun Meng, Songhao Wang, Szu Hui Ng(参考訳) ガウス過程(GP)モデルに基づく最適化はシミュレーションや機械学習に広く応用されている。 一般論として,まず実応答からのいくつかの観測に基づいてGPモデルを推定し,このモデルを用いて探索を誘導し,グローバルな最適点の探索を高速に行う。 アプリケーションの成功にもかかわらず、幅広い使用を妨げるいくつかの制限がある。 第一に、特に応答関数がマルチモーダルであるか設計空間で大きく異なる場合、正確なGPモデルの構築は困難で計算コストがかかる。 第二に、たとえ適切なモデルであっても、現在のベストソリューションに費やした過度な労力のために、グローバルな最適化に移行する前に、検索プロセスは最適以下の領域に閉じ込められる。 本研究では,最適化フレームワークにおいて,付加的グローバルおよびローカルgp(aglgp)モデルを採用する。 このモデルは誘導点に基づくGPスパース近似に根ざし、異なる領域の独立局所モデルと組み合わせられる。 これらの特性により、AGLGPモデルは比較的大きなデータサイズを持つマルチモーダル応答に適している。 このAGLGPモデルに基づいて,最適化のためのグローバル・ローカル検索(CGLO)アルゴリズムを提案する。 まず、設計空間全体を非結合な局所領域に分割し、グローバルモデルで有望な領域を特定する。 次に、この領域内の詳細な探索をガイドするために、選択された領域の局所モデルが適合する。 アルゴリズムは、よい局所解が見つかると、グローバルステップに切り替える。 CGLOのグローバルおよびローカルの性質は、グローバル検索とローカル検索の両方の利点を享受し、グローバルな最適な場所を効率的に見つけることができる。

Gaussian process (GP) model based optimization is widely applied in simulation and machine learning. In general, it first estimates a GP model based on a few observations from the true response and then employs this model to guide the search, aiming to quickly locate the global optimum. Despite its successful applications, it has several limitations that may hinder its broader usage. First, building an accurate GP model can be difficult and computationally expensive, especially when the response function is multi-modal or varies significantly over the design space. Second, even with an appropriate model, the search process can be trapped in suboptimal regions before moving to the global optimum due to the excessive effort spent around the current best solution. In this work, we adopt the Additive Global and Local GP (AGLGP) model in the optimization framework. The model is rooted in the inducing-points-base d GP sparse approximations and is combined with independent local models in different regions. With these properties, the AGLGP model is suitable for multi-modal responses with relatively large data sizes. Based on this AGLGP model, we propose a Combined Global and Local search for Optimization (CGLO) algorithm. It first divides the whole design space into disjoint local regions and identifies a promising region with the global model. Next, a local model in the selected region is fit to guide detailed search within this region. The algorithm then switches back to the global step when a good local solution is found. The global and local natures of CGLO enable it to enjoy the benefits of both global and local search to efficiently locate the global optimum.
翻訳日:2021-07-08 14:13:15 公開日:2021-07-07
# 3次元メッシュを用いた畳み込みニューラルネットワークによる歯周縁検出

A convolutional neural network for teeth margin detection on 3-dimensional dental meshes ( http://arxiv.org/abs/2107.03030v1 )

ライセンス: Link先を確認
Hu Chen, Hong Li, Bifu Hu, Kenan Ma, Yuchun Sun(参考訳) 本研究では, 3次元メッシュの頂点分類のための畳み込みニューラルネットワークを提案し, 歯のマージン検出に利用した。 隣り合う頂点の特徴の統計値を収集し、畳み込みニューラルネットワークで各頂点の新機能を計算するために拡張層を構築した。 頂点分類ラベルの入力と出力として、座標、曲率、距離を含む頂点特徴を取り出すために、エンドツーエンドのニューラルネットワークが提案された。 拡張層とベースラインネットワークのパラメータが異なるいくつかのネットワーク構造を1156の歯科メッシュを用いて設計・訓練した。 精度、リコール、精度は145のメッシュで検証され、最良のネットワーク構造を評価し、最終的に144のメッシュでテストされた。 拡張層を持つすべてのネットワークはベースラインよりもパフォーマンスが良く、バリデーションデータセットとテストデータセットの両方で0.877の精度を達成しました。

We proposed a convolutional neural network for vertex classification on 3-dimensional dental meshes, and used it to detect teeth margins. An expanding layer was constructed to collect statistic values of neighbor vertex features and compute new features for each vertex with convolutional neural networks. An end-to-end neural network was proposed to take vertex features, including coordinates, curvatures and distance, as input and output each vertex classification label. Several network structures with different parameters of expanding layers and a base line network without expanding layers were designed and trained by 1156 dental meshes. The accuracy, recall and precision were validated on 145 dental meshes to rate the best network structures, which were finally tested on another 144 dental meshes. All networks with our expanding layers performed better than baseline, and the best one achieved an accuracy of 0.877 both on validation dataset and test dataset.
翻訳日:2021-07-08 14:12:53 公開日:2021-07-07
# WeClick:クリック注釈付きビデオセマンティックセマンティックセグメンテーション

WeClick: Weakly-Supervised Video Semantic Segmentation with Click Annotations ( http://arxiv.org/abs/2107.03088v1 )

ライセンス: Link先を確認
Peidong Liu, Zibin He, Xiyu Yan, Yong Jiang, Shutao Xia, Feng Zheng, Maowei Hu(参考訳) 退屈なピクセル毎のマスクアノテートと比較すると、クリックでデータのアノテートがずっと簡単で、画像に数秒しかかからない。 しかし、ビデオセマンティックセグメンテーションモデルを学習するためのクリックの適用については、これまで検討されていない。 本研究では,ワンクリックでセマンティクスクラスのインスタンスをセグメンテーションすることで,手間のかかる注釈処理を省くために,クリックアノテーションを用いたビデオ意味セグメンテーションパイプラインであるweclickを提案する。 詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。 この問題を軽減するため,提案手法では,推定動作により隣接予測を目標フレームに蒸留することにより,無ラベル映像フレームの時間情報(名前メモリフロー)を利用する新たなメモリフロー知識蒸留戦略を考案する。 さらに,モデル圧縮にバニラ知識蒸留を採用する。 この場合、WeClickはトレーニング期間中に低コストのクリックアノテーションでコンパクトなビデオセマンティックセグメンテーションモデルを学ぶが、推論期間中にリアルタイムかつ正確なモデルを達成する。 cityscapesとcamvidによる実験の結果、weclickは最先端のメソッドよりも優れており、ベースラインよりも性能が10.24%向上し、リアルタイム実行を実現している。

Compared with tedious per-pixel mask annotating, it is much easier to annotate data by clicks, which costs only several seconds for an image. However, applying clicks to learn video semantic segmentation model has not been explored before. In this work, we propose an effective weakly-supervised video semantic segmentation pipeline with click annotations, called WeClick, for saving laborious annotating effort by segmenting an instance of the semantic class with only a single click. Since detailed semantic information is not captured by clicks, directly training with click labels leads to poor segmentation predictions. To mitigate this problem, we design a novel memory flow knowledge distillation strategy to exploit temporal information (named memory flow) in abundant unlabeled video frames, by distilling the neighboring predictions to the target frame via estimated motion. Moreover, we adopt vanilla knowledge distillation for model compression. In this case, WeClick learns compact video semantic segmentation models with the low-cost click annotations during the training phase yet achieves real-time and accurate models during the inference period. Experimental results on Cityscapes and Camvid show that WeClick outperforms the state-of-the-art methods, increases performance by 10.24% mIoU than baseline, and achieves real-time execution.
翻訳日:2021-07-08 14:12:39 公開日:2021-07-07
# 深層学習における典型効果の構造的基礎の導入

Introducing the structural bases of typicality effects in deep learning ( http://arxiv.org/abs/2107.03279v1 )

ライセンス: Link先を確認
Omar Vidal Pino, Erickson Rangel Nascimento, Mario Fernando Montenegro Campos(参考訳) 本稿では,ディープラーニングモデルを用いて学習した人工カテゴリーの構造に基づいて,自然意味カテゴリーにおける典型性の程度の影響を仮定する。 自然意味圏を表現する人間のアプローチに動機づけられ,プロトタイプ理論の基礎に基づいて,意味圏の内部構造を表現するための新しい計算プロトタイプモデル(cpm)を提案する。 他のプロトタイプ学習手法とは異なり、我々の数学的フレームワークは、カテゴリ中心の意味意味、オブジェクトのイメージの典型性度、家族との類似性といった抽象的な意味概念をモデル化できる深層ニューラルネットワークを提供するための最初のアプローチを提案している。 我々は,画像分類,大域的意味記述,伝達学習などの画像意味処理タスクにおいて,CPMモデルを評価するための典型的概念に基づくいくつかの手法を提案する。 ImageNet や Coco など,画像データセットの異なる実験では,オブジェクトのカテゴリのセマンティックな表現に対して,抽象化の力でマシンを支援しようとする試みにおいて,我々のアプローチは許容可能な提案である可能性が示唆された。

In this paper, we hypothesize that the effects of the degree of typicality in natural semantic categories can be generated based on the structure of artificial categories learned with deep learning models. Motivated by the human approach to representing natural semantic categories and based on the Prototype Theory foundations, we propose a novel Computational Prototype Model (CPM) to represent the internal structure of semantic categories. Unlike other prototype learning approaches, our mathematical framework proposes a first approach to provide deep neural networks with the ability to model abstract semantic concepts such as category central semantic meaning, typicality degree of an object's image, and family resemblance relationship. We proposed several methodologies based on the typicality's concept to evaluate our CPM-model in image semantic processing tasks such as image classification, a global semantic description, and transfer learning. Our experiments on different image datasets, such as ImageNet and Coco, showed that our approach might be an admissible proposition in the effort to endow machines with greater power of abstraction for the semantic representation of objects' categories.
翻訳日:2021-07-08 14:12:17 公開日:2021-07-07
# 属性強化ジェネレーションのための深部外挿

Deep Extrapolation for Attribute-Enhanced Generation ( http://arxiv.org/abs/2107.02968v1 )

ライセンス: Link先を確認
Alvin Chan, Ali Madani, Ben Krause, Nikhil Naik(参考訳) サンプル生成における属性の補間は、トレーニング分布を超えた深層ニューラルネットワークでは困難である。 我々は,自然言語とタンパク質に着目し,配列生成における新たな外挿タスクを定式化し,学習された潜在空間を通じて属性を強化する生成フレームワークgenhanceを提案する。 映画レビューと計算されたタンパク質安定性データセットで訓練されたgenhanceは、トレーニング中に同様のデータに晒されることなく、強い肯定的なテキストレビューと高度に安定したタンパク質配列を生成することができる。 我々は,生物・化学における生成モデル外挿とデータ駆動設計の研究に寄与するベンチマークタスクとモデルをリリースする。

Attribute extrapolation in sample generation is challenging for deep neural networks operating beyond the training distribution. We formulate a new task for extrapolation in sequence generation, focusing on natural language and proteins, and propose GENhance, a generative framework that enhances attributes through a learned latent space. Trained on movie reviews and a computed protein stability dataset, GENhance can generate strongly-positive text reviews and highly stable protein sequences without being exposed to similar data during training. We release our benchmark tasks and models to contribute to the study of generative modeling extrapolation and data-driven design in biology and chemistry.
翻訳日:2021-07-08 14:11:59 公開日:2021-07-07
# 適応プロセスモデルに基づく自己組織的再構成管理によるインテリジェントディジタル双極子の実現

Enhancing an Intelligent Digital Twin with a Self-organized Reconfiguration Management based on Adaptive Process Models ( http://arxiv.org/abs/2107.03324v1 )

ライセンス: Link先を確認
Timo M\"uller, Benjamin Lindemann, Tobias Jung, Nasser Jazdi, Michael Weyrich(参考訳) 製品ライフサイクルの短縮と生産の個別化の増大は、将来サイバー物理生産システムに支配される産業自動化システムの領域における再構成需要の増加につながる。 しかし、常に変化するシステムでは、ほぼ無限の状態空間の全ての構成代替案が完全に理解されるわけではない。 したがって、特定の構成はプロセスの不安定や品質の低下、機械の故障につながる可能性がある。 そこで本稿では,適応プロセスモデルに基づく自己組織型再構成管理により,より包括的に最適化された構成を求める手法を提案する。

Shorter product life cycles and increasing individualization of production leads to an increased reconfiguration demand in the domain of industrial automation systems, which will be dominated by cyber-physical production systems in the future. In constantly changing systems, however, not all configuration alternatives of the almost infinite state space are fully understood. Thus, certain configurations can lead to process instability, a reduction in quality or machine failures. Therefore, this paper presents an approach that enhances an intelligent Digital Twin with a self-organized reconfiguration management based on adaptive process models in order to find optimized configurations more comprehensively.
翻訳日:2021-07-08 14:11:33 公開日:2021-07-07
# 非無視的不利なシフトに対するテスト

Test for non-negligible adverse shifts ( http://arxiv.org/abs/2107.02990v1 )

ライセンス: Link先を確認
Vathy M. Kamulete(参考訳) データセットシフトの統計的テストは、誤報の影響を受けやすい。それらは、実際に十分なサンプルカバレッジと予測性能がある小さな違いに敏感である。 代わりに、アウトリーチスコアに基づくデータセットシフトテストのための堅牢なフレームワークD-SOSを提案する。 D-SOSは異常なシフトを検出し、良心による誤報を識別する。 これは、新しい(テスト)サンプルが古い(トレーニング)サンプルよりも実質上悪いものではなく、2つのサンプルが等しいことを示唆している。 鍵となる考え方は、観測を外付けスコアに減らし、汚染率を比較することである。 ディストリビューションの比較以外にも、予測パフォーマンスやその他の関連する概念の観点から、より悪い意味を定義することもできる。 本稿では,多種多様な実データとシミュレーションデータに対して,d-sosの有用性と実用性を示す。 均等な分布と適合性の試験とは異なり、D-SOSテストはモデルドリフトとデータセットシフトを監視するための堅牢なパフォーマンス指標として機能するように一意に調整されている。

Statistical tests for dataset shift are susceptible to false alarms: they are sensitive to minor differences where there is in fact adequate sample coverage and predictive performance. We propose instead a robust framework for tests of dataset shift based on outlier scores, D-SOS for short. D-SOS detects adverse shifts and can identify false alarms caused by benign ones. It posits that a new (test) sample is not substantively worse than an old (training) sample, and not that the two are equal. The key idea is to reduce observations to outlier scores and compare contamination rates. Beyond comparing distributions, users can define what worse means in terms of predictive performance and other relevant notions. We show how versatile and practical D-SOS is for a wide range of real and simulated datasets. Unlike tests of equal distribution and of goodness-of-fit, the D-SOS tests are uniquely tailored to serve as robust performance metrics to monitor model drift and dataset shift.
翻訳日:2021-07-08 14:11:11 公開日:2021-07-07
# ディリクレおよびベータ分布以前の共役に対する閉形式近似

A Closed-Form Approximation to the Conjugate Prior of the Dirichlet and Beta Distributions ( http://arxiv.org/abs/2107.03183v1 )

ライセンス: Link先を確認
Kaspar Thommen(参考訳) ディリクレ分布とベータ分布の前に共役を導出し、数値的な例でそれを探索し、分布自身とそのハイパーパラメータとその収束に関する条件を直感的に理解する。 前者の可算性のため、我々は閉形式近似を定義して解析する。 最後に,この近似を実装したアルゴリズムにより,モンテカルロシミュレーションを必要とせず,ジリクレのベイズ共役処理とベータ確率の処理が可能となる。

We derive the conjugate prior of the Dirichlet and beta distributions and explore it with numerical examples to gain an intuitive understanding of the distribution itself, its hyperparameters, and conditions concerning its convergence. Due to the prior's intractability, we proceed to define and analyze a closed-form approximation. Finally, we provide an algorithm implementing this approximation that enables fully tractable Bayesian conjugate treatment of Dirichlet and beta likelihoods without the need for Monte Carlo simulations.
翻訳日:2021-07-08 14:10:58 公開日:2021-07-07
# 特徴解釈と時空間解析を用いた機械学習に基づく沿岸水質予測

Coastal water quality prediction based on machine learning with feature interpretation and spatio-temporal analysis ( http://arxiv.org/abs/2107.03230v1 )

ライセンス: Link先を確認
Luka Grb\v{c}i\'c, Sini\v{s}a Dru\v{z}eta, Goran Mau\v{s}a, Tomislav Lipi\'c, Darija Vuki\'c Lu\v{s}i\'c, Marta Alvir, Ivana Lu\v{c}in, Ante Sikirica, Davor Davidovi\'c, Vanja Trava\v{s}, Daniela Kalafatovi\'c, Kristina Pikelj, Hana Fajkovi\'c and Lado Kranj\v{c}evi\'c(参考訳) 沿岸水質管理は公衆衛生上の問題であり、沿岸水質の悪化は人の健康に危険である病原体を収容することができる。 観光志向の国は、夏季の観光名所で沿岸水の状態を積極的に監視する必要がある。 本研究では,クロアチアのリイェカ市にある15か所の公衆ビーチを対象に,escherichia\ coli$とenterococciの定期的モニタリングデータを用いて,環境パラメータに基づいてレベルを予測する機械学習モデルを構築し,環境ストレスとの関連性について検討した。 勾配ブースティング (catboost, xgboost) , ランダム林, サポートベクター回帰, 人工ニューラルネットを全てのサンプリングサイトから測定し, 環境特性に基づくe.\ coli$およびenterococci値の予測に用いた。 機械学習モデルの10倍クロスバリデーション解析による安定性と一般化性の評価は,xgboost,ランダムフォレスト,サポートベクター回帰,ニューラルネットワークなど他の評価mlアルゴリズムと比較して,それぞれ0.71,0.68のr$^2$値で最高性能を示した。 また、SHapley Additive exPlanations技術を用いて、最も予測力のある特徴を特定し、解釈する。 その結果, 塩分濃度はE.\ Coli$ と enterococci の両方を推定する上で最も重要な特徴であることがわかった。 最後に, 沿岸水質の低い地点において, 両方のMLモデルの空間的および時間的精度について検討した。 スペースは$e。 Coli$およびEnterococciモデルは0.85および0.83の強いR$^2$値、時間モデルは0.74および0.67のR$^2$値を得た。 また, 沿岸水質の高い地点では, 適度なR$^2$値0.44および0.46を達成した。

Coastal water quality management is a public health concern, as poor coastal water quality can harbor pathogens that are dangerous to human health. Tourism-oriented countries need to actively monitor the condition of coastal water at tourist popular sites during the summer season. In this study, routine monitoring data of $Escherichia\ Coli$ and enterococci across 15 public beaches in the city of Rijeka, Croatia, were used to build machine learning models for predicting their levels based on environmental parameters as well as to investigate their relationships with environmental stressors. Gradient Boosting (Catboost, Xgboost), Random Forests, Support Vector Regression and Artificial Neural Networks were trained with measurements from all sampling sites and used to predict $E.\ Coli$ and enterococci values based on environmental features. The evaluation of stability and generalizability with 10-fold cross validation analysis of the machine learning models, showed that the Catboost algorithm performed best with R$^2$ values of 0.71 and 0.68 for predicting $E.\ Coli$ and enterococci, respectively, compared to other evaluated ML algorithms including Xgboost, Random Forests, Support Vector Regression and Artificial Neural Networks. We also use the SHapley Additive exPlanations technique to identify and interpret which features have the most predictive power. The results show that site salinity measured is the most important feature for forecasting both $E.\ Coli$ and enterococci levels. Finally, the spatial and temporal accuracy of both ML models were examined at sites with the lowest coastal water quality. The spatial $E. Coli$ and enterococci models achieved strong R$^2$ values of 0.85 and 0.83, while the temporal models achieved R$^2$ values of 0.74 and 0.67. The temporal model also achieved moderate R$^2$ values of 0.44 and 0.46 at a site with high coastal water quality.
翻訳日:2021-07-08 14:10:47 公開日:2021-07-07
# 胸部X線分類のためのGANに基づくデータ拡張

GAN-based Data Augmentation for Chest X-ray Classification ( http://arxiv.org/abs/2107.02970v1 )

ライセンス: Link先を確認
Shobhita Sundaram and Neha Hulkund(参考訳) コンピュータビジョン、特に医学応用における一般的な問題は、十分な多様性と大規模トレーニングデータの欠如である。 これらのデータセットは、しばしば厳しいクラス不均衡に苦しむ。 その結果、ネットワークはしばしば過剰に適合し、新しい例に一般化できない。 Generative Adversarial Networks (GAN) は、合成データ拡張の新しい方法を提供する。 本研究は,胸部Xpertデータセットを人工的に拡張するために,GANベースのデータ拡張を用いて評価する。 従来の拡張よりもパフォーマンスが向上し,GANベースの拡張により,表現不足のクラスでは下流のパフォーマンスが向上することがわかった。 さらに、この結果は低データレジームで発音される。 これは、データ収集が違法に高価である場合にネットワーク性能を向上させるため、GANベースの拡張が有望な研究領域であることを示唆している。

A common problem in computer vision -- particularly in medical applications -- is a lack of sufficiently diverse, large sets of training data. These datasets often suffer from severe class imbalance. As a result, networks often overfit and are unable to generalize to novel examples. Generative Adversarial Networks (GANs) offer a novel method of synthetic data augmentation. In this work, we evaluate the use of GAN- based data augmentation to artificially expand the CheXpert dataset of chest radiographs. We compare performance to traditional augmentation and find that GAN-based augmentation leads to higher downstream performance for underrepresented classes. Furthermore, we see that this result is pronounced in low data regimens. This suggests that GAN-based augmentation a promising area of research to improve network performance when data collection is prohibitively expensive.
翻訳日:2021-07-08 14:10:00 公開日:2021-07-07
# Samplets: データ圧縮の新しいパラダイム

Samplets: A new paradigm for data compression ( http://arxiv.org/abs/2107.03337v1 )

ライセンス: Link先を確認
Helmut Harbrecht and Michael Multerer(参考訳) 本稿では,Tausch-Whiteウェーブレットの構成をデータ領域に転送することで,新しいサンプルレットの概念を導入する。 これにより,データ圧縮,特異点の検出,適応性を直接実現可能な離散データの多レベル表現が得られる。 カーネルベースの学習やガウス過程の回帰において、カーネル行列を表すためにサンプルを適用すれば、準スパース行列となる。 小さなエントリをしきい値にすることで、これらの行列はO(N log N)関連エントリに圧縮可能である。 この特徴により、圧縮された行列のスパース係数化を得るために、再順序付けを埋め込むことができる。 サンプルレットとその特性の包括的紹介に加えて、アプローチをベンチマークするための広範な数値的研究も提案する。 以上の結果から,サンプルは大規模データセットを解析に利用しやすくするための重要なステップであることが示された。

In this article, we introduce the novel concept of samplets by transferring the construction of Tausch-White wavelets to the realm of data. This way we obtain a multilevel representation of discrete data which directly enables data compression, detection of singularities and adaptivity. Applying samplets to represent kernel matrices, as they arise in kernel based learning or Gaussian process regression, we end up with quasi-sparse matrices. By thresholding small entries, these matrices are compressible to O(N log N) relevant entries, where N is the number of data points. This feature allows for the use of fill-in reducing reorderings to obtain a sparse factorization of the compressed matrices. Besides the comprehensive introduction to samplets and their properties, we present extensive numerical studies to benchmark the approach. Our results demonstrate that samplets mark a considerable step in the direction of making large data sets accessible for analysis.
翻訳日:2021-07-08 14:09:49 公開日:2021-07-07
# MedGPT : 臨床物語からの医療概念予測

MedGPT: Medical Concept Prediction from Clinical Narratives ( http://arxiv.org/abs/2107.03134v1 )

ライセンス: Link先を確認
Zeljko Kraljevic, Anthony Shek, Daniel Bean, Rebecca Bendayan, James Teo, Richard Dobson(参考訳) 電子健康記録(Electronic Health Records, EHRs)にあるデータは、ケアを変換する機会を提供し、一方の患者により良いケアを提供する最善の方法は、他のすべての患者で利用可能なデータから学習することである。 患者の医療歴の時間的モデリングは、過去の出来事のシーケンスを考慮し、新しい障害の診断や、前または既存の障害の合併症などの将来の出来事を予測するのに使うことができる。 ほとんどの予測手法はEHRの構造化データや単一ドメインの予測と結果のサブセットを使用するが、MedGPTは名前付きエンティティ認識とリンクツール(すなわち、名前付きエンティティ認識とリンクツール)を使ったトランスフォーマーベースのパイプラインである。 medcat) ehrsのフリーテキスト部分を構造化し、整理し、将来の医療イベント(当初は障害)を想定する。 EHRデータの大部分はテキスト形式であるため、このようなアプローチは、控えめな追加ノイズを導入しながら、患者の粒度で詳細なビューから恩恵を受ける。 medgptは、ロンドン・キングス・カレッジ病院(英語版)の現実の病院データから上位1, 3, 5の候補疾患を予測する際に、ノイズと粒度の追加を効果的に処理し、0.344, 0.552, 0.640 (vs lstm 0.329, 0.538, 0.633) の精度を達成する(\textasciitilde600k 患者)。 また,本モデルでは,実験的な医療用多選択肢質問応答タスクでテストし,勾配法を用いてモデルの注意点を検討することで,医療知識を捉えていることを示す。

The data available in Electronic Health Records (EHRs) provides the opportunity to transform care, and the best way to provide better care for one patient is through learning from the data available on all other patients. Temporal modelling of a patient's medical history, which takes into account the sequence of past events, can be used to predict future events such as a diagnosis of a new disorder or complication of a previous or existing disorder. While most prediction approaches use mostly the structured data in EHRs or a subset of single-domain predictions and outcomes, we present MedGPT a novel transformer-based pipeline that uses Named Entity Recognition and Linking tools (i.e. MedCAT) to structure and organize the free text portion of EHRs and anticipate a range of future medical events (initially disorders). Since a large portion of EHR data is in text form, such an approach benefits from a granular and detailed view of a patient while introducing modest additional noise. MedGPT effectively deals with the noise and the added granularity, and achieves a precision of 0.344, 0.552 and 0.640 (vs LSTM 0.329, 0.538 and 0.633) when predicting the top 1, 3 and 5 candidate future disorders on real world hospital data from King's College Hospital, London, UK (\textasciitilde600k patients). We also show that our model captures medical knowledge by testing it on an experimental medical multiple choice question answering task, and by examining the attentional focus of the model using gradient-based saliency methods.
翻訳日:2021-07-08 14:09:21 公開日:2021-07-07
# 対話要約に関する調査 : 最近の進歩と新たなフロンティア

A Survey on Dialogue Summarization: Recent Advances and New Frontiers ( http://arxiv.org/abs/2107.03175v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Bing Qin(参考訳) 対話システムと自然言語生成技術の発展に伴い,対話要約の復活は研究の注目を惹きつけ,本来の対話を有能な情報を含む短いバージョンにまとめることを目指している。 しかし、この課題に対する総合的な調査は残っていない。 この目的に向けて第一歩を踏み出し,この研究分野の徹底的なレビューを行う。 具体的には、公開研究データセットの概要、入力対話のドメインによる既存の成果の要約、統一メトリクスによるリーダボードの整理などについて述べる。 さらに,今後の方向性について議論し,考えを述べる。 対話要約の第1回調査は,コミュニティに迅速なアクセスと,この課題の全体像を提供し,今後の研究を動機付けることを願っている。

With the development of dialogue systems and natural language generation techniques, the resurgence of dialogue summarization has attracted significant research attentions, which aims to condense the original dialogue into a shorter version covering salient information. However, there remains a lack of comprehensive survey for this task. To this end, we take the first step and present a thorough review of this research field. In detail, we provide an overview of publicly available research datasets, summarize existing works according to the domain of input dialogue as well as organize leaderboards under unified metrics. Furthermore, we discuss some future directions and give our thoughts. We hope that this first survey of dialogue summarization can provide the community with a quick access and a general picture to this task and motivate future researches.
翻訳日:2021-07-08 14:08:48 公開日:2021-07-07
# E-PixelHop: オブジェクト分類のための強化されたPixelHopメソッド

E-PixelHop: An Enhanced PixelHop Method for Object Classification ( http://arxiv.org/abs/2107.02966v1 )

ライセンス: Link先を確認
Yijing Yang, Vasileios Magoulianitis and C.-C. Jay Kuo(参考訳) 本研究では, 逐次サブスペース学習(SSL)フレームワークを用いて開発されているPixelHopとPixelHop++に基づいて, E-PixelHopと呼ばれるオブジェクト分類のための拡張ソリューションを提案する。 E-PixelHopは以下のステップで構成されている。 まず、カラー画像のカラーチャネルを分離するために、2つの基本部分空間に原則成分分析とRGB3色チャネルを投影し、分類のために別々に処理する。 第2に,マルチスケール機能の重要性に対処するため,各ホップの画素レベル分類を様々な受容場を用いて行う。 第3に,画素レベルの分類精度をさらに向上するため,予測一貫性を確保するための教師付きラベル平滑化(sls)スキームを開発した。 各ホップおよび各カラーサブスペースからの画素レベルの決定は、画像レベルの決定のために融合される。 第5に、さらなるパフォーマンス向上のために混乱したクラスを解決するために、E-PixelHopを2段階パイプラインとして定式化する。 第一段階では、最も高い確率を持つ上位2クラスを混乱クラスと呼ぶ各クラスに対してソフトな決定を下すために、マルチクラス分類が行われる。 次に,第2段階において二項分類を行う。 主な貢献はステップ1、3、5CIFAR-10データセットの分類を例に挙げて、前述のE-PixelHopのキーコンポーネントの有効性を実証する。

Based on PixelHop and PixelHop++, which are recently developed using the successive subspace learning (SSL) framework, we propose an enhanced solution for object classification, called E-PixelHop, in this work. E-PixelHop consists of the following steps. First, to decouple the color channels for a color image, we apply principle component analysis and project RGB three color channels onto two principle subspaces which are processed separately for classification. Second, to address the importance of multi-scale features, we conduct pixel-level classification at each hop with various receptive fields. Third, to further improve pixel-level classification accuracy, we develop a supervised label smoothing (SLS) scheme to ensure prediction consistency. Forth, pixel-level decisions from each hop and from each color subspace are fused together for image-level decision. Fifth, to resolve confusing classes for further performance boosting, we formulate E-PixelHop as a two-stage pipeline. In the first stage, multi-class classification is performed to get a soft decision for each class, where the top 2 classes with the highest probabilities are called confusing classes. Then,we conduct a binary classification in the second stage. The main contributions lie in Steps 1, 3 and 5.We use the classification of the CIFAR-10 dataset as an example to demonstrate the effectiveness of the above-mentioned key components of E-PixelHop.
翻訳日:2021-07-08 14:08:14 公開日:2021-07-07
# 光場からの深度推定のためのエッジ対応双方向拡散

Edge-aware Bidirectional Diffusion for Dense Depth Estimation from Light Fields ( http://arxiv.org/abs/2107.02967v1 )

ライセンス: Link先を確認
Numair Khan, Min H. Kim and James Tompkin(参考訳) 本研究では,光場から深度エッジと勾配のスパースセットを用いて高速かつ正確な深度マップを推定するアルゴリズムを提案する。 提案手法は, 真の深度エッジがテクスチャエッジよりも局所的制約に敏感であるという考えに基づいており, 双方向拡散過程を通じて確実に曖昧にすることができる。 まず、エピポーラ平面画像を用いて、スパース画素集合におけるサブピクセル差を推定する。 スパースポイントを効率よく見つけるために,限定された向き付きフィルタバンクからの線推定に対するエントロピーに基づく改良手法を提案する。 次に、スパース点から離れた拡散方向を推定するために、この点における制約を双方向拡散法で最適化する。 これにより、エッジがどの面に属しているのかの曖昧さを解消し、テクスチャエッジから深さを確実に分離し、スパースセットをディフュージョンエッジとオクルージョンアウェアの方法で拡散させ、正確な濃密な深さマップを得ることができる。

We present an algorithm to estimate fast and accurate depth maps from light fields via a sparse set of depth edges and gradients. Our proposed approach is based around the idea that true depth edges are more sensitive than texture edges to local constraints, and so they can be reliably disambiguated through a bidirectional diffusion process. First, we use epipolar-plane images to estimate sub-pixel disparity at a sparse set of pixels. To find sparse points efficiently, we propose an entropy-based refinement approach to a line estimate from a limited set of oriented filter banks. Next, to estimate the diffusion direction away from sparse points, we optimize constraints at these points via our bidirectional diffusion method. This resolves the ambiguity of which surface the edge belongs to and reliably separates depth from texture edges, allowing us to diffuse the sparse set in a depth-edge and occlusion-aware manner to obtain accurate dense depth maps.
翻訳日:2021-07-08 14:07:52 公開日:2021-07-07
# VIN:Voxel-based Implicit Network for Joint 3D Object Detection and Segmentation for Lidars

VIN: Voxel-based Implicit Network for Joint 3D Object Detection and Segmentation for Lidars ( http://arxiv.org/abs/2107.02980v1 )

ライセンス: Link先を確認
Yuanxin Zhong, Minghan Zhu, Huei Peng(参考訳) 本稿では3次元物体検出と点雲分割のための統合ニューラルネットワーク構造について述べる。 私たちは、検出ラベルとセグメンテーションラベルの両方からの豊富な監視を活用しています。 さらに,3次元シーンで広く用いられている暗黙の関数とオブジェクト理解に基づいて,単段物体検出器に基づく拡張を提案する。 拡張ブランチは、オブジェクト検出モジュールからの最後の特徴マップを入力として、対応するvoxelセンターの各ポイントに対する意味分布を生成する暗黙の関数を生成する。 大規模な屋外データセットであるnuScenes-lidarseg上で,本構造の性能を実証した。 提案手法は,3dオブジェクト検出とポイントクラウドセグメンテーションの両方において,オブジェクト検出ソリューションに比べて計算負荷の少ない,最先端の手法と競合する結果を得る。 また,提案手法のセマンティックセグメンテーションを効果的に制御する能力についても実験により検証した。

A unified neural network structure is presented for joint 3D object detection and point cloud segmentation in this paper. We leverage rich supervision from both detection and segmentation labels rather than using just one of them. In addition, an extension based on single-stage object detectors is proposed based on the implicit function widely used in 3D scene and object understanding. The extension branch takes the final feature map from the object detection module as input, and produces an implicit function that generates semantic distribution for each point for its corresponding voxel center. We demonstrated the performance of our structure on nuScenes-lidarseg, a large-scale outdoor dataset. Our solution achieves competitive results against state-of-the-art methods in both 3D object detection and point cloud segmentation with little additional computation load compared with object detection solutions. The capability of efficient weakly supervision semantic segmentation of the proposed method is also validated by experiments.
翻訳日:2021-07-08 14:07:33 公開日:2021-07-07
# ビジュアルトラッキングのための深部畳み込み相関反復粒子フィルタ

Deep Convolutional Correlation Iterative Particle Filter for Visual Tracking ( http://arxiv.org/abs/2107.02984v1 )

ライセンス: Link先を確認
Reza Jalil Mozhdehi and Henry Medeiros(参考訳) 本研究では,反復的粒子フィルタ,深部畳み込みニューラルネットワーク,相関フィルタを統合した視覚追跡のための新しいフレームワークを提案する。 反復粒子フィルタは、粒子の自己補正と正しい目標位置への収束を可能にする。 k-meansクラスタリングを適用することで,反復後の粒子の可能性を評価するための新しい手法を用いる。 このアプローチは後方分布に対する一貫した支持を確保する。 したがって,ビデオフレーム毎に再サンプリングを行う必要はなく,先行配信情報の利用性が向上する。 2つの異なるベンチマークデータセットの実験結果は、トラッカーが最先端の手法に対して好適に動作することを示している。

This work proposes a novel framework for visual tracking based on the integration of an iterative particle filter, a deep convolutional neural network, and a correlation filter. The iterative particle filter enables the particles to correct themselves and converge to the correct target position. We employ a novel strategy to assess the likelihood of the particles after the iterations by applying K-means clustering. Our approach ensures a consistent support for the posterior distribution. Thus, we do not need to perform resampling at every video frame, improving the utilization of prior distribution information. Experimental results on two different benchmark datasets show that our tracker performs favorably against state-of-the-art methods.
翻訳日:2021-07-08 14:07:19 公開日:2021-07-07
# posern: バイアスフリーマルチビュー3次元ポーズ推定のための2次元ポーズ改善ネットワーク

PoseRN: A 2D pose refinement network for bias-free multi-view 3D human pose estimation ( http://arxiv.org/abs/2107.03000v1 )

ライセンス: Link先を確認
Akihiko Sayo, Diego Thomas, Hiroshi Kawasaki, Yuta Nakashima, Katsushi Ikeuchi(参考訳) 本研究では,推定2次元ポーズにおける人間のバイアスを予測する2次元ポーズ改善ネットワークを提案する。 2次元ポーズ推定には、アノテータの知覚に基づく2次元関節位置のアノテーションとモーションキャプチャ(MoCap)システムで定義されるものの違いによるバイアスがある。 これらのバイアスは2dポーズデータセットとして公開されており、既存のエラー低減アプローチでは削除できない。 提案するポーズリファインメントネットワークにより,推定2次元ポーズにおける人間のバイアスを効率的に除去し,高精度なマルチビュー3次元ポーズ推定を実現する。

We propose a new 2D pose refinement network that learns to predict the human bias in the estimated 2D pose. There are biases in 2D pose estimations that are due to differences between annotations of 2D joint locations based on annotators' perception and those defined by motion capture (MoCap) systems. These biases are crafted into publicly available 2D pose datasets and cannot be removed with existing error reduction approaches. Our proposed pose refinement network allows us to efficiently remove the human bias in the estimated 2D poses and achieve highly accurate multi-view 3D human pose estimation.
翻訳日:2021-07-08 14:07:08 公開日:2021-07-07
# 半教師付きソース仮説伝達のための一貫性と多様性を備えた学習不変表現

Learning Invariant Representation with Consistency and Diversity for Semi-supervised Source Hypothesis Transfer ( http://arxiv.org/abs/2107.03008v1 )

ライセンス: Link先を確認
Xiaodong Wang, Junbao Zhuo, Shuhao Cui, Shuhui Wang(参考訳) semi-supervised domain adaptation (ssda)は、利用可能なソースドメインといくつかのラベル付きターゲットデータから学習した転送可能な情報を利用することで、ターゲットドメインのタスクを解決することを目的としている。 しかし、実際のシナリオでは必ずしもソースデータがアクセスできないため、実際の状況ではSSDAの適用が制限される。 本稿では,SSHT(Semi-supervise d Source hypothesis Transfer)という,ソーストレーニングモデルに基づくドメイン適応を行うタスクを提案する。 SSHT では,(1) ラベル付きデータ不足が決定境界付近の目標特徴と誤分類のリスクを増大させる可能性がある,(2) データは典型的にはソース領域で不均衡であり,これらのデータで訓練されたモデルにはバイアスがある,という2つの課題に直面している。 偏りのあるモデルは、少数カテゴリのサンプルを多数派に分類する傾向があり、予測の多様性が低くなる。 このような課題に対処するため,SSHT の簡易かつ効果的なフレームワークである Consistency and Diversity Learning (CDL) を提案する。 一貫性の正則化の促進は、少数のラベル付き対象データを記憶することが困難となり、学習モデルの一般化能力を高める。 Batch Nuclear-norm Maximizationを我々の手法に統合し、差別性と多様性を高める。 実験の結果,本手法は,DomainNet,Office-Ho me,Office-31データセット上で,既存のSSDA手法や教師なしモデル適応手法よりも優れていた。 コードはhttps://github.com/W ang-xd1899/SSHTで入手できる。

Semi-supervised domain adaptation (SSDA) aims to solve tasks in target domain by utilizing transferable information learned from the available source domain and a few labeled target data. However, source data is not always accessible in practical scenarios, which restricts the application of SSDA in real world circumstances. In this paper, we propose a novel task named Semi-supervised Source Hypothesis Transfer (SSHT), which performs domain adaptation based on source trained model, to generalize well in target domain with a few supervisions. In SSHT, we are facing two challenges: (1) The insufficient labeled target data may result in target features near the decision boundary, with the increased risk of mis-classification; (2) The data are usually imbalanced in source domain, so the model trained with these data is biased. The biased model is prone to categorize samples of minority categories into majority ones, resulting in low prediction diversity. To tackle the above issues, we propose Consistency and Diversity Learning (CDL), a simple but effective framework for SSHT by facilitating prediction consistency between two randomly augmented unlabeled data and maintaining the prediction diversity when adapting model to target domain. Encouraging consistency regularization brings difficulty to memorize the few labeled target data and thus enhances the generalization ability of the learned model. We further integrate Batch Nuclear-norm Maximization into our method to enhance the discriminability and diversity. Experimental results show that our method outperforms existing SSDA methods and unsupervised model adaptation methods on DomainNet, Office-Home and Office-31 datasets. The code is available at https://github.com/W ang-xd1899/SSHT.
翻訳日:2021-07-08 14:06:56 公開日:2021-07-07
# 野生の被験者における標準化データを用いたマルチモーダル影響分析

Multi-modal Affect Analysis using standardized data within subjects in the Wild ( http://arxiv.org/abs/2107.03009v1 )

ライセンス: Link先を確認
Sachihiro Youoku, Takahisa Yamamoto, Junya Saito, Akiyoshi Uchida, Xiaoyu Mi, Ziqiang Shi, Liu Liu, Zhongling Liu(参考訳) 人間の感情認識は、人間とコンピュータの相互作用において重要な要素である。 しかし,Wildデータを用いた手法の開発は,実用化には不十分である。 本稿では,愛着行動分析in-the-wild(abaw)202 1コンテストに提出した表情(exp)とヴァレンス・覚醒計算に着目した感情認識法を提案する。 ビデオから表情を注釈すると、すべての人に共通する特徴だけでなく、個人の時系列の相対的な変化からも判断できると考えた。 そこで,各フレームの共通特徴を学習した後,各ビデオの共通特徴と標準化特徴を組み合わせた時系列データを用いた表情推定モデルと価覚モデルを構築した。 さらに、画像特徴、AU、ヘッドポーズ、ガゼといったマルチモーダルデータを用いて上記の特徴を学習した。 評価セットでは,顔表情スコアが0.546。 これらの検証結果から,提案フレームワークは推定精度とロバスト性を効果的に向上できることがわかった。

Human affective recognition is an important factor in human-computer interaction. However, the method development with in-the-wild data is not yet accurate enough for practical usage. In this paper, we introduce the affective recognition method focusing on facial expression (EXP) and valence-arousal calculation that was submitted to the Affective Behavior Analysis in-the-wild (ABAW) 2021 Contest. When annotating facial expressions from a video, we thought that it would be judged not only from the features common to all people, but also from the relative changes in the time series of individuals. Therefore, after learning the common features for each frame, we constructed a facial expression estimation model and valence-arousal model using time-series data after combining the common features and the standardized features for each video. Furthermore, the above features were learned using multi-modal data such as image features, AU, Head pose, and Gaze. In the validation set, our model achieved a facial expression score of 0.546. These verification results reveal that our proposed framework can improve estimation accuracy and robustness effectively.
翻訳日:2021-07-08 14:06:26 公開日:2021-07-07
# 連続線ワープとボリュームコントラスト最大化を用いたイベントカメラによる視覚計測

Visual Odometry with an Event Camera Using Continuous Ray Warping and Volumetric Contrast Maximization ( http://arxiv.org/abs/2107.03011v1 )

ライセンス: Link先を確認
Yifu Wang, Jiaqi Yang, Xin Peng, Peng Wu, Ling Gao, Kun Huang, Jiaben Chen, Laurent Kneip(参考訳) イベントカメラによるトラッキングとマッピングのための新しいソリューションを提案する。 カメラの動きは回転と変換の両方を含み、変位は任意に構造化された環境で起こる。 その結果、画像マッチングはもはや低次元のホモグラフィック・ワーピングによって表現されなくなり、一般に使用されるワープされた事象のイメージ(iwe)の適用が複雑になる。 コントラストの最大化を3Dで行うことにより,この問題に対する新たな解決策を提案する。 連続時間運動パラメトリゼーションの関数として各イベントに投入される光の3次元位置を円滑に変化させ、体積線密度場のコントラストを最大化することにより最適なパラメータを求める。 そこで本手法は動作と構造に対して共同最適化を行う。 車両搭載イベントカメラによるAGV運動推定と3次元再構成への応用により,本手法の実用的妥当性が裏付けられる。 この手法は通常のカメラで得られた性能に近づき、最終的には難易度の高い視覚条件で優れる。

We present a new solution to tracking and mapping with an event camera. The motion of the camera contains both rotation and translation, and the displacements happen in an arbitrarily structured environment. As a result, the image matching may no longer be represented by a low-dimensional homographic warping, thus complicating an application of the commonly used Image of Warped Events (IWE). We introduce a new solution to this problem by performing contrast maximization in 3D. The 3D location of the rays cast for each event is smoothly varied as a function of a continuous-time motion parametrization, and the optimal parameters are found by maximizing the contrast in a volumetric ray density field. Our method thus performs joint optimization over motion and structure. The practical validity of our approach is supported by an application to AGV motion estimation and 3D reconstruction with a single vehicle-mounted event camera. The method approaches the performance obtained with regular cameras, and eventually outperforms in challenging visual conditions.
翻訳日:2021-07-08 14:06:08 公開日:2021-07-07
# 教師なし人物再識別のためのグループサンプリング

Group Sampling for Unsupervised Person Re-identification ( http://arxiv.org/abs/2107.03024v1 )

ライセンス: Link先を確認
Xumeng Han, Xuehui Yu, Nan Jiang, Guorong Li, Jian Zhao, Qixiang Ye, Zhenjun Han(参考訳) 教師なしの人物再識別(re-ID)は依然として困難な課題であり、分類器と特徴表現はノイズの多い擬似ラベルによって容易に誤認され、過度な適合が悪化する。 本稿では,教師なしリIDモデルにおける偽ラベルの悪影響を軽減するため,グループサンプリング(Group Smpling)と呼ばれるシンプルな手法を提案する。 グループサンプリングの背景にある考え方は、同じミニバッチで同じクラスからサンプルのグループを収集することで、単一のサンプルの効果を緩和しながら、モデルがグループ正規化サンプルでトレーニングされる、というものだ。 グループサンプリングは、サンプルを正しいクラスに分割することを保証することで、擬似ラベル生成のパイプラインを更新する。 グループサンプリングは分類器のトレーニングと表現学習を規則化し、プログレッシブな方法で特徴表現の統計的安定性をもたらす。 Market-1501、DukeMTMC-reID、MSMT17の質的および定量的な実験は、グループのサンプリングが最先端の技術を最大2.2%から6.1%改善することを示している。 コードはhttps://github.com/w avinflaghxm/GroupSam pling.comで入手できる。

Unsupervised person re-identification (re-ID) remains a challenging task, where the classifier and feature representation could be easily misled by the noisy pseudo labels towards deteriorated over-fitting. In this paper, we propose a simple yet effective approach, termed Group Sampling, to alleviate the negative impact of noisy pseudo labels within unsupervised person re-ID models. The idea behind Group Sampling is that it can gather a group of samples from the same class in the same mini-batch, such that the model is trained upon group normalized samples while alleviating the effect of a single sample. Group sampling updates the pipeline of pseudo label generation by guaranteeing the samples to be better divided into the correct classes. Group Sampling regularizes classifier training and representation learning, leading to the statistical stability of feature representation in a progressive fashion. Qualitative and quantitative experiments on Market-1501, DukeMTMC-reID, and MSMT17 show that Grouping Sampling improves the state-of-the-arts by up to 2.2%~6.1%. Code is available at https://github.com/w avinflaghxm/GroupSam pling.
翻訳日:2021-07-08 14:05:53 公開日:2021-07-07
# Blind Image Super-Resolution: 調査とそれ以上

Blind Image Super-Resolution: A Survey and Beyond ( http://arxiv.org/abs/2107.03055v1 )

ライセンス: Link先を確認
Anran Liu, Yihao Liu, Jinjin Gu, Yu Qiao, Chao Dong(参考訳) 未知の劣化を伴う低解像度画像の超解像を目的としたブラインド画像スーパーレゾリューション(sr)は,実世界の応用を促進する上での重要性から注目を集めている。 近年、特に強力なディープラーニング技術を用いて、多くの新しい効果的なソリューションが提案されている。 長年の努力にもかかわらず、依然として挑戦的な研究課題として残っている。 本稿では,ブラインドイメージsrの最近の進歩に関する体系的レビューとして,既存の手法を3つの異なるクラスに分類する分類法を提案する。 この分類は、既存の方法の要約と区別に役立つ。 我々は、現在の研究状況に関する洞察を提供し、探索する価値のある新しい研究の方向性を明らかにすることを望んでいます。 さらに, ブラインド画像SRに関する一般的なデータセットと過去のコンペについて要約する。最後に, 合成画像と実画像の両方を用いて, それらのメリットとデメリットを詳細に分析する手法の比較を行った。

Blind image super-resolution (SR), aiming to super-resolve low-resolution images with unknown degradation, has attracted increasing attention due to its significance in promoting real-world applications. Many novel and effective solutions have been proposed recently, especially with the powerful deep learning techniques. Despite years of efforts, it still remains as a challenging research problem. This paper serves as a systematic review on recent progress in blind image SR, and proposes a taxonomy to categorize existing methods into three different classes according to their ways of degradation modelling and the data used for solving the SR model. This taxonomy helps summarize and distinguish among existing methods. We hope to provide insights into current research states, as well as to reveal novel research directions worth exploring. In addition, we make a summary on commonly used datasets and previous competitions related to blind image SR. Last but not least, a comparison among different methods is provided with detailed analysis on their merits and demerits using both synthetic and real testing images.
翻訳日:2021-07-08 14:05:32 公開日:2021-07-07
# アンカービュー検出と再帰的3次元再構成を用いたビデオカメラ定位

Video-Based Camera Localization Using Anchor View Detection and Recursive 3D Reconstruction ( http://arxiv.org/abs/2107.03068v1 )

ライセンス: Link先を確認
Hajime Taira, Koki Onbe, Naoyuki Miyashita, Masatoshi Okutomi(参考訳) 本稿では,産業部品検査などの困難な産業状況下で捉えた画像列のための新しいカメラローカライゼーション戦略を提案する。 標準的な3次元復元パイプラインを損なう特異な外観に対処するために,特定の位置と大まかに繋がっているシーケンス(アンカーと呼ばれる)のキーフレームを選択することで,シーンの事前知識を活用する。 提案手法は,現在のカメラ位置と周囲の3D構造を提供する拡張3Dモデルを再帰的に更新しながら,時間順で各フレームの位置を求める。 実際の産業状況において,本手法は入力シーケンスの99%以上のフレームをローカライズできるが,標準的なローカライゼーション手法では完全なカメラ軌道を再構築できない。

In this paper we introduce a new camera localization strategy designed for image sequences captured in challenging industrial situations such as industrial parts inspection. To deal with peculiar appearances that hurt standard 3D reconstruction pipeline, we exploit pre-knowledge of the scene by selecting key frames in the sequence (called as anchors) which are roughly connected to a certain location. Our method then seek the location of each frame in time-order, while recursively updating an augmented 3D model which can provide current camera location and surrounding 3D structure. In an experiment on a practical industrial situation, our method can localize over 99% frames in the input sequence, whereas standard localization methods fail to reconstruct a complete camera trajectory.
翻訳日:2021-07-08 14:05:16 公開日:2021-07-07
# 学習スタイセルに基づくインスタンスセグメンテーション

Learning Stixel-based Instance Segmentation ( http://arxiv.org/abs/2107.03070v1 )

ライセンス: Link先を確認
Monty Santarossa, Lukas Schneider, Claudius Zelenka, Lars Schmarje, Reinhard Koch, Uwe Franke(参考訳) ピクセルは、最近インスタンスセグメンテーションを含む、自律運転における幅広い視覚タスクにうまく適用されている。 しかし、画像の粗さのため、これまでは、StixelsはDeep Learningアルゴリズムの入力としてほとんど役に立たず、そのようなアプローチの効用を制限していた。 本稿では、stixel上で直接高速インスタンスセグメンテーションを行う新しい方法であるstixelpointnetを提案する。 ポイントクラウドに似た非構造化データとしてのStixel表現に関して、PointNetのようなアーキテクチャは、Stixelsから機能を学ぶことができる。 我々は、入力画像から関連する画素を抽出する候補インスタンスを提案するために、バウンディングボックス検出器を用いる。 これらのスタイセル上では、pointnetモデルがバイナリセグメンテーションを学習し、最終的な選択ステップでイメージ全体を統一します。 StixelPointNetは、Stixelレベルの最先端性能を実現し、ピクセルベースのセグメンテーション手法よりもかなり高速であり、我々のアプローチでは、Stixelドメインが多くの新しい3Dディープラーニングタスクに導入可能であることを示す。

Stixels have been successfully applied to a wide range of vision tasks in autonomous driving, recently including instance segmentation. However, due to their sparse occurrence in the image, until now Stixels seldomly served as input for Deep Learning algorithms, restricting their utility for such approaches. In this work we present StixelPointNet, a novel method to perform fast instance segmentation directly on Stixels. By regarding the Stixel representation as unstructured data similar to point clouds, architectures like PointNet are able to learn features from Stixels. We use a bounding box detector to propose candidate instances, for which the relevant Stixels are extracted from the input image. On these Stixels, a PointNet models learns binary segmentations, which we then unify throughout the whole image in a final selection step. StixelPointNet achieves state-of-the-art performance on Stixel-level, is considerably faster than pixel-based segmentation methods, and shows that with our approach the Stixel domain can be introduced to many new 3D Deep Learning tasks.
翻訳日:2021-07-08 14:05:03 公開日:2021-07-07
# 人間の視点推定のためのグリーディオフセット誘導キーポイントグループ

Greedy Offset-Guided Keypoint Grouping for Human Pose Estimation ( http://arxiv.org/abs/2107.03098v1 )

ライセンス: Link先を確認
Jia Li, Linhua Xiang, Jiwei Chen, Zengfu Wang(参考訳) 複数人物のポーズ推定問題に対する精度と効率のトレードオフが良好である簡易で信頼性の高いボトムアップ手法を提案する。 画像が与えられると、砂時計網を用いて、異なる人物のすべてのキーポイントを無差別に推測し、同じ人物に属する隣のキーポイントを繋ぐガイドオフセットを行う。 そして、予測された誘導オフセットを利用して、候補のキーポイントを(もしあれば)複数の人間のポーズに群がる。 また、この過程をgreedy offset-guided keypoint grouping (GOG) と呼ぶ。 さらに,マルチパーソンキーポイント座標の符号化復号法を再検討し,精度に影響を及ぼす重要な事実を明らかにする。 導入したコンポーネントによる明らかなパフォーマンス改善が実験によって実証された。 われわれのアプローチは、公正な条件下でのCOCOデータセットに挑戦する技術に匹敵するものだ。 ソースコードとトレーニング済みのモデルは、オンラインで公開されている。

We propose a simple yet reliable bottom-up approach with a good trade-off between accuracy and efficiency for the problem of multi-person pose estimation. Given an image, we employ an Hourglass Network to infer all the keypoints from different persons indiscriminately as well as the guiding offsets connecting the adjacent keypoints belonging to the same persons. Then, we greedily group the candidate keypoints into multiple human poses (if any), utilizing the predicted guiding offsets. And we refer to this process as greedy offset-guided keypoint grouping (GOG). Moreover, we revisit the encoding-decoding method for the multi-person keypoint coordinates and reveal some important facts affecting accuracy. Experiments have demonstrated the obvious performance improvements brought by the introduced components. Our approach is comparable to the state of the art on the challenging COCO dataset under fair conditions. The source code and our pre-trained model are publicly available online.
翻訳日:2021-07-08 14:04:43 公開日:2021-07-07
# GA-NET:ポイントクラウドセマンティックセグメンテーションのためのグローバルアテンションネットワーク

GA-NET: Global Attention Network for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2107.03101v1 )

ライセンス: Link先を確認
Shuang Deng and Qiulei Dong(参考訳) 3Dポイントクラウドから長距離依存関係を学習する方法は、3Dポイントクラウド分析において難しい問題である。 本稿では,ポイント依存のグローバルアテンションモジュールとポイント依存のグローバルアテンションモジュールからなる,ga-netと呼ばれるポイントクラウドセマンティクスセグメンテーションのためのグローバルアテンションネットワークを提案する。 ポイントに依存しないグローバルアテンションモジュールは、単にすべての3Dポイントに対するグローバルアテンションマップを共有する。 点依存グローバルアテンションモジュールにおいて、ランダムにサンプリングされた2つのサブセットのみを用いた新しいランダムなクロスアテンションブロックを利用して、すべての点のコンテキスト情報を学ぶ。 さらに,より識別性の高い特徴を集約するために,線形スキップ接続を置き換える新しい点適応アグリゲーションブロックを設計する。 3次元公開データセットの広範な実験結果から,本手法が最先端の手法を上回っていることが判明した。

How to learn long-range dependencies from 3D point clouds is a challenging problem in 3D point cloud analysis. Addressing this problem, we propose a global attention network for point cloud semantic segmentation, named as GA-Net, consisting of a point-independent global attention module and a point-dependent global attention module for obtaining contextual information of 3D point clouds in this paper. The point-independent global attention module simply shares a global attention map for all 3D points. In the point-dependent global attention module, for each point, a novel random cross attention block using only two randomly sampled subsets is exploited to learn the contextual information of all the points. Additionally, we design a novel point-adaptive aggregation block to replace linear skip connection for aggregating more discriminate features. Extensive experimental results on three 3D public datasets demonstrate that our method outperforms state-of-the-art methods in most cases.
翻訳日:2021-07-08 14:04:31 公開日:2021-07-07
# 回転変換ネットワーク: 分類とセグメンテーションのための視点不変点クラウドの学習

Rotation Transformation Network: Learning View-Invariant Point Cloud for Classification and Segmentation ( http://arxiv.org/abs/2107.03105v1 )

ライセンス: Link先を確認
Shuang Deng, Bo Liu, Qiulei Dong, and Zhanyi Hu(参考訳) 最近の多くの研究は、空間操作モジュールが3Dポイントクラウド分析のためのディープニューラルネットワーク(DNN)の性能を高めることを示している。 本稿では,空間操作モジュールに関する知見を提供することを目的としている。 まず、オブジェクトの回転度(RDF)が小さいほど、これらのオブジェクトはより容易にこれらのDNNによって処理される。 そこで,一般的なT-Netモジュールの効果を調べた結果,オブジェクトのRDFを低減できないことがわかった。 以上の2つの課題に動機づけられ,rtnと呼ばれる点クラウド解析のための回転変換ネットワークを提案し,入力3dオブジェクトのrdfを0。 RTNは、ポイントクラウド分析のために、多くの既存のDNNにシームレスに挿入できる。 3dポイントクラウド分類とセグメンテーションタスクに関する広範囲な実験結果から,rtnは最先端手法の性能を著しく向上できることが示された。

Many recent works show that a spatial manipulation module could boost the performances of deep neural networks (DNNs) for 3D point cloud analysis. In this paper, we aim to provide an insight into spatial manipulation modules. Firstly, we find that the smaller the rotational degree of freedom (RDF) of objects is, the more easily these objects are handled by these DNNs. Then, we investigate the effect of the popular T-Net module and find that it could not reduce the RDF of objects. Motivated by the above two issues, we propose a rotation transformation network for point cloud analysis, called RTN, which could reduce the RDF of input 3D objects to 0. The RTN could be seamlessly inserted into many existing DNNs for point cloud analysis. Extensive experimental results on 3D point cloud classification and segmentation tasks demonstrate that the proposed RTN could improve the performances of several state-of-the-art methods significantly.
翻訳日:2021-07-08 14:04:13 公開日:2021-07-07
# 表情認識のためのスクイーズと励磁を用いた学習視覚トランスフォーマ

Learning Vision Transformer with Squeeze and Excitation for Facial Expression Recognition ( http://arxiv.org/abs/2107.03107v1 )

ライセンス: Link先を確認
Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma, Renaud Seguier(参考訳) 過去数十年間、表情の様々なデータベースがアクセスできるようになったため、顔表情認識(FER)タスクは大きな関心を集めている。 利用可能なデータベースの複数のソースは、顔認識タスクのいくつかの課題を提起した。 これらの課題は通常、畳み込みニューラルネットワーク(CNN)アーキテクチャによって対処される。 CNNモデルとは異なる、注意機構に基づくトランスフォーマーモデルが最近提示され、ビジョンタスクに対処している。 トランスフォーマーの大きな問題の1つは、トレーニングに大規模なデータを必要とすることだが、ferデータベースのほとんどは、他のビジョンアプリケーションに比べて制限されている。 そこで本稿では,ferタスクのためのSqueeze and Excitation(SE)ブロックと共同で視覚変換器の学習を提案する。 提案手法は、CK+, JAFFE,RAF-DB, SFEWなど、利用可能なさまざまなFERデータベース上で評価される。 実験により,本モデルはCK+およびSFEWの最先端手法より優れ,JSFFEとRAF-DBの競争結果が得られた。

As various databases of facial expressions have been made accessible over the last few decades, the Facial Expression Recognition (FER) task has gotten a lot of interest. The multiple sources of the available databases raised several challenges for facial recognition task. These challenges are usually addressed by Convolution Neural Network (CNN) architectures. Different from CNN models, a Transformer model based on attention mechanism has been presented recently to address vision tasks. One of the major issue with Transformers is the need of a large data for training, while most FER databases are limited compared to other vision applications. Therefore, we propose in this paper to learn a vision Transformer jointly with a Squeeze and Excitation (SE) block for FER task. The proposed method is evaluated on different publicly available FER databases including CK+, JAFFE,RAF-DB and SFEW. Experiments demonstrate that our model outperforms state-of-the-art methods on CK+ and SFEW and achieves competitive results on JAFFE and RAF-DB.
翻訳日:2021-07-08 14:03:59 公開日:2021-07-07
# Pairwise Deep Architectureの改良によるアクションユニット認識

Action Units Recognition Using Improved Pairwise Deep Architecture ( http://arxiv.org/abs/2107.03143v1 )

ライセンス: Link先を確認
Junya Saito, Xiaoyu Mi, Akiyoshi Uchida, Sachihiro Youoku, Takahisa Yamamoto, Kentaro Murase(参考訳) 顔面行動単位(AUs)は顔の筋活動の集合を表し、様々なAUの組み合わせは幅広い感情を表現することができる。 au認識は、マーケティング、医療、教育など、多くのアプリケーションでよく使われている。 多くの研究が認識精度を向上させるために様々な方法を開発したが、au認識には依然として大きな課題である。 ABAW(Affective Behavior Analysis in-the-wild) 2020 コンペティションにおいて,各AUの擬似強度を導出し,予測強度に変換するために,両極深度アーキテクチャを用いた新しい自動行動ユニット (AUs) 認識手法を提案した。 今年,顔隠蔽や大きな顔配向などの一時的な顔隠蔽などの一時的な顔隠蔽によるAU認識誤差の低減を図るため,昨年の枠組みに新たな手法を導入した。 今年のコンペティションの検証データセットで0.65のスコアを得た。

Facial Action Units (AUs) represent a set of facial muscular activities and various combinations of AUs can represent a wide range of emotions. AU recognition is often used in many applications, including marketing, healthcare, education, and so forth. Although a lot of studies have developed various methods to improve recognition accuracy, it still remains a major challenge for AU recognition. In the Affective Behavior Analysis in-the-wild (ABAW) 2020 competition, we proposed a new automatic Action Units (AUs) recognition method using a pairwise deep architecture to derive the Pseudo-Intensities of each AU and then convert them into predicted intensities. This year, we introduced a new technique to last year's framework to further reduce AU recognition errors due to temporary face occlusion such as temporary face occlusion such as face hiding or large face orientation. We obtained a score of 0.65 in the validation data set for this year's competition.
翻訳日:2021-07-08 14:03:44 公開日:2021-07-07
# 一般化ゼロショット学習における生成シフトの緩和

Mitigating Generation Shifts for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2107.03163v1 )

ライセンス: Link先を確認
Zhi Chen, Yadan Luo, Sen Wang, Ruihong Qiu, Jingjing Li, Zi Huang(参考訳) 一般化されたゼロショット学習(gzsl)は、セマンティクス情報(属性など)を活用して、見知らぬクラスがトレーニング中に観測不能なサンプルを認識するタスクである。 生成モデルの導出や、見知らぬ授業の幻覚訓練サンプルは、そのサンプルから学んだ知識に基づいて、自然に行われる。 しかし、これらのモデルのほとんどは、合成されたサンプルが見えないデータの実際の分布から漂う「世代シフト」に悩まされている。 本稿では,この問題を詳細に分析し,未知のデータ合成を効率的に,効率的に学習するための複数の条件付きアフィンカップリング層からなるGSMFlow(Generation Shifts Mitigating Flow)フレームワークを提案する。 特に、生成シフトを引き起こす3つの潜在的な問題、すなわち意味的不整合、分散減衰、構造的置換をそれぞれ同定し、それらに対処する。 まず,生成したサンプルと各属性の相関性を強化するため,各結合層の変換に意味情報を明示的に埋め込む。 次に, 合成未認識特徴の固有分散を回復するために, 生成データのクラス内分散を多様化する視覚摂動戦略を導入し, 分類器の決定境界の調整に寄与する。 第三に、意味空間における構造的置換を避けるため、属性埋め込みを操作し、クラス間の幾何学的構造を完全に保存するための相対的な位置決め戦略を提案する。 実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。 私たちのコードは、https://github.com/u qzhichen/GSMFlow.com で利用可能です。

Generalized Zero-Shot Learning (GZSL) is the task of leveraging semantic information (e.g., attributes) to recognize the seen and unseen samples, where unseen classes are not observable during training. It is natural to derive generative models and hallucinate training samples for unseen classes based on the knowledge learned from the seen samples. However, most of these models suffer from the `generation shifts', where the synthesized samples may drift from the real distribution of unseen data. In this paper, we conduct an in-depth analysis on this issue and propose a novel Generation Shifts Mitigating Flow (GSMFlow) framework, which is comprised of multiple conditional affine coupling layers for learning unseen data synthesis efficiently and effectively. In particular, we identify three potential problems that trigger the generation shifts, i.e., semantic inconsistency, variance decay, and structural permutation and address them respectively. First, to reinforce the correlations between the generated samples and the respective attributes, we explicitly embed the semantic information into the transformations in each of the coupling layers. Second, to recover the intrinsic variance of the synthesized unseen features, we introduce a visual perturbation strategy to diversify the intra-class variance of generated data and hereby help adjust the decision boundary of the classifier. Third, to avoid structural permutation in the semantic space, we propose a relative positioning strategy to manipulate the attribute embeddings, guiding which to fully preserve the inter-class geometric structure. Experimental results demonstrate that GSMFlow achieves state-of-the-art recognition performance in both conventional and generalized zero-shot settings. Our code is available at: https://github.com/u qzhichen/GSMFlow
翻訳日:2021-07-08 14:03:28 公開日:2021-07-07
# FBC-GAN:フォアグラウンド-バックグラウンド合成による広帯域・フレキシブル画像合成

FBC-GAN: Diverse and Flexible Image Synthesis via Foreground-Backgroun d Composition ( http://arxiv.org/abs/2107.03166v1 )

ライセンス: Link先を確認
Kaiwen Cui, Gongjie Zhang, Fangneng Zhan, Jiaxing Huang, Shijian Lu(参考訳) GAN(Generative Adversarial Networks)は、画像合成におけるデファクト標準となっている。 しかし,背景の分解を考慮せずに,既存のGANは前景と背景の間の過剰な内容相関を捉え,画像生成の多様性を制約する傾向にある。 本稿では,フォアグラウンドオブジェクトと背景シーンを同時にかつ独立的に生成し,それらをスタイルと幾何学的一貫性で構成することにより画像生成を行う,新しいフォアグラウンドバックグラウンド合成gan(fbc-gan)を提案する。 この明示的な設計により、FBC-GANは、コンテンツに相互に独立した前景と背景を持つ画像を生成することができ、望ましくない内容相関制約を解除し、優れた多様性を実現することができる。 また、異なる背景シーンを持つ同じ前景オブジェクト、異なる前景オブジェクトを持つ同じ背景シーン、または異なる対象位置、サイズ、ポーズを持つ同じ前景オブジェクトと背景シーンを許可することで、優れた柔軟性を提供する。 さまざまなデータセットからサンプリングされたフォアグラウンドオブジェクトとバックグラウンドシーンも構成できる。 複数のデータセットに対する大規模な実験により、FBC-GANは最先端の手法と比較して、競争力のある視覚リアリズムと優れた多様性を達成することが示された。

Generative Adversarial Networks (GANs) have become the de-facto standard in image synthesis. However, without considering the foreground-backgroun d decomposition, existing GANs tend to capture excessive content correlation between foreground and background, thus constraining the diversity in image generation. This paper presents a novel Foreground-Backgroun d Composition GAN (FBC-GAN) that performs image generation by generating foreground objects and background scenes concurrently and independently, followed by composing them with style and geometrical consistency. With this explicit design, FBC-GAN can generate images with foregrounds and backgrounds that are mutually independent in contents, thus lifting the undesirably learned content correlation constraint and achieving superior diversity. It also provides excellent flexibility by allowing the same foreground object with different background scenes, the same background scene with varying foreground objects, or the same foreground object and background scene with different object positions, sizes and poses. It can compose foreground objects and background scenes sampled from different datasets as well. Extensive experiments over multiple datasets show that FBC-GAN achieves competitive visual realism and superior diversity as compared with state-of-the-art methods.
翻訳日:2021-07-08 14:03:02 公開日:2021-07-07
# fasterpose: 人間のポーズ推定のための簡単なベースライン

FasterPose: A Faster Simple Baseline for Human Pose Estimation ( http://arxiv.org/abs/2107.03215v1 )

ライセンス: Link先を確認
Hanbin Dai, Hailin Shi, Wu Liu, Linfang Wang, Yinglu Liu and Tao Mei(参考訳) 人間のポーズ推定の性能は、キーポイント位置の空間的精度に依存する。 既存の手法の多くは、入力画像から高分解能(HR)表現を学習することで空間精度を追求している。 実験により,HR表現は計算コストの急激な増加につながるが,精度の向上は低分解能(LR)表現と比較して限界であることがわかった。 本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。 LR設計はモデルの複雑さを大幅に縮小するが、空間的精度に関してネットワークを効果的に訓練する方法は相反する課題である。 本稿では,FasterPoseのトレーニング行動について検討し,収束を加速し,精度を高めるための新しい回帰クロスエントロピー(RCE)損失関数を定式化する。 RCE損失は二項監督から連続範囲への通常のクロスエントロピー損失を一般化するので、ポーズ推定ネットワークのトレーニングはシグモイド関数の恩恵を受けることができる。 これにより、空間的精度を損なうことなくLR特徴から出力ヒートマップを推定でき、計算コストとモデルサイズは大幅に削減された。 従来主流であったポーズ推定ネットワークと比較して,フラップの58%を削減し,精度を1.3%向上させた。 大規模な実験により、FasterPoseは共通のベンチマーク、すなわちCOCOとMPIIで有望な結果をもたらすことが示され、特に非GPUシナリオにおける低レイテンシおよび低エネルギー予算のアプリケーションの有効性と効率を一貫して検証している。

The performance of human pose estimation depends on the spatial accuracy of keypoint localization. Most existing methods pursue the spatial accuracy through learning the high-resolution (HR) representation from input images. By the experimental analysis, we find that the HR representation leads to a sharp increase of computational cost, while the accuracy improvement remains marginal compared with the low-resolution (LR) representation. In this paper, we propose a design paradigm for cost-effective network with LR representation for efficient pose estimation, named FasterPose. Whereas the LR design largely shrinks the model complexity, yet how to effectively train the network with respect to the spatial accuracy is a concomitant challenge. We study the training behavior of FasterPose, and formulate a novel regressive cross-entropy (RCE) loss function for accelerating the convergence and promoting the accuracy. The RCE loss generalizes the ordinary cross-entropy loss from the binary supervision to a continuous range, thus the training of pose estimation network is able to benefit from the sigmoid function. By doing so, the output heatmap can be inferred from the LR features without loss of spatial accuracy, while the computational cost and model size has been significantly reduced. Compared with the previously dominant network of pose estimation, our method reduces 58% of the FLOPs and simultaneously gains 1.3% improvement of accuracy. Extensive experiments show that FasterPose yields promising results on the common benchmarks, i.e., COCO and MPII, consistently validating the effectiveness and efficiency for practical utilization, especially the low-latency and low-energy-budget applications in the non-GPU scenarios.
翻訳日:2021-07-08 14:02:39 公開日:2021-07-07
# MuVAM: 医用視覚質問応答のための多視点注意ベースモデル

MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering ( http://arxiv.org/abs/2107.03216v1 )

ライセンス: Link先を確認
Haiwei Pan, Shuning He, Kejia Zhang, Bo Qu, Chunling Chen, and Kun Shi(参考訳) 医用視覚質問応答 (VQA) は、コンピュータビジョンと自然言語処理の研究コミュニティによって広く検討されているマルチモーダル課題である。 医用VQAモデルの多くは、テキストの重要性を無視して視覚コンテンツに焦点を当てているため、本論文では、医用画像の高レベルの意味をテキスト記述に基づいて統合した、医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。 まず、視覚とテキストの2つのモダリティについて、画像の特徴と疑問を抽出するために異なる手法を用いる。 次に,画像からクエストへの注意(I2Q)とワードからテキストへの注意(W2T)を含む多視点アテンション機構を提案する。 多視点の注意は、質問を画像と単語に関連付けることで、質問をよりよく分析し、正確な回答を得る。 第3に、多重モーダル特徴融合後の解答を正確に予測し、視覚的特徴とテキスト的特徴との類似性を改善する。 分類損失と画像検索補完(IQC)損失からなる。 最後に、VQA-RADデータセットにおけるデータエラーとラベルの欠如に対して、私たちは医療専門家と協力してデータセットの修正と完了を行い、拡張データセットであるVQA-RADPhを構築します。 これらの2つのデータセットの実験により、MuVAMの有効性が最先端の手法を超えていることが示されている。

Medical Visual Question Answering (VQA) is a multi-modal challenging task widely considered by research communities of the computer vision and natural language processing. Since most current medical VQA models focus on visual content, ignoring the importance of text, this paper proposes a multi-view attention-based model(MuVAM) for medical visual question answering which integrates the high-level semantics of medical images on the basis of text description. Firstly, different methods are utilized to extract the features of the image and the question for the two modalities of vision and text. Secondly, this paper proposes a multi-view attention mechanism that include Image-to-Question (I2Q) attention and Word-to-Text (W2T) attention. Multi-view attention can correlate the question with image and word in order to better analyze the question and get an accurate answer. Thirdly, a composite loss is presented to predict the answer accurately after multi-modal feature fusion and improve the similarity between visual and textual cross-modal features. It consists of classification loss and image-question complementary (IQC) loss. Finally, for data errors and missing labels in the VQA-RAD dataset, we collaborate with medical experts to correct and complete this dataset and then construct an enhanced dataset, VQA-RADPh. The experiments on these two datasets show that the effectiveness of MuVAM surpasses the state-of-the-art method.
翻訳日:2021-07-08 14:02:12 公開日:2021-07-07
# 医用画像分類のためのカテゴリー関係保存コントラスト知識蒸留法

Categorical Relation-Preserving Contrastive Knowledge Distillation for Medical Image Classification ( http://arxiv.org/abs/2107.03225v1 )

ライセンス: Link先を確認
Xiaohan Xing, Yuenan Hou, Hang Li, Yixuan Yuan, Hongsheng Li, Max Q.-H. Meng(参考訳) 深層分類モデルのトレーニングのための医療画像の量は、通常非常に少ないため、これらの深層分類モデルはトレーニングデータに過度に適合する傾向にある。 研究によると、知識蒸留(KD)、特に摂動に強い平均教師の枠組みは、過度に適合する効果を軽減することができる。 しかし,KDをコンピュータビジョンから医用画像分類へ直接転送すると,医用画像のクラス内ばらつきやクラス不均衡に悩まされるため,性能は低下する。 そこで本研究では, 一般の平均教師モデルを用いて, 新たな類型関係保存型コントラスト知識蒸留法 (crckd) を提案する。 具体的には,教師と生徒モデルの同一クラスからより近い正のイメージペアを抽出し,異なるクラスから負のイメージペアを分離する,新しいクラス誘導型コントラスト蒸留(ccd)モジュールを提案する。 この正規化により、学生モデルの特徴分布はクラス内類似度が高くクラス間分散を示す。 さらに,教師のリレーショナル知識を,頑健でクラスバランスの取れた方法で蒸留するためのカテゴリー関係保存(CRP)損失を提案する。 CCDとCRPの貢献により、我々のCRCKDアルゴリズムは関係知識をより包括的に蒸留することができる。 HAM10000とAPTOSデータセットに関する大規模な実験は、提案したCRCKD法の優位性を実証している。

The amount of medical images for training deep classification models is typically very scarce, making these deep models prone to overfit the training data. Studies showed that knowledge distillation (KD), especially the mean-teacher framework which is more robust to perturbations, can help mitigate the over-fitting effect. However, directly transferring KD from computer vision to medical image classification yields inferior performance as medical images suffer from higher intra-class variance and class imbalance. To address these issues, we propose a novel Categorical Relation-preserving Contrastive Knowledge Distillation (CRCKD) algorithm, which takes the commonly used mean-teacher model as the supervisor. Specifically, we propose a novel Class-guided Contrastive Distillation (CCD) module to pull closer positive image pairs from the same class in the teacher and student models, while pushing apart negative image pairs from different classes. With this regularization, the feature distribution of the student model shows higher intra-class similarity and inter-class variance. Besides, we propose a Categorical Relation Preserving (CRP) loss to distill the teacher's relational knowledge in a robust and class-balanced manner. With the contribution of the CCD and CRP, our CRCKD algorithm can distill the relational knowledge more comprehensively. Extensive experiments on the HAM10000 and APTOS datasets demonstrate the superiority of the proposed CRCKD method.
翻訳日:2021-07-08 14:01:46 公開日:2021-07-07
# 2次元ヒートマップ表現は人間のポーズ推定にも必要か?

Is 2D Heatmap Representation Even Necessary for Human Pose Estimation? ( http://arxiv.org/abs/2107.03332v1 )

ライセンス: Link先を確認
Yanjie Li, Sen Yang, Shoukui Zhang, Zhicheng Wang, Wankou Yang, Shu-Tao Xia, Erjin Zhou(参考訳) 2次元ヒートマップ表現は、その高い性能のために長年人間のポーズ推定を支配してきた。 しかし、ヒートマップベースのアプローチにはいくつかの欠点がある。 1) 低解像度の画像ではパフォーマンスが劇的に低下し、現実のシナリオでは頻繁に発生する。 2) ローカライズ精度を向上させるためには, 特徴マップの解像度を低値から高値に復元するために複数のアップサンプル層が必要である。 3) ダウンスケールヒートマップの量子化誤差を低減させるためには, 余分な座標補正が必要となる。 これらの問題に対処するために,キーポイント座標 (\emph{simdr}) に対する \textbf{sim}ple \textbf{d}isentangled \textbf{r}epresentation を提案する。 具体的には,キーポイント位置の水平座標と垂直座標の表現を分離し,追加のサンプリングや精細化を必要とせず,より効率的なスキームを実現することを提案する。 COCOデータセット上で実施された総合的な実験により、提案手法は全ての試験された入力解像度、特に大きなマージンによる低解像度において、より優れた性能を示すことが示された。 コードは \url{https://github.com/l eeyegy/SimDR} で公開される。

The 2D heatmap representation has dominated human pose estimation for years due to its high performance. However, heatmap-based approaches have some drawbacks: 1) The performance drops dramatically in the low-resolution images, which are frequently encountered in real-world scenarios. 2) To improve the localization precision, multiple upsample layers may be needed to recover the feature map resolution from low to high, which are computationally expensive. 3) Extra coordinate refinement is usually necessary to reduce the quantization error of downscaled heatmaps. To address these issues, we propose a \textbf{Sim}ple yet promising \textbf{D}isentangled \textbf{R}epresentation for keypoint coordinate (\emph{SimDR}), reformulating human keypoint localization as a task of classification. In detail, we propose to disentangle the representation of horizontal and vertical coordinates for keypoint location, leading to a more efficient scheme without extra upsampling and refinement. Comprehensive experiments conducted over COCO dataset show that the proposed \emph{heatmap-free} methods outperform \emph{heatmap-based} counterparts in all tested input resolutions, especially in lower resolutions by a large margin. Code will be made publicly available at \url{https://github.com/l eeyegy/SimDR}.
翻訳日:2021-07-08 14:01:19 公開日:2021-07-07
# IntraLoss:Deep Face RecognitionのためのGradient-Enhancing Term

IntraLoss: Further Margin via Gradient-Enhancing Term for Deep Face Recognition ( http://arxiv.org/abs/2107.03352v1 )

ライセンス: Link先を確認
Chengzhi Jiang, Yanzhou Su, Wen Wang, Haiwei Bai, Haijun Liu, Jian Cheng(参考訳) 既存の分類に基づく顔認識手法は画期的な進歩を遂げ、識別的顔表現を学習するために超球面多様体に大きなマージンを導入した。 しかし、機能分布は無視される。 粗悪な特徴分布は、マージンスキームによるパフォーマンス改善を排除します。 最近の研究では、クラス間のバランスのとれない分布に注目し、アイデンティティと近辺との角度をペナライズすることで同分布の特徴表現を形成する。 しかし、問題はそれ以上であり、クラス内分布の異方性も見いだされた。 本稿では,クラス内の分布特性に着目した「段階的エンハンシング項」を提案する。 この手法は「intraloss」と呼ばれ、クラス内分布が縮小し続けるように、異方性領域での勾配強化を明示的に行っており、結果として等方性およびよりコンパクトなクラス内分布と、さらなるアイデンティティ間の余裕をもたらす。 The experimental results on LFW, YTF and CFP-FP showed that our outperforms state-of-the-art method by gradient enhancement, showed the superiority of our method。 さらに,本手法は直観的幾何学的解釈をもち,既存の手法と組み合わせて従来無視されていた問題を解くことができる。

Existing classification-based face recognition methods have achieved remarkable progress, introducing large margin into hypersphere manifold to learn discriminative facial representations. However, the feature distribution is ignored. Poor feature distribution will wipe out the performance improvement brought about by margin scheme. Recent studies focus on the unbalanced inter-class distribution and form a equidistributed feature representations by penalizing the angle between identity and its nearest neighbor. But the problem is more than that, we also found the anisotropy of intra-class distribution. In this paper, we propose the `gradient-enhancing term' that concentrates on the distribution characteristics within the class. This method, named IntraLoss, explicitly performs gradient enhancement in the anisotropic region so that the intra-class distribution continues to shrink, resulting in isotropic and more compact intra-class distribution and further margin between identities. The experimental results on LFW, YTF and CFP-FP show that our outperforms state-of-the-art methods by gradient enhancement, demonstrating the superiority of our method. In addition, our method has intuitive geometric interpretation and can be easily combined with existing methods to solve the previously ignored problems.
翻訳日:2021-07-08 14:00:53 公開日:2021-07-07
# Dual Ranking Statistics and Mutual Knowledge Distillation を用いた新しい視覚カテゴリー発見

Novel Visual Category Discovery with Dual Ranking Statistics and Mutual Knowledge Distillation ( http://arxiv.org/abs/2107.03358v1 )

ライセンス: Link先を確認
Bingchen Zhao, Kai Han(参考訳) 本稿では,新たな視覚的カテゴリ発見,すなわち,新しいクラスから異なるセマンティックパーティションに,他の異なるカテゴリの画像を含むラベル付きデータセットを活用することで,未ラベルの画像を分類する問題に取り組む。 これは従来の半教師付き学習よりも現実的で難しい設定です。 本稿では,局所的な部分レベル情報に着目した2分岐学習フレームワークと,全体特性に着目した2分岐学習フレームワークを提案する。 ラベル付きデータからラベル付きデータへ知識を転送するために,両ブランチの2つのランキング統計を用いて,ラベル付きデータのトレーニングのための擬似ラベルを生成する。 さらに,新たなカテゴリ発見のための情報交換と合意の促進を目的とした相互知識蒸留手法を導入し,グローバルな特徴とローカルな特徴の恩恵を享受できるようにした。 提案手法は,汎用オブジェクト分類のための公開ベンチマークや,細粒度視覚認識のためのより困難なデータセットを総合的に評価し,最先端の性能を実現する。

In this paper, we tackle the problem of novel visual category discovery, i.e., grouping unlabelled images from new classes into different semantic partitions by leveraging a labelled dataset that contains images from other different but relevant categories. This is a more realistic and challenging setting than conventional semi-supervised learning. We propose a two-branch learning framework for this problem, with one branch focusing on local part-level information and the other branch focusing on overall characteristics. To transfer knowledge from the labelled data to the unlabelled, we propose using dual ranking statistics on both branches to generate pseudo labels for training on the unlabelled data. We further introduce a mutual knowledge distillation method to allow information exchange and encourage agreement between the two branches for discovering new categories, allowing our model to enjoy the benefits of global and local features. We comprehensively evaluate our method on public benchmarks for generic object classification, as well as the more challenging datasets for fine-grained visual recognition, achieving state-of-the-art performance.
翻訳日:2021-07-08 14:00:29 公開日:2021-07-07
# 局所二元QUICCI記述子と異種木インデックスを用いた部分的3次元オブジェクト検索

Partial 3D Object Retrieval using Local Binary QUICCI Descriptors and Dissimilarity Tree Indexing ( http://arxiv.org/abs/2107.03368v1 )

ライセンス: Link先を確認
Bart Iver van Blokland and Theoharis Theoharis(参考訳) 完全パイプラインは、Quick Intersection Count Change Image (QUICCI)バイナリローカル記述子と新しいインデックスツリーに基づいて、正確で効率的な部分的な3Dオブジェクトの検索を行う。 また,quicciクエリ記述子の変更により,部分検索が理想的になることを示す。 局所記述子の広い空間の探索を著しく高速化する「異種木」という索引構造が提案され、QUICCIや他のバイナリ記述子に適用できる。 このインデックスは、効率的な検索のためにディスクリプタ内のビットの分布を利用する。 検索パイプラインは、ほぼ理想に近い検索結果を持つshrec'16データセットの人工的な部分でテストされる。

A complete pipeline is presented for accurate and efficient partial 3D object retrieval based on Quick Intersection Count Change Image (QUICCI) binary local descriptors and a novel indexing tree. It is shown how a modification to the QUICCI query descriptor makes it ideal for partial retrieval. An indexing structure called Dissimilarity Tree is proposed which can significantly accelerate searching the large space of local descriptors; this is applicable to QUICCI and other binary descriptors. The index exploits the distribution of bits within descriptors for efficient retrieval. The retrieval pipeline is tested on the artificial part of SHREC'16 dataset with near-ideal retrieval results.
翻訳日:2021-07-08 14:00:11 公開日:2021-07-07
# 木のランダム射影線形化における辺長の期待和の線形時間計算

Linear-time calculation of the expected sum of edge lengths in random projective linearizations of trees ( http://arxiv.org/abs/2107.03277v1 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig and Ramon Ferrer-i-Cancho(参考訳) 文の構文構造は、しばしば構文依存木を用いて表現される。 構文的に関連した単語間の距離の合計は、過去数十年間、軽視されてきた。 依存距離の研究は、その和を最小化するために文中の単語を順序づける依存距離最小化の原理の定式化につながった。 言語に関する関連する定量的研究を行うために、多数のランダムベースラインが定義されている。 最も単純なランダムベースラインは、文中の単語の非制約ランダムな置換における和の期待値である。 ここでは、一般的なベースラインである、文の単語のランダムな投影的置換、すなわち構文依存構造が射影的である置換、文が言語でしばしば満足する形式的制約に焦点を当てる。 これまでのところ、文のランダムな射影シャッフルにおける依存関係距離の総和は、コストがZn$のモンテカルロ手順で推定されており、$n$は文の語数であり、$Z$はサンプル数である。 ここでは、その期待値を$n$のオーダー時にエラーなく計算する式を示す。 さらに、スターツリーが最大化できることを示し、それを最小化する木を検索するための動的プログラミングアルゴリズムを考案する。

The syntactic structure of a sentence is often represented using syntactic dependency trees. The sum of the distances between syntactically related words has been in the limelight for the past decades. Research on dependency distances led to the formulation of the principle of dependency distance minimization whereby words in sentences are ordered so as to minimize that sum. Numerous random baselines have been defined to carry out related quantitative studies on languages. The simplest random baseline is the expected value of the sum in unconstrained random permutations of the words in the sentence, namely when all the shufflings of the words of a sentence are allowed and equally likely. Here we focus on a popular baseline: random projective permutations of the words of the sentence, that is, permutations where the syntactic dependency structure is projective, a formal constraint that sentences satisfy often in languages. Thus far, the expectation of the sum of dependency distances in random projective shufflings of a sentence has been estimated approximately with a Monte Carlo procedure whose cost is of the order of $Zn$, where $n$ is the number of words of the sentence and $Z$ is the number of samples; the larger $Z$, the lower the error of the estimation but the larger the time cost. Here we present formulae to compute that expectation without error in time of the order of $n$. Furthermore, we show that star trees maximize it, and devise a dynamic programming algorithm to retrieve the trees that minimize it.
翻訳日:2021-07-08 13:59:59 公開日:2021-07-07
# ADAPT : Awesome Domain Adaptation Python Toolbox

ADAPT : Awesome Domain Adaptation Python Toolbox ( http://arxiv.org/abs/2107.03049v1 )

ライセンス: Link先を確認
Antoine de Mathelin, Fran\c{c}ois Deheeger, Guillaume Richard, Mathilde Mougeot, Nicolas Vayatis(参考訳) ADAPTはオープンソースのpythonライブラリで、いくつかのドメイン適応メソッドの実装を提供する。 このライブラリは、Scikit-learn 推定オブジェクト(適合および予測メソッドを実装するオブジェクト)とtensorflowモデルに適している。 実装された手法の多くは推定器に依存しない方法で開発され、複数の用途に適応した様々な可能性を提供する。 このライブラリは、ドメイン適応の3つの主要な戦略に対応する3つのモジュールを提供する: (i) 特徴変換を行う機能ベースの包含メソッド、 (ii) 再重み付け手法を実装したインスタンスベース、 (iii) 事前学習されたモデルに新しい観察に適応するためのパラメータベースの提案方法。 完全なドキュメントがオンライン https://adapt-python .github.io/adapt/ で提案されている。 さらに、このライブラリは高いテストカバレッジを提供する。

ADAPT is an open-source python library providing the implementation of several domain adaptation methods. The library is suited for scikit-learn estimator object (object which implement fit and predict methods) and tensorflow models. Most of the implemented methods are developed in an estimator agnostic fashion, offering various possibilities adapted to multiple usage. The library offers three modules corresponding to the three principal strategies of domain adaptation: (i) feature-based containing methods performing feature transformation; (ii) instance-based with the implementation of reweighting techniques and (iii) parameter-based proposing methods to adapt pre-trained models to novel observations. A full documentation is proposed online https://adapt-python .github.io/adapt/ with gallery of examples. Besides, the library presents an high test coverage.
翻訳日:2021-07-08 13:59:31 公開日:2021-07-07
# 確率的専門家とエピソードバンド

Episodic Bandits with Stochastic Experts ( http://arxiv.org/abs/2107.03263v1 )

ライセンス: Link先を確認
Nihal Sharma, Soumya Basu, Karthikeyan Shanmugam, Sanjay Shakkottai(参考訳) 本研究では,エージェントがグラフ構造化環境におけるノードのソフトコントロールを,確率的専門家ポリシーの集合を通じて与える文脈的帯域問題のバージョンについて検討する。 エージェントはエピソードを通して環境と対話し、それぞれのエピソードは異なるコンテキストの分布を持つ。 私たちの目標は、エピソードを通して最高のエキスパートを追跡するエージェントを開発することです。 本稿では,エージェントが専門家の方針や文脈分布の変化について何も知らない環境で,経験的ダイバージェンスに基づくucb(ed-ucb)アルゴリズムを導入する。 軽度の仮定で、$\tilde{O}(N\log(NT^2\sqrt{E}))$サンプルからブートストラッピングすると、$\tilde{O}(E(N+1) + \frac{N\sqrt{E}}{T^2})$の後悔が生じる。 専門家のポリシーがエージェントにa prioriを知っていれば、ブートストラップを必要とせずに$\tilde{O}(EN)$への後悔を改善することができる。 分析は,専門家の方針が分かっている場合の非正規設定における問題依存定数に対して,既存の対数的後悔境界を厳格化する。 最終的にシミュレーションにより結果が実証的に検証された。

We study a version of the contextual bandit problem where an agent is given soft control of a node in a graph-structured environment through a set of stochastic expert policies. The agent interacts with the environment over episodes, with each episode having different context distributions; this results in the `best expert' changing across episodes. Our goal is to develop an agent that tracks the best expert over episodes. We introduce the Empirical Divergence-based UCB (ED-UCB) algorithm in this setting where the agent does not have any knowledge of the expert policies or changes in context distributions. With mild assumptions, we show that bootstrapping from $\tilde{O}(N\log(NT^2\sqrt{E}))$ samples results in a regret of $\tilde{O}(E(N+1) + \frac{N\sqrt{E}}{T^2})$. If the expert policies are known to the agent a priori, then we can improve the regret to $\tilde{O}(EN)$ without requiring any bootstrapping. Our analysis also tightens pre-existing logarithmic regret bounds to a problem-dependent constant in the non-episodic setting when expert policies are known. We finally empirically validate our findings through simulations.
翻訳日:2021-07-08 13:59:15 公開日:2021-07-07
# コードを用いた大規模言語モデルの評価

Evaluating Large Language Models Trained on Code ( http://arxiv.org/abs/2107.03374v1 )

ライセンス: Link先を確認
Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde, Jared Kaplan, Harri Edwards, Yura Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, Will Guss, Alex Nichol, Igor Babuschkin, Suchir Balaji, Shantanu Jain, Andrew Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba(参考訳) GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。 codexの別個のプロダクションバージョンがgithub copilotを動かしている。 ドクストリングからプログラムを合成するための機能的正当性を測定する新しい評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。 さらに,モデルからの反復サンプリングは,難しいプロンプトに対して作業ソリューションを作成する上で,驚くほど効果的な戦略であることがわかった。 この方法を用いることで、問題の70.2%を100個のサンプルで解決する。 このモデルの注意深い調査は、操作の長いチェーンを記述するdocstringsの難しさや変数へのバインディング操作など、その限界を明らかにしています。 最後に、強力なコード生成技術をデプロイし、安全性、セキュリティ、経済性をカバーすることによる潜在的な影響について論じる。

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub Copilot. On HumanEval, a new evaluation set we release to measure functional correctness for synthesizing programs from docstrings, our model solves 28.8% of the problems, while GPT-3 solves 0% and GPT-J solves 11.4%. Furthermore, we find that repeated sampling from the model is a surprisingly effective strategy for producing working solutions to difficult prompts. Using this method, we solve 70.2% of our problems with 100 samples per problem. Careful investigation of our model reveals its limitations, including difficulty with docstrings describing long chains of operations and with binding operations to variables. Finally, we discuss the potential broader impacts of deploying powerful code generation technologies, covering safety, security, and economics.
翻訳日:2021-07-08 13:58:53 公開日:2021-07-07
# R2F:コンピューティングエラーを伴うAIoTプロセッサのためのリモートリトレーニングフレームワーク

R2F: A Remote Retraining Framework for AIoT Processors with Computing Errors ( http://arxiv.org/abs/2107.03096v1 )

ライセンス: Link先を確認
Dawen Xu, Meng He, Cheng Liu, Ying Wang, Long Cheng, Huawei Li, Xiaowei Li, Kwang-Ting Cheng(参考訳) 新たな技術ノードで製造されたAIoTプロセッサは、トランジスタサイズが縮小し電力供給が低くなるため、ソフトエラーが増大する。 AIoTプロセッサのソフトエラー、特に大規模コンピューティングを伴うディープラーニングアクセラレータ(DLA)は、重大なコンピューティングエラーを引き起こす可能性がある。 これらの計算エラーは、サーバ内のCPUやGPUといった汎用プロセッサのトレーニングによって捉えるのが難しい。 オフラインでトレーニングされたニューラルネットワークモデルをエッジアクセラレータにエラーを直接適用することで、予測精度がかなり低下する可能性がある。 この問題に対処するために,コンピュータエラーを伴うリモートAIoTプロセッサのためのリモートリトレーニングフレームワーク(R2F)を提案する。 トレーニングループにソフトエラーのあるリモートaiotプロセッサを使用し、サーバ上のアプリケーションデータでオンサイトコンピューティングエラーを学習し、再トレーニングされたモデルをソフトエラーに耐性を持たせることができる。 一方,再トレーニングの強化を目的とした部分的TMR戦略を提案する。 我々の実験によると、R2Fはモデル精度と性能ペナルティの間の弾性設計トレードオフを可能にする。 top-5モデルの精度は、1.93%-13.73%向上でき、0%-200%性能はエラー率が高い。 さらに,リトレーニングには大量のデータ伝送が必要であり,かつ,トレーニング時間も支配している点に気付き,データ転送最適化のためのスパースインクリメント圧縮手法を提案する。

AIoT processors fabricated with newer technology nodes suffer rising soft errors due to the shrinking transistor sizes and lower power supply. Soft errors on the AIoT processors particularly the deep learning accelerators (DLAs) with massive computing may cause substantial computing errors. These computing errors are difficult to be captured by the conventional training on general purposed processors like CPUs and GPUs in a server. Applying the offline trained neural network models to the edge accelerators with errors directly may lead to considerable prediction accuracy loss. To address the problem, we propose a remote retraining framework (R2F) for remote AIoT processors with computing errors. It takes the remote AIoT processor with soft errors in the training loop such that the on-site computing errors can be learned with the application data on the server and the retrained models can be resilient to the soft errors. Meanwhile, we propose an optimized partial TMR strategy to enhance the retraining. According to our experiments, R2F enables elastic design trade-offs between the model accuracy and the performance penalty. The top-5 model accuracy can be improved by 1.93%-13.73% with 0%-200% performance penalty at high fault error rate. In addition, we notice that the retraining requires massive data transmission and even dominates the training time, and propose a sparse increment compression approach for the data transmission optimization, which reduces the retraining time by 38%-88% on average with negligible accuracy loss over a straightforward remote retraining.
翻訳日:2021-07-08 13:58:34 公開日:2021-07-07
# ヒューマンアラインな会話説明のための説明可能な人工知能のレベル

Levels of explainable artificial intelligence for human-aligned conversational explanations ( http://arxiv.org/abs/2107.03178v1 )

ライセンス: Link先を確認
Richard Dazeley, Peter Vamplew, Cameron Foale, Charlotte Young, Sunil Aryal, Francisco Cruz(参考訳) ここ数年、eXplainable Artificial Intelligence (XAI)と、密接に整合したInterpretable Machine Learning (IML)の研究が急速に成長してきた。 この成長の要因には、近年の立法改革や、産業や政府による投資の増加、一般大衆の関心の高まりなどが含まれる。 人々は毎日自律的な決定に影響され、人々は結果を受け入れるために意思決定プロセスを理解する必要があります。 しかしながら、xai/imlのアプリケーションの大部分は、特定のデータムに基づいて個々の決定が達成された方法に関する低レベルの"ナロー"説明を提供することに重点を置いている。 これらの説明は、エージェントの信念やモチベーション、他の(人間、動物、AI)エージェントの意図の仮説、外部の文化的期待の解釈、あるいは独自の説明を生成するために使用されるプロセスなど、エージェントの洞察を与えることはまれである。 しかし、これらすべての要因は、人々がAIの意思決定を受け入れ、信頼する必要がある説明の深みを提供するために不可欠である。 本稿では,説明のレベルを定義し,それらを統合して対話的説明システムを構築する方法を説明することを目的とする。 そこで本研究では,Broad eXplainable Artificial Intelligence (Broad-XAI) を用いて,現状のアプローチを調査し,これらのレベルを達成するためのさまざまな技術の統合について検討する。

Over the last few years there has been rapid research growth into eXplainable Artificial Intelligence (XAI) and the closely aligned Interpretable Machine Learning (IML). Drivers for this growth include recent legislative changes and increased investments by industry and governments, along with increased concern from the general public. People are affected by autonomous decisions every day and the public need to understand the decision-making process to accept the outcomes. However, the vast majority of the applications of XAI/IML are focused on providing low-level `narrow' explanations of how an individual decision was reached based on a particular datum. While important, these explanations rarely provide insights into an agent's: beliefs and motivations; hypotheses of other (human, animal or AI) agents' intentions; interpretation of external cultural expectations; or, processes used to generate its own explanation. Yet all of these factors, we propose, are essential to providing the explanatory depth that people require to accept and trust the AI's decision-making. This paper aims to define levels of explanation and describe how they can be integrated to create a human-aligned conversational explanation system. In so doing, this paper will survey current approaches and discuss the integration of different technologies to achieve these levels with Broad eXplainable Artificial Intelligence (Broad-XAI), and thereby move towards high-level `strong' explanations.
翻訳日:2021-07-08 13:58:12 公開日:2021-07-07
# ワードピースとコンバータを用いたCTC-CRFに基づくエンドツーエンド音声認識の改良

Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces and Conformers ( http://arxiv.org/abs/2107.03007v1 )

ライセンス: Link先を確認
Huahuan Zheng, Wenjie Peng, Zhijian Ou and Jinsong Zhang(参考訳) 音声認識システムは過去数十年で大幅に改善され、現在のシステムは主としてハイブリッドベースとエンドツーエンドベースである。 最近提案されたCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承している。 本稿では,CTC-CRFに基づくASR技術をさらに進歩させ,モデリングユニットとニューラルアーキテクチャを探索する。 具体的には,最近開発されたワードピースモデリングユニットとコンバータニューラルネットワークをCTC-CRFに適用する手法について検討する。 実験は2つの英語データセット(Switchboard、Librispeech)とCommonVoiceのドイツのデータセットで実施されている。 実験結果から, (i) コンフォーマーは認識性能を著しく向上させることができることが示唆された。 (ii) ワードピースベースのシステムは, グラファイム・音素対応の低いターゲット言語向け電話システムに比べて, わずかに劣る(例)。 英語) 2つのシステムは、そのような対応の度合いがターゲット言語(例えば、)に対して高い場合、等しく強い性能を発揮できる。 ドイツ語)

Automatic speech recognition systems have been largely improved in the past few decades and current systems are mainly hybrid-based and end-to-end-based. The recently proposed CTC-CRF framework inherits the data-efficiency of the hybrid approach and the simplicity of the end-to-end approach. In this paper, we further advance CTC-CRF based ASR technique with explorations on modeling units and neural architectures. Specifically, we investigate techniques to enable the recently developed wordpiece modeling units and Conformer neural networks to be succesfully applied in CTC-CRFs. Experiments are conducted on two English datasets (Switchboard, Librispeech) and a German dataset from CommonVoice. Experimental results suggest that (i) Conformer can improve the recognition performance significantly; (ii) Wordpiece-based systems perform slightly worse compared with phone-based systems for the target language with a low degree of grapheme-phoneme correspondence (e.g. English), while the two systems can perform equally strong when such degree of correspondence is high for the target language (e.g. German).
翻訳日:2021-07-08 13:57:13 公開日:2021-07-07
# 直接音声翻訳のための能率変換器

Efficient Transformer for Direct Speech Translation ( http://arxiv.org/abs/2107.03069v1 )

ライセンス: Link先を確認
Belen Alastruey and Gerard I. G\'allego and Marta R. Costa-juss\`a(参考訳) Transformerベースのモデルの出現は、テキストの障壁を超えた。 音声を扱う場合には、音声入力のシーケンス長がトランスフォーマーには適さないという問題に直面する必要がある。 この問題を回避するため、通常のアプローチでは、Transformerを使用する前にシーケンス長を減らすために、ストライドされた畳み込み層を追加する。 本稿では,効率的なトランスフォーマにより,トランスの前に畳み込み層を使わずにスペクトログラムを処理できる,直接音声変換のための新しい手法を提案する。 これにより、エンコーダはスペクトログラムから直接学習することができ、情報が失われることはない。 我々は、エンコーダが効率的なトランスフォーマー -- ロングフォーマー -- であり、デコーダが伝統的なトランスフォーマーデコーダであるエンコーダ-デコーダモデルを作成しました。 標準的アプローチで得られた結果に近い結果から,これは有望な研究方向性であることが示された。

The advent of Transformer-based models has surpassed the barriers of text. When working with speech, we must face a problem: the sequence length of an audio input is not suitable for the Transformer. To bypass this problem, a usual approach is adding strided convolutional layers, to reduce the sequence length before using the Transformer. In this paper, we propose a new approach for direct Speech Translation, where thanks to an efficient Transformer we can work with a spectrogram without having to use convolutional layers before the Transformer. This allows the encoder to learn directly from the spectrogram and no information is lost. We have created an encoder-decoder model, where the encoder is an efficient Transformer -- the Longformer -- and the decoder is a traditional Transformer decoder. Our results, which are close to the ones obtained with the standard approach, show that this is a promising research direction.
翻訳日:2021-07-08 13:56:50 公開日:2021-07-07
# モデルベース逆強化学習による時間不変報酬関数の学習

Learning Time-Invariant Reward Functions through Model-Based Inverse Reinforcement Learning ( http://arxiv.org/abs/2107.03186v1 )

ライセンス: Link先を確認
Todor Davchev, Sarah Bechtle, Subramanian Ramamoorthy, Franziska Meier(参考訳) 逆強化学習は、実演行動から一般報酬関数を学習する目的によって動機付けられたパラダイムである。 しかし、学習コストの一般性の概念は、様々な空間的摂動に対する堅牢性の観点から、しばしば評価され、実行の一定速度での展開を仮定する。 しかし、ロボット工学の文脈では非現実的であり、時間不変のソリューションを構築することは重要である。 本研究では,1)時間不変コストの学習による実行時間の変化と,2)実演から学ぶための時間的アライメント要件の緩和を可能にする定式化を提案する。 提案手法を2種類のコスト定式化に適用し,その性能をシミュレーションによる報酬関数の学習とホールタスクにおけるpegの学習の文脈で評価した。 提案手法は,分散作業の空間的一般化が可能な不一致デモンストレーションから,時間的不変報酬を学習できることを示す。

Inverse reinforcement learning is a paradigm motivated by the goal of learning general reward functions from demonstrated behaviours. Yet the notion of generality for learnt costs is often evaluated in terms of robustness to various spatial perturbations only, assuming deployment at fixed speeds of execution. However, this is impractical in the context of robotics and building time-invariant solutions is of crucial importance. In this work, we propose a formulation that allows us to 1) vary the length of execution by learning time-invariant costs, and 2) relax the temporal alignment requirements for learning from demonstration. We apply our method to two different types of cost formulations and evaluate their performance in the context of learning reward functions for simulated placement and peg in hole tasks. Our results show that our approach enables learning temporally invariant rewards from misaligned demonstration that can also generalise spatially to out of distribution tasks.
翻訳日:2021-07-08 13:56:34 公開日:2021-07-07
# 冠動脈cctaにおける著明な狭窄検出のためのトランスフォーマーネットワーク

Transformer Network for Significant Stenosis Detection in CCTA of Coronary Arteries ( http://arxiv.org/abs/2107.03035v1 )

ライセンス: Link先を確認
Xinghua Ma, Gongning Luo, Wei Wang and Kuanquan Wang(参考訳) 冠状動脈疾患(CAD)は、長い間、世界中の心血管疾患患者の生活に重大な脅威をもたらしてきた。 したがって,CADの自動診断は臨床医学において不可欠である。 しかし,CADの原因となる冠動脈プラークの複雑化は,冠動脈造影(CCTA)における冠動脈狭窄の自動検出を困難にしている。 本稿では,重要な狭窄を自動的に検出するTransformer Network(TR-Net)を提案する。 cadのコンピュータ支援診断を実質的に完了させながら, 発光幅を50%以上狭めている。 提案したTR-Netは、新しいTransformerを導入し、畳み込み層とTransformerエンコーダを密結合することで、それらの利点をタスクで示すことができる。 意味情報シーケンスを解析することにより、TR-Netは、MPR(Multiplanar reformatted)画像の各位置における画像情報間の関係を完全に理解し、局所情報とグローバル情報の両方に基づいて重要な狭窄を正確に検出することができる。 経験豊富な放射線科医がアノテートした異なる患者76人のデータからtr-netを評価した。 実験の結果, TR-Net は ACC (0.92), Spec (0.96), PPV (0.84), F1 (0.79) および MCC (0.74) において, 最先端の手法と比較して良好な結果を得た。 ソースコードはリンクから公開されている(https://github.com/ XinghuaMa/TR-Net)。

Coronary artery disease (CAD) has posed a leading threat to the lives of cardiovascular disease patients worldwide for a long time. Therefore, automated diagnosis of CAD has indispensable significance in clinical medicine. However, the complexity of coronary artery plaques that cause CAD makes the automatic detection of coronary artery stenosis in Coronary CT angiography (CCTA) a difficult task. In this paper, we propose a Transformer network (TR-Net) for the automatic detection of significant stenosis (i.e. luminal narrowing > 50%) while practically completing the computer-assisted diagnosis of CAD. The proposed TR-Net introduces a novel Transformer, and tightly combines convolutional layers and Transformer encoders, allowing their advantages to be demonstrated in the task. By analyzing semantic information sequences, TR-Net can fully understand the relationship between image information in each position of a multiplanar reformatted (MPR) image, and accurately detect significant stenosis based on both local and global information. We evaluate our TR-Net on a dataset of 76 patients from different patients annotated by experienced radiologists. Experimental results illustrate that our TR-Net has achieved better results in ACC (0.92), Spec (0.96), PPV (0.84), F1 (0.79) and MCC (0.74) indicators compared with the state-of-the-art methods. The source code is publicly available from the link (https://github.com/ XinghuaMa/TR-Net).
翻訳日:2021-07-08 13:55:56 公開日:2021-07-07
# 行動認識型知覚アンカリングによる信頼性のある世界モデル維持

Maintaining a Reliable World Model using Action-aware Perceptual Anchoring ( http://arxiv.org/abs/2107.03038v1 )

ライセンス: Link先を確認
Ying Siu Liang, Dongkyu Choi, Kenneth Kwok(参考訳) 信頼できる知覚は、世界と対話するロボットにとって不可欠である。 しかし、この能力を提供するにはセンサーだけでは不十分であり、環境の様々な条件のためにエラーを起こしやすい。 さらに、物体が見えなくなったり見えなくなったりしても、ロボットが周囲のモデルを維持する必要がある。 これは、環境内のオブジェクトを表すシンボルに知覚情報をアンカーする必要がある。 本稿では,ロボットが物体を永続的に追跡できる行動認識型知覚アンカーのモデルを提案する。 規則に基づくアプローチでは, 帰納的バイアスを低レベル物体検出の結果よりも高いレベルの推論を行い, 複雑なタスクに対するロボットの知覚能力を向上させる。 我々は既存のオブジェクトパーマネンスのベースラインモデルに対して評価を行い、1,371ビデオのデータセットを用いてスニッチローカライズタスクでこれらを上回っていることを示す。 また,認知的アーキテクチャの文脈において,行動認識型知覚的アンカーを統合することで,ロボットのリアルなギアボックス組み立てタスクにおけるそのメリットを実証する。

Reliable perception is essential for robots that interact with the world. But sensors alone are often insufficient to provide this capability, and they are prone to errors due to various conditions in the environment. Furthermore, there is a need for robots to maintain a model of its surroundings even when objects go out of view and are no longer visible. This requires anchoring perceptual information onto symbols that represent the objects in the environment. In this paper, we present a model for action-aware perceptual anchoring that enables robots to track objects in a persistent manner. Our rule-based approach considers inductive biases to perform high-level reasoning over the results from low-level object detection, and it improves the robot's perceptual capability for complex tasks. We evaluate our model against existing baseline models for object permanence and show that it outperforms these on a snitch localisation task using a dataset of 1,371 videos. We also integrate our action-aware perceptual anchoring in the context of a cognitive architecture and demonstrate its benefits in a realistic gearbox assembly task on a Universal Robot.
翻訳日:2021-07-08 13:55:32 公開日:2021-07-07
# 自己監督型屋外照明

Self-supervised Outdoor Scene Relighting ( http://arxiv.org/abs/2107.03106v1 )

ライセンス: Link先を確認
Ye Yu, Abhimitra Meka, Mohamed Elgharib, Hans-Peter Seidel, Christian Theobalt, William A. P. Smith(参考訳) 屋外の風景の照明は、風景の幾何学、照明、アルベドをよく理解する必要がある困難な問題である。 現在の技術は完全に監視されており、ソリューションをトレーニングするために高品質な合成レンダリングを必要とする。 このようなレンダリングは、限られたデータから学んだ先行データを使って合成される。 対照的に,リライトの自己監督アプローチを提案する。 当社のアプローチは,ユーザの監督なしにインターネットから収集した画像のコーパスのみに基づいて訓練されている。 この事実上無限のトレーニングデータソースは、一般的なリライトソリューションのトレーニングを可能にする。 我々のアプローチはまず、画像をそのアルベド、幾何学、照明に分解する。 そして、照明パラメータを変更して新規の照明を行う。 専用シャドウ予測マップを用いてシャドウをキャプチャし,正確な幾何学的推定には依存しない。 地中照準を用いた新しいデータセットを主観的,客観的に評価した。 以上の結果から,本手法は不審な場面に一般化した,実写的かつ物理的に有理な結果を生成する能力を示す。

Outdoor scene relighting is a challenging problem that requires good understanding of the scene geometry, illumination and albedo. Current techniques are completely supervised, requiring high quality synthetic renderings to train a solution. Such renderings are synthesized using priors learned from limited data. In contrast, we propose a self-supervised approach for relighting. Our approach is trained only on corpora of images collected from the internet without any user-supervision. This virtually endless source of training data allows training a general relighting solution. Our approach first decomposes an image into its albedo, geometry and illumination. A novel relighting is then produced by modifying the illumination parameters. Our solution capture shadow using a dedicated shadow prediction map, and does not rely on accurate geometry estimation. We evaluate our technique subjectively and objectively using a new dataset with ground-truth relighting. Results show the ability of our technique to produce photo-realistic and physically plausible results, that generalizes to unseen scenes.
翻訳日:2021-07-08 13:55:15 公開日:2021-07-07
# エゴセントリックビデオ会議

Egocentric Videoconferencing ( http://arxiv.org/abs/2107.03109v1 )

ライセンス: Link先を確認
Mohamed Elgharib, Mohit Mendiratta, Justus Thies, Matthias Nie{\ss}ner, Hans-Peter Seidel, Ayush Tewari, Vladislav Golyanik, Christian Theobalt(参考訳) 本稿では,例えば,スマートグラスなどの複合現実感デバイスを用いて,ハンズフリーのビデオ通話を実現するエゴセントリックなビデオ会議手法を提案する。 ビデオ会議は、価値ある非言語コミュニケーションと表情の手がかりを描写するが、通常は前面カメラを必要とする。 人が動いているとき、ハンズフリーでフロントカメラを使うことは非現実的です。 長時間座っている間、顔の前に携帯電話のカメラを持っていても便利ではない。 これらの問題を克服するために、スマートグラスに統合可能な低コストのウェアラブル・エゴセントリックカメラセットを提案する。 私たちの目標は、古典的なビデオ通話を模倣することであり、それゆえ、このカメラのエゴセントリックな視点をフロントビデオに変換することです。 この目的のために,高度に歪んだ自己中心的視点からテレビ会議に共通する正面的視点への遷移を学習する条件付き生成型逆向ニューラルネットワークを用いる。 本手法は, 複雑な中間パラメトリック表現モデルを用いることなく, エゴセントリックな視点から表現の詳細を直接伝達することを目的としている。 舌運動,眼球運動,眼の瞬き,強い表情,奥行きの変動など,パラメトリックブレンドシェイプに基づくソリューションでは容易には捉えられない微妙な表現をうまく処理できた。 対象視界における剛体頭部の動きを制御するために,移動中性面の合成レンダリングにジェネレータを条件とした。 これにより、異なる頭部ポーズで結果を合成できる。 本手法は,時間的判別器を併用したビデオ対ビデオ翻訳ネットワークを用いて,リアルタイムに時間的にスムーズな映像実写レンダリングを実現する。 我々は, 関連する最先端技術との比較により, 技術の性能向上を実証する。

We introduce a method for egocentric videoconferencing that enables hands-free video calls, for instance by people wearing smart glasses or other mixed-reality devices. Videoconferencing portrays valuable non-verbal communication and face expression cues, but usually requires a front-facing camera. Using a frontal camera in a hands-free setting when a person is on the move is impractical. Even holding a mobile phone camera in the front of the face while sitting for a long duration is not convenient. To overcome these issues, we propose a low-cost wearable egocentric camera setup that can be integrated into smart glasses. Our goal is to mimic a classical video call, and therefore, we transform the egocentric perspective of this camera into a front facing video. To this end, we employ a conditional generative adversarial neural network that learns a transition from the highly distorted egocentric views to frontal views common in videoconferencing. Our approach learns to transfer expression details directly from the egocentric view without using a complex intermediate parametric expressions model, as it is used by related face reenactment methods. We successfully handle subtle expressions, not easily captured by parametric blendshape-based solutions, e.g., tongue movement, eye movements, eye blinking, strong expressions and depth varying movements. To get control over the rigid head movements in the target view, we condition the generator on synthetic renderings of a moving neutral face. This allows us to synthesis results at different head poses. Our technique produces temporally smooth video-realistic renderings in real-time using a video-to-video translation network in conjunction with a temporal discriminator. We demonstrate the improved capabilities of our technique by comparing against related state-of-the art approaches.
翻訳日:2021-07-08 13:55:02 公開日:2021-07-07
# エゴセントリックビデオ合成のためのクロスビューエキソセントリック

Cross-View Exocentric to Egocentric Video Synthesis ( http://arxiv.org/abs/2107.03120v1 )

ライセンス: Link先を確認
Gaowen Liu, Hao Tang, Hugo Latapie, Jason Corso, Yan Yan(参考訳) クロスビュービデオ合成タスクは、別の異なるビューからあるビューのビデオシーケンスを生成する。 本稿では,エゴセントリック(一人称)映像生成タスクにおけるエキソセントリック(三人称)視点について検討する。 これは、エゴセントリックなビューとエゴセントリックなビューとは大きく異なる場合があります。 したがって、外観を2つの異なる視点に変換することは非自明な作業である。 特に,空間的および時間的情報を学習し,エゴセントリックな映像列を生成するための双方向空間的時空間的注意融合生成広告ネットワーク(sta-gan)を提案する。 提案するsta-ganは,時間分枝,空間分枝,注意融合の3部からなる。 まず、時間枝と空間枝は、一連の偽フレームとその対応する特徴を生成する。 擬似フレームは、時空間分岐と時空間分岐の両方に対して下流方向と上流方向の両方で生成される。 次に、生成された4つの異なるフェイクフレームとその対応する特徴(2方向の空間的および時間的分岐)を新しい多世代注意融合モジュールに供給し、最終映像シーケンスを生成する。 また,よりロバストなネットワーク最適化のための時間的および空間的二重判別器を提案する。 Side2EgoデータセットとTop2Egoデータセットの大規模な実験は、提案されたSTA-GANが既存の手法を大幅に上回っていることを示している。

Cross-view video synthesis task seeks to generate video sequences of one view from another dramatically different view. In this paper, we investigate the exocentric (third-person) view to egocentric (first-person) view video generation task. This is challenging because egocentric view sometimes is remarkably different from the exocentric view. Thus, transforming the appearances across the two different views is a non-trivial task. Particularly, we propose a novel Bi-directional Spatial Temporal Attention Fusion Generative Adversarial Network (STA-GAN) to learn both spatial and temporal information to generate egocentric video sequences from the exocentric view. The proposed STA-GAN consists of three parts: temporal branch, spatial branch, and attention fusion. First, the temporal and spatial branches generate a sequence of fake frames and their corresponding features. The fake frames are generated in both downstream and upstream directions for both temporal and spatial branches. Next, the generated four different fake frames and their corresponding features (spatial and temporal branches in two directions) are fed into a novel multi-generation attention fusion module to produce the final video sequence. Meanwhile, we also propose a novel temporal and spatial dual-discriminator for more robust network optimization. Extensive experiments on the Side2Ego and Top2Ego datasets show that the proposed STA-GAN significantly outperforms the existing methods.
翻訳日:2021-07-08 13:54:32 公開日:2021-07-07
# Bias-Tolerant Fair 分類

Bias-Tolerant Fair Classification ( http://arxiv.org/abs/2107.03207v1 )

ライセンス: Link先を確認
Yixuan Zhang, Feng Zhou, Zhidong Li, Yang Wang, Fang Chen(参考訳) ラベルバイアスと選択バイアスは、機械学習の結果の公平性を阻害する2つの理由として認識される。 ラベルバイアスは、ラベル決定がセンシティブな特徴に邪魔された場合に発生し、データサンプリング中に主観的バイアスが存在するときに選択バイアスが発生する。 さらに悪いことに、そのようなデータに基づいてトレーニングされたモデルは、差別を継承または強化することができる。 ほとんどのアルゴリズム的公正アプローチは、事前定義された公正性制約を伴う経験的リスク最小化を実行する。 しかし、そのような方法は、偏見に影響された個人に対する利益(肯定的な結果)を犠牲にして、望ましい公平性レベルを達成する。 そこで本研究では,ラベルバイアスと選択バイアスの影響を受けるデータを用いて,利益を回復しようとするバイアス耐性fairregularizedloss( b-farl)を提案する。 B-FARLはバイアスデータを入力として取り、公正だが潜伏的なデータで訓練されたデータを近似したモデルを呼び出す。 さらに,B-FARLを分解して有効成分を示すとともに,B-FARL最適化のためのメタラーニングフレームワークを利用する。 実世界のデータセットを用いた実験結果から,本手法は真のラベルの向きに対する公平性向上に有効であることが示された。

The label bias and selection bias are acknowledged as two reasons in data that will hinder the fairness of machine-learning outcomes. The label bias occurs when the labeling decision is disturbed by sensitive features, while the selection bias occurs when subjective bias exists during the data sampling. Even worse, models trained on such data can inherit or even intensify the discrimination. Most algorithmic fairness approaches perform an empirical risk minimization with predefined fairness constraints, which tends to trade-off accuracy for fairness. However, such methods would achieve the desired fairness level with the sacrifice of the benefits (receive positive outcomes) for individuals affected by the bias. Therefore, we propose a Bias-TolerantFAirReg ularizedLoss (B-FARL), which tries to regain the benefits using data affected by label bias and selection bias. B-FARL takes the biased data as input, calls a model that approximates the one trained with fair but latent data, and thus prevents discrimination without constraints required. In addition, we show the effective components by decomposing B-FARL, and we utilize the meta-learning framework for the B-FARL optimization. The experimental results on real-world datasets show that our method is empirically effective in improving fairness towards the direction of true but latent labels.
翻訳日:2021-07-08 13:53:30 公開日:2021-07-07
# 「確かですか?」 「:複数の店舗に対する製品比較のスケールアップからの予備的洞察

"Are you sure?": Preliminary Insights from Scaling Product Comparisons to Multiple Shops ( http://arxiv.org/abs/2107.03256v1 )

ライセンス: Link先を確認
Patrick John Chia and Bingqing Yu and Jacopo Tagliabue(参考訳) 大手eコマースプレーヤーは新しいタイプのレコメンデーションとして比較テーブルを導入した。 しかし、既存のトレーニング/分類データなしで大規模に比較を構築することは、特にロングテールの店舗の運用上の制約の中で、オープンな課題である。 我々は,マルチショップシナリオにスケールするように設計された比較パイプラインを構築するための予備的な結果を示す: 設計選択を説明し,複数の店舗で広範なベンチマークを実行してストレステストを行う。 最後に、プロパティの選択に関する小さなユーザー調査を行い、潜在的な改善について議論し、対処すべき質問を強調することで締めくくります。

Large eCommerce players introduced comparison tables as a new type of recommendations. However, building comparisons at scale without pre-existing training/taxonomy data remains an open challenge, especially within the operational constraints of shops in the long tail. We present preliminary results from building a comparison pipeline designed to scale in a multi-shop scenario: we describe our design choices and run extensive benchmarks on multiple shops to stress-test it. Finally, we run a small user study on property selection and conclude by discussing potential improvements and highlighting the questions that remain to be addressed.
翻訳日:2021-07-08 13:53:09 公開日:2021-07-07
# RoFL: セキュアなフェデレーション学習のための実証可能なロバスト性

RoFL: Attestable Robustness for Secure Federated Learning ( http://arxiv.org/abs/2107.03311v1 )

ライセンス: Link先を確認
Lukas Burkhalter, Hidde Lycklama \`a Nijeholt, Alexander Viand, Nicolas K\"uchler, Anwar Hithnawi(参考訳) フェデレーション学習(federated learning)は、多くのクライアントがプライベートデータを共有せずに共同モデルをトレーニングできる、新たな分散機械学習パラダイムである。 参加者はモデルトレーニングに必要な一時的な更新のみを共有する。 クライアント更新の機密性を確保するため、連合学習システムはセキュアアグリゲーションを採用し、クライアントは勾配更新を暗号化し、集約されたモデルのみをサーバに公開する。 しかし、このレベルのデータ保護を達成することで、フェデレーション学習の堅牢性、すなわち障害や攻撃を許容する能力に新たな課題が浮かび上がってくる。 残念ながら、この設定では、悪意のあるクライアントは、検出されることなく、モデル動作に簡単に影響を与えることができる。 フェデレーション学習は、さまざまなセンシティブなアプリケーションで実際に展開されているため、その堅牢性は重要性を増している。 本稿では,安全な連合学習のロバスト性を理解し,改善するための一歩を踏み出す。 本論文は,既存の攻撃ベクトルを評価し,解析し,潜在的防御について考察し,その効果を評価する体系的な研究から始める。 次に,暗号化されたモデル更新の入力チェックを通じて,悪意のあるクライアントに対する堅牢性を向上させる,セキュアなフェデレーション学習システムroflを提案する。 RoFLはフェデレートラーニングのセキュアアグリゲーションプロトコルを拡張し、ゼロ知識証明を使用してモデル更新にさまざまなプロパティと制約を表現できるようにする。 RoFLが一般的なフェデレートラーニング設定にスケールするために、フェデレートラーニングに特有のMLと暗号の最適化をいくつか導入する。 我々は,RoFLのプロトタイプの実装と評価を行い,ロバスト性を改善しつつ,現実的なMLモデルを合理的な時間で訓練可能であることを示す。

Federated Learning is an emerging decentralized machine learning paradigm that allows a large number of clients to train a joint model without the need to share their private data. Participants instead only share ephemeral updates necessary to train the model. To ensure the confidentiality of the client updates, Federated Learning systems employ secure aggregation; clients encrypt their gradient updates, and only the aggregated model is revealed to the server. Achieving this level of data protection, however, presents new challenges to the robustness of Federated Learning, i.e., the ability to tolerate failures and attacks. Unfortunately, in this setting, a malicious client can now easily exert influence on the model behavior without being detected. As Federated Learning is being deployed in practice in a range of sensitive applications, its robustness is growing in importance. In this paper, we take a step towards understanding and improving the robustness of secure Federated Learning. We start this paper with a systematic study that evaluates and analyzes existing attack vectors and discusses potential defenses and assesses their effectiveness. We then present RoFL, a secure Federated Learning system that improves robustness against malicious clients through input checks on the encrypted model updates. RoFL extends Federated Learning's secure aggregation protocol to allow expressing a variety of properties and constraints on model updates using zero-knowledge proofs. To enable RoFL to scale to typical Federated Learning settings, we introduce several ML and cryptographic optimizations specific to Federated Learning. We implement and evaluate a prototype of RoFL and show that realistic ML models can be trained in a reasonable time while improving robustness.
翻訳日:2021-07-08 13:52:59 公開日:2021-07-07
# Trans4Trans:視覚障害者の現実世界でのナビゲーションを支援する透明物体分割のための効率的なトランスフォーマー

Trans4Trans: Efficient Transformer for Transparent Object Segmentation to Help Visually Impaired People Navigate in the Real World ( http://arxiv.org/abs/2107.03172v1 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin M\"uller, Rainer Stiefelhagen(参考訳) 一般的な完全にガラス張りのファサードや透明な物体は、建築上の障壁が存在し、視力や視力が低い人の移動を妨げる。 しかし、これらの安全クリティカルな物体のセグメンテーションは、従来の補助技術ではほとんどカバーされない。 そこで本研究では, 汎用および透明な物体を分割し, 一人歩きを支援するリアルタイムのウェイフィングを行うことが可能な, 透明化のためのデュアルヘッドトランスフォーマー(trans4trans)モデルを用いたウェアラブルシステムを構築する。 特に,提案したTransformer Parsing Module (TPM) によって生成されたデコーダは,異なるデータセットから効果的な共同学習を可能にする。 さらに、対称トランスフォーマベースのエンコーダとデコーダで構成される効率的なtrans4transモデルでは、計算コストが少なく、ポータブルgpuに容易にデプロイできる。 我々のTrans4Transモデルは、Stanford2D3DとTrans10K-v2データセットのテストセットで最先端の手法より優れ、それぞれ45.13%と75.14%のmIoUが得られる。 屋内および屋外のシナリオで実施した様々な事前試験とユーザスタディを通じて,本システムの有用性と信頼性を広く検証した。

Common fully glazed facades and transparent objects present architectural barriers and impede the mobility of people with low vision or blindness, for instance, a path detected behind a glass door is inaccessible unless it is correctly perceived and reacted. However, segmenting these safety-critical objects is rarely covered by conventional assistive technologies. To tackle this issue, we construct a wearable system with a novel dual-head Transformer for Transparency (Trans4Trans) model, which is capable of segmenting general and transparent objects and performing real-time wayfinding to assist people walking alone more safely. Especially, both decoders created by our proposed Transformer Parsing Module (TPM) enable effective joint learning from different datasets. Besides, the efficient Trans4Trans model composed of symmetric transformer-based encoder and decoder, requires little computational expenses and is readily deployed on portable GPUs. Our Trans4Trans model outperforms state-of-the-art methods on the test sets of Stanford2D3D and Trans10K-v2 datasets and obtains mIoU of 45.13% and 75.14%, respectively. Through various pre-tests and a user study conducted in indoor and outdoor scenarios, the usability and reliability of our assistive system have been extensively verified.
翻訳日:2021-07-08 13:52:31 公開日:2021-07-07
# HIDA:ウェアラブルソリッドステートLiDARセンサを用いたセマンティックインスタンスセグメンテーションによる視覚障害者の立体的室内理解に向けて

HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor ( http://arxiv.org/abs/2107.03180v1 )

ライセンス: Link先を確認
Huayao Liu, Ruiping Liu, Kailun Yang, Jiaming Zhang, Kunyu Peng, Rainer Stiefelhagen(参考訳) 未知の空間を独立して探索したり、屋内環境で物体を見つけることは、視覚障害者にとって日々の課題である。 しかし、一般的な2次元補助システムは様々な物体間の深度関係を欠いているため、正確な空間配置と相対位置を得るのが困難である。 これらの課題に対処するために,固体LiDARセンサを用いた3Dポイントクラウドインスタンスセグメンテーションに基づく軽量支援システムHIDAを提案する。 システム全体は,3つのハードウェアコンポーネント,2つの対話機能~(障害物回避とオブジェクト発見)と音声ユーザインタフェースから構成される。 音声指導に基づいて、ユーザが行うオンサイトスキャンにより、室内環境の変化の最新状態からのポイントクラウドをキャプチャする。 さらに,システム全体の効率を満足するセマンティクスとオフセット予測のための2つの軽量デコーダを備えたポイントクラウドセグメンテーションモデルを設計する。 3Dインスタンスのセグメンテーションの後、アウトレーヤを除去し、すべてのポイントをトップビューの2Dマップ表現に投影することで、セグメンテーションされたポイントクラウドを後処理する。 システムは上記の情報を統合し、音響フィードバックによって直感的にユーザーと対話する。 提案した3Dインスタンスセグメンテーションモデルは、ScanNet v2データセットで最先端のパフォーマンスを達成した。 総合的な屋内理解,障害物回避,物体探索において視覚障害者を支援するシステムの有用性と有効性を検証する。

Independently exploring unknown spaces or finding objects in an indoor environment is a daily but challenging task for visually impaired people. However, common 2D assistive systems lack depth relationships between various objects, resulting in difficulty to obtain accurate spatial layout and relative positions of objects. To tackle these issues, we propose HIDA, a lightweight assistive system based on 3D point cloud instance segmentation with a solid-state LiDAR sensor, for holistic indoor detection and avoidance. Our entire system consists of three hardware components, two interactive functions~(obstacle avoidance and object finding) and a voice user interface. Based on voice guidance, the point cloud from the most recent state of the changing indoor environment is captured through an on-site scanning performed by the user. In addition, we design a point cloud segmentation model with dual lightweight decoders for semantic and offset predictions, which satisfies the efficiency of the whole system. After the 3D instance segmentation, we post-process the segmented point cloud by removing outliers and projecting all points onto a top-view 2D map representation. The system integrates the information above and interacts with users intuitively by acoustic feedback. The proposed 3D instance segmentation model has achieved state-of-the-art performance on ScanNet v2 dataset. Comprehensive field tests with various tasks in a user study verify the usability and effectiveness of our system for assisting visually impaired people in holistic indoor understanding, obstacle avoidance and object search.
翻訳日:2021-07-08 13:52:07 公開日:2021-07-07
# 希薄なランドマークと統計的形状モデルによる骨表面再建と臨床像の推定:大腿骨の検討

Bone Surface Reconstruction and Clinical Features Estimation from Sparse Landmarks and Statistical Shape Models: A feasibility study on the femur ( http://arxiv.org/abs/2107.03292v1 )

ライセンス: Link先を確認
Alireza Asvadi, Guillaume Dardenne, Jocelyne Troccaz, Valerie Burdin(参考訳) そこで本研究では,骨の識別が容易な骨ランドマークから大腿骨骨表面およびその機械的軸を判定する方法について検討した。 したがって、大腿骨全体の再建は、統計的形状モデル(SSM)を用いてこれらのランドマークから行われる。 そこで本研究の目的は, 下肢解析において重要な臨床指標である大腿骨再建術の目印の数, 位置, 精度, およびそれに関連する機械的軸の決定について検討することである。 社内データセットと公開データセットから,2つの統計的大腿骨モデルを作成した。 両者は, 平均点対点表面距離誤差および大腿骨の機械的軸による評価を行った。 さらに, ブニーランドマークの代替として, 皮膚へのランドマークの使用が臨床に与える影響について検討した。 骨質のランドマークから推定された近位大腿骨は、上面のランドマークよりも正確であり、どちらも3.5度以下の機械軸角偏差誤差を持っていた。 メカニカル軸の非侵襲的決定に関する結果は, 整形外科的, 機能的リハビリテーションのための下肢の分析において, 非常に興味深い臨床視点を開くことができる。

In this study, we investigated a method allowing the determination of the femur bone surface as well as its mechanical axis from some easy-to-identify bony landmarks. The reconstruction of the whole femur is therefore performed from these landmarks using a Statistical Shape Model (SSM). The aim of this research is therefore to assess the impact of the number, the position, and the accuracy of the landmarks for the reconstruction of the femur and the determination of its related mechanical axis, an important clinical parameter to consider for the lower limb analysis. Two statistical femur models were created from our in-house dataset and a publicly available dataset. Both were evaluated in terms of average point-to-point surface distance error and through the mechanical axis of the femur. Furthermore, the clinical impact of using landmarks on the skin in replacement of bony landmarks is investigated. The predicted proximal femurs from bony landmarks were more accurate compared to on-skin landmarks while both had less than 3.5 degrees mechanical axis angle deviation error. The results regarding the non-invasive determination of the mechanical axis are very encouraging and could open very interesting clinical perspectives for the analysis of the lower limb either for orthopedics or functional rehabilitation.
翻訳日:2021-07-08 13:51:41 公開日:2021-07-07
# グラフニューラルネットワークを用いた精神疾患診断のための構造的・機能的脳ネットワークの組込み

Joint Embedding of Structural and Functional Brain Networks with Graph Neural Networks for Mental Illness Diagnosis ( http://arxiv.org/abs/2107.03220v1 )

ライセンス: Link先を確認
Yanqiao Zhu, Hejie Cui, Lifang He, Lichao Sun, Carl Yang(参考訳) マルチモーダル脳ネットワークは、構造的および機能的側面から異なる脳領域間の複雑な結合性を特徴付け、精神疾患解析のための新しい手段を提供する。 近年,グラフニューラルネットワーク(GNN)は,グラフ構造化データのデファクトモデルとなっている。 しかし、複数のモーダルで脳ネットワークから効果的な表現を抽出するためにGNNを用いる方法はほとんど研究されていない。 さらに、脳ネットワークは初期ノード機能を提供しないため、情報ノード属性を設計し、学習するGNNのエッジウェイトを活用する方法は未解決のままである。 そこで我々は,マルチモーダル脳ネットワークのための新しいマルチビューGNNを開発した。 特に,各モダリティを脳ネットワークの視点として捉え,マルチモーダル融合のためのコントラスト学習を用いる。 そこで本研究では,次数統計と脳領域の接続性に基づくメッセージ伝達方式を応用したGNNモデルを提案する。 実世界の2つの疾患データセット(HIVとバイポーラ)に対する大規模な実験により,提案手法が最先端のベースラインに対して有効であることを実証した。

Multimodal brain networks characterize complex connectivities among different brain regions from both structural and functional aspects and provide a new means for mental disease analysis. Recently, Graph Neural Networks (GNNs) have become a de facto model for analyzing graph-structured data. However, how to employ GNNs to extract effective representations from brain networks in multiple modalities remains rarely explored. Moreover, as brain networks provide no initial node features, how to design informative node attributes and leverage edge weights for GNNs to learn is left unsolved. To this end, we develop a novel multiview GNN for multimodal brain networks. In particular, we regard each modality as a view for brain networks and employ contrastive learning for multimodal fusion. Then, we propose a GNN model which takes advantage of the message passing scheme by propagating messages based on degree statistics and brain region connectivities. Extensive experiments on two real-world disease datasets (HIV and Bipolar) demonstrate the effectiveness of our proposed method over state-of-the-art baselines.
翻訳日:2021-07-08 13:50:46 公開日:2021-07-07
# プライバシー保護連合学習を用いたder予測

DER Forecast using Privacy Preserving Federated Learning ( http://arxiv.org/abs/2107.03248v1 )

ライセンス: Link先を確認
Venkatesh Venkataramanan, Sridevi Kaza, and Anuradha M. Annaswamy(参考訳) 再生可能エネルギー、フレキシブル負荷、ストレージを含むグリッドエッジにおける分散エネルギー資源(der)の浸透の増加に伴い、消費者レベルでの分散エネルギーと消費の正確な予測が重要となる。 しかし、顧客レベルのデータ送信に基づくderの予測は、繰り返しあるいは大量に行われるが、プライバシの懸念から実現不可能である。 本稿では,分散機械学習手法であるfederated learningを提案し,iotノードのネットワークを用いたder予測を行う。 我々は,1000 DERを含むシミュレーション研究を考察し,その方法が消費者プライバシの正確な予測につながる一方で,正確な予測につながることを示す。 また,負荷変動や負荷削減などのグリッド固有の性能指標を評価し,FLアルゴリズムが良好な性能をもたらすことを示す。 また,実データに対する提案手法の有効性を実証するために,pecan streetデータセット上でシミュレーションを行う。

With increasing penetration of Distributed Energy Resources (DERs) in grid edge including renewable generation, flexible loads, and storage, accurate prediction of distributed generation and consumption at the consumer level becomes important. However, DER prediction based on the transmission of customer level data, either repeatedly or in large amounts, is not feasible due to privacy concerns. In this paper, a distributed machine learning approach, Federated Learning, is proposed to carry out DER forecasting using a network of IoT nodes, each of which transmits a model of the consumption and generation patterns without revealing consumer data. We consider a simulation study which includes 1000 DERs, and show that our method leads to an accurate prediction of preserve consumer privacy, while still leading to an accurate forecast. We also evaluate grid-specific performance metrics such as load swings and load curtailment and show that our FL algorithm leads to satisfactory performance. Simulations are also performed on the Pecan street dataset to demonstrate the validity of the proposed approach on real data.
翻訳日:2021-07-08 13:50:27 公開日:2021-07-07
# SoundStream: エンドツーエンドのニューラルオーディオコーデック

SoundStream: An End-to-End Neural Audio Codec ( http://arxiv.org/abs/2107.03312v1 )

ライセンス: Link先を確認
Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi(参考訳) 本研究では,音声対応コーデックを対象とするビットレートで,音声,音楽,一般音声を効率的に圧縮するニューラルオーディオコーデックであるsoundstreamを提案する。 soundstreamは、完全畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器からなるモデルアーキテクチャに依存している。 近年のテキスト・トゥ・スピーキングと音声強調の進歩を利用して、敵対的・再構成的損失を組み合わせ、量子化された埋め込みから高品質なオーディオコンテンツを生成する。 量子化層に適用された構造化ドロップアウトでトレーニングすることで、1つのモデルは3kbpsから18kbpsの可変ビットレートで動作でき、固定ビットレートでトレーニングされたモデルと比較した場合、品質の損失は無視できる。 さらに、このモデルは低レイテンシの実装に対応しており、ストリーミング可能な推論をサポートし、スマートフォンのCPU上でリアルタイムで実行される。 24kHzサンプリングレートでの音声による主観評価では、3kbpsのSoundStreamは12kbpsでOpusより優れ、9.6kbpsでEVSに接近する。 さらに,エンコーダ側あるいはデコーダ側で,追加の遅延を伴わずに共同圧縮および拡張を行うことができ,音声の背景雑音抑制による実演を行うことができる。

We present SoundStream, a novel neural audio codec that can efficiently compress speech, music and general audio at bitrates normally targeted by speech-tailored codecs. SoundStream relies on a model architecture composed by a fully convolutional encoder/decoder network and a residual vector quantizer, which are trained jointly end-to-end. Training leverages recent advances in text-to-speech and speech enhancement, which combine adversarial and reconstruction losses to allow the generation of high-quality audio content from quantized embeddings. By training with structured dropout applied to quantizer layers, a single model can operate across variable bitrates from 3kbps to 18kbps, with a negligible quality loss when compared with models trained at fixed bitrates. In addition, the model is amenable to a low latency implementation, which supports streamable inference and runs in real time on a smartphone CPU. In subjective evaluations using audio at 24kHz sampling rate, SoundStream at 3kbps outperforms Opus at 12kbps and approaches EVS at 9.6kbps. Moreover, we are able to perform joint compression and enhancement either at the encoder or at the decoder side with no additional latency, which we demonstrate through background noise suppression for speech.
翻訳日:2021-07-08 13:50:10 公開日:2021-07-07
# (参考訳) Sarcasm Detection : 比較検討 [全文訳有]

Sarcasm Detection: A Comparative Study ( http://arxiv.org/abs/2107.02276v2 )

ライセンス: CC BY 4.0
Hamed Yaghoobian, Hamid R. Arabnia, Khaled Rasheed(参考訳) サルカズム検出は、感情を含むテキスト中の発話を含む皮肉を識別するタスクである。 しかし、サルカズムの具体的かつ創造的な性質は感情分析を行う感情コンピューティングシステムにとって大きな課題となる。 本論文は, サーカズム自動検出の文献における有意な成果をまとめ, レビューする。 1) 暗黙的な感情を識別するための半教師付きパターン抽出、2) ハッシュタグに基づく監督、3) ターゲットテキストを超えたコンテキストの組込み、の3つである。 本稿では,皮肉や皮肉の検出におけるデータセット,アプローチ,トレンド,課題の包括的なレビューを行う。

Sarcasm detection is the task of identifying irony containing utterances in sentiment-bearing text. However, the figurative and creative nature of sarcasm poses a great challenge for affective computing systems performing sentiment analysis. This article compiles and reviews the salient work in the literature of automatic sarcasm detection. Thus far, three main paradigm shifts have occurred in the way researchers have approached this task: 1) semi-supervised pattern extraction to identify implicit sentiment, 2) use of hashtag-based supervision, and 3) incorporation of context beyond target text. In this article, we provide a comprehensive review of the datasets, approaches, trends, and issues in sarcasm and irony detection.
翻訳日:2021-07-08 13:04:12 公開日:2021-07-07
# (参考訳) ユーザ中心の説明可能性のための臨床コンテキストの活用--糖尿病患者を例として [全文訳有]

Leveraging Clinical Context for User-Centered Explainability: A Diabetes Use Case ( http://arxiv.org/abs/2107.02359v2 )

ライセンス: CC BY 4.0
Shruthi Chari, Prithwish Chakraborty, Mohamed Ghalwash, Oshani Seneviratne, Elif K. Eyigoz, Daniel M. Gruen, Ching-Hua Chen, Pablo Meyer Rojas, Deborah L. McGuinness(参考訳) 医療のような高精度領域におけるAIモデルの学術的進歩は、現実世界の採用を促進するために説明可能である必要がある。 我々の過去の研究と継続的な相互作用は、患者に関するモデル推論を、使用状況に結びついた説明に結びつける方法があれば、医療専門家がより信頼できるAIシステムを使うことを示唆している。 特に、リスク予測は、診断と介入の重要性の複雑な問題であり、意思決定のために異なるソースを相談する。 実際にAIリスク予測モデルの改善を実現するために、我々は、患者の臨床状態、合併症のリスクに関するAI予測、予測をサポートするアルゴリズム的な説明の3つの側面に沿って、そのようなモデルを文脈化するための技術を探り始めた。 慢性腎臓病 (CKD) のリスクを評価する2型糖尿病 (T2DM) の症例において, 概念実証 (POC) を導入することで, これらの次元の重要性を検証した。 POCには、CKDのリスク予測モデル、予測のポストホック説明器、ドメイン知識とCPGを運用してコンテキストを提供する自然言語モジュールが含まれています。 本論文では,プライマリ・ケア・ドクター(PCP)をエンドユーザとして,最初の結果と臨床医からのフィードバックを紹介する。 我々のPOCアプローチは、複数の知識ソースと臨床シナリオをカバーし、データと予測をPCPに説明するために知識をブレンドし、医療専門家から熱心に反応した。

Academic advances of AI models in high-precision domains, like healthcare, need to be made explainable in order to enhance real-world adoption. Our past studies and ongoing interactions indicate that medical experts can use AI systems with greater trust if there are ways to connect the model inferences about patients to explanations that are tied back to the context of use. Specifically, risk prediction is a complex problem of diagnostic and interventional importance to clinicians wherein they consult different sources to make decisions. To enable the adoption of the ever improving AI risk prediction models in practice, we have begun to explore techniques to contextualize such models along three dimensions of interest: the patients' clinical state, AI predictions about their risk of complications, and algorithmic explanations supporting the predictions. We validate the importance of these dimensions by implementing a proof-of-concept (POC) in type-2 diabetes (T2DM) use case where we assess the risk of chronic kidney disease (CKD) - a common T2DM comorbidity. Within the POC, we include risk prediction models for CKD, post-hoc explainers of the predictions, and other natural-language modules which operationalize domain knowledge and CPGs to provide context. With primary care physicians (PCP) as our end-users, we present our initial results and clinician feedback in this paper. Our POC approach covers multiple knowledge sources and clinical scenarios, blends knowledge to explain data and predictions to PCPs, and received an enthusiastic response from our medical expert.
翻訳日:2021-07-08 12:51:25 公開日:2021-07-07
# (参考訳) 離散値ニューラル通信 [全文訳有]

Discrete-Valued Neural Communication ( http://arxiv.org/abs/2107.02367v2 )

ライセンス: CC BY 4.0
Dianbo Liu Dianbo_Liu, Alex Lamb, Kenji Kawaguchi, Anirudh Goyal, Chen Sun, Michael Curtis Mozer, Yoshua Bengio(参考訳) ディープラーニングは、完全に接続されたアーキテクチャから、位置要素で構成されるトランスフォーマ、スロットに分割されたモジュラアーキテクチャ、ノードで構成されるグラフニューラルネットなど、コンポーネント化された構造化モデルへと進化した。 構造化モデルでは、異なるコンポーネント間で動的かつおそらくスパースな通信を行う方法が興味深い質問である。 本稿では,成分間の伝達情報を離散表現に制限することが有効なボトルネックであるとする仮説を考察する。 動機づけ直観は、コミュニケーションが個別のシンボルを通して起こる人間の言語である。 個人は「猫」が特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンは、個人間のコミュニケーションが内部表現の個人差によって切り離されることを可能にする。 特殊コンポーネント間で動的に伝達される概念の値を識別するために、量子化機構をベクトル量子化変分オートエンコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラルネットワーク(DVNC)に使用する。 我々の実験によると、DVNCはトランスフォーマー、モジュラーアーキテクチャ、グラフニューラルネットワークなど、さまざまなアーキテクチャにおける体系的な一般化を大幅に改善する。 また、DVNCはハイパーパラメータの選択に頑健であり、実際に非常に有用であることを示す。 さらに、離散化過程の理論的正当性を確立し、ノイズロバスト性を高め、モデルの基礎となる次元性を低減できることを示した。

Deep learning has advanced from fully connected architectures to structured models organized into components, e.g., the transformer composed of positional elements, modular architectures divided into slots, and graph neural nets made up of nodes. In structured models, an interesting question is how to conduct dynamic and possibly sparse communication among the separate components. Here, we explore the hypothesis that restricting the transmitted information among components to discrete representations is a beneficial bottleneck. The motivating intuition is human language in which communication occurs through discrete symbols. Even though individuals have different understandings of what a "cat" is based on their specific experiences, the shared discrete token makes it possible for communication among individuals to be unimpeded by individual differences in internal representation. To discretize the values of concepts dynamically communicated among specialist components, we extend the quantization mechanism from the Vector-Quantized Variational Autoencoder to multi-headed discretization with shared codebooks and use it for discrete-valued neural communication (DVNC). Our experiments show that DVNC substantially improves systematic generalization in a variety of architectures -- transformers, modular architectures, and graph neural networks. We also show that the DVNC is robust to the choice of hyperparameters, making the method very useful in practice. Moreover, we establish a theoretical justification of our discretization process, proving that it has the ability to increase noise robustness and reduce the underlying dimensionality of the model.
翻訳日:2021-07-08 12:39:39 公開日:2021-07-07
# (参考訳) 深層学習ネットワークを用いた前立腺セグメンテーションのための新しいスマートクロッピングパイプライン [全文訳有]

A new smart-cropping pipeline for prostate segmentation using deep learning networks ( http://arxiv.org/abs/2107.02476v2 )

ライセンス: CC BY 4.0
Dimitrios G. Zaridis, Eugenia Mylona, Nikolaos S. Tachos, Kostas Marias, Nikolaos Papanikolaou, Manolis Tsiknakis, Dimitrios I. Fotiadis(参考訳) MRI(MRI)による前立腺の分節化は難しい課題である。 近年、このプロセスを自動化し、手動アノテーションの負担を軽減するために、いくつかのネットワークアーキテクチャが提案されている。 これらのモデルの性能は有望な結果を得たが、これらのモデルが安全かつ効果的に臨床で使用できるまでには改善の余地がある。 前立腺mr画像分割における大きな課題の1つは、背景画素が前立腺を支配する画像ラベルにおけるクラス不均衡の存在である。 本研究では,MRI画像から前立腺周辺の領域を抽出し,前景画素(前立腺)と背景画素のよりバランスのとれた分布を生成し,セグメンテーション精度を向上させるためのDLベースのパイプラインを提案する。 U-net、U-net+、Res Unet++、Bridge U-net、Dense U-netの5つの有名なDLネットワークを用いて、DL-croppingによるセグメンテーション性能の向上効果を評価する。 提案したスマートクロッピングは、評価された前立腺区分けネットワークのセグメンテーション精度の観点から、標準中心収量よりも優れていた。 Diceのスコアでは、それぞれ8.9%と8%に対応するU-net+とResU-net++アーキテクチャで最高の改善が達成された。

Prostate segmentation from magnetic resonance imaging (MRI) is a challenging task. In recent years, several network architectures have been proposed to automate this process and alleviate the burden of manual annotation. Although the performance of these models has achieved promising results, there is still room for improvement before these models can be used safely and effectively in clinical practice. One of the major challenges in prostate MR image segmentation is the presence of class imbalance in the image labels where the background pixels dominate over the prostate. In the present work we propose a DL-based pipeline for cropping the region around the prostate from MRI images to produce a more balanced distribution of the foreground pixels (prostate) and the background pixels and improve segmentation accuracy. The effect of DL-cropping for improving the segmentation performance compared to standard center-cropping is assessed using five popular DL networks for prostate segmentation, namely U-net, U-net+, Res Unet++, Bridge U-net and Dense U-net. The proposed smart-cropping outperformed the standard center cropping in terms of segmentation accuracy for all the evaluated prostate segmentation networks. In terms of Dice score, the highest improvement was achieved for the U-net+ and ResU-net++ architectures corresponding to 8.9% and 8%, respectively.
翻訳日:2021-07-08 11:50:48 公開日:2021-07-07
# (参考訳) 不均衡データセットにおける顔クラスタリングのためのGCNに基づくリンク予測:実証的研究 [全文訳有]

GCN-Based Linkage Prediction for Face Clustering on Imbalanced Datasets: An Empirical Study ( http://arxiv.org/abs/2107.02477v2 )

ライセンス: CC BY 4.0
Huafeng Yang, Xingjian Chen, Fangyi Zhang, Guangyue Hei, Yunjie Wang and Rong Du(参考訳) 近年、グラフ畳み込みネットワーク(GCN)の表現力の恩恵を受け、顔クラスタリングにおいて大きなブレークスルーがなされている。 しかし、不均衡データに対するgcnベースのクラスタリングには稀な注意が払われている。 不均衡問題は広く研究されているが、GCNベースの連鎖予測タスクにおける不均衡データの影響は全く異なり、不均衡リンクラベルと偏りグラフ表現の2つの側面で問題を引き起こす。 不均衡なリンケージラベルの問題は画像分類タスクのそれと似ているが、後者はリンケージ予測によるgcnベースのクラスタリングにおいて特に問題となる。 トレーニングにおける重要なバイアス付きグラフ表現は、GCNモデルの破滅的なオーバーフィッティングを引き起こす可能性がある。 これらの課題に対処するために,グラフ上の不均衡画像分類問題に対する既存手法の有効性を広範囲な実験により評価し,逆不均衡重みサンプリング(RIWS)戦略を用いて不均衡ラベルを緩和し,グラフ表現を増強する新たな手法を提案する。 MS-Celeb-1MとDeepFashionから合成された一連の不均衡ベンチマークデータセットはhttps://github.com/e spectre/GCNs_on_im Balanced_datasetsで公開されている。

In recent years, benefiting from the expressive power of Graph Convolutional Networks (GCNs), significant breakthroughs have been made in face clustering. However, rare attention has been paid to GCN-based clustering on imbalanced data. Although imbalance problem has been extensively studied, the impact of imbalanced data on GCN-based linkage prediction task is quite different, which would cause problems in two aspects: imbalanced linkage labels and biased graph representations. The problem of imbalanced linkage labels is similar to that in image classification task, but the latter is a particular problem in GCN-based clustering via linkage prediction. Significantly biased graph representations in training can cause catastrophic overfitting of a GCN model. To tackle these problems, we evaluate the feasibility of those existing methods for imbalanced image classification problem on graphs with extensive experiments, and present a new method to alleviate the imbalanced labels and also augment graph representations using a Reverse-Imbalance Weighted Sampling (RIWS) strategy, followed with insightful analyses and discussions. The code and a series of imbalanced benchmark datasets synthesized from MS-Celeb-1M and DeepFashion are available on https://github.com/e spectre/GCNs_on_imba lanced_datasets.
翻訳日:2021-07-08 11:36:12 公開日:2021-07-07
# (参考訳) ハイブリッド・コンボリューション・アテンション・ニューラルアーキテクチャによる肺炎の重症度予測 [全文訳有]

COVID-19 Pneumonia Severity Prediction using Hybrid Convolution-Attentio n Neural Architectures ( http://arxiv.org/abs/2107.02672v2 )

ライセンス: CC BY 4.0
Nam Nguyen, J. Morris Chang(参考訳) 本研究では、データ中心とモデル中心のアプローチを組み合わせた、新型コロナウイルス重症度予測の新しいフレームワークを提案する。 まず,調査データセットの極めて怖いデータシナリオに対して,データ中心の事前学習を提案する。 次に,TransformerとDense Associative Memory(Modern Hopfield Network)の自己アテンションを利用した2つのハイブリッド畳み込み型ニューラルネットワークを提案する。 提案手法は,従来のベースラインアプローチから大幅に改善されている。 R^2 = 0.85 \pm 0.05$およびピアソン相関係数$\rho = 0.92 \pm 0.02$、R^2 = 0.72 \pm 0.09, \rho = 0.85\pm 0.06$を不透明度予測で達成した。

This study proposed a novel framework for COVID-19 severity prediction, which is a combination of data-centric and model-centric approaches. First, we propose a data-centric pre-training for extremely scare data scenarios of the investigating dataset. Second, we propose two hybrid convolution-attentio n neural architectures that leverage the self-attention from the Transformer and the Dense Associative Memory (Modern Hopfield networks). Our proposed approach achieves significant improvement from the conventional baseline approach. The best model from our proposed approach achieves $R^2 = 0.85 \pm 0.05$ and Pearson correlation coefficient $\rho = 0.92 \pm 0.02$ in geographic extend and $R^2 = 0.72 \pm 0.09, \rho = 0.85\pm 0.06$ in opacity prediction.
翻訳日:2021-07-08 11:24:41 公開日:2021-07-07
# (参考訳) 前景認識型スタイライゼーションとコンセンサス擬似ラベルによる人手セグメンテーションのドメイン適応 [全文訳有]

Foreground-Aware Stylization and Consensus Pseudo-Labeling for Domain Adaptation of First-Person Hand Segmentation ( http://arxiv.org/abs/2107.02718v2 )

ライセンス: CC BY 4.0
Takehiko Ohkawa, Takuma Yagi, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato(参考訳) ハンドセグメンテーションは、一人称視覚において重要なタスクである。 1人称画像は、異なる環境の外観に強い偏見を示すため、手話分割において、トレーニング済みのセグメンテーションモデルを新しい領域に適応させる必要がある。 ここでは,手領域と背景の外観ギャップを別々に検討する。 i)手分割の領域適応のための前景認識画像スタイリングと (ii) コンセンサス擬似ラベルを提案する。 我々は、ターゲットイメージをスタイルとして、前景と背景のソースイメージを独立にスタイリングする。 スタイル化が未解決の領域シフトを解決するために,ソース上でトレーニングされたモデルとスタイル化されたソースイメージとのコンセンサスを考慮し,注意深い擬似ラベルを適用する。 実画像およびシミュレーション画像からのハンドセグメンテーションの領域適応について検証した。 本手法は両設定で最先端の性能を達成した。 また、マルチターゲットドメイン適応とドメイン一般化設定に挑戦する有望な結果を示した。 コードはhttps://github.com/u t-vision/FgSty-CPLで入手できる。

Hand segmentation is a crucial task in first-person vision. Since first-person images exhibit strong bias in appearance among different environments, adapting a pre-trained segmentation model to a new domain is required in hand segmentation. Here, we focus on appearance gaps for hand regions and backgrounds separately. We propose (i) foreground-aware image stylization and (ii) consensus pseudo-labeling for domain adaptation of hand segmentation. We stylize source images independently for the foreground and background using target images as style. To resolve the domain shift that the stylization has not addressed, we apply careful pseudo-labeling by taking a consensus between the models trained on the source and stylized source images. We validated our method on domain adaptation of hand segmentation from real and simulation images. Our method achieved state-of-the-art performance in both settings. We also demonstrated promising results in challenging multi-target domain adaptation and domain generalization settings. Code is available at https://github.com/u t-vision/FgSty-CPL.
翻訳日:2021-07-08 11:11:05 公開日:2021-07-07
# (参考訳) adarl: 転校強化学習にどのように適応するか、どこで、どのように適応するか

AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning ( http://arxiv.org/abs/2107.02729v2 )

ライセンス: CC BY-SA 4.0
Biwei Huang, Fan Feng, Chaochao Lu, Sara Magliacane, Kun Zhang(参考訳) 強化学習(RL)におけるほとんどのアプローチは、データハングリーであり、固定環境に特有のものである。 本稿では,AdaRLと呼ばれる適応RLの原理的フレームワークを提案する。 具体的には、システム内の変数間の構造的関係に関する生成環境モデルを構築し、その変更をコンパクトな方法で埋め込むことにより、変更がどこにあり、どのように適応するかを特定するための明確で解釈可能な図を提供する。 環境モデルに基づいて、ドメイン固有因子とドメイン共有状態表現の両方を含む最小限の表現を特徴付け、信頼性と低コストの転送に十分である。 さらに,変化をエンコードするためにコンパクト表現を明示的に活用することにより,ターゲット領域のさらなるポリシー最適化を行なわずに,少数のサンプルでポリシーを適応できることを示す。 本稿では,AdaRLがCartpole と Atari の異なるコンポーネントに変化を与える一連の実験を通じて有効性を示す。

Most approaches in reinforcement learning (RL) are data-hungry and specific to fixed environments. In this paper, we propose a principled framework for adaptive RL, called AdaRL, that adapts reliably to changes across domains. Specifically, we construct a generative environment model for the structural relationships among variables in the system and embed the changes in a compact way, which provides a clear and interpretable picture for locating what and where the changes are and how to adapt. Based on the environment model, we characterize a minimal set of representations, including both domain-specific factors and domain-shared state representations, that suffice for reliable and low-cost transfer. Moreover, we show that by explicitly leveraging a compact representation to encode changes, we can adapt the policy with only a few samples without further policy optimization in the target domain. We illustrate the efficacy of AdaRL through a series of experiments that allow for changes in different components of Cartpole and Atari games.
翻訳日:2021-07-08 10:51:21 公開日:2021-07-07
# 円核を畳み込みニューラルネットワークに統合する

Integrating Circle Kernels into Convolutional Neural Networks ( http://arxiv.org/abs/2107.02451v2 )

ライセンス: Link先を確認
Kun He, Chao Li, Yixiao Yang, Gao Huang, John E. Hopcroft(参考訳) 平方核は、畳み込み演算のテンソル計算によく適合するため、現代畳み込みニューラルネットワーク(CNN)の標準単位である。 しかし、人間の視覚系の受容野は実際には円のように等方的である。 本研究の目的は, 等方性受容場を持つ円核を畳み込みに利用することであり, 対応するCNNと正方形カーネルを比べた場合, ほぼ同等の計算量を必要とする。 予備実験では円核の有理性を示す。 次に、トレーニングと推論のために、円周カーネルと正方形カーネルを統合するカーネル強化戦略を提案し、さらに、トレーニング中にカーネルのサイズ/半径を学習できるようにする。 推測の前に円カーネルや統合カーネルを再パラメータ化するので、余分な計算やテストのパラメータオーバヘッドの数を必要としないことに注意してください。 いくつかの標準データセット(ImageNet, CIFAR-10, CIFAR-100)に対する大規模な実験により, 既存のCNNのサークルカーネルや統合カーネルを用いて, 高い競合性能を示した。 具体的には、標準データ拡張によるImageNetでは、MobileNetV3-Smallのパフォーマンスを5.20%、トップ5の3.39%で劇的に向上させ、MobileNetV3-Largeのパフォーマンスを2.16%、トップ5の1.18%で向上させる。

The square kernel is a standard unit for contemporary Convolutional Neural Networks (CNNs), as it fits well on the tensor computation for the convolution operation. However, the receptive field in the human visual system is actually isotropic like a circle. Motivated by this observation, we propose using circle kernels with isotropic receptive fields for the convolution, and our training takes approximately equivalent amount of calculation when compared with the corresponding CNN with square kernels. Our preliminary experiments demonstrate the rationality of circle kernels. We then propose a kernel boosting strategy that integrates the circle kernels with square kernels for the training and inference, and we further let the kernel size/radius be learnable during the training. Note that we reparameterize the circle kernels or integrated kernels before the inference, thus taking no extra computation as well as the number of parameter overhead for the testing. Extensive experiments on several standard datasets, ImageNet, CIFAR-10 and CIFAR-100, using the circle kernels or integrated kernels on typical existing CNNs, show that our approach exhibits highly competitive performance. Specifically, on ImageNet with standard data augmentation, our approach dramatically boosts the performance of MobileNetV3-Small by 5.20% top-1 accuracy and 3.39% top-5 accuracy, and boosts the performance of MobileNetV3-Large by 2.16% top-1 accuracy and 1.18% top-5 accuracy.
翻訳日:2021-07-08 10:49:27 公開日:2021-07-07
# マルチタスク学習による多国インフルエンザ予測のための単一モデル

Single Model for Influenza Forecasting of Multiple Countries by Multi-task Learning ( http://arxiv.org/abs/2107.01760v2 )

ライセンス: Link先を確認
Taichi Murayama, Shoko Wakamiya, Eiji Aramaki(参考訳) インフルエンザなどの感染症の正確な予測は医療機関が行う重要な課題である。 過去の研究では, 過去のインフルエンザ活動データとオンラインユーザ生成コンテンツを中心に, 多数のインフルエンザ予測手法やモデルが提案されているが, 2種類のデータを用いた複数の国を対象としたインフルエンザ予測モデルは現在存在しない。 本稿では,マルチタスク学習を活用して,複数の国を対象にした1つのインフルエンザ予測モデルの構築に挑戦する。 また,より高性能なインフルエンザ予測モデルを開発するために,ユーザ生成コンテンツの一部である適切な検索クエリの探索と,モデル生成における検索クエリの有効活用という2つの課題を解決した。 第一号では、英語から他言語への移動アプローチを提案する。 第2の課題として,注意機構を用いて検索クエリを活用し,複数の国のインフルエンザ予測のためのマルチタスクモデルにモデルを拡張した新しいインフルエンザ予測モデルを提案する。 5か国におけるインフルエンザ流行予測実験の結果,検索クエリとマルチタスク学習をベースラインと比較し,このモデルによる性能改善が確認された。

The accurate forecasting of infectious epidemic diseases such as influenza is a crucial task undertaken by medical institutions. Although numerous flu forecasting methods and models based mainly on historical flu activity data and online user-generated contents have been proposed in previous studies, no flu forecasting model targeting multiple countries using two types of data exists at present. Our paper leverages multi-task learning to tackle the challenge of building one flu forecasting model targeting multiple countries; each country as each task. Also, to develop the flu prediction model with higher performance, we solved two issues; finding suitable search queries, which are part of the user-generated contents, and how to leverage search queries efficiently in the model creation. For the first issue, we propose the transfer approaches from English to other languages. For the second issue, we propose a novel flu forecasting model that takes advantage of search queries using an attention mechanism and extend the model to a multi-task model for multiple countries' flu forecasts. Experiments on forecasting flu epidemics in five countries demonstrate that our model significantly improved the performance by leveraging the search queries and multi-task learning compared to the baselines.
翻訳日:2021-07-08 10:49:01 公開日:2021-07-07
# ディープフェイク検出の安全性の理解

Understanding the Security of Deepfake Detection ( http://arxiv.org/abs/2107.02045v2 )

ライセンス: Link先を確認
Xiaoyu Cao and Neil Zhenqiang Gong(参考訳) ディープフェイクはインターネット上の情報の信頼にますます困難をもたらしている。 このように、ディープフェイクの検出は、学界と産業の両方から注目を集めている。 最先端のディープフェイク検出方法は、顔抽出器と顔分類器の2つのキーコンポーネントから構成され、画像中の顔領域を抽出し、それを実物/偽物に分類する。 既存の研究では、主に非敵の設定における検出性能の改善に焦点が当てられ、敵の設定におけるディープフェイク検出の安全性はほとんど探索されていない。 この作業では、ギャップを埋めることを目指しています。 特に,攻撃環境における最先端のディープフェイク検出手法の安全性を理解するために,体系的な測定を行った。 我々は、faceforensics++とfacebook deepfake detection challengeを含む2つの大規模な公開ディープフェイクデータソースを使用し、ディープフェイクは偽の顔画像であり、最先端のディープフェイク検出方法をトレーニングする。 これらの検出方法は、これらのデータセットの非競合設定において 0.94--0.99 accuracies を達成することができる。 しかし,本測定の結果から,ディープフェイク検出手法の複数のセキュリティ上の制約が明らかとなった。 まず,ディープフェイク画像にガウス雑音を付加することにより,顔抽出器,すなわち顔抽出器が適切な顔領域を抽出できないことを発見した。 第二に、あるメソッドで生成されたディープフェイクを用いて訓練された顔分類器は、別のメソッドで生成されたディープフェイクを検出することができない。 第三に、攻撃者は、敵の機械学習コミュニティが開発したバックドア攻撃を利用して、顔分類器を避けることができる。 以上の結果から,ディープフェイク検出は問題の性質を考慮すべきであることが示唆された。

Deepfakes pose growing challenges to the trust of information on the Internet. Thus, detecting deepfakes has attracted increasing attentions from both academia and industry. State-of-the-art deepfake detection methods consist of two key components, i.e., face extractor and face classifier, which extract the face region in an image and classify it to be real/fake, respectively. Existing studies mainly focused on improving the detection performance in non-adversarial settings, leaving security of deepfake detection in adversarial settings largely unexplored. In this work, we aim to bridge the gap. In particular, we perform a systematic measurement study to understand the security of the state-of-the-art deepfake detection methods in adversarial settings. We use two large-scale public deepfakes data sources including FaceForensics++ and Facebook Deepfake Detection Challenge, where the deepfakes are fake face images; and we train state-of-the-art deepfake detection methods. These detection methods can achieve 0.94--0.99 accuracies in non-adversarial settings on these datasets. However, our measurement results uncover multiple security limitations of the deepfake detection methods in adversarial settings. First, we find that an attacker can evade a face extractor, i.e., the face extractor fails to extract the correct face regions, via adding small Gaussian noise to its deepfake images. Second, we find that a face classifier trained using deepfakes generated by one method cannot detect deepfakes generated by another method, i.e., an attacker can evade detection via generating deepfakes using a new method. Third, we find that an attacker can leverage backdoor attacks developed by the adversarial machine learning community to evade a face classifier. Our results highlight that deepfake detection should consider the adversarial nature of the problem.
翻訳日:2021-07-08 10:48:43 公開日:2021-07-07
# 細粒度視覚分類のためのフィーチャーフュージョンビジョントランスフォーマ

Feature Fusion Vision Transformer for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2107.02341v2 )

ライセンス: Link先を確認
Jun Wang, Xiaohan Yu and Yongsheng Gao(参考訳) きめ細かい視覚分類(FGVC)に取り組む上でのコアは、微妙で差別的な特徴を学習することである。 従来のほとんどの研究は、識別的部分を明示的に選択したり、CNNベースのアプローチで注意機構を統合することでこれを達成しているが、これらの手法は計算の複雑さを高め、ほとんどのオブジェクトを含む領域でモデルが支配されるようにする。 近年,視覚トランスフォーマー(ViT)は一般的な画像認識タスクにおいてSOTA性能を実現している。 自己認識機構は、すべてのパッチから分類トークンに情報を集約し、重み付けし、FGVCに完全に適合する。 それでも、深層層にあるclassifi-cationトークンは、fgvcに不可欠なローカルおよび低レベルの機能を欠いたグローバル情報にさらに注意を払っている。 本研究では,各トランス層から重要なトークンを集約し,局所情報,低レベル情報,中レベル情報を補償する,純粋変換器ベースのフレームワークであるFeature Fusion Vision Transformer (FFVT)を提案する。 本稿では,ネットワークを効果的かつ効率的に誘導し,余分なパラムエターを導入することなく識別トークンを選択するための,相互注意重み選択(maws)と呼ばれる新しいトークン選択モジュールを設計する。 FFVTが最先端性能を達成する3つのベンチマークにおけるFFVTの有効性を検証する。

The core for tackling the fine-grained visual categorization (FGVC) is to learn subtle yet discriminative features. Most previous works achieve this by explicitly selecting the discriminative parts or integrating the attention mechanism via CNN-based approaches.However, these methods enhance the computational complexity and make the modeldominated by the regions containing the most of the objects. Recently, vision trans-former (ViT) has achieved SOTA performance on general image recognition tasks. Theself-attention mechanism aggregates and weights the information from all patches to the classification token, making it perfectly suitable for FGVC. Nonetheless, the classifi-cation token in the deep layer pays more attention to the global information, lacking the local and low-level features that are essential for FGVC. In this work, we proposea novel pure transformer-based framework Feature Fusion Vision Transformer (FFVT)where we aggregate the important tokens from each transformer layer to compensate thelocal, low-level and middle-level information. We design a novel token selection mod-ule called mutual attention weight selection (MAWS) to guide the network effectively and efficiently towards selecting discriminative tokens without introducing extra param-eters. We verify the effectiveness of FFVT on three benchmarks where FFVT achieves the state-of-the-art performance.
翻訳日:2021-07-08 10:48:12 公開日:2021-07-07
# 一般化線形モデルの兄弟回帰

Sibling Regression for Generalized Linear Models ( http://arxiv.org/abs/2107.01338v2 )

ライセンス: Link先を確認
Shiv Shankar, Daniel Sheldon(参考訳) フィールド観測は多くの科学研究の基礎、特に生態学と社会科学の基礎を形成する。 このような調査を標準化した方法で実施する努力にもかかわらず、観測は系統的な測定誤差を負う可能性がある。 観測プロセスによって導入された系統的変動の除去は、可能であれば、このデータの価値を大きく高めることができる。 このような誤りを補正する既存の非パラメトリック手法は、線形加法的雑音モデルを仮定する。 これは一般化線形モデル(glm)に適用された場合のバイアス付き推定に繋がる。 この制限に対処するための残差関数に基づくアプローチを提案する。 次に、その効果を合成データに示し、モト調査における系統的検出のばらつきを低減させることを示す。

Field observations form the basis of many scientific studies, especially in ecological and social sciences. Despite efforts to conduct such surveys in a standardized way, observations can be prone to systematic measurement errors. The removal of systematic variability introduced by the observation process, if possible, can greatly increase the value of this data. Existing non-parametric techniques for correcting such errors assume linear additive noise models. This leads to biased estimates when applied to generalized linear models (GLM). We present an approach based on residual functions to address this limitation. We then demonstrate its effectiveness on synthetic data and show it reduces systematic detection variability in moth surveys.
翻訳日:2021-07-08 10:47:48 公開日:2021-07-07