このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211221となっている論文です。

PDF登録状況(公開日: 20211221)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) CausalMTA: Causal Multi-touch Attribution のユーザコンバウンディングバイアスの除去 [全文訳有]

CausalMTA: Eliminating the User Confounding Bias for Causal Multi-touch Attribution ( http://arxiv.org/abs/2201.00689v1 )

ライセンス: CC BY 4.0
Di Yao, Chang Gong, Lei Zhang, Sheng Chen, Jingping Bi(参考訳) MTA(Multi-touch Attribution)は,転換旅行における各広告タッチポイントの貢献を推定することを目的として,予算配分と自動広告に不可欠である。 既存の方法は、まず、過去のデータを用いて広告旅行の変換確率を予測するモデルを訓練し、反実予測を用いて各タッチポイントの属性を算出する。 これらの研究の前提は、変換予測モデルは偏りがなく、事実と反事実の両方を含む任意のランダムに割り当てられた旅の正確な予測を与えることができる、ということである。 それでも、露出広告がユーザの好みに応じて推奨されるため、この仮定は必ずしも成り立たない。 このユーザの矛盾したバイアスは、反ファクトの予測におけるアウト・オブ・ディストリビューション(OOD)の問題を引き起こし、帰属の概念の漂流を引き起こす。 本稿では,因果的MTAタスクを定義し,ユーザ嗜好の影響を排除するためにCausalMTAを提案する。 静的な選好と動的選好の両方から構築されるバイアスを体系的に排除し、履歴データを用いて変換予測モデルを学ぶ。 また、CausalMTAが十分なデータでバイアスのない予測モデルを学習できることを証明する理論的解析も提供する。 電子商取引会社における公開データセットと印象データの両方に関する大規模な実験は、CausalMTAが最先端の手法よりも優れた予測性能を達成するだけでなく、異なる広告チャンネル間で有意義な帰属クレジットを生成することを示している。

Multi-touch attribution (MTA), aiming to estimate the contribution of each advertisement touchpoint in conversion journeys, is essential for budget allocation and automatically advertising. Existing methods first train a model to predict the conversion probability of the advertisement journeys with historical data and calculate the attribution of each touchpoint using counterfactual predictions. An assumption of these works is the conversion prediction model is unbiased, i.e., it can give accurate predictions on any randomly assigned journey, including both the factual and counterfactual ones. Nevertheless, this assumption does not always hold as the exposed advertisements are recommended according to user preferences. This confounding bias of users would lead to an out-of-distribution (OOD) problem in the counterfactual prediction and cause concept drift in attribution. In this paper, we define the causal MTA task and propose CausalMTA to eliminate the influence of user preferences. It systemically eliminates the confounding bias from both static and dynamic preferences to learn the conversion prediction model using historical data. We also provide a theoretical analysis to prove CausalMTA can learn an unbiased prediction model with sufficient data. Extensive experiments on both public datasets and the impression data in an e-commerce company show that CausalMTA not only achieves better prediction performance than the state-of-the-art method but also generates meaningful attribution credits across different advertising channels.
翻訳日:2022-01-09 16:10:40 公開日:2021-12-21
# (参考訳) マルチモーダル知識ベースを用いたマルチモーダルエンティティタグ [全文訳有]

Multimodal Entity Tagging with Multimodal Knowledge Base ( http://arxiv.org/abs/2201.00693v1 )

ライセンス: CC BY 4.0
Hao Peng, Hang Li, Lei Hou, Juanzi Li, Chao Qiao(参考訳) マルチモーダル知識ベースとマルチモーダル情報処理の研究を強化するために,マルチモーダル知識ベース(MKB)を用いたマルチモーダルエンティティタグ(MET)と呼ばれる新しいタスクを提案する。 また,既存のMKBを用いて問題のデータセットを作成する。 MKBにはエンティティとその関連したテキストとイメージがある。 METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。 我々は,情報検索パラダイムを用いて,NLPとCVの最先端手法を用いて,複数のベースラインを実装した。 広範な実験を行い,実験結果の分析を行う。 その結果,課題は難しいが,現在の技術は比較的高い性能を達成できることがわかった。 今後の研究のためにデータセット、コード、モデルをリリースします。

To enhance research on multimodal knowledge base and multimodal information processing, we propose a new task called multimodal entity tagging (MET) with a multimodal knowledge base (MKB). We also develop a dataset for the problem using an existing MKB. In an MKB, there are entities and their associated texts and images. In MET, given a text-image pair, one uses the information in the MKB to automatically identify the related entity in the text-image pair. We solve the task by using the information retrieval paradigm and implement several baselines using state-of-the-art methods in NLP and CV. We conduct extensive experiments and make analyses on the experimental results. The results show that the task is challenging, but current technologies can achieve relatively high performance. We will release the dataset, code, and models for future research.
翻訳日:2022-01-09 15:49:15 公開日:2021-12-21
# 薬物移動のためのaiシステムの検証と透明性--医療文献による有害事象の監視を事例として

Validation and Transparency in AI systems for pharmacovigilance: a case study applied to the medical literature monitoring of adverse events ( http://arxiv.org/abs/2201.00692v1 )

ライセンス: Link先を確認
Bruno Ohana, Jack Sullivan and Nicole Baker(参考訳) バイオメディカルテキストに適用された人工知能の最近の進歩は、現実世界のデータ量の増加に悩まされている製薬活動を改善するエキサイティングな機会を開きつつある。 これらの機会を十分に実現するためには、システム全体の信頼性を高め、より広範な採用を可能にするために、既存の規制ガイダンスと業界ベストプラクティスを考慮すべきである。 本稿では,医学文献からの有害事象の医学文献モニタリング(MLM)の具体的なタスクに着目し,薬剤移動におけるAIシステム検証のための既存のガイダンスの運用方法に関する事例研究を行う。 課題の専門家との密接なコラボレーションと、薬物移動とAI透明性の検証システムのためのガイダンスを考慮したMLM活動の労力削減を目的としたAIシステムについて述べる。 特に,公開開示をシステム誤用を軽減し,ユーザ信頼を得るためのリスク管理手段として活用する。 さらに, 高レベルのリコールを維持しつつ, スクリーニングの労力を大幅に削減できることを示す実験結果を示すとともに, 特定のリスクプロファイルに適合するように, 所望のリコールを調整するためのロバストな方法を提案する。

Recent advances in artificial intelligence applied to biomedical text are opening exciting opportunities for improving pharmacovigilance activities currently burdened by the ever growing volumes of real world data. To fully realize these opportunities, existing regulatory guidance and industry best practices should be taken into consideration in order to increase the overall trustworthiness of the system and enable broader adoption. In this paper we present a case study on how to operationalize existing guidance for validated AI systems in pharmacovigilance focusing on the specific task of medical literature monitoring (MLM) of adverse events from the scientific literature. We describe an AI system designed with the goal of reducing effort in MLM activities built in close collaboration with subject matter experts and considering guidance for validated systems in pharmacovigilance and AI transparency. In particular we make use of public disclosures as a useful risk control measure to mitigate system misuse and earn user trust. In addition we present experimental results showing the system can significantly remove screening effort while maintaining high levels of recall (filtering 55% of irrelevant articles on average, for a target recall of 0.99 on suspected adverse articles) and provide a robust method for tuning the desired recall to suit a particular risk profile.
翻訳日:2022-01-09 13:27:02 公開日:2021-12-21
# (参考訳) INTRPRT : 医用画像解析における透明AIの設計と検証のためのシステムレビューとガイドライン

INTRPRT: A Systematic Review of and Guidelines for Designing and Validating Transparent AI in Medical Image Analysis ( http://arxiv.org/abs/2112.12596v1 )

ライセンス: CC BY 4.0
Haomin Chen, Catalina Gomez, Chien-Ming Huang, Mathias Unberath(参考訳) Transparency in Machine Learning (ML)は、複雑なモデルの動作メカニズムを明らかにする。 Transparent MLは、ターゲットユーザーにおける人間中心AIのヒューマンファクターエンジニアリング目標を前進させることを約束する。 人間中心の設計の観点からは、透明性はMLモデルの特性ではなく、機会、すなわちアルゴリズムとユーザとの関係である。 しかしながら、医療や医療画像分析における人間中心の設計原則に従うことは、エンドユーザーへの可用性とアクセスが限られているため困難である。 医用画像解析における透明MLの現状を調べるため,文献の体系的レビューを行った。 医用画像解析用透明MLの設計と検証において,いくつかの重大な欠点が指摘されている。 その結果,現在までのほとんどの研究は,開発や評価を伴わないエンドユーザーを考慮せずに,タスクパフォーマンスに類似した,モデル自体の特性として透明性にアプローチしていることが判明した。 さらに, ユーザ調査の欠如, 透明性主張の散発的検証により, 医療画像解析における透過的MLの現代的研究は, ユーザにとって理解不能なリスクを伴い, 臨床的には無関係である。 医療における人中心設計の課題を認識しつつ、今後の研究におけるこれらの欠点を軽減するために、医療画像解析における透明MLシステムのための体系的設計指針であるINTRPRTガイドラインを導入する。 INTRPRTガイドラインは、ユーザニーズとドメイン要件を理解するための透過的なモデル設計の第一歩として、フォーマティブなユーザリサーチを提案する。 このプロセスの後、設計選択をサポートする証拠が生まれ、最終的にはアルゴリズムが透明性を得る可能性を高める。

Transparency in Machine Learning (ML), attempts to reveal the working mechanisms of complex models. Transparent ML promises to advance human factors engineering goals of human-centered AI in the target users. From a human-centered design perspective, transparency is not a property of the ML model but an affordance, i.e. a relationship between algorithm and user; as a result, iterative prototyping and evaluation with users is critical to attaining adequate solutions that afford transparency. However, following human-centered design principles in healthcare and medical image analysis is challenging due to the limited availability of and access to end users. To investigate the state of transparent ML in medical image analysis, we conducted a systematic review of the literature. Our review reveals multiple severe shortcomings in the design and validation of transparent ML for medical image analysis applications. We find that most studies to date approach transparency as a property of the model itself, similar to task performance, without considering end users during neither development nor evaluation. Additionally, the lack of user research, and the sporadic validation of transparency claims put contemporary research on transparent ML for medical image analysis at risk of being incomprehensible to users, and thus, clinically irrelevant. To alleviate these shortcomings in forthcoming research while acknowledging the challenges of human-centered design in healthcare, we introduce the INTRPRT guideline, a systematic design directive for transparent ML systems in medical image analysis. The INTRPRT guideline suggests formative user research as the first step of transparent model design to understand user needs and domain requirements. Following this process produces evidence to support design choices, and ultimately, increases the likelihood that the algorithms afford transparency.
翻訳日:2021-12-25 05:53:20 公開日:2021-12-21
# (参考訳) スマート農業におけるオントロジー的知識表現 [全文訳有]

An Ontological Knowledge Representation for Smart Agriculture ( http://arxiv.org/abs/2112.12768v1 )

ライセンス: CC BY 4.0
Bikram Pratim Bhuyan, Ravi Tomar, Maanak Gupta and Amar Ramdane-Cherif(参考訳) 農業産業にインフラを提供するには、ビッグデータやクラウド、モノのインターネット(IoT)といった高度な技術を活用する必要がある。 収集した一次データから抽出した知識を表現することは最も重要である。 本研究は,スマート農業システムのための農業オントロジーの枠組みについて述べる。 ナレッジグラフは、時空間的農業データの推論をキャプチャし実行するための格子として表現される。

In order to provide the agricultural industry with the infrastructure it needs to take advantage of advanced technology, such as big data, the cloud, and the internet of things (IoT); smart farming is a management concept that focuses on providing the infrastructure necessary to track, monitor, automate, and analyse operations. To represent the knowledge extracted from the primary data collected is of utmost importance. An agricultural ontology framework for smart agriculture systems is presented in this study. The knowledge graph is represented as a lattice to capture and perform reasoning on spatio-temporal agricultural data.
翻訳日:2021-12-25 05:51:51 公開日:2021-12-21
# (参考訳) 帰納論理プログラミングにおける前処理

Preprocessing in Inductive Logic Programming ( http://arxiv.org/abs/2112.12551v1 )

ライセンス: CC BY 4.0
Brad Hunter(参考訳) 帰納的論理プログラミング(inductive logic programming)は、論理プログラムを例から学習する機械学習の一種である。 この学習は通常、論理プログラムとして提供される背景知識と相対的に起こる。 この論文は、ilpシステムが考慮しなければならないプログラムに初期制約を生成する手法であるボトムプリプロセッシングを導入する。 ボトムプリプロセッシングは、逆包含から現代的なilpシステムへアイデアを適用する。 Inverse EntailmentはProgolで導入された初期のILPアプローチである。 この論文は、現代のilpシステムpopperのボトムプリプロセッシングの実装である$\bot$-popperも提示している。 ボトムプリプロセッシングは難解な問題に対するlppシステムの学習時間を短縮できることを実験的に示している。 この削減は、問題における背景知識の量が大きい場合に特に重要となる。

Inductive logic programming is a type of machine learning in which logic programs are learned from examples. This learning typically occurs relative to some background knowledge provided as a logic program. This dissertation introduces bottom preprocessing, a method for generating initial constraints on the programs an ILP system must consider. Bottom preprocessing applies ideas from inverse entailment to modern ILP systems. Inverse entailment is an influential early ILP approach introduced with Progol. This dissertation also presents $\bot$-Popper, an implementation of bottom preprocessing for the modern ILP system Popper. It is shown experimentally that bottom preprocessing can reduce learning times of ILP systems on hard problems. This reduction can be especially significant when the amount of background knowledge in the problem is large.
翻訳日:2021-12-25 05:39:24 公開日:2021-12-21
# minkowski と chebyshev を組み合わせる: k-nearest neighbors classifier を用いた距離測定の新しい提案と調査

Combining Minkowski and Chebyshev: New distance proposal and survey of distance metrics using k-nearest neighbours classifier ( http://arxiv.org/abs/2112.12549v1 )

ライセンス: Link先を確認
\'Erick Oliveira Rodrigues(参考訳) この研究はミンコフスキー距離とチェビシェフ距離を組み合わせた距離を提案し、中間距離と見なすことができる。 この組み合わせは、Z^2 の近傍反復タスクにおいて効率的な実行時間を達成するだけでなく、k-Nearest Neighbours (k-NN) 分類器と組み合わせることで、良好な精度が得られる。 提案された距離はマンハッタン距離の約1.3倍、ユークリッド距離の約329.5倍である。 UCIレポジトリから合計33個のデータセットを用いてk-NN分類器の精度解析を行い、kに割り当てられた距離と値が1から200まで変化することを示す。 この実験では, 提案した距離は平均値よりも高い精度(33例中26例, 33例中9例)を得るとともに, より高い精度(33例中9例)を得ることができた。

This work proposes a distance that combines Minkowski and Chebyshev distances and can be seen as an intermediary distance. This combination not only achieves efficient run times in neighbourhood iteration tasks in Z^2, but also obtains good accuracies when coupled with the k-Nearest Neighbours (k-NN) classifier. The proposed distance is approximately 1.3 times faster than Manhattan distance and 329.5 times faster than Euclidean distance in discrete neighbourhood iterations. An accuracy analysis of the k-NN classifier using a total of 33 datasets from the UCI repository, 15 distances and values assigned to k that vary from 1 to 200 is presented. In this experiment, the proposed distance obtained accuracies that were better than the average more often than its counterparts (in 26 cases out of 33), and also obtained the best accuracy more frequently (in 9 out of 33 cases).
翻訳日:2021-12-24 16:34:24 公開日:2021-12-21
# CGANを用いた安全性能向上のためのクラッシュデータ強化

Crash Data Augmentation Using Conditional Generative Adversarial Networks (CGAN) for Improving Safety Performance Functions ( http://arxiv.org/abs/2112.12263v1 )

ライセンス: Link先を確認
Mohammad Zarei, Bruce Hellinga(参考訳) 本稿では,事故頻度モデルを改善するために,条件付き生成逆数ネットワークに基づくクラッシュ頻度データ拡張手法を提案する。 提案手法は、ホットスポット識別性能、モデル予測精度、分散パラメータ推定精度の観点から、ベースSPF(原データを用いた開発)と拡張SPF(原データと合成データを用いた開発)の性能を比較して評価する。 実験はシミュレーションおよび実世界のクラッシュデータセットを用いて行われる。 その結果、CGANによる合成クラッシュデータは原データと同じ分布であり、特に分散パラメータが低い場合、Augmented SPFsはベースSPFよりもほぼ全ての面で優れていた。

In this paper, we present a crash frequency data augmentation method based on Conditional Generative Adversarial Networks to improve crash frequency models. The proposed method is evaluated by comparing the performance of Base SPFs (developed using original data) and Augmented SPFs (developed using original data plus synthesised data) in terms of hotspot identification performance, model prediction accuracy, and dispersion parameter estimation accuracy. The experiments are conducted using simulated and real-world crash data sets. The results indicate that the synthesised crash data by CGAN have the same distribution as the original data and the Augmented SPFs outperforms Base SPFs in almost all aspects especially when the dispersion parameter is low.
翻訳日:2021-12-24 16:26:28 公開日:2021-12-21
# 形態分類器

Morphological classifiers ( http://arxiv.org/abs/2112.12262v1 )

ライセンス: Link先を確認
\'E. O. Rodrigues, A. Conci and P. Liatsis(参考訳) 本研究は,Morphological Classifier (MC) と呼ばれる新しい分類法を提案する。 MCは数学的形態学と教師あり学習の概念を集約する。 このアグリゲーションの結果は、クラスの形状特性を保存することができる分類器であり、停止基準と構造要素の選択を受ける。 MCは基本的に集合論に基づいており、それらの分類モデルは数学的集合自身である。 現在, 形態素分類法としてMkNN (Morphological k-NN) とMDC (Morphological Dilation Classificationifier) の2種類の形態素分類法が提案されている。 この研究は、mcsの利点、例えば、非常に高速な分類時間と競合精度率に関する証拠を提供する。 MkNNとMDCの性能をp次元データセットを用いて検証した。 MCは8つのデータセットのうち5つで14の確立された分類器を結び付けた。 いずれの場合においても,すべての分類器で得られた平均精度よりも精度が高かった。 さらに,提案手法ではgpu(graphics processing unit)のパワーを利用して処理を高速化する。

This work proposes a new type of classifier called Morphological Classifier (MC). MCs aggregate concepts from mathematical morphology and supervised learning. The outcomes of this aggregation are classifiers that may preserve shape characteristics of classes, subject to the choice of a stopping criterion and structuring element. MCs are fundamentally based on set theory, and their classification model can be a mathematical set itself. Two types of morphological classifiers are proposed in the current work, namely, Morphological k-NN (MkNN) and Morphological Dilation Classifier (MDC), which demonstrate the feasibility of the approach. This work provides evidence regarding the advantages of MCs, e.g., very fast classification times as well as competitive accuracy rates. The performance of MkNN and MDC was tested using p -dimensional datasets. MCs tied or outperformed 14 well established classifiers in 5 out of 8 datasets. In all occasions, the obtained accuracies were higher than the average accuracy obtained with all classifiers. Moreover, the proposed implementations utilize the power of the Graphics Processing Units (GPUs) to speed up processing.
翻訳日:2021-12-24 14:06:02 公開日:2021-12-21
# (参考訳) 分解に基づく多目的最適化アルゴリズムの高速収束 [全文訳有]

Faster Convergence in Multi-Objective Optimization Algorithms Based on Decomposition ( http://arxiv.org/abs/2112.11939v1 )

ライセンス: CC BY 4.0
Yuri Lavinas, Marcelo Ladeira, Claus Aranha(参考訳) Resource Allocation(RA)アプローチは、MOEA/Dの性能を向上し、大きな人口を維持し、各世代に少数のソリューションを更新する。 しかしながら、raに関するほとんどの研究は、概して異なるリソース割り当てメトリクスの特性に焦点を当てている。 したがって、raによるmoea/dのパフォーマンス向上に繋がる主要な要因が何であるかはまだ不明である。 本研究は,MOEA/Dと部分更新戦略を併用したMOEA/Dの効果について検討し,MOEA/Dと部分更新およびMOEA/Dとの対応について,人口規模と人口規模が小さめで考察した。 本研究は, 最終近似Pareto集合, 常時超体積性能, 到達域, 非支配解数を考慮した個体群動態の詳細な解析を行った。 その結果,部分的な更新を伴うmoea/dは,人口規模が小さいmoea/dほど高速に探索され,人口規模が大きいmoea/dの探索空間を探索する。 部分更新を伴うMOEA/Dは、ハイパーボリュームの結果や独自の非支配的なソリューションの数が示すように、ほとんどのMOPにおいてより収束速度のよい集団選択に関連する一般的な問題を緩和することができる。

The Resource Allocation approach (RA) improves the performance of MOEA/D by maintaining a big population and updating few solutions each generation. However, most of the studies on RA generally focused on the properties of different Resource Allocation metrics. Thus, it is still uncertain what the main factors are that lead to increments in performance of MOEA/D with RA. This study investigates the effects of MOEA/D with the Partial Update Strategy in an extensive set of MOPs to generate insights into correspondences of MOEA/D with the Partial Update and MOEA/D with small population size and big population size. Our work undertakes an in-depth analysis of the populational dynamics behaviour considering their final approximation Pareto sets, anytime hypervolume performance, attained regions and number of unique non-dominated solutions. Our results indicate that MOEA/D with Partial Update progresses with the search as fast as MOEA/D with small population size and explores the search space as MOEA/D with big population size. MOEA/D with Partial Update can mitigate common problems related to population size choice with better convergence speed in most MOPs, as shown by the results of hypervolume and number of unique non-dominated solutions, the anytime performance and Empirical Attainment Function indicates.
翻訳日:2021-12-24 02:32:13 公開日:2021-12-21
# (参考訳) ヘテロジニアスエッジにおける連合学習のためのオンザフライ・リソースアウェア・モデルアグリゲーション [全文訳有]

On-the-fly Resource-Aware Model Aggregation for Federated Learning in Heterogeneous Edge ( http://arxiv.org/abs/2112.11485v1 )

ライセンス: CC BY 4.0
Hung T. Nguyen, Roberto Morabito, Kwang Taik Kim, Mung Chiang(参考訳) エッジコンピューティングは、柔軟でセキュアでパフォーマンスの高い特性のおかげで、モバイルとワイヤレスネットワークの世界に革命をもたらした。 最近では、フェデレートラーニング(FL)のような機械学習(ML)技術の展開を向上するために、それの利用が増えているのを目撃しています。 FLは従来の分散機械学習(ML)と比較して通信効率を向上させるために登場した。 元々のFLは、ローカルに最適化されたパラメータを集約する中央集約サーバを前提としており、信頼性とレイテンシの問題を引き起こす可能性がある。 本稿では,この中心サーバを,現在の参加者および/または利用可能なリソースに基づいて動的に選択されたフライングマスターによって置き換える戦略を,FLラウンド毎に詳細に検討する。 具体的には、異なるメトリクスを比較してこのフライングマスターを選択し、選択を行うためのコンセンサスアルゴリズムを評価します。 本研究は, 実運用エッジテストベッドを用いたEdgeAIテストベッドおよび実5Gネットワーク上での計測結果から, フライングマスターFLフレームワークを用いたランタイムの大幅な削減効果を示した。

Edge computing has revolutionized the world of mobile and wireless networks world thanks to its flexible, secure, and performing characteristics. Lately, we have witnessed the increasing use of it to make more performing the deployment of machine learning (ML) techniques such as federated learning (FL). FL was debuted to improve communication efficiency compared to conventional distributed machine learning (ML). The original FL assumes a central aggregation server to aggregate locally optimized parameters and might bring reliability and latency issues. In this paper, we conduct an in-depth study of strategies to replace this central server by a flying master that is dynamically selected based on the current participants and/or available resources at every FL round of optimization. Specifically, we compare different metrics to select this flying master and assess consensus algorithms to perform the selection. Our results demonstrate a significant reduction of runtime using our flying master FL framework compared to the original FL from measurements results conducted in our EdgeAI testbed and over real 5G networks using an operational edge testbed.
翻訳日:2021-12-24 02:09:44 公開日:2021-12-21
# (参考訳) Androidは電気フェンスを夢見るか? 潜水シールドを用いた安全意識強化学習 [全文訳有]

Do Androids Dream of Electric Fences? Safety-Aware Reinforcement Learning with Latent Shielding ( http://arxiv.org/abs/2112.11490v1 )

ライセンス: CC BY 4.0
Peter He, Borja G. Leon, Francesco Belardinelli(参考訳) 先進的な強化学習システムが現実の応用に進出する傾向は、その安全性と堅牢性への懸念が高まっている。 近年, 安全に配慮した強化学習の課題に対処するために, 様々なアプローチが提案されているが, 事前に提供すべき環境のハンドクラフトモデルや, 比較的単純で低次元の環境を必要とする場合が多い。 潜伏遮蔽と呼ばれる高次元環境における安全性を考慮した深層強化学習手法を提案する。 潜在遮蔽は、モデルベースのエージェントが学習した環境の内部表現を利用して、将来の軌跡を「想像」し、安全でないと見なされるものを避ける。 本稿では,本手法が安全仕様の遵守性の向上につながることを実験的に実証する。

The growing trend of fledgling reinforcement learning systems making their way into real-world applications has been accompanied by growing concerns for their safety and robustness. In recent years, a variety of approaches have been put forward to address the challenges of safety-aware reinforcement learning; however, these methods often either require a handcrafted model of the environment to be provided beforehand, or that the environment is relatively simple and low-dimensional. We present a novel approach to safety-aware deep reinforcement learning in high-dimensional environments called latent shielding. Latent shielding leverages internal representations of the environment learnt by model-based agents to "imagine" future trajectories and avoid those deemed unsafe. We experimentally demonstrate that this approach leads to improved adherence to formally-defined safety specifications.
翻訳日:2021-12-24 01:59:31 公開日:2021-12-21
# (参考訳) 誤り訂正符号に対する逆ニューラルネットワーク [全文訳有]

Adversarial Neural Networks for Error Correcting Codes ( http://arxiv.org/abs/2112.11491v1 )

ライセンス: CC BY 4.0
Hung T. Nguyen, Steven Bottone, Kwang Taik Kim, Mung Chiang, H. Vincent Poor(参考訳) エラー訂正コードは現代の通信システムにおける基本的なコンポーネントであり、非常に高いスループット、超信頼性、低レイテンシを必要とする。 機械学習(ML)モデルをデコーダとして使用する最近のアプローチは、従来のデコーダが苦労する未知の環境に対して、パフォーマンスと大幅な適応性の両方を提供する。 我々は,mlモデルの性能と適用性をさらに高めるための汎用フレームワークを提案する。 そこで本研究では,mlデコーダと,符号語と雑音語を区別する競合する識別器ネットワークを組み合わせることで,符号化モデルを誘導して符号語を復元する手法を提案する。 我々のフレームワークはゲーム理論であり、生成的敵ネットワーク(gans)によって動機づけられ、デコーダと判別器はゼロサムゲームで競う。 デコーダは同時にデコードし、コードワードを生成することを学習し、識別器はデコードされた出力とコードワードの違いを知ることを学習する。 これにより、デコーダはノイズの多い受信信号をコードワードに復号することができ、復号に成功した確率を高めることができる。 我々は,このデコーダがゲームのnash平衡点を定義することを証明し,このフレームワークと最適最大確率デコーダとの強い関係を示す。 したがって、平衡へのトレーニングは最適極大性能を達成する可能性が十分にある。 さらに、当社のフレームワークでは、通常通信中に使用できないラベルをトレーニングする必要はなく、オンライントレーニングやチャネルダイナミクスへの適応も可能です。 フレームワークの性能を示すため、非常に最近のニューラルデコーダと組み合わせて、元のモデルや様々なコードでの従来のデコードアルゴリズムと比較して、性能が改善された。

Error correcting codes are a fundamental component in modern day communication systems, demanding extremely high throughput, ultra-reliability and low latency. Recent approaches using machine learning (ML) models as the decoders offer both improved performance and great adaptability to unknown environments, where traditional decoders struggle. We introduce a general framework to further boost the performance and applicability of ML models. We propose to combine ML decoders with a competing discriminator network that tries to distinguish between codewords and noisy words, and, hence, guides the decoding models to recover transmitted codewords. Our framework is game-theoretic, motivated by generative adversarial networks (GANs), with the decoder and discriminator competing in a zero-sum game. The decoder learns to simultaneously decode and generate codewords while the discriminator learns to tell the differences between decoded outputs and codewords. Thus, the decoder is able to decode noisy received signals into codewords, increasing the probability of successful decoding. We show a strong connection of our framework with the optimal maximum likelihood decoder by proving that this decoder defines a Nash equilibrium point of our game. Hence, training to equilibrium has a good possibility of achieving the optimal maximum likelihood performance. Moreover, our framework does not require training labels, which are typically unavailable during communications, and, thus, seemingly can be trained online and adapt to channel dynamics. To demonstrate the performance of our framework, we combine it with the very recent neural decoders and show improved performance compared to the original models and traditional decoding algorithms on various codes.
翻訳日:2021-12-24 01:45:10 公開日:2021-12-21
# (参考訳) 凸リスク最小化によるオフ環境評価 [全文訳有]

Off Environment Evaluation Using Convex Risk Minimization ( http://arxiv.org/abs/2112.11532v1 )

ライセンス: CC BY 4.0
Pulkit Katdare, Shuijing Liu and Katherine Driggs-Campbell(参考訳) ロボットに強化学習(rl)手法を適用すると、通常、シミュレーションのポリシーを訓練し、現実世界のロボットにデプロイする。 実世界とシミュレータのモデルミスマッチのため、この方法でデプロイされたrlエージェントは、サブオプティマイズで実行する傾向がある。 この問題に対処するために、研究者は合成ノイズの乱れに依存する堅牢なポリシー学習アルゴリズムを開発した。 しかし、そのような手法は対象環境における性能を保証しない。 両環境の軌跡データを用いて,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。 この推定器とシミュレータを用いて,対象領域におけるrlエージェントの性能評価を行い,この2つの環境間のギャップを効果的に橋渡しできることを示す。 また、推定器の収束率は${n^{-1/4}}$の順であり、ここでは$n$はトレーニングサンプルの数である。 シミュレーションでは,gridworld,cartpole, および reacher 環境の性能を,様々なポリシーで効果的に近似し,評価する方法を示す。 また,本手法はシミュレータを用いて7自由度ロボットアームの性能を推定し,実世界のロボットからリモートでデータを収集できることを示す。

Applying reinforcement learning (RL) methods on robots typically involves training a policy in simulation and deploying it on a robot in the real world. Because of the model mismatch between the real world and the simulator, RL agents deployed in this manner tend to perform suboptimally. To tackle this problem, researchers have developed robust policy learning algorithms that rely on synthetic noise disturbances. However, such methods do not guarantee performance in the target environment. We propose a convex risk minimization algorithm to estimate the model mismatch between the simulator and the target domain using trajectory data from both environments. We show that this estimator can be used along with the simulator to evaluate performance of an RL agents in the target domain, effectively bridging the gap between these two environments. We also show that the convergence rate of our estimator to be of the order of ${n^{-1/4}}$, where $n$ is the number of training samples. In simulation, we demonstrate how our method effectively approximates and evaluates performance on Gridworld, Cartpole, and Reacher environments on a range of policies. We also show that the our method is able to estimate performance of a 7 DOF robotic arm using the simulator and remotely collected data from the robot in the real world.
翻訳日:2021-12-24 01:32:00 公開日:2021-12-21
# (参考訳) ノイズ注入型アナログイジングマシンは超高速統計サンプリングと機械学習を可能にする [全文訳有]

Noise-injected analog Ising machines enable ultrafast statistical sampling and machine learning ( http://arxiv.org/abs/2112.11534v1 )

ライセンス: CC BY 4.0
Fabian B\"ohm, Diego Alonso-Urquijo, Guy Verschaffelt, Guy Van der Sande(参考訳) Ising Machineは、ニューラルネットワークトレーニングと組合せ最適化のための有望な非ヴォン・ノイマン計算概念である。 しかし、Isingマシンで様々なニューラルネットワークを実装できるが、高速な統計的サンプリングを行うことができないため、デジタルコンピュータと比較してこれらのニューラルネットワークのトレーニングに非効率である。 本稿では,アナログノイズを注入することでIsingマシンを用いた超高速統計的サンプリングを実現する普遍的な概念を提案する。 光電子イジングマシンを用いて、ボルツマン分布の正確なサンプリングや、ニューラルネットワークの教師なしトレーニングに、ソフトウェアベースのトレーニングと同等の精度で使用できることを実証する。 シミュレーションにより,Isingマシンは,ソフトウェアに基づく手法よりも高速に,統計的サンプリング命令を実行できることがわかった。 これによりIsingマシンは、組合せ最適化を超えた機械学習やその他のアプリケーションのための効率的なツールになる。

Ising machines are a promising non-von-Neumann computational concept for neural network training and combinatorial optimization. However, while various neural networks can be implemented with Ising machines, their inability to perform fast statistical sampling makes them inefficient for training these neural networks compared to digital computers. Here, we introduce a universal concept to achieve ultrafast statistical sampling with Ising machines by injecting analog noise. With an opto-electronic Ising machine, we demonstrate that this can be used for accurate sampling of Boltzmann distributions and unsupervised training of neural networks, with equal accuracy as software-based training. Through simulations, we find that Ising machines can perform statistical sampling orders-of-magnitudes faster than software-based methods. This makes Ising machines into efficient tools for machine learning and other applications beyond combinatorial optimization.
翻訳日:2021-12-24 01:17:35 公開日:2021-12-21
# (参考訳) 混合肺腫瘍分節における教師・学生の構図 [全文訳有]

Teacher-Student Architecture for Mixed Supervised Lung Tumor Segmentation ( http://arxiv.org/abs/2112.11541v1 )

ライセンス: CC BY 4.0
Vemund Fredriksen, Svein Ole M. Svele, Andr\'e Pedersen, Thomas Lang{\o}, Gabriel Kiss, Frank Lindseth(参考訳) 目的: 放射線画像における肺腫瘍の局在化やセグメンテーションなどのタスクの自動化は, 放射線医や他の臨床関係者にとって, 有意義な時間を無料で提供できる。 畳み込みニューラルネットワークはそのようなタスクに適しているが、トレーニングには大量のラベル付きデータを必要とする。 ラベル付きデータの取得は特に医療分野では難しい。 方法: 本論文は, 教師・学生による, 異なるタイプの指導用データセットを用いて, 肺腫瘍のセグメンテーションを行うための自動モデルを構築した。 フレームワークは、エンドツーエンドの自動腫瘍セグメンテーションを行う学生と、トレーニング中に追加の擬似アノテーションデータを提供する教師の2つのモデルで構成されている。 結果: 意味的ラベル付きデータのごく一部と多数の有界ボックス注釈データを用いた結果, 教師-学生設計による競争性能が得られた。 大量のセマンティックアノテーションで訓練されたモデルは、教師が注釈付けしたデータで訓練したモデルよりは良くなかった。 結論: この結果から, 教師が指導する指導要領が, セグメンテーションの精度を損なうことなく, 教師によるアノテーションの負荷を低減できる可能性が示唆された。

Purpose: Automating tasks such as lung tumor localization and segmentation in radiological images can free valuable time for radiologists and other clinical personnel. Convolutional neural networks may be suited for such tasks, but require substantial amounts of labeled data to train. Obtaining labeled data is a challenge, especially in the medical domain. Methods: This paper investigates the use of a teacher-student design to utilize datasets with different types of supervision to train an automatic model performing pulmonary tumor segmentation on computed tomography images. The framework consists of two models: the student that performs end-to-end automatic tumor segmentation and the teacher that supplies the student additional pseudo-annotated data during training. Results: Using only a small proportion of semantically labeled data and a large number of bounding box annotated data, we achieved competitive performance using a teacher-student design. Models trained on larger amounts of semantic annotations did not perform better than those trained on teacher-annotated data. Conclusions: Our results demonstrate the potential of utilizing teacher-student designs to reduce the annotation load, as less supervised annotation schemes may be performed, without any real degradation in segmentation accuracy.
翻訳日:2021-12-24 00:58:55 公開日:2021-12-21
# (参考訳) MIA-Former:多粒入力適応による高効率かつロバストな視覚変換器

MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation ( http://arxiv.org/abs/2112.11542v1 )

ライセンス: CC BY 4.0
Zhongzhi Yu, Yonggan Fu, Sicheng Li, Chaojian Li, Yingyan Lin(参考訳) vitは、(1)入力トークンの数と2乗的に増加する複雑さ、(2)過パラメータ化された自己付着ヘッドとモデル深度のため、実世界のリソース制約されたデバイスに装着するには計算コストが高すぎることが多い。 平行して、異なる画像は様々な複雑さを持ち、異なる領域は様々なレベルの視覚情報を含むことが可能であり、モデル複雑性の観点から全ての領域/トークンを等しく扱うことは不要である一方で、ViTsの複雑さをトリミングする機会は十分に調べられていないことを示す。 そこで本研究では,3つの粗粒度(モデル深度,モデルヘッド/トークン数)でViTの構造をインプット適応的に調整できるMIA-Formerという,多機能なインプット適応型ビジョントランスフォーマフレームワークを提案する。 特にmia-formerでは,複合教師・強化訓練方式で訓練した低コストネットワークを採用し,不要なレイヤ,ヘッド,トークンを入力順応的にスキップし,計算コストを削減している。 さらにMIA-Formerの興味深い副作用は,MIA-Formerの多粒度動的制御により,アンサンブルの効果と同様のモデルの多様性が向上し,全てのサブモデルに対する敵攻撃の難易度が増大するため,結果として得られるViTが,静的攻撃に対する敵攻撃に対するロバスト性が改善されることである。 大規模な実験とアブレーション研究により、提案したMIA-Formerフレームワークは、入力画像の難易度に適応した計算予算を効果的に割り当てることができ、SOTA(State-of-the-ar t)の精度-効率トレードオフを達成することができる。

ViTs are often too computationally expensive to be fitted onto real-world resource-constrained devices, due to (1) their quadratically increased complexity with the number of input tokens and (2) their overparameterized self-attention heads and model depth. In parallel, different images are of varied complexity and their different regions can contain various levels of visual information, indicating that treating all regions/tokens equally in terms of model complexity is unnecessary while such opportunities for trimming down ViTs' complexity have not been fully explored. To this end, we propose a Multi-grained Input-adaptive Vision Transformer framework dubbed MIA-Former that can input-adaptively adjust the structure of ViTs at three coarse-to-fine-grain ed granularities (i.e., model depth and the number of model heads/tokens). In particular, our MIA-Former adopts a low-cost network trained with a hybrid supervised and reinforcement training method to skip unnecessary layers, heads, and tokens in an input adaptive manner, reducing the overall computational cost. Furthermore, an interesting side effect of our MIA-Former is that its resulting ViTs are naturally equipped with improved robustness against adversarial attacks over their static counterparts, because MIA-Former's multi-grained dynamic control improves the model diversity similar to the effect of ensemble and thus increases the difficulty of adversarial attacks against all its sub-models. Extensive experiments and ablation studies validate that the proposed MIA-Former framework can effectively allocate computation budgets adaptive to the difficulty of input images meanwhile increase robustness, achieving state-of-the-art (SOTA) accuracy-efficiency trade-offs, e.g., 20% computation savings with the same or even a higher accuracy compared with SOTA dynamic transformer models.
翻訳日:2021-12-24 00:43:08 公開日:2021-12-21
# (参考訳) リアルタイムストリートヒューマンモーションキャプチャ [全文訳有]

Real-time Street Human Motion Capture ( http://arxiv.org/abs/2112.11543v1 )

ライセンス: CC0 1.0
Yanquan Chen, Fei Yang, Tianyu Lang, Guanfang Dong, Anup Basu(参考訳) 近年,コンピュータを用いたモーションキャプチャ技術が急速に発展している。 高い効率と優れた性能のため、多くの伝統的な手法を置き換え、多くの分野で広く使われている。 私たちのプロジェクトは、ストリートシーンビデオのヒューマンモーションキャプチャと分析に関するものです。 このプロジェクトの第一の目的は、人間の動きをビデオで捉え、3dアニメーション(人間)の動作情報をリアルタイムで利用することだ。 我々は,ストリートビューのシーン下で,モーションキャプチャーにニューラルネットワークを適用し,一元的に実装した。 動きデータを解析することにより、道路条件をよりよく推定し、自動運転車などの他のハイテクアプリケーションに役立ちます。

In recent years, motion capture technology using computers has developed rapidly. Because of its high efficiency and excellent performance, it replaces many traditional methods and is being widely used in many fields. Our project is about street scene video human motion capturing and analysis. The primary goal of the project is to capture the human motion in a video and use the motion information for 3D animation (human) in real-time. We applied a neural network for motion capture and implement it in the unity under a street view scene. By analyzing the motion data, we will have a better estimation of the street condition, which is useful for other high-tech applications such as self-driving cars.
翻訳日:2021-12-24 00:41:51 公開日:2021-12-21
# (参考訳) 画像のセマンティックセグメンテーションのための分布対応マージン校正 [全文訳有]

Distribution-aware Margin Calibration for Semantic Segmentation in Images ( http://arxiv.org/abs/2112.11554v1 )

ライセンス: CC BY 4.0
Litao Yu, Zhibin Li, Min Xu, Yongsheng Gao, Jiebo Luo and Jian Zhang(参考訳) IoU(Intersection-ove r-Union)とも呼ばれるJaccardインデックスは、画像セマンティックセグメンテーションにおいて最も重要な評価指標の1つである。 しかし,iouスコアの直接最適化は,学習目標が微分可能でも分解可能でもないため,非常に困難である。 サロゲートを最適化するためにいくつかのアルゴリズムが提案されているが、一般化能力に対する保証はない。 本稿では,厳密な下界を基盤としたデータ分散に関するIoUの一般化を改良するために,直接学習目的として使用できるマージン校正法を提案する。 このスキームは理論上、IoUスコアの観点からより優れたセグメンテーション性能を保証する。 提案手法の有効性を7つの画像データセットに対して評価し, 深部セグメンテーションモデルを用いた学習目標に対するIoUスコアの大幅な改善を示した。

The Jaccard index, also known as Intersection-over-Un ion (IoU), is one of the most critical evaluation metrics in image semantic segmentation. However, direct optimization of IoU score is very difficult because the learning objective is neither differentiable nor decomposable. Although some algorithms have been proposed to optimize its surrogates, there is no guarantee provided for the generalization ability. In this paper, we propose a margin calibration method, which can be directly used as a learning objective, for an improved generalization of IoU over the data-distribution, underpinned by a rigid lower bound. This scheme theoretically ensures a better segmentation performance in terms of IoU score. We evaluated the effectiveness of the proposed margin calibration method on seven image datasets, showing substantial improvements in IoU score over other learning objectives using deep segmentation models.
翻訳日:2021-12-24 00:32:54 公開日:2021-12-21
# (参考訳) 自動運転のための説明可能な人工知能: 今後の研究方向性の概観とフィールドガイド [全文訳有]

Explainable Artificial Intelligence for Autonomous Driving: A Comprehensive Overview and Field Guide for Future Research Directions ( http://arxiv.org/abs/2112.11561v1 )

ライセンス: CC BY 4.0
Shahin Atakishiyev, Mohammad Salameh, Hengshuai Yao, Randy Goebel(参考訳) 自動運転は過去10年間、研究と開発において重要なマイルストーンを達成した。 自動運転車両の道路への配備はより安全でより環境に優しい輸送システムを約束するので、この分野への関心が高まっている。 計算力のある人工知能(AI)技術の台頭により、自動運転車は高い精度で環境を感知し、安全なリアルタイム決定を行い、人間の介入なしにより確実に運用することができる。 しかし、自動運転車のインテリジェントな意思決定は、現在の技術では人間には理解できないため、この技術が社会的に受け入れられることを妨げる。 したがって、自動運転車のAIシステムは、安全なリアルタイム決定を行う以外に、多くの管轄区域で規制に準拠するために、これらの決定がどのように構築されているかを説明する必要がある。 我々の研究は、自動運転車のための説明可能な人工知能(XAI)アプローチの開発に包括的な光を当てている。 特に、以下の貢献をしている。 まず,最先端の自動運転車産業における解説に関して,現状のギャップを概観する。 次に、この分野における説明の分類と説明のレシーバーを示す。 第3に、エンド・ツー・エンドの自動運転システムのアーキテクチャの枠組みを提案し、そのようなシステムのデバッグと制御におけるXAIの役割を正当化する。 最後に、今後の研究の方向性として、規制当局、製造業者、および全ての利害関係者による公的承認を達成するために、運転安全と透明性を向上させるためのXAIアプローチのフィールドガイドを提供する。

Autonomous driving has achieved a significant milestone in research and development over the last decade. There is increasing interest in the field as the deployment of self-operating vehicles on roads promises safer and more ecologically friendly transportation systems. With the rise of computationally powerful artificial intelligence (AI) techniques, autonomous vehicles can sense their environment with high precision, make safe real-time decisions, and operate more reliably without human interventions. However, intelligent decision-making in autonomous cars is not generally understandable by humans in the current state of the art, and such deficiency hinders this technology from being socially acceptable. Hence, aside from making safe real-time decisions, the AI systems of autonomous vehicles also need to explain how these decisions are constructed in order to be regulatory compliant across many jurisdictions. Our study sheds a comprehensive light on developing explainable artificial intelligence (XAI) approaches for autonomous vehicles. In particular, we make the following contributions. First, we provide a thorough overview of the present gaps with respect to explanations in the state-of-the-art autonomous vehicle industry. We then show the taxonomy of explanations and explanation receivers in this field. Thirdly, we propose a framework for an architecture of end-to-end autonomous driving systems and justify the role of XAI in both debugging and regulating such systems. Finally, as future research directions, we provide a field guide on XAI approaches for autonomous driving that can improve operational safety and transparency towards achieving public approval by regulators, manufacturers, and all engaged stakeholders.
翻訳日:2021-12-24 00:08:41 公開日:2021-12-21
# (参考訳) 異常クラスタリング: 異常タイプのコヒーレントクラスタにイメージをグループ化する [全文訳有]

Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types ( http://arxiv.org/abs/2112.11573v1 )

ライセンス: CC BY 4.0
Kihyuk Sohn, Jinsung Yoon, Chun-Liang Li, Chen-Yu Lee, Tomas Pfister(参考訳) 我々は,データを意味的にコヒーレントなanomaly型クラスタにグループ化することを目的としたanomaly clusteringを導入する。 これは異常検出とは違い、その目標は異常を通常のデータから分割することである。 オブジェクト中心の画像クラスタリングアプリケーションとは異なり、異常なパターンが微妙で局所的であるため、異常クラスタリングは特に難しい。 パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。 重み付き平均埋め込み間のユークリッド距離によって、それぞれが埋め込みの袋として表現される画像間の距離関数を定義する。 重みはバッグ内のインスタンス(すなわちパッチ埋め込み)の重要性を定義し、欠陥のある領域を強調する。 ラベル付き正規データが利用可能な場合、ウェイトを教師なしまたは半教師付きで計算する。 大規模実験により、既存の複数インスタンスまたはディープクラスタリングフレームワークに対する新しい距離関数とともに、提案するクラスタリングフレームワークの有効性が示されている。 全体として,MVTecオブジェクトおよびテクスチャカテゴリの正規化相互情報スコア0.451,0.674を達成し,さらにいくつかのラベル付き正規データ(0.577,0.669)を改良し,ベースライン(0.244,0.273)や最先端の深層クラスタリング手法(0.176,0.277)をはるかに上回った。

We introduce anomaly clustering, whose goal is to group data into semantically coherent clusters of anomaly types. This is different from anomaly detection, whose goal is to divide anomalies from normal data. Unlike object-centered image clustering applications, anomaly clustering is particularly challenging as anomalous patterns are subtle and local. We present a simple yet effective clustering framework using a patch-based pretrained deep embeddings and off-the-shelf clustering methods. We define a distance function between images, each of which is represented as a bag of embeddings, by the Euclidean distance between weighted averaged embeddings. The weight defines the importance of instances (i.e., patch embeddings) in the bag, which may highlight defective regions. We compute weights in an unsupervised way or in a semi-supervised way if labeled normal data is available. Extensive experimental studies show the effectiveness of the proposed clustering framework along with a novel distance function upon existing multiple instance or deep clustering frameworks. Overall, our framework achieves 0.451 and 0.674 normalized mutual information scores on MVTec object and texture categories and further improve with a few labeled normal data (0.577, 0.669), far exceeding the baselines (0.244, 0.273) or state-of-the-art deep clustering methods (0.176, 0.277).
翻訳日:2021-12-23 23:27:37 公開日:2021-12-21
# infomap のランダムウォーク吸収への拡張

An Extension of InfoMap to Absorbing Random Walks ( http://arxiv.org/abs/2112.10953v1 )

ライセンス: Link先を確認
Esteban Vargas Bernal, Mason A. Porter, Joseph H. Tien(参考訳) infomapはネットワーク内のノードの密結合された"コミュニティ"を検出する一般的なアプローチである。 このようなコミュニティを検出するため、マルコフ連鎖の標準型と情報理論からのアイデアに基づいている。 ノードが不均一な疾患除去率を持つネットワーク上に広がる病気のダイナミックスにより、InfoMapはランダムウォークを吸収するように拡張される。 そこで我々は,吸収率に応じてエッジウェイトをスケールする吸収スケールグラフとマルコフ時間スイーピングを用いた。 InfoMapの拡張の1つは、吸収率が0ドルに近づく制限の中でInfoMapの標準バージョンに収束します。 我々は、InfoMapの拡張を使って検出するコミュニティ構造と、ノード吸収率を考慮しない手法を用いて検出するコミュニティ構造とが著しく異なることを発見した。 さらに、局所力学によって誘導されるコミュニティ構造が、リング格子ネットワーク上での感受性感染回復(SIR)ダイナミクスに重要な意味を持つことを示す。 例えば、中程度の数のノードが大きなノード吸収率を持つ場合、アウトブレイク期間が最大になる状況が見つかる。 また、InfoMapの拡張を利用して、性的接触ネットワークにおけるコミュニティ構造を研究します。 本研究では,ネットワーク内のホームレス者に対する異なる吸収率に対応するコミュニティ構造と,ネットワーク上の梅毒動態への影響について考察する。 ホームレスの集団で治療率が他の集団より低い場合と、すべての集団で同じ場合とでは、最終的なアウトブレイクサイズが小さくなる可能性がある。

InfoMap is a popular approach for detecting densely connected "communities" of nodes in networks. To detect such communities, it builds on the standard type of Markov chain and ideas from information theory. Motivated by the dynamics of disease spread on networks, whose nodes may have heterogeneous disease-removal rates, we extend InfoMap to absorbing random walks. To do this, we use absorption-scaled graphs, in which the edge weights are scaled according to the absorption rates, along with Markov time sweeping. One of our extensions of InfoMap converges to the standard version of InfoMap in the limit in which the absorption rates approach $0$. We find that the community structure that one detects using our extensions of InfoMap can differ markedly from the community structure that one detects using methods that do not take node-absorption rates into account. Additionally, we demonstrate that the community structure that is induced by local dynamics can have important implications for susceptible-infected -recovered (SIR) dynamics on ring-lattice networks. For example, we find situations in which the outbreak duration is maximized when a moderate number of nodes have large node-absorption rates. We also use our extensions of InfoMap to study community structure in a sexual-contact network. We consider the community structure that corresponds to different absorption rates for homeless individuals in the network and the associated impact on syphilis dynamics on the network. We observe that the final outbreak size can be smaller when treatment rates are lower in the homeless population than in other populations than when they are the same in all populations.
翻訳日:2021-12-23 16:25:31 公開日:2021-12-21
# 高次元ブロックワイズ値問題に対する生成逆ネットワークによる多重インプテーション

Multiple Imputation via Generative Adversarial Network for High-dimensional Blockwise Missing Value Problems ( http://arxiv.org/abs/2112.11507v1 )

ライセンス: Link先を確認
Zongyu Dai, Zhiqi Bu, Qi Long(参考訳) 不足したデータは現実世界のほとんどの問題に存在し、下流解析の予測精度と統計的一貫性を保つために注意深く処理する必要がある。 欠落したデータを扱うための金の標準として、多重計算法(MI)が提案され、その不確実性を考慮し、適切な統計的推測を提供する。 本研究では,ランダム(mar)機構を理論的にサポートして動作し得る,深層学習に基づく(具体的にはganに基づく)多重インプテーション手法mi-gan(generative adversarial network)による複数インプテーションを提案する。 MI-GANは、条件付き生成対向ニューラルワークの最近の進歩を生かし、高次元データセット上で既存の最先端の計算手法と高い性能で一致していることを示す。 特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。

Missing data are present in most real world problems and need careful handling to preserve the prediction accuracy and statistical consistency in the downstream analysis. As the gold standard of handling missing data, multiple imputation (MI) methods are proposed to account for the imputation uncertainty and provide proper statistical inference. In this work, we propose Multiple Imputation via Generative Adversarial Network (MI-GAN), a deep learning-based (in specific, a GAN-based) multiple imputation method, that can work under missing at random (MAR) mechanism with theoretical support. MI-GAN leverages recent progress in conditional generative adversarial neural works and shows strong performance matching existing state-of-the-art imputation methods on high-dimensional datasets, in terms of imputation error. In particular, MI-GAN significantly outperforms other imputation methods in the sense of statistical inference and computational speed.
翻訳日:2021-12-23 16:03:48 公開日:2021-12-21
# ランダム化平滑化のための入力特定ロバスト性証明

Input-Specific Robustness Certification for Randomized Smoothing ( http://arxiv.org/abs/2112.12084v1 )

ライセンス: Link先を確認
Ruoxin Chen, Jie Li, Junchi Yan, Ping Li, Bin Sheng(参考訳) ランダム化された平滑化は、他の認証された防御よりも高い信頼性の堅牢性と優れたスケーラビリティを示すが、頑健性認定の高い計算オーバーヘッドは、信頼区間を推定するための大規模なサンプル近似に大きく依存するため、実用的な適用性をボトルネックにしている。 既存の研究では、信頼区間のサンプルサイズが普遍的に設定され、予測のための入力に依存しない。 このIAS (Input-Agnostic Sampling) スキームは、改善を求める平均認定基数(ACR)-ランタイムトレードオフをもたらす可能性がある。 本稿では、入力特性に基づいてサンプリングサイズを縮小する適応的な方法で、ロバストネス認証のコスト効率を達成するための入力特異サンプリング(ISS)加速度を提案する。 さらに,本手法は,ISSの試料サイズ削減による半径減少を普遍的に制御する。 CIFAR-10とImageNetの実証実験の結果、ISSは半径0.05の限られたコストで3回以上、認証をスピードアップできることが示された。 一方、ISSは、幅広いハイパーパラメータ設定で平均認定半径でIASを上回っている。 具体的には、ISSは画像NetでACR=0.958(\sigma=1.0$)を250分で達成している。 私たちはコードを \url{https://github.com/r oy-ch/Input-Specific -Certification} でリリースします。

Although randomized smoothing has demonstrated high certified robustness and superior scalability to other certified defenses, the high computational overhead of the robustness certification bottlenecks the practical applicability, as it depends heavily on the large sample approximation for estimating the confidence interval. In existing works, the sample size for the confidence interval is universally set and agnostic to the input for prediction. This Input-Agnostic Sampling (IAS) scheme may yield a poor Average Certified Radius (ACR)-runtime trade-off which calls for improvement. In this paper, we propose Input-Specific Sampling (ISS) acceleration to achieve the cost-effectiveness for robustness certification, in an adaptive way of reducing the sampling size based on the input characteristic. Furthermore, our method universally controls the certified radius decline from the ISS sample size reduction. The empirical results on CIFAR-10 and ImageNet show that ISS can speed up the certification by more than three times at a limited cost of 0.05 certified radius. Meanwhile, ISS surpasses IAS on the average certified radius across the extensive hyperparameter settings. Specifically, ISS achieves ACR=0.958 on ImageNet ($\sigma=1.0$) in 250 minutes, compared to ACR=0.917 by IAS under the same condition. We release our code in \url{https://github.com/r oy-ch/Input-Specific -Certification}.
翻訳日:2021-12-23 15:40:38 公開日:2021-12-21
# 小データのためのモデル選択による実践的アクティブラーニング

Practical Active Learning with Model Selection for Small Data ( http://arxiv.org/abs/2112.11572v1 )

ライセンス: Link先を確認
Maryam Pardakhti, Nila Mandal, Anson W. K. Ma and Qian Yang(参考訳) アクティブラーニングは多くの実践的応用、特に産業や物理科学において非常に関心を寄せており、予測モデルのトレーニングに必要な費用のかかる実験の数を最小化する必要がある。 しかし,多くの実践的応用において,アクティブラーニング手法の採用には大きな課題が残っている。 重要な課題の1つは、多くのメソッドが、モデルハイパーパラメータが事前選択される固定モデルを想定していることである。 実際には、良いモデルが事前に知られていることは滅多にない。 モデル選択によるアクティブな学習のための既存の方法は、通常中規模のラベル付け予算に依存する。 本研究では,非常に小さなラベル付け予算を持つ場合,数十点のデータポイントの順序に焦点をあて,モデル選択による実践的アクティブラーニングのための簡易かつ高速な手法を開発する。 本手法は,ラジアル基底関数カーネルを用いたサポートベクトル分類を用いたバイナリ分類のためのプール型アクティブラーナに基づく。 まず,分離性が低く,データセットの分類が困難で,分離性が高く分類が容易なデータセット上で,oracleモデルと比較して最高のパフォーマンスをもたらすハイパーパラメータを見つけることが可能であることを実証的に示す。 そこで,本論文では,データセットの分類が容易なデータセットと,データセットに関する事前のドメイン知識に基づいて調整が難しいデータセットとのトレードオフを,重み付けアプローチによるモデル選択手法の洗練が可能であることを示す。

Active learning is of great interest for many practical applications, especially in industry and the physical sciences, where there is a strong need to minimize the number of costly experiments necessary to train predictive models. However, there remain significant challenges for the adoption of active learning methods in many practical applications. One important challenge is that many methods assume a fixed model, where model hyperparameters are chosen a priori. In practice, it is rarely true that a good model will be known in advance. Existing methods for active learning with model selection typically depend on a medium-sized labeling budget. In this work, we focus on the case of having a very small labeling budget, on the order of a few dozen data points, and develop a simple and fast method for practical active learning with model selection. Our method is based on an underlying pool-based active learner for binary classification using support vector classification with a radial basis function kernel. First we show empirically that our method is able to find hyperparameters that lead to the best performance compared to an oracle model on less separable, difficult to classify datasets, and reasonable performance on datasets that are more separable and easier to classify. Then, we demonstrate that it is possible to refine our model selection method using a weighted approach to trade-off between achieving optimal performance on datasets that are easy to classify, versus datasets that are difficult to classify, which can be tuned based on prior domain knowledge about the dataset.
翻訳日:2021-12-23 15:37:37 公開日:2021-12-21
# 座標mlpsのための位置埋め込み学習

Learning Positional Embeddings for Coordinate-MLPs ( http://arxiv.org/abs/2112.11577v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Simon Lucey(参考訳) 本稿では,インスタンス固有の位置埋め込みを学習することで,座標MLPの性能を向上させる手法を提案する。 位置埋め込みパラメータのエンドツーエンド最適化とネットワーク重み付けにより、一般化性能は低下する。 代わりに、古典的なグラフ-ラプラシア正規化に基づいて位置埋め込みを学習する汎用フレームワークを開発し、記憶と一般化のトレードオフを暗黙的にバランスさせることができる。 このフレームワークは、ハイパーパラメータが最適なパフォーマンスを提供するために座標(例えば、インスタンス)ごとに学習される新しい位置埋め込みスキームを提案するために使われる。 提案手法は, 既定のランダムフーリエ特性 (RFF) と比較して, 高い安定性で優れた性能が得られることを示す。 さらに,提案手法が安定な勾配を導出し,中間層としての深層アーキテクチャへのシームレスな統合を可能にすることを示す。

We propose a novel method to enhance the performance of coordinate-MLPs by learning instance-specific positional embeddings. End-to-end optimization of positional embedding parameters along with network weights leads to poor generalization performance. Instead, we develop a generic framework to learn the positional embedding based on the classic graph-Laplacian regularization, which can implicitly balance the trade-off between memorization and generalization. This framework is then used to propose a novel positional embedding scheme, where the hyperparameters are learned per coordinate (i.e, instance) to deliver optimal performance. We show that the proposed embedding achieves better performance with higher stability compared to the well-established random Fourier features (RFF). Further, we demonstrate that the proposed embedding scheme yields stable gradients, enabling seamless integration into deep architectures as intermediate layers.
翻訳日:2021-12-23 15:37:15 公開日:2021-12-21
# パーキンソン病の音声的足跡

The Phonetic Footprint of Parkinson's Disease ( http://arxiv.org/abs/2112.11514v1 )

ライセンス: Link先を確認
Philipp Klumpp, Tom\'as Arias-Vergara, Juan Camilo V\'asquez-Correa, Paula Andrea P\'erez-Toro, Juan Rafael Orozco-Arroyave, Anton Batliner, Elmar N\"oth(参考訳) 最も一般的な神経変性疾患の1つとして、パーキンソン病(pd)は患者の運動スキルに大きな影響を与える。 音声の合成と筋緊張の実現において異なる調音器の複雑な相互作用はますます難しくなり、変形性発声に繋がる。 母音の不安定性,スラリー発音,遅い発声などの特徴パターンは,患者によく見られ,過去の研究ではPDの存在と進行を決定するために分析された。 本研究では,健常者を対象とした音声認識装置を用いて,PDが患者の音声足跡に与える影響について検討した。 当システムでは, これまで病的発言は見られなかったが, 過去のコントリビューションで記述された多くのパターンが再発見された。 さらに,ニューラルネットワークからの中間活性化は,個人の疾患状態に関連する情報をエンコードする特徴ベクトルとして機能する可能性が示唆された。 また, 話者の有能感を音声予測の信頼性の平均値と直接相関させることができた。 本研究は,PD音声を解析可能なシステムにおいて,病理データが必ずしも必要ではないという仮定を支持する。

As one of the most prevalent neurodegenerative disorders, Parkinson's disease (PD) has a significant impact on the fine motor skills of patients. The complex interplay of different articulators during speech production and realization of required muscle tension become increasingly difficult, thus leading to a dysarthric speech. Characteristic patterns such as vowel instability, slurred pronunciation and slow speech can often be observed in the affected individuals and were analyzed in previous studies to determine the presence and progression of PD. In this work, we used a phonetic recognizer trained exclusively on healthy speech data to investigate how PD affected the phonetic footprint of patients. We rediscovered numerous patterns that had been described in previous contributions although our system had never seen any pathological speech previously. Furthermore, we could show that intermediate activations from the neural network could serve as feature vectors encoding information related to the disease state of individuals. We were also able to directly correlate the expert-rated intelligibility of a speaker with the mean confidence of phonetic predictions. Our results support the assumption that pathological data is not necessarily required to train systems that are capable of analyzing PD speech.
翻訳日:2021-12-23 15:11:53 公開日:2021-12-21
# 高速コンピュータ支援法文書注釈のための文埋め込みと高速類似性探索

Sentence Embeddings and High-speed Similarity Search for Fast Computer Assisted Annotation of Legal Documents ( http://arxiv.org/abs/2112.11494v1 )

ライセンス: Link先を確認
Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley, Karim Benyekhlef(参考訳) 法的文書における文の人為的なアノテーションは、法的タスクをサポートする多くの機械学習ベースのシステムにとって重要な前提条件である。 典型的には、注釈は逐次的に、文ごとに行われ、これはしばしば時間を消費し、従って高価である。 本稿では,文を「左右」に注釈する概念実証システムを提案する。 このアプローチは、意味的に類似した文は、しばしば特定の型システムの観点から同じラベルを持つという観察に基づいている。 我々は、文書のコーパス全体にわたって、ある文にセマンティックに類似した文を、注釈者が素早く閲覧し、注釈を付けるのにこの観察を利用する。 本稿では,システムのインターフェースを示し,そのアプローチを実証的に評価する。 実験の結果,横アノテーションはアノテーション処理をより迅速かつ一貫性のあるものにする可能性が示唆された。

Human-performed annotation of sentences in legal documents is an important prerequisite to many machine learning based systems supporting legal tasks. Typically, the annotation is done sequentially, sentence by sentence, which is often time consuming and, hence, expensive. In this paper, we introduce a proof-of-concept system for annotating sentences "laterally." The approach is based on the observation that sentences that are similar in meaning often have the same label in terms of a particular type system. We use this observation in allowing annotators to quickly view and annotate sentences that are semantically similar to a given sentence, across an entire corpus of documents. Here, we present the interface of the system and empirically evaluate the approach. The experiments show that lateral annotation has the potential to make the annotation process quicker and more consistent.
翻訳日:2021-12-23 14:22:08 公開日:2021-12-21
# 音と画素を分解し、イベントを分解する

Decompose the Sounds and Pixels, Recompose the Events ( http://arxiv.org/abs/2112.11547v1 )

ライセンス: Link先を確認
Varshanth R. Rao, Md Ibrahim Khalil, Haoda Li, Peng Dai, Juwei Lu(参考訳) 本稿では,教師付きかつ弱い教師付き設定において,ave(audio-visual event)ローカライズ問題に取り組むために,edrnet(event decomposition recomposition network)と呼ばれる新しいアーキテクチャを中心としたフレームワークを提案する。 現実世界のaveは、聴覚と視覚の協調によって人間が知覚できる共通の不自然なパターン(イベントプログレスチェックポイント(epc)と呼ばれる)を示す。 イベントシーケンス全体を認識しようとする以前の方法とは異なり、EDRNetはスタック化された時間的畳み込みを使用してEPCとEPC間の関係をモデル化する。 EPC表現はイベントカテゴリに対して理論的に一貫したものであるという仮定に基づいて、異なるEPCテンプレートシーケンスを用いてソースビデオをブレンドする新しい拡張技術であるState Machine Based Video Fusionを導入する。 さらに, 連続フォアグラウンドと背景表現をコンパクト化するランドショア・シーロスと呼ばれる新しい損失関数を設計した。 最後に、弱い監督下での混乱を緩和するために、Bag to Instance Label Correctionという予測安定化手法を提案する。 AVEデータセットの実験により、我々の集団フレームワークは、最先端の最先端を巨大なマージンで上回ります。

In this paper, we propose a framework centering around a novel architecture called the Event Decomposition Recomposition Network (EDRNet) to tackle the Audio-Visual Event (AVE) localization problem in the supervised and weakly supervised settings. AVEs in the real world exhibit common unravelling patterns (termed as Event Progress Checkpoints (EPC)), which humans can perceive through the cooperation of their auditory and visual senses. Unlike earlier methods which attempt to recognize entire event sequences, the EDRNet models EPCs and inter-EPC relationships using stacked temporal convolutions. Based on the postulation that EPC representations are theoretically consistent for an event category, we introduce the State Machine Based Video Fusion, a novel augmentation technique that blends source videos using different EPC template sequences. Additionally, we design a new loss function called the Land-Shore-Sea loss to compactify continuous foreground and background representations. Lastly, to alleviate the issue of confusing events during weak supervision, we propose a prediction stabilization method called Bag to Instance Label Correction. Experiments on the AVE dataset show that our collective framework outperforms the state-of-the-art by a sizable margin.
翻訳日:2021-12-23 14:21:55 公開日:2021-12-21
# 人間-AI意思決定の科学に向けて:実証的研究

Towards a Science of Human-AI Decision Making: A Survey of Empirical Studies ( http://arxiv.org/abs/2112.11471v1 )

ライセンス: Link先を確認
Vivian Lai, Chacha Chen, Q. Vera Liao, Alison Smith-Renner, Chenhao Tan(参考訳) AIシステムはますます強力な予測性能を示し、多くの領域で採用されている。 しかし、刑事司法や医療などの高度な分野では、安全、倫理的、法的懸念から完全な自動化は望ましくないことが多いが、完全な手作業によるアプローチは不正確で時間を要する場合がある。 その結果、AI支援による人間の意思決定を強化する研究コミュニティへの関心が高まっている。 この目的のためにAI技術を開発することに加えて、人間とAIの意思決定の新興分野は、人間がどのように対話し、AIと協働して意思決定を行うかについての基礎的な理解を形成するための経験的アプローチを取り入れなければならない。 本研究は,人間-ai意思決定の理解と改善の科学をめざす構造研究の取り組みを誘い,支援するため,最近の経験的人間-サブジェクト研究の文献調査を行う。 我々は,(1)決定課題,(2)aiモデルとai支援要素,(3)評価指標という3つの重要な側面から,100以上の論文で行った研究デザイン選択を要約する。 それぞれの側面について、現在の傾向を概説し、分野の現在の実践のギャップを議論し、今後の研究の推奨事項のリストを作成する。 本調査では,研究者が研究設計において厳密な選択を行えるように,人間-AI意思決定の設計・研究空間を考慮に入れた共通フレームワークの開発の必要性を強調し,研究コミュニティが相互の作業に基づいて,汎用的な科学的知識を創出することができるようにした。 また、この調査は、HCIとAIコミュニティが協力して、人間とAIの意思決定のための実証科学と計算技術を相互に形成するための橋として役立つことを期待しています。

As AI systems demonstrate increasingly strong predictive performance, their adoption has grown in numerous domains. However, in high-stakes domains such as criminal justice and healthcare, full automation is often not desirable due to safety, ethical, and legal concerns, yet fully manual approaches can be inaccurate and time consuming. As a result, there is growing interest in the research community to augment human decision making with AI assistance. Besides developing AI technologies for this purpose, the emerging field of human-AI decision making must embrace empirical approaches to form a foundational understanding of how humans interact and work with AI to make decisions. To invite and help structure research efforts towards a science of understanding and improving human-AI decision making, we survey recent literature of empirical human-subject studies on this topic. We summarize the study design choices made in over 100 papers in three important aspects: (1) decision tasks, (2) AI models and AI assistance elements, and (3) evaluation metrics. For each aspect, we summarize current trends, discuss gaps in current practices of the field, and make a list of recommendations for future research. Our survey highlights the need to develop common frameworks to account for the design and research spaces of human-AI decision making, so that researchers can make rigorous choices in study design, and the research community can build on each other's work and produce generalizable scientific knowledge. We also hope this survey will serve as a bridge for HCI and AI communities to work together to mutually shape the empirical science and computational technologies for human-AI decision making.
翻訳日:2021-12-23 14:21:35 公開日:2021-12-21
# (参考訳) キーポイントマスクを用いた画像アニメーション [全文訳有]

Image Animation with Keypoint Mask ( http://arxiv.org/abs/2112.10457v2 )

ライセンス: CC BY 4.0
Or Toledano, Yanir Marmor, Dov Gertz(参考訳) モーショントランスファー(motion transfer)は、与えられた駆動ビデオからの動作に応じて、単一のソースイメージの将来のビデオフレームを合成するタスクである。 そこで,本研究では,映像と音源画像の関係が不明な動き表現の難易度と難易度に直面している。 その困難にもかかわらず、この問題は近年の研究から大きな関心を集め、徐々に改善された。 ゴールはしばしば動きと外観の分離と見なされ、キーポイントの動きから動きを抽出することで解決される。 私たちは、任意のオブジェクトにアニメーションを適用し、入力の構造にドメイン固有のモデルを加えることなく、汎用的で教師なしの設定に取り組むことにしました。 本研究では,キーポイントヒートマップから,明示的な運動表現を使わずに構造を抽出する。 そして、画像及び映像からの構造体を抽出して、ディープジェネレータにより、映像に応じて画像に反動させる。 キーポイントモジュールの異なるステップからの2つの構造変種を提案し、質的なポーズと定量的スコアを示す。

Motion transfer is the task of synthesizing future video frames of a single source image according to the motion from a given driving video. In order to solve it, we face the challenging complexity of motion representation and the unknown relations between the driving video and the source image. Despite its difficulty, this problem attracted great interests from researches at the recent years, with gradual improvements. The goal is often thought as the decoupling of motion and appearance, which is may be solved by extracting the motion from keypoint movement. We chose to tackle the generic, unsupervised setting, where we need to apply animation to any arbitrary object, without any domain specific model for the structure of the input. In this work, we extract the structure from a keypoint heatmap, without an explicit motion representation. Then, the structures from the image and the video are extracted to warp the image according to the video, by a deep generator. We suggest two variants of the structure from different steps in the keypoint module, and show superior qualitative pose and quantitative scores.
翻訳日:2021-12-23 12:50:28 公開日:2021-12-21
# (参考訳) スケッチ型モジュラーアーキテクチャによる階層型生涯学習の実現

Provable Hierarchical Lifelong Learning with a Sketch-based Modular Architecture ( http://arxiv.org/abs/2112.10919v1 )

ライセンス: CC BY 4.0
Zihao Deng, Zee Fryer, Brendan Juba, Rina Panigrahy, Xin Wang(参考訳) 階層的なタスクの生涯学習のためのモジュールアーキテクチャを提案する。 具体的には,従来学習されていたタスクをサブルーチンとして利用するために,学習可能な関数によって解決可能なタスクを理論的に学習できることを実証する。 このような方法で学習できるタスクは、実際に標準的な訓練方法によって学習されていないことを実証的に示す。 また,タスクを自動的に識別する手法についても検討した。

We propose a modular architecture for the lifelong learning of hierarchically structured tasks. Specifically, we prove that our architecture is theoretically able to learn tasks that can be solved by functions that are learnable given access to functions for other, previously learned tasks as subroutines. We empirically show that some tasks that we can learn in this way are not learned by standard training methods in practice; indeed, prior work suggests that some such tasks cannot be learned by any efficient method without the aid of the simpler tasks. We also consider methods for identifying the tasks automatically, without relying on explicitly given indicators.
翻訳日:2021-12-23 00:09:22 公開日:2021-12-21
# (参考訳) ニューラルodeを用いた学習運動ダイナミクスによる連続時間映像生成 [全文訳有]

Continuous-Time Video Generation via Learning Motion Dynamics with Neural ODE ( http://arxiv.org/abs/2112.10960v1 )

ライセンス: CC BY 4.0
Kangyeol Kim, Sunghyun Park, Junsoo Lee, Joonseok Lee, Sookyung Kim, Jaegul Choo, Edward Choi(参考訳) 非条件のビデオ生成を行うためには,実世界の映像の分布を学習する必要がある。 高品質な映像を合成するために、様々な研究がノイズと動画のマッピング機能を学習し、動きの分布と外観の分布を分離する最近の取り組みを含む。 しかし、以前の手法では、物体の運動の連続的な性質とは対照的に、離散した固定的な時間ステップで動きのダイナミクスを学ぶ。 本稿では,ニューラル・オードでモデル化された動きと外観の異なる分布を学習し,自然運動のダイナミクスを学習する新しい映像生成手法を提案する。 具体的には、第1段がノイズベクトルを任意のフレームレートのキーポイント列に変換し、第2段が与えられたキーポイントシーケンスと出現ノイズベクトルに基づいてビデオを合成する2段アプローチを採用する。 我々のモデルは,最近のビデオ生成のベースラインを定量的に上回っているだけでなく,動的フレームレート操作や2つのデータセット間のモーション転送といった汎用性も示している。

In order to perform unconditional video generation, we must learn the distribution of the real-world videos. In an effort to synthesize high-quality videos, various studies attempted to learn a mapping function between noise and videos, including recent efforts to separate motion distribution and appearance distribution. Previous methods, however, learn motion dynamics in discretized, fixed-interval timesteps, which is contrary to the continuous nature of motion of a physical body. In this paper, we propose a novel video generation approach that learns separate distributions for motion and appearance, the former modeled by neural ODE to learn natural motion dynamics. Specifically, we employ a two-stage approach where the first stage converts a noise vector to a sequence of keypoints in arbitrary frame rates, and the second stage synthesizes videos based on the given keypoints sequence and the appearance noise vector. Our model not only quantitatively outperforms recent baselines for video generation, but also demonstrates versatile functionality such as dynamic frame rate manipulation and motion transfer between two datasets, thus opening new doors to diverse video generation applications.
翻訳日:2021-12-23 00:08:29 公開日:2021-12-21
# (参考訳) ACGNet:弱教師付き時間行動定位のための行動補完グラフネットワーク [全文訳有]

ACGNet: Action Complement Graph Network for Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2112.10977v1 )

ライセンス: CC BY 4.0
Zichen Yang, Jie Qin, Di Huang(参考訳) ビデオレベルのラベルのみが利用可能であるため、未トリミングビデオにおける弱教師付き時間的行動ローカライゼーション(WTAL)が実用的だが困難な課題として浮上している。 既存のアプローチは通常、空間的不完全性と時間的不整合に悩まされ、性能が制限される、オフザシェルフセグメントレベルの特徴を利用する。 本稿では,単純なグラフ畳み込みネットワーク,すなわちアクション補完グラフネットワーク(ACGNet)を用いてセグメントレベルの表現を強化することで,新たな視点からこの問題に取り組む。 現行のビデオセグメントは、他のビデオから空間的-時間的依存性を知覚し、補足的な手がかりを伝達し、上記の2つの問題によって生じる悪影響を暗黙的に緩和する。 つまり、セグメントレベルの特徴はより差別的で、時空間の変動に対して頑健であり、より高い局所化精度に寄与する。 さらに重要なのは、提案されたACGNetは、エンドツーエンドのトレーニングスタイルを維持しながら、さまざまなWTALフレームワークに柔軟にプラグインできるユニバーサルモジュールとして機能することです。 THUMOS'14とActivityNet1.2のベンチマークでは、最先端の結果が提案手法の優位性を示している。

Weakly-supervised temporal action localization (WTAL) in untrimmed videos has emerged as a practical but challenging task since only video-level labels are available. Existing approaches typically leverage off-the-shelf segment-level features, which suffer from spatial incompleteness and temporal incoherence, thus limiting their performance. In this paper, we tackle this problem from a new perspective by enhancing segment-level representations with a simple yet effective graph convolutional network, namely action complement graph network (ACGNet). It facilitates the current video segment to perceive spatial-temporal dependencies from others that potentially convey complementary clues, implicitly mitigating the negative effects caused by the two issues above. By this means, the segment-level features are more discriminative and robust to spatial-temporal variations, contributing to higher localization accuracies. More importantly, the proposed ACGNet works as a universal module that can be flexibly plugged into different WTAL frameworks, while maintaining the end-to-end training fashion. Extensive experiments are conducted on the THUMOS'14 and ActivityNet1.2 benchmarks, where the state-of-the-art results clearly demonstrate the superiority of the proposed approach.
翻訳日:2021-12-22 23:50:24 公開日:2021-12-21
# (参考訳) 深層学習と空中画像を用いた産業用養鶏の大規模マッピング [全文訳有]

Mapping industrial poultry operations at scale with deep learning and aerial imagery ( http://arxiv.org/abs/2112.10988v1 )

ライセンス: CC BY 4.0
Caleb Robinson, Ben Chugg, Brandon Anderson, Juan M. Lavista Ferres, Daniel E. Ho(参考訳) 集中動物給餌活動(cafos)は、空気、水、公衆衛生に深刻なリスクをもたらすが、規制が難しいことが証明されている。 アメリカ政府説明責任局は、CAFOに関する包括的な位置情報の欠如が基本的な課題であると述べている。 米国農務省の農業画像プログラム(naip)1m/ピクセルの空中画像を用いて、米国大陸の養鶏用cafoを検出する。 コンボリューショナルニューラルネットワーク(CNN)モデルをトレーニングし、個別の養鶏場を特定し、42TB以上の画像に最高のパフォーマンスモデルを適用して、最初の全国的オープンソースCAFOデータセットを作成する。 本研究は,カリフォルニア州10郡を対象に,養鶏用CAFO施設の保留状況に対するモデル予測を検証し,この手法が環境モニタリングのギャップを埋める可能性を示した。

Concentrated Animal Feeding Operations (CAFOs) pose serious risks to air, water, and public health, but have proven to be challenging to regulate. The U.S. Government Accountability Office notes that a basic challenge is the lack of comprehensive location information on CAFOs. We use the USDA's National Agricultural Imagery Program (NAIP) 1m/pixel aerial imagery to detect poultry CAFOs across the continental United States. We train convolutional neural network (CNN) models to identify individual poultry barns and apply the best performing model to over 42 TB of imagery to create the first national, open-source dataset of poultry CAFOs. We validate the model predictions against held-out validation set on poultry CAFO facility locations from 10 hand-labeled counties in California and demonstrate that this approach has significant potential to fill gaps in environmental monitoring.
翻訳日:2021-12-22 23:37:03 公開日:2021-12-21
# (参考訳) 高齢者活動認識のための拡張スキーズ励起核融合ネットワーク [全文訳有]

Expansion-Squeeze-Ex citation Fusion Network for Elderly Activity Recognition ( http://arxiv.org/abs/2112.10992v1 )

ライセンス: CC BY-SA 4.0
Xiangbo Shu, Jiawen Yang, Rui Yan, and Yan Song(参考訳) 本研究は,高齢者の行動認識の課題に焦点をあて,高齢者の行動における個人行動と対象間相互作用の存在による課題である。 そこで本研究では,マルチモーダル特徴に着目して,rgbビデオとスケルトンシーケンスの動作と相互作用の識別情報を効果的に集約することを試みる。 近年,Squeeze-and-Excitat ion Networks (SENet) から拡張された非線形注意機構を利用して,非線形多モード融合手法を提案する。 そこで本研究では,高齢者の行動認識の課題を効果的に解決する新しい拡張・スキーゼ・興奮統合ネットワーク (ESE-FN) を提案し,モーダル・チャンネル・ワイドなマルチモーダルな特徴を意図的に融合させるため,モーダル・チャンネルワイドな拡張・スキーゼ・興奮(ESE)の注意を学習する。 さらに,単一モダリティにおける最小予測損失と融合モダリティにおける予測損失との差分を加算することにより,単一モダリティ特徴と融合モダリティ特徴との整合性を維持するために,新たなマルチモーダル損失(ML)を設計する。 最後に,ETRI-Activity3D(110 ,000以上のビデオと50以上のカテゴリを含む)を含む大規模高齢者活動データセットの実験を行い,提案したESE-FNが最先端の手法と比較して最も精度が高いことを示す。 さらに、より広範な実験結果から、ESE-FNは通常の行動認識タスクにおいて他の手法と同等であることが示された。

This work focuses on the task of elderly activity recognition, which is a challenging task due to the existence of individual actions and human-object interactions in elderly activities. Thus, we attempt to effectively aggregate the discriminative information of actions and interactions from both RGB videos and skeleton sequences by attentively fusing multi-modal features. Recently, some nonlinear multi-modal fusion approaches are proposed by utilizing nonlinear attention mechanism that is extended from Squeeze-and-Excitati on Networks (SENet). Inspired by this, we propose a novel Expansion-Squeeze-Ex citation Fusion Network (ESE-FN) to effectively address the problem of elderly activity recognition, which learns modal and channel-wise Expansion-Squeeze-Ex citation (ESE) attentions for attentively fusing the multi-modal features in the modal and channel-wise ways. Furthermore, we design a new Multi-modal Loss (ML) to keep the consistency between the single-modal features and the fused multi-modal features by adding the penalty of difference between the minimum prediction losses on single modalities and the prediction loss on the fused modality. Finally, we conduct experiments on a largest-scale elderly activity dataset, i.e., ETRI-Activity3D (including 110,000+ videos, and 50+ categories), to demonstrate that the proposed ESE-FN achieves the best accuracy compared with the state-of-the-art methods. In addition, more extensive experimental results show that the proposed ESE-FN is also comparable to the other methods in terms of normal action recognition task.
翻訳日:2021-12-22 23:16:56 公開日:2021-12-21
# (参考訳) フレームレット変換に基づくブラインド画像劣化問題の点展開関数推定 [全文訳有]

Point spread function estimation for blind image deblurring problems based on framelet transform ( http://arxiv.org/abs/2112.11004v1 )

ライセンス: CC BY-SA 4.0
Reza Parvaz(参考訳) 画像処理における最も重要な問題の1つは、ぼやけたプロセスによって失われた画像の近似である。 これらの問題は、非盲目と盲目に分けられる。 第2の問題は、原画像の未知と点拡散関数の推定による最初の問題よりも計算の点でより複雑である。 本稿では, 拡散関数推定を近似するために, $l_0-\alpha l_1$正規化とフレームレット変換による粗大な繰り返しに基づくアルゴリズムを提案する。 フレームレット転送は、カーネルの異なる周波数への分解によって復元されたカーネルを改善する。 また,提案モデルでは,通常の勾配演算子の代わりに分数勾配演算子を用いる。 提案手法は,テキスト,顔,自然など,さまざまな種類の画像について検討する。 提案手法の出力は,ブラインド問題からの画像復元における提案アルゴリズムの有効性を反映している。

One of the most important issues in the image processing is the approximation of the image that has been lost due to the blurring process. These types of matters are divided into non-blind and blind problems. The second type of problem is more complex in terms of calculations than the first problems due to the unknown of original image and point spread function estimation. In the present paper, an algorithm based on coarse-to-fine iterative by $l_0-\alpha l_1$ regularization and framelet transform is introduced to approximate the spread function estimation. Framelet transfer improves the restored kernel due to the decomposition of the kernel to different frequencies. Also in the proposed model fraction gradient operator is used instead of ordinary gradient operator. The proposed method is investigated on different kinds of images such as text, face, natural. The output of the proposed method reflects the effectiveness of the proposed algorithm in restoring the images from blind problems.
翻訳日:2021-12-22 22:50:07 公開日:2021-12-21
# (参考訳) more is less: 過剰パラメータによるスパーシティの誘発 [全文訳有]

More is Less: Inducing Sparsity via Overparameterization ( http://arxiv.org/abs/2112.11027v1 )

ライセンス: CC BY 4.0
Hung-Hsu Chou, Johannes Maly, Holger Rauhut(参考訳) ディープラーニングでは、ニューラルネットワーク、すなわちトレーニングサンプルよりも多くのパラメータを過度にパラメータ化することが一般的である。 確率的な)勾配降下によるニューラルネットワークのトレーニングは、非常によく一般化されるモデルにつながり、古典的な統計では過剰フィットが示唆される。 この暗黙のバイアス現象を理解するために,本研究では,単独で興味を寄せるスパースリカバリ(圧縮センシング)の特別な事例について検討する。 より正確には、ベクトルを過度に決定された線形測度から再構成するために、対応する過パラメータ化二乗損失関数を導入し、再構成するベクトルをいくつかのベクトルに深く分解する。 測定行列の非常に穏やかな仮定の下で、過パラメータ化損失関数に対するバニラ勾配流は、最小$\ell_1$-normの解に収束することを示す。 後者はスパースソリューションを促進することでよく知られている。 副産物として,これまでの圧縮センシングにおける試料の複雑さを著しく改善した。 この理論は数値実験の回収率を正確に予測する。 証明のためには、非凸性に起因する障害を回避し、独立した関心を持つべきである、 {\textit{solution entropy}} の概念を導入する。

In deep learning it is common to overparameterize the neural networks, that is, to use more parameters than training samples. Quite surprisingly training the neural network via (stochastic) gradient descent leads to models that generalize very well, while classical statistics would suggest overfitting. In order to gain understanding of this implicit bias phenomenon we study the special case of sparse recovery (compressive sensing) which is of interest on its own. More precisely, in order to reconstruct a vector from underdetermined linear measurements, we introduce a corresponding overparameterized square loss functional, where the vector to be reconstructed is deeply factorized into several vectors. We show that, under a very mild assumption on the measurement matrix, vanilla gradient flow for the overparameterized loss functional converges to a solution of minimal $\ell_1$-norm. The latter is well-known to promote sparse solutions. As a by-product, our results significantly improve the sample complexity for compressive sensing in previous works. The theory accurately predicts the recovery rate in numerical experiments. For the proofs, we introduce the concept of {\textit{solution entropy}}, which bypasses the obstacles caused by non-convexity and should be of independent interest.
翻訳日:2021-12-22 22:38:13 公開日:2021-12-21
# (参考訳) 多言語テキストエンコーダを用いた言語横断検索について

On Cross-Lingual Retrieval with Multilingual Text Encoders ( http://arxiv.org/abs/2112.11031v1 )

ライセンス: CC BY-SA 4.0
Robert Litschko, Ivan Vuli\'c, Simone Paolo Ponzetto, Goran Glava\v{s}(参考訳) 本稿では,多種多様な言語ペアにわたる言語間文書および文検索タスクのための最先端の多言語エンコーダの適合性に着目した体系的実証研究を行う。 まず、これらのモデルを多言語テキストエンコーダとして扱い、教師なしのアドホック文と文書レベルのCLIRでその性能をベンチマークする。 教師付き言語理解とは対照的に, 教師なしの文書レベルCLIR -- IR固有の微調整に関する関連判断のないセットアップ -- では, 事前訓練された多言語エンコーダは, CLWEをベースとした以前のモデルよりも大幅に優れている。 しかし, 文レベルの検索では, ピークスコアは, バニラ・オブ・ザ・シェルフ (off-the-shelf) の変種ではなく, 文理解タスクのために, より専門的な多言語エンコーダによって達成される。 これらの結果に続いて、文書レベルのCLIRの局所的関連性マッチングを導入し、文書セクションに対するクエリを独立にスコアする。 第2部では、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行う。 その結果,教師なしのベースローダとしての多言語変換器の性能向上はめったにないことがわかった。 最後に、ドメイン内コントラストの微調整(つまり同じドメイン、言語転送のみ)によってのみ、ランキング品質が向上します。 対象言語における言語間検索の結果と(ゼロショット)言語間移動の結果との間に有意な差異があることを明らかにするとともに,単言語データを用いた検索モデルの「単言語オーバーフィット」を指摘する。

In this work we present a systematic empirical study focused on the suitability of the state-of-the-art multilingual encoders for cross-lingual document and sentence retrieval tasks across a number of diverse language pairs. We first treat these models as multilingual text encoders and benchmark their performance in unsupervised ad-hoc sentence- and document-level CLIR. In contrast to supervised language understanding, our results indicate that for unsupervised document-level CLIR -- a setup with no relevance judgments for IR-specific fine-tuning -- pretrained multilingual encoders on average fail to significantly outperform earlier models based on CLWEs. For sentence-level retrieval, we do obtain state-of-the-art performance: the peak scores, however, are met by multilingual encoders that have been further specialized, in a supervised fashion, for sentence understanding tasks, rather than using their vanilla 'off-the-shelf' variants. Following these results, we introduce localized relevance matching for document-level CLIR, where we independently score a query against document sections. In the second part, we evaluate multilingual encoders fine-tuned in a supervised fashion (i.e., we learn to rank) on English relevance data in a series of zero-shot language and domain transfer CLIR experiments. Our results show that supervised re-ranking rarely improves the performance of multilingual transformers as unsupervised base rankers. Finally, only with in-domain contrastive fine-tuning (i.e., same domain, only language transfer), we manage to improve the ranking quality. We uncover substantial empirical differences between cross-lingual retrieval results and results of (zero-shot) cross-lingual transfer for monolingual retrieval in target languages, which point to "monolingual overfitting" of retrieval models trained on monolingual data.
翻訳日:2021-12-22 22:12:39 公開日:2021-12-21
# (参考訳) ANUBIS: 高度な脅威検出のためのグラフベースフレームワーク [全文訳有]

ANUBIS: A Provenance Graph-Based Framework for Advanced Persistent Threat Detection ( http://arxiv.org/abs/2112.11032v1 )

ライセンス: CC BY 4.0
Md. Monowar Anjum, Shahrear Iqbal, Benoit Hamelin(参考訳) 本稿では,機械学習に基づくAPT検出システムANUBISを提案する。 ANUBISの設計哲学には2つの主要な要素がある。 まず、ANUBISをサイバー対応チームによって効果的に活用する。 したがって、予測説明可能性はANUBIS設計の主要な焦点の1つである。 第二に、ANUBISは因果関係を捉え、高い検出性能を実現するためにシステム証明グラフを使用する。 ANUBISの予測能力の中核にはベイズニューラルネットワークがあり、その予測にどれだけ自信があるかを知ることができる。 我々は、最近のAPTデータセット(DARPA OpTC)に対してANUBISを評価し、ANUBISがAPTキャンペーンに似た悪意ある活動を高精度に検出できることを示す。 さらに、ANUBISは、その予測を脅威アナリストに説明できるハイレベルなパターンについて学ぶ。 説明可能な攻撃ストーリー再構築による高い予測性能により、ANUBISは企業サイバー防衛に有効なツールとなる。

We present ANUBIS, a highly effective machine learning-based APT detection system. Our design philosophy for ANUBIS involves two principal components. Firstly, we intend ANUBIS to be effectively utilized by cyber-response teams. Therefore, prediction explainability is one of the main focuses of ANUBIS design. Secondly, ANUBIS uses system provenance graphs to capture causality and thereby achieve high detection performance. At the core of the predictive capability of ANUBIS, there is a Bayesian Neural Network that can tell how confident it is in its predictions. We evaluate ANUBIS against a recent APT dataset (DARPA OpTC) and show that ANUBIS can detect malicious activity akin to APT campaigns with high accuracy. Moreover, ANUBIS learns about high-level patterns that allow it to explain its predictions to threat analysts. The high predictive performance with explainable attack story reconstruction makes ANUBIS an effective tool to use for enterprise cyber defense.
翻訳日:2021-12-22 22:10:38 公開日:2021-12-21
# (参考訳) SOIT: インスタンス対応トランスによるオブジェクトのセグメンテーション [全文訳有]

SOIT: Segmenting Objects with Instance-Aware Transformers ( http://arxiv.org/abs/2112.11037v1 )

ライセンス: CC BY 4.0
Xiaodong Yu, Dahu Shi, Xing Wei, Ye Ren, Tingqun Ye, Wenming Tan(参考訳) 本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。 DETR~\cite{carion2020end} にインスパイアされた本手法は,インスタンスセグメンテーションを直接セット予測問題とみなし,RoI の刈り取り,一対多ラベル割り当て,非最大抑圧 (NMS) などの手作り部品の必要性を効果的に除去する。 SOITでは、複数のクエリが学習され、グローバル画像コンテキスト下で、セマンティックカテゴリ、バウンディングボックス位置、およびピクセルワイドマスクの一連のオブジェクト埋め込みを直接推論する。 クラスとバウンディングボックスは固定長ベクトルで簡単に埋め込むことができる。 特にpixel-wiseマスクは、軽量なインスタンス対応トランスフォーマーを構築するためにパラメータのグループによって埋め込まれている。 その後、RoIベースの操作を伴わずに、インスタンス認識変換器によってフルレゾリューションマスクが生成される。 全体として、SOITはシンプルな単一ステージのインスタンスセグメンテーションフレームワークを導入している。 MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。 さらに、統合クエリ埋め込みにおける複数のタスクの共同学習により、検出性能が大幅に向上する。 コードは \url{https://github.com/y uxiaodonghri/soit} で入手できる。

This paper presents an end-to-end instance segmentation framework, termed SOIT, that Segments Objects with Instance-aware Transformers. Inspired by DETR~\cite{carion2020end}, our method views instance segmentation as a direct set prediction problem and effectively removes the need for many hand-crafted components like RoI cropping, one-to-many label assignment, and non-maximum suppression (NMS). In SOIT, multiple queries are learned to directly reason a set of object embeddings of semantic category, bounding-box location, and pixel-wise mask in parallel under the global image context. The class and bounding-box can be easily embedded by a fixed-length vector. The pixel-wise mask, especially, is embedded by a group of parameters to construct a lightweight instance-aware transformer. Afterward, a full-resolution mask is produced by the instance-aware transformer without involving any RoI-based operation. Overall, SOIT introduces a simple single-stage instance segmentation framework that is both RoI- and NMS-free. Experimental results on the MS COCO dataset demonstrate that SOIT outperforms state-of-the-art instance segmentation approaches significantly. Moreover, the joint learning of multiple tasks in a unified query embedding can also substantially improve the detection performance. Code is available at \url{https://github.com/y uxiaodongHRI/SOIT}.
翻訳日:2021-12-22 21:50:40 公開日:2021-12-21
# (参考訳) 分散機械学習と信頼の接点 [全文訳有]

Distributed Machine Learning and the Semblance of Trust ( http://arxiv.org/abs/2112.11040v1 )

ライセンス: CC BY 4.0
Dmitrii Usynin, Alexander Ziller, Daniel Rueckert, Jonathan Passerat-Palmbach, Georgios Kaissis(参考訳) 機械学習(ML)の大規模かつ多様なデータセットの利用は、多くの意味のある問題に対する科学的洞察を促進するために必要である。 しかしながら、gdprなどのデータガバナンス規則や倫理上の懸念から、個人的および機密性の高いデータの集約が問題となり、分散ml(dml)のような代替戦略の開発が進められた。 フェデレートラーニング(FL)のような技術により、データ所有者はデータガバナンスを維持でき、データを共有することなく、ローカルでモデルトレーニングを実行できる。 FLと関連する技術は、しばしばプライバシー保護と表現される。 この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに過度に依存するリスクを概説する。 さらに,このようなアルゴリズムを拡張することで,一般的なmlオーディエンスに対するガバナンス,セキュリティ,プライバシ,検証性の保証を,形式的なプライバシ技術に事前露出することなく提供する,というレコメンデーションや例も提供します。

The utilisation of large and diverse datasets for machine learning (ML) at scale is required to promote scientific insight into many meaningful problems. However, due to data governance regulations such as GDPR as well as ethical concerns, the aggregation of personal and sensitive data is problematic, which prompted the development of alternative strategies such as distributed ML (DML). Techniques such as Federated Learning (FL) allow the data owner to maintain data governance and perform model training locally without having to share their data. FL and related techniques are often described as privacy-preserving. We explain why this term is not appropriate and outline the risks associated with over-reliance on protocols that were not designed with formal definitions of privacy in mind. We further provide recommendations and examples on how such algorithms can be augmented to provide guarantees of governance, security, privacy and verifiability for a general ML audience without prior exposure to formal privacy techniques.
翻訳日:2021-12-22 21:36:15 公開日:2021-12-21
# (参考訳) 高性能コンピューティングのための多段階ジョブのオンラインスケジューリングコフローのためのスケーラブルな深層強化学習モデル [全文訳有]

A Scalable Deep Reinforcement Learning Model for Online Scheduling Coflows of Multi-Stage Jobs for High Performance Computing ( http://arxiv.org/abs/2112.11055v1 )

ライセンス: CC BY 4.0
Xin Wang and Hong Shen(参考訳) coflowは、データ並列コンピューティングジョブの通信性能を改善するために最近提案されたネットワーク抽象化である。 多段階ジョブでは、各ジョブは複数のコフローで構成され、DAG(Directed Acyclic Graph)によって表現される。 コフローの効率的なスケジューリングは、データセンターにおけるデータ並列コンピューティングのパフォーマンス向上に不可欠である。 手動のスケジューリングヒューリスティックと比較すると、DeepWeave [1]は強化学習(RL)フレームワークを使用して、高効率なコフロースケジューリングポリシを自動的に生成する。 グラフニューラルネットワーク(GNN)を使用して、ジョブ情報を埋め込みベクトルのセットにエンコードし、ジョブ情報全体を含むフラットな埋め込みベクトルをポリシネットワークに供給する。 しかし、任意のサイズや形状のDAGで表されるジョブに対処できないためスケーラビリティが低いため、訓練が難しい高次元埋め込みベクトルを処理するには、大規模なポリシーネットワークが必要である。 本稿では、まず指向性非巡回グラフニューラルネットワーク(DAGNN)を用いて入力を処理し、DAGNNの特徴抽出プロセスを効果的に高速化する新しいパイプラインDAGNNを提案する。 Next, we feed the embedding sequence composed of schedulable coflows instead of a flat embedding of all coflows to the policy network, and output a priority sequence, which makes the size of the policy network depend on only the dimension of features instead of the product of dimension and number of nodes in the job's DAG.Furthermore, to improve the accuracy of the priority scheduling policy, we incorporate the Self-Attention Mechanism into a deep RL model to capture the interaction between different parts of the embedding sequence to make the output priority scores relevant. このモデルに基づき,オンライン多段階ジョブのためのコフロースケジューリングアルゴリズムを開発した。

Coflow is a recently proposed networking abstraction to help improve the communication performance of data-parallel computing jobs. In multi-stage jobs, each job consists of multiple coflows and is represented by a Directed Acyclic Graph (DAG). Efficiently scheduling coflows is critical to improve the data-parallel computing performance in data centers. Compared with hand-tuned scheduling heuristics, existing work DeepWeave [1] utilizes Reinforcement Learning (RL) framework to generate highly-efficient coflow scheduling policies automatically. It employs a graph neural network (GNN) to encode the job information in a set of embedding vectors, and feeds a flat embedding vector containing the whole job information to the policy network. However, this method has poor scalability as it is unable to cope with jobs represented by DAGs of arbitrary sizes and shapes, which requires a large policy network for processing a high-dimensional embedding vector that is difficult to train. In this paper, we first utilize a directed acyclic graph neural network (DAGNN) to process the input and propose a novel Pipelined-DAGNN, which can effectively speed up the feature extraction process of the DAGNN. Next, we feed the embedding sequence composed of schedulable coflows instead of a flat embedding of all coflows to the policy network, and output a priority sequence, which makes the size of the policy network depend on only the dimension of features instead of the product of dimension and number of nodes in the job's DAG.Furthermore, to improve the accuracy of the priority scheduling policy, we incorporate the Self-Attention Mechanism into a deep RL model to capture the interaction between different parts of the embedding sequence to make the output priority scores relevant. Based on this model, we then develop a coflow scheduling algorithm for online multi-stage jobs.
翻訳日:2021-12-22 21:26:51 公開日:2021-12-21
# (参考訳) 医用画像分割のためのマクロレベルニューラルネットワーク設計における画像複雑さの活用 [全文訳有]

Leveraging Image Complexity in Macro-Level Neural Network Design for Medical Image Segmentation ( http://arxiv.org/abs/2112.11065v1 )

ライセンス: CC BY 4.0
Tariq M. Khan, Syed S. Naqvi, Erik Meijering(参考訳) エンコーダ-デコーダニューラルネットワークアーキテクチャ設計の最近の進歩は、幅広い医療画像セグメンテーションタスクにおいて、大幅なパフォーマンス向上をもたらした。 しかし、与えられたタスクに対する最先端のネットワークは、手頃なハードウェア上での実行を計算的に要求しすぎるため、ユーザーは様々なマクロレベルの設計の側面を変更することで、実用的な回避策を使うことが多い。 2つの一般的な例は、入力画像のダウンサンプリングと、コンピュータメモリの制約を満たすためのネットワーク深さの削減である。 本稿では,これらの変化がセグメンテーション性能に与える影響について検討し,与えられたデータセットに最適なものを選択する際のガイドラインとして,画像の複雑さが利用できることを示す。 我々は,画像の複雑さを定量化し,その適合性を10種類の公開データセットで評価する4つの統計的尺度を検討する。 実験のために,現在普及しているネットワークよりもメモリ効率が高い浅層および深層ネットワークを表す2つの新しいエンコーダデコーダアーキテクチャを提案する。 以上の結果から,中央周波数は入力ダウンサンプリング係数とネットワーク深度を決定するのに最適な複雑性尺度であることが示唆された。 高複雑さのデータセットでは、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている。

Recent progress in encoder-decoder neural network architecture design has led to significant performance improvements in a wide range of medical image segmentation tasks. However, state-of-the-art networks for a given task may be too computationally demanding to run on affordable hardware, and thus users often resort to practical workarounds by modifying various macro-level design aspects. Two common examples are downsampling of the input images and reducing the network depth to meet computer memory constraints. In this paper we investigate the effects of these changes on segmentation performance and show that image complexity can be used as a guideline in choosing what is best for a given dataset. We consider four statistical measures to quantify image complexity and evaluate their suitability on ten different public datasets. For the purpose of our experiments we also propose two new encoder-decoder architectures representing shallow and deep networks that are more memory efficient than currently popular networks. Our results suggest that median frequency is the best complexity measure in deciding about an acceptable input downsampling factor and network depth. For high-complexity datasets, a shallow network running on the original images may yield better segmentation results than a deep network running on downsampled images, whereas the opposite may be the case for low-complexity images.
翻訳日:2021-12-22 21:03:36 公開日:2021-12-21
# (参考訳) RC-Net:網膜血管セグメンテーションのための畳み込みニューラルネットワーク [全文訳有]

RC-Net: A Convolutional Neural Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2112.11078v1 )

ライセンス: CC BY 4.0
Tariq M Khan, Antonio Robles-Kelly, Syed S. Naqvi(参考訳) 近年、洗練された畳み込みニューラルネットワークアーキテクチャに基づく複雑なアプローチが、確立されたベンチマークデータセットのパフォーマンスを徐々に押し上げている。 本稿では,このような複雑性に対する真のニーズを検討するために,一歩後退する。 本稿では,機能重複と複雑性を低減するために,層ごとのフィルタ数を最適化した完全畳み込みネットワークRC-Netを提案する。 また,ネットワーク内のプール操作数を最小にすることで,空間情報損失を最小限に抑えるためにスキップ接続を用いた。 実験では2つの網膜血管セグメンテーションデータセットを用いた。 我々の実験では、RC-Netは非常に競争力があり、訓練可能なパラメータが2、3桁も少ない代替船のセグメンテーション手法よりも優れています。

Over recent years, increasingly complex approaches based on sophisticated convolutional neural network architectures have been slowly pushing performance on well-established benchmark datasets. In this paper, we take a step back to examine the real need for such complexity. We present RC-Net, a fully convolutional network, where the number of filters per layer is optimized to reduce feature overlapping and complexity. We also used skip connections to keep spatial information loss to a minimum by keeping the number of pooling operations in the network to a minimum. Two publicly available retinal vessel segmentation datasets were used in our experiments. In our experiments, RC-Net is quite competitive, outperforming alternatives vessels segmentation methods with two or even three orders of magnitude less trainable parameters.
翻訳日:2021-12-22 20:43:48 公開日:2021-12-21
# (参考訳) 安全通信のための航空基地局位置決めと電力制御:深部Qネットワークアプローチ [全文訳有]

Aerial Base Station Positioning and Power Control for Securing Communications: A Deep Q-Network Approach ( http://arxiv.org/abs/2112.11090v1 )

ライセンス: CC BY 4.0
Aly Sabri Abdalla, Ali Behfarnia, and Vuk Marojevic(参考訳) 無人航空機(UAV)は、通信を含む様々なサービスをサポートする技術革新の1つである。 UAVは、無線ネットワークの物理層セキュリティを強化する上で重要な役割を果たす。 本稿では,地上基地局 (ABS) として機能するUAVと地上利用者のリンクを盗聴する問題について述べる。 ABSの位置と送信電力を最適化し、地上ユーザのデータレートを高めるため、強化学習アルゴリズムQ-learningとディープQ-network(DQN)を提案する。 これにより、盗聴器の位置を知らないシステムでは、機密容量が増加する。 シミュレーションの結果、Q-learningやベースラインアプローチと比較して、DQNの高速収束と最高機密容量が示される。

The unmanned aerial vehicle (UAV) is one of the technological breakthroughs that supports a variety of services, including communications. UAV will play a critical role in enhancing the physical layer security of wireless networks. This paper defines the problem of eavesdropping on the link between the ground user and the UAV, which serves as an aerial base station (ABS). The reinforcement learning algorithms Q-learning and deep Q-network (DQN) are proposed for optimizing the position of the ABS and the transmission power to enhance the data rate of the ground user. This increases the secrecy capacity without the system knowing the location of the eavesdropper. Simulation results show fast convergence and the highest secrecy capacity of the proposed DQN compared to Q-learning and baseline approaches.
翻訳日:2021-12-22 20:32:37 公開日:2021-12-21
# (参考訳) 確率微分方程式による人間の運動予測の学習 [全文訳有]

Learning Human Motion Prediction via Stochastic Differential Equations ( http://arxiv.org/abs/2112.11124v1 )

ライセンス: CC BY 4.0
Kedi Lyu, Zhenguang Liu, Shuang Wu, Haipeng Chen, Xuhong Zhang, Yuyu Yin(参考訳) 人間の動きの理解と予測は、マシンインテリジェンスと人間と機械のインタラクションシステムの追求において不可欠な側面です。 現在の手法は通常、事前解剖学的な知識と制約に大きく依存し、運動学モデリングアプローチを追求する。 しかし、このようなアプローチは異なる骨格モデル表現に一般化することは困難であり、運動のダイナミックレンジと複雑さを考慮しても不十分であり、予測精度を損なう傾向がある。 本研究では,確率微分方程式と経路積分に基づく動き予測問題をモデル化する新しい手法を提案する。 各骨格関節の運動プロファイルは基本確率変数として定式化され、ランゲヴィン方程式でモデル化される。 我々はganを用いて将来の経路を最適化する経路積分をシミュレートする手法を開発した。 我々は、Human 3.6MとCMU MoCapという2つの大きなベンチマークデータセットで実験を行う。 提案手法は,現在の最先端手法に比べて平均12.48%の精度向上を実現している。

Human motion understanding and prediction is an integral aspect in our pursuit of machine intelligence and human-machine interaction systems. Current methods typically pursue a kinematics modeling approach, relying heavily upon prior anatomical knowledge and constraints. However, such an approach is hard to generalize to different skeletal model representations, and also tends to be inadequate in accounting for the dynamic range and complexity of motion, thus hindering predictive accuracy. In this work, we propose a novel approach in modeling the motion prediction problem based on stochastic differential equations and path integrals. The motion profile of each skeletal joint is formulated as a basic stochastic variable and modeled with the Langevin equation. We develop a strategy of employing GANs to simulate path integrals that amounts to optimizing over possible future paths. We conduct experiments in two large benchmark datasets, Human 3.6M and CMU MoCap. It is highlighted that our approach achieves a 12.48% accuracy improvement over current state-of-the-art methods in average.
翻訳日:2021-12-22 20:22:10 公開日:2021-12-21
# (参考訳) 離散的完全確率的設計:例から制御ポリシーを設計するためのツール [全文訳有]

Discrete fully probabilistic design: a tool to design control policies from examples ( http://arxiv.org/abs/2112.11210v1 )

ライセンス: CC BY 4.0
Enrico Ferrentino, Pasquale Chiacchio, Giovanni Russo(参考訳) 本稿では,Gagliardi と Russo (2021) で最近導入されたアルゴリズムを用いて,制約付き,確率的,非線形なシステムの例から制御ポリシを合成する。 制約は、潜在的に騒がしい例データで満たす必要はなく、それは、制御されているものとは異なるシステムから収集される可能性がある。 この離散化された設計のために、我々は多くのプロパティを議論し、設計パイプラインを与える。 離散完全確率設計と呼ばれるこの設計は、システム固有のアクティベーション制約を満たさない物理的に異なる振り子から収集されたデータから始まるアクティベーション制約を持つ逆振子の制御を含む例で、数値的にベンチマークされる。

We present a discretized design that expounds an algorithm recently introduced in Gagliardi and Russo (2021) to synthesize control policies from examples for constrained, possibly stochastic and nonlinear, systems. The constraints do not need to be fulfilled in the possibly noisy example data, which in turn might be collected from a system that is different from the one under control. For this discretized design, we discuss a number of properties and give a design pipeline. The design, which we term as discrete fully probabilistic design, is benchmarked numerically on an example that involves controlling an inverted pendulum with actuation constraints starting from data collected from a physically different pendulum that does not satisfy the system-specific actuation constraints.
翻訳日:2021-12-22 20:10:23 公開日:2021-12-21
# (参考訳) 画像フィルタリングによるロバスト性向上 [全文訳有]

Improving Robustness with Image Filtering ( http://arxiv.org/abs/2112.11235v1 )

ライセンス: CC BY 4.0
Matteo Terzi, Mattia Carletti, Gian Antonio Susto(参考訳) 敵対的堅牢性は、ディープラーニングとコンピュータビジョン研究において最も難しい問題の1つである。 最先端の技術はすべて、巧みにゆるむ画像を生成する時間を要する。 そのコストのため、敵訓練を避けるために多くの解決策が提案されている。 しかし、これらすべての試みは、攻撃者が画素間の急激な相関を利用して、モデルによって暗黙的に学習された脆い特徴をトリガーするため、効果がないことが証明された。 本稿ではまず,画像の基本ノードとその接続をグラフ構造を通して抽出するイメージグラフ抽出器(ige)と呼ばれる新しい画像フィルタリング手法を提案する。 IGE表現を活用することで、攻撃者がピクセルを絡めて悪意あるパターンを生成できない新しいディフェンスメソッドであるFilting as a Defenseを構築します。 さらに,フィルタ画像を用いたデータ拡張により,データ破損に対するモデルの頑健性が効果的に向上することを示す。 我々は,CIFAR-10,CIFAR-100, ImageNet上で本手法を検証する。

Adversarial robustness is one of the most challenging problems in Deep Learning and Computer Vision research. All the state-of-the-art techniques require a time-consuming procedure that creates cleverly perturbed images. Due to its cost, many solutions have been proposed to avoid Adversarial Training. However, all these attempts proved ineffective as the attacker manages to exploit spurious correlations among pixels to trigger brittle features implicitly learned by the model. This paper first introduces a new image filtering scheme called Image-Graph Extractor (IGE) that extracts the fundamental nodes of an image and their connections through a graph structure. By leveraging the IGE representation, we build a new defense method, Filtering As a Defense, that does not allow the attacker to entangle pixels to create malicious patterns. Moreover, we show that data augmentation with filtered images effectively improves the model's robustness to data corruption. We validate our techniques on CIFAR-10, CIFAR-100, and ImageNet.
翻訳日:2021-12-22 19:55:20 公開日:2021-12-21
# (参考訳) ギャップに気をつけろ! 自律走行システムの仮想対物理世界テストの移動性に関する研究 [全文訳有]

Mind the Gap! A Study on the Transferability of Virtual vs Physical-world Testing of Autonomous Driving Systems ( http://arxiv.org/abs/2112.11255v1 )

ライセンス: CC BY 4.0
Andrea Stocco, Brian Pulfer, Paolo Tonella(参考訳) 自動運転車(SDC)の安全な展開には、徹底的なシミュレートとフィールド内テストが必要である。 ほとんどのテスト技術はシミュレーション環境での仮想sdcを考慮しているが、実際の実車への移動や有効性を評価するための労力は少なくなっている。 本論文では,Donkey Carのオープンソースフレームワークを利用して,物理的小型車両に配備されたSDCのテストと仮想シミュレーションによるテストとを経験的に比較する。 本研究では,仮想環境と実環境の動作と障害暴露の伝達可能性について,腐敗した環境と敵対的な環境の広大なセットで検討した。 多数のテスト結果が仮想環境と物理環境の間を転送する一方で、仮想世界と物理世界の現実のギャップに寄与する重要な欠点を特定し、物理的sdcに適用した場合に既存のテストソリューションの可能性を脅かしている。

Safe deployment of self-driving cars (SDC) necessitates thorough simulated and in-field testing. Most testing techniques consider virtualized SDCs within a simulation environment, whereas less effort has been directed towards assessing whether such techniques transfer to and are effective with a physical real-world vehicle. In this paper, we leverage the Donkey Car open-source framework to empirically compare testing of SDCs when deployed on a physical small-scale vehicle vs its virtual simulated counterpart. In our empirical study, we investigate the transferability of behavior and failure exposure between virtual and real-world environments on a vast set of corrupted and adversarial settings. While a large number of testing results do transfer between virtual and physical environments, we also identified critical shortcomings that contribute to the reality gap between the virtual and physical world, threatening the potential of existing testing solutions when applied to physical SDCs.
翻訳日:2021-12-22 19:41:31 公開日:2021-12-21
# (参考訳) 顔提示攻撃検出コンペティションのレビュー

Review of Face Presentation Attack Detection Competitions ( http://arxiv.org/abs/2112.11290v1 )

ライセンス: CC BY 4.0
Zitong Yu, Jukka Komulainen, Xiaobai Li, Guoying Zhao(参考訳) 顔提示攻撃検出(PAD)は、スプーフィングの脆弱性が広く認識されて以来、注目されている。 state of the art in unimodal and multi-modal face anti-spoofingは、2011年、2013年、2017年、2019年、2020年、2021年に開催された主要なバイオメトリックスとコンピュータビジョンのカンファレンスとともに組織された8つの国際コンペティションで評価され、それぞれが研究コミュニティに新たな挑戦をもたらしている。 本章では,2019年から2021年までの5つのコンペティションの設計と結果について述べる。 最初の2つの課題は、カラーカメラデータに加えて、近赤外(NIR)と深度変調を導入したマルチモーダルセットアップにおける顔PADの有効性を評価することであり、最新の3つのコンペティションは、従来のカラー画像とビデオに基づいて動作する顔PADアルゴリズムのドメインおよび攻撃型一般化能力の評価に焦点を当てている。 また、この分野における競争や今後の課題から学んだ教訓についても論じる。

Face presentation attack detection (PAD) has received increasing attention ever since the vulnerabilities to spoofing have been widely recognized. The state of the art in unimodal and multi-modal face anti-spoofing has been assessed in eight international competitions organized in conjunction with major biometrics and computer vision conferences in 2011, 2013, 2017, 2019, 2020 and 2021, each introducing new challenges to the research community. In this chapter, we present the design and results of the five latest competitions from 2019 until 2021. The first two challenges aimed to evaluate the effectiveness of face PAD in multi-modal setup introducing near-infrared (NIR) and depth modalities in addition to colour camera data, while the latest three competitions focused on evaluating domain and attack type generalization abilities of face PAD algorithms operating on conventional colour images and videos. We also discuss the lessons learnt from the competitions and future challenges in the field in general.
翻訳日:2021-12-22 19:14:27 公開日:2021-12-21
# (参考訳) Eコマースにおけるカテゴリ・ツー・イメージ検索のためのCLIPの拡張 [全文訳有]

Extending CLIP for Category-to-image Retrieval in E-commerce ( http://arxiv.org/abs/2112.11294v1 )

ライセンス: CC BY 4.0
Mariya Hendriksen, Maurits Bleeker, Svitlana Vakulenko, Nanne van Noord, Ernst Kuiper, and Maarten de Rijke(参考訳) Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。 このデータの1つの側面は、検索とレコメンデーションで使われているカテゴリツリーである。 しかし、実際には、ユーザのセッション中に、あるカテゴリのテキスト表現と視覚的表現との間には、しばしばミスマッチがある。 本稿では,eコマースにおけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題であるCLIP-ITAのモデルを提案する。 このモデルは、複数のモダリティ(テキスト、視覚、属性のモダリティ)の情報を活用して製品表現を作成する。 複数のモーダル(テキスト,視覚,属性のモダリティ)から情報を追加することが,モデルの性能に与える影響について検討する。 特に、CLIP-ITAは、視覚的モダリティのみを活用する類似モデルと、視覚的モダリティと属性的モダリティのみを活用する類似モデルとを著しく上回ります。

E-commerce provides rich multimodal data that is barely leveraged in practice. One aspect of this data is a category tree that is being used in search and recommendation. However, in practice, during a user's session there is often a mismatch between a textual and a visual representation of a given category. Motivated by the problem, we introduce the task of category-to-image retrieval in e-commerce and propose a model for the task, CLIP-ITA. The model leverages information from multiple modalities (textual, visual, and attribute modality) to create product representations. We explore how adding information from multiple modalities (textual, visual, and attribute modality) impacts the model's performance. In particular, we observe that CLIP-ITA significantly outperforms a comparable model that leverages only the visual modality and a comparable model that leverages the visual and attribute modality.
翻訳日:2021-12-22 19:13:06 公開日:2021-12-21
# (参考訳) 暗黙のニューラルビデオ圧縮 [全文訳有]

Implicit Neural Video Compression ( http://arxiv.org/abs/2112.11312v1 )

ライセンス: CC BY 4.0
Yunfan Zhang, Ties van Rozendaal, Johann Brehmer, Markus Nagel, Taco Cohen(参考訳) 暗黙的なニューラル表現で全解像度映像列を圧縮する手法を提案する。 各フレームは、座標位置をピクセル値にマッピングするニューラルネットワークとして表現される。 我々は、異なる暗黙ネットワークを用いて座標入力を変調し、フレーム間の効率的な動き補償を可能にする。 これにより,従来のフレームと比較してpフレームを効率的に圧縮することができる。 学習した整数量子化でネットワーク重みを記憶することで、ビットレートをさらに低くする。 我々の手法は暗黙のピクセルフロー(IPF)と呼ばれ、既存のニューラルビデオコーデックに対していくつかの単純化を提供する: 事前訓練されたニューラルネットワークにアクセスする必要はなく、高価な補間ベースのワープ操作を使用しず、個別のトレーニングデータセットを必要としない。 画像および映像データに対して,ニューラル暗黙圧縮の可能性を示す。

We propose a method to compress full-resolution video sequences with implicit neural representations. Each frame is represented as a neural network that maps coordinate positions to pixel values. We use a separate implicit network to modulate the coordinate inputs, which enables efficient motion compensation between frames. Together with a small residual network, this allows us to efficiently compress P-frames relative to the previous frame. We further lower the bitrate by storing the network weights with learned integer quantization. Our method, which we call implicit pixel flow (IPF), offers several simplifications over established neural video codecs: it does not require the receiver to have access to a pretrained neural network, does not use expensive interpolation-based warping operations, and does not require a separate training dataset. We demonstrate the feasibility of neural implicit compression on image and video data.
翻訳日:2021-12-22 18:59:43 公開日:2021-12-21
# (参考訳) 因果アルゴリズムの逆ロバスト性について [全文訳有]

On the Adversarial Robustness of Causal Algorithmic Recourse ( http://arxiv.org/abs/2112.11313v1 )

ライセンス: CC BY 4.0
Ricardo Dominguez-Olmedo, Amir-Hossein Karimi, Bernhard Sch\"olkopf(参考訳) algorithmic recourseは、個人が自動化された意思決定システムによってなされた不利な成果を克服するための行動可能な推奨を提供することを目指している。 リコースのレコメンデーションは、リコースを求める個人の特徴において、合理的に不確実性を小さくするために、理想的には堅牢であるべきである。 本研究では,逆向きに頑健なリコース問題を定式化し,最小コストのリコースを提供するリコース手法が頑健でないことを示す。 次に,線形および微分可能な場合において,逆ロバストなリコースを生成する手法を提案する。 recourseが堅牢であることを保証するため、個人は必要以上に努力するよう求められます。 意思決定対象から意思決定者へのロバスト性の負担の一部をシフトするために,ロバストなリコースを求める追加コストを低減させるモデルレギュレータを提案する。 提案したモデル正規化器を用いて学習した分類器は,予測に不活性な特徴を頼りにし,潜在的に難易度が低いことを示す。

Algorithmic recourse seeks to provide actionable recommendations for individuals to overcome unfavorable outcomes made by automated decision-making systems. Recourse recommendations should ideally be robust to reasonably small uncertainty in the features of the individual seeking recourse. In this work, we formulate the adversarially robust recourse problem and show that recourse methods offering minimally costly recourse fail to be robust. We then present methods for generating adversarially robust recourse in the linear and in the differentiable case. To ensure that recourse is robust, individuals are asked to make more effort than they would have otherwise had to. In order to shift part of the burden of robustness from the decision-subject to the decision-maker, we propose a model regularizer that encourages the additional cost of seeking robust recourse to be low. We show that classifiers trained with our proposed model regularizer, which penalizes relying on unactionable features for prediction, offer potentially less effortful recourse.
翻訳日:2021-12-22 18:39:47 公開日:2021-12-21
# (参考訳) ICONのためのディープラーニングに基づくクラウド被覆パラメータ化

Deep Learning Based Cloud Cover Parameterization for ICON ( http://arxiv.org/abs/2112.11317v1 )

ライセンス: CC BY 4.0
Arthur Grundner, Tom Beucler, Fernando Iglesias-Suarez, Pierre Gentine, Marco A. Giorgetta, Veronika Eyring(参考訳) 気候モデルと気候予測における雲のパラメータ化を改善するための有望なアプローチは、深層学習とストーム・リゾルディング・モデル(SRM)シミュレーションのトレーニングデータを組み合わせることである。 icosahedral non-hydrostatic (icon)モデリングフレームワークは、数値気象予測から気候予測まで幅広いシミュレーションを可能にし、サブグリッドスケールプロセスのためのニューラルネットワーク(nn)ベースのパラメータ化を開発するのに理想的なターゲットとなっている。 iconフレームワーク内では、現実的な地域およびグローバルアイコンsrmシミュレーションに基づいて、粒度の粗いデータによるnnベースのクラウドカバーパラメータ化をトレーニングする。 我々は,大気の粗大な変数から雲のカバーを診断するための垂直位置の程度が異なる3種類のNNを設定した。 nnsは、トレーニングデータと同様の地理的特性を有する粗粒度データから、サブグリッドスケールの雲を精度良く推定する。 さらに、グローバルにトレーニングされたNNは、地域SRMシミュレーションのサブグリッドスケールクラウドカバーを再現することができる。 ゲーム理論に基づく解釈可能性ライブラリSHapley Additive ExPlanationsを用いて,コラムベースNNがグローバルから局所粗粒SRMデータに完全に一般化できない理由として,特定の湿度と雲氷上の過剰エンハンシスを同定する。 解釈ツールはまた、地域的およびグローバルに訓練されたカラムベースのnn間の特徴の重要性の類似性と相違を視覚化し、クラウドカバー予測と熱力学環境との間の局所的な関係を明らかにするのに役立つ。 本研究は,グローバルsrmから正確に解釈可能なクラウドカバーパラメータ化を導出する深層学習の可能性を示し,近隣モデルが精度と一般化可能性のよい妥協となる可能性を示唆する。

A promising approach to improve cloud parameterizations within climate models and thus climate projections is to use deep learning in combination with training data from storm-resolving model (SRM) simulations. The Icosahedral Non-Hydrostatic (ICON) modeling framework permits simulations ranging from numerical weather prediction to climate projections, making it an ideal target to develop neural network (NN) based parameterizations for sub-grid scale processes. Within the ICON framework, we train NN based cloud cover parameterizations with coarse-grained data based on realistic regional and global ICON SRM simulations. We set up three different types of NNs that differ in the degree of vertical locality they assume for diagnosing cloud cover from coarse-grained atmospheric state variables. The NNs accurately estimate sub-grid scale cloud cover from coarse-grained data that has similar geographical characteristics as their training data. Additionally, globally trained NNs can reproduce sub-grid scale cloud cover of the regional SRM simulation. Using the game-theory based interpretability library SHapley Additive exPlanations, we identify an overemphasis on specific humidity and cloud ice as the reason why our column-based NN cannot perfectly generalize from the global to the regional coarse-grained SRM data. The interpretability tool also helps visualize similarities and differences in feature importance between regionally and globally trained column-based NNs, and reveals a local relationship between their cloud cover predictions and the thermodynamic environment. Our results show the potential of deep learning to derive accurate yet interpretable cloud cover parameterizations from global SRMs, and suggest that neighborhood-based models may be a good compromise between accuracy and generalizability.
翻訳日:2021-12-22 18:11:24 公開日:2021-12-21
# (参考訳) PrimSeq: リハビリテーショントレーニングを定量化するディープラーニングベースのパイプライン [全文訳有]

PrimSeq: a deep learning-based pipeline to quantitate rehabilitation training ( http://arxiv.org/abs/2112.11330v1 )

ライセンス: CC BY 4.0
Avinash Parnandi, Aakash Kaku, Anita Venkatesan, Natasha Pandit, Audre Wirtanen, Haresh Rajamohan, Kannan Venkataramanan, Dawn Nilsen, Carlos Fernandez-Granda, Heidi Schambra(参考訳) 脳卒中リハビリテーションは、機能運動を繰り返し実践することで神経可塑性を増大させようとするが、繰り返しの不足のため回復にはほとんど影響を与えない可能性がある。 最適なトレーニング内容と量は現在不明であり、測定する実用的なツールが存在しない。 ここでは,脳卒中リハビリテーション訓練中の機能動作の分類とカウントを行うパイプラインであるprimseqを提案する。 このアプローチでは、上半身の動きをキャプチャするウェアラブルセンサー、動きのシーケンスを予測するディープラーニングモデル、動きを集計するアルゴリズムを統合している。 訓練されたモデルは、リハビリテーション活動を正確にコンポーネント機能動作に分解し、競争力のある機械学習手法を上回る。 PrimSeqはさらに、人間の専門家の時間と労働コストのごく一部でこれらの動きを定量化している。 上肢運動障害の既往歴のない脳卒中患者のPrimSeqの有用性について検討した。 脳卒中リハビリテーションにおける定量的検査に必要な厳密な測定を支援することが期待されている。

Stroke rehabilitation seeks to increase neuroplasticity through the repeated practice of functional motions, but may have minimal impact on recovery because of insufficient repetitions. The optimal training content and quantity are currently unknown because no practical tools exist to measure them. Here, we present PrimSeq, a pipeline to classify and count functional motions trained in stroke rehabilitation. Our approach integrates wearable sensors to capture upper-body motion, a deep learning model to predict motion sequences, and an algorithm to tally motions. The trained model accurately decomposes rehabilitation activities into component functional motions, outperforming competitive machine learning methods. PrimSeq furthermore quantifies these motions at a fraction of the time and labor costs of human experts. We demonstrate the capabilities of PrimSeq in previously unseen stroke patients with a range of upper extremity motor impairment. We expect that these advances will support the rigorous measurement required for quantitative dosing trials in stroke rehabilitation.
翻訳日:2021-12-22 18:10:11 公開日:2021-12-21
# (参考訳) 3Dジョイントの発見を監督して、人工物を再発見する動画 [全文訳有]

Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of Articulated Objects ( http://arxiv.org/abs/2112.11347v1 )

ライセンス: CC BY 4.0
Atsuhiro Noguchi, Umar Iqbal, Jonathan Tremblay, Tatsuya Harada, Orazio Gallo(参考訳) ポーズを制御しながら明瞭なオブジェクトをレンダリングすることは、仮想現実や映画のアニメーションといったアプリケーションにとって非常に重要である。 しかし、物体のポーズを操作するには、その基盤となる構造、すなわちその関節とそれらがどのように相互作用するかを理解する必要がある。 残念なことに、既存のメソッドのように構造が知られていると仮定すると、新しいオブジェクトカテゴリに取り組むことができない。 我々は,複数視点からの移動を観察し,関節アノテーションや構造に関する情報などの追加の監督を伴わずに,これまで見られなかった音節オブジェクトの外観と構造の両方を学ぶことを提案する。 我々の洞察では、互いに相対的に動く隣り合う部分は関節で繋がらなければならない。 この観察を活用するために、3次元の物体部分を楕円体としてモデル化し、関節を同定する。 この明示的な表現と、導入された近似を補う暗黙の表現を組み合わせる。 提案手法は,四足ロボットから片腕ロボット,人間など,さまざまな構造に対して有効であることを示す。

Rendering articulated objects while controlling their poses is critical to applications such as virtual reality or animation for movies. Manipulating the pose of an object, however, requires the understanding of its underlying structure, that is, its joints and how they interact with each other. Unfortunately, assuming the structure to be known, as existing methods do, precludes the ability to work on new object categories. We propose to learn both the appearance and the structure of previously unseen articulated objects by observing them move from multiple views, with no additional supervision, such as joints annotations, or information about the structure. Our insight is that adjacent parts that move relative to each other must be connected by a joint. To leverage this observation, we model the object parts in 3D as ellipsoids, which allows us to identify joints. We combine this explicit representation with an implicit one that compensates for the approximation introduced. We show that our method works for different structures, from quadrupeds, to single-arm robots, to humans.
翻訳日:2021-12-22 17:59:59 公開日:2021-12-21
# (参考訳) 持続可能な開発目標を支える深層学習と地球観測 [全文訳有]

Deep Learning and Earth Observation to Support the Sustainable Development Goals ( http://arxiv.org/abs/2112.11367v1 )

ライセンス: CC BY 4.0
Claudio Persello, Jan Dirk Wegner, Ronny H\"ansch, Devis Tuia, Pedram Ghamisi, Mila Koeva and Gustau Camps-Valls(参考訳) 深層学習モデルと地球観測の相乗的組み合わせは、持続可能な開発目標(SDG)を支援するために大きな進歩を約束する。 新たな発展と多くの応用が、人類が生きた惑星の課題に直面する方法を変えつつある。 本稿では,地球観測データに対する現在の深層学習手法と,地球観測における深層学習の急速な発展に最も影響するsdgの監視と達成への応用について概説する。 ケーススタディを体系的にレビューし 1) 空腹をゼロにする 2)持続可能な都市 3) 在任期間の確保。 4)気候変動を緩和し、適応すること 5)生物多様性の維持。 社会、経済、環境に重要な意味を持つ。 今後は、アルゴリズムと地球データによって気候危機に対処し、より持続可能な開発を支援する努力が進むだろう。

The synergistic combination of deep learning models and Earth observation promises significant advances to support the sustainable development goals (SDGs). New developments and a plethora of applications are already changing the way humanity will face the living planet challenges. This paper reviews current deep learning approaches for Earth observation data, along with their application towards monitoring and achieving the SDGs most impacted by the rapid development of deep learning in Earth observation. We systematically review case studies to 1) achieve zero hunger, 2) sustainable cities, 3) deliver tenure security, 4) mitigate and adapt to climate change, and 5) preserve biodiversity. Important societal, economic and environmental implications are concerned. Exciting times ahead are coming where algorithms and Earth data can help in our endeavor to address the climate crisis and support more sustainable development.
翻訳日:2021-12-22 17:39:27 公開日:2021-12-21
# (参考訳) 時間制約下におけるエッジデバイス上の推論精度を最大化するオフロードアルゴリズム [全文訳有]

Offloading Algorithms for Maximizing Inference Accuracy on Edge Device Under a Time Constraint ( http://arxiv.org/abs/2112.11413v1 )

ライセンス: CC BY 4.0
Andrea Fresa and Jaya Prakash Champati(参考訳) エッジコンピューティングの出現に伴い、エッジデバイス(ED)とエッジサーバ(ES)の間でジョブをオフロードする問題は過去にも大きな注目を集めていた。 機械学習(ML)推論を応用しているアプリケーションが増えつつあることを踏まえ, 推論ジョブをオフロードする問題について, 以下の新しい側面を考慮し検討する。 1)典型的な計算ジョブとは対照的に、推論ジョブの処理時間はMLモデルのサイズに依存する。 2) 最近提案された資源制約デバイスのためのDeep Neural Networks (DNN) は,モデルサイズをスケールする選択肢を提供する。 我々は,makespan 上の時間制約 t に基づき,ed で利用可能な n 個のデータサンプルの総推定精度を最大化するために代入問題を定式化する。 近似アルゴリズムであるamr2を提案し,最大2tのメイズパンが得られることを証明した。 概念実証として,MobileNetを搭載したRaspberry PiにAMR2を実装し,ResNetを搭載したサーバに接続し,画像分類のためのAMR2の総合的精度と性能について検討した。

With the emergence of edge computing, the problem of offloading jobs between an Edge Device (ED) and an Edge Server (ES) received significant attention in the past. Motivated by the fact that an increasing number of applications are using Machine Learning (ML) inference, we study the problem of offloading inference jobs by considering the following novel aspects: 1) in contrast to a typical computational job, the processing time of an inference job depends on the size of the ML model, and 2) recently proposed Deep Neural Networks (DNNs) for resource-constrained devices provide the choice of scaling the model size. We formulate an assignment problem with the aim of maximizing the total inference accuracy of n data samples available at the ED, subject to a time constraint T on the makespan. We propose an approximation algorithm AMR2, and prove that it results in a makespan at most 2T, and achieves a total accuracy that is lower by a small constant from optimal total accuracy. As proof of concept, we implemented AMR2 on a Raspberry Pi, equipped with MobileNet, and is connected to a server equipped with ResNet, and studied the total accuracy and makespan performance of AMR2 for image classification application.
翻訳日:2021-12-22 16:29:10 公開日:2021-12-21
# (参考訳) 都市地表面過程の機械学習エミュレーション [全文訳有]

Machine Learning Emulation of Urban Land Surface Processes ( http://arxiv.org/abs/2112.11429v1 )

ライセンス: CC BY 4.0
David Meyer, Sue Grimmond, Peter Dueben, Robin Hogan, Maarten van Reeuwijk(参考訳) 機械学習(ML)による都市地表面プロセスのモデル化を改善できるか? 都市地表面モデル(ULSM)の以前の比較では、すべての一般的な表面フラックスを予測するには、単一のモデルが「ベスト」ではないことがわかった。 そこで我々は,ある場所で22個のULSMから平均予測フラックスを学習した都市ニューラルネットワーク(UNN)を開発した。 UNNはULSMの平均出力を正確にエミュレートする。 基準ULSM (Town Energy Balance; TEB) と比較すると、UNNはフラックス観測と比較して精度が高く、計算コストも少なく、入力パラメータも少ない。 TensorFlowバインディングを用いたウェザーリサーチ予測(WRF)モデルと組み合わせると、WRF-UNNは基準のWRF-TEBよりも安定して正確である。 現在,本アプリケーションはトレーニングデータ(1サイト)によって制約されているが,複数のulsmsの強度をmlを用いて1つに組み合わせることで,表面フラックスのモデリングを改善する新しい手法を示す。

Can we improve the modeling of urban land surface processes with machine learning (ML)? A prior comparison of urban land surface models (ULSMs) found that no single model is 'best' at predicting all common surface fluxes. Here, we develop an urban neural network (UNN) trained on the mean predicted fluxes from 22 ULSMs at one site. The UNN emulates the mean output of ULSMs accurately. When compared to a reference ULSM (Town Energy Balance; TEB), the UNN has greater accuracy relative to flux observations, less computational cost, and requires fewer input parameters. When coupled to the Weather Research Forecasting (WRF) model using TensorFlow bindings, WRF-UNN is stable and more accurate than the reference WRF-TEB. Although the application is currently constrained by the training data (1 site), we show a novel approach to improve the modeling of surface fluxes by combining the strengths of several ULSMs into one using ML.
翻訳日:2021-12-22 16:09:03 公開日:2021-12-21
# 階層的オーバーザエアエッジ学習

Hierarchical Over-the-Air Federated Edge Learning ( http://arxiv.org/abs/2112.11167v1 )

ライセンス: Link先を確認
Ozan Ayg\"un, Mohammad Kazemi, Deniz G\"und\"uz, Tolga M. Duman(参考訳) 無線通信チャネル上でのフェデレーション学習(FL)、特にOTA(Over-the-air)モデル集約フレームワークを検討する。 OTA無線では、パラメータサーバ(PS)における受信アンテナの数を増やし、モデルアグリゲーションを行うことにより、悪質なチャネル効果を軽減することができる。 しかし、OTA FLの性能はPSから遠く離れたモバイルユーザ(MU)の存在によって制限される。 本稿では,この制限を緩和するために,中間サーバ (is) を利用した階層型over-the-air federated learning (hotafl)を提案する。 提案手法の収束解析を行い,大域的な集約の前に各クラスタの局所的な集約が,ota flよりも優れた性能と高速収束をもたらすことを理論的および実験的に実証する。

Federated learning (FL) over wireless communication channels, specifically, over-the-air (OTA) model aggregation framework is considered. In OTA wireless setups, the adverse channel effects can be alleviated by increasing the number of receive antennas at the parameter server (PS), which performs model aggregation. However, the performance of OTA FL is limited by the presence of mobile users (MUs) located far away from the PS. In this paper, to mitigate this limitation, we propose hierarchical over-the-air federated learning (HOTAFL), which utilizes intermediary servers (IS) to form clusters near MUs. We provide a convergence analysis for the proposed setup, and demonstrate through theoretical and experimental results that local aggregation in each cluster before global aggregation leads to a better performance and faster convergence than OTA FL.
翻訳日:2021-12-22 15:38:56 公開日:2021-12-21
# VW-SDK: メモリ内アーキテクチャ処理に可変ウィンドウを用いた効率的な畳み込み重みマッピング

VW-SDK: Efficient Convolutional Weight Mapping Using Variable Windows for Processing-In-Memory Architectures ( http://arxiv.org/abs/2112.11282v1 )

ライセンス: Link先を確認
Johnny Rhe, Sungmin Moon, and Jong Hwan Ko(参考訳) 高エネルギー効率で処理インメモリ(PIM)アレイは畳み込みニューラルネットワーク(CNN)推論にますます利用されている。 PIMに基づくCNN推論では、計算遅延とエネルギーは、CNNの重みがPIMアレイにどのようにマッピングされるかに依存する。 最近の研究では、複数の出力要素を並列に取得するために、重複したカーネルと結合した並列ウィンドウのユニットで入力特徴写像を再利用するシフトカーネル(SDK)マッピングが提案されている。 しかし、既存のsdkベースのマッピングアルゴリズムは、チャネル全体に対して正方形の並列ウィンドウのみをマップするため、最小の計算サイクルを必ずしも実現しない。 本稿では,変数ウィンドウSDK (VW-SDK) と呼ばれる新しいマッピングアルゴリズムを提案する。これは並列ウィンドウの形状を適応的に決定し,与えられた畳み込み層とPIMアレイの最小計算サイクルを導出する。 部分チャネルを持つ矩形ウィンドウを許すことで、VW-SDKはPIMアレイをより効率的に利用し、計算サイクルの数を減らした。 512x512 PIMアレイとResnet-18によるシミュレーションでは、既存のSDKベースのアルゴリズムと比較して、VW-SDKは推論速度を1.69倍改善している。

With their high energy efficiency, processing-in-memory (PIM) arrays are increasingly used for convolutional neural network (CNN) inference. In PIM-based CNN inference, the computational latency and energy are dependent on how the CNN weights are mapped to the PIM array. A recent study proposed shifted and duplicated kernel (SDK) mapping that reuses the input feature maps with a unit of a parallel window, which is convolved with duplicated kernels to obtain multiple output elements in parallel. However, the existing SDK-based mapping algorithm does not always result in the minimum computing cycles because it only maps a square-shaped parallel window with the entire channels. In this paper, we introduce a novel mapping algorithm called variable-window SDK (VW-SDK), which adaptively determines the shape of the parallel window that leads to the minimum computing cycles for a given convolutional layer and PIM array. By allowing rectangular-shaped windows with partial channels, VW-SDK utilizes the PIM array more efficiently, thereby further reduces the number of computing cycles. The simulation with a 512x512 PIM array and Resnet-18 shows that VW-SDK improves the inference speed by 1.69x compared to the existing SDK-based algorithm.
翻訳日:2021-12-22 15:38:17 公開日:2021-12-21
# データぼかし:1つのサンプルを分割するサンプル

Data blurring: sample splitting a single sample ( http://arxiv.org/abs/2112.11079v1 )

ライセンス: Link先を確認
James Leiner, Boyan Duan, Larry Wasserman, Aaditya Ramdas(参考訳) 未知のパラメータを持つ既知の族において、ある分布からランダムベクトル $x$ を観測すると仮定する。 いずれの場合、$x$を2つの部分に分けて$f(x)$と$g(x)$に分割することは可能で、どちらの部分も$x$をそれ自体で再構築するには十分ではありませんが、どちらも$x$を完全に回収することができ、$(f(x),g(x))$のジョイントディストリビューションは扱いやすいのでしょうか? 例えば、$X=(X_1,\dots,X_n)$と$P$が積分布であれば、任意の$m<n$に対して、サンプルを$f(X)=(X_1,\dots,X_m)$と$g(X)=(X_{m+1},\dots,X_n)$に分割することができる。 Rasines and Young (2021) は、ガウス分布データに対する有限標本および非ガウス加法モデルに対する漸近的に選択後の推論を可能にする加法的ガウス雑音による$X$のランダム化を通じて、このタスクを達成する代替ルートを提供する。 本稿では,ベイズ推論からアイデアを借用して,データ分割の連続的類似物と見なすことのできる(相対論的)解を得る,有限サンプルの分割を実現するためのより一般的な手法を提案する。 データ分割、データ彫り、p値マスキングの代替として、このメソッドをデータのぼやけと呼ぶ。 トレンドフィルタリングやその他の回帰問題に対するポストセレクション推論など,いくつかのプロトタイプアプリケーション上での手法を例示する。

Suppose we observe a random vector $X$ from some distribution $P$ in a known family with unknown parameters. We ask the following question: when is it possible to split $X$ into two parts $f(X)$ and $g(X)$ such that neither part is sufficient to reconstruct $X$ by itself, but both together can recover $X$ fully, and the joint distribution of $(f(X),g(X))$ is tractable? As one example, if $X=(X_1,\dots,X_n)$ and $P$ is a product distribution, then for any $m<n$, we can split the sample to define $f(X)=(X_1,\dots,X_m)$ and $g(X)=(X_{m+1},\dots,X_n)$. Rasines and Young (2021) offers an alternative route of accomplishing this task through randomization of $X$ with additive Gaussian noise which enables post-selection inference in finite samples for Gaussian distributed data and asymptotically for non-Gaussian additive models. In this paper, we offer a more general methodology for achieving such a split in finite samples by borrowing ideas from Bayesian inference to yield a (frequentist) solution that can be viewed as a continuous analog of data splitting. We call our method data blurring, as an alternative to data splitting, data carving and p-value masking. We exemplify the method on a few prototypical applications, such as post-selection inference for trend filtering and other regression problems.
翻訳日:2021-12-22 15:37:54 公開日:2021-12-21
# ADJUST : 分光トモグラフィのための辞書による関節再建とアンミックス法

ADJUST: A Dictionary-Based Joint Reconstruction and Unmixing Method for Spectral Tomography ( http://arxiv.org/abs/2112.11406v1 )

ライセンス: Link先を確認
Math\'e T. Zeegers, Ajinkya Kadu, Tristan van Leeuwen, Kees Joost Batenburg(参考訳) マルチスペクトル検出器の進歩は、X線CT(Computerd Tomography)のパラダイムシフトを引き起こしている。 これらの検出器から取得したスペクトル情報は、興味の対象の体積物質組成マップの抽出に利用できる。 材料とそのスペクトル応答が先行性であるならば、画像再構成ステップは比較的単純である。 しかし、それらが分かっていない場合は、地図と応答を共同で推定する必要がある。 スペクトルCTの従来のワークフローでは、ボリューム再構成を行い、材料分解を行う。 しかし, これらの手法は, 共同再建問題の原因となっている。 そこで本研究では,「スペクトルトモグラフィのための辞書ベース共同再構成とアンミックス法」を提案する。 我々の定式化は、CTに共通する材料のスペクトルシグネチャの辞書の作成と、対象物に存在する物質数の事前知識に依存している。 特に,空間的物質マップ,スペクトル辞書,辞書要素の材料指標を用いて,スペクトルボリュームを線形に分解する。 両凸問題に対する近似解を求めるために,メモリ効率の高速化近位勾配法を提案する。 いくつかの合成ファントムの数値実験から, 他の最先端手法と比較して, 調整性能が極めて良好であることを観察した。 さらに,限られた測定パターンに対する調整のロバスト性にも対処する。

Advances in multi-spectral detectors are causing a paradigm shift in X-ray Computed Tomography (CT). Spectral information acquired from these detectors can be used to extract volumetric material composition maps of the object of interest. If the materials and their spectral responses are known a priori, the image reconstruction step is rather straightforward. If they are not known, however, the maps as well as the responses need to be estimated jointly. A conventional workflow in spectral CT involves performing volume reconstruction followed by material decomposition, or vice versa. However, these methods inherently suffer from the ill-posedness of the joint reconstruction problem. To resolve this issue, we propose `A Dictionary-based Joint reconstruction and Unmixing method for Spectral Tomography' (ADJUST). Our formulation relies on forming a dictionary of spectral signatures of materials common in CT and prior knowledge of the number of materials present in an object. In particular, we decompose the spectral volume linearly in terms of spatial material maps, a spectral dictionary, and the indicator of materials for the dictionary elements. We propose a memory-efficient accelerated alternating proximal gradient method to find an approximate solution to the resulting bi-convex problem. From numerical demonstrations on several synthetic phantoms, we observe that ADJUST performs exceedingly well when compared to other state-of-the-art methods. Additionally, we address the robustness of ADJUST against limited measurement patterns.
翻訳日:2021-12-22 15:37:19 公開日:2021-12-21
# エントロピー障壁は$n$-self-concordantである

The entropic barrier is $n$-self-concordant ( http://arxiv.org/abs/2112.10947v1 )

ライセンス: Link先を確認
Sinho Chewi(参考訳) 任意の凸体 $K \subseteq \mathbb R^n$ に対して、S. Bubeck と R. Eldan は K$ 上のエントロピック障壁を導入し、それが $(1+o(1)) \, n$-自己調和障壁であることを示した。 ここでは、自己調和パラメータ上の$n$の最適境界が、次元ブラスカン・リーブ不等式の結果として成り立つことを観察する。

For any convex body $K \subseteq \mathbb R^n$, S. Bubeck and R. Eldan introduced the entropic barrier on $K$ and showed that it is a $(1+o(1)) \, n$-self-concordant barrier. In this note, we observe that the optimal bound of $n$ on the self-concordance parameter holds as a consequence of the dimensional Brascamp-Lieb inequality.
翻訳日:2021-12-22 15:34:36 公開日:2021-12-21
# 音響不変表現のための拡張コントラスト自己教師付き学習

Augmented Contrastive Self-Supervised Learning for Audio Invariant Representations ( http://arxiv.org/abs/2112.10950v1 )

ライセンス: Link先を確認
Melikasadat Emami, Dung Tran, Kazuhito Koishida(参考訳) ラベル付きデータ不足による音声分類において、一般化の改善は大きな課題である。 自己教師付き学習(SSL)メソッドは、ラベルのないデータを活用して、下流の分類タスクに有用な機能を学ぶ。 本研究では,ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。 提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。 オーディオセットとDESEDデータセットによる実験結果から,我々のフレームワークは最先端のSSLと教師あり学習法を音響・音響分類タスクで著しく上回ることがわかった。

Improving generalization is a major challenge in audio classification due to labeled data scarcity. Self-supervised learning (SSL) methods tackle this by leveraging unlabeled data to learn useful features for downstream classification tasks. In this work, we propose an augmented contrastive SSL framework to learn invariant representations from unlabeled data. Our method applies various perturbations to the unlabeled input data and utilizes contrastive learning to learn representations robust to such perturbations. Experimental results on the Audioset and DESED datasets show that our framework significantly outperforms state-of-the-art SSL and supervised learning methods on sound/event classification tasks.
翻訳日:2021-12-22 15:34:25 公開日:2021-12-21
# 機械学習と量子モンテカルロによる高圧水素

High pressure hydrogen by machine learning and quantum Monte Carlo ( http://arxiv.org/abs/2112.11099v1 )

ライセンス: Link先を確認
Andrea Tirelli, Giacomo Tenti, Kousuke Nakano, Sandro Sorella(参考訳) 我々は,量子モンテカルロの精度を機械学習ポテンシャル(MLP)の効率と電子相関を記述する手法を開発した。 私たちは、非常に効率的な方法で実装されたSOAP(Smooth Overlap Atomic Position)アプローチと組み合わせて、カーネル線形回帰を使用します。 主な材料は: 一 最遠点サンプリングに基づくスパシフィケーション手法により、MPPの汎用性及び伝達性を確保すること。 i)いわゆる$\Delta$-learningは,量子モンテカルロに基づくような,高精度だが計算に要求される計算の基本的な特性である,小さなトレーニングデータセットを可能にする。 第一に, 高圧水素の液-液転移のベンチマーク研究を行い, 実験室で実験が困難であり, 理論が決定的とはほど遠いこの非常に議論された課題に対して, 高い精度の重要性を強調し, mlpの質を示す。

We have developed a technique combining the accuracy of quantum Monte Carlo in describing the electron correlation with the efficiency of a machine learning potential (MLP). We use kernel linear regression in combination with SOAP (Smooth Overlap Atomic Position) approach, implemented here in a very efficient way. The key ingredients are: i) a sparsification technique, based on farthest point sampling, ensuring generality and transferability of our MLPs and ii) the so called $\Delta$-learning, allowing a small training data set, a fundamental property for highly accurate but computationally demanding calculations, such as the ones based on quantum Monte Carlo. As a first application we present a benchmark study of the liquid-liquid transition of high-pressure hydrogen and show the quality of our MLP, by emphasizing the importance of high accuracy for this very debated subject, where experiments are difficult in the lab, and theory is still far from being conclusive.
翻訳日:2021-12-22 15:34:14 公開日:2021-12-21
# 半マルコフ人口生成モデルの開発と検証:技術報告

Developing and Validating Semi-Markov Occupancy Generative Models: A Technical Report ( http://arxiv.org/abs/2112.11111v1 )

ライセンス: Link先を確認
Soumya Kundu and Saptarshi Bhattacharya and Himanshu Sharma and Veronica Adetola(参考訳) 本稿では,米国エネルギー省ビル技術部(BTO)のセンサインパクト評価検証プロジェクトの一環として,太平洋岸北西部国立研究所(PNNL)が実施した商業ビルにおける確率的占有モデルの開発と検証に関する最近の技術成果について報告する。 本稿では、商業ビルにおけるゾーンレベルの占有数と占有数のシーケンスを生成するための不均一なセミマルコフ連鎖モデルの開発と検証について述べる。 実際のデータセットは、生成的占有モデルを学び、検証するために使用される。 正規化ジェンセン-シャノン距離(NJSD)のような関連する指標は、モデルが現実的な占有行動パターンを表現する能力を示すために用いられる。

This report documents recent technical work on developing and validating stochastic occupancy models in commercial buildings, performed by the Pacific Northwest National Laboratory (PNNL) as part of the Sensor Impact Evaluation and Verification project under the U.S. Department of Energy (DOE) Building Technologies Office (BTO). In this report, we present our work on developing and validating inhomogeneous semi-Markov chain models for generating sequences of zone-level occupancy presence and occupancy counts in a commercial building. Real datasets are used to learn and validate the generative occupancy models. Relevant metrics such as normalized Jensen-Shannon distance (NJSD) are used to demonstrate the ability of the models to express realistic occupancy behavioral patterns.
翻訳日:2021-12-22 15:33:58 公開日:2021-12-21
# FedPOIRec: 社会的影響を考慮したFederated POI勧告のプライバシー保護

FedPOIRec: Privacy Preserving Federated POI Recommendation with Social Influence ( http://arxiv.org/abs/2112.11134v1 )

ライセンス: Link先を確認
Vasileios Perifanis, George Drosatos, Giorgos Stamatelatos and Pavlos S. Efraimidis(参考訳) 位置情報ベースのソーシャルネットワークの増加に伴い、プライバシー保護のための位置情報予測が、ユーザーが新しい関心のポイント(POI)を見つけるのを助ける主要なタスクとなっている。 従来のシステムは、ユーザのプライベートデータの送信と収集を必要とする集中型のアプローチを考える。 本研究では,ユーザのソーシャルサークルの機能により強化された,プライバシ保護連帯学習手法であるfeedpoirecを提案する。 まず、FedPOIRecフレームワークは、ローカルデータが所有者のデバイスを離れることはないという原則に基づいて構築され、ローカル更新はパラメータサーバによって盲目的に集約される。 第2に、学習したパラメータをユーザが交換し、友人間の知識伝達を可能にすることで、ローカルレコメンデーションがパーソナライズされる。 そこで本研究では,ckks完全準同型暗号方式の特性を活用し,ユーザの友人の選好を統合するプライバシ保護プロトコルを提案する。 FedPOIRecを評価するために、2つのレコメンデーションモデルを用いて、我々のアプローチを5つの実世界のデータセットに適用する。 大規模な実験では、FedPOIRecは集中型アプローチに匹敵する推奨品質を達成し、一方でソーシャル統合プロトコルは、ユーザ側で低い計算と通信オーバーヘッドを発生させる。

With the growing number of Location-Based Social Networks, privacy preserving location prediction has become a primary task for helping users discover new points-of-interest (POIs). Traditional systems consider a centralized approach that requires the transmission and collection of users' private data. In this work, we present FedPOIRec, a privacy preserving federated learning approach enhanced with features from users' social circles for top-$N$ POI recommendations. First, the FedPOIRec framework is built on the principle that local data never leave the owner's device, while the local updates are blindly aggregated by a parameter server. Second, the local recommenders get personalized by allowing users to exchange their learned parameters, enabling knowledge transfer among friends. To this end, we propose a privacy preserving protocol for integrating the preferences of a user's friends after the federated computation, by exploiting the properties of the CKKS fully homomorphic encryption scheme. To evaluate FedPOIRec, we apply our approach into five real-world datasets using two recommendation models. Extensive experiments demonstrate that FedPOIRec achieves comparable recommendation quality to centralized approaches, while the social integration protocol incurs low computation and communication overhead on the user side.
翻訳日:2021-12-22 15:33:43 公開日:2021-12-21
# 神経多様体に対する動的安定な poincar\e 埋め込み

Dynamically Stable Poincar\'e Embeddings for Neural Manifolds ( http://arxiv.org/abs/2112.11172v1 )

ライセンス: Link先を確認
Jun Chen, Yuang Liu, Xiangrui Zhao, Yong Liu(参考訳) リーマン多様体において、リッチフローは計量をより正則に進化させるための偏微分方程式である。 このようなメトリクスのトポロジ的構造が機械学習のタスクに役立てられることを期待している。 しかし、この部分はまだ欠落している。 本稿では,神経多様体に対する動的に安定なpoincar\e埋め込みにより,リッチフローとディープニューラルネットワークとのギャップを橋渡しする。 結果として、初期計量がポアンカーの球上の双曲計量から逸脱する$L^2$-norm摂動を持つなら、そのような計量のスケールされたリッチ・デトゥルク流は滑らかで指数関数的に双曲計量に収束する。 特に、リッチフローの役割は、安定なポアンカル(英語版)(poincar\'e)球へと自然に進化し、ユークリッド空間に写像される。 リッチフロー下のそのような動的に安定なニューラルネットワークの場合、そのような多様体に埋め込まれたニューラルネットワークの収束は摂動に影響を受けない。 このようなリッチフロー支援ニューラルネットワークは,画像分類タスク(CIFARデータセット)のユークリッドバージョンよりも優れていることを示す。

In a Riemannian manifold, the Ricci flow is a partial differential equation for evolving the metric to become more regular. We hope that topological structures from such metrics may be used to assist in the tasks of machine learning. However, this part of the work is still missing. In this paper, we bridge this gap between the Ricci flow and deep neural networks by dynamically stable Poincar\'e embeddings for neural manifolds. As a result, we prove that, if initial metrics have an $L^2$-norm perturbation which deviates from the Hyperbolic metric on the Poincar\'e ball, the scaled Ricci-DeTurck flow of such metrics smoothly and exponentially converges to the Hyperbolic metric. Specifically, the role of the Ricci flow is to serve as naturally evolving to the stable Poincar\'e ball that will then be mapped back to the Euclidean space. For such dynamically stable neural manifolds under the Ricci flow, the convergence of neural networks embedded with such manifolds is not susceptible to perturbations. And we show that such Ricci flow assisted neural networks outperform with their all Euclidean versions on image classification tasks (CIFAR datasets).
翻訳日:2021-12-22 15:33:16 公開日:2021-12-21
# 物理インフォームドニューラルネットワークによる梁-壁相互作用のモデル化

Physics-informed neural network method for modelling beam-wall interactions ( http://arxiv.org/abs/2112.11323v1 )

ライセンス: Link先を確認
Kazuhiro Fujita(参考訳) 粒子加速器におけるビームウォール相互作用をモデル化するためのメッシュフリーアプローチを提案する。 本手法の鍵となる考え方は, 粒子ビームを含む偏微分方程式と表面インピーダンスの概念の集合に対する解の代用として, ディープニューラルネットワークを使用することである。 提案手法は, 薄導電性コーティングを用いた加速器真空室のカップリングインピーダンスに適用し, 既存の解析式との比較で検証した。

A mesh-free approach for modelling beam-wall interactions in particle accelerators is proposed. The key idea of our method is to use a deep neural network as a surrogate for the solution to a set of partial differential equations involving the particle beam, and the surface impedance concept. The proposed approach is applied to the coupling impedance of an accelerator vacuum chamber with thin conductive coating, and also verified in comparison with the existing analytical formula.
翻訳日:2021-12-22 15:32:16 公開日:2021-12-21
# 重み付き残差誤差推定におけるニューラルネットワーク誘導随伴計算

Neural network guided adjoint computations in dual weighted residual error estimation ( http://arxiv.org/abs/2112.11360v1 )

ライセンス: Link先を確認
Ayan Chakraborty, Thomas Wick, Xiaoying Zhuang, Timon Rabczuk(参考訳) ディープラーニングは、視覚認識と特定の人工知能タスクに成功している。 ディープラーニングは、関数を近似する柔軟性の高い強力なツールだと考えられている。 本研究では,PDEの解を近似するために,所望の特性を持つ関数を考案した。 本手法は,ニューラルネットワークの枠組み内で誤差推定器を定式化するために,誤差の局所化に付随する問題を解いた後続誤差推定法に基づく。 ニューラルネットワークを用いた予備解と随伴解の両方を計算した2重重み付き残差法を用いて,複数目標関数の後方誤差推定を行うための効率的で実装が容易なアルゴリズムを開発した。 本研究では,このようなデータ駆動型モデルに基づく学習は,比較的少ないトレーニングデータであっても,興味量の近似が優れていることを示す。 新たなアルゴリズム開発は数値テスト例で実証されている。 浅層ニューラルネットワーク上での深部ニューラルネットワークの利点を実証し,収束促進技術についても述べる。

Deep learning has shown successful application in visual recognition and certain artificial intelligence tasks. Deep learning is also considered as a powerful tool with high flexibility to approximate functions. In the present work, functions with desired properties are devised to approximate the solutions of PDEs. Our approach is based on a posteriori error estimation in which the adjoint problem is solved for the error localization to formulate an error estimator within the framework of neural network. An efficient and easy to implement algorithm is developed to obtain a posteriori error estimate for multiple goal functionals by employing the dual-weighted residual approach, which is followed by the computation of both primal and adjoint solutions using the neural network. The present study shows that such a data-driven model based learning has superior approximation of quantities of interest even with relatively less training data. The novel algorithmic developments are substantiated with numerical test examples. The advantages of using deep neural network over the shallow neural network are demonstrated and the convergence enhancing techniques are also presented
翻訳日:2021-12-22 15:32:09 公開日:2021-12-21
# (参考訳) 効率的な局所的注意のための学習クエリ [全文訳有]

Learned Queries for Efficient Local Attention ( http://arxiv.org/abs/2112.11435v1 )

ライセンス: CC BY 4.0
Moab Arar, Ariel Shamir, Amit H. Bermano(参考訳) ビジョントランスフォーマー(ViT)は強力なビジョンモデルとして機能する。 前年に視覚研究を支配した畳み込みニューラルネットワークとは異なり、視覚トランスフォーマーはデータの長距離依存性を捉えることができる。 それでも、任意のトランスフォーマーアーキテクチャの不可欠な部分であるセルフアテンション機構は、高レイテンシと非効率なメモリ使用に苦しむため、高解像度の入力画像には適さない。 これらの欠点を軽減するため、階層型視覚モデルは非インターリーブウィンドウ上で局所的に自己注意を用いる。 この緩和により、入力サイズが線形になる複雑さは減少するが、ウィンドウ間相互作用が制限され、モデルの性能が損なわれる。 本稿では,畳み込みのように局所的に入力を集約する「クエリ・アンド・アサート(qna)」と呼ばれる新しいシフト不変局所注意層を提案する。 QnAの主な考え方は、高速で効率的な実装を可能にする学習クエリの導入である。 階層型視覚変換器モデルに組み込むことで,我々の層の有効性を検証する。 最先端モデルと同等の精度を実現しつつ、速度とメモリの複雑さを改善した。 最後に、私たちのレイヤは特にウィンドウサイズでスケールし、既存のメソッドよりもx5までのメモリを最大10倍削減します。

Vision Transformers (ViT) serve as powerful vision models. Unlike convolutional neural networks, which dominated vision research in previous years, vision transformers enjoy the ability to capture long-range dependencies in the data. Nonetheless, an integral part of any transformer architecture, the self-attention mechanism, suffers from high latency and inefficient memory utilization, making it less suitable for high-resolution input images. To alleviate these shortcomings, hierarchical vision models locally employ self-attention on non-interleaving windows. This relaxation reduces the complexity to be linear in the input size; however, it limits the cross-window interaction, hurting the model performance. In this paper, we propose a new shift-invariant local attention layer, called query and attend (QnA), that aggregates the input locally in an overlapping manner, much like convolutions. The key idea behind QnA is to introduce learned queries, which allow fast and efficient implementation. We verify the effectiveness of our layer by incorporating it into a hierarchical vision transformer model. We show improvements in speed and memory complexity while achieving comparable accuracy with state-of-the-art models. Finally, our layer scales especially well with window size, requiring up-to x10 less memory while being up-to x5 faster than existing methods.
翻訳日:2021-12-22 15:30:29 公開日:2021-12-21
# StyleSDF:高分解能3D一貫性画像と幾何生成

StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation ( http://arxiv.org/abs/2112.11427v1 )

ライセンス: Link先を確認
Roy Or-El and Xuan Luo and Mengyi Shan and Eli Shechtman and Jeong Joon Park and Ira Kemelmacher-Shlizerm an(参考訳) 本稿では,高分解能3次元画像と形状生成技術を導入し,StyleSDFと呼ぶ。 本手法は, 単視点RGBデータのみをトレーニングし, 画像生成のためのStyleGAN2の肩に立脚し, 3次元GANにおける2つの課題を解決した。 1)RGB画像の高解像度・ビュー一貫性生成、及び 2) 詳細な3次元形状。 SDFベースの3D表現とスタイルベースの2Dジェネレータを組み合わせることで、これを実現できる。 我々の3D暗黙ネットワークは低解像度の特徴マップをレンダリングし、そこからビュー一貫性1024x1024画像を生成する。 SDFベースの3Dモデリングでは詳細な3D面が定義されており、一貫したボリュームレンダリングが実現している。 本手法は,視覚的および幾何学的品質の観点から,芸術の状況と比較し,高品質な結果を示す。

We introduce a high resolution, 3D-consistent image and shape generation technique which we call StyleSDF. Our method is trained on single-view RGB data only, and stands on the shoulders of StyleGAN2 for image generation, while solving two main challenges in 3D-aware GANs: 1) high-resolution, view-consistent generation of the RGB images, and 2) detailed 3D shape. We achieve this by merging a SDF-based 3D representation with a style-based 2D generator. Our 3D implicit network renders low-resolution feature maps, from which the style-based network generates view-consistent, 1024x1024 images. Notably, our SDF-based 3D modeling defines detailed 3D surfaces, leading to consistent volume rendering. Our method shows higher quality results compared to state of the art in terms of visual and geometric quality.
翻訳日:2021-12-22 14:55:12 公開日:2021-12-21
# GOAL:ハンド・オブジェクト・グラッピングのための4次元全身運動の生成

GOAL: Generating 4D Whole-Body Motion for Hand-Object Grasping ( http://arxiv.org/abs/2112.11454v1 )

ライセンス: Link先を確認
Omid Taheri, Vasileios Choutas, Michael J. Black, and Dimitrios Tzionas(参考訳) 現実的に動くデジタル人間を生成するには多くの応用があり、広く研究されているが、既存の方法は手や頭を無視して身体の主肢に焦点を当てている。 手は別々に研究されているが、オブジェクトのリアルな静的な把握に焦点が当てられている。 世界と相互作用する仮想文字を合成するには、全身の動きとリアルな手の動きを同時に生成する必要がある。 サブプロブレムはそれぞれが挑戦的であり、ポーズの状態空間は著しく大きく、手と体の動きの規模は異なり、体全体の姿勢と手の動きは一致し、身体的制約を満足し、妥当である。 さらに、頭部が関与するのは、アバターがそれと相互作用するためにオブジェクトを見る必要があるからである。 本研究では,未知の物体をつかむアバターの全身,手,頭部の動きを初めて生成する問題に対処する。 入力として、GOALと呼ばれる手法は、3Dオブジェクトとその位置、そして開始する3Dボディのポーズと形状を取ります。 GOALは2つの新しいネットワークを使って全身のポーズを出力する。 まず、GNetは、現実的な体、頭、腕、手ポーズ、そして手オブジェクトの接触で、目標全体の把握を生成する。 第2に、MNetは開始ポーズとゴールポーズの間の動きを生成する。 これは、アバターが足と足の接触で物体に向かって歩き、頭に向かって向きを変え、手を伸ばし、リアルな手のポーズと手と対象の接触でつかむ必要があるため、困難である。 これを実現するために、SMPL-Xボディパラメータと3次元頂点オフセットを組み合わせた表現を利用する。 GRABデータセット上で,GOALを質的かつ定量的に訓練し,評価する。 その結果、GOALは未確認のオブジェクトによく一般化し、ベースラインを上回ります。 GOALは、現実的なフルボディオブジェクトの把握を合成するための一歩を踏み出す。

Generating digital humans that move realistically has many applications and is widely studied, but existing methods focus on the major limbs of the body, ignoring the hands and head. Hands have been separately studied but the focus has been on generating realistic static grasps of objects. To synthesize virtual characters that interact with the world, we need to generate full-body motions and realistic hand grasps simultaneously. Both sub-problems are challenging on their own and, together, the state-space of poses is significantly larger, the scales of hand and body motions differ, and the whole-body posture and the hand grasp must agree, satisfy physical constraints, and be plausible. Additionally, the head is involved because the avatar must look at the object to interact with it. For the first time, we address the problem of generating full-body, hand and head motions of an avatar grasping an unknown object. As input, our method, called GOAL, takes a 3D object, its position, and a starting 3D body pose and shape. GOAL outputs a sequence of whole-body poses using two novel networks. First, GNet generates a goal whole-body grasp with a realistic body, head, arm, and hand pose, as well as hand-object contact. Second, MNet generates the motion between the starting and goal pose. This is challenging, as it requires the avatar to walk towards the object with foot-ground contact, orient the head towards it, reach out, and grasp it with a realistic hand pose and hand-object contact. To achieve this the networks exploit a representation that combines SMPL-X body parameters and 3D vertex offsets. We train and evaluate GOAL, both qualitatively and quantitatively, on the GRAB dataset. Results show that GOAL generalizes well to unseen objects, outperforming baselines. GOAL takes a step towards synthesizing realistic full-body object grasping.
翻訳日:2021-12-22 14:55:00 公開日:2021-12-21
# 予算上のドリフトデータストリームのマイニング: アクティブラーニングとセルフラベルを組み合わせる

Mining Drifting Data Streams on a Budget: Combining Active Learning with Self-Labeling ( http://arxiv.org/abs/2112.11019v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki, Bartosz Krawczyk(参考訳) データストリームのマイニングには、連続的および非定常的なデータの性質、処理すべき大量の情報、計算リソースの制約など、多くの課題がある。 文献では、この問題に対して多くの教師付きソリューションが提案されているが、ほとんどは(クラスラベルの形で)基礎的真理へのアクセスは無制限であり、学習システムを更新する際に即座にそのような情報を利用できると仮定している。 これは、レーベルの買収の根底にあるコストを考える必要があるため、現実的ではない。 そのため、ストリーミングシナリオにおける根拠真理の要件を低減できるソリューションが必要となる。 本稿では,アクティブラーニングから得られる情報と自己ラベルを組み合わせることにより,予算上ドリフトデータストリームをマイニングする新しい枠組みを提案する。 我々は,概念ドリフトの可能性を考慮して,インテリジェントなインスタンス選択と半教師付き手順の両方を活用できる戦略をいくつか導入する。 このようなハイブリッドアプローチは、現実的なラベリング予算内で、ストリーミングデータ構造の効率的な探索と活用を可能にする。 我々のフレームワークはラッパーとして機能するため、異なる学習アルゴリズムで適用することができる。 様々な概念ドリフトを持つ多種多様な実世界のデータストリームを用いた実験研究は,クラスラベルへの高度に制限されたアクセスを扱う際に提案手法の有用性を実証する。 提案したハイブリッドアプローチは、特に非効率な分類器のラベル付けや置換の予算を増やせない場合に実現可能である。 戦略の適用性に関する一連の推奨事項を提示します。

Mining data streams poses a number of challenges, including the continuous and non-stationary nature of data, the massive volume of information to be processed and constraints put on the computational resources. While there is a number of supervised solutions proposed for this problem in the literature, most of them assume that access to the ground truth (in form of class labels) is unlimited and such information can be instantly utilized when updating the learning system. This is far from being realistic, as one must consider the underlying cost of acquiring labels. Therefore, solutions that can reduce the requirements for ground truth in streaming scenarios are required. In this paper, we propose a novel framework for mining drifting data streams on a budget, by combining information coming from active learning and self-labeling. We introduce several strategies that can take advantage of both intelligent instance selection and semi-supervised procedures, while taking into account the potential presence of concept drift. Such a hybrid approach allows for efficient exploration and exploitation of streaming data structures within realistic labeling budgets. Since our framework works as a wrapper, it may be applied with different learning algorithms. Experimental study, carried out on a diverse set of real-world data streams with various types of concept drift, proves the usefulness of the proposed strategies when dealing with highly limited access to class labels. The presented hybrid approach is especially feasible when one cannot increase a budget for labeling or replace an inefficient classifier. We deliver a set of recommendations regarding areas of applicability for our strategies.
翻訳日:2021-12-22 14:51:19 公開日:2021-12-21
# クロスエントロピーポリシ最適化を用いたソフトアクタクリティカル

Soft Actor-Critic with Cross-Entropy Policy Optimization ( http://arxiv.org/abs/2112.11115v1 )

ライセンス: Link先を確認
Zhenyang Shi, Surya P.N. Singh(参考訳) ソフトアクター・クライブ(Soft Actor-Critic、SAC)は、最大エントロピーベースのRLフレームワーク内に存在する最先端のオフポリチ強化学習(RL)アルゴリズムの1つである。 SACは、優れた安定性と堅牢性を持つ連続制御タスクのリストにおいて、非常によく機能することが示されている。 SACは、期待される全報酬と政策エントロピーの間のトレードオフを最大化できる確率的なガウス政策を学ぶ。 ポリシーを更新するために、SACは現在のポリシー密度とソフトバリュー関数密度との間のKL-ダイバージェンスを最小化する。 再パラメータ化のトリックは、この分岐の近似勾配を得るために使われる。 本稿では,SACのポリシネットワークを最適化するために,クロスエントロピー手法(CEM)を用いたSAC-CEPOを用いたソフトアクタクリティカルを提案する。 最初のアイデアは、cemを使ってソフト値関数密度に最も近い分布を反復的にサンプリングし、その結果の分布をターゲットとしてポリシーネットワークを更新することである。 また,計算量を減らすために,ガウスの方針を平均を学ぶ1つの政策と,平均的な政策のみがcemによって訓練されるように逸脱を学習するもう1つの政策に分離した政策構造を導入する。 我々は、この分離された政策構造が最適に収束していることを示し、また、SAC-CEPOが元のSACと競合する性能を達成できることを実験によって示す。

Soft Actor-Critic (SAC) is one of the state-of-the-art off-policy reinforcement learning (RL) algorithms that is within the maximum entropy based RL framework. SAC is demonstrated to perform very well in a list of continous control tasks with good stability and robustness. SAC learns a stochastic Gaussian policy that can maximize a trade-off between total expected reward and the policy entropy. To update the policy, SAC minimizes the KL-Divergence between the current policy density and the soft value function density. Reparameterization trick is then used to obtain the approximate gradient of this divergence. In this paper, we propose Soft Actor-Critic with Cross-Entropy Policy Optimization (SAC-CEPO), which uses Cross-Entropy Method (CEM) to optimize the policy network of SAC. The initial idea is to use CEM to iteratively sample the closest distribution towards the soft value function density and uses the resultant distribution as a target to update the policy network. For the purpose of reducing the computational complexity, we also introduce a decoupled policy structure that decouples the Gaussian policy into one policy that learns the mean and one other policy that learns the deviation such that only the mean policy is trained by CEM. We show that this decoupled policy structure does converge to a optimal and we also demonstrate by experiments that SAC-CEPO achieves competitive performance against the original SAC.
翻訳日:2021-12-22 14:50:55 公開日:2021-12-21
# 機械学習アルゴリズムバイアス検出による人間の判断の不公平検出に関する実験的検討

A Pilot Study on Detecting Unfairness in Human Decisions With Machine Learning Algorithmic Bias Detection ( http://arxiv.org/abs/2112.11279v1 )

ライセンス: Link先を確認
Zhe Yu, Xiaoyin Xi(参考訳) 意思決定の公平性は、我々の社会における長年の問題である。 機械学習モデルにおける不公平さ緩和に関する研究活動が増えているが、人間の意思決定における不公平さの緩和に重点を置く研究は少ない。 人間の決定の公平性は、人間が最終決定をするプロセスがあり、機械学習モデルは訓練された人間の決定からバイアスを継承できるため、マシンラーニングモデルの公平性と同じくらい重要である。 その結果、この研究は、不公平な人間の意思決定問題を解決するための最初のステップである、人間の決定の不公平さを検出することを目的としている。 本稿では,既存の機械学習フェアネス検出機構を用いて,人間の判断の不公平さを検出することを提案する。 この背景にある理論的根拠は、人間が不公平な判断を下すかどうかを直接検査することは困難であるが、機械学習の公正性に関する現在の研究により、機械学習モデルが不公平であるかどうかに関わらず、大規模なテストは容易である。 本稿では,4つの機械学習フェアネスデータセットと1つの画像処理データセットに不公平なラベルを合成することにより,(1)トレーニングデータに不公平なラベルが存在するか否か,(2)不公平さの程度と方向性を検出することができることを示す。 この研究は、人間の意思決定の公平性を検出するために機械学習の公平性を活用する可能性を証明していると信じている。 本研究は,(1)将来の不公平な決定の防止,(2)事前の不公平な決定の修正,(3)より公平な機械学習モデルを訓練することを目的とした研究である。

Fairness in decision-making has been a long-standing issue in our society. Despite the increasing number of research activities on unfairness mitigation in machine learning models, there is little research focusing on mitigating unfairness in human decisions. Fairness in human decisions is as important as, if not more important than, fairness in machine learning models since there are processes where humans make the final decisions and machine learning models can inherit bias from the human decisions they were trained on. As a result, this work aims to detect unfairness in human decisions, the very first step of solving the unfair human decision problem. This paper proposes to utilize the existing machine learning fairness detection mechanisms to detect unfairness in human decisions. The rationale behind this is, while it is difficult to directly test whether a human makes unfair decisions, with current research on machine learning fairness, it is now easy to test, on a large scale at a low cost, whether a machine learning model is unfair. By synthesizing unfair labels on four general machine learning fairness datasets and one image processing dataset, this paper shows that the proposed approach is able to detect (1) whether or not unfair labels exist in the training data and (2) the degree and direction of the unfairness. We believe that this work demonstrates the potential of utilizing machine learning fairness to detect human decision fairness. Following this work, research can be conducted on (1) preventing future unfair decisions, (2) fixing prior unfair decisions, and (3) training a fairer machine learning model.
翻訳日:2021-12-22 14:50:30 公開日:2021-12-21
# サイバーレンジ・アズ・ア・サービスのための次世代プラットフォーム

A next-generation platform for Cyber Range-as-a-Service ( http://arxiv.org/abs/2112.11233v1 )

ライセンス: Link先を確認
Vittorio Orbinato(参考訳) 近年Cyber Rangesは、サイバー脅威や攻撃に対処する専門家を訓練するための幅広いソリューションとなっている。 クラウドコンピューティングは、サイバーレンジがベースとする仮想インフラストラクチャの作成を可能にするため、この文脈で重要な役割を果たす。 しかし、サイバーレンジのセットアップと管理は高価で時間のかかる活動である。 本稿では,次世代サイバーレンジプラットフォームの新機能について紹介する。 特に、実際の企業インフラストラクチャ用の仮想クローンの作成、トレーニングシナリオとセッションのセットアップからのセキュリティマネージャの保護、参加者のアクティビティの自動監視、行動のエミュレーションなどが含まれている。

In the last years, Cyber Ranges have become a widespread solution to train professionals for responding to cyber threats and attacks. Cloud computing plays a key role in this context since it enables the creation of virtual infrastructures on which Cyber Ranges are based. However, the setup and management of Cyber Ranges are expensive and time-consuming activities. In this paper, we highlight the novel features for the next-generation Cyber Range platforms. In particular, these features include the creation of a virtual clone for an actual corporate infrastructure, relieving the security managers from the setup of the training scenarios and sessions, the automatic monitoring of the participants' activities, and the emulation of their behavior.
翻訳日:2021-12-22 14:49:21 公開日:2021-12-21
# 無限個の変数をもつ因果モデルに関する推論

Reasoning About Causal Models With Infinitely Many Variables ( http://arxiv.org/abs/2112.11362v1 )

ライセンス: Link先を確認
Joseph Y. Halpern and Spencer Peters(参考訳) 一般構造方程式モデル (GSEMs) [Peters and Halpern 2021] は、名前が示すように、構造方程式モデル (SEMs) の一般化である。 彼らは無限に多くの変数を無限の範囲で扱えるが、これは力学系を捉えるのに重要である。 本研究では,GSEM における因果推論の完全公理化について,Halpern [2000] によるSEM に対する完全公理化と音の延長について述べる。 GSEMを考えることは、ハルパーンの公理が捉える性質を明らかにするのに役立つ。

Generalized structural equations models (GSEMs) [Peters and Halpern 2021], are, as the name suggests, a generalization of structural equations models (SEMs). They can deal with (among other things) infinitely many variables with infinite ranges, which is critical for capturing dynamical systems. We provide a sound and complete axiomatization of causal reasoning in GSEMs that is an extension of the sound and complete axiomatization provided by Halpern [2000] for SEMs. Considering GSEMs helps clarify what properties Halpern's axioms capture.
翻訳日:2021-12-22 14:49:11 公開日:2021-12-21
# 三角形分解契約による終端音声の正規化

Regularizing End-to-End Speech Translation with Triangular Decomposition Agreement ( http://arxiv.org/abs/2112.10991v1 )

ライセンス: Link先を確認
Yichao Du, Zhirui Zhang, Weizhi Wang, Boxing Chen, Jun Xie, Tong Xu(参考訳) E2E-ST(End-to-end speech-to-text translation)は、エラーの伝播の低減、レイテンシの低減、パラメータの削減などにより人気が高まっている。 従来の高品質なE2E-STシステムは、$\langle Speech, transcription, translation\rangle$という三重項訓練コーパスを前提に、$\langle Speech, transcription\rangle $というペアを使ってモデルを事前訓練する。 しかし、このプロセスは各段階で2タプルのデータのみを伴い、この疎結合は三重項データ間の関係を完全に活用することができない。 本稿では,これらの三重項データを直接活用するために,音声入力に基づく書き起こしと翻訳の同時確率をモデル化する。 そこで本研究では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングの新しい正規化手法を提案する。 この目的を達成するために,2つのKullback-Leibler分散正規化項をモデル学習目標に導入し,二重パスの出力確率間のミスマッチを低減する。 すると、よく訓練されたモデルは、事前に定義された早期停止タグによってE2E-STモデルとして自然に変換できる。 MuST-Cベンチマーク実験により,提案手法は8つの言語対すべてにおいて最先端のE2E-STベースラインを大幅に上回り,音声認識タスクでは性能が向上することを示した。 私たちのコードはhttps://github.com/d uyichao/e2e-st-tdaでオープンソースです。

End-to-end speech-to-text translation~(E2E-ST) is becoming increasingly popular due to the potential of its less error propagation, lower latency, and fewer parameters. Given the triplet training corpus $\langle speech, transcription, translation\rangle$, the conventional high-quality E2E-ST system leverages the $\langle speech, transcription\rangle $ pair to pre-train the model and then utilizes the $\langle speech, translation\rangle$ pair to optimize it further. However, this process only involves two-tuple data at each stage, and this loose coupling fails to fully exploit the association between triplet data. In this paper, we attempt to model the joint probability of transcription and translation based on the speech input to directly leverage such triplet data. Based on that, we propose a novel regularization method for model training to improve the agreement of dual-path decomposition within triplet data, which should be equal in theory. To achieve this goal, we introduce two Kullback-Leibler divergence regularization terms into the model training objective to reduce the mismatch between output probabilities of dual-path. Then the well-trained model can be naturally transformed as the E2E-ST models by the pre-defined early stop tag. Experiments on the MuST-C benchmark demonstrate that our proposed approach significantly outperforms state-of-the-art E2E-ST baselines on all 8 language pairs, while achieving better performance in the automatic speech recognition task. Our code is open-sourced at https://github.com/d uyichao/E2E-ST-TDA.
翻訳日:2021-12-22 14:48:21 公開日:2021-12-21
# テキストに対する自然言語質問に答えるaspベースのアプローチ

An ASP-based Approach to Answering Natural Language Questions for Texts ( http://arxiv.org/abs/2112.11241v1 )

ライセンス: Link先を確認
Dhruva Pendharkar, Kinjal Basu, Farhad Shakerin, and Gopal Gupta(参考訳) 本稿では,自然言語テキストから生成した知識を表現するために,応答集合プログラミング(ASP)に基づく手法を提案する。 テキストの知識はネオダビドソン的形式を用いてモデル化され、答え集合プログラムとして表現される。 関連するコモンセンス知識は、WordNetなどのリソースからインポートされ、ASP.NETで表現されます。 得られた知識ベースを使用して、ASPシステムの助けを借りて推論を行うことができる。 このアプローチは、自動質問応答、テキスト要約、自動質問生成など、多くの自然言語タスクを促進することができる。 デフォルト推論、階層的知識組織、デフォルトに対する選好といったテクニックのaspベースの表現は、これらのタスクを達成するのに必要なcommonsense推論メソッドのモデル化に使用される。 本稿では,英語テキストの自然言語質問に回答するタスクを自動化するために開発したCASPRシステムについて述べる。 CASPRは、テキストを"理解"することで質問に答えるシステムとみなすことができ、SQuADデータセットでテストされ、有望な結果が得られる。

An approach based on answer set programming (ASP) is proposed in this paper for representing knowledge generated from natural language texts. Knowledge in a text is modeled using a Neo Davidsonian-like formalism, which is then represented as an answer set program. Relevant commonsense knowledge is additionally imported from resources such as WordNet and represented in ASP. The resulting knowledge-base can then be used to perform reasoning with the help of an ASP system. This approach can facilitate many natural language tasks such as automated question answering, text summarization, and automated question generation. ASP-based representation of techniques such as default reasoning, hierarchical knowledge organization, preferences over defaults, etc., are used to model commonsense reasoning methods required to accomplish these tasks. In this paper, we describe the CASPR system that we have developed to automate the task of answering natural language questions given English text. CASPR can be regarded as a system that answers questions by "understanding" the text and has been tested on the SQuAD data set, with promising results.
翻訳日:2021-12-22 14:47:52 公開日:2021-12-21
# 無人航空システムにおけるシーン分類のためのタスク指向画像伝送

Task-Oriented Image Transmission for Scene Classification in Unmanned Aerial Systems ( http://arxiv.org/abs/2112.10948v1 )

ライセンス: Link先を確認
Xu Kang, Bin Song, Jie Guo, Zhijin Qin, F. Richard Yu(参考訳) モノのインターネット(Internet of Things)の活発な発展により、特にディープラーニング(DL)に基づく人工知能(AI)タスクにおいて、クラウドとエッジのコラボレーションによって、そのコンピューティング能力とストレージ能力を、空中システムのコンピューティングタスクにまで拡張することが可能になった。 大量の画像/ビデオデータを集めることで、無人航空機(UAV)は、限られたストレージと計算能力のため、インテリジェントな分析タスクをバックエンドのモバイルエッジコンピューティング(MEC)サーバにのみ渡すことができる。 AIモデルの最も相関性の高い情報を効率的に伝達する方法は、難しいトピックである。 近年,タスク指向コミュニケーションに触発されて,シーン分類タスクのための新しい空中画像伝送パラダイムを提案する。 画像とチャネル状態の知覚を伴うセマンティックブロック伝送のためのフロントエンドuav上で軽量モデルを開発した。 伝送遅延と分類精度のトレードオフを実現するために,様々なチャネル条件下でのバックエンド分類器に最も寄与するセマンティックブロックの探索に,深部強化学習(DRL)を用いる。 実験の結果,提案手法は,固定伝送戦略や従来のコンテンツ知覚手法と比較して,分類精度が著しく向上することがわかった。

The vigorous developments of Internet of Things make it possible to extend its computing and storage capabilities to computing tasks in the aerial system with collaboration of cloud and edge, especially for artificial intelligence (AI) tasks based on deep learning (DL). Collecting a large amount of image/video data, Unmanned aerial vehicles (UAVs) can only handover intelligent analysis tasks to the back-end mobile edge computing (MEC) server due to their limited storage and computing capabilities. How to efficiently transmit the most correlated information for the AI model is a challenging topic. Inspired by the task-oriented communication in recent years, we propose a new aerial image transmission paradigm for the scene classification task. A lightweight model is developed on the front-end UAV for semantic blocks transmission with perception of images and channel conditions. In order to achieve the tradeoff between transmission latency and classification accuracy, deep reinforcement learning (DRL) is used to explore the semantic blocks which have the best contribution to the back-end classifier under various channel conditions. Experimental results show that the proposed method can significantly improve classification accuracy compared to the fixed transmission strategy and traditional content perception methods.
翻訳日:2021-12-22 14:47:35 公開日:2021-12-21
# 相対ステム位置のグローバルマッチングによる森林点雲の効率的な登録

Efficient Registration of Forest Point Clouds by Global Matching of Relative Stem Positions ( http://arxiv.org/abs/2112.11121v1 )

ライセンス: Link先を確認
Xufei Wang, Zexin Yang, Xiaojun Cheng, Jantien Stoter, Wenbin Xu, Zhenlun Wu, and Liangliang Nan(参考訳) 森林環境の点雲の登録は、精密林業におけるLiDAR応用の必須条件である。 森林点雲登録の最先端手法では,個々の樹木属性の抽出が必要であり,密林のある実世界の森林の点雲を扱う際の効率のボトルネックとなる。 本研究では,森林点雲の登録のための自動的かつロバストで効率的な手法を提案する。 提案手法は,まず原点雲から樹幹を抽出し,その相対的空間関係に基づいて樹幹をマッチングし,登録変換を決定する。 既存の手法とは対照的に,本アルゴリズムは個々の木属性を余分に必要とせず,環境内の木数に線形に複雑であり,森林環境の点雲を整列させることができる。 広範な実験により,本手法は登録精度とロバスト性に関して最先端の手法よりも優れており,効率面では既存の手法を大きく上回っていることが明らかとなった。 さらに,森林点雲の登録方法の開発と評価のために,既存の数少ないオープンデータセットを補完する新しいベンチマークデータセットを導入する。

Registering point clouds of forest environments is an essential prerequisite for LiDAR applications in precision forestry. State-of-the-art methods for forest point cloud registration require the extraction of individual tree attributes, and they have an efficiency bottleneck when dealing with point clouds of real-world forests with dense trees. We propose an automatic, robust, and efficient method for the registration of forest point clouds. Our approach first locates tree stems from raw point clouds and then matches the stems based on their relative spatial relationship to determine the registration transformation. In contrast to existing methods, our algorithm requires no extra individual tree attributes and has linear complexity to the number of trees in the environment, allowing it to align point clouds of large forest environments. Extensive experiments have revealed that our method is superior to the state-of-the-art methods regarding registration accuracy and robustness, and it significantly outperforms existing techniques in terms of efficiency. Besides, we introduce a new benchmark dataset that complements the very few existing open datasets for the development and evaluation of registration methods for forest point clouds.
翻訳日:2021-12-22 14:47:12 公開日:2021-12-21
# 心電図における心脂肪の自動分画と体積定量化の新しいアプローチ

A novel approach for the automated segmentation and volume quantification of cardiac fats on computed tomography ( http://arxiv.org/abs/2112.11381v1 )

ライセンス: Link先を確認
\'Erick Oliveira Rodrigues, FFC Morais, NAOS Morais, LS Conci, LV Neto and Aura Conci(参考訳) 心臓周囲の脂肪の沈着は,動脈硬化,頸動脈硬度,冠動脈石灰化,心房細動など,いくつかの健康リスク因子と相関する。 これらの堆積物は肥満とは無関係であり、さらなる定量化のために直接のセグメンテーションを強化する。 しかし、人為的な作業負荷や、医師や技術者の費用がかかるため、これらの脂肪の手動分画は臨床実践において広く行われていない。 本研究では,2種類の心臓脂肪の自律的セグメンテーションと定量化のための統一手法を提案する。 分節脂肪は心外および縦隔と呼ばれ、心膜によって互いに区別される。 ユーザーの介入を最小限に抑えるために多くの努力が費やされた。 提案手法は主に,所望のセグメンテーションを行う登録および分類アルゴリズムを含む。 ニューラルネットワーク,確率モデル,決定木アルゴリズムなど,このタスクにおける複数の分類アルゴリズムの性能を比較する。 提案法により, 心内膜脂肪および縦隔脂肪の平均精度は98.5%(正常化した場合は99.5%)であり, 正の98.0%であった。 平均的なDice類似度指数は97.6%であった。

The deposits of fat on the surroundings of the heart are correlated to several health risk factors such as atherosclerosis, carotid stiffness, coronary artery calcification, atrial fibrillation and many others. These deposits vary unrelated to obesity, which reinforces its direct segmentation for further quantification. However, manual segmentation of these fats has not been widely deployed in clinical practice due to the required human workload and consequential high cost of physicians and technicians. In this work, we propose a unified method for an autonomous segmentation and quantification of two types of cardiac fats. The segmented fats are termed epicardial and mediastinal, and stand apart from each other by the pericardium. Much effort was devoted to achieve minimal user intervention. The proposed methodology mainly comprises registration and classification algorithms to perform the desired segmentation. We compare the performance of several classification algorithms on this task, including neural networks, probabilistic models and decision tree algorithms. Experimental results of the proposed methodology have shown that the mean accuracy regarding both epicardial and mediastinal fats is 98.5% (99.5% if the features are normalized), with a mean true positive rate of 98.0%. In average, the Dice similarity index was equal to 97.6%.
翻訳日:2021-12-22 14:46:17 公開日:2021-12-21
# IoTデバイスにおけるアタッカーとは何か? 多相多面iotハニーポットエコシステムとデータクラスタリングに基づくアプローチ

What are Attackers after on IoT Devices? An approach based on a multi-phased multi-faceted IoT honeypot ecosystem and data clustering ( http://arxiv.org/abs/2112.10974v1 )

ライセンス: Link先を確認
Armin Ziaie Tabari, Xinming Ou, Anoop Singhal(参考訳) モノのインターネット(IoT)デバイスの増加は、サイバーセキュリティの観点から、彼らが直面している現実世界の脅威に気づかなければならない。 ハニーポットは歴史的に、研究者や組織がネットワーク上の脅威とその影響のダイナミクスをより深く理解するためにデコイデバイスとして使われてきたが、IoTデバイスは、さまざまなデバイスとその物理的接続のために、この目的のためにユニークな課題を提起している。 In this work, by observing real-world attackers' behavior in a low-interaction honeypot ecosystem, we (1) presented a new approach to creating a multi-phased, multi-faceted honeypot ecosystem, which gradually increases the sophistication of honeypots' interactions with adversaries, (2) designed and developed a low-interaction honeypot for cameras that allowed researchers to gain a deeper understanding of what attackers are targeting, and (3) devised an innovative data analytics method to identify the goals of adversaries. 私たちのハニーポットは3年以上活動しています。 各フェーズで高度な攻撃データを収集することができたのです。 さらに、私たちのデータ分析では、ハニーポットで捕獲された攻撃活動の大部分は大きな類似性を共有しており、iot攻撃の目標やパターン、トレンドをより深く理解するために、クラスタ化やグループ化が可能です。

The growing number of Internet of Things (IoT) devices makes it imperative to be aware of the real-world threats they face in terms of cybersecurity. While honeypots have been historically used as decoy devices to help researchers/organiza tions gain a better understanding of the dynamic of threats on a network and their impact, IoT devices pose a unique challenge for this purpose due to the variety of devices and their physical connections. In this work, by observing real-world attackers' behavior in a low-interaction honeypot ecosystem, we (1) presented a new approach to creating a multi-phased, multi-faceted honeypot ecosystem, which gradually increases the sophistication of honeypots' interactions with adversaries, (2) designed and developed a low-interaction honeypot for cameras that allowed researchers to gain a deeper understanding of what attackers are targeting, and (3) devised an innovative data analytics method to identify the goals of adversaries. Our honeypots have been active for over three years. We were able to collect increasingly sophisticated attack data in each phase. Furthermore, our data analytics points to the fact that the vast majority of attack activities captured in the honeypots share significant similarity, and can be clustered and grouped to better understand the goals, patterns, and trends of IoT attacks in the wild.
翻訳日:2021-12-22 14:43:48 公開日:2021-12-21
# 推薦システムのための合成データとシミュレータ:現状と今後の方向性

Synthetic Data and Simulators for Recommendation Systems: Current State and Future Directions ( http://arxiv.org/abs/2112.11022v1 )

ライセンス: Link先を確認
Adam Lesnikowski, Gabriel de Souza Pereira Moreira, Sara Rabhi, Karl Byleen-Higley(参考訳) 合成データとシミュレーターは、レコメンデーションシステムの性能と堅牢性を著しく改善する可能性がある。 これらのアプローチは、他の機械学習駆動の分野にもすでに有益である。 我々は,過去の合成データとレコメンデーションシステムのためのシミュレータに関する作業において,データ忠実度とプライバシの間の重要なトレードオフを特定し,議論する。 合成データから実データからアルゴリズムのランキングを予測する重要なユースケースのために、モチベーションと現在の成功と限界を提供する。 最後に,実データと合成データの混合,データセット生成におけるフィードバック,ロバストなシミュレーション,プライバシ保存手法など,さらに注目に値するレコメンデーションシステムのためのエキサイティングな今後の方向性について概説する。

Synthetic data and simulators have the potential to markedly improve the performance and robustness of recommendation systems. These approaches have already had a beneficial impact in other machine-learning driven fields. We identify and discuss a key trade-off between data fidelity and privacy in the past work on synthetic data and simulators for recommendation systems. For the important use case of predicting algorithm rankings on real data from synthetic data, we provide motivation and current successes versus limitations. Finally we outline a number of exciting future directions for recommendation systems that we believe deserve further attention and work, including mixing real and synthetic data, feedback in dataset generation, robust simulations, and privacy-preserving methods.
翻訳日:2021-12-22 14:43:28 公開日:2021-12-21
# ディープクリックスルー率予測のための逆勾配駆動探索

Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction ( http://arxiv.org/abs/2112.11136v1 )

ライセンス: Link先を確認
Kailun Wu, Weijie Bian, Zhangming Chan, Lejian Ren, Shiming Xiang, Shuguang Han, Hongbo Deng, Bo Zheng(参考訳) 現在、データ駆動型ディープニューラルモデルはすでにクリックスルー率(ctr)の予測において顕著な進歩を示している。 残念ながら、データ不足時にそのようなモデルの有効性は失敗する可能性がある。 この問題に対処するために、研究者はしばしば、UCBやトンプソンサンプリングといった推定報酬に基づいてアイテムを調べるための探索戦略を採用する。 近年,CTR予測における爆発・探査の文脈において,予測の不確実性とモデル予測を報奨スコアとして活用しようと試みている。 しかし、このような手法は、最終的なランキングスコアを元の分布から逸脱させ、オンラインシステムにおけるモデル性能に影響を及ぼす可能性がある。 本稿では,新しい探索手法である \textbf{A}dversarial \textbf{G}radient Driven \textbf{E}xploration (AGE)を提案する。 具体的には,モデルに対するto-be-explored項目のサンプルの影響を近似する勾配更新プロセスをシミュレートする擬似爆発モジュールを提案する。 さらに, 探索効率を向上させるために, 低電位ctrの試料の影響を除去できる動的しきい値ユニットを提案する。 本手法の有効性をオープンアクセス学術データセットで実証した。 一方、AGEは現実世界のディスプレイ広告プラットフォームにもデプロイされており、オンラインの指標も大幅に改善されている。

Nowadays, data-driven deep neural models have already shown remarkable progress on Click-through Rate (CTR) prediction. Unfortunately, the effectiveness of such models may fail when there are insufficient data. To handle this issue, researchers often adopt exploration strategies to examine items based on the estimated reward, e.g., UCB or Thompson Sampling. In the context of Exploitation-and-Exp loration for CTR prediction, recent studies have attempted to utilize the prediction uncertainty along with model prediction as the reward score. However, we argue that such an approach may make the final ranking score deviate from the original distribution, and thereby affect model performance in the online system. In this paper, we propose a novel exploration method called \textbf{A}dversarial \textbf{G}radient Driven \textbf{E}xploration (AGE). Specifically, we propose a Pseudo-Exploration Module to simulate the gradient updating process, which can approximate the influence of the samples of to-be-explored items for the model. In addition, for better exploration efficiency, we propose an Dynamic Threshold Unit to eliminate the effects of those samples with low potential CTR. The effectiveness of our approach was demonstrated on an open-access academic dataset. Meanwhile, AGE has also been deployed in a real-world display advertising platform and all online metrics have been significantly improved.
翻訳日:2021-12-22 14:43:15 公開日:2021-12-21
# (参考訳) 変圧器に基づく音声認識における音声品質とピッチ特性 [全文訳有]

Voice Quality and Pitch Features in Transformer-Based Speech Recognition ( http://arxiv.org/abs/2112.11391v1 )

ライセンス: CC BY 4.0
Guillermo C\'ambara, Jordi Luque, Mireia Farr\'us(参考訳) ジッターとシマーの測定は、話者認識、ダイアリゼーション、自動音声認識(ASR)といったタスクの性能を高める音声品質と韻律情報のキャリアであることが示されている。 しかし、これらの特徴は、しばしばスペクトル特徴が普及する神経ベースのASRの文脈ではほとんど使われていない。 本研究では,音声品質とピッチ特性をトランスフォーマティブ型asrモデルと別々に統合することで,注意機構が潜在性韻律的特徴を生かす可能性があることを直観的に検討する。 そこで本研究では,韻律的特徴とスペクトル的特徴の分離された畳み込みフロントエンドを提案し,このアーキテクチャ選択はメル・スペクトログラムフィルタバンクへのピッチと音声品質の単純な結合よりもよい結果をもたらすことを示す。 さらに,librispeechベンチマークでは平均単語誤り率の相対的低下が最大5.6%であった。 これらの知見は、トランスフォーマーベースのASRの堅牢性を高めるための韻律知識の応用に関するさらなる研究を動機付けている。

Jitter and shimmer measurements have shown to be carriers of voice quality and prosodic information which enhance the performance of tasks like speaker recognition, diarization or automatic speech recognition (ASR). However, such features have been seldom used in the context of neural-based ASR, where spectral features often prevail. In this work, we study the effects of incorporating voice quality and pitch features altogether and separately to a Transformer-based ASR model, with the intuition that the attention mechanisms might exploit latent prosodic traits. For doing so, we propose separated convolutional front-ends for prosodic and spectral features, showing that this architectural choice yields better results than simple concatenation of such pitch and voice quality features to mel-spectrogram filterbanks. Furthermore, we find mean Word Error Rate relative reductions of up to 5.6% with the LibriSpeech benchmark. Such findings motivate further research on the application of prosody knowledge for increasing the robustness of Transformer-based ASR.
翻訳日:2021-12-22 14:41:18 公開日:2021-12-21
# 安定な時間保証による最適政策最適化

Nearly Optimal Policy Optimization with Stable at Any Time Guarantee ( http://arxiv.org/abs/2112.10935v1 )

ライセンス: Link先を確認
Tianhao Wu, Yunchang Yang, Han Zhong, Liwei Wang, Simon S. Du, Jiantao Jiao(参考訳) ポリシー最適化手法は強化学習(RL)アルゴリズムの最も広く使われているクラスの一つである。 しかし、これらの方法の理論的理解は不十分である。 表層的な(時間的不均一な)表層設定でさえ、政策に基づく方法の最先端理論的な結果が \citet{shani2020optimistic} においてのみ$\tilde{O}(\sqrt{S^2AH^4K})$である場合、$S$は状態の数、$A$は行動の数、$H$は地平線、$K$はエピソード数、$\sqrt{SH}$は情報理論上の下限である$\tilde{\Omega}(\sqrt{SAH^3K})$である。 このようなギャップを埋めるため,我々は,"いつでも安定"特性を特徴とする,常に安定な参照型ポリシー最適化(\algnameacro)を提案する。 我々のアルゴリズムが $\tilde{O}(\sqrt{SAH^3K} + \sqrt{AH^4})$ regret を達成することを証明している。 S > H$ の場合,アルゴリズムは対数因子を無視する場合に最適である。 我々の知る限り、RPO-SATは表形式RLのための計算効率が良く、ほぼ最小限のポリシーベースのアルゴリズムである。

Policy optimization methods are one of the most widely used classes of Reinforcement Learning (RL) algorithms. However, theoretical understanding of these methods remains insufficient. Even in the episodic (time-inhomogeneous) tabular setting, the state-of-the-art theoretical result of policy-based method in \citet{shani2020optimistic} is only $\tilde{O}(\sqrt{S^2AH^4K})$ where $S$ is the number of states, $A$ is the number of actions, $H$ is the horizon, and $K$ is the number of episodes, and there is a $\sqrt{SH}$ gap compared with the information theoretic lower bound $\tilde{\Omega}(\sqrt{SAH^3K})$. To bridge such a gap, we propose a novel algorithm Reference-based Policy Optimization with Stable at Any Time guarantee (\algnameacro), which features the property "Stable at Any Time". We prove that our algorithm achieves $\tilde{O}(\sqrt{SAH^3K} + \sqrt{AH^4})$ regret. When $S > H$, our algorithm is minimax optimal when ignoring logarithmic factors. To our best knowledge, RPO-SAT is the first computationally efficient, nearly minimax optimal policy-based algorithm for tabular RL.
翻訳日:2021-12-22 14:26:22 公開日:2021-12-21
# 強化学習に基づくベイズ最適実験設計のための逐次バッチサンプリング

Reinforcement Learning based Sequential Batch-sampling for Bayesian Optimal Experimental Design ( http://arxiv.org/abs/2112.10944v1 )

ライセンス: Link先を確認
Yonatan Ashenafi, Piyush Pandita, Sayan Ghosh(参考訳) 高度な数学的手法を用いてモデル化される工学的な問題や、高価な導電性試験や実験によって特徴づけられるものは、限られた予算や有限の計算資源で満たされる。 さらに,産業における実践シナリオでは,実験の実施方法に基いて,物流や選好に基づく制約を課している。 例えば、材料供給は、単発または計算モデルの場合、共有された計算資源に基づいて重要な待ち時間に直面した少数の実験のみを可能にする。 このようなシナリオでは、通常、上記の実践的制約を満たしながら、自身の知識の状態の最大化を可能にする方法で実験を行う。 実験の逐次設計(SDOE)は一般的な手法であり、近年、様々な工学的、実践的な問題において有望な結果をもたらしている。 ベイズ形式主義を利用する一般的な戦略は、ベイズ SDOE であり、通常、一連の実験の各ステップにおいて単一の実験を選択する一段階またはミオピックのシナリオにおいて最もうまく機能する。 本研究の目的は,sdoe戦略を拡張し,実験やコンピュータコードを入力のバッチで問い合わせることである。 この目的のために,我々は,予算全体を考慮して選択されたクエリのバッチを提案するために,深層強化学習(rl)に基づくポリシー勾配手法を利用する。 このアルゴリズムは、SDOEに固有のシーケンシャルな性質を保ちながら、深いRLの領域からのタスクに基づく報酬の要素を取り入れている。 提案手法のユニークな機能は、訓練された関数の最適化など、複数のタスクに適用される能力である。 本稿では,合成問題における提案アルゴリズムの性能と高次元工学的課題について述べる。

Engineering problems that are modeled using sophisticated mathematical methods or are characterized by expensive-to-conduct tests or experiments, are encumbered with limited budget or finite computational resources. Moreover, practical scenarios in the industry, impose restrictions, based on logistics and preference, on the manner in which the experiments can be conducted. For example, material supply may enable only a handful of experiments in a single-shot or in the case of computational models one may face significant wait-time based on shared computational resources. In such scenarios, one usually resorts to performing experiments in a manner that allows for maximizing one's state-of-knowledge while satisfying the above mentioned practical constraints. Sequential design of experiments (SDOE) is a popular suite of methods, that has yielded promising results in recent years across different engineering and practical problems. A common strategy, that leverages Bayesian formalism is the Bayesian SDOE, which usually works best in the one-step-ahead or myopic scenario of selecting a single experiment at each step of a sequence of experiments. In this work, we aim to extend the SDOE strategy, to query the experiment or computer code at a batch of inputs. To this end, we leverage deep reinforcement learning (RL) based policy gradient methods, to propose batches of queries that are selected taking into account entire budget in hand. The algorithm retains the sequential nature, inherent in the SDOE, while incorporating elements of reward based on task from the domain of deep RL. A unique capability of the proposed methodology is its ability to be applied to multiple tasks, for example optimization of a function, once its trained. We demonstrate the performance of the proposed algorithm on a synthetic problem, and a challenging high-dimensional engineering problem.
翻訳日:2021-12-22 14:25:46 公開日:2021-12-21
# Shapley Additive Explanationを用いた機械学習モデルの解説と病院における実データへの適用

Explanation of Machine Learning Models Using Shapley Additive Explanation and Application for Real Data in Hospital ( http://arxiv.org/abs/2112.11071v1 )

ライセンス: Link先を確認
Yasunobu Nohara, Koutarou Matsumoto, Hidehisa Soejima and Naoki Nakashima(参考訳) 意思決定プロセスで機械学習技術を使用する場合、モデルの解釈性が重要である。 本稿では,病院データを用いた勾配決定木モデルの解釈のために,多くの利害関係者の公正な利益配分に基づくShapley additive explanation (SHAP)を採用した。 そこで本研究では,(1)shapを用いた新しい特徴量測定法,(2)複数の類似特徴を1つのグループ化特徴にまとめ,モデルの再構築を伴わずにモデルの理解を容易にする技術,という2つの新しい手法を提案する。 次に、shapフレームワークと既存のメソッドの説明結果を比較した。 また,a/g比が脳梗塞の重要な予後因子としてどのように機能するかを病院データと提案手法を用いて明らかにした。

When using machine learning techniques in decision-making processes, the interpretability of the models is important. In the present paper, we adopted the Shapley additive explanation (SHAP), which is based on fair profit allocation among many stakeholders depending on their contribution, for interpreting a gradient-boosting decision tree model using hospital data. For better interpretability, we propose two novel techniques as follows: (1) a new metric of feature importance using SHAP and (2) a technique termed feature packing, which packs multiple similar features into one grouped feature to allow an easier understanding of the model without reconstruction of the model. We then compared the explanation results between the SHAP framework and existing methods. In addition, we showed how the A/G ratio works as an important prognostic factor for cerebral infarction using our hospital data and proposed techniques.
翻訳日:2021-12-22 14:25:18 公開日:2021-12-21
# NN2Poly:ディープフィードフォワード人工ニューラルネットワークの多項式表現

NN2Poly: A polynomial representation for deep feed-forward artificial neural networks ( http://arxiv.org/abs/2112.11397v1 )

ライセンス: Link先を確認
Pablo Morala (1 and 2), Jenny Alexandra Cifuentes (3), Rosa E. Lillo (1 and 2), I\~naki Ucar (1) ((1) uc3m-Santander Big Data Institute, Universidad Carlos III de Madrid. Spain., (2) Department of Statistics, Universidad Carlos III de Madrid. Spain., (3) ICADE, Department of Quantitative Methods, Faculty of Economics and Business Administration, Universidad Pontificia Comillas. Spain.)(参考訳) ニューラルネットワークの解釈可能性とその基礎となる理論的振る舞いは、特に深層学習の出現による実践的応用の大きな成功の後でも、オープンフィールドの研究のままである。 本稿では、既に訓練済みのディープニューラルネットワークの代替表現を提供する多項式を得ることを可能にする理論的アプローチであるnn2polyを提案する。 これは、単一の隠れ層ニューラルネットワークに限定されたarXiv:2102.03865で提案された以前のアイデアを拡張し、回帰タスクと分類タスクの両方で任意のディープフィードフォワードニューラルネットワークで動作する。 本論文の目的は,各層における活性化関数上のテイラー展開を用いて,所望の多項式の係数を識別できる組合せ特性を用いて達成される。 この理論手法を実装する際の主な計算制限について論じ、NN2Polyの動作に必要なニューラルネットワーク重みに関する制約の例を示す。 最後に,nn2polyを用いて得られた予測値間の誤差が少ない与えられたニューラルネットワークの表現を得ることができると結論づけた。

Interpretability of neural networks and their underlying theoretical behaviour remain being an open field of study, even after the great success of their practical applications, particularly with the emergence of deep learning. In this work, NN2Poly is proposed: a theoretical approach that allows to obtain polynomials that provide an alternative representation of an already trained deep neural network. This extends the previous idea proposed in arXiv:2102.03865, which was limited to single hidden layer neural networks, to work with arbitrarily deep feed-forward neural networks in both regression and classification tasks. The objective of this paper is achieved by using a Taylor expansion on the activation function, at each layer, and then using several combinatorial properties that allow to identify the coefficients of the desired polynomials. The main computational limitations when implementing this theoretical method are discussed and it is presented an example of the constraints on the neural network weights that are necessary for NN2Poly to work. Finally, some simulations are presented were it is concluded that using NN2Poly it is possible to obtain a representation for the given neural network with low error between the obtained predictions.
翻訳日:2021-12-22 14:25:04 公開日:2021-12-21
# 一般化された少数ショットのセマンティックセグメンテーション: 必要なのは微調整だけ

Generalized Few-Shot Semantic Segmentation: All You Need is Fine-Tuning ( http://arxiv.org/abs/2112.10982v1 )

ライセンス: Link先を確認
Josh Myers-Dean, Yinan Zhao, Brian Price, Scott Cohen, and Danna Gurari(参考訳) 汎用的少数ショットセマンティックセグメンテーションは、ベースクラスを記憶する能力をテストすることを含む、新規クラスの少数ショットセグメンテーションモデルを評価することを超えて導入された。 現在、すべてのアプローチはメタラーニングに基づいているが、わずか数回のショットを観察した後、学習が不十分で飽和している。 本稿では,2つのデータセット,PASCAL-$5^i$ と COCO-$20^i$ について,その飽和問題に対処し,最先端の結果が得られることを示す。 また、複数の最終層を微調整したり、最終層のみを調整したり、既存の手法よりも優れていることを示す。 最後に,三重項損失正規化について,新奇なカテゴリと基本カテゴリのバランスを再分配する方法を示し,その差を小さくする。

Generalized few-shot semantic segmentation was introduced to move beyond only evaluating few-shot segmentation models on novel classes to include testing their ability to remember base classes. While all approaches currently are based on meta-learning, they perform poorly and saturate in learning after observing only a few shots. We propose the first fine-tuning solution, and demonstrate that it addresses the saturation problem while achieving state-of-art results on two datasets, PASCAL-$5^i$ and COCO-$20^i$. We also show it outperforms existing methods whether fine-tuning multiple final layers or only the final layer. Finally, we present a triplet loss regularization that shows how to redistribute the balance of performance between novel and base categories so that there is a smaller gap between them.
翻訳日:2021-12-22 14:24:46 公開日:2021-12-21
# 適応スパース符号化のための誤りに基づく閾値付きISTA学習

Learned ISTA with Error-based Thresholding for Adaptive Sparse Coding ( http://arxiv.org/abs/2112.10985v1 )

ライセンス: Link先を確認
Ziang Li, Kailun Wu, Yiwen Guo, and Changshui Zhang(参考訳) 学習反復縮小しきい値アルゴリズム(lista)は、スパース符号化のための縮小関数に学習可能なしきい値を持つ深い展開モデルを導入する。 理論的知見に基づいて,各層上の観測毎に適切なしきい値を提案するために,レイヤワイド再構成誤差の関数を利用するLISTAの誤差ベースしきい値(EBT)機構を提案する。 EBT機構は縮小関数の学習可能なパラメータを再構成誤差から十分に切り離し,様々な観測値に適応できることを示す。 厳密な理論解析により,提案したETTは,高い適応性に加えて,LISTAとその変種に基づいてより高速に収束できることを示す。 広範な実験結果から理論解析を検証し,本手法の有効性を確認した。

The learned iterative shrinkage thresholding algorithm (LISTA) introduces deep unfolding models with learnable thresholds in some shrinkage functions for sparse coding. Drawing on some theoretical insights, we advocate an error-based thresholding (EBT) mechanism for LISTA, which leverages a function of the layer-wise reconstruction error to suggest an appropriate threshold value for each observation on each layer. We show that the EBT mechanism well disentangles the learnable parameters in the shrinkage functions from the reconstruction errors, making them more adaptive to the various observations. With rigorous theoretical analyses, we show that the proposed EBT can lead to a faster convergence on the basis of LISTA and its variants, in addition to its higher adaptivity. Extensive experimental results confirm our theoretical analyses and verify the effectiveness of our methods.
翻訳日:2021-12-22 14:24:33 公開日:2021-12-21
# 幾何学的非教師付きドメイン適応

Geometry-Aware Unsupervised Domain Adaptation ( http://arxiv.org/abs/2112.11041v1 )

ライセンス: Link先を確認
You-Wei Luo, Chuan-Xian Ren and Zi-Ying Chen(参考訳) Unsupervised Domain Adaptation (UDA)は、データセットシフトの存在下で、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。 既存のメソッドの多くはドメインアライメントやクラス識別をうまく扱えないため、下流タスク(例えば分類)固有のデータ構造を歪めてしまう可能性がある。 そこで本研究では,核ノルム最適化による伝達性と識別性を同時に学習する新しい幾何認識モデルを提案する。 部分空間幾何学の観点から、UDAの領域コヒーレンスとクラス直交性を導入する。 ドメインコヒーレンスによって、モデルの分離可能な表現の学習能力が向上し、クラス直交性はクラスタ間の相関を最小化し、不一致を軽減する。 一貫性があり、お互いの利益を享受できるのです。 さらに、UDAにおける規範に基づく学習文献に関する理論的知見を提供し、モデルの解釈可能性を保証する。 ドメインとクラスタのノルムは、それぞれ転送可能性と識別性を高めるために、より大きく、より小さくなることが期待される。 標準UDAデータセットの大規模な実験結果から,我々の理論とモデルの有効性が示された。

Unsupervised Domain Adaptation (UDA) aims to transfer the knowledge from the labeled source domain to the unlabeled target domain in the presence of dataset shift. Most existing methods cannot address the domain alignment and class discrimination well, which may distort the intrinsic data structure for downstream tasks (e.g., classification). To this end, we propose a novel geometry-aware model to learn the transferability and discriminability simultaneously via nuclear norm optimization. We introduce the domain coherence and class orthogonality for UDA from the perspective of subspace geometry. The domain coherence will ensure the model has a larger capacity for learning separable representations, and class orthogonality will minimize the correlation between clusters to alleviate the misalignment. So, they are consistent and can benefit from each other. Besides, we provide a theoretical insight into the norm-based learning literature in UDA, which ensures the interpretability of our model. We show that the norms of domains and clusters are expected to be larger and smaller to enhance the transferability and discriminability, respectively. Extensive experimental results on standard UDA datasets demonstrate the effectiveness of our theory and model.
翻訳日:2021-12-22 14:24:19 公開日:2021-12-21
# 超解像深度解法にはニューラル正規化が有効か?

Can We Use Neural Regularization to Solve Depth Super-Resolution? ( http://arxiv.org/abs/2112.11085v1 )

ライセンス: Link先を確認
Milena Gazdieva, Oleg Voynov, Alexey Artemov, Youyi Zheng, Luiz Velho and Evgeny Burnaev(参考訳) コモディティセンサーで捉えた深度マップは、しばしばアプリケーションで使用するために超解像度を必要とする。 本研究では,tikhonov正規化を用いた変分問題文に基づく超解法について検討する。 この手法は従来,光音響トモグラフィーにおいて有効であった。 超解像の深度マップへの応用は困難であることが実験的に示され、その理由について提案する。

Depth maps captured with commodity sensors often require super-resolution to be used in applications. In this work we study a super-resolution approach based on a variational problem statement with Tikhonov regularization where the regularizer is parametrized with a deep neural network. This approach was previously applied successfully in photoacoustic tomography. We experimentally show that its application to depth map super-resolution is difficult, and provide suggestions about the reasons for that.
翻訳日:2021-12-22 14:24:02 公開日:2021-12-21
# 入力独立動的リルーティングを用いたコンパクト多レベルスパースニューラルネットワーク

Compact Multi-level Sparse Neural Networks with Input Independent Dynamic Rerouting ( http://arxiv.org/abs/2112.10930v1 )

ライセンス: Link先を確認
Minghai Qin, Tianyun Zhang, Fei Sun, Yen-Kuang Chen, Makan Fardad, Yanzhi Wang, Yuan Xie(参考訳) ディープニューラルネットワーク(DNN)は、多くの実生活アプリケーションで最高のパフォーマンスを提供することを示したが、その大きな計算コストとストレージ要件により、多くのエッジやIoTデバイスへのデプロイを妨げている。 大部分の重みパラメータがゼロであるスパースディープニューラルネットワークは、モデルの計算複雑性とメモリ消費を大幅に削減することができる。 リアルタイムのシナリオでは、デバイスは異なる環境下で利用可能な計算とメモリリソースの大きなゆらぎに悩まされ、サービス品質(QoS)は大きな遅延を伴う長いテール推論のために維持が困難である。 実生活の課題に直面し,複数のスパースレベルをサポートするスパースモデルをトレーニングすることを提案する。 すなわち、重みの階層構造は、よりスパースなサブモデルのよりスパースなサブモデル領域サブセットの非ゼロパラメータの位置と値が満たされる。 このようにして、推論中に適切なスパーシティレベルを動的に選択でき、ストレージコストを最小のスパースサブモデルで抑えることができる。 我々は,ResNet-50,PointNet++,GNMT,グラフアテンションネットワークなど,さまざまなDNNモデルとタスクに関する方法論を検証する。 平均重量が13.38%、FLOPが14.97%のスパースサブモデルを得る一方、精度は密度の高いモデルと同程度である。 5.38%の重量と4.47%のFLOPを持つよりスパースなサブモデルは、3.25%の精度でしか得られない。

Deep neural networks (DNNs) have shown to provide superb performance in many real life applications, but their large computation cost and storage requirement have prevented them from being deployed to many edge and internet-of-things (IoT) devices. Sparse deep neural networks, whose majority weight parameters are zeros, can substantially reduce the computation complexity and memory consumption of the models. In real-use scenarios, devices may suffer from large fluctuations of the available computation and memory resources under different environment, and the quality of service (QoS) is difficult to maintain due to the long tail inferences with large latency. Facing the real-life challenges, we propose to train a sparse model that supports multiple sparse levels. That is, a hierarchical structure of weights are satisfied such that the locations and the values of the non-zero parameters of the more-sparse sub-model area subset of the less-sparse sub-model. In this way, one can dynamically select the appropriate sparsity level during inference, while the storage cost is capped by the least sparse sub-model. We have verified our methodologies on a variety of DNN models and tasks, including the ResNet-50, PointNet++, GNMT, and graph attention networks. We obtain sparse sub-models with an average of 13.38% weights and 14.97% FLOPs, while the accuracies are as good as their dense counterparts. More-sparse sub-models with 5.38% weights and 4.47% of FLOPs, which are subsets of the less-sparse ones, can be obtained with only 3.25% relative accuracy loss.
翻訳日:2021-12-22 14:22:51 公開日:2021-12-21
# 微分均一化:確率的流行モデルを含む組合せ状態空間上でマルコフ連鎖を推論する新しい方法

Differentiated uniformization: A new method for inferring Markov chains on combinatorial state spaces including stochastic epidemic models ( http://arxiv.org/abs/2112.10971v1 )

ライセンス: Link先を確認
Kevin Rupp, Rudolf Schill, Jonas S\"uskind, Peter Georg, Maren Klever, Andreas L\"osch, Lars Grasedyck, Tilo Wettig, Rainer Spang(参考訳) モチベーション:我々は、パラメータ $\theta$ に依存する遷移律行列 $q$ による力学系の確率的進化を記述する連続時間マルコフ連鎖を考える。 時給$t$の確率分布を計算するには行列指数$\exp(tQ)$が必要であり、データから$\theta$を推測するには微分$\partial\exp\! (tQ)/\partial\theta$ 。 どちらも状態空間が巨大で、従って$Q$が大きければ計算するのは難しい。 これは、状態空間が複数の相互作用する離散変数の値のすべての組合せからなるときに起こる。 しばしば$Q$を格納することも不可能である。 しかし、$q$ がテンソル積の和として書ける場合、$\exp(tq)$ の計算は、$q$ の明示的な保存を必要としない一様化法によって実現可能である。 結果:$\partial\exp\!を計算するための類似アルゴリズムを提供する。 (tq)/\partial\theta$ 微分一様化法。 本研究では, 流行拡散の確率的SIRモデルに対するアルゴリズムを実証し, テンソル積の和として$Q$を書けることを示す。 オーストリアで発生したCOVID-19パンデミックの第1波における毎月の感染と回復率を推定し、ベイズ分析でその不確実性を定量化する。 アベイラビリティ:実装とデータはhttps://github.com/s pang-lab/tensirで利用可能である。

Motivation: We consider continuous-time Markov chains that describe the stochastic evolution of a dynamical system by a transition-rate matrix $Q$ which depends on a parameter $\theta$. Computing the probability distribution over states at time $t$ requires the matrix exponential $\exp(tQ)$, and inferring $\theta$ from data requires its derivative $\partial\exp\!(tQ)/\partial\theta$ . Both are challenging to compute when the state space and hence the size of $Q$ is huge. This can happen when the state space consists of all combinations of the values of several interacting discrete variables. Often it is even impossible to store $Q$. However, when $Q$ can be written as a sum of tensor products, computing $\exp(tQ)$ becomes feasible by the uniformization method, which does not require explicit storage of $Q$. Results: Here we provide an analogous algorithm for computing $\partial\exp\!(tQ)/\partial\theta$ , the differentiated uniformization method. We demonstrate our algorithm for the stochastic SIR model of epidemic spread, for which we show that $Q$ can be written as a sum of tensor products. We estimate monthly infection and recovery rates during the first wave of the COVID-19 pandemic in Austria and quantify their uncertainty in a full Bayesian analysis. Availability: Implementation and data are available at https://github.com/s pang-lab/TenSIR.
翻訳日:2021-12-22 14:21:35 公開日:2021-12-21
# 逆機械学習と再構成可能なインテリジェントサーフェスによるカバートコミュニケーション

Covert Communications via Adversarial Machine Learning and Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2112.11414v1 )

ライセンス: Link先を確認
Brian Kim and Tugba Erpek and Yalin E. Sagduyu and Sennur Ulukus(参考訳) ソフトウェア定義の無線システム用アンテナ面からアンテナ面へ移動することにより、再構成可能なインテリジェントサーフェス(RIS)は、信号の散乱と反射プロファイルを制御するためにユニットセルの配列に依存し、伝搬損失とマルチパス減衰を緩和し、カバーとスペクトル効率を向上させる。 本稿では,RISの存在下での隠蔽通信について考察する。 RISによる送信が進行中であるが、意図された受信機と盗聴器の両方が、独自のディープニューラルネットワーク(DNN)分類器を使用して、この送信を個別に検出しようとする。 ris相互作用ベクトルは、送信信号を受信機に集中させ、送信信号を盗聴者から遠ざけるという2つの(潜在的に矛盾する)目的のバランスをとるように設計されている。 秘密通信を強化するため、送信機の信号に敵の摂動を加え、受信機への影響を低く保ちながら盗聴者の分類を騙す。 異なるネットワークトポロジから得られた結果は、逆方向の摂動とRIS相互作用ベクトルを協調的に設計し、受信機における信号検出精度を効果的に向上し、盗聴器における検出精度を低減し、秘密通信を可能にすることを示す。

By moving from massive antennas to antenna surfaces for software-defined wireless systems, the reconfigurable intelligent surfaces (RISs) rely on arrays of unit cells to control the scattering and reflection profiles of signals, mitigating the propagation loss and multipath attenuation, and thereby improving the coverage and spectral efficiency. In this paper, covert communication is considered in the presence of the RIS. While there is an ongoing transmission boosted by the RIS, both the intended receiver and an eavesdropper individually try to detect this transmission using their own deep neural network (DNN) classifiers. The RIS interaction vector is designed by balancing two (potentially conflicting) objectives of focusing the transmitted signal to the receiver and keeping the transmitted signal away from the eavesdropper. To boost covert communications, adversarial perturbations are added to signals at the transmitter to fool the eavesdropper's classifier while keeping the effect on the receiver low. Results from different network topologies show that adversarial perturbation and RIS interaction vector can be jointly designed to effectively increase the signal detection accuracy at the receiver while reducing the detection accuracy at the eavesdropper to enable covert communications.
翻訳日:2021-12-22 14:20:10 公開日:2021-12-21
# 意味コミュニケーションのための非線形変換源チャネル符号化

Nonlinear Transform Source-Channel Coding for Semantic Communications ( http://arxiv.org/abs/2112.10961v1 )

ライセンス: Link先を確認
Jincheng Dai, Sixian Wang, Kailin Tan, Zhongwei Si, Xiaoqi Qin, Kai Niu, Ping Zhang(参考訳) 本稿では,非線形変換下での音源分布に密接に適応し,それを非線形変換源チャネル符号化 (ntscc) という名で収集できる,高効率な深層結合型ソースチャネル符号化手法を提案する。 検討されたモデルでは、送信機はまず非線形解析変換を学習し、ソースデータを潜時空間にマッピングし、次いで深部ジョイントソースチャネル符号化により遅延表現を受信機に送信する。 本モデルでは, 非線形変換を強みとして組み込んで, ソースセマンティックな特徴を効果的に抽出し, ソースチャネル符号化のための側情報を提供する。 従来のディープ・ジョイント・ソース・チャネル符号化法とは異なり、ntsccは基本的に、ソース・潜在表現とエントロピーモデルの両方を、潜在表現に先立って学習する。 そこで, 新たな適応率伝送機構と高優先度コーデック改善機構を開発し, ディープジョイントソースチャネル符号化を改良する。 システム設計全体を最適化問題として定式化し、その目的は、確立された知覚品質指標の下でのエンドツーエンドの伝送速度歪み性能を最小化することである。 簡単なサンプルソースとテスト画像のソースをまたがって,提案手法は,標準のディープ・ジョイント・ソース・チャネル符号化を用いたアナログ伝送と,古典的分離に基づくディジタル伝送を両立させるのが一般的である。 特に、ntscc法は、その活発なコンテンツ認識能力により、将来のセマンティックコミュニケーションをサポートする可能性がある。

In this paper, we propose a new class of high-efficient deep joint source-channel coding methods that can closely adapt to the source distribution under the nonlinear transform, it can be collected under the name nonlinear transform source-channel coding (NTSCC). In the considered model, the transmitter first learns a nonlinear analysis transform to map the source data into latent space, then transmits the latent representation to the receiver via deep joint source-channel coding. Our model incorporates the nonlinear transform as a strong prior to effectively extract the source semantic features and provide side information for source-channel coding. Unlike existing conventional deep joint source-channel coding methods, the proposed NTSCC essentially learns both the source latent representation and an entropy model as the prior on the latent representation. Accordingly, novel adaptive rate transmission and hyperprior-aided codec refinement mechanisms are developed to upgrade deep joint source-channel coding. The whole system design is formulated as an optimization problem whose goal is to minimize the end-to-end transmission rate-distortion performance under established perceptual quality metrics. Across simple example sources and test image sources, we find that the proposed NTSCC transmission method generally outperforms both the analog transmission using the standard deep joint source-channel coding and the classical separation-based digital transmission. Notably, the proposed NTSCC method can potentially support future semantic communications due to its vigorous content-aware ability.
翻訳日:2021-12-22 14:19:47 公開日:2021-12-21
# 線形バックプロパゲーションの理論的考察とその収束性

A Theoretical View of Linear Backpropagation and Its Convergence ( http://arxiv.org/abs/2112.11018v1 )

ライセンス: Link先を確認
Ziang Li, Yiwen Guo, Haodi Liu, and Changshui Zhang(参考訳) バックプロパゲーションはディープニューラルネットワーク(DNN)の勾配を計算するために広く使われている。 確率勾配降下(SGD)またはその変種とともにしばしば適用され、バックプロパゲーションはDNNトレーニングや敵攻撃/防御を含むさまざまな機械学習タスクにおいてデファクト選択とみなされる。 近年、guoらによってブラックボックスの敵対攻撃に対するより転送可能な攻撃例を生成するために、linbpと呼ばれるbpの線形変種が導入された。 しかし、理論的には研究されておらず、そのような方法の収束解析が欠如している。 本論文は,LinBPのニューラルネットワーク関連学習課題における敵攻撃やモデルトレーニングに関する理論的解析を提供することにより,Guoらによる論文の補完的かつ幾分拡張として機能する。 意外なことに、LinBPは、BPと比較して、これらのタスクを同じハイパーパラメータ設定でより早く収束させることができる。 理論結果を広範な実験で確認する。

Backpropagation is widely used for calculating gradients in deep neural networks (DNNs). Applied often along with stochastic gradient descent (SGD) or its variants, backpropagation is considered as a de-facto choice in a variety of machine learning tasks including DNN training and adversarial attack/defense. Recently, a linear variant of BP named LinBP was introduced for generating more transferable adversarial examples for black-box adversarial attacks, by Guo et al. Yet, it has not been theoretically studied and the convergence analysis of such a method is lacking. This paper serves as a complement and somewhat an extension to Guo et al.'s paper, by providing theoretical analyses on LinBP in neural-network-invol ved learning tasks including adversarial attack and model training. We demonstrate that, somewhat surprisingly, LinBP can lead to faster convergence in these tasks in the same hyper-parameter settings, compared to BP. We confirm our theoretical results with extensive experiments.
翻訳日:2021-12-22 14:19:22 公開日:2021-12-21
# 深層学習に基づく森林バイオマス推定のための3次元点雲回帰

Deep Learning Based 3D Point Cloud Regression for Estimating Forest Biomass ( http://arxiv.org/abs/2112.11335v1 )

ライセンス: Link先を確認
Stefan Oehmcke, Lei Li, Jaime Revenga, Thomas Nord-Larsen, Katerina Trepekli, Fabian Gieseke, Christian Igel(参考訳) 森林バイオマス資源の知識とその開発は、効果的な気候変動対策を実施する上で重要である。 af-、re-、deforestationを駆動するプロセスを研究するために必要であり、炭素測定の前提条件である。 空中ライダーを用いたリモートセンシングは、植生のバイオマスを大規模に測定するために使用できる。 本研究では,3dlidar point cloudデータから木材量,地上バイオマス(agb)および炭素を直接予測する深層学習システムを提案する。 我々は、点雲回帰のための異なるニューラルネットワークアーキテクチャを考案し、それらを、国有林在庫のフィールド計測からAGB推定値を得た地域のリモートセンシングデータに基づいて評価する。 我々の回帰に対するミンコフスキー畳み込みニューラルネットワークの適応は最良の結果をもたらした。 深層ニューラルネットワークは、ポイント雲の基本統計に基づく最先端のアプローチと比較して、木量、agb、炭素の推定がかなり正確であり、この発見はlidarに基づく地球生態系のダイナミクス解析に大きな影響を与えると期待されている。

Knowledge of forest biomass stocks and their development is important for implementing effective climate change mitigation measures. It is needed for studying the processes driving af-, re-, and deforestation and is a prerequisite for carbon-accounting. Remote sensing using airborne LiDAR can be used to measure vegetation biomass at large scale. We present deep learning systems for predicting wood volume, above-ground biomass (AGB), and subsequently carbon directly from 3D LiDAR point cloud data. We devise different neural network architectures for point cloud regression and evaluate them on remote sensing data of areas for which AGB estimates have been obtained from field measurements in a national forest inventory. Our adaptation of Minkowski convolutional neural networks for regression gave the best results. The deep neural networks produced significantly more accurate wood volume, AGB, and carbon estimates compared to state-of-the-art approaches operating on basic statistics of the point clouds, and we expect this finding to have a strong impact on LiDAR-based analyses of terrestrial ecosystem dynamics.
翻訳日:2021-12-22 14:19:04 公開日:2021-12-21
# 適応型クライアントサンプリングによるフェデレーション学習におけるタックリングシステムと統計的不均一性

Tackling System and Statistical Heterogeneity for Federated Learning with Adaptive Client Sampling ( http://arxiv.org/abs/2112.11256v1 )

ライセンス: Link先を確認
Bing Luo, Wenli Xiao, Shiqiang Wang, Jianwei Huang, Leandros Tassiulas(参考訳) フェデレーション学習(fl)アルゴリズムは通常、参加者数が多く、サーバの通信帯域幅が限られている場合、各ラウンドのクライアントのごく一部(部分参加)をサンプリングする。 flの収束解析に関する最近の研究は、ランダムなサンプリングのような偏りのないクライアントサンプリングに焦点をあてている。 本稿では,システムと統計的不均一性に対処し,壁時間収束時間を最小化する適応型クライアントサンプリングアルゴリズムの設計を目的とする。 任意のクライアントサンプリング確率を持つ fl アルゴリズムに対する新しい可搬収束値を求める。 この境界に基づいて,学習時間とサンプリング確率の関係を解析的に確立し,学習時間最小化のための非凸最適化問題を導出する。 収束境界における未知のパラメータを学習する効率的なアルゴリズムを設計し,非凸問題を近似的に解く低複素性アルゴリズムを開発した。 ハードウェアプロトタイプとシミュレーションの両方による実験結果から,提案手法は複数のベースラインサンプリング方式に比べて収束時間を大幅に削減することが示された。 ハードウェアプロトタイプにおける我々の手法は、同じ目標を達成するために、一様サンプリングベースラインよりも73%少ない時間を費やす。

Federated learning (FL) algorithms usually sample a fraction of clients in each round (partial participation) when the number of participants is large and the server's communication bandwidth is limited. Recent works on the convergence analysis of FL have focused on unbiased client sampling, e.g., sampling uniformly at random, which suffers from slow wall-clock time for convergence due to high degrees of system heterogeneity and statistical heterogeneity. This paper aims to design an adaptive client sampling algorithm that tackles both system and statistical heterogeneity to minimize the wall-clock convergence time. We obtain a new tractable convergence bound for FL algorithms with arbitrary client sampling probabilities. Based on the bound, we analytically establish the relationship between the total learning time and sampling probabilities, which results in a non-convex optimization problem for training time minimization. We design an efficient algorithm for learning the unknown parameters in the convergence bound and develop a low-complexity algorithm to approximately solve the non-convex problem. Experimental results from both hardware prototype and simulation demonstrate that our proposed sampling scheme significantly reduces the convergence time compared to several baseline sampling schemes. Notably, our scheme in hardware prototype spends 73% less time than the uniform sampling baseline for reaching the same target loss.
翻訳日:2021-12-22 14:18:46 公開日:2021-12-21
# 線形時間不変力学系の連成学習

Joint Learning of Linear Time-Invariant Dynamical Systems ( http://arxiv.org/abs/2112.10955v1 )

ライセンス: Link先を確認
Aditya Modi, Mohamad Kazem Shirani Faradonbeh, Ambuj Tewari, George Michailidis(参考訳) 線形時間不変力学系(LTIDS)のパラメータを学習することは、現在の関心の問題である。 多くの応用において、複数の関連するLTIDSのパラメータを共同で学習することに興味がある。 そこで我々は,共通基底行列を共有するLTIDSの遷移行列を学習するための共同推定器を開発した。 さらに, サンプルサイズ, 寸法, タスク数, および遷移行列のスペクトル特性に依存する有限時間誤差境界を定式化する。 結果は,軽度正規性仮定のもとに得られ,ltid間の情報プールによる利益を示すとともに,各システムを個別に学習することと比較した。 また, 遷移行列の接合構造を誤特定する影響について検討し, 確立された結果が中等度なミス種別の存在下で堅牢であることを示す。

Learning the parameters of a linear time-invariant dynamical system (LTIDS) is a problem of current interest. In many applications, one is interested in jointly learning the parameters of multiple related LTIDS, which remains unexplored to date. To that end, we develop a joint estimator for learning the transition matrices of LTIDS that share common basis matrices. Further, we establish finite-time error bounds that depend on the underlying sample size, dimension, number of tasks, and spectral properties of the transition matrices. The results are obtained under mild regularity assumptions and showcase the gains from pooling information across LTIDS, in comparison to learning each system separately. We also study the impact of misspecifying the joint structure of the transition matrices and show that the established results are robust in the presence of moderate misspecifications.
翻訳日:2021-12-22 14:18:24 公開日:2021-12-21
# ニューラルネットワークにおけるゲージ不変性保持

Preserving gauge invariance in neural networks ( http://arxiv.org/abs/2112.11239v1 )

ライセンス: Link先を確認
Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 本稿では,格子ゲージの等価な畳み込みニューラルネットワーク (l-cnns) について述べる。 アーキテクチャの側面を概観し、L-CNNが格子上のゲージ不変および同変関数の大きなクラスをどう表現できるかを示す。 非線形回帰問題を用いてL-CNNと非同変ネットワークの性能を比較し,非同変モデルに対するゲージ不変性の評価を行った。

In these proceedings we present lattice gauge equivariant convolutional neural networks (L-CNNs) which are able to process data from lattice gauge theory simulations while exactly preserving gauge symmetry. We review aspects of the architecture and show how L-CNNs can represent a large class of gauge invariant and equivariant functions on the lattice. We compare the performance of L-CNNs and non-equivariant networks using a non-linear regression problem and demonstrate how gauge invariance is broken for non-equivariant models.
翻訳日:2021-12-22 14:17:59 公開日:2021-12-21
# 因果推論における2倍・2倍のシャープ感度解析

Doubly-Valid/Doubly- Sharp Sensitivity Analysis for Causal Inference with Unmeasured Confounding ( http://arxiv.org/abs/2112.11449v1 )

ライセンス: Link先を確認
Jacob Dorn, Kevin Guo, Nathan Kallus(参考訳) 我々は,tan (2006) の限界感度モデルにおいて, コンファウンデーションの存在下での平均処理効果に関する境界構築の問題について検討した。 そこで本稿では, 対向性スコアを含む既存の特徴と, 新たな分布的ロバストな特徴とを組み合わせることで, 両値/二重シャープ(DVDS)推定器(Double-valid/dubly- sharp)推定器を提案する。 二重鋭さは、2つのニュアンスパラメータのうちの1つが不特定であり、すべてのニュアンスパラメータが適切に整合しているときに半パラメトリック効率を得る場合であっても、感度モデルによって示唆される最も厳しい(すなわち鋭い)境界を常に推定するという事実に対応する。 二重正当性は部分的識別のための全く新しい特性である:dvd推定器は、ほとんどの迷惑パラメータが誤特定された場合でも、依然として有効だが、シャープではない境界を提供する。 実際、DVDSポイント推定が漸近的に正常でない場合であっても、標準的なウォルド信頼区間は有効である。 二分結果の場合、dvd推定器は特に便利であり、結果回帰と傾向スコアの観点で閉じた表現を持つ。 シミュレーション実験では,DVDS推定器を実演し,右心カテーテルの症例的検討を行った。

We study the problem of constructing bounds on the average treatment effect in the presence of unobserved confounding under the marginal sensitivity model of Tan (2006). Combining an existing characterization involving adversarial propensity scores with a new distributionally robust characterization of the problem, we propose novel estimators of these bounds that we call "doubly-valid/doubly- sharp" (DVDS) estimators. Double sharpness corresponds to the fact that DVDS estimators consistently estimate the tightest possible (i.e., sharp) bounds implied by the sensitivity model even when one of two nuisance parameters is misspecified and achieve semiparametric efficiency when all nuisance parameters are suitably consistent. Double validity is an entirely new property for partial identification: DVDS estimators still provide valid, though not sharp, bounds even when most nuisance parameters are misspecified. In fact, even in cases when DVDS point estimates fail to be asymptotically normal, standard Wald confidence intervals may remain valid. In the case of binary outcomes, the DVDS estimators are particularly convenient and possesses a closed-form expression in terms of the outcome regression and propensity score. We demonstrate the DVDS estimators in a simulation study as well as a case study of right heart catheterization.
翻訳日:2021-12-22 14:17:51 公開日:2021-12-21
# マルチラベルテキスト分類による仕事記述からの職名予測

Predicting Job Titles from Job Descriptions with Multi-label Text Classification ( http://arxiv.org/abs/2112.11052v1 )

ライセンス: Link先を確認
Hieu Trung Tran, Hanh Hong Phuc Vo, Son T. Luu(参考訳) 適職探しと適任候補者の探索は、職探しと人事機関にとって重要である。 ジョブ記述に関する膨大な情報により、従業員と雇用主は、ジョブ記述テキストに基づいてジョブタイトルを自動的に検出する支援が必要である。 本稿では,ジョブ記述テキストから関連するジョブタイトルを予測するためのマルチラベル分類手法を提案し,ジョブタイトル予測問題に適用可能な,異なる事前学習言語モデルを用いたbi-gru-lstm-cnnを実装した。 bert with multilingual pre-trained modelは、開発セットとテストセットの両方においてf1-scoreが62.20%、テストセットが47.44%で最高の結果を得る。

Finding a suitable job and hunting for eligible candidates are important to job seeking and human resource agencies. With the vast information about job descriptions, employees and employers need assistance to automatically detect job titles based on job description texts. In this paper, we propose the multi-label classification approach for predicting relevant job titles from job description texts, and implement the Bi-GRU-LSTM-CNN with different pre-trained language models to apply for the job titles prediction problem. The BERT with multilingual pre-trained model obtains the highest result by F1-scores on both development and test sets, which are 62.20% on the development set, and 47.44% on the test set.
翻訳日:2021-12-22 14:17:27 公開日:2021-12-21
# コントラストと生成はBARTを優れた対話感情認識装置にする

Contrast and Generation Make BART a Good Dialogue Emotion Recognizer ( http://arxiv.org/abs/2112.11202v1 )

ライセンス: Link先を確認
Shimin Li, Hang Yan, Xipeng Qiu(参考訳) 対話システムでは、類似した意味を持つ発話は異なる文脈下で特有の感情を持つことがある。 したがって,対話型感情認識において,話者依存による長期的文脈的感情関係のモデル化が重要である。 一方、異なる感情カテゴリの区別は、通常、意味的に類似した感情を持つため、自明ではない。 この目的のために、教師付きコントラスト学習を用いて、異なる感情を相互に排他的に生成し、類似した感情をよりよく識別する。 一方,補助応答生成タスクを用いて,文脈情報を扱うモデルの能力を高めることにより,多様な文脈における類似した意味を持つ感情認識をモデルに強制する。 これらの目的を達成するために、我々は事前訓練されたエンコーダデコーダモデルBARTをバックボーンモデルとして使用しています。 4つのデータセットを用いた実験により,提案モデルが対話感情認識における最先端モデルよりも有意に良好な結果が得られることを示す。 アブレーション研究は、教師付きコントラスト損失と生成損失の効果をさらに示す。

In dialogue systems, utterances with similar semantics may have distinctive emotions under different contexts. Therefore, modeling long-range contextual emotional relationships with speaker dependency plays a crucial part in dialogue emotion recognition. Meanwhile, distinguishing the different emotion categories is non-trivial since they usually have semantically similar sentiments. To this end, we adopt supervised contrastive learning to make different emotions mutually exclusive to identify similar emotions better. Meanwhile, we utilize an auxiliary response generation task to enhance the model's ability of handling context information, thereby forcing the model to recognize emotions with similar semantics in diverse contexts. To achieve these objectives, we use the pre-trained encoder-decoder model BART as our backbone model since it is very suitable for both understanding and generation tasks. The experiments on four datasets demonstrate that our proposed model obtains significantly more favorable results than the state-of-the-art model in dialogue emotion recognition. The ablation study further demonstrates the effectiveness of supervised contrastive loss and generative loss.
翻訳日:2021-12-22 14:17:14 公開日:2021-12-21
# 予期せぬ行動の影響を除去する不特定フィードバックを用いたロバスト勧告

Robust Recommendation with Implicit Feedback via Eliminating the Effects of Unexpected Behaviors ( http://arxiv.org/abs/2112.11023v1 )

ライセンス: Link先を確認
Jie Chen and Lifen Jiang and Chunmei Ma and Huazhi Sun(参考訳) 暗黙的なフィードバックレコメンデーションでは、リコメンデーションシステムに短期的な好みを組み込むことが近年注目を集めている。 しかしながら、一部のアイテムを偶然クリックするような歴史的なインタラクションにおける予期せぬ動作は、ユーザの固有の好みを反映していない。 既存の研究では予期せぬ行動の影響をモデル化できないため、推奨性能が劣る。 本稿では,予期せぬ行動の影響を排除するために,MPM(Multi-Preferenc es Model)を提案する。 MPMは、まず、ユーザの最近のインタラクションから、きめ細かい好みモジュールによって、ユーザの即時好みを抽出する。 そして、予期せぬ行動検知器を訓練して、これらの瞬間的な嗜好が予期せぬ行動に偏っているかどうかを判断する。 また、利用者の一般嗜好をMPMに統合する。 最後に、予期せぬ振る舞いの影響を排除するために出力モジュールが実行され、全ての情報を統合して最終的な推奨を行う。 映画の2つのデータセットとe-retailingについて広範な実験を行い、最先端の手法よりもモデルに顕著な改善が示された。 実験の結果、PMMはHR@10とNDCG@10を大幅に改善し、3.643%と4.107%がAttRecモデルと比較した。 コードをhttps://github.com/c henjie04/MPM/で公開しています。

In the implicit feedback recommendation, incorporating short-term preference into recommender systems has attracted increasing attention in recent years. However, unexpected behaviors in historical interactions like clicking some items by accident don't well reflect users' inherent preferences. Existing studies fail to model the effects of unexpected behaviors, thus achieve inferior recommendation performance. In this paper, we propose a Multi-Preferences Model (MPM) to eliminate the effects of unexpected behaviors. MPM first extracts the users' instant preferences from their recent historical interactions by a fine-grained preference module. Then an unexpected-behaviors detector is trained to judge whether these instant preferences are biased by unexpected behaviors. We also integrate user's general preference in MPM. Finally, an output module is performed to eliminate the effects of unexpected behaviors and integrates all the information to make a final recommendation. We conduct extensive experiments on two datasets of a movie and an e-retailing, demonstrating significant improvements in our model over the state-of-the-art methods. The experimental results show that MPM gets a massive improvement in HR@10 and NDCG@10, which relatively increased by 3.643% and 4.107% compare with AttRec model on average. We publish our code at https://github.com/c henjie04/MPM/.
翻訳日:2021-12-22 14:16:41 公開日:2021-12-21
# 部分ラベルを用いたマルチラベル認識のための構造的意味伝達

Structured Semantic Transfer for Multi-Label Recognition with Partial Labels ( http://arxiv.org/abs/2112.10941v1 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Hefeng Wu, Yuan Xie, Liang Lin(参考訳) 実世界の画像は本質的に複数のセマンティックラベルを持っているため、マルチラベル画像認識は基本的な作業である。 しかし,入力画像と出力ラベル空間の複雑さのため,大規模なマルチラベルアノテーションの収集は困難である。 アノテーションのコストを削減すべく,部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化セマンティックトランスファー(SST)フレームワークを提案する。 このフレームワークは2つの相補的なトランスファーモジュールから構成されており、インテリアイメージとクロスイメージセマンティック相関を探索し、既知のラベルの知識を伝達し、未知のラベルの擬似ラベルを生成する。 具体的には、画像内意味伝達モジュールが画像固有のラベル共起行列を学習し、既知のラベルをこの行列に基づいて未知のラベルを補完するためにマッピングする。 一方、クロスイメージ転送モジュールはカテゴリ固有の特徴類似性を学習し、未知のラベルを高い類似度で補完する。 最後に、既知のラベルと生成されたラベルは、マルチラベル認識モデルのトレーニングに使用される。 Microsoft COCO、Visual Genome、Pascal VOCデータセットに対する大規模な実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。 コードは \url{https://github.com/H CPLab-SYSU/SST-MLR-P L で入手できる。

Multi-label image recognition is a fundamental yet practical task because real-world images inherently possess multiple semantic labels. However, it is difficult to collect large-scale multi-label annotations due to the complexity of both the input images and output label spaces. To reduce the annotation cost, we propose a structured semantic transfer (SST) framework that enables training multi-label recognition models with partial labels, i.e., merely some labels are known while other labels are missing (also called unknown labels) per image. The framework consists of two complementary transfer modules that explore within-image and cross-image semantic correlations to transfer knowledge of known labels to generate pseudo labels for unknown labels. Specifically, an intra-image semantic transfer module learns image-specific label co-occurrence matrix and maps the known labels to complement unknown labels based on this matrix. Meanwhile, a cross-image transfer module learns category-specific feature similarities and helps complement unknown labels with high similarities. Finally, both known and generated labels are used to train the multi-label recognition models. Extensive experiments on the Microsoft COCO, Visual Genome and Pascal VOC datasets show that the proposed SST framework obtains superior performance over current state-of-the-art algorithms. Codes are available at \url{https://github.com/H CPLab-SYSU/SST-MLR-P L
翻訳日:2021-12-22 14:14:56 公開日:2021-12-21
# Pixel-Stega:自己回帰モデルに基づく画像ステレオグラフィ

Pixel-Stega: Generative Image Steganography Based on Autoregressive Models ( http://arxiv.org/abs/2112.10945v1 )

ライセンス: Link先を確認
Siyu Zhang, Zhongliang Yang, Haoqin Tu, Jinshuai Yang, and Yongfeng Huang(参考訳) 本稿では,自己回帰モデルに基づく画像ステガノグラフィーについて検討した。 自動回帰モデルと算術符号アルゴリズムを用いて画素レベルの情報隠蔽を実現するPixel-Stegaを提案する。 まず,自動回帰モデルであるPixelCNN++を用いて,各画素の条件付き確率分布を生成する。 次に、演算符号化に基づいて、ステガノグラフィーサンプリング(stegosampling)により、秘密メッセージが画素選択に符号化される。 グレースケールおよびカラー画像データセットの質的および定量的評価を行った。 実験の結果,ピクセルのエントロピーに適応してシークレットメッセージを埋め込み,高い埋め込み容量(最大4.3bpp)とほぼ完全なインセプティビリティ(約50%検出精度)を実現することができた。

In this letter, we explored generative image steganography based on autoregressive models. We proposed Pixel-Stega, which implements pixel-level information hiding with autoregressive models and arithmetic coding algorithm. Firstly, one of the autoregressive models, PixelCNN++, is utilized to produce explicit conditional probability distribution of each pixel. Secondly, secret messages are encoded to the selection of pixels through steganographic sampling (stegosampling) based on arithmetic coding. We carried out qualitative and quantitative assessment on gray-scale and colour image datasets. Experimental results show that Pixel-Stega is able to embed secret messages adaptively according to the entropy of the pixels to achieve both high embedding capacity (up to 4.3 bpp) and nearly perfect imperceptibility (about 50% detection accuracy).
翻訳日:2021-12-22 14:14:33 公開日:2021-12-21
# DRPN: CNNの動的ハンドリングスケールの変動

DRPN: Making CNN Dynamically Handle Scale Variation ( http://arxiv.org/abs/2112.10963v1 )

ライセンス: Link先を確認
Jingchao Peng, Haitao Zhao, Zhengwei Hu, Yi Zhuang, and Bofan Wang(参考訳) 赤外線ターゲットの観測結果から,シーケンスフレーム内の重大なスケール変動が頻繁に発生している。 本稿では,赤外データセットのスケール変動に対処し,小さなターゲットと大きなターゲットとの検出精度のバランスをとるための動的再パラメータ化ネットワーク(DRPN)を提案する。 drpnは、畳み込みカーネルのサイズと動的畳み込み戦略が異なる複数のブランチを採用する。 畳み込みカーネルのサイズが異なる複数のブランチは、受容野のサイズが異なる。 動的畳み込み戦略はDRPNを適応的に重み付けする。 DRPNはターゲットのスケール変動に応じて受容野を動的に調整することができる。 また、試験段階における効果的な推論を維持するため、トレーニング後の再パラメータ化技術により、マルチブランチ構造を単一ブランチ構造に変換する。 FLIR, KAIST, InfraPlane データセットの大規模な実験により提案した DRPN の有効性が示された。 実験の結果,提案したDRPNをSKNetやTridentNetよりも基本構造として用いた検出器が最高の性能を示した。

Based on our observations of infrared targets, serious scale variation along within sequence frames has high-frequently occurred. In this paper, we propose a dynamic re-parameterization network (DRPN) to deal with the scale variation and balance the detection precision between small targets and large targets in infrared datasets. DRPN adopts the multiple branches with different sizes of convolution kernels and the dynamic convolution strategy. Multiple branches with different sizes of convolution kernels have different sizes of receptive fields. Dynamic convolution strategy makes DRPN adaptively weight multiple branches. DRPN can dynamically adjust the receptive field according to the scale variation of the target. Besides, in order to maintain effective inference in the test phase, the multi-branch structure is further converted to a single-branch structure via the re-parameterization technique after training. Extensive experiments on FLIR, KAIST, and InfraPlane datasets demonstrate the effectiveness of our proposed DRPN. The experimental results show that detectors using the proposed DRPN as the basic structure rather than SKNet or TridentNet obtained the best performances.
翻訳日:2021-12-22 14:13:59 公開日:2021-12-21
# ディエンス予測のための対話型バックプロパゲーションの一般化

Generalizing Interactive Backpropagating Refinement for Dense Prediction ( http://arxiv.org/abs/2112.10969v1 )

ライセンス: Link先を確認
Fanqing Lin, Brian Price, Tony Martinez(参考訳) ディープニューラルネットワークがコンピュータビジョンの密集した予測タスクの分野で最先端のアプローチとなるにつれて、視覚入力からターゲット出力を自動的に推定する手法が数多く開発されている。 提案手法の精度は改善され続けているが,さらなる修正には対話的精細化がしばしば必要である。 近年,対話型セグメンテーションにおいて,事前学習ネットワークに挿入された補助変数の小さなセットを効率よく最適化し,ユーザ入力に整合したオブジェクトセグメンテーションを実現するための機能バックプロパゲーション改善スキーム (\text{\textit{f}-BRS}) が提案されている。 しかし,提案する補助変数はチャネル単位のスケールとバイアスのみを含み,最適化はグローバルリファインメントのみに制限される。 本研究は,多種多様な密接な予測タスクのバックプロパゲーション改善を一般化するために,対話的セグメンテーション,セマンティックセグメンテーション,画像マッチング,モノクロ深度推定という,グローバルおよびローカライズされた各タスクの洗練を可能にするG-BRS(Generalized Backproagating Refinement Scheme)層を導入する。 SBD,Cityscapes,Mapil lary Vista,Compose-1k,NYU -Depth-V2の実験結果から,既存の事前学習モデルの性能を数クリックで向上できることが示された。

As deep neural networks become the state-of-the-art approach in the field of computer vision for dense prediction tasks, many methods have been developed for automatic estimation of the target outputs given the visual inputs. Although the estimation accuracy of the proposed automatic methods continues to improve, interactive refinement is oftentimes necessary for further correction. Recently, feature backpropagating refinement scheme (\text{\textit{f}-BRS}) has been proposed for the task of interactive segmentation, which enables efficient optimization of a small set of auxiliary variables inserted into the pretrained network to produce object segmentation that better aligns with user inputs. However, the proposed auxiliary variables only contain channel-wise scale and bias, limiting the optimization to global refinement only. In this work, in order to generalize backpropagating refinement for a wide range of dense prediction tasks, we introduce a set of G-BRS (Generalized Backpropagating Refinement Scheme) layers that enable both global and localized refinement for the following tasks: interactive segmentation, semantic segmentation, image matting and monocular depth estimation. Experiments on SBD, Cityscapes, Mapillary Vista, Composition-1k and NYU-Depth-V2 show that our method can successfully generalize and significantly improve performance of existing pretrained state-of-the-art models with only a few clicks.
翻訳日:2021-12-22 14:13:43 公開日:2021-12-21
# MPViT:Dense Predictionのためのマルチパスビジョントランス

MPViT: Multi-Path Vision Transformer for Dense Prediction ( http://arxiv.org/abs/2112.11010v1 )

ライセンス: Link先を確認
Youngwan Lee, Jonghee Kim, Jeff Willette, Sung Ju Hwang(参考訳) オブジェクト検出やセグメンテーションのような密集したコンピュータビジョンタスクは、大きさの異なるオブジェクトや領域の検出や分類に有効なマルチスケールの特徴表現を必要とする。 畳み込みニューラルネットワーク(CNN)はそのようなタスクの主要なアーキテクチャであるが、最近導入されたビジョントランスフォーマー(ViT)は、それらをバックボーンとして置き換えることを目指している。 CNNと同様、ViTsは単一スケールパッチによるマルチスケール表現のための単純なマルチステージ構造(ファイン・ツー・コアス)を構築している。 本研究では,既存のTransformerと異なる視点で,MPViT(Multi-Path Vision Transformer)を構成するマルチスケールパッチ埋め込みとマルチパス構造について検討する。 MPViTは、重複する畳み込みパッチの埋め込みを用いて、異なるスケールのパッチを同時に同じサイズ〜(シーケンス長)の機能を埋め込む。 異なるスケールのトークンは、複数のパスを介してトランスフォーマーエンコーダに独立して供給され、その結果のフィーチャは集約され、同じ機能レベルで細かな特徴表現と粗い特徴表現の両方を可能にする。 多様なマルチスケールの機能表現のおかげで、MPViTは、ImageNet分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端のVision Transformerよりも一貫して優れたパフォーマンスを実現しています。 これらの広範な結果は、mpvitが様々な視覚タスクのバックボーンネットワークとして機能できることを示しています。 コードは \url{https://git.io/MPViT } で公開される。

Dense computer vision tasks such as object detection and segmentation require effective multi-scale feature representation for detecting or classifying objects or regions with varying sizes. While Convolutional Neural Networks (CNNs) have been the dominant architectures for such tasks, recently introduced Vision Transformers (ViTs) aim to replace them as a backbone. Similar to CNNs, ViTs build a simple multi-stage structure (i.e., fine-to-coarse) for multi-scale representation with single-scale patches. In this work, with a different perspective from existing Transformers, we explore multi-scale patch embedding and multi-path structure, constructing the Multi-Path Vision Transformer (MPViT). MPViT embeds features of the same size~(i.e., sequence length) with patches of different scales simultaneously by using overlapping convolutional patch embedding. Tokens of different scales are then independently fed into the Transformer encoders via multiple paths and the resulting features are aggregated, enabling both fine and coarse feature representations at the same feature level. Thanks to the diverse, multi-scale feature representations, our MPViTs scaling from tiny~(5M) to base~(73M) consistently achieve superior performance over state-of-the-art Vision Transformers on ImageNet classification, object detection, instance segmentation, and semantic segmentation. These extensive results demonstrate that MPViT can serve as a versatile backbone network for various vision tasks. Code will be made publicly available at \url{https://git.io/MPViT }.
翻訳日:2021-12-22 14:13:09 公開日:2021-12-21
# fMRI神経フィードバック学習パターンは、個人的および臨床的特性を予測する

fMRI Neurofeedback Learning Patterns are Predictive of Personal and Clinical Traits ( http://arxiv.org/abs/2112.11014v1 )

ライセンス: Link先を確認
Rotem Leibovitz, Jhonathan Osin, Lior Wolf, Guy Gurevitch and Talma Hendler(参考訳) 機能的MRI(fMRI)を用いて,自律神経運動課題における学習経過の個人的シグネチャを得る。 このシグネチャは、第1セッションで同様のfmri由来の脳状態を与えられた第2の神経フィードバックセッションにおける扁桃体の活動を予測することに基づいている。 この予測は、患者のトレーニングコホート全体に基づいてトレーニングされるディープニューラルネットワークによって行われる。 この信号は扁桃体変調の作業の進捗を示すものであり、複数の原型的脳の状態にまたがって集約され、線形分類器によって様々な個人的および臨床的な適応に分類される。 得られたシグネチャの予測力は、fMRIニューロフィードバックから個人的シグネチャを得るための従来のアプローチよりも強く、個人の学習パターンが診断ツールとして使用できることを示す。 私たちのコードは利用可能となり、データは倫理的承認を受けながら共有されます。

We obtain a personal signature of a person's learning progress in a self-neuromodulation task, guided by functional MRI (fMRI). The signature is based on predicting the activity of the Amygdala in a second neurofeedback session, given a similar fMRI-derived brain state in the first session. The prediction is made by a deep neural network, which is trained on the entire training cohort of patients. This signal, which is indicative of a person's progress in performing the task of Amygdala modulation, is aggregated across multiple prototypical brain states and then classified by a linear classifier to various personal and clinical indications. The predictive power of the obtained signature is stronger than previous approaches for obtaining a personal signature from fMRI neurofeedback and provides an indication that a person's learning pattern may be used as a diagnostic tool. Our code has been made available, and data would be shared, subject to ethical approvals.
翻訳日:2021-12-22 14:12:41 公開日:2021-12-21
# EPNet++:マルチモーダル3Dオブジェクト検出のためのカスケード双方向融合

EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2112.11088v1 )

ライセンス: Link先を確認
Zhe Liu, Tengteng~Huang, Bingling Li, Xiwu Chen, Xi Wang, Xiang Bai(参考訳) 近年,lidar point cloudとカメラ画像を用いて3次元物体検出の性能とロバスト性を向上させる手法が注目されている。 本稿では,Casscade Bi-directional Fusion~(CB-Fusion)モジュールとMulti-Modal Consistency~(MC)損失を導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。 より具体的には、CB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高め、より包括的で識別的な特徴表現をもたらす。 MC損失は、2つのモードからの予測スコア間の整合性を明確に保証し、より包括的で信頼性の高い信頼スコアを得る。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。 さらに,スペーサーシーンにおける3次元検出器の性能とロバスト性を探るため,重要かつ容易に見落としてしまう問題を強調した。 大規模な実験によると、EPNet++は、LiDARセンサーの高価なコストを下げるために利用可能な、非常に疎いクラウドケースにおいて、既存のSOTAメソッドよりも優れたマージンを持つ。 コードは将来的にリリースされる予定だ。

Recently, fusing the LiDAR point cloud and camera image to improve the performance and robustness of 3D object detection has received more and more attention, as these two modalities naturally possess strong complementarity. In this paper, we propose EPNet++ for multi-modal 3D object detection by introducing a novel Cascade Bi-directional Fusion~(CB-Fusion) module and a Multi-Modal Consistency~(MC) loss. More concretely, the proposed CB-Fusion module boosts the plentiful semantic information of point features with the image features in a cascade bi-directional interaction fusion manner, leading to more comprehensive and discriminative feature representations. The MC loss explicitly guarantees the consistency between predicted scores from two modalities to obtain more comprehensive and reliable confidence scores. The experiment results on the KITTI, JRDB and SUN-RGBD datasets demonstrate the superiority of EPNet++ over the state-of-the-art methods. Besides, we emphasize a critical but easily overlooked problem, which is to explore the performance and robustness of a 3D detector in a sparser scene. Extensive experiments present that EPNet++ outperforms the existing SOTA methods with remarkable margins in highly sparse point cloud cases, which might be an available direction to reduce the expensive cost of LiDAR sensors. Code will be released in the future.
翻訳日:2021-12-22 14:12:23 公開日:2021-12-21
# cloud sphere:プログレッシブ変形による3次元形状表現

Cloud Sphere: A 3D Shape Representation via Progressive Deformation ( http://arxiv.org/abs/2112.11133v1 )

ライセンス: Link先を確認
Zongji Wang, Yunfei Liu, Feng Lu(参考訳) 3次元形状解析の分野では、形状の幾何学的性質が長い間研究されてきた。 本稿では,専門家が設計した記述子やエンドツーエンドのディープニューラルネットワークを用いて,代表的特徴を直接抽出する代わりに,形状形成過程から特有の情報を発見することを目的とする。 具体的には、テンプレートとして提供される球状点雲を段階的に変形させ、ターゲット形状を粗大に整合させる。 形状形成過程において、中間段階の記録及び調査を容易にするために複数のチェックポイントを挿入する。 各ステージについて、オフセットフィールドをステージ認識記述として評価する。 形状形成過程におけるオフセットの和は、幾何学的に対象形状を完全に定義することができる。 この観点からは、テンプレートからポイントワイズ形状対応を安価に導き出すことができ、様々なグラフィック応用に利点がある。 本稿では, 段階的変形に基づく自動エンコーダ (pdae) を提案する。 実験の結果,提案するpdaeは高い忠実度で3次元形状を再構成でき,多段変形過程においても一貫したトポロジーが維持できることがわかった。 ステージアウェア記述に基づく追加の応用が行われ、その普遍性を示す。

In the area of 3D shape analysis, the geometric properties of a shape have long been studied. Instead of directly extracting representative features using expert-designed descriptors or end-to-end deep neural networks, this paper is dedicated to discovering distinctive information from the shape formation process. Concretely, a spherical point cloud served as the template is progressively deformed to fit the target shape in a coarse-to-fine manner. During the shape formation process, several checkpoints are inserted to facilitate recording and investigating the intermediate stages. For each stage, the offset field is evaluated as a stage-aware description. The summation of the offsets throughout the shape formation process can completely define the target shape in terms of geometry. In this perspective, one can derive the point-wise shape correspondence from the template inexpensively, which benefits various graphic applications. In this paper, the Progressive Deformation-based Auto-Encoder (PDAE) is proposed to learn the stage-aware description through a coarse-to-fine shape fitting task. Experimental results show that the proposed PDAE has the ability to reconstruct 3D shapes with high fidelity, and consistent topology is preserved in the multi-stage deformation process. Additional applications based on the stage-aware description are performed, demonstrating its universality.
翻訳日:2021-12-22 14:11:58 公開日:2021-12-21
# スタイル拡張とデュアル正規化による一般化可能なクロスモーダル医用画像分割

Generalizable Cross-modality Medical Image Segmentation via Style Augmentation and Dual Normalization ( http://arxiv.org/abs/2112.11177v1 )

ライセンス: Link先を確認
Ziqi Zhou, Lei Qi, Xin Yang, Dong Ni, Yinghuan Shi(参考訳) 医用画像のセグメンテーションでは、モデルがソース領域のMR画像のみを使用して訓練された場合、ターゲット領域のCT画像を直接セグメンテーションする性能はどうだろうか? この設定、すなわち、その臨床的ポテンシャルを所有する一般化可能なクロスモダリティセグメンテーションは、ドメイン適応のような他の関連する設定よりもはるかに困難である。 この目的を達成するために,一般化可能なセグメンテーションにおいて,拡張されたソース類似画像とソース類似画像を利用する新しい二重正規化モジュールを提案する。 具体的には、単一のソースドメインが与えられた場合、対象領域が見当たらない場合の外観変化をシミュレートするために、まず、ソース類似およびソース異種画像の拡張に非線形変換を利用する。 次に,これら2種類の拡張を十分に活用するために,提案する2重正規化モデルでは,個別正規化のために共有バックボーンと独立なバッチ正規化層を用いる。 その後,テストステージの適切なパスを自動的に選択するためのスタイルベース選択スキームを策定した。 BraTS,Cross-Modality Cardiac,Abdominal Multi-Organの3つの公開データセットに対する大規模な実験により,本手法が他の最先端ドメイン一般化手法よりも優れていることが示された。

For medical image segmentation, imagine if a model was only trained using MR images in source domain, how about its performance to directly segment CT images in target domain? This setting, namely generalizable cross-modality segmentation, owning its clinical potential, is much more challenging than other related settings, e.g., domain adaptation. To achieve this goal, we in this paper propose a novel dual-normalization module by leveraging the augmented source-similar and source-dissimilar images during our generalizable segmentation. To be specific, given a single source domain, aiming to simulate the possible appearance change in unseen target domains, we first utilize a nonlinear transformation to augment source-similar and source-dissimilar images. Then, to sufficiently exploit these two types of augmentations, our proposed dual-normalization based model employs a shared backbone yet independent batch normalization layer for separate normalization. Afterwards, we put forward a style-based selection scheme to automatically choose the appropriate path in the test stage. Extensive experiments on three publicly available datasets, i.e., BraTS, Cross-Modality Cardiac and Abdominal Multi-Organ dataset, have demonstrated that our method outperforms other state-of-the-art domain generalization methods.
翻訳日:2021-12-22 14:11:38 公開日:2021-12-21
# PointCaps: ユークリッド距離ルーティングを備えたカプセルネットワークを用いたRAWポイントクラウド処理

PointCaps: Raw Point Cloud Processing using Capsule Networks with Euclidean Distance Routing ( http://arxiv.org/abs/2112.11258v1 )

ライセンス: Link先を確認
Dishanika Denipitiyage, Vinoj Jayasundara, Ranga Rodrigo, Chamira U. S. Edussooriya(参考訳) カプセルネットワークを用いた生点クラウド処理は、入力データの空間的一致を保存できるため、分類、再構成、セグメンテーションに広く採用されている。 しかし、既存のカプセルベースのネットワークアプローチのほとんどは計算的に重く、点雲全体を単一のカプセルとして表現できない。 我々は,パラメータ共有型畳み込みカプセルアーキテクチャであるpointcapsを提案することで,既存のカプセルネットワークに基づくアプローチにおけるこれらの制限に対処する。 PointCapsとともに、新しいユークリッド距離ルーティングアルゴリズムとクラス非依存の潜在表現を提案する。 潜在表現は点雲の物理的に解釈可能な幾何学的パラメータを捉え、ダイナミックユークリッドルーティングにより、ポイントCapsは点の空間的(点間)関係をうまく表現する。 PointCaps のパラメータ数は著しく少なく、FLOP は極めて少ないが、最先端のカプセルネットワークと比較して、生の点雲の分類とセグメンテーションの精度が向上している。

Raw point cloud processing using capsule networks is widely adopted in classification, reconstruction, and segmentation due to its ability to preserve spatial agreement of the input data. However, most of the existing capsule based network approaches are computationally heavy and fail at representing the entire point cloud as a single capsule. We address these limitations in existing capsule network based approaches by proposing PointCaps, a novel convolutional capsule architecture with parameter sharing. Along with PointCaps, we propose a novel Euclidean distance routing algorithm and a class-independent latent representation. The latent representation captures physically interpretable geometric parameters of the point cloud, with dynamic Euclidean routing, PointCaps well-represents the spatial (point-to-part) relationships of points. PointCaps has a significantly lower number of parameters and requires a significantly lower number of FLOPs while achieving better reconstruction with comparable classification and segmentation accuracy for raw point clouds compared to state-of-the-art capsule networks.
翻訳日:2021-12-22 14:10:21 公開日:2021-12-21
# 低分解能リカバリとノイズアウェアアップサンプリングによる高忠実度ポイントクラウド補完

High-Fidelity Point Cloud Completion with Low-Resolution Recovery and Noise-Aware Upsampling ( http://arxiv.org/abs/2112.11271v1 )

ライセンス: Link先を確認
Ren-Wu Li, Bo Wang, Chun-Peng Li, Ling-Xiao Zhang and Lin Gao(参考訳) 非順序部分点クラウドの完了は難しい作業です。 完全な形状を回復するために潜在機能のデコードに依存する既存のアプローチは、しばしば完了したポイントクラウドが過度に滑らかになり、詳細が失われ、うるさい。 まず,全形状をデコードする代わりに,まず低解像度(低解像度)ポイントクラウドをデコードし,精錬し,その後,スパースポイントクラウド全体を一度に補間するのではなく,パッチ単位でノイズアウェアアップサンプリングを行うことを提案する。 初期復号化低res点雲の詳細が欠落する可能性について,幾何的詳細を復元するための反復改良法と,入力部分点雲から信頼できる情報を保存するための対称性化法を提案する。 スパースかつ完全なポイントクラウドを得た後,パッチによるアップサンプリング戦略を提案する。 パッチベースのアップサンプリングは、全体形状をデコードするのとは違い、細部をより正確に復元することができるが、既存のアップサンプリング手法はデータの差による完了タスクには適用できない(つまり、ここで入力されるスパースデータは、地上からではない)。 そこで本研究では,スパース点と接地トラス点の雲間のトレーニングパッチペアを生成するパッチ抽出手法と,スパース点の雲からのノイズを抑えるアウトリー除去ステップを提案する。 低解像度のリカバリと合わせて、全メソッドが高忠実度ポイントクラウドコンプリートを実現します。 提案手法とその個別成分の有効性を示すため,包括的評価を行った。

Completing an unordered partial point cloud is a challenging task. Existing approaches that rely on decoding a latent feature to recover the complete shape, often lead to the completed point cloud being over-smoothing, losing details, and noisy. Instead of decoding a whole shape, we propose to decode and refine a low-resolution (low-res) point cloud first, and then performs a patch-wise noise-aware upsampling rather than interpolating the whole sparse point cloud at once, which tends to lose details. Regarding the possibility of lacking details of the initially decoded low-res point cloud, we propose an iterative refinement to recover the geometric details and a symmetrization process to preserve the trustworthy information from the input partial point cloud. After obtaining a sparse and complete point cloud, we propose a patch-wise upsampling strategy. Patch-based upsampling allows to better recover fine details unlike decoding a whole shape, however, the existing upsampling methods are not applicable to completion task due to the data discrepancy (i.e., input sparse data here is not from ground-truth). Therefore, we propose a patch extraction approach to generate training patch pairs between the sparse and ground-truth point clouds, and an outlier removal step to suppress the noisy points from the sparse point cloud. Together with the low-res recovery, our whole method is able to achieve high-fidelity point cloud completion. Comprehensive evaluations are provided to demonstrate the effectiveness of the proposed method and its individual components.
翻訳日:2021-12-22 14:10:05 公開日:2021-12-21
# isegformer: トランスフォーマによるインタラクティブな画像セグメンテーション

iSegFormer: Interactive Image Segmentation with Transformers ( http://arxiv.org/abs/2112.11325v1 )

ライセンス: Link先を確認
Qin Liu(参考訳) インタラクティブな画像セグメンテーションのための新しいトランスフォーマーベースアプローチiSegFormerを提案する。 isegformerは、ユーザーがクリックして追加入力として既存のセグメンテーショントランスをベースとし、対話的かつ反復的にセグメンテーションマスクを洗練することができる。

We propose iSegFormer, a novel transformer-based approach for interactive image segmentation. iSegFormer is built upon existing segmentation transformers with user clicks as an additional input, allowing users to interactively and iteratively refine the segmentation mask.
翻訳日:2021-12-22 14:09:36 公開日:2021-12-21
# 超画素統計によるマルチスペクトル画像融合

Multispectral image fusion by super pixel statistics ( http://arxiv.org/abs/2112.11329v1 )

ライセンス: Link先を確認
Nati Ofir(参考訳) マルチスペクトル画像融合はリモートセンシングと画像処理の根本的な問題である。 この問題は古典的アプローチと深層学習アプローチの両方によって解決される。 本稿では,古典的ソリューションに注目し,このファミリーに新しいアプローチを提案する。 提案手法では,融合画像の内容に基づいてマルチスペクトル画像融合を行う。 これは、融合入力におけるセグメント化されたスーパーピクセルの情報レベルに基づく分析に依存する。 具体的には、近赤外(NIR)融合における可視色RGBの課題に対処する。 RGB画像はシーンの色を捉え、NIRはヘイズや雲の向こうの細部を捉えます。 各チャンネルはシーンの異なる情報を感知するので、融合は困難で興味深い。 提案手法は各スペクトルの両方の利点を含む融合を生成するために設計されている。 本提案手法は,重計算リソースを必要とせず,組込みデバイス上で高速に実行できる他の古典的融合手法に対して視覚的に有益であることを示す。

Multispectral image fusion is a fundamental problem of remote sensing and image processing. This problem is addressed by both classic and deep learning approaches. This paper is focused on the classic solutions and introduces a new novel approach to this family. The proposed method carries out multispectral image fusion based on the content of the fused images. It relies on analysis based on the level of information on segmented superpixels in the fused inputs. Specifically, I address the task of visible color RGB to Near-Infrared (NIR) fusion. The RGB image captures the color of the scene while the NIR captures details and sees beyond haze and clouds. Since each channel senses different information of the scene, their fusion is challenging and interesting. The proposed method is designed to produce a fusion that contains both advantages of each spectra. This manuscript experiments show that the proposed method is visually informative with respect to other classic fusion methods which can be run fastly on embedded devices with no need for heavy computation resources.
翻訳日:2021-12-22 14:09:30 公開日:2021-12-21
# 暗黙エンコーディングによるエンドツーエンドルームレイアウト推定

Transferable End-to-end Room Layout Estimation via Implicit Encoding ( http://arxiv.org/abs/2112.11340v1 )

ライセンス: Link先を確認
Hao Zhao, Rene Ranftl, Yurong Chen, Hongbin Zha(参考訳) 単一パノラマ画像から部屋レイアウト推定の問題点について検討する。 以前の作品の多くは特徴抽出とパラメトリックモデルフィッティングという2つの段階がある。 本稿では,入力パノラマ画像からパラメトリックレイアウトを直接予測するエンドツーエンド手法を提案する。 パラメトリックレイアウトを潜在空間に埋め込む暗黙的な符号化手順を利用する。 そして、画像からこの潜在空間へのマッピングを学ぶことで、エンドツーエンドのルームレイアウト推定が可能になる。 しかし、多くの興味深い性質にもかかわらず、エンドツーエンドの手法にはいくつかの悪名高い欠点がある。 広く批判されているのは、データセットバイアスに悩まされ、馴染みのないドメインに転送されないことだ。 私たちの研究はこの共通の信念を反映している。 この目的のために,中間領域として意味境界予測マップを用いることを提案する。 これにより、4つのベンチマーク(Structured3D、PanoContext、S3DIS、Matterport3D)で大幅なパフォーマンス向上を実現している。 コード、データ、モデルがリリースされます。

We study the problem of estimating room layouts from a single panorama image. Most former works have two stages: feature extraction and parametric model fitting. Here we propose an end-to-end method that directly predicts parametric layouts from an input panorama image. It exploits an implicit encoding procedure that embeds parametric layouts into a latent space. Then learning a mapping from images to this latent space makes end-to-end room layout estimation possible. However end-to-end methods have several notorious drawbacks despite many intriguing properties. A widely raised criticism is that they are troubled with dataset bias and do not transfer to unfamiliar domains. Our study echos this common belief. To this end, we propose to use semantic boundary prediction maps as an intermediate domain. It brings significant performance boost on four benchmarks (Structured3D, PanoContext, S3DIS, and Matterport3D), notably in the zero-shot transfer setting. Code, data, and models will be released.
翻訳日:2021-12-22 14:09:17 公開日:2021-12-21
# 知識グラフ埋め込みを用いたコントラスト物体検出

Contrastive Object Detection Using Knowledge Graph Embeddings ( http://arxiv.org/abs/2112.11366v1 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Abhinav Valada(参考訳) オブジェクト認識のほとんどは、クラスを離散的で非関連であるように扱う1ホット問題としてアプローチされてきた。 各画像領域は、背景クラスを含むオブジェクトのセットの1つのメンバーに割り当てられ、オブジェクトタイプの類似性を無視しなければならない。 本研究では,オープンワールドのオブジェクト検出に広く適用される自然言語処理や知識グラフから意味的に構造化された組込みと,ワンホットなアプローチで学習した組込みのエラー統計を比較する。 複数の知識埋め込みと距離測定値の大規模な実験結果から,知識に基づくクラス表現は,COCOやCityscapesのオブジェクト検出ベンチマークの1ホット手法と比較して,より意味論的に基底化された誤分類をもたらすことが示された。 本研究は,キーポイント型およびトランスフォーマー型オブジェクト検出アーキテクチャのための知識組み込み設計を提案することにより,複数のオブジェクト検出アーキテクチャに一般化する。

Object recognition for the most part has been approached as a one-hot problem that treats classes to be discrete and unrelated. Each image region has to be assigned to one member of a set of objects, including a background class, disregarding any similarities in the object types. In this work, we compare the error statistics of the class embeddings learned from a one-hot approach with semantically structured embeddings from natural language processing or knowledge graphs that are widely applied in open world object detection. Extensive experimental results on multiple knowledge-embeddings as well as distance metrics indicate that knowledge-based class representations result in more semantically grounded misclassifications while performing on par compared to one-hot methods on the challenging COCO and Cityscapes object detection benchmarks. We generalize our findings to multiple object detection architectures by proposing a knowledge-embedded design for keypoint-based and transformer-based object detection architectures.
翻訳日:2021-12-22 14:09:02 公開日:2021-12-21
# 野生の複雑な場面における偏光からの形状

Shape from Polarization for Complex Scenes in the Wild ( http://arxiv.org/abs/2112.11377v1 )

ライセンス: Link先を確認
Chenyang Lei, Chenyang Qi, Jiaxin Xie, Na Fan, Vladlen Koltun, Qifeng Chen(参考訳) 単一偏光画像からシーンレベルの正規推定を行うために,物理量に基づく新しいデータ駆動手法を提案する。 既存の偏光からの形状(SfP)は主に、野生の複雑なシーンではなく、単一の物体の正常さを推定することに焦点を当てている。 高品質のシーンレベルのSfPの鍵となる障壁は、複雑なシーンにおける現実世界のSfPデータの欠如である。 そこで本研究では,入力偏光画像と地対正規写像を併用した,実世界初のsfpデータセットを提案する。 次に,シーンレベルのSfPにおける複雑な材料や非オーソグラフィー投影による偏光曖昧性の増加に対応するために,マルチヘッド自己認識モジュールと視聴符号化を備えた学習ベースフレームワークを提案する。 偏光と表面の正常性の関係は距離に影響されないため,練習したモデルは遠方界の屋外シーンに一般化することができる。 実験結果から,本手法は既存のSfPモデルよりも優れていることがわかった。 我々のデータセットとソースコードは \url{https://github.com/C henyangLEI/sfp-wild} で公開されます。

We present a new data-driven approach with physics-based priors to scene-level normal estimation from a single polarization image. Existing shape from polarization (SfP) works mainly focus on estimating the normal of a single object rather than complex scenes in the wild. A key barrier to high-quality scene-level SfP is the lack of real-world SfP data in complex scenes. Hence, we contribute the first real-world scene-level SfP dataset with paired input polarization images and ground-truth normal maps. Then we propose a learning-based framework with a multi-head self-attention module and viewing encoding, which is designed to handle increasing polarization ambiguities caused by complex materials and non-orthographic projection in scene-level SfP. Our trained model can be generalized to far-field outdoor scenes as the relationship between polarized light and surface normals is not affected by distance. Experimental results demonstrate that our approach significantly outperforms existing SfP models on two datasets. Our dataset and source code will be publicly available at \url{https://github.com/C henyangLEI/sfp-wild}.
翻訳日:2021-12-22 14:08:47 公開日:2021-12-21
# (参考訳) バイアス緩和のためのバリューアクティベーション:一般化された二重決定論的政策勾配 [全文訳有]

Value Activation for Bias Alleviation: Generalized-activate d Deep Double Deterministic Policy Gradients ( http://arxiv.org/abs/2112.11216v1 )

ライセンス: CC BY 4.0
Jiafei Lyu and Yu Yang and Jiangpeng Yan and Xiu Li(参考訳) 深層強化学習(DRL)における値関数を正確に推定し、エージェントが最適でないものの代わりに適切なアクションを実行できるようにすることが不可欠である。 しかし、既存のアクター批判手法は、その性能に悪影響を及ぼす過小評価バイアスや過大評価バイアスに悩まされている。 本稿では, 適切な値補正がバイアス緩和に有効であることを明らかにするとともに, より優れた値推定のための重み付けとして, 任意の非減少関数、すなわち活性化関数を使用する一般化活性化重み付け演算子を提案する。 特に、一般化活性化重み付け演算子を値推定に統合し、新しいアルゴリズム、一般化活性化Deep Double Deterministic Policy Gradients (GD3)を導入する。 理論的には、gd3はポテンシャル推定バイアスを軽減することができる。 興味深いことに、単純なアクティベーション関数は追加のトリックなしで性能を満足させ、より高速な収束に寄与する。 タスク固有のアクティベーションを持つGD3が共通のベースライン法より優れていることを示す。 また,多項式アクティベーション関数の微調整により,ほとんどのタスクにおいて優れた結果が得られることも明らかにした。

It is vital to accurately estimate the value function in Deep Reinforcement Learning (DRL) such that the agent could execute proper actions instead of suboptimal ones. However, existing actor-critic methods suffer more or less from underestimation bias or overestimation bias, which negatively affect their performance. In this paper, we reveal a simple but effective principle: proper value correction benefits bias alleviation, where we propose the generalized-activate d weighting operator that uses any non-decreasing function, namely activation function, as weights for better value estimation. Particularly, we integrate the generalized-activate d weighting operator into value estimation and introduce a novel algorithm, Generalized-activate d Deep Double Deterministic Policy Gradients (GD3). We theoretically show that GD3 is capable of alleviating the potential estimation bias. We interestingly find that simple activation functions lead to satisfying performance with no additional tricks, and could contribute to faster convergence. Experimental results on numerous challenging continuous control tasks show that GD3 with task-specific activation outperforms the common baseline methods. We also uncover a fact that fine-tuning the polynomial activation function achieves superior results on most of the tasks.
翻訳日:2021-12-22 14:06:58 公開日:2021-12-21
# 回帰モデルのための説明可能なAIを目指して

Toward Explainable AI for Regression Models ( http://arxiv.org/abs/2112.11407v1 )

ライセンス: Link先を確認
Simon Letzgus, Patrick Wagner, Jonas Lederer, Wojciech Samek, Klaus-Robert M\"uller, and Gregoire Montavon(参考訳) 機械学習(ML)モデルの印象的な予測力に加えて、最近ではディープニューラルネットワークのような複雑な非線形学習モデルの解釈を可能にする説明方法が出現している。 安全性クリティカルなmlアプリケーションや医療診断など、より深い理解を得ることは特に重要です。 このような説明可能なAI(XAI)技術は分類器でかなりの人気を得ているが、XAIの回帰モデル(XAIR)にはほとんど注目されていない。 本稿では,回帰と分類タスクにおけるxaiの基本的な概念的差異を明らかにし,xairの新たな理論的洞察と分析を確立し,実際的な回帰問題に対するxairの実証を行い,最終的にこの分野に残る課題について議論する。

In addition to the impressive predictive power of machine learning (ML) models, more recently, explanation methods have emerged that enable an interpretation of complex non-linear learning models such as deep neural networks. Gaining a better understanding is especially important e.g. for safety-critical ML applications or medical diagnostics etc. While such Explainable AI (XAI) techniques have reached significant popularity for classifiers, so far little attention has been devoted to XAI for regression models (XAIR). In this review, we clarify the fundamental conceptual differences of XAI for regression and classification tasks, establish novel theoretical insights and analysis for XAIR, provide demonstrations of XAIR on genuine practical regression problems, and finally discuss the challenges remaining for the field.
翻訳日:2021-12-22 13:25:08 公開日:2021-12-21
# その言葉を見てみよう: 単語条件付き顔の動きによるビデオ改ざん検出

Watch Those Words: Video Falsification Detection Using Word-Conditioned Facial Motion ( http://arxiv.org/abs/2112.10936v1 )

ライセンス: Link先を確認
Shruti Agarwal, Liwen Hu, Evonne Ng, Trevor Darrell, Hao Li, Anna Rohrbach(参考訳) 今日のデジタル誤報の時代では、ビデオのファルシフィケーション技術による新たな脅威に直面している。 このような偽装は、安価なフェイク(例えば、見た目や音声のダビング)からディープフェイク(例えば、高度なaiメディア合成法)まで様々で、実際のビデオとは知覚的に区別できないものになっている。 そこで本研究では,視覚品質のばらつきを検知するだけでなく,より安価で視覚的に説得力のあるディープフェイクを扱う手がかりを見つけるためのマルチモーダルセマンティクス・インフォメーション手法を提案する。 本研究の目的は,映像に写っている人物が,顔の動きと話し言葉の異常な対応を検知することで,本人であることを確かめることである。 我々は、帰属という概念を利用して、ある話者と他の話者を区別する個人固有のバイオメトリックパターンを学習する。 我々は,人物の顔と頭部の動きを,深いCNNの視覚的特徴とは対照的に捉えるために,解釈可能なアクションユニット(AUs)を用い,初めて単語条件の顔の動き分析を行った。 既存の人固有のアプローチとは異なり,本手法は唇操作に焦点を当てた攻撃にも有効である。 さらに,本手法の有効性を,事前の作業では対処されなかった映像操作のないものを含む,トレーニングで見られない様々な偽物に対して示す。

In today's era of digital misinformation, we are increasingly faced with new threats posed by video falsification techniques. Such falsifications range from cheapfakes (e.g., lookalikes or audio dubbing) to deepfakes (e.g., sophisticated AI media synthesis methods), which are becoming perceptually indistinguishable from real videos. To tackle this challenge, we propose a multi-modal semantic forensic approach to discover clues that go beyond detecting discrepancies in visual quality, thereby handling both simpler cheapfakes and visually persuasive deepfakes. In this work, our goal is to verify that the purported person seen in the video is indeed themselves by detecting anomalous correspondences between their facial movements and the words they are saying. We leverage the idea of attribution to learn person-specific biometric patterns that distinguish a given speaker from others. We use interpretable Action Units (AUs) to capture a persons' face and head movement as opposed to deep CNN visual features, and we are the first to use word-conditioned facial motion analysis. Unlike existing person-specific approaches, our method is also effective against attacks that focus on lip manipulation. We further demonstrate our method's effectiveness on a range of fakes not seen in training including those without video manipulation, that were not addressed in prior work.
翻訳日:2021-12-22 13:24:54 公開日:2021-12-21
# RepMLPNet: 局所性を再パラメータ化した階層型ビジョンMLP

RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality ( http://arxiv.org/abs/2112.11081v1 )

ライセンス: Link先を確認
Xiaohan Ding, Honghao Chen, Xiangyu Zhang, Jungong Han, Guiguang Ding(参考訳) 畳み込み層と比較すると、完全連結(fc)層は長距離依存性のモデリングに優れるが、局所的なパターンを捉えにくいため、画像認識にはあまり好まれない。 本稿では,並列なconvカーネルの訓練されたパラメータをFCカーネルにマージすることで,局所的な前処理をFC層に組み込む手法であるLocality Injectionを提案する。 局所性注入は、パラメータ変換によって等価に構造を変換するため、新しい構造的再パラメータ化法と見なすことができる。 そこで我々は3つのFC層を用いて特徴を抽出するマルチ層パーセプトロン(MLP)ブロックRepMLPブロックと、RepMLPNetという新しいアーキテクチャを提案する。 階層設計はRepMLPNetと他の同時提案されたビジョンMLPとを区別する。 異なるレベルの機能マップを生成するため、セマンティックセグメンテーションのような下流タスクのバックボーンモデルとして機能する。 私たちの結果は 1) 局所性注入はMLPモデルの一般的な方法論である。 2) RepMLPNetは,他のMLPと比較して,良好な精度・効率のトレードオフを有する。 3) RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに転送する最初のMLPである。 コードとモデルはhttps://github.com/d ingxiaoh/repmlpで入手できる。

Compared to convolutional layers, fully-connected (FC) layers are better at modeling the long-range dependencies but worse at capturing the local patterns, hence usually less favored for image recognition. In this paper, we propose a methodology, Locality Injection, to incorporate local priors into an FC layer via merging the trained parameters of a parallel conv kernel into the FC kernel. Locality Injection can be viewed as a novel Structural Re-parameterization method since it equivalently converts the structures via transforming the parameters. Based on that, we propose a multi-layer-perceptr on (MLP) block named RepMLP Block, which uses three FC layers to extract features, and a novel architecture named RepMLPNet. The hierarchical design distinguishes RepMLPNet from the other concurrently proposed vision MLPs. As it produces feature maps of different levels, it qualifies as a backbone model for downstream tasks like semantic segmentation. Our results reveal that 1) Locality Injection is a general methodology for MLP models; 2) RepMLPNet has favorable accuracy-efficiency trade-off compared to the other MLPs; 3) RepMLPNet is the first MLP that seamlessly transfer to Cityscapes semantic segmentation. The code and models are available at https://github.com/D ingXiaoH/RepMLP.
翻訳日:2021-12-22 13:23:57 公開日:2021-12-21
# PONet: 学習指向のみによるロバストな3Dヒューマンポース推定

PONet: Robust 3D Human Pose Estimation via Learning Orientations Only ( http://arxiv.org/abs/2112.11153v1 )

ライセンス: Link先を確認
Jue Wang, Shaoli Huang, Xinchao Wang, Dacheng Tao(参考訳) Conventional 3D human pose estimation relies on first detecting 2D body keypoints and then solving the 2D to 3D correspondence problem.Despite the promising results, this learning paradigm is highly dependent on the quality of the 2D keypoint detector, which is inevitably fragile to occlusions and out-of-image absences.In this paper,we propose a novel Pose Orientation Net (PONet) that is able to robustly estimate 3D pose by learning orientations only, hence bypassing the error-prone keypoint detector in the absence of image evidence. For images with partially invisible limbs, PONet estimates the 3D orientation of these limbs by taking advantage of the local image evidence to recover the 3D pose.Moreover, PONet is competent to infer full 3D poses even from images with completely invisible limbs, by exploiting the orientation correlation between visible limbs to complement the estimated poses,further improving the robustness of 3D pose estimation.We evaluate our method on multiple datasets, including Human3.6M, MPII, MPI-INF-3DHP, and 3DPW. 提案手法は,最先端技術と同等の精度で,理想的な設定で結果を得るが,キーポイント検出器への依存度と対応する計算負荷を著しく排除する。 切り離しや消去といった非常に困難なシナリオでは,本手法は非常に頑強に動作し,実世界の応用の可能性を示す技術に比べて,はるかに優れた結果が得られる。

Conventional 3D human pose estimation relies on first detecting 2D body keypoints and then solving the 2D to 3D correspondence problem.Despite the promising results, this learning paradigm is highly dependent on the quality of the 2D keypoint detector, which is inevitably fragile to occlusions and out-of-image absences.In this paper,we propose a novel Pose Orientation Net (PONet) that is able to robustly estimate 3D pose by learning orientations only, hence bypassing the error-prone keypoint detector in the absence of image evidence. For images with partially invisible limbs, PONet estimates the 3D orientation of these limbs by taking advantage of the local image evidence to recover the 3D pose.Moreover, PONet is competent to infer full 3D poses even from images with completely invisible limbs, by exploiting the orientation correlation between visible limbs to complement the estimated poses,further improving the robustness of 3D pose estimation.We evaluate our method on multiple datasets, including Human3.6M, MPII, MPI-INF-3DHP, and 3DPW. Our method achieves results on par with state-of-the-art techniques in ideal settings, yet significantly eliminates the dependency on keypoint detectors and the corresponding computation burden. In highly challenging scenarios, such as truncation and erasing, our method performs very robustly and yields much superior results as compared to state of the art,demonstrating its potential for real-world applications.
翻訳日:2021-12-22 13:23:38 公開日:2021-12-21
# max-marginコントラスト学習

Max-Margin Contrastive Learning ( http://arxiv.org/abs/2112.11450v1 )

ライセンス: Link先を確認
Anshul Shah and Suvrit Sra and Rama Chellappa and Anoop Cherian(参考訳) 標準コントラスト学習アプローチは通常、効果的な教師なし学習のために大量の負数を必要とし、しばしば緩やかな収束を示す。 この挙動は、正の対比を提供するのに使用される負の亜最適選択によるものであると考えられている。 サポートベクトルマシン(SVM)からインスピレーションを得て,MMCL(Max-margin contrastive learning)を提示することで,この問題に対処する。 提案手法は2次最適化問題を用いて得られたスパース支持ベクトルとして負を選別し,決定マージンを最大化することでコントラスト性を実現する。 SVMの最適化は、特にエンドツーエンドの環境では、計算負荷を軽減するための単純化を提案する。 標準ビジョンベンチマークデータセットに対する我々のアプローチを検証するとともに、経験的収束特性を向上しつつ、最先端の表現学習における教師なし学習のパフォーマンスを実証する。

Standard contrastive learning approaches usually require a large number of negatives for effective unsupervised learning and often exhibit slow convergence. We suspect this behavior is due to the suboptimal selection of negatives used for offering contrast to the positives. We counter this difficulty by taking inspiration from support vector machines (SVMs) to present max-margin contrastive learning (MMCL). Our approach selects negatives as the sparse support vectors obtained via a quadratic optimization problem, and contrastiveness is enforced by maximizing the decision margin. As SVM optimization can be computationally demanding, especially in an end-to-end setting, we present simplifications that alleviate the computational burden. We validate our approach on standard vision benchmark datasets, demonstrating better performance in unsupervised representation learning over state-of-the-art, while having better empirical convergence properties.
翻訳日:2021-12-22 13:23:20 公開日:2021-12-21
# タスク指向対話システム: パフォーマンス対品質最適化, レビュー

Task-oriented Dialogue Systems: performance vs. quality-optima, a review ( http://arxiv.org/abs/2112.11176v1 )

ライセンス: Link先を確認
Ryan Fellows, Hisham Ihshaish, Steve Battle, Ciaran Haines, Peter Mayhew, J. Ignacio Deza(参考訳) タスク指向対話システム(TODS)は、様々な産業が効果的に能力を活用し、時間とお金を節約する方法を見出すにつれ、人気が高まっている。 しかし、最先端のTODSでさえ、まだその可能性を最大限に発揮できていない。 TODSは通常、手作業の完了に主眼を置いているため、タスク解決の基準が優先されるべきである。 対話の成功を示す他の会話的品質特性、またはそれ以外は無視される可能性がある。 これは、ユーザーの不満や不満を和らげる人間と対話システムの相互作用を引き起こす可能性がある。 本稿では,対話システムの評価枠組みと対話システムにおける会話品質特性の役割について,その利用状況,利用状況,利用状況,および対話システムの性能との関係について検討する。

Task-oriented dialogue systems (TODS) are continuing to rise in popularity as various industries find ways to effectively harness their capabilities, saving both time and money. However, even state-of-the-art TODS are not yet reaching their full potential. TODS typically have a primary design focus on completing the task at hand, so the metric of task-resolution should take priority. Other conversational quality attributes that may point to the success, or otherwise, of the dialogue, may be ignored. This can cause interactions between human and dialogue system that leave the user dissatisfied or frustrated. This paper explores the literature on evaluative frameworks of dialogue systems and the role of conversational quality attributes in dialogue systems, looking at if, how, and where they are utilised, and examining their correlation with the performance of the dialogue system.
翻訳日:2021-12-22 13:23:03 公開日:2021-12-21
# 教師のモダリティレベルグラムマトリックスの学習によるマルチモーダル蒸留

Multi-Modality Distillation via Learning the teacher's modality-level Gram Matrix ( http://arxiv.org/abs/2112.11447v1 )

ライセンス: Link先を確認
Peng Liu(参考訳) マルチモーダルな知識蒸留研究の文脈では、既存の手法は主に教師の最終結果のみを学習する問題に焦点を当てていた。 このように、教師ネットワークと学生ネットワークの間にはまだ深い違いがある。 生徒ネットワークに教師ネットワークのモダリティ関係情報を学ぶよう強制する必要がある。 教師から生徒への知識伝達を効果的に活用するため、教師モダリティレベルグラムマトリックスを学習する異なるモダリティ間の関係情報をモデル化し、新しいモダリティ関係蒸留パラダイムを採用する。

In the context of multi-modality knowledge distillation research, the existing methods was mainly focus on the problem of only learning teacher final output. Thus, there are still deep differences between the teacher network and the student network. It is necessary to force the student network to learn the modality relationship information of the teacher network. To effectively exploit transfering knowledge from teachers to students, a novel modality relation distillation paradigm by modeling the relationship information among different modality are adopted, that is learning the teacher modality-level Gram Matrix.
翻訳日:2021-12-22 13:21:49 公開日:2021-12-21
# ナレッジグラフを用いた質問応答の推論

An Inference Approach To Question Answering Over Knowledge Graphs ( http://arxiv.org/abs/2112.11070v1 )

ライセンス: Link先を確認
Aayushee Gupta, K.M. Annervaz, Ambedkar Dukkipati, Shubhashis Sengupta(参考訳) 知識グラフ(KG)は、大きな自然言語テキストコーパスから抽出した情報を保持するための優れたツールである。 知識グラフ上の自然言語クエリの問題は、この情報の人間の消費に不可欠である。 この問題は、自然言語クエリを構造化クエリに変換し、KG上で構造化クエリを起動することで対処される。 文献における知識グラフを直接答えるモデルはほとんどない。 クエリ変換モデルと直接モデルの両方には、知識グラフのドメインに関連する特定のトレーニングデータが必要である。 本研究では,知識グラフ上の自然言語クエリの問題を前提-仮説ペア上の推論問題に変換する。 変換されたプロキシ推論問題に対して、訓練されたディープラーニングモデルを用いて、元の自然言語クエリ問題に対する解決策を提供する。 提案手法は,MetaQAデータセット上で90%以上の精度を達成し,既存の最先端技術を上回っている。 また,階層的リカレントパスエンコーダ(HRPE)と呼ばれる参照モデルを提案する。 推論モデルは、トレーニングデータの少ないドメイン間での使用を微調整することができる。 このアプローチでは、異なるドメインから新しい知識グラフをクエリするために、大きなドメイン固有のトレーニングデータを必要としない。

Knowledge Graphs (KG) act as a great tool for holding distilled information from large natural language text corpora. The problem of natural language querying over knowledge graphs is essential for the human consumption of this information. This problem is typically addressed by converting the natural language query to a structured query and then firing the structured query on the KG. Direct answering models over knowledge graphs in literature are very few. The query conversion models and direct models both require specific training data pertaining to the domain of the knowledge graph. In this work, we convert the problem of natural language querying over knowledge graphs to an inference problem over premise-hypothesis pairs. Using trained deep learning models for the converted proxy inferencing problem, we provide the solution for the original natural language querying problem. Our method achieves over 90% accuracy on MetaQA dataset, beating the existing state-of-the-art. We also propose a model for inferencing called Hierarchical Recurrent Path Encoder(HRPE). The inferencing models can be fine-tuned to be used across domains with less training data. Our approach does not require large domain-specific training data for querying on new knowledge graphs from different domains.
翻訳日:2021-12-22 13:21:41 公開日:2021-12-21
# テキスト分類のための教師付きグラフコントラスト事前学習

Supervised Graph Contrastive Pretraining for Text Classification ( http://arxiv.org/abs/2112.11389v1 )

ライセンス: Link先を確認
Samujjwal Ghosh, Subhadeep Maji, Maunendra Sankar Desarkar(参考訳) テキスト分類のためのコントラストプリトレーニング技術は、教師なしの設定で主に研究されてきた。 しかし、ラベルセマンティクスを現在のタスクと共有する関連するタスクからラベル付きデータが得られることが多い。 このラベル付きデータを効果的に利用すれば、現在のタスクをより一般化できるという仮説を立てる。 本稿では,グラフに基づく教師付きコントラスト学習手法を用いて,関連するタスクのラベル付きデータを有効に活用する新しい手法を提案する。 我々は,教師付き情報を例からトークンへ外挿することでトークングラフを作成する。 我々の定式化は、同じクラスに属する高い/低い確率のトークンが互いに近い/より近いような埋め込み空間をもたらす。 また,本手法の動機となる詳細な理論的知見も開発している。 13ドルのデータセットを用いた実験では,プレトレーニングスキームを2.5 %$,サンプルレベルのコントラスト学習ベースの定式化を平均1.8 %$で上回る結果を得た。 さらに,ゼロショット設定におけるドメイン間の有効性を平均3.91 %で示す。 最後に,低ラベルデータ方式における変圧器モデルの性能を平均4.57 % 向上させるため,知識蒸留におけるノイズの多い教師としての利用も実証した。

Contrastive pretraining techniques for text classification has been largely studied in an unsupervised setting. However, oftentimes labeled data from related tasks which share label semantics with current task is available. We hypothesize that using this labeled data effectively can lead to better generalization on current task. In this paper, we propose a novel way to effectively utilize labeled data from related tasks with a graph based supervised contrastive learning approach. We formulate a token-graph by extrapolating the supervised information from examples to tokens. Our formulation results in an embedding space where tokens with high/low probability of belonging to same class are near/further-away from one another. We also develop detailed theoretical insights which serve as a motivation for our method. In our experiments with $13$ datasets, we show our method outperforms pretraining schemes by $2.5\%$ and also example-level contrastive learning based formulation by $1.8\%$ on average. In addition, we show cross-domain effectiveness of our method in a zero-shot setting by $3.91\%$ on average. Lastly, we also demonstrate our method can be used as a noisy teacher in a knowledge distillation setting to significantly improve performance of transformer based models in low labeled data regime by $4.57\%$ on average.
翻訳日:2021-12-22 13:21:27 公開日:2021-12-21
# DB-BERT:"マニュアルを読む"データベースチューニングツール

DB-BERT: a Database Tuning Tool that "Reads the Manual" ( http://arxiv.org/abs/2112.10925v1 )

ライセンス: Link先を確認
Immanuel Trummer(参考訳) DB-BERTは、マニュアルやその他の関連文書の自然言語解析を通じて得られる情報を利用するデータベースチューニングツールである。 テキストを使用してデータベースシステムのパラメータを識別し、推奨パラメータ値をチューニングする。 DB-BERTはテキスト分析に大規模で事前訓練された言語モデル(特にBERTモデル)を適用する。 最初のトレーニングフェーズでは、モデル重みを微調整して、自然言語ヒントを推奨設定に変換する。 実行時にDB-BERTは、特定のデータベースシステムとベンチマークの最適なパフォーマンスを達成するためにヒントを集約、適応、優先順位付けすることを学ぶ。 両方のフェーズは反復的であり、強化学習を使用してチューニング設定の選択をガイドし、評価する(データベースシステムが拒否するペナルティ設定は、パフォーマンスを改善するための設定に報いる)。 実験ではDB-BERTの入力としてデータベースチューニングに関する数百の文書を利用する。 さまざまなベンチマーク(TPC-CとTPC-H)、メトリクス(スループットと実行時間)、データベースシステム(PostgresとMySQL)を考慮して、DB-BERTをさまざまなベースラインと比較する。 すべての場合、DB-BERTは比較されたメソッドの中で最高のパラメータ設定を見つけます。 db-bertのコードはhttps://itrummer.git hub.io/dbbert/で入手できる。

DB-BERT is a database tuning tool that exploits information gained via natural language analysis of manuals and other relevant text documents. It uses text to identify database system parameters to tune as well as recommended parameter values. DB-BERT applies large, pre-trained language models (specifically, the BERT model) for text analysis. During an initial training phase, it fine-tunes model weights in order to translate natural language hints into recommended settings. At run time, DB-BERT learns to aggregate, adapt, and prioritize hints to achieve optimal performance for a specific database system and benchmark. Both phases are iterative and use reinforcement learning to guide the selection of tuning settings to evaluate (penalizing settings that the database system rejects while rewarding settings that improve performance). In our experiments, we leverage hundreds of text documents about database tuning as input for DB-BERT. We compare DB-BERT against various baselines, considering different benchmarks (TPC-C and TPC-H), metrics (throughput and run time), as well as database systems (Postgres and MySQL). In all cases, DB-BERT finds the best parameter settings among all compared methods. The code of DB-BERT is available online at https://itrummer.git hub.io/dbbert/.
翻訳日:2021-12-22 13:21:11 公開日:2021-12-21
# AutoCTS: 自動関連時系列予測 -- 拡張バージョン

AutoCTS: Automated Correlated Time Series Forecasting -- Extended Version ( http://arxiv.org/abs/2112.11174v1 )

ライセンス: Link先を確認
Xinle Wu, Dalin Zhang, Chenjuan Guo, Chaoyang He, Bin Yang, Christian S. Jensen(参考訳) 相関時系列(correlationed time series, cts)は、複数のセンサが相互に接続されたプロセスをキャプチャする時系列を発生させる、多くのサイバー物理システムにおいて重要な役割を担っている。 最先端のCTS予測性能を提供するディープラーニングに基づくソリューションでは、時系列間の時間的依存関係と空間的相関をモデル化できる様々な時空間ブロックが採用されている。 しかし、2つの課題が残る。 まず、STブロックは手動で設計される。 第2に、既存の予測モデルは同じSTブロックを複数回積み重ねただけで、モデルポテンシャルが制限される。 これらの課題に対処するために,我々は,競争性の高いstブロックを自動的に識別するオートctを提案するとともに,単純な積み重ねによって接続される同一のstブロックとは対照的に,異なるstブロックで接続されたモデルを予測する手法を提案する。 具体的には,STブロックの可能なアーキテクチャと異種STブロック間の接続をモデル化するためのマイクロおよびマクロ検索空間を設計し,探索空間を探索して最適な予測モデルを特定するための探索戦略を提案する。 一般的な8つのCTS予測ベンチマークデータセットに関する大規模な実験は、私たちの設計選択を正当化し、AutoCTSが、最先端の人間設計モデルを上回る予測モデルを自動的に発見できることを示した。 これはPVLDB 2022に登場予定の ``AutoCTS: Automated Correlated Time Series Forecasting'' の拡張版である。

Correlated time series (CTS) forecasting plays an essential role in many cyber-physical systems, where multiple sensors emit time series that capture interconnected processes. Solutions based on deep learning that deliver state-of-the-art CTS forecasting performance employ a variety of spatio-temporal (ST) blocks that are able to model temporal dependencies and spatial correlations among time series. However, two challenges remain. First, ST-blocks are designed manually, which is time consuming and costly. Second, existing forecasting models simply stack the same ST-blocks multiple times, which limits the model potential. To address these challenges, we propose AutoCTS that is able to automatically identify highly competitive ST-blocks as well as forecasting models with heterogeneous ST-blocks connected using diverse topologies, as opposed to the same ST-blocks connected using simple stacking. Specifically, we design both a micro and a macro search space to model possible architectures of ST-blocks and the connections among heterogeneous ST-blocks, and we provide a search strategy that is able to jointly explore the search spaces to identify optimal forecasting models. Extensive experiments on eight commonly used CTS forecasting benchmark datasets justify our design choices and demonstrate that AutoCTS is capable of automatically discovering forecasting models that outperform state-of-the-art human-designed models. This is an extended version of ``AutoCTS: Automated Correlated Time Series Forecasting'', to appear in PVLDB 2022.
翻訳日:2021-12-22 13:20:50 公開日:2021-12-21
# (参考訳) MoCaNet: 標準化ネットワークによる移動再ターゲティング [全文訳有]

MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks ( http://arxiv.org/abs/2112.10082v2 )

ライセンス: CC BY-SA 4.0
Wentao Zhu, Zhuoqian Yang, Ziang Di, Wayne Wu, Yizhou Wang, Chen Change Loy(参考訳) 制御された環境からの3次元モーションリターゲティングタスクを現場のシナリオにもたらす新しいフレームワークを提案する。 特に,2次元モノクロ映像のキャラクタから3次元キャラクタへの体の動きを,モーションキャプチャシステムや3次元再構成手順を使わずに再ターゲットすることが可能である。 3dアノテーションやモーションボディーのペアリング情報のない、教師なしのトレーニングに巨大なオンラインビデオを活用するように設計されている。 提案手法は,2つの新しい正準化演算,構造正準化とビュー正準化に基づく。 正準化操作と導出正規化を併用して,本手法は骨格配列を3つの独立した意味空間,すなわち運動,構造,視角に分解する。 歪んだ表現は、高精度で2Dから3Dへの動き再ターゲティングを可能にする。 提案手法は, 運動伝達ベンチマークにおいて, 身体の変動が大きく, 挑戦的な動作で優れた性能を実現する。 特に、標準化された骨格配列は、行動分析と運動検索の恩恵を受ける人間の動きの歪んだ解釈可能な表現として機能する可能性がある。

We present a novel framework that brings the 3D motion retargeting task from controlled environments to in-the-wild scenarios. In particular, our method is capable of retargeting body motion from a character in a 2D monocular video to a 3D character without using any motion capture system or 3D reconstruction procedure. It is designed to leverage massive online videos for unsupervised training, needless of 3D annotations or motion-body pairing information. The proposed method is built upon two novel canonicalization operations, structure canonicalization and view canonicalization. Trained with the canonicalization operations and the derived regularizations, our method learns to factorize a skeleton sequence into three independent semantic subspaces, i.e., motion, structure, and view angle. The disentangled representation enables motion retargeting from 2D to 3D with high precision. Our method achieves superior performance on motion transfer benchmarks with large body variations and challenging actions. Notably, the canonicalized skeleton sequence could serve as a disentangled and interpretable representation of human motion that benefits action analysis and motion retrieval.
翻訳日:2021-12-22 12:37:34 公開日:2021-12-21
# (参考訳) 完全自動欠陥検出における製品再同定システム [全文訳有]

Product Re-identification System in Fully Automated Defect Detection ( http://arxiv.org/abs/2112.10324v2 )

ライセンス: CC BY 4.0
Chenggui Sun and Li Bin Song(参考訳) 本研究では,完全自動製品欠陥検出システムの基本機能である製品再同定を行うための手法と改良されたニューラルワークを提案する。 我々の手法は特徴距離に基づいている。 これは、vgg16、alexnetのような特徴抽出ニューラルネットワークと、画像検索エンジンであるvearchとの組み合わせである。 製品再識別システムの開発に使用したデータセットは,18種類の水のボトルの400画像からなる水ボトルデータセットである。 これは小さなデータセットで、私たちの仕事で最大の課題でした。 しかし、ニューラルネットワークとvearchの組み合わせは、製品の再識別問題に取り組む可能性を示しています。 特に、新しいニューラルネットワークであるAlphaAlexNetでは、AlexNetに基づくニューラルネットワークの改善により、生産の識別精度が4%向上する可能性がある。 これは、ほぼ同一製品の画像特徴抽出のために効率的な特徴抽出手法を導入して再設計できる場合に、理想的な生産識別精度が得られることを示している。 データセットの小さなサイズと、互いにほとんど違いのないプロダクションを特定することの難しい性質によって引き起こされる最大の課題を解決する。 今後の作業では、ほぼ同一のプロダクション識別に取り組むための新しいロードマップを提案しています。

In this work, we introduce a method and present an improved neural work to perform product re-identification, which is an essential core function of a fully automated product defect detection system. Our method is based on feature distance. It is the combination of feature extraction neural networks, such as VGG16, AlexNet, with an image search engine - Vearch. The dataset that we used to develop product re-identification systems is a water-bottle dataset that consists of 400 images of 18 types of water bottles. This is a small dataset, which was the biggest challenge of our work. However, the combination of neural networks with Vearch shows potential to tackle the product re-identification problems. Especially, our new neural network - AlphaAlexNet that a neural network was improved based on AlexNet could improve the production identification accuracy by four percent. This indicates that an ideal production identification accuracy could be achieved when efficient feature extraction methods could be introduced and redesigned for image feature extractions of nearly identical products. In order to solve the biggest challenges caused by the small size of the dataset and the difficult nature of identifying productions that have little differences from each other. In our future work, we propose a new roadmap to tackle nearly-identical production identifications: to introduce or develop new algorithms that need very few images to train themselves.
翻訳日:2021-12-22 12:21:34 公開日:2021-12-21
# (参考訳) Turbo-Sim:物理潜在空間を持つ一般化生成モデル [全文訳有]

Turbo-Sim: a generalised generative model with a physical latent space ( http://arxiv.org/abs/2112.10629v2 )

ライセンス: CC BY 4.0
Guillaume Qu\'etant, Mariia Drozdova, Vitaliy Kinakh, Tobias Golling, Slava Voloshynovskiy(参考訳) 本稿では,情報理論の原理から派生した汎用オートエンコーダフレームワークであるTurbo-Simについて述べる。 エンコーダとデコーダの出力の入力と出力の相互情報を最大化することで、敵のオートエンコーダや生成的な敵ネットワークに見られる損失項や、より洗練された関連モデルを再発見することができる。 一般化されたフレームワークは、これらのモデルを数学的に解釈可能とし、各損失項の重みを個別に設定することで、新しいモデルの多様性を実現する。 また、このフレームワークはエンコーダとデコーダの固有のアーキテクチャとは独立しており、ネットワーク全体のビルディングブロックに対して幅広い選択肢を残している。 衝突の直後に理論空間から観測空間へのいくつかの粒子の性質の変換を実験で検出した直後に行う衝突器物理生成問題に適用する。

We present Turbo-Sim, a generalised autoencoder framework derived from principles of information theory that can be used as a generative model. By maximising the mutual information between the input and the output of both the encoder and the decoder, we are able to rediscover the loss terms usually found in adversarial autoencoders and generative adversarial networks, as well as various more sophisticated related models. Our generalised framework makes these models mathematically interpretable and allows for a diversity of new ones by setting the weight of each loss term separately. The framework is also independent of the intrinsic architecture of the encoder and the decoder thus leaving a wide choice for the building blocks of the whole network. We apply Turbo-Sim to a collider physics generation problem: the transformation of the properties of several particles from a theory space, right after the collision, to an observation space, right after the detection in an experiment.
翻訳日:2021-12-22 12:01:24 公開日:2021-12-21
# 一般的な欲望のデバイアス学習

General Greedy De-bias Learning ( http://arxiv.org/abs/2112.10572v2 )

ライセンス: Link先を確認
Xinzhe Han, Shuhui Wang, Chi Su, Qingming Huang, Qi Tian(参考訳) ニューラルネットワークは、しばしば、関心のあるタスクの固有の特性ではなく、データセットからのスプリアス相関に依存する予測を行い、out-of-distribution( ood)テストデータで顕著に劣化する。 既存のデバイアス学習フレームワークは、バイアスアノテーションによって特定のデータセットバイアスをキャプチャしようとするが、複雑なOODシナリオを処理できない。 他の人たちは、低能力バイアスモデルや損失に関する特別な設計によってデータセットのバイアスを暗黙的に識別するが、トレーニングとテストのデータを同じディストリビューションから削除する。 本稿では,関数空間における勾配勾配のように,偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 バイアスのあるモデルでは解決が難しい例にベースモデルを集中させることが推奨されるため、テスト段階では急激な相関に対して堅牢なままである。 GGDは様々なタスクにおけるモデルのOOD一般化能力を大幅に改善するが、時にはバイアスレベルを過大評価し、分散テストで劣化させる。 さらに、ggdのアンサンブルプロセスを再度分析し、カリキュラム学習にインスパイアされたggdにカリキュラム正規化を導入することにより、配信内と配信外のパフォーマンスとの良好なトレードオフを実現する。 画像分類, 逆質問応答, 視覚的質問応答に関する広範な実験により, 本手法の有効性が示された。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己集合バイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。

Neural networks often make predictions relying on the spurious correlations from the datasets rather than the intrinsic properties of the task of interest, facing sharp degradation on out-of-distribution (OOD) test data. Existing de-bias learning frameworks try to capture specific dataset bias by bias annotations, they fail to handle complicated OOD scenarios. Others implicitly identify the dataset bias by the special design on the low capability biased model or the loss, but they degrade when the training and testing data are from the same distribution. In this paper, we propose a General Greedy De-bias learning framework (GGD), which greedily trains the biased models and the base model like gradient descent in functional space. It encourages the base model to focus on examples that are hard to solve with biased models, thus remaining robust against spurious correlations in the test stage. GGD largely improves models' OOD generalization ability on various tasks, but sometimes over-estimates the bias level and degrades on the in-distribution test. We further re-analyze the ensemble process of GGD and introduce the Curriculum Regularization into GGD inspired by curriculum learning, which achieves a good trade-off between in-distribution and out-of-distribution performance. Extensive experiments on image classification, adversarial question answering, and visual question answering demonstrate the effectiveness of our method. GGD can learn a more robust base model under the settings of both task-specific biased models with prior knowledge and self-ensemble biased model without prior knowledge.
翻訳日:2021-12-22 11:26:39 公開日:2021-12-21
# 対話選択による画像検索のためのラベルノイズ学習

Learning with Label Noise for Image Retrieval by Selecting Interactions ( http://arxiv.org/abs/2112.10453v2 )

ライセンス: Link先を確認
Sarah Ibrahimi and Arnaud Sors and Rafael Sampaio de Rezende and St\'ephane Clinchant(参考訳) ノイズラベルを用いた学習は、画像分類の活発な研究領域である。 しかし,ノイズラベルが画像検索に与える影響についてはあまり研究されていない。 本研究では,教師によるインタラクションの選択(T-SINT)という,ノイズの多いインタラクションを識別する画像検索手法を提案する。 距離行列の要素を抽出し、その安定性に寄与する教師ベースのトレーニング設定を用いて、検索損失において考慮すべき正と負の相互作用を選択する。 その結果、合成ノイズやより現実的なノイズを含むベンチマークデータセット全体の高いノイズレートにおいて、最先端の手法を一貫して上回っている。

Learning with noisy labels is an active research area for image classification. However, the effect of noisy labels on image retrieval has been less studied. In this work, we propose a noise-resistant method for image retrieval named Teacher-based Selection of Interactions, T-SINT, which identifies noisy interactions, ie. elements in the distance matrix, and selects correct positive and negative interactions to be considered in the retrieval loss by using a teacher-based training setup which contributes to the stability. As a result, it consistently outperforms state-of-the-art methods on high noise rates across benchmark datasets with synthetic noise and more realistic noise.
翻訳日:2021-12-22 11:26:11 公開日:2021-12-21
# 磁気共鳴画像再構成のための学習型半曲面分割ネットワーク

Learned Half-Quadratic Splitting Network for Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2112.09760v2 )

ライセンス: Link先を確認
Bingyu Xin, Timothy S. Phan, Leon Axel, Dimitris N. Metaxas(参考訳) 高アンサンプされた$k$-spaceデータからのMR画像再構成は、MRI(Accelerd MR imaging)技術において重要である。 近年,ディープラーニングに基づく手法がこの課題に大きな可能性を示している。 本稿では,mr画像再構成のための学習型半量子分割アルゴリズムを提案し,未ロール深層学習ネットワークアーキテクチャで実装する。 提案手法は,DC-CNN と LPDNet に対する公共心MRデータセットの性能を比較検討し,定量的な結果と定性的な結果の両方において,より少ないモデルパラメータと高速な再構成速度で比較した。 最後に,再現性の向上のためにモデルを拡張し,ピーク信号対雑音比を5\times$と10\times$Accelerator でそれぞれ1.76$dBと2.74$dBに改善した。 このメソッドのコードはhttps://github.com/h ellopipu/hqs-netで公開されている。

Magnetic Resonance (MR) image reconstruction from highly undersampled $k$-space data is critical in accelerated MR imaging (MRI) techniques. In recent years, deep learning-based methods have shown great potential in this task. This paper proposes a learned half-quadratic splitting algorithm for MR image reconstruction and implements the algorithm in an unrolled deep learning network architecture. We compare the performance of our proposed method on a public cardiac MR dataset against DC-CNN and LPDNet, and our method outperforms other methods in both quantitative results and qualitative results with fewer model parameters and faster reconstruction speed. Finally, we enlarge our model to achieve superior reconstruction quality, and the improvement is $1.76$ dB and $2.74$ dB over LPDNet in peak signal-to-noise ratio on $5\times$ and $10\times$ acceleration, respectively. Code for our method is publicly available at https://github.com/h ellopipu/HQS-Net.
翻訳日:2021-12-22 11:26:02 公開日:2021-12-21
# 胸部x線写真を用いた肺結節検出のための深層学習ワークフロー

A Deep Learning Based Workflow for Detection of Lung Nodules With Chest Radiograph ( http://arxiv.org/abs/2112.10184v2 )

ライセンス: Link先を確認
Yang Tai, Yu-Wen Fang (Same contribution), Fang-Yi Su, and Jung-Hsien Chiang(参考訳) PURPOSE:胸部X線写真(CXR)による肺結節の検出と局所化を目的とした深層学習ツールの開発を目的とした。 我々は,CXRの解釈効率を高め,肺癌の診断遅延の可能性を低減することを期待した。 資料と方法:NCKUHデータベースとオープンソースの医療画像データセットであるVBDからCXRをトレーニングおよび検証データとして収集した。 厚生労働省(MOHW)データベースのCXRがテストデータとして役立ちました。 CXRから肺領域を識別するセグメンテーションモデルを構築し,それを16個のパッチに分割した。 医師はパッチをクリックしてCXRにラベルを付けた。 これらのラベル付きパッチは、ディープニューラルネットワーク(dnn)モデルのトレーニングと微調整に使用され、パッチを正または負に分類した。 最後に,MOHWのCXRの肺パッチを用いてDNNモデルを検証した。 結果: 分画モデルはcxr全体から肺領域をよく同定した。 接地真理と分断結果の間の連合(IoU)のインターセクションは0.9228である。 さらに, 125例中98例において, DNNモデルは0.81, 0.82, AUROCは0.869であった。 他の27例では感度0.54、特異性0.494、AUROC 0.682であった。 感度0.78,特異性0.79,AUROC0.837を得た。 CONCLUSIONS: 我々の2段階のワークフローは、CXRから肺結節を局在させる感度と特異性において最先端のアルゴリズムに匹敵する。 特に,本ワークフローは,ラベル付き医用画像データの相対的希少性から,関連研究に有用なラベル付けを行うための効率的な方法である。

PURPOSE: This study aimed to develop a deep learning-based tool to detect and localize lung nodules with chest radiographs(CXRs). We expected it to enhance the efficiency of interpreting CXRs and reduce the possibilities of delayed diagnosis of lung cancer. MATERIALS AND METHODS: We collected CXRs from NCKUH database and VBD, an open-source medical image dataset, as our training and validation data. A number of CXRs from the Ministry of Health and Welfare(MOHW) database served as our test data. We built a segmentation model to identify lung areas from CXRs, and sliced them into 16 patches. Physicians labeled the CXRs by clicking the patches. These labeled patches were then used to train and fine-tune a deep neural network(DNN) model, classifying the patches as positive or negative. Finally, we test the DNN model with the lung patches of CXRs from MOHW. RESULTS: Our segmentation model identified the lung regions well from the whole CXR. The Intersection over Union(IoU) between the ground truth and the segmentation result was 0.9228. In addition, our DNN model achieved a sensitivity of 0.81, specificity of 0.82, and AUROC of 0.869 in 98 of 125 cases. For the other 27 difficult cases, the sensitivity was 0.54, specificity 0.494, and AUROC 0.682. Overall, we obtained a sensitivity of 0.78, specificity of 0.79, and AUROC 0.837. CONCLUSIONS: Our two-step workflow is comparable to state-of-the-art algorithms in the sensitivity and specificity of localizing lung nodules from CXRs. Notably, our workflow provides an efficient way for specialists to label the data, which is valuable for relevant researches because of the relative rarity of labeled medical image data.
翻訳日:2021-12-22 11:25:44 公開日:2021-12-21